首页 / 专利库 / 电脑零配件 / 接口 / 一种音频信号处理方法及装置

一种音频信号处理方法及装置

阅读:819发布:2023-05-27

专利汇可以提供一种音频信号处理方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 公开一种音频 信号 处理的方法及装置,其中,所述 音频信号 处理方法包括:获取待处理的第一音频信号;确定所述第一音频信号包含的至少一个 音素 ;计算所述至少一个音素的音素 覆盖 率,若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型。采用本申请的技术方案,能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,提高声纹识别模型进行说话人辨识的准确度。,下面是一种音频信号处理方法及装置专利的具体信息内容。

1.一种音频信号处理方法,其特征在于,包括:
获取待处理的第一音频信号
确定所述第一音频信号包含的至少一个音素
计算所述至少一个音素的音素覆盖率,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例;
若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,所述第一声纹识别模型为采用所述第一音频信号的声纹特征信息训练得到的,所述第二声纹识别模型为采用第二音频信号的声纹特征信息训练得到的。
2.如权利要求1所述的方法,其特征在于,所述将第一声纹识别模型更新为第二声纹识别模型之前,还包括:
输出用于提示用户输入第二音频信号的提示信息;
获取输入的所述第二音频信号;
提取所述第二音频信号的声纹特征信息;
采用所述第二音频信号的声纹特征信息训练第二声纹识别模型。
3.如权利要求1所述的方法,其特征在于,所述音素覆盖率包括声母覆盖率和/或韵母覆盖率,所述声母覆盖率用于表示所述至少一个音素中声母的种类与声母的总数量之间的比例,所述韵母覆盖率用于表示所述至少一个音素中韵母的种类与韵母的总数量之间的比例。
4.如权利要求3所述的方法,其特征在于,所述音素覆盖率包括声母覆盖率和韵母覆盖率;
所述若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,包括:
若所述声母覆盖率小于第一阈值,且所述韵母覆盖率小于第二阈值,则将第一声纹识别模型更新为第二声纹识别模型。
5.如权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
若所述音素覆盖率不满足所述目标条件,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型;
获取第三音频信号,并将所述第三音频信号输入所述第一声纹识别模型进行声纹识别处理,获得处理结果;
根据所述处理结果,确定所述第三音频信号是否与所述第一用户标识关联。
6.如权利要求1所述的方法,其特征在于,所述确定所述第一音频信号包含的至少一个音素之前,还包括:
对所述第一音频信号进行预处理,所述预处理包括保留所述第一音频信号中符合预设语音特征的音频信号,和/或,删除所述第一音频信号中的静默语音信号
所述确定所述第一音频信号包含的至少一个音素,包括:
确定所述预处理后的所述第一音频信号包含的至少一个音素。
7.如权利要求1所述的方法,其特征在于,所述计算所述至少一个音素的音素覆盖率之前,还包括:
根据所述至少一个音素,确定所述第一音频信号对应的目标文本;
若所述目标文本与预设文本不匹配,则执行计算所述至少一个音素的音素覆盖率的步骤。
8.一种音频信号处理装置,其特征在于,包括:
第一获取单元,用于获取待处理的第一音频信号;
第一确定单元,用于确定所述第一音频信号包含的至少一个音素;
计算单元,用于计算所述至少一个音素的音素覆盖率,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例;
更新单元,用于若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,所述第一声纹识别模型为采用所述第一音频信号的声纹特征信息训练得到的,所述第二声纹识别模型为采用第二音频信号的声纹特征信息训练得到的。
9.一种音频信号处理装置,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任一项所述的方法。

说明书全文

一种音频信号处理方法及装置

技术领域

[0001] 本发明涉及语音处理技术领域,尤其涉及一种音频信号处理方法及装置。

背景技术

[0002] 在用户进行声纹注册过程中,需要根据用户的注册语音进行声纹识别模型的训练,训练得到的声纹识别模型用于后续进行说话人辨识,以确定该说话人是否为该声纹识别模型对应的用户。
[0003] 目前,现有的文本无关的声纹识别系统中,用户进行声纹注册时,通常会让用户任意说话,话语时长超过既定的阈值即可。然而,这段注册语音能否完整地体现出用户的发音特征,系统是无法保证的。当该段注册语音不能完整地体现出用户的发音特征,而继续采用该段注册语音所训练的声纹识别模型进行说话人辨识,会导致区分用户的个体差异能会大大降低,从而影响系统整体的识别性能。

发明内容

[0004] 本发明实施例提供一种音频信号处理方法及装置,能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,提高声纹识别模型进行说话人辨识的准确度。
[0005] 第一方面,本发明实施例提供了一种音频信号处理方法,包括:
[0006] 获取待处理的第一音频信号;
[0007] 确定所述第一音频信号包含的至少一个音素
[0008] 计算所述至少一个音素的音素覆盖率,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例;
[0009] 若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,所述第一声纹识别模型为采用所述第一音频信号的声纹特征信息训练得到的,所述第二声纹识别模型为采用第二音频信号的声纹特征信息训练得到的。
[0010] 在另一种可能实现的实施方式中,所述将第一声纹识别模型更新为第二声纹识别模型之前,还包括:
[0011] 输出用于提示用户输入第二音频信号的提示信息;
[0012] 获取输入的所述第二音频信号;
[0013] 提取所述第二音频信号的声纹特征信息;
[0014] 采用所述第二音频信号的声纹特征信息训练第二声纹识别模型。
[0015] 在一种可能实现的实施方式中,所述音素覆盖率包括声母覆盖率和/或韵母覆盖率,所述声母覆盖率用于表示所述至少一个音素中声母的种类与声母的总数量之间的比例,所述韵母覆盖率用于表示所述至少一个音素中韵母的种类与韵母的总数量之间的比例。
[0016] 在一种可能实现的实施方式中,所述音素覆盖率包括声母覆盖率和韵母覆盖率;
[0017] 所述若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,包括:
[0018] 若所述声母覆盖率小于第一阈值,且所述韵母覆盖率小于第二阈值,则将第一声纹识别模型更新为第二声纹识别模型。
[0019] 在一种可能实现的实施方式中,所述方法还包括:
[0020] 若所述音素覆盖率不满足所述目标条件,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型;
[0021] 获取第三音频信号,并将所述第三音频信号输入所述第一声纹识别模型进行声纹识别处理,获得处理结果;
[0022] 根据所述处理结果,确定所述第三音频信号是否与所述第一用户标识关联。
[0023] 在又一种可能实现的实施方式中,所述确定所述第一音频信号包含的至少一个音素之前,还包括:
[0024] 对所述第一音频信号进行预处理,所述预处理包括保留所述第一音频信号中符合预设语音特征的音频信号,和/或,删除所述第一音频信号中的静默语音信号
[0025] 所述确定所述第一音频信号包含的至少一个音素,包括:
[0026] 确定所述预处理后的所述第一音频信号包含的至少一个音素。
[0027] 在又一种可能实现的实施方式中,所述计算所述至少一个音素的音素覆盖率之前,还包括:
[0028] 根据所述至少一个音素,确定所述第一音频信号对应的目标文本;
[0029] 若所述目标文本与预设文本不匹配,则执行计算所述至少一个音素的音素覆盖率的步骤。
[0030] 第二方面,本实施例还提供了一种音频信号处理装置,包括:
[0031] 第一获取单元,用于获取待处理的第一音频信号;
[0032] 第一确定单元,用于确定所述第一音频信号包含的至少一个音素;
[0033] 计算单元,用于计算所述至少一个音素的音素覆盖率,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例;
[0034] 更新单元,用于若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,所述第一声纹识别模型为采用所述第一音频信号的声纹特征信息训练得到的,所述第二声纹识别模型为采用第二音频信号的声纹特征信息训练得到的。
[0035] 在一种可能实现的实施方式中,所述装置还包括:
[0036] 输出单元,用于输出用于提示用户输入第二音频信号的提示信息;
[0037] 第二获取单元,用于获取输入的所述第二音频信号;
[0038] 提取单元,用于提取所述第二音频信号的声纹特征信息;
[0039] 训练单元,用于采用所述第二音频信号的声纹特征信息训练第二声纹识别模型。
[0040] 在一种可能实现的实施方式中,所述音素覆盖率包括声母覆盖率和/或韵母覆盖率,所述声母覆盖率用于表示所述至少一个音素中声母的种类与声母的总数量之间的比例,所述韵母覆盖率用于表示所述至少一个音素中韵母的种类与韵母的总数量之间的比例。
[0041] 在一种可能实现的实施方式中,所述音素覆盖率包括声母覆盖率和韵母覆盖率;
[0042] 所述更新单元具体用于若所述声母覆盖率小于第一阈值,且所述韵母覆盖率小于第二阈值,则将第一声纹识别模型更新为第二声纹识别模型。
[0043] 在一种可能实现的实施方式中,所述装置还包括:
[0044] 第二确定单元,用于若所述音素覆盖率不满足所述目标条件,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型;
[0045] 声纹识别处理单元,用于获取第三音频信号,并将所述第三音频信号输入所述第一声纹识别模型进行声纹识别处理,获得处理结果;
[0046] 第三确定单元,用于根据所述处理结果,确定所述第三音频信号是否与所述第一用户标识关联。
[0047] 在一种可能实现的实施方式中,所述装置还包括:
[0048] 预处理单元,用于对所述第一音频信号进行预处理,所述预处理包括保留所述第一音频信号中符合预设语音特征的音频信号,和/或,删除所述第一音频信号中的静默语音信号;
[0049] 所述第一确定单元具体用于确定所述预处理后的所述第一音频信号包含的至少一个音素。
[0050] 在一种可能实现的实施方式中,所述装置还包括:
[0051] 第四确定单元,用于根据所述至少一个音素,确定所述第一音频信号对应的目标文本;
[0052] 所述计算单元具体用于若所述目标文本与预设文本不匹配,则执行计算所述至少一个音素的音素覆盖率的步骤。
[0053] 在一种可能实现的实施方式中,一种音频信号处理装置,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行第一方面所述的方法。
[0054] 在一种可能实现的实施方式中,一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
[0055] 本发明实施例中,通过获取待处理的第一音频信号后,确定所述第一音频信号包含的至少一个音素,并计算所述至少一个音素的音素覆盖率,若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型。本申请能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,更好的帮助模型区分不同个体的差异,提高声纹识别模型进行说话人辨识的准确度。附图说明
[0056] 为了说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
[0057] 图1为本发明实施例提供的一种音频信号处理方法的流程图
[0058] 图2为本发明实施例提供的一种汉语音素表示意图;
[0059] 图3为本发明实施例提供的一种汉语拼音声母表示意图;
[0060] 图4为本发明实施例提供的一种汉语拼音韵母表示意图;
[0061] 图5为本发明实施例提供的另一种音频信号处理方法的流程图;
[0062] 图6为本发明实施例提供的又一种音频信号处理方法的流程图;
[0063] 图7为本发明实施例提供的一种音频信号处理装置的结构示意图;
[0064] 图8为本发明实施例提供的另一种音频信号处理装置的结构示意图;
[0065] 图9为本发明实施例提供的又一种音频信号处理装置的结构示意图。

具体实施方式

[0066] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
[0067] 下面将结合附图1-附图6,对本发明实施例提供的音频信号处理方法进行详细介绍。
[0068] 请参见图1,为本发明实施例提供了一种音频信号处理方法的流程示意图。如图1所示,本发明实施例的音频信号处理方法可以包括以下步骤S101-步骤S104。
[0069] S101,获取待处理的第一音频信号;
[0070] S102,确定所述第一音频信号包含的至少一个音素;
[0071] 在一个实施例中,其中,第一音频信号可以是第一用户在进行声纹注册时任意说出的一段注册语音对应的音频信号,通过本申请实施例的方法确定该段注册语音是否合格,若不合格,会提示用户重新注册,即重新说出一段注册语音,或者,该第一音频信号可以是第一用户说出的多段注册语音对应的音频信号,通过本申请实施例的方法确定出该多段注册语音中哪些注册语音是合格的注册语音。
[0072] 该第一音频信号用于训练第一用户标识对应的第一声纹识别模型。第一声纹识别模型用于后续进行说话人辨识,以确定是否为该第一用户。为了能够更加准确的进行说话人辨识,用于训练第一声纹识别模型的第一音频信号需要能够体现第一用户的发音特征,本申请实施例通过音素覆盖率来确定第一音频信号是否能够体现第一用户的发音特征。
[0073] 确定方法可以使用自动语音识别(Automatic Speech Recognition,ASR)技术得到第一音频中的每个音素,ASR是一种将人的音频信号转换为文本的技术。可选的,在获取音素之前,即在步骤S101获取待处理的第一音频信号之后,还可以对所述第一音频信号进行预处理。
[0074] 可选的,所述预处理可以包括:保留所述第一音频信号中符合预设语音特征的音频信号,如保留第一音频信号中能够获取到音素的音频信号;和/或,删除所述第一音频信号中的静默语音信号,如去除用户在输入音频信号的时候,因为语句之间的断句或者暂停而产生的静默语音信号,也可以去除在用户任意说出的一段注册语音获取第一音频信号时,录入了其他的非语音信号,如汽车的鸣笛声、音乐声等。
[0075] 具体可选的,对第一音频信号进行分,获得N帧音频信号,即将第一音频信号切分为N个小段,一个小段称为一帧。每帧的帧长,即是该小段音频信号的长度,比如可以是25ms。其中,分帧操作可以是使用移动窗函数来实现。
[0076] 对该N帧音频信号进行声学特征提取,声学特征包括但不限于MFCC特征,即根据人的生理特性,把每一帧波形变成一个多维向量,该向量包含了这帧语音信号的内容信息。第一音频信号就成了一个12行(假设声学特征是12维)、N列的一个矩阵,这里N为总帧数。
[0077] 根据每帧音频信号对应的多维向量进行处理,确定该帧音频信号对应哪一个状态的概率最大,即将该状态确定为该帧音频信号对应的状态,通常相邻若干帧音频信号对应的状态相同,即若干帧音频信号对应一个状态,每三个状态组合成一个音素,通常全部声母和韵母组成所有音素。可选的,若干个音素组成一个单词,从而得到该第一音频信号对应的目标文本。若目标文本与预设文本不匹配,则执行步骤S103,若目标文本与预设文本匹配,则直接采用第一音频信号的声纹特征信息训练得到的第一声纹识别模型进行说话人辨识,完成注册。其中,预设文本可以是系统预先设置的文本,包含该预设文本的音频信号可以是能够体现用户的发音特征的信号,因此可以直接采用第一声纹识别模型进行说话人辨识。
[0078] 如图2所示,包括b、p、m、f、z、c、s、d、t、n、l、zh、ch、sh等因素。
[0079] S103,计算所述至少一个音素的音素覆盖率;
[0080] S104,若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型;
[0081] 在一个实施例中,第一音频信号的音素覆盖率可以表明第一音频信号是否能够体现第一用户的发音特征,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例,为了使得第一音频信号能够尽可能多的体现用户的发音特征,需要第一音频信号的音素覆盖率越大越好。
[0082] 对第一音频信号中至少一个音素进行统计,获取该至少一个音素中所包含的音素的种类,以及,获取该至少一个音素的总数量,然后计算该至少一个音素中音素的种类与音素的总数量之间的比值,作为该至少一个音素的音素覆盖率。
[0083] 比如,该至少一个音素包括:w、o、ai、zh、o、n、g、g、u、o、w、o。那么,该至少一个音素所包含的音素的种类为:w、zh、n、g、o、ai、u,即7个音素种类,统计该至少一个音素的总数量为12,则音素覆盖率为7/12=58.33%。
[0084] 其中,若音素覆盖率越小,则说明该至少一个音素中音素的种类占比是比较小的,用户可能反复重复同一个单词,从而导致该第一音频信号无法体现出用户的发音特征,如果继续使用通过该第一音频信号的声纹信息训练得到的第一声纹识别模型进行后续的说话人辨认,则区分用户的个体差异能力会大大降低,声纹识别效果不佳。
[0085] 为了避免上述情况的发生,当检测到音素覆盖率小于对应阈值时,则需要进行声纹变更,获取用户输入的第二音频信号,通过第二音频信号的声纹信息训练第二声纹识别模型,并将第一声纹识别模型更新为第二声纹识别模型。其中,阈值的大小可以通过大量数据训练得到。
[0086] 可选的,所述音素覆盖率包括声母覆盖率和/或韵母覆盖率,所述声母覆盖率用于表示所述至少一个音素中声母的种类与声母的总数量之间的比例,所述韵母覆盖率用于表示所述至少一个音素中韵母的种类与韵母的总数量之间的比例。
[0087] 第一种可选的实施方式,所述音素覆盖率可以包括声母覆盖率,声母覆盖率可以反映声母在该至少一个音素中的覆盖情况。请参照图3,为本发明实施例提供的一种汉语拼音声母表示意图,如表中所示,汉语拼音中共有23个声母。其中,w和y在《汉语拼音方案中》虽然不被称作声母,但根据人们的习惯拼法,会将例如yan采用声母拼韵母的方式拼出,即y-an-yan,故把y、w算作声母。在至少一个音素中获取至少一个声母,可以对该至少一个声母的种类进行统计,并计算该至少一个声母的种类与该至少一个声母的总数量之间的比例,获得声母覆盖率。比如,获取至少一个音素包括:w、o、ai、zh、o、n、g、g、u、o、w、o。声母包括:w、zh、n、g、g、w。即声母出现的总次数是6,声母种类包括:w、zh、n、g,即声母种类包括4,声母覆盖率为4/6=2/3,即声母覆盖率大概为66.6%。
[0088] 第二种可选的实施方式,所述音素覆盖率可以包括韵母覆盖率,韵母覆盖率可以反映韵母在该至少一个音素中的覆盖情况。请参照图4,为本发明实施例提供的一种汉语拼音韵母表示意图,如图所示,汉语拼音中共有35个韵母。图4的汉语拼音韵母表中有一部分韵母,在组成音节时会缩写,比如“iou”,“有”字的拼音写成“you”。因此,在韵母的统计时,我们只考虑图4汉语拼音韵母表中出现的韵母,即缩写的韵母会被还原成完整的形式。根据图4所示的韵母,在至少一个音素中获取至少一个韵母,对该至少一个韵母的种类进行统计,并计算该至少一个韵母的种类与该至少一个韵母的总数量之间的比例,获得韵母覆盖率。比如,获取至少一个音素是:w、o、ai、zh、o、n、g、g、u、o、w、o为例进行说明,韵母包括:o、ai、o、u、o、o,即韵母出现的总次数是6,韵母的种类包括:o、ai、u。即韵母种类包括3,韵母覆盖率为3/6=1/2,即韵母覆盖率大概为50%。
[0089] 在实际使用场景中,第一种可选的实施方式和第二种可选的实施方式可以单独使用或者结合使用,若单独使用第一种可选的实施方式,则可以在声母覆盖率小于第一阈值,获取用户输入的第二音频信号,通过第二音频信号的声纹信息训练第二声纹识别模型,并将第一声纹识别模型更新为第二声纹识别模型。其中,若声母覆盖率越小,则说明该至少一个音素中声母的种类占比声母的总数量是比较小的,用户可能反复重复同一个声母的单词,该第一音频信号无法体现出用户的声母的发音特征。若所述声母覆盖率大于或者等于第一阈值,说明该第一音频信号可以体现出用户的声母的发音特征,则完成声纹注册。
[0090] 若单独使用第二种可选的实施方式,则可以在韵母覆盖率小于第二阈值,获取用户输入的第二音频信号,通过第二音频信号的声纹信息训练第二声纹识别模型,并将第一声纹识别模型更新为第二声纹识别模型。其中,若韵母覆盖率越小,则说明该至少一个音素中韵母的种类占比韵母的总数量是比较小的,用户可能反复重复同一个韵母的单词,该第一音频信号无法体现出用户的韵母的发音特征;若所述韵母覆盖率大于或者等于第二阈值,说明该第一音频信号可以体现出用户的韵母的发音特征,则完成声纹注册。
[0091] 若结合第一种可选的实施方式和第二种可选的实施方式,即需要同时通过声母覆盖率和韵母覆盖率,确定是否需要将第一声纹识别模型更新为第二声纹识别模型,所设置的目标条件可以是,声母覆盖率小于第一阈值,且韵母覆盖率小于第二阈值,其他情况视为不满足目标条件,比如,声母覆盖率大于或者等于第一阈值,韵母覆盖率小于第二阈值,或者,声母覆盖率小于或者等于第一阈值,韵母覆盖率小于第二阈值,或者,声母覆盖率大于或者等于第一阈值,韵母覆盖率大于或者等于第二阈值。
[0092] 具体可选的,判断声母覆盖率是否小于第一阈值,韵母覆盖率是否小于第二阈值,若声母覆盖率小于第一阈值,并且韵母覆盖率小于第二阈值,说明该第一音频信号不能够体现用户的发音特征,不能直接采用该第一音频信号的声纹信息训练的第一声纹识别模型进行说话人辨认,需要进行声纹变更,则将第一声纹识别模型更新为第二声纹识别模型。
[0093] 若声母覆盖率大于或者等于第一阈值,韵母覆盖率大于或者等于第二阈值,或者,若声母覆盖率大于或者等于第一阈值,韵母覆盖率小于第二阈值,或者,声母覆盖率小于第一阈值,韵母覆盖率大于或者等于第二阈值,可以直接采用该第一注册语音信号的声纹信息训练的第一声纹识别模型进行说话人辨认,即完成声纹注册。
[0094] 优选的,在需要同时通过声母覆盖率和韵母覆盖率,确定是否需要将第一声纹识别模型更新为第二声纹识别模型的场景下,只要检测出其中任意一种覆盖率大于或者等于对应的阈值,则另外一种覆盖率可以不用检测,直接确定不满足目标条件,即不需要将第一声纹识别模型更新为第二声纹识别模型。
[0095] 例如,可以先对第一音频信号中至少一个音素的声母覆盖率进行计算,获取声母覆盖率。若获取的声母覆盖率大于或者等于第一阈值,则完成声纹注册,即可以采用第一音频信号的声纹特征信息所训练的第一声纹识别模型进行后续的说话人辨识,具体请参照图5实施例的步骤S201-S206。若声母覆盖率小于第一阈值,则需要再对第一音频信号中至少一个音素的韵母覆盖率进行计算,获取韵母覆盖率,若韵母覆盖率小于第二阈值,则满足目标条件,需要将第一声纹识别模型更新为第二声纹识别模型,若韵母覆盖率大于或者等于第二阈值,则完成注册。当然,也可以先计算韵母覆盖率,判断韵母覆盖率是否大于或者等于第二阈值,在根据判断结果决定是否计算声母覆盖率,也可以同时获取声母覆盖率与韵母覆盖率,并对声母覆盖率与韵母覆盖率进行计算,根据计算结果确定是否需要将第一声纹识别模型更新为第二声纹识别模型。
[0096] 可选的,上述第一声纹识别模型是采用第一音频信号的声纹特征信息训练得到的,上述第二声纹识别模型是采用第二音频信号的声纹特征信息训练得到的。即在第一音频信号不合格的情况下,需要采用第二音频信号的声纹特征信息训练得到第二声纹识别模型。
[0097] 可以理解的是,若第二音频信号的音素覆盖率满足目标条件,例如,音素覆盖率小于对应阈值,还可以继续提示用户重新进行声纹注册,并获取用户再次输入的音频信号,并通过再次输入的音频信号的声纹特征信息训练得到新的声纹识别模型,将第二声纹识别模型更新为新的声纹识别模型,具体不再赘述。
[0098] 其中,第二音频信号的音素覆盖率满足目标条件是指第二音频信号不能完整地体现出用户的发音特征,即第二音频信号中至少一个音素中音素的种类与音素的总数量之间的比例小于对应阈值,所述阈值可以通过大量数据训练得到,也可以根据声纹注册系统中的需要自定义。
[0099] 在本实施例中,通过对所述第一音频信号包含的至少一个音素的音素覆盖率进行计算,若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型。本申请能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,提高声纹识别模型进行说话人辨识的准确度。
[0100] 请参照图5,为本申请提供的另一种音频信号处理方法的流程图,包括但不限于步骤S201-S206;
[0101] S201,获取待处理的第一音频信号;
[0102] S202,确定所述第一音频信号包含的至少一个音素;
[0103] S203,计算所述至少一个音素的音素覆盖率;
[0104] 在本实施例中,步骤S201-S203的内容具体请参照与步骤S101-S103,在此不再赘述。
[0105] S204,若所述音素覆盖率不满足所述目标条件,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型;
[0106] 可选的,音素覆盖率包括声母覆盖率和/或韵母覆盖率,若所述音素覆盖率不满足目标条件可以是,音素覆盖率大于或者等于对应的阈值,具体请参照前述实施例的描述,在此不再赘述。
[0107] 若上述音素覆盖率不满足所述目标条件时,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型,第一用户标识用于标识第一音频信号对应的第一用户,后续可以通过该第一声纹识别模型对说话人进行辨识,以确认该说话人是否为该第一用户。
[0108] S205,获取第三音频信号,并将所述第三音频信号输入所述第一声纹识别模型进行声纹识别处理,获得处理结果;
[0109] 在一个实施例中,第三音频信号可以是后续进行说话人辨识过程中所采集的音频信号,将该第三音频信号输入第一声纹识别模型进行声纹识别处理,获得处理结果,可选的,该处理结果可以是匹配度,即该第三音频信号的声纹特征信息与用于训练该第一声纹识别模型的第一音频信号的声纹特征信息之间的匹配度。
[0110] S206,根据所述处理结果,确定所述第三音频信号是否与所述第一用户标识关联。
[0111] 根据所述处理结果的信息,进一步确认所述第三音频信号与所述第一用户标识关联或不关联,其中,第三音频信号与第一用户标识关联是指该第三音频信号为第一用户标识所标识的用户说出的话语。
[0112] 在本实施例中,通过对所述第一音频信号包含的至少一个音素的音素覆盖率进行计算,若所述音素覆盖率不满足所述目标条件,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型,获取第三音频信号,并将所述第三音频信号输入所述第一声纹识别模型进行声纹识别处理,获得处理结果,根据所述处理结果,确定所述第三音频信号是否与所述第一用户标识关联。本申请能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,提高声纹识别模型进行说话人辨识的准确度。
[0113] 在另一实施例中,在步骤S104所述将第一声纹识别模型更新为第二声纹识别模型之前,可以通过其他方式获取第二声纹识别模型,可选的,请参照图6,通过图示的方式获得第二声纹识别模型,包括但不限于S301-S309,下面具体阐述该实施方式:
[0114] S301,获取待处理的第一音频信号;
[0115] S302,确定所述第一音频信号包含的至少一个音素;
[0116] S303,计算所述至少一个音素的音素覆盖率,;
[0117] 在本实施例中,步骤S201-S203的内容具体请参照与步骤S101-S103,在此不再赘述。
[0118] S304,若所述音素覆盖率满足目标条件;
[0119] S305,输出用于提示用户输入第二音频信号的提示信息;
[0120] S306,获取输入的所述第二音频信号;
[0121] 在本实施例中,对所述音素的音素覆盖率进行判断,若音素覆盖率满足目标条件,说明该第一音频信号不能够体现用户的发音特征,不能直接采用该第一音频信号的声纹信息训练的第一声纹识别模型进行说话人辨认,需要进行声纹变更,即将第一声纹识别模型更新为第二声纹识别模型。当系统判断出第一音频信号不满足目标条件,需要获取第二音频信号时,输出用于提示用户输入第二音频信号的提示信息,其中,该提示信息可以是通过播放“声纹注册失败,请重新录入”类似的语音提示,也可以在显示屏上显示“声纹注册失败,请重新录入”类似的文字提示,也可以通过用红色与绿色等颜色提示信息来提示用户是否注册成功。
[0122] S307,提取所述第二音频信号的声纹特征信息;
[0123] S308,采用所述第二音频信号的声纹特征信息训练第二声纹识别模型,
[0124] S309,则将第一声纹识别模型更新为第二声纹识别模型。
[0125] 其中,获取第二音频信号后,提取所述第二音频信号的声纹特征信息,通过第二注册语音信号的声纹信息训练得到第二声纹识别模型,并将第一声纹识别模型更新为第二声纹识别模型。具体请参照步骤S103-S104,在此不再赘述。
[0126] 在本实施例中,通过对所述第一音频信号包含的至少一个音素的音素覆盖率进行计算,若所述音素覆盖率满足目标条件,输出用于提示用户输入第二音频信号的提示信息,获取输入的所述第二音频信号,采用所述第二音频信号的声纹特征信息训练第二声纹识别模型,则将第一声纹识别模型更新为第二声纹识别模型。本申请能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,提高声纹识别模型进行说话人辨识的准确度。
[0127] 请参见图7,为本发明实施例提供了一种音频信号处理装置的结构示意图。如图7所示,本发明实施例的所述音频信号处理装置可以包括:
[0128] 第一获取11,用于获取待处理的第一音频信号;
[0129] 第一确定单元12,用于确定所述第一音频信号包含的至少一个音素;
[0130] 在一个实施例中,其中,第一音频信号可以是第一用户在进行声纹注册时任意说出的一段注册语音对应的音频信号,通过本申请实施例的方法确定该段注册语音是否合格,若不合格,会提示用户重新注册,即重新说出一段注册语音,或者,该第一音频信号可以是第一用户说出的多段注册语音对应的音频信号,通过本申请实施例的方法确定出该多段注册语音中哪些注册语音是合格的注册语音。
[0131] 该第一音频信号用于训练第一用户标识对应的第一声纹识别模型。第一声纹识别模型用于后续进行说话人辨识,以确定是否为该第一用户。为了能够更加准确的进行说话人辨识,用于训练第一声纹识别模型的第一音频信号需要能够体现第一用户的发音特征,本申请实施例通过音素覆盖率来确定第一音频信号是否能够体现第一用户的发音特征。
[0132] 确定方法可以使用自动语音识别(Automatic Speech Recognition,ASR)技术得到第一音频中的每个音素,ASR是一种将人的音频信号转换为文本的技术。可选的,在获取音素之前,即在步骤S101获取待处理的第一音频信号之后,还可以对所述第一音频信号进行预处理。
[0133] 可选的,所述预处理可以包括:保留所述第一音频信号中符合预设语音特征的音频信号,如保留第一音频信号中能够获取到音素的音频信号;和/或,删除所述第一音频信号中的静默语音信号,如去除用户在输入音频信号的时候,因为语句之间的断句或者暂停而产生的静默语音信号,也可以去除在用户任意说出的一段注册语音获取第一音频信号时,录入了其他的非语音信号,如汽车的鸣笛声、音乐声等。
[0134] 具体可选的,对第一音频信号进行分帧,获得N帧音频信号,即将第一音频信号切分为N个小段,一个小段称为一帧。每帧的帧长即是该小段音频信号的长度,比如可以是25ms。其中,分帧操作可以是使用移动窗函数来实现。
[0135] 对该N帧音频信号进行声学特征提取,声学特征包括但不限于MFCC特征,即根据人耳的生理特性,把每一帧波形变成一个多维向量,该向量包含了这帧语音信号的内容信息。第一音频信号就成了一个12行(假设声学特征是12维)、N列的一个矩阵,这里N为总帧数。
[0136] 根据每帧音频信号对应的多维向量进行处理,确定该帧音频信号对应哪一个状态的概率最大,即将该状态确定为该帧音频信号对应的状态,通常相邻若干帧音频信号对应的状态相同,即若干帧音频信号对应一个状态,每三个状态组合成一个音素,通常全部声母和韵母组成所有音素。可选的,若干个音素组成一个单词,从而得到该第一注册音频信号对应的文本。
[0137] 如图2所示,包括b、p、m、f、z、c、s、d、t、n、l、zh、ch、sh等因素。
[0138] 计算单元13,用于计算所述至少一个音素的音素覆盖率,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例;
[0139] 更新单元14,用于若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,所述第一声纹识别模型为采用所述第一音频信号的声纹特征信息训练得到的,所述第二声纹识别模型为采用第二音频信号的声纹特征信息训练得到的。
[0140] 在一个实施例中,第一音频信号的音素覆盖率可以表明第一音频信号是否能够体现第一用户的发音特征,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例,为了使得第一音频信号能够尽可能多的体现用户的发音特征,需要第一音频信号的音素覆盖率越大越好。
[0141] 对第一音频信号中至少一个音素进行统计,获取该至少一个音素中所包含的音素的种类,以及,获取该至少一个音素的总数量,然后计算该至少一个音素中音素的种类与音素的总数量之间的比值,作为该至少一个音素的音素覆盖率。
[0142] 比如,该至少一个音素包括:w、o、ai、zh、o、n、g、g、u、o、w、o。那么,该至少一个音素所包含的音素的种类为:w、zh、n、g、o、ai、u,即7个音素种类,统计该至少一个音素的总数量为12,则音素覆盖率为7/12=58.33%。
[0143] 其中,若音素覆盖率越小,则说明该至少一个音素中音素的种类占比是比较小的,用户可能反复重复同一个单词,从而导致该第一音频信号无法体现出用户的发音特征,如果继续使用通过该第一音频信号的声纹信息训练得到的第一声纹识别模型进行后续的说话人辨认,则区分用户的个体差异能力会大大降低,声纹识别效果不佳。
[0144] 为了避免上述情况的发生,当检测到音素覆盖率小于对应阈值时,则需要进行声纹变更,获取用户输入的第二音频信号,通过第二音频信号的声纹信息训练第二声纹识别模型,并将第一声纹识别模型更新为第二声纹识别模型。其中,阈值的大小可以通过大量数据训练得到。
[0145] 可选的,所述音素覆盖率包括声母覆盖率和/或韵母覆盖率,所述声母覆盖率用于表示所述至少一个音素中声母的种类与声母的总数量之间的比例,所述韵母覆盖率用于表示所述至少一个音素中韵母的种类与韵母的总数量之间的比例。
[0146] 第一种可选的实施方式,所述音素覆盖率可以包括声母覆盖率,声母覆盖率可以反映声母在该至少一个音素中的覆盖情况。请参照图3,为本发明实施例提供的一种汉语拼音声母表示意图,如表中所示,汉语拼音中共有23个声母。其中,w和y在《汉语拼音方案中》虽然不被称作声母,但根据人们的习惯拼法,会将例如yan采用声母拼韵母的方式拼出,即y-an-yan,故把y、w算作声母。在至少一个音素中获取至少一个声母,可以对该至少一个声母的种类进行统计,并计算该至少一个声母的种类与该至少一个声母的总数量之间的比例,获得声母覆盖率。比如,获取至少一个音素包括:w、o、ai、zh、o、n、g、g、u、o、w、o。声母包括:w、zh、n、g、g、w。即声母出现的总次数是6,声母种类包括:w、zh、n、g,即声母种类包括4,声母覆盖率为4/6=2/3,即声母覆盖率大概为66.6%。
[0147] 第二种可选的实施方式,所述音素覆盖率可以包括韵母覆盖率,韵母覆盖率可以反映韵母在该至少一个音素中的覆盖情况。请参照图4,为本发明实施例提供的一种汉语拼音韵母表示意图,如图所示,汉语拼音中共有35个韵母。图4的汉语拼音韵母表中有一部分韵母,在组成音节时会缩写,比如“iou”,“有”字的拼音写成“you”。因此,在韵母的统计时,我们只考虑图4汉语拼音韵母表中出现的韵母,即缩写的韵母会被还原成完整的形式。根据图4所示的韵母,在至少一个音素中获取至少一个韵母,对该至少一个韵母的种类进行统计,并计算该至少一个韵母的种类与该至少一个韵母的总数量之间的比例,获得韵母覆盖率。比如,获取至少一个音素是:w、o、ai、zh、o、n、g、g、u、o、w、o为例进行说明,韵母包括:o、ai、o、u、o、o,即韵母出现的总次数是6,韵母的种类包括:o、ai、u。即韵母种类包括3,韵母覆盖率为3/6=1/2,即韵母覆盖率大概为50%。
[0148] 在实际使用场景中,第一种可选的实施方式和第二种可选的实施方式可以单独使用或者结合使用,若单独使用第一种可选的实施方式,则可以在声母覆盖率小于第一阈值,获取用户输入的第二音频信号,通过第二音频信号的声纹信息训练第二声纹识别模型,并将第一声纹识别模型更新为第二声纹识别模型。其中,若声母覆盖率越小,则说明该至少一个音素中声母的种类占比声母的总数量是比较小的,用户可能反复重复同一个声母的单词,该第一音频信号无法体现出用户的声母的发音特征。若所述声母覆盖率大于或者等于第一阈值,说明该第一音频信号可以体现出用户的声母的发音特征,则完成声纹注册。
[0149] 若单独使用第二种可选的实施方式,则可以在韵母覆盖率小于第二阈值,获取用户输入的第二音频信号,通过第二音频信号的声纹信息训练第二声纹识别模型,并将第一声纹识别模型更新为第二声纹识别模型。其中,若韵母覆盖率越小,则说明该至少一个音素中韵母的种类占比韵母的总数量是比较小的,用户可能反复重复同一个韵母的单词,该第一音频信号无法体现出用户的韵母的发音特征;若所述韵母覆盖率大于或者等于第二阈值,说明该第一音频信号可以体现出用户的韵母的发音特征,则完成声纹注册。
[0150] 若结合第一种可选的实施方式和第二种可选的实施方式,即需要同时通过声母覆盖率和韵母覆盖率,确定是否需要将第一声纹识别模型更新为第二声纹识别模型,所设置的目标条件可以是,声母覆盖率小于第一阈值,且韵母覆盖率小于第二阈值,其他情况视为不满足目标条件,比如,声母覆盖率大于或者等于第一阈值,韵母覆盖率小于第二阈值,或者,声母覆盖率小于或者等于第一阈值,韵母覆盖率小于第二阈值,或者,声母覆盖率大于或者等于第一阈值,韵母覆盖率大于或者等于第二阈值。
[0151] 具体可选的,判断声母覆盖率是否小于第一阈值,韵母覆盖率是否小于第二阈值,若声母覆盖率小于第一阈值,并且韵母覆盖率小于第二阈值,说明该第一音频信号不能够体现用户的发音特征,不能直接采用该第一音频信号的声纹信息训练的第一声纹识别模型进行说话人辨认,需要进行声纹变更,则将第一声纹识别模型更新为第二声纹识别模型。
[0152] 若声母覆盖率大于或者等于第一阈值,韵母覆盖率大于或者等于第二阈值,或者,若声母覆盖率大于或者等于第一阈值,韵母覆盖率小于第二阈值,或者,声母覆盖率小于第一阈值,韵母覆盖率大于或者等于第二阈值,可以直接采用该第一注册语音信号的声纹信息训练的第一声纹识别模型进行说话人辨认,即完成声纹注册。
[0153] 优选的,在需要同时通过声母覆盖率和韵母覆盖率,确定是否需要将第一声纹识别模型更新为第二声纹识别模型的场景下,只要检测出其中任意一种覆盖率大于或者等于对应的阈值,则另外一种覆盖率可以不用检测,直接确定不满足目标条件,即不需要将第一声纹识别模型更新为第二声纹识别模型。
[0154] 例如,可以先对第一音频信号中至少一个音素的声母覆盖率进行计算,获取声母覆盖率。若获取的声母覆盖率大于或者等于第一阈值,则完成声纹注册,即可以采用第一音频信号的声纹特征信息所训练的第一声纹识别模型进行后续的说话人辨识,具体请参照图5实施例的步骤S201-S206。若声母覆盖率小于第一阈值,则需要再对第一音频信号中至少一个音素的韵母覆盖率进行计算,获取韵母覆盖率,若韵母覆盖率小于第二阈值,则满足目标条件,需要将第一声纹识别模型更新为第二声纹识别模型,若韵母覆盖率大于或者等于第二阈值,则完成注册。当然,也可以先计算韵母覆盖率,判断韵母覆盖率是否大于或者等于第二阈值,在根据判断结果决定是否计算声母覆盖率,也可以同时获取声母覆盖率与韵母覆盖率,并对声母覆盖率与韵母覆盖率进行计算,根据计算结果确定是否需要将第一声纹识别模型更新为第二声纹识别模型。
[0155] 可选的,上述第一声纹识别模型是采用第一音频信号的声纹特征信息训练得到的,上述第二声纹识别模型是采用第二音频信号的声纹特征信息训练得到的。即在第一音频信号不合格的情况下,需要采用第二音频信号的声纹特征信息训练得到第二声纹识别模型。
[0156] 可以理解的是,若第二音频信号的音素覆盖率满足目标条件,例如,音素覆盖率小于对应阈值,还可以继续提示用户重新进行声纹注册,并获取用户再次输入的音频信号,并通过再次输入的音频信号的声纹特征信息训练得到新的声纹识别模型,将第二声纹识别模型更新为新的声纹识别模型,具体不再赘述。
[0157] 其中,第二音频信号的音素覆盖率满足目标条件是指第二音频信号不能完整地体现出用户的发音特征,即第二音频信号中至少一个音素中音素的种类与音素的总数量之间的比例小于对应阈值,所述阈值可以通过大量数据训练得到,也可以根据声纹注册系统中的需要自定义。
[0158] 在一个实施例中,如图8所示,所述装置还包括:
[0159] 输出单元,用于输出用于提示用户输入第二音频信号的提示信息;
[0160] 第二获取单元,用于获取输入的所述第二音频信号;
[0161] 提取单元,用于提取所述第二音频信号的声纹特征信息;
[0162] 训练单元,用于采用所述第二音频信号的声纹特征信息训练第二声纹识别模型。
[0163] 在一个实施例中,所述音素覆盖率包括声母覆盖率和/或韵母覆盖率,所述声母覆盖率用于表示所述至少一个音素中声母的种类与声母的总数量之间的比例,所述韵母覆盖率用于表示所述至少一个音素中韵母的种类与韵母的总数量之间的比例。
[0164] 在一个实施例中,所述音素覆盖率包括声母覆盖率和韵母覆盖率;
[0165] 所述更新单元具体用于若所述声母覆盖率小于第一阈值,且所述韵母覆盖率小于第二阈值,则将第一声纹识别模型更新为第二声纹识别模型。
[0166] 在一个实施例中,如图8所示,所述装置还包括:
[0167] 第二确定单元,用于若所述音素覆盖率不满足所述目标条件,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型;
[0168] 声纹识别处理单元,用于获取第三音频信号,并将所述第三音频信号输入所述第一声纹识别模型进行声纹识别处理,获得处理结果;
[0169] 第三确定单元,用于根据所述处理结果,确定所述第三音频信号是否与所述第一用户标识关联。
[0170] 在一个实施例中,如图8所示,所述装置还包括:
[0171] 预处理单元,用于对所述第一音频信号进行预处理,所述预处理包括保留所述第一音频信号中符合预设语音特征的音频信号,和/或,删除所述第一音频信号中的静默语音信号;
[0172] 所述第一确定单元具体用于确定所述预处理后的所述第一音频信号包含的至少一个音素。
[0173] 在一个实施例中,所述装置还包括第四确定单元,
[0174] 第四确定单元,用于根据所述至少一个音素,确定所述第一音频信号对应的目标文本;
[0175] 所述计算单元具体用于若所述目标文本与预设文本不匹配,则执行计算所述至少一个音素的音素覆盖率的步骤。
[0176] 在本实施例中,通过对所述第一音频信号包含的至少一个音素的音素覆盖率进行计算,若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型。本申请能够保证最终得到的声纹识别模型是通过能较为完整地反映用户发音特征的音频信号训练得到的,提高声纹识别模型进行说话人辨识的准确度。
[0177] 请参照图9,为本发明实施例提供的另一种音频信号处理装置的结构示意图,如图9所示,所述音频信号处理装置1000可以包括:至少一个处理器1001,例如CPU,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模以及程序指令。
[0178] 在图9所示的音频信号处理装置1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
[0179] 获取待处理的第一音频信号;
[0180] 确定所述第一音频信号包含的至少一个音素;
[0181] 计算所述至少一个音素的音素覆盖率,所述音素覆盖率用于表示所述至少一个音素中音素的种类与音素的总数量之间的比例;
[0182] 若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,所述第一声纹识别模型为采用所述第一音频信号的声纹特征信息训练得到的,所述第二声纹识别模型为采用第二音频信号的声纹特征信息训练得到的。
[0183] 可选的,所述将第一声纹识别模型更新为第二声纹识别模型之前,还包括:
[0184] 输出用于提示用户输入第二音频信号的提示信息;
[0185] 获取输入的所述第二音频信号;
[0186] 提取所述第二音频信号的声纹特征信息;
[0187] 采用所述第二音频信号的声纹特征信息训练第二声纹识别模型。
[0188] 可选的,所述音素覆盖率包括声母覆盖率和/或韵母覆盖率,所述声母覆盖率用于表示所述至少一个音素中声母的种类与声母的总数量之间的比例,所述韵母覆盖率用于表示所述至少一个音素中韵母的种类与韵母的总数量之间的比例。
[0189] 可选的,所述音素覆盖率包括声母覆盖率和韵母覆盖率;
[0190] 所述若所述音素覆盖率满足目标条件,则将第一声纹识别模型更新为第二声纹识别模型,包括:
[0191] 若所述声母覆盖率小于第一阈值,且所述韵母覆盖率小于第二阈值,则将第一声纹识别模型更新为第二声纹识别模型。
[0192] 可选的,所述方法还包括:
[0193] 若所述音素覆盖率不满足所述目标条件,则将所述第一声纹识别模型确定为第一用户标识对应的声纹识别模型;
[0194] 获取第三音频信号,并将所述第三音频信号输入所述第一声纹识别模型进行声纹识别处理,获得处理结果;
[0195] 根据所述处理结果,确定所述第三音频信号是否与所述第一用户标识关联。
[0196] 可选的,所述确定所述第一音频信号包含的至少一个音素之前,还包括:
[0197] 对所述第一音频信号进行预处理,所述预处理包括保留所述第一音频信号中符合预设语音特征的音频信号,和/或,删除所述第一音频信号中的静默语音信号;
[0198] 所述确定所述第一音频信号包含的至少一个音素,包括:
[0199] 确定所述预处理后的所述第一音频信号包含的至少一个音素。
[0200] 可选的,所述计算所述至少一个音素的音素覆盖率之前,还包括:
[0201] 根据所述至少一个音素,确定所述第一音频信号对应的目标文本;
[0202] 若所述目标文本与预设文本不匹配,则执行计算所述至少一个音素的音素覆盖率的步骤。
[0203] 需要说明的是,具体执行过程可以参见图1至图6所示方法实施例的具体说明,在此不进行赘述。
[0204] 本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1至图6所示实施例的方法步骤,具体执行过程可以参见图1至图6所示实施例的具体说明,在此不进行赘述。
[0205] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈