声纹认证处理方法及装置 |
|||||||
申请号 | CN201511024873.7 | 申请日 | 2015-12-30 | 公开(公告)号 | CN105513597A | 公开(公告)日 | 2016-04-20 |
申请人 | 百度在线网络技术(北京)有限公司; | 发明人 | 李超; 吴本谷; 朱林; | ||||
摘要 | 本 申请 提出一种声纹认证处理方法和装置,其中,该方法包括:应用混合性别的 深度神经网络 DNN声纹基线系统,提取训练集中每条语音的第一 特征向量 ;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。 | ||||||
权利要求 | 1.一种声纹认证处理方法,其特征在于,包括以下步骤: |
||||||
说明书全文 | 声纹认证处理方法及装置技术领域[0001] 本申请涉及声纹认证技术领域,尤其涉及一种声纹认证处理方法及装置。 背景技术[0002] 随着技术的不断进步,声纹识别(Voiceprint Recognition,VPR)技术的应用领域越来越广泛。 [0003] 声纹识别可以确认某段语音是否是指定的某个人所说的,例如,考勤打卡,或者银行交易时需要对用户声音进行确认。在声纹识别之前,都需要先对说话人的声纹进行建模,这就是所谓的“训练”或“学习”过程。 [0004] 目前的声纹识别的训练过程是通过通用的模型进行声纹的训练和识别,准确性不高。发明内容 [0005] 本申请旨在至少在一定程度上解决相关技术中的技术问题之一。 [0006] 为此,本申请的第一个目的在于提出一种声纹认证处理方法,该方法建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。 [0007] 本申请的第二个目的在于提出一种声纹认证处理装置。 [0008] 为达上述目的,本申请第一方面实施例提出了一种声纹认证处理方法,包括:应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。 [0009] 本申请实施例的声纹认证处理方法,通过应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。 [0010] 为达上述目的,本申请第二方面实施例提出了一种声纹认证处理装置,包括:提取模块,用于应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;生成模块,用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;第一训练模块,用于根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;第二训练模块,用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。 [0011] 本申请实施例的声纹认证处理装置,通过应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量;根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器;根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型;根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以便提高了声纹认证的效率和准确性。附图说明 [0012] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中: [0013] 图1是本申请一个实施例的声纹认证处理方法的流程图; [0014] 图2为性别分类器的生成示意图; [0015] 图3为男性声纹认证处理模型生成示意图; [0016] 图4为女性声纹认证处理模型生成示意图; [0017] 图5是本申请另一个实施例的声纹认证处理方法的流程图; [0018] 图6是本申请另一个实施例的声纹认证处理方法的流程图; [0019] 图7是本申请一个实施例的声纹认证处理装置的结构示意图; [0020] 图8是本申请另一个实施例的声纹认证处理装置的结构示意图; [0021] 图9是本申请另一个实施例的声纹认证处理装置的结构示意图。 具体实施方式[0022] 下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。 [0023] 下面参考附图描述本申请实施例的声纹认证处理方法及装置。 [0024] 图1是本申请一个实施例的声纹认证处理方法的流程图。 [0025] 如图1所示,该声纹认证处理方法包括: [0026] 步骤101,应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量。 [0027] 步骤102,根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器。 [0028] 具体地,为了训练建立区分性别的声纹认证处理模型,首先需要应用混合性别的深度神经网络DNN声纹基线系统生成性别训练性别分类器,以便应用训练性别分类器识别输入声音的性别,为输入的声音分配性别标签。 [0029] 图2为性别分类器的生成示意图,参见图2说明如何应用混合性别的DNN声纹基线系统生成性别分类器,具体如下: [0030] 预先设置包含多条语音的训练集,训练集中的每条语音数据都预先标注有对应的性别信息,比如,第一条语音数据对应的性别为男性数据,第二条语音数据对应的性别为女性数据。 [0032] 进而,根据每条语音的第一特征向量,以及预先标注的每条语音的性别训练性别分类器,从而可以应用训练性别分类器识别输入声音的性别,为输入的声音分配性别标签。 [0033] 步骤103,根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型。 [0035] 其中,男性DNN模型用于接收男性的语音数据,输出与该男性语音数据对应的后验概率,女性DNN模型用于接收女性的语音数据,输出与该女性语音数据对应的后验概率。 [0036] 步骤104,根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。 [0037] 具体地,根据不同性别的DNN模型以及训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。 [0038] 其中,对各个模型的功能解释如下: [0039] 统一背景模型,用于对DNN模型输出的后验概率进行归一化处理; [0040] 特征向量提取模型,用于接收DNN模型输出的后验概率以及用户输入的语音数据,并且根据预设的算法提取语音数据的第二特征向量; [0041] 概率线性判别分析模型,用于比较用户输入的语音数据的第二特征向量与预先存储的声纹注册模板的相似度。 [0042] 图3为男性声纹认证处理模型生成示意图,参见图3,具体如下: [0043] 应用男性的DNN模型对训练集中男性的语音数据进行处理输出后验概率,并对输出的后验概率进行归一化处理,训练男性声纹认证处理模型中的统一背景模型。 [0044] 获取DNN模型输出的后验概率以及男性语音数据,根据预设的算法提取男性语音数据的第二特征向量,训练男性声纹认证处理模型中的特征向量提取模型。 [0045] 比较男性语音数据的第二特征向量与预先存储的男性声纹注册模板的相似度,训练男性声纹认证处理模型中的概率线性判别分析模型。 [0046] 图4为女性声纹认证处理模型生成示意图,参见图4,具体如下: [0047] 应用女性的DNN模型对训练集中女性的语音数据进行处理输出后验概率,并对输出的后验概率进行归一化处理,训练女性声纹认证处理模型中的统一背景模型。 [0048] 获取DNN模型输出的后验概率以及女性语音数据,根据预设的算法提取女性语音数据的第二特征向量,训练女性声纹认证处理模型中的特征向量提取模型。 [0049] 比较女性语音数据的第二特征向量与预先存储的女性声纹注册模板的相似度,训练女性声纹认证处理模型中的概率线性判别分析模型。 [0050] 本实施例的声纹认证处理方法,应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量,根据所述每条语音的第一特征向量以及预先标注的性别训练性别分类器,根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型,根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以提高声纹认证的效率和准确性。 [0051] 图5是本申请另一个实施例的声纹认证处理方法的流程图。 [0052] 参见图5,在步骤104之后,该声纹认证处理方法还包括以下声纹注册步骤: [0054] 步骤202,获取用户发送的用于声纹注册的多条语音,提取第一条语音的第一特征信息,应用所述性别分类器获取所述第一特征信息的性别标签。 [0055] 具体地,需要进行声纹认证的用户需要预先在声纹认证处理模型中进行声纹注册。首先,用户需要向声纹认证处理模型发送携带用户标识的声纹注册请求。 [0056] 声纹认证处理模型接收用户发送的携带用户标识的声纹注册请求之后,向用户提示输入语音。用户向声纹认证处理模型发送用于声纹注册的多条语音。 [0057] 声纹认证处理模型提取第一条语音的第一特征信息,并将第一特征信息发送给预先生成的性别分类器。性别分类器对第一特征信息进行分析,获取所述第一特征信息的性别标签,也就是第一条语音的性别标签。 [0058] 步骤203,根据与所述性别标签对应的DNN模型获取每条语音的后验概率。 [0059] 步骤204,根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量。 [0060] 步骤205,根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型。 [0061] 步骤206,将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。 [0062] 具体地,根据性别分类器返回的与第一条语音对应的性别标签,将用户输入的多条语音发送到对应性别的DNN模型中。也就是说,如果第一条语音对应的是男性语音,将多条语音发送到男性DNN模型中。如果第一条语音对应的是女性语音,将多条语音发送到女性DNN模型中。 [0063] 根据与性别标签对应的DNN模型获取每条语音对应的多个后验概率。 [0064] 根据与性别标签对应的统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据每条语音,以及对应的归一化的后验概率,分别提取每条语音的第二特征向量。 [0065] 根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型,获取的方式很多,可以根据不同的应用需要进行选择,例如: [0066] 获取多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。 [0067] 进而,将用户请求注册的用户标识、该用户的性别标签和声纹注册模型的对应关系存储到声纹注册数据库,以便后续根据该声纹注册模型进行声纹识别。 [0068] 本实施例的声纹认证处理方法,首先应用性别分类器获取用户输入的第一条语音的性别标签,根据与性别标签对应的DNN模型获取每条语音的后验概率,根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量,根据多个第二特征向量获取所述用户的声纹注册模型,将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。由此,实现了区分性别的声纹注册过程,以便应用区分性别的声纹认证处理模型提高了声纹认证的效率和准确性。 [0069] 图6是本申请另一个实施例的声纹认证处理方法的流程图。 [0070] 参见图6,该声纹认证处理方法包括: [0071] 步骤301,接收用户发送的携带用户标识的声纹识别请求。 [0072] 步骤302,查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型。 [0073] 具体地,需要进行声纹识别的用户需要在声纹认证处理模型中输入用户标识,并发送携带用户标识的声纹识别请求。 [0074] 对用户发送的声纹识别请求进行解析获取用户标识,查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型,从而获取该用户的性别标签和声纹注册模型。 [0075] 步骤303,获取用户发送的用于声纹识别的语音,根据与所述性别标签对应的DNN模型获取所述语音的后验概率。 [0076] 具体地,获取用户发送的用于声纹识别的语音,将该语音发送到与用户的性别标签对应的DNN模型中,DNN模型对该语音进行处理,获取该语音的后验概率。 [0077] 步骤304,应用与所述性别标签对应的统一背景模型和特征向量提取模型,提取所述语音的第二特征向量。 [0078] 具体地,将该语音的后验概率发送给与所述性别标签对应的统一背景模型。统一背景模型对每个后验概率进行归一化处理,应用预先训练的特征向量提取模型根据该语音,以及对应的归一化的后验概率,提取该语音的第二特征向量。 [0079] 步骤305,应用与所述性别标签对应的概率线性判别分析模型,比较所述语音的第二特征向量和所述声纹注册模型的相似度。 [0080] 步骤306,根据所述相似度和预设的阈值向所述用户返回声纹识别结果。 [0081] 具体地,将该语音的第二特征向量发送给与性别标签对应的概率线性判别分析模型中,概率线性判别分析模型比较该语音的第二特征向量和预先存储的该用户的声纹注册模型的相似度。 [0082] 比较两者的相似度和预设的阈值的大小; [0083] 若获知所述相似度大于等于预设的阈值,则返回声纹识别成功; [0084] 若获知所述相似度小于预设的阈值,则返回声纹识别失败。 [0085] 本实施例的声纹认证处理方法,首先查询声纹注册数据库获取与用户标识对应的性别标签和声纹注册模型;应用与性别标签对应的统一背景模型和特征向量提取模型,提取语音的第二特征向量,应用概率线性判别分析模型比较语音的第二特征向量和声纹注册模型的相似度,根据所述相似度和预设的阈值向所述用户返回声纹识别结果。由此,实现了区分性别的声纹认证过程,提高了声纹认证的效率和准确性。 [0086] 为了实现上述实施例,本申请还提出一种声纹认证处理装置。 [0087] 图7是本申请一个实施例的声纹认证处理装置的结构示意图。 [0088] 如图7所示,该声纹认证处理装置包括: [0089] 提取模块11,用于应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量; [0090] 生成模块12,用于根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器; [0091] 第一训练模块13,用于根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型; [0092] 第二训练模块14,用于根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。 [0093] 需要说明的是,前述对声纹认证处理方法实施例的解释说明也适用于该实施例的声纹认证处理装置,此处不再赘述。 [0094] 本申请实施例的声纹认证处理装置,应用混合性别的深度神经网络DNN声纹基线系统,提取训练集中每条语音的第一特征向量,根据所述每条语音的第一特征向量以及预先标注的性别标签训练性别分类器,根据所述训练集中不同性别的语音数据,分别训练不同性别的DNN模型,根据不同性别的DNN模型以及所述训练集中不同性别的语音数据,分别训练不同性别的统一背景模型、特征向量提取模型、以及概率线性判别分析模型。由此,建立了区分性别的声纹认证处理模型,以提高声纹认证的效率和准确性。 [0095] 图8是本申请另一个实施例的声纹认证处理装置的结构示意图,如图8所示,基于图7所示实施例,还包括: [0096] 第一接收模块15,用于接收用户发送的携带用户标识的声纹注册请求; [0097] 性别标注模块16,用于获取用户发送的用于声纹注册的多条语音,提取第一条语音的第一特征信息,应用所述性别分类器获取所述第一特征信息的性别标签; [0098] 第一处理模块17,用于根据与所述性别标签对应的DNN模型获取每条语音的后验概率;根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量; [0099] 获取模块18,用于根据与所述多条语音对应的多个第二特征向量获取所述用户的声纹注册模型; [0100] 注册模块19,用于将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。 [0101] 在一个实施例中,所述获取模块18用于: [0102] 获取所述多个第二特征向量的平均特征向量作为所述用户的声纹注册模型。 [0103] 需要说明的是,前述对声纹认证处理方法实施例的解释说明也适用于该实施例的声纹认证处理装置,此处不再赘述。 [0104] 本申请实施例的声纹认证处理装置,首先应用性别分类器获取用户输入的第一条语音的性别标签,根据与性别标签对应的DNN模型获取每条语音的后验概率,根据与所述性别标签对应的统一背景模型和特征向量提取模型,分别提取每条语音的第二特征向量,根据多个第二特征向量获取所述用户的声纹注册模型,将所述用户标识、所述性别标签、所述声纹注册模型的对应关系存储到声纹注册数据库。由此,实现了区分性别的声纹注册过程,以便应用区分性别的声纹认证处理模型提高了声纹认证的效率和准确性。 [0105] 图9是本申请另一个实施例的声纹认证处理装置的结构示意图,如图9所示,基于图8所示实施例,还包括: [0106] 第二接收模块20,用于接收用户发送的携带用户标识的声纹识别请求; [0107] 查询模块21,用于查询所述声纹注册数据库获取与所述用户标识对应的性别标签和声纹注册模型; [0108] 第二处理模块22,用于获取用户发送的用于声纹识别的语音,根据与所述性别标签对应的DNN模型获取所述语音的后验概率,应用与所述性别标签对应的统一背景模型和特征向量提取模型,提取所述语音的第二特征向量; [0109] 比较模块23,用于应用与所述性别标签对应的概率线性判别分析模型,比较所述语音的第二特征向量和所述声纹注册模型的相似度; [0110] 识别模块24,用于根据所述相似度和预设的阈值向所述用户返回声纹识别结果。 [0111] 其中,所述识别模块24用于: [0112] 比较所述相似度和预设的阈值的大小; [0113] 若获知所述相似度大于等于预设的阈值,则返回声纹识别成功; [0114] 若获知所述相似度小于预设的阈值,则返回声纹识别失败。 [0115] 需要说明的是,前述对声纹认证处理方法实施例的解释说明也适用于该实施例的声纹认证处理装置,此处不再赘述。 [0116] 本申请实施例的声纹认证处理装置,首先查询声纹注册数据库获取与用户标识对应的性别标签和声纹注册模型;应用与性别标签对应的统一背景模型和特征向量提取模型,提取语音的第二特征向量,应用概率线性判别分析模型比较语音的第二特征向量和声纹注册模型的相似度,根据所述相似度和预设的阈值向所述用户返回声纹识别结果。由此,实现了区分性别的声纹认证过程,提高了声纹认证的效率和准确性。 [0117] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。 [0118] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。 [0119] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。 [0120] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。 [0121] 应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。 [0122] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。 [0123] 此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。 [0124] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。 |