声纹认证方法和装置

申请号 CN201510337291.8 申请日 2015-06-17 公开(公告)号 CN105185379B 公开(公告)日 2017-08-18
申请人 百度在线网络技术(北京)有限公司; 发明人 李超; 关勇;
摘要 本 发明 提出一种声纹认证方法和装置,该声纹认证方法包括向用户展示提示文本,所述提示文本是所述用户预先注册的短语的组合;获取所述用户朗诵所述提示文本的语音;在所述语音与所述提示文本一致时,获取预先建立的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果。该方法能够既保证了用户在认证时不需要说太长时间的话,也保证了语音内容的变化性,从而防止录音欺骗。
权利要求

1.一种声纹认证方法,其特征在于,包括:
向用户展示提示文本,所述提示文本是所述用户预先注册的短语的组合;
获取所述用户朗诵所述提示文本的语音;
在所述语音与所述提示文本一致时,获取预先建立的所述短语或提示文本的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果;
其中,所述方法,还包括:
向所述用户展示待注册的短语;
获取所述用户朗诵所述待注册的短语的语音;
在所述用户朗诵的语音与所述待注册的短语一致时,建立所述待注册的短语的注册模型。
2.根据权利要求1所述的方法,其特征在于,所述获取预先建立的所述短语或提示文本的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果,包括:
对所述语音进行切分,得到与所述短语对应的短语语音;获取预先建立的与所述短语对应的注册模型;将所述短语语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
获取预先建立的与所述短语对应的注册模型;对所述注册模型进行组合,得到组合后的注册模型;将所述语音作为待认证的语音,将所述组合后的注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
获取预先建立的与所述提示文本对应的注册模型;将所述语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果。
3.根据权利要求1所述的方法,其特征在于,所述预先注册的短语为多个,所述向用户展示提示文本之前,所述方法还包括:
在预先注册的多个短语中随机选择一个或多个短语,并将选择的短语组合成所述提示文本。
4.根据权利要求2所述的方法,其特征在于,所述根据所述待认证的语音和所述认证模型,确定声纹认证结果,包括:
计算所述待认证的语音与所述认证模型之间的匹配数值;
如果所述匹配数值大于预设阈值,则确定声纹认证结果是认证成功。
5.根据权利要求2所述的方法,其特征在于,所述获取预先建立的与所述短语对应的注册模型,包括:
获取所述用户的用户标识;
根据所述用户的用户标识,所述短语,以及,注册时生成的用户标识、短语及注册模型的对应关系,获取与所述短语对应的注册模型。
6.根据权利要求1所述的方法,其特征在于,所述用户朗诵的语音为多次,所述在所述用户朗诵的语音与所述待注册的短语一致时,建立所述待注册的短语的注册模型,包括:
在每次所述用户朗诵的语音都与所述待注册的短语一致时,根据多次朗诵的语音,建立所述待注册的短语的注册模型。
7.根据权利要求1所述的方法,其特征在于,还包括:
向所述用户展示可供选择的短语;
获取所述用户在所述可供选择的短语中,选择的所述待注册的短语。
8.根据权利要求1所述的方法,其特征在于,所述待注册的短语为多个时,不同的待注册的短语满足如下条件中的至少一项:
不同的待注册的短语的长度均小于预设的长度阈值;
不同的待注册的短语的长度差值小于预设的差值;
不同的待注册的短语中不包含同音字。
9.一种声纹认证装置,其特征在于,包括:
第一展示模,用于向用户展示提示文本,所述提示文本是所述用户预先注册的短语的组合;
第一获取模块,用于获取所述用户朗诵所述提示文本的语音;
认证模块,用于在所述语音与所述提示文本一致时,获取预先建立的所述短语或提示文本的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果;
其中,所述装置,还包括:
第二展示模块,用于向所述用户展示待注册的短语;
第二获取模块,用于获取所述用户朗诵所述待注册的短语的语音;
建模模块,用于在所述用户朗诵的语音与所述待注册的短语一致时,建立所述待注册的短语的注册模型。
10.根据权利要求9所述的装置,其特征在于,所述认证模块具体用于:
对所述语音进行切分,得到与所述短语对应的短语语音;获取预先建立的与所述短语对应的注册模型;将所述短语语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
获取预先建立的与所述短语对应的注册模型;对所述注册模型进行组合,得到组合后的注册模型;将所述语音作为待认证的语音,将所述组合后的注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
获取预先建立的与所述提示文本对应的注册模型;将所述语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果。
11.根据权利要求9所述的装置,其特征在于,所述预先注册的短语为多个,所述装置还包括:
生成模块,用于在预先注册的多个短语中随机选择一个或多个短语,并将选择的短语组合成所述提示文本。
12.根据权利要求10所述的装置,其特征在于,所述认证模块用于根据所述待认证的语音和所述认证模型,确定声纹认证结果,包括:
计算所述待认证的语音与所述认证模型之间的匹配数值;
如果所述匹配数值大于预设阈值,则确定声纹认证结果是认证成功。
13.根据权利要求10所述的装置,其特征在于,所述认证模块用于获取预先建立的与所述短语对应的注册模型,包括:
获取所述用户的用户标识;
根据所述用户的用户标识,所述短语,以及,注册时生成的用户标识、短语及注册模型的对应关系,获取与所述短语对应的注册模型。
14.根据权利要求9所述的装置,其特征在于,所述用户朗诵的语音为多次,所述建模模块具体用于:
在每次所述用户朗诵的语音都与所述待注册的短语一致时,根据多次朗诵的语音,建立所述待注册的短语的注册模型。
15.根据权利要求9所述的装置,其特征在于,还包括:
第三展示模块,用于向所述用户展示可供选择的短语;
第三获取模块,用于获取所述用户在所述可供选择的短语中,选择的所述待注册的短语。

说明书全文

声纹认证方法和装置

技术领域

[0001] 本发明涉及身份认证技术领域,尤其涉及一种声纹认证方法和装置。

背景技术

[0002] 当前的声纹认证技术主要分为文本无关和文本相关两种。文本无关的声纹认证技术对用户说的内容不加区分,而文本相关的声纹认证技术需要用户说的内容与注册时必须一致。两种技术各有优缺点:文本无关的声纹验证技术因为不限制用户说话的内容,应用比较灵活,但为了覆盖尽量大的样本空间,需要用户长时间说话;文本相关技术的用户语音通常比较短,但是文本必须与注册时相一致,从而导致其无法防止录音欺骗。

发明内容

[0003] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0004] 为此,本发明的一个目的在于提出一种声纹认证方法,该方法可以既保证了用户在认证时不需要说太长时间的话,也保证了语音内容的变化性,从而防止录音欺骗。
[0005] 本发明的另一个目的在于提出一种声纹认证装置。
[0006] 为达到上述目的,本发明第一方面实施例提出的声纹认证方法,包括:向用户展示提示文本,所述提示文本是所述用户预先注册的短语的组合;获取所述用户朗诵所述提示文本的语音;在所述语音与所述提示文本一致时,获取预先建立的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果。
[0007] 本发明第一方面实施例提出的声纹认证方法,通过比对朗诵的语音与注册模型,可以实现基于限定文本的声纹认证,由于采用注册模型,相当于文本无关方式,可以保证用户在认证时不需要说太长时间的话;另外,由于提示文本是对预先注册的短语的组合,相当于文本相关方式中采用固定的注册短语的方式,可以保证语音内容的变化性,从而防止录音欺骗。
[0008] 为达到上述目的,本发明第二方面实施例提出的声纹认证装置,包括:第一展示模,用于向用户展示提示文本,所述提示文本是所述用户预先注册的短语的组合;第一获取模块,用于获取所述用户朗诵所述提示文本的语音;认证模块,用于在所述语音与所述提示文本一致时,获取预先建立的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果。
[0009] 本发明第二方面实施例提出的声纹认证装置,通过比对朗诵的语音与注册模型,可以实现基于限定文本的声纹认证,由于采用注册模型,相当于文本无关方式,可以保证用户在认证时不需要说太长时间的话;另外,由于提示文本是对预先注册的短语的组合,相当于文本相关方式中采用固定的注册短语的方式,可以保证语音内容的变化性,从而防止录音欺骗。
[0010] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明
[0011] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0012] 图1是本发明一实施例提出的声纹认证方法的流程示意图;
[0013] 图2是本发明另一实施例提出的声纹认证方法的流程示意图;
[0014] 图3是本发明实施例中一种注册流程的示意图;
[0015] 图4是本发明实施例中另一种注册流程的示意图;
[0016] 图5是本发明实施例中注册流程时可供选择的短语的示意图;
[0017] 图6是本发明另一实施例提出的声纹认证装置的结构示意图;
[0018] 图7是本发明另一实施例提出的声纹认证装置的结构示意图。

具体实施方式

[0019] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0020] 图1是本发明一实施例提出的声纹认证方法的流程示意图,该方法包括:
[0021] S11:向用户展示提示文本,所述提示文本是所述用户预先注册的短语的组合。
[0022] 其中,在用户需要进行声纹认证时,可以先获取该用户的用户标识(用户ID),例如,手机号,登录账号等,之后在预先建立的注册信息中查找与该用户标识对应的注册过的短语。
[0023] 例如,用户是第一用户,在注册信息中第一用户注册过的短语包括:A,B,C等,则可以从A,B,C中选择出短语组合成提示文本。
[0024] 其中,在注册过的短语中选择组合成提示文本的短语时,选择算法以及选择个数是可配置的。
[0025] 可选的,所述预先注册的短语为多个,所述向用户展示提示文本之前,所述方法还包括:
[0026] 在预先注册的多个短语中随机选择一个或多个短语,并将选择的短语组合成所述提示文本。
[0027] 例如,选择算法是随机选择,选择个数是两个,假设预先注册过的短语包括:“我们”,“真的”,“愤怒的”,“公”,“在吃饭”,“不洗手”,则可以在这六个短语中随机选择出两个组合成提示文本,提示文本例如为:“愤怒的公牛”,“真的不洗手”等。
[0028] 可以理解的是,选择出的组合成提示文本的短语的个数不限定,可以是一个或者多个。另外,提示文本的个数也不限定,也可以是一个或者多个。后续实施例以一个提示文本的认证流程为例,可以理解的是,当提示文本是多个时,可以依照一个提示文本的认证流程完成所有提示文本的认证流程,并在均认证成功后确定声纹认证成功,否则认证失败。
[0029] S12:获取所述用户朗诵所述提示文本的语音。
[0030] 在将提示文本展示给用户之后,用户可以依据提示文本进行朗诵。
[0031] 执行该方法的认证装置内可以设置语音获取模块,从而可以获取用户朗诵的语音。例如,该认证装置可以包括前台模块和后台模块,前台模块可以设置在用户设备内,用户设备内还可以包含语音获取模块,从而获取用户朗诵的语音。
[0032] S13:在所述语音与所述提示文本一致时,获取预先建立的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果。
[0033] 例如,参见图2,在获取语音后,该方法还包括:
[0034] S21:判断该语音是否与提示文本一致。
[0035] 其中,由于提示文本是该认证装置展示给用户的,因此,认证装置内会保存该提示文本。
[0036] 另外,当该认证装置获取到语音后,例如可以通过语音识别等技术确定语音对应的文本,之后再将该文本与保存的提示文本进行比对,判断两者是否一致。
[0037] S22:如果不一致,返回错误,提示文本不一致。
[0038] 例如,经过比对,两个文本不一致时,可以提示用户文本不一致,用户可以进行重新朗诵等操作。
[0039] 在两者一致时,可以根据该语音和预先建立的注册模型,确定声纹认证结果。
[0040] 可选的,所述获取预先建立的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果,包括:
[0041] 对所述语音进行切分,得到与所述短语对应的短语语音;获取预先建立的与所述短语对应的注册模型;将所述短语语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
[0042] 获取预先建立的与所述短语对应的注册模型;对所述注册模型进行组合,得到组合后的注册模型;将所述语音作为待认证的语音,将所述组合后的注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
[0043] 获取预先建立的与所述提示文本对应的注册模型;将所述语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果。
[0044] 例如,获取的语音是“愤怒的公牛”的语音,则可以对该语音进行切分,得到的短信语音包括:“愤怒的”对应的语音,以及,“公牛”对应的语音。之后,与注册时存储的“愤怒的”对应的语音,以及,“公牛”对应的语音分别进行匹配,得到声纹认证结果。其中,在语音切分时,可以采用预先建立的切分模型,该切分模型可以根据注册时的短语对应的短语语音建立,例如,切分模型中记录注册时每个短语语音的起止标识,从而可以根据起止标识可以完成对语音切分,得到短语语音。
[0045] 又例如,确定当前的提示文本是“愤怒的公牛”时,可以在注册信息中查找到“愤怒的”对应的语音,以及,“公牛”对应的语音,之后将这两个语音进行组合,得到组合后的语音,再将该组合后的语音与获取的用户朗诵的“愤怒的公牛”的语音进行匹配,得到声纹认证结果。
[0046] 又例如,在注册时,不是如上建立短语的注册模型,而是建立可能的提示文本的注册模型,例如,建立“愤怒的公牛”的语音对应的注册模型,从而在认证时,可以获取“愤怒的公牛”对应的注册模型,再与获取的用户朗诵的“愤怒的公牛”的语音进行匹配,得到声纹认证结果。
[0047] 参见图2,以语音切分为例,在S21判断出是一致时,该方法还包括:
[0048] S23:将该语音切分为短语语音。
[0049] 其中,在语音切分时,可以采用预先建立的切分模型,该切分模型可以根据注册时的短语对应的短语语音建立,例如,切分模型中记录注册时每个短语语音的起止标识,从而可以根据起止标识可以完成对语音切分,得到短语语音。
[0050] S24:计算每个短语语音与相应的注册模型的匹配数值。
[0051] 匹配数值的计算方法包括但不限于:用于隐尔可夫模型(Hidden Markov Model,HMM)的Viterbi打分,和用于ivector模型的概率线性鉴别分析(Probabilistic Linear Discriminant Analysis,PLDA)打分。
[0052] S25:判断是否每个匹配数值都大于预设阈值,若是,执行S26,否则,执行S27。
[0053] S26:认证成功。
[0054] S27:认证失败。
[0055] 可选的,所述确定与所述短语对应的注册模型,包括:
[0056] 获取所述用户的用户标识;
[0057] 根据所述用户的用户标识,所述短语,以及,注册时生成的用户标识、短语及注册模型的对应关系,确定与所述短语对应的注册模型。
[0058] 例如,经过语音切分,得到的短语语音包括:“愤怒的”的语音,以及,“公牛”的语音。
[0059] 而注册会生成如下的对应关系:用户标识,短语与注册模块的对应关系,例如,第一用户的第一短语对应第一注册模型,则在用户进行认证时,可以获取用户的用户标识,在切分后可以得到短语,再根据该对应关系,就可以确定相应的注册模型。
[0060] 在确定注册模型后,可以计算该注册模型与相应的短语语音之间的匹配数值,匹配数值的计算方法包括但不限于:用于HMM的Viterbi打分,和用于ivector模型的plda打分。
[0061] 上述描述了认证过程,可以理解的是,在认证之前还可以进行注册过程,在注册过程中建立短语的注册模型。
[0062] 参见图3,注册流程可以包括:
[0063] S31:向用户展示待注册的短语。
[0064] 其中,待注册的短语是在注册之前预先生成的,待注册的短语可以是一个或多个。
[0065] 可选的,所述待注册的短语为多个时,不同的待注册的短语满足如下条件中的至少一项:
[0066] 不同的待注册的短语的长度均小于预设的长度阈值;
[0067] 不同的待注册的短语的长度差值小于预设的差值;
[0068] 不同的待注册的短语中不包含同音字。
[0069] 例如,可以设置待注册的短语的长度都是两个字或者三个字,从而使得短语是短文本,且长度基本一致。
[0070] 又例如,还可以设置不同的短语中尽量不包含同音字,例如,“公牛”和“拱手”中都有gong这个发音,尽量不能同时出现。
[0071] 可选的,待注册的短语可以是默认固定设置的,或者,也可以是用户在多个可供选择的短语中选择得到的。例如,参见图4,注册流程还可以包括:
[0072] S41:向所述用户展示可供选择的短语。
[0073] 例如,参见图5,展示选择界面51,该选择界面中包含可供选择的短语,可供选择的短语例如包括:我们,真的,烦怒的,…。
[0074] S42:获取所述用户在所述可供选择的短语中,选择的所述待注册的短语。
[0075] 在向用户展示如图5所示的短语后,用户可以在这些短语中选择待注册的短语,例如,选择的待注册的短语包括:真的,烦怒的,不洗手,孔雀。之后,在完成对这些待注册的短语的注册后,可以在认证流程时生成提示文本。例如,提示文本可以包括:孔雀不洗手,烦怒的孔雀不洗手,愤怒的孔雀真的不洗手。可以理解的是,本实施例中以逻辑上的短语组合为例,为了提高可读性,可以在将短语进行组合后再检查语法等,当符合语法等要求后,再将该提示文本展示给用户。
[0076] 之后,可以将该待注册的短语展示给用户,用户可以朗诵该待注册的短语。
[0077] S32:获取所述用户朗诵所述待注册的短语的语音。
[0078] 例如,用户依次朗诵每个待注册的短语,通过用户设备内的语音获取模块可以获取到相应的语音。
[0079] S33:在所述用户朗诵的语音与所述待注册的短语一致时,建立所述待注册的短语的注册模型。
[0080] 可选的,所述用户朗诵的语音为多次,所述在所述用户朗诵的语音与所述待注册的短语一致时,建立所述待注册的短语的注册模型,包括:
[0081] 在每次所述用户朗诵的语音都与所述待注册的短语一致时,根据多次朗诵的语音,建立所述待注册的短语的注册模型。
[0082] 例如,用户朗诵“真的”时,可以设置为需要朗诵多次,在每次朗诵之后,通过语音识别等技术识别出相应的文本,如果与“真的”一致,则可以根据多次的语音建立“真的”对应的注册模型。
[0083] 根据语音建立注册模型的方式有多种,例如建立的注册模块包括但不限于:基于HMM的声纹模型,基于ivector的声纹模型。
[0084] 本实施例中,通过比对朗诵的语音与注册模型,可以实现基于限定文本的声纹认证,由于采用注册模型,相当于文本无关方式,可以保证用户在认证时不需要说太长时间的话;另外,由于提示文本是对预先注册的短语的组合,相当于文本相关方式中采用固定的注册短语的方式,可以保证语音内容的变化性,从而防止录音欺骗。本实施例采用声纹认证,不易被模仿,安全程度增强,增加了便利性。当用在支付时,可以不在需要用户输入密码,也不用验证短信,提高了使用过程的便利性和支付效率。
[0085] 图6是本发明另一实施例提出的声纹认证装置的结构示意图,该装置60包括:
[0086] 第一展示模块61,用于向用户展示提示文本,所述提示文本是所述用户预先注册的短语的组合;
[0087] 其中,在用户需要进行声纹认证时,可以先获取该用户的用户标识(用户ID),例如,手机号,登录账号等,之后在预先建立的注册信息中查找与该用户标识对应的注册过的短语。
[0088] 例如,用户是第一用户,在注册信息中第一用户注册过的短语包括:A,B,C等,则可以从A,B,C中选择出短语组合成提示文本。
[0089] 其中,在注册过的短语中选择组合成提示文本的短语时,选择算法以及选择个数是可配置的。
[0090] 可选的,所述预先注册的短语为多个,参见图7,所述装置60还包括:
[0091] 生成模块64,用于在预先注册的多个短语中随机选择一个或多个短语,并将选择的短语组合成所述提示文本。
[0092] 例如,选择算法是随机选择,选择个数是两个,假设预先注册过的短语包括:“我们”,“真的”,“愤怒的”,“公牛”,“在吃饭”,“不洗手”,则可以在这六个短语中随机选择出两个组合成提示文本,提示文本例如为:“愤怒的公牛”,“真的不洗手”等。
[0093] 可以理解的是,选择出的组合成提示文本的短语的个数不限定,可以是一个或者多个。另外,提示文本的个数也不限定,也可以是一个或者多个。后续实施例以一个提示文本的认证流程为例,可以理解的是,当提示文本是多个时,可以依照一个提示文本的认证流程完成所有提示文本的认证流程,并在均认证成功后确定声纹认证成功,否则认证失败。
[0094] 第一获取模块62,用于获取所述用户朗诵所述提示文本的语音;
[0095] 在将提示文本展示给用户之后,用户可以依据提示文本进行朗诵。
[0096] 第一获取模块可以是语音获取模块,从而获取用户朗诵的语音。
[0097] 认证模块63,用于在所述语音与所述提示文本一致时,获取预先建立的注册模型,并根据所述语音和所述注册模型,确定声纹认证结果。
[0098] 其中,由于提示文本是该认证装置展示给用户的,因此,认证装置内会保存该提示文本。
[0099] 另外,当该认证装置获取到语音后,例如可以通过语音识别等技术确定语音对应的文本,之后再将该文本与保存的提示文本进行比对,判断两者是否一致。
[0100] 另一方面,如果不一致,返回错误,提示文本不一致。例如,经过比对,两个文本不一致时,可以提示用户文本不一致,用户可以进行重新朗诵等操作。
[0101] 可选的,所述认证模块63具体用于:
[0102] 对所述语音进行切分,得到与所述短语对应的短语语音;获取预先建立的与所述短语对应的注册模型;将所述短语语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
[0103] 获取预先建立的与所述短语对应的注册模型;对所述注册模型进行组合,得到组合后的注册模型;将所述语音作为待认证的语音,将所述组合后的注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果;或者,
[0104] 获取预先建立的与所述提示文本对应的注册模型;将所述语音作为待认证的语音,将所述注册模型作为认证模型,并根据所述待认证的语音和所述认证模型,确定声纹认证结果。
[0105] 例如,获取的语音是“愤怒的公牛”的语音,则可以对该语音进行切分,得到的短信语音包括:“愤怒的”对应的语音,以及,“公牛”对应的语音。之后,与注册时存储的“愤怒的”对应的语音,以及,“公牛”对应的语音分别进行匹配,得到声纹认证结果。其中,在语音切分时,可以采用预先建立的切分模型,该切分模型可以根据注册时的短语对应的短语语音建立,例如,切分模型中记录注册时每个短语语音的起止标识,从而可以根据起止标识可以完成对语音切分,得到短语语音。
[0106] 又例如,确定当前的提示文本是“愤怒的公牛”时,可以在注册信息中查找到“愤怒的”对应的语音,以及,“公牛”对应的语音,之后将这两个语音进行组合,得到组合后的语音,再将该组合后的语音与获取的用户朗诵的“愤怒的公牛”的语音进行匹配,得到声纹认证结果。
[0107] 又例如,在注册时,不是如上建立短语的注册模型,而是建立可能的提示文本的注册模型,例如,建立“愤怒的公牛”的语音对应的注册模型,从而在认证时,可以获取“愤怒的公牛”对应的注册模型,再与获取的用户朗诵的“愤怒的公牛”的语音进行匹配,得到声纹认证结果。
[0108] 可选的,所述认证模块63用于根据所述待认证的语音和所述认证模型,确定声纹认证结果,包括:
[0109] 计算所述待认证的语音与所述认证模型之间的匹配数值;
[0110] 如果所述匹配数值大于预设阈值,则确定声纹认证结果是认证成功。
[0111] 可选的,所述认证模块63用于获取预先建立的与所述短语对应的注册模型,包括:
[0112] 获取所述用户的用户标识;
[0113] 根据所述用户的用户标识,所述短语,以及,注册时生成的用户标识、短语及注册模型的对应关系,获取与所述短语对应的注册模型。
[0114] 例如,经过语音切分,得到的短语语音包括:“愤怒的”的语音,以及,“公牛”的语音。
[0115] 而注册会生成如下的对应关系:用户标识,短语与注册模块的对应关系,例如,第一用户的第一短语对应第一注册模型,则在用户进行认证时,可以获取用户的用户标识,在切分后可以得到短语,再根据该对应关系,就可以确定相应的注册模型。
[0116] 在确定注册模型后,可以计算该注册模型与相应的短语语音之间的匹配数值,匹配数值的计算方法包括但不限于:用于HMM的Viterbi打分,和用于ivector模型的plda打分。
[0117] 另一实施例中,参见图7,该装置60还包括:
[0118] 第二展示模块65,用于向所述用户展示待注册的短语;
[0119] 其中,待注册的短语是在注册之前预先生成的,待注册的短语可以是一个或多个。
[0120] 可选的,所述待注册的短语为多个时,不同的待注册的短语满足如下条件中的至少一项:
[0121] 不同的待注册的短语的长度均小于预设的长度阈值;
[0122] 不同的待注册的短语的长度差值小于预设的差值;
[0123] 不同的待注册的短语中不包含同音字。
[0124] 例如,可以设置待注册的短语的长度都是两个字或者三个字,从而使得短语是短文本,且长度基本一致。
[0125] 又例如,还可以设置不同的短语中尽量不包含同音字,例如,“公牛”和“拱手”中都有gong这个发音,尽量不能同时出现。
[0126] 可选的,待注册的短语可以是默认固定设置的,或者,也可以是用户在多个可供选择的短语中选择得到的。
[0127] 另一实施例中,参见图7,该装置60还包括:
[0128] 第三展示模块66,用于向所述用户展示可供选择的短语;
[0129] 例如,参见图5,展示选择界面51,该选择界面中包含可供选择的短语,可供选择的短语例如包括:我们,真的,烦怒的,…。
[0130] 第三获取模块67,用于获取所述用户在所述可供选择的短语中,选择的所述待注册的短语。
[0131] 在向用户展示如图5所示的短语后,用户可以在这些短语中选择待注册的短语,例如,选择的待注册的短语包括:真的,烦怒的,不洗手,孔雀。之后,在完成对这些待注册的短语的注册后,可以在认证流程时生成提示文本。例如,提示文本可以包括:孔雀不洗手,烦怒的孔雀不洗手,愤怒的孔雀真的不洗手。可以理解的是,本实施例中以逻辑上的短语组合为例,为了提高可读性,可以在将短语进行组合后再检查语法等,当符合语法等要求后,再将该提示文本展示给用户。
[0132] 之后,可以将该待注册的短语展示给用户,用户可以朗诵该待注册的短语。
[0133] 第二获取模块68,用于获取所述用户朗诵所述待注册的短语的语音;
[0134] 例如,用户依次朗诵每个待注册的短语,通过用户设备内的语音获取模块可以获取到相应的语音。
[0135] 建模模块69,用于在所述用户朗诵的语音与所述待注册的短语一致时,建立所述待注册的短语的注册模型。
[0136] 可选的,所述用户朗诵的语音为多次,所述建模模块69具体用于:
[0137] 在每次所述用户朗诵的语音都与所述待注册的短语一致时,根据多次朗诵的语音,建立所述待注册的短语的注册模型。
[0138] 例如,用户朗诵“真的”时,可以设置为需要朗诵多次,在每次朗诵之后,通过语音识别等技术识别出相应的文本,如果与“真的”一致,则可以根据多次的语音建立“真的”对应的注册模型。
[0139] 根据语音建立注册模型的方式有多种,例如建立的注册模块包括但不限于:基于HMM的声纹模型,基于ivector的声纹模型。
[0140] 本实施例中,通过比对朗诵的语音与注册模型,可以实现基于限定文本的声纹认证,由于采用注册模型,相当于文本无关方式,可以保证用户在认证时不需要说太长时间的话;另外,由于提示文本是对预先注册的短语的组合,相当于文本相关方式中采用固定的注册短语的方式,可以保证语音内容的变化性,从而防止录音欺骗。本实施例采用声纹认证,不易被模仿,安全程度增强,增加了便利性。当用在支付时,可以不在需要用户输入密码,也不用验证短信,提高了使用过程的便利性和支付效率。
[0141] 需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
[0142] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0143] 应当理解,本发明的各部分可以用硬件软件固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
[0144] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0145] 此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0146] 上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0147] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0148] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
QQ群二维码
意见反馈