电子装置、身份验证的方法及存储介质专利检索-声学模型人工智能专利检索查询-专利查询网

电子装置、身份验证的方法及存储介质

阅读：62发布：2020-05-11

专利汇可以提供电子装置、身份验证的方法及存储介质专利检索，专利查询，专利分析的服务。并且本发明涉及一种电子装置、身份验证的方法及存储介质，该方法包括：在IVR场景下用户办理业务时，播报第一预设位数的随机码供该用户跟读，并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型；将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算该对齐后的两声学模型相同的概率；若该概率大于预设第一阈值，则提取该用户本次跟读的语音的声纹特征向量，获取该用户在注册成功后预存的标准声纹特征向量，并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离，以对该用户进行身份验证。本发明对用户身份进行双重验证，能够准确确认用户身份。，下面是电子装置、身份验证的方法及存储介质专利的具体信息内容。

权利要求

1.一种电子装置，其特征在于，所述电子装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：
声学模型建立步骤，在互动式语音应答IVR场景下用户办理业务时，播报第一预设位数的随机码供该用户跟读，并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型；
强制整体对齐步骤，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算该对齐后的两声学模型相同的概率；
身份验证步骤，若该对齐后的两声学模型相同的概率大于预设第一阈值，则提取该用户本次跟读的语音的声纹特征向量，获取该用户在注册成功后预存的标准声纹特征向量，并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离，以对该用户进行身份验证；
所述处理系统被所述处理器执行时，还实现如下步骤：
在互动式语音应答IVR场景下用户进行声纹注册时，播报第二预设位数的随机码供用户跟读预设次，在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型；
分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算对齐后的两声学模型相同的概率；
若对齐后的两声学模型相同的概率均大于预设第二阈值，则提取每次用户跟读的语音的声纹特征向量，计算两两声纹特征向量的距离，以分析每次跟读的用户是否为同一用户；
若是，则以该声纹特征向量作为该用户的标准声纹特征向量进行存储。
2.根据权利要求1所述的电子装置，其特征在于，所述预设类型的声学模型为深度神经网络-隐马尔可夫模型。
3.根据权利要求1所述的电子装置，其特征在于，所述提取该用户本次跟读的语音的声纹特征向量的步骤包括：
对该用户本次跟读的语音进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；
在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。
4.一种身份验证的方法，其特征在于，所述身份验证的方法包括：
S1，在互动式语音应答IVR场景下用户办理业务时，播报第一预设位数的随机码供该用户跟读，并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型；
S2，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算该对齐后的两声学模型相同的概率；
S3，若该对齐后的两声学模型相同的概率大于预设第一阈值，则提取该用户本次跟读的语音的声纹特征向量，获取该用户在注册成功后预存的标准声纹特征向量，并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离，以对该用户进行身份验证；
所述步骤S1之前，还包括：
S01，在互动式语音应答IVR场景下用户进行声纹注册时，播报第二预设位数的随机码供用户跟读预设次，在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型；
S02，分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算对齐后的两声学模型相同的概率；
S03，若对齐后的两声学模型相同的概率均大于预设第二阈值，则提取每次用户跟读的语音的声纹特征向量，计算两两声纹特征向量的距离，以分析每次跟读的用户是否为同一用户；
S04，若是，则以该声纹特征向量作为该用户的标准声纹特征向量进行存储。
5.根据权利要求4所述的身份验证的方法，其特征在于，所述预设类型的声学模型为深度神经网络-隐马尔可夫模型。
6.根据权利要求4所述的身份验证的方法，其特征在于，所述提取该用户本次跟读的语音的声纹特征向量的步骤包括：
对该用户本次跟读的语音进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；
在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。
7.根据权利要求4所述的身份验证的方法，其特征在于，所述计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离的步骤包括：
其中，所述为标准声纹特征向量，所述为该用户本次跟读的语音
的声纹特征向量。
8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现如权利要求4至7中任一项所述的身份验证的方法的步骤。

说明书全文

电子装置、身份验证的方法及存储介质

技术领域

[0001] 本发明涉及通信技术领域，尤其涉及一种电子装置、身份验证的方法及存储介质。

背景技术

[0002] 目前，在互动式语音应答IVR(Interactive Voice Response)场景中，提供了将互动式语音应答IVR与声纹识别结合，以对客户进行身份验证的方案，例如，客户收到信用卡后使用电话进行信用卡激活或修改密码时，需要验证客户身份的场景。现有技术在互动式语音应答IVR(Interactive Voice Response)场景中，鉴于远程声纹验证双方不是当面进行验证，因此，可能会存在客户利用预先准备的合成音的欺诈行为，不能准确确认客户身份，身份验证的安全性低。

发明内容

[0003] 本发明的目的在于提供一种电子装置、身份验证的方法及存储介质，旨在对用户身份进行双重验证，能够准确确认用户身份。

[0004] 为实现上述目的，本发明提供一种电子装置，所述电子装置包括存储器及与所述存储器连接的处理器，所述存储器中存储有可在所述处理器上运行的处理系统，所述处理系统被所述处理器执行时实现如下步骤：

[0005] 声学模型建立步骤，在互动式语音应答IVR场景下用户办理业务时，播报第一预设位数的随机码供该用户跟读，并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型；

[0006] 强制整体对齐步骤，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算该对齐后的两声学模型相同的概率；

[0007] 身份验证步骤，若该对齐后的两声学模型相同的概率大于预设第一阈值，则提取该用户本次跟读的语音的声纹特征向量，获取该用户在注册成功后预存的标准声纹特征向量，并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离，以对该用户进行身份验证。

[0008] 优选地，所述处理系统被所述处理器执行时，还实现如下步骤：

[0009] 在互动式语音应答IVR场景下用户进行声纹注册时，播报第二预设位数的随机码供用户跟读预设次，在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型；

[0010] 分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算对齐后的两声学模型相同的概率；

[0011] 若对齐后的两声学模型相同的概率均大于预设第二阈值，则提取每次用户跟读的语音的声纹特征向量，计算两两声纹特征向量的距离，以分析每次跟读的用户是否为同一用户；

[0012] 若是，则以该声纹特征向量作为该用户的标准声纹特征向量进行存储。

[0013] 优选地，所述预设类型的声学模型为深度神经网络-隐马尔可夫模型。

[0014] 优选地，所述提取该用户本次跟读的语音的声纹特征向量的步骤包括：

[0015] 对该用户本次跟读的语音进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

[0016] 在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。

[0017] 为实现上述目的，本发明还提供一种身份验证的方法，所述身份验证的方法包括：

[0018] S1，在互动式语音应答IVR场景下用户办理业务时，播报第一预设位数的随机码供该用户跟读，并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型；

[0019] S2，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算该对齐后的两声学模型相同的概率；

[0020] S3，若该对齐后的两声学模型相同的概率大于预设第一阈值，则提取该用户本次跟读的语音的声纹特征向量，获取该用户在注册成功后预存的标准声纹特征向量，并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离，以对该用户进行身份验证。

[0021] 优选地，所述步骤S1之前，还包括：

[0022] S01，在互动式语音应答IVR场景下用户进行声纹注册时，播报第二预设位数的随机码供用户跟读预设次，在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型；

[0023] S02，分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算对齐后的两声学模型相同的概率；

[0024] S03，若对齐后的两声学模型相同的概率均大于预设第二阈值，则提取每次用户跟读的语音的声纹特征向量，计算两两声纹特征向量的距离，以分析每次跟读的用户是否为同一用户；

[0025] S04，若是，则以该声纹特征向量作为该用户的标准声纹特征向量进行存储。

[0026] 优选地，所述预设类型的声学模型为深度神经网络-隐马尔可夫模型。

[0027] 优选地，所述提取该用户本次跟读的语音的声纹特征向量的步骤包括：

[0028] 对该用户本次跟读的语音进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；

[0029] 在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。

[0030] 优选地，所述计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离的步骤包括：

[0031] 其中，所述为标准声纹特征向量，所述为该用户本次跟读的语音的声纹特征向量。

[0032] 本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现上述的身份验证的方法的步骤。

[0033] 本发明的有益效果是：本发明在互动式语音应答IVR场景下进行身份识别时，利用随机码供用户跟读能够有效防止了预先准备的合成音进行欺诈，将随机码与声纹识别结合，实现了对用户身份的双重验证，能够准确确认用户身份，提高互动式语音应答IVR场景下身份验证的安全性，此外，对播报的随机码的声学模型及该用户跟读的语音的声学模型进行强制整体对齐操作，能够降低计算量，提高了身份识别效率。附图说明

[0034] 图1为本发明各个实施例一可选的应用环境示意图；

[0035] 图2为本发明身份验证的方法一实施例的流程示意图。

具体实施方式

[0036] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0037] 需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

[0038] 参阅图1所示，是本发明身份验证的方法的较佳实施例的应用环境示意图。该应用环境示意图包括电子装置1及终端设备。电子装置1可以通过网络、近场通信技术等适合的技术与终端设备进行数据交互。本实施例中，用户通过终端设备登录电子装置1的互动式语音应答IVR系统，以执行声纹注册及声纹识别的操作。

[0039] 所述终端设备包括，但不限于，任何一种可与用户通过键盘、鼠标、遥控器、触摸板或者声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备、导航装置等等的可移动设备，或者诸如数字TV、台式计算机、笔记本、服务器等等的固定终端。

[0040] 所述电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。所述电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

[0041] 在本实施例中，电子装置1可包括，但不仅限于，可通过系统总线相互通信连接的存储器11、处理器12、网络接口13，存储器11存储有可在处理器12上运行的处理系统。需要指出的是，图1仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

[0042] 其中，存储器11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储器11的可读存储介质通常用于存储安装于电子装置1的操作系统和各类应用软件，例如存储本发明一实施例中的处理系统的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

[0043] 所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子装置1的总体操作，例如执行与所述终端设备进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行处理系统等。

[0044] 所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述电子装置1与其他电子设备之间建立通信连接。本实施例中，网络接口13主要用于将电子装置1与一个或多个终端设备相连，在电子装置1与一个或多个终端设备之间建立数据传输通道和通信连接。

[0045] 所述处理系统存储在存储器11中，包括至少一个存储在存储器11中的计算机可读指令，该至少一个计算机可读指令可被处理器器12执行，以实现本申请各实施例的方法；以及，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

[0046] 在一实施例中，上述处理系统被所述处理器12执行时实现如下步骤：

[0047] 声学模型建立步骤，在互动式语音应答IVR场景下用户办理业务时，播报第一预设位数的随机码供该用户跟读，并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型；

[0048] 在互动式语音应答IVR场景下，用户请求办理业务时发送身份识别码，例如身份证号，在接收到用户的请求后，分析用户所办理的业务是否需要进一步的身份验证，且根据用户的身份识别码分析该用户是否已注册有声纹，若需要进一步的身份验证且该用户已注册有声纹，则生成第一预设位数的随机码并采用语音合成技术以语音形式播报该随机码，引导用户进行跟读，该第一预设位数例如为8位。

[0049] 在用户跟读后，为本次播报的随机码的语音建立预设类型的声学模型、为该用户本次跟读的语音建立预设类型的声学模型。在一优选实施例中，该预设类型的声学模型为深度神经网络-隐马尔可夫声学模型，即DNN-HMM声学模型。在其他实施例中，该预设类型的声学模型也可以为其他的声学模型，例如为隐马尔可夫声学模型等。

[0050] 在一具体的实例中，以DNN-HMM声学模型为例，其中，HMM用来描述语音信号的动态变化，利用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率，即可得到DNN-HMM模型。本次播报的随机码的语音及该用户本次跟读的语音都是一连串的音节，若要辨识成的文字，则是一连串的字符。本实施例在建立DNN-HMM声学模型时，基于预定的字符语音库，通过全局字符声学自适应训练得到本次播报的随机码的语音的DNN-HMM声学模型、该用户本次跟读的语音的DNN-HMM声学模型。

[0051] 强制整体对齐步骤，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算该对齐后的两声学模型相同的概率；

[0052] 其中，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐(Force Alignment)操作，相比于传统的采取逐字对比的方法，本实施例能够大大降低计算量，有利提高身份识别的效率。

[0053] 其中，预定算法在一实施例中为前验后验概率算法，在其他实施例中，还可以是相似度算法，例如该相似度算法为计算对齐后的两声学模型中字符的编辑距离，编辑距离越小则对齐后的两声学模型相同的概率越大；该相似度算法还可以是最长公共子序列算法，若得到的最长公共子序列均与对齐后的两声学模型中字符的长度相差越小，则对齐后的两声学模型相同的概率越大。

[0054] 身份验证步骤，若该对齐后的两声学模型相同的概率大于预设第一阈值，则提取该用户本次跟读的语音的声纹特征向量，获取该用户在注册成功后预存的标准声纹特征向量，并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离，以对该用户进行身份验证。

[0055] 本实施例中，若该对齐后的两声学模型相同的概率大于预设第一阈值，例如预设第一阈值为0.985，则认为用户本次跟读的字符与本次播报的随机码一致。由于播报的是随机码，因此可以有效防止了用户预先准备的合成音进行欺诈，提升身份识别的安全性。

[0056] 在一实施例中，提取该用户本次跟读的语音的声纹特征向量的步骤包括：对该用户本次跟读的语音进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。

[0057] 其中，对该用户本次跟读的语音进行分帧，然后对分帧后的语音数据进行预加重处理，预加重处理实际是高通滤波处理，滤除低频数据，使得该语音数据中的高频特性更加突显，具体地，高通滤波的传递函数为：H(Z)＝1-αZ-1，其中，Z为语音数据，α为常量系数，优选地，α的取值为0.97；由于语音在分帧之后在一定程度上背离原始语音，因此，需要对该语音数据进行加窗处理。

[0058] 本实施例中，在梅尔频谱上进行倒谱分析例如为取对数、做逆变换，逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为梅尔频率倒谱系数MFCC。梅尔频率倒谱系数MFCC即为这帧语音数据的声纹特征，将每帧的梅尔频率倒谱系数MFCC组成特征数据矩阵，该特征数据矩阵即为该用户本次跟读的语音的声纹特征向量。

[0059] 本实施例取语音数据的梅尔频率倒谱系数MFCC组成对应的声纹特征向量，由于其比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统，因此能够提高身份验证的准确性。

[0060] 在一实施例中，计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离为计算两者的余弦距离，包括：

[0061] 其中，所述为标准声纹特征向量，所述为该用户本次跟读的语音的声纹特征向量。

[0062] 若余弦距离小于或者等于预设的距离阈值，则身份验证通过；若余弦距离大于预设的距离阈值，则身份验证不通过。

[0063] 在一实施例中，在用户注册成功后预存的标准声纹特征向量，该注册声纹的步骤包括：

[0064] 在互动式语音应答IVR场景下用户进行声纹注册时，播报第二预设位数的随机码供用户跟读预设次，在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型；

[0065] 分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算对齐后的两声学模型相同的概率；

[0066] 若对齐后的两声学模型相同的概率均大于预设第二阈值，则提取每次用户跟读的语音的声纹特征向量，计算两两声纹特征向量的距离，以分析每次跟读的用户是否为同一用户；

[0067] 若是，则以该声纹特征向量作为该用户的标准声纹特征向量进行存储；

[0068] 若否，则提示用户重新录入，再次进行注册声纹的步骤。

[0069] 其中，在互动式语音应答IVR场景下，用户请求注册时发送身份识别码，例如身份证号，在接收到用户的请求后，生成第二预设位数的随机码并采用语音合成技术以语音形式播报该随机码，引导用户进行跟读预设次(例如3次)，该第二预设位数例如为8位。

[0070] 在用户跟读后，为每次播报的随机码的语音建立预设类型的声学模型、为该用户每次跟读的语音建立预设类型的声学模型。在一优选实施例中，该预设类型的声学模型为深度神经网络-隐马尔可夫声学模型，即DNN-HMM声学模型。在其他实施例中，该预设类型的声学模型也可以为其他的声学模型，例如为隐马尔可夫声学模型等。具体的实例可以参考上述的实施例，此处不再赘述。

[0071] 在一具体的实例中，以DNN-HMM声学模型为例，其中，HMM用来描述语音信号的动态变化，利用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率，即可得到DNN-HMM模型。每次播报的随机码的语音及该用户跟读的语音都是一连串的音节，若要辨识成的文字，则是一连串的字符。本实施例在建立DNN-HMM声学模型时，基于预定的字符语音库，通过全局字符声学自适应训练得到播报的随机码的语音的DNN-HMM声学模型、该用户跟读的语音的DNN-HMM声学模型。

[0072] 其中，将每次播报的随机码的声学模型及该用户跟读的语音的声学模型进行强制整体对齐(Force Alignment)操作，相比于传统的采取逐字对比的方法，本实施例能够大大降低计算量，有利提高身份识别的效率。

[0073] 其中，预定算法在一实施例中为前验后验概率算法，在其他实施例中，还可以是相似度算法，具体的实例可以参考上述的实施例，此处不再赘述。

[0074] 本实施例中，若对齐后的两声学模型相同的概率均大于预设第二阈值，例如预设第二阈值为0.985，则认为用户每次跟读的字符与所播报的随机码一致。由于播报的是随机码，因此可以有效防止了用户预先准备的合成音进行欺诈，提升身份识别的安全性。

[0075] 在一实施例中，提取每次用户跟读的语音的声纹特征向量的步骤与上述实施例的提取语音的声纹特征向量的方法基本相同，此处不再赘述。

[0076] 在一实施例中，计算两两声纹特征向量的距离的步骤，与上述计算余弦距离的步骤基本相同，此处不再赘述。

[0077] 若余弦距离小于或者等于预设的距离阈值，则每次跟读的用户为同一用户，此时以该声纹特征向量作为该用户的标准声纹特征向量进行存储；若余弦距离大于预设的距离阈值，则每次跟读的用户不为同一用户，提示用户重新注册。

[0078] 与现有技术相比，本发明在互动式语音应答IVR场景下进行身份识别时，利用随机码供用户跟读能够有效防止了预先准备的合成音进行欺诈，将随机码与声纹识别结合，实现了对用户身份的双重验证，能够准确确认用户身份，提高互动式语音应答IVR场景下身份验证的安全性，此外，对播报的随机码的声学模型及该用户跟读的语音的声学模型进行强制整体对齐操作，能够降低计算量，提高了身份识别效率。

[0079] 如图2所示，图2为本发明身份验证的方法一实施例的流程示意图，该身份验证的方法包括以下步骤：

[0080] 步骤S1，在互动式语音应答IVR场景下用户办理业务时，播报第一预设位数的随机码供该用户跟读，并在跟读后分别为本次播报的随机码及该用户本次跟读的语音建立预设类型的声学模型；

[0081] 在互动式语音应答IVR场景下，用户请求办理业务时发送身份识别码，例如身份证号，在接收到用户的请求后，分析用户所办理的业务是否需要进一步的身份验证，且根据用户的身份识别码分析该用户是否已注册有声纹，若需要进一步的身份验证且该用户已注册有声纹，则生成第一预设位数的随机码并采用语音合成技术以语音形式播报该随机码，引导用户进行跟读，该第一预设位数例如为8位。

[0082] 在用户跟读后，为本次播报的随机码的语音建立预设类型的声学模型、为该用户本次跟读的语音建立预设类型的声学模型。在一优选实施例中，该预设类型的声学模型为深度神经网络-隐马尔可夫声学模型，即DNN-HMM声学模型。在其他实施例中，该预设类型的声学模型也可以为其他的声学模型，例如为隐马尔可夫声学模型等。

[0083] 在一具体的实例中，以DNN-HMM声学模型为例，其中，HMM用来描述语音信号的动态变化，利用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率，即可得到DNN-HMM模型。本次播报的随机码的语音及该用户本次跟读的语音都是一连串的音节，若要辨识成的文字，则是一连串的字符。本实施例在建立DNN-HMM声学模型时，基于预定的字符语音库，通过全局字符声学自适应训练得到本次播报的随机码的语音的DNN-HMM声学模型、该用户本次跟读的语音的DNN-HMM声学模型。

[0084] 步骤S2，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算该对齐后的两声学模型相同的概率；

[0085] 其中，将本次播报的随机码的声学模型及该用户本次跟读的语音的声学模型进行强制整体对齐(Force Alignment)操作，相比于传统的采取逐字对比的方法，本实施例能够大大降低计算量，有利提高身份识别的效率。

[0086] 其中，预定算法在一实施例中为前验后验概率算法，在其他实施例中，还可以是相似度算法，例如该相似度算法为计算对齐后的两声学模型中字符的编辑距离，编辑距离越小则对齐后的两声学模型相同的概率越大；该相似度算法还可以是最长公共子序列算法，若得到的最长公共子序列均与对齐后的两声学模型中字符的长度相差越小，则对齐后的两声学模型相同的概率越大。

[0087] 步骤S3，若该对齐后的两声学模型相同的概率大于预设第一阈值，则提取该用户本次跟读的语音的声纹特征向量，获取该用户在注册成功后预存的标准声纹特征向量，并计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离，以对该用户进行身份验证。

[0088] 本实施例中，若该对齐后的两声学模型相同的概率大于预设第一阈值，例如预设第一阈值为0.985，则认为用户本次跟读的字符与本次播报的随机码一致。由于播报的是随机码，因此可以有效防止了用户预先准备的合成音进行欺诈，提升身份识别的安全性。

[0089] 在一实施例中，提取该用户本次跟读的语音的声纹特征向量的步骤包括：对该用户本次跟读的语音进行预加重及加窗处理，对每一个加窗进行傅立叶变换得到对应的频谱，将所述频谱输入梅尔滤波器以输出得到梅尔频谱；在梅尔频谱上进行倒谱分析以获得梅尔频率倒谱系数MFCC，基于所述梅尔频率倒谱系数MFCC组成该用户本次跟读的语音的声纹特征向量。

[0090] 其中，对该用户本次跟读的语音进行分帧，然后对分帧后的语音数据进行预加重处理，预加重处理实际是高通滤波处理，滤除低频数据，使得该语音数据中的高频特性更加突显，具体地，高通滤波的传递函数为：H(Z)＝1-αZ-1，其中，Z为语音数据，α为常量系数，优选地，α的取值为0.97；由于语音在分帧之后在一定程度上背离原始语音，因此，需要对该语音数据进行加窗处理。

[0091] 本实施例中，在梅尔频谱上进行倒谱分析例如为取对数、做逆变换，逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为梅尔频率倒谱系数MFCC。梅尔频率倒谱系数MFCC即为这帧语音数据的声纹特征，将每帧的梅尔频率倒谱系数MFCC组成特征数据矩阵，该特征数据矩阵即为该用户本次跟读的语音的声纹特征向量。

[0092] 本实施例取语音数据的梅尔频率倒谱系数MFCC组成对应的声纹特征向量，由于其比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统，因此能够提高身份验证的准确性。

[0093] 在一实施例中，计算该用户本次跟读的语音的声纹特征向量及该标准声纹特征向量的距离为计算两者的余弦距离，包括：

[0094] 其中，所述为标准声纹特征向量，所述为该用户本次跟读的语音的声纹特征向量。

[0095] 若余弦距离小于或者等于预设的距离阈值，则身份验证通过；若余弦距离大于预设的距离阈值，则身份验证不通过。

[0096] 在一实施例中，在用户注册成功后预存的标准声纹特征向量，该注册声纹的步骤包括：

[0097] 在互动式语音应答IVR场景下用户进行声纹注册时，播报第二预设位数的随机码供用户跟读预设次，在每次跟读后分别为播报的随机码及用户跟读的语音建立所述预设类型的声学模型；

[0098] 分别将每次播报的随机码的声学模型及对应的用户跟读的语音的声学模型进行强制整体对齐操作，利用预定算法计算对齐后的两声学模型相同的概率；

[0099] 若对齐后的两声学模型相同的概率均大于预设第二阈值，则提取每次用户跟读的语音的声纹特征向量，计算两两声纹特征向量的距离，以分析每次跟读的用户是否为同一用户；

[0100] 若是，则以该声纹特征向量作为该用户的标准声纹特征向量进行存储；

[0101] 若否，则提示用户重新录入，再次进行注册声纹的步骤。

[0102] 其中，在互动式语音应答IVR场景下，用户请求注册时发送身份识别码，例如身份证号，在接收到用户的请求后，生成第二预设位数的随机码并采用语音合成技术以语音形式播报该随机码，引导用户进行跟读预设次(例如3次)，该第二预设位数例如为8位。

[0103] 在用户跟读后，为每次播报的随机码的语音建立预设类型的声学模型、为该用户每次跟读的语音建立预设类型的声学模型。在一优选实施例中，该预设类型的声学模型为深度神经网络-隐马尔可夫声学模型，即DNN-HMM声学模型。在其他实施例中，该预设类型的声学模型也可以为其他的声学模型，例如为隐马尔可夫声学模型等。具体的实例可以参考上述的实施例，此处不再赘述。

[0104] 在一具体的实例中，以DNN-HMM声学模型为例，其中，HMM用来描述语音信号的动态变化，利用DNN的每个输出节点来估计连续密度HMM的某个状态的后验概率，即可得到DNN-HMM模型。每次播报的随机码的语音及该用户跟读的语音都是一连串的音节，若要辨识成的文字，则是一连串的字符。本实施例在建立DNN-HMM声学模型时，基于预定的字符语音库，通过全局字符声学自适应训练得到播报的随机码的语音的DNN-HMM声学模型、该用户跟读的语音的DNN-HMM声学模型。

[0105] 其中，将每次播报的随机码的声学模型及该用户跟读的语音的声学模型进行强制整体对齐(Force Alignment)操作，相比于传统的采取逐字对比的方法，本实施例能够大大降低计算量，有利提高身份识别的效率。

[0106] 其中，预定算法在一实施例中为前验后验概率算法，在其他实施例中，还可以是相似度算法，具体的实例可以参考上述的实施例，此处不再赘述。

[0107] 本实施例中，若对齐后的两声学模型相同的概率均大于预设第二阈值，例如预设第二阈值为0.985，则认为用户每次跟读的字符与所播报的随机码一致。由于播报的是随机码，因此可以有效防止了用户预先准备的合成音进行欺诈，提升身份识别的安全性。

[0108] 在一实施例中，提取每次用户跟读的语音的声纹特征向量的步骤与上述实施例的提取语音的声纹特征向量的方法基本相同，此处不再赘述。

[0109] 在一实施例中，计算两两声纹特征向量的距离的步骤，与上述计算余弦距离的步骤基本相同，此处不再赘述。

[0110] 若余弦距离小于或者等于预设的距离阈值，则每次跟读的用户为同一用户，此时以该声纹特征向量作为该用户的标准声纹特征向量进行存储；若余弦距离大于预设的距离阈值，则每次跟读的用户不为同一用户，提示用户重新注册。

[0111] 本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有处理系统，所述处理系统被处理器执行时实现上述的身份验证的方法的步骤。

[0112] 上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

[0113] 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

[0114] 以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

标题	发布/更新时间	阅读量
一种声音采集对象声纹检测方法、装置和设备	2020-05-08	516
一种带降噪和视觉检测功能的油烟机及降噪方法	2020-05-08	646
语音识别方法和装置	2020-05-11	419
基于耦合方法的水下声音传播模拟方法	2020-05-12	123
语音信号中针对通用特定语音的并联特征提取系统及方法	2020-05-12	41
一种电子耳蜗的滤波器组配置方法及装置	2020-05-12	384
基于代理模型的涡扇发动机喷流噪声实时计算及预测方法	2020-05-08	725
三维VSP源检互换全波场成像方法	2020-05-08	972
敏感词分数检测方法、装置、电子设备及存储介质	2020-05-08	262
一种自学习的语音控制方法、系统及存储介质	2020-05-13	135

电子装置、身份验证的方法及存储介质

电子装置、身份验证的方法及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：