基于语音的个人信用评估方法、装置、终端及存储介质专利检索-语音语料库人工智能专利检索查询-专利查询网

基于语音的个人信用评估方法、装置、终端及存储介质

阅读：506发布：2020-05-19

专利汇可以提供基于语音的个人信用评估方法、装置、终端及存储介质专利检索，专利查询，专利分析的服务。并且本发明提供了一种基于语音的个人信用评估方法，包括：获取用户的语音；提取所述语音中的声纹特征矢量；根据所述声纹特征矢量识别所述用户的方言；根据所述语音识别所述用户的性别及年龄；根据所述用户的方言、性别及年龄生成用户个人信息报告；比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。本发明还提供了一种基于语音的个人信用评估装置、终端及存储介质。本发明对用户的语音进行多个维度的信息提取与分析，提取的多个维度的信息能够真实且全面的反映用户的性别、年龄及地区，最后与个人资料进行比对时，评估出的个人信用准确率更高，更全面和客观。，下面是基于语音的个人信用评估方法、装置、终端及存储介质专利的具体信息内容。

权利要求

1.一种基于语音的个人信用评估方法，其特征在于，所述方法包括：
获取用户的语音；
提取所述语音中的声纹特征矢量；
根据所述声纹特征矢量识别所述用户的方言；
根据所述语音识别所述用户的性别及年龄；
根据所述用户的方言、性别及年龄生成用户个人信息报告；
比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。
2.如权利要求1所述的方法，其特征在于，所述提取所述语音中的声纹特征矢量包括：
对所述语音依次进行预加重、分帧以及加窗处理；
对每一个加窗进行傅里叶变换得到频谱；
通过梅尔滤波器对所述频谱进行滤波，得到梅尔频谱；
对所述梅尔频谱进行倒谱分析，得到梅尔频率倒谱系数；
基于所述梅尔频率倒谱系数构建所述声纹特征矢量。
3.如权利要求2所述的方法，其特征在于，所述根据所述语音识别所述用户的性别及年龄包括：
通过已训练好的语音-性别识别模型识别所述梅尔频谱系数得到用户的性别；
通过已训练好的语音-年龄识别模型识别所述梅尔频谱系数得到用户的年龄。
4.如权利要求3所述的方法，其特征在于，所述语音-性别识别模型的训练过程如下：
获取不同性别的多个用户的语音；
提取每个语音的梅尔频率倒谱系数；
将所述性别及对应的梅尔频率倒谱系数作为样本数据集；
将所述样本数据集划分为训练集和测试集；
将所述训练集输入预设神经网络中进行训练，得到语音-性别识别模型；
将所述测试集输入所述语音-性别识别模型中进行测试；
获取测试通过率；
当所述测试通过率大于或者等于预设通过率阈值，结束所述语音-性别识别模型的训练；当所述测试通过率小于预设通过率阈值，则增加训练集的数量，重新进行语音-性别识别模型的训练。
5.如权利要求2所述的方法，其特征在于，在根据所述语音识别所述用户的性别和年龄之后，所述方法还包括：
将所述梅尔频率倒谱系数输入已训练好的语音-情绪识别模型中；
获取所述语音-情绪识别模型的输出结果；
若输出结果为中立情绪，则保持所述性别及年龄的识别概率不变；
若输出结果为正面情绪，则增加所述性别及年龄的识别概率；
若输出结果为负面情绪，则降低所述性别及年龄的识别概率。
6.如权利要求1所述的方法，其特征在于，所述根据所述声纹特征矢量识别所述用户的方言包括：
用任意两个地区的声纹特征矢量线性表示所述用户的声纹特征如下：
其中，表示第一地区的声纹特征矢量，表示第二地区的声纹特征
矢量，表示用户的声纹特征；
采用如下公式计算各个地区的声纹特征矢量到所述用户的声纹特征的投影与所述用户的声纹特征的模的比值；
其中，cosA表示所述第一地区的声纹特征矢量与所述用户的声纹特征的余弦夹角；
计算语料库中的全部声纹特征矢量的比值，并按照从大到小的顺序进行排序，筛选出比值最高的三个声纹特征矢量对应的地区的方言作为所述用户的方言。
7.如权利要求1至6中任意一项所述的方法，其特征在于，所述用户的语音可以通过以下一种或多种组合的方式获取：
通过智能人机交互的方式获取；
通过远程视频的方式获取。
8.一种基于语音的个人信用评估装置，其特征在于，所述装置包括：
获取模块，用于获取用户的语音；
提取模块，用于提取所述语音中的声纹特征矢量；
第一识别模块，用于根据所述声纹特征矢量识别所述用户的方言；
第二识别模块，用于根据所述语音识别所述用户的性别及年龄；
生成模块，用于根据所述用户的方言、性别及年龄生成用户个人信息报告；
输出模块，用于比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。
9.一种终端，其特征在于，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于语音的个人信用评估方法。
10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于语音的个人信用评估方法。

说明书全文

基于语音的个人信用评估方法、装置、终端及存储介质

技术领域

[0001] 本发明涉及信息安全技术领域，具体涉及一种基于语音的个人信用评估方法、装置、终端及存储介质。

背景技术

[0002] 网络信贷作为一种互联网金融创新，在全球范围有着巨大市场发展潜力和空间。近年来，各类网络贷款平台快速发展，为网络贷款业务普及和推广做出了很大贡献，但由于相关法律、法规不完善，其产生的信用风险已受到社会各界的广泛关注，而对借款者的个人信用评估问题成为广泛关注和研究的重点。

[0003] 现有技术中，有将语音识别运用到信贷中评估个人信用的方案。然而，这种方案也仅仅是通过当前采集到的语音与历史采集到的语音进行比对从而确定是不是本人，并以此作为个人信用评估的结果。实际生活中，用户的语音很容易被伪造，因而仅靠语音这一单一的判断方式，导致个人信用评估准确率较低。

[0004] 因此，如何全面、准确的对个人信用进行评估成为有待解决的技术问题。

发明内容

[0005] 鉴于以上内容，有必要提出一种基于语音的个人信用评估方法、装置、终端及存储介质，用以解决个人信用评估准确率较低的技术问题。

[0006] 本发明的第一方面提供一种基于语音的个人信用评估方法，所述方法包括：

[0007] 获取用户的语音；

[0008] 提取所述语音中的声纹特征矢量；

[0009] 根据所述声纹特征矢量识别所述用户的方言；

[0010] 根据所述语音识别所述用户的性别及年龄；

[0011] 根据所述用户的方言、性别及年龄生成用户个人信息报告；

[0012] 比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。

[0013] 根据本发明的一个可选实施例，所述提取所述语音中的声纹特征矢量包括：

[0014] 对所述语音依次进行预加重、分帧以及加窗处理；

[0015] 对每一个加窗进行傅里叶变换得到频谱；

[0016] 通过梅尔滤波器对所述频谱进行滤波，得到梅尔频谱；

[0017] 对所述梅尔频谱进行倒谱分析，得到梅尔频率倒谱系数；

[0018] 基于所述梅尔频率倒谱系数构建所述声纹特征矢量。

[0019] 根据本发明的一个可选实施例，所述根据所述语音识别所述用户的性别及年龄包括：

[0020] 通过已训练好的语音-性别识别模型识别所述梅尔频谱系数得到用户的性别；

[0021] 通过已训练好的语音-年龄识别模型识别所述梅尔频谱系数得到用户的年龄。

[0022] 根据本发明的一个可选实施例，所述语音-性别识别模型的训练过程如下：

[0023] 获取不同性别的多个用户的语音；

[0024] 提取每个语音的梅尔频率倒谱系数；

[0025] 将所述性别及对应的梅尔频率倒谱系数作为样本数据集；

[0026] 将所述样本数据集划分为训练集和测试集；

[0027] 将所述训练集输入预设神经网络中进行训练，得到语音-性别识别模型；

[0028] 将所述测试集输入所述语音-性别识别模型中进行测试；

[0029] 获取测试通过率；

[0030] 当所述测试通过率大于或者等于预设通过率阈值，结束所述语音-性别识别模型的训练；当所述测试通过率小于预设通过率阈值，则增加训练集的数量，重新进行语音-性别识别模型的训练。

[0031] 根据本发明的一个可选实施例，在根据所述语音识别所述用户的性别及年龄之后，所述方法还包括：

[0032] 将所述梅尔频率倒谱系数输入已训练好的语音-情绪识别模型中；

[0033] 获取所述语音-情绪识别模型的输出结果；

[0034] 若输出结果为中立情绪，则保持所述性别及年龄的识别概率不变；

[0035] 若输出结果为正面情绪，则增加所述性别及年龄的识别概率；

[0036] 若输出结果为负面情绪，则降低所述性别及年龄的识别概率。

[0037] 根据本发明的一个可选实施例，所述根据所述声纹特征矢量识别所述用户的方言包括：

[0038] 用任意两个地区的声纹特征矢量线性表示所述用户的声纹特征如下：

[0039]

[0040] 其中，表示第一地区的声纹特征矢量，表示第二地区的声纹特征矢量，表示用户的声纹特征；

[0041] 采用如下公式计算各个地区的声纹特征矢量到所述用户的声纹特征的投影与所述用户的声纹特征的模的比值；

[0042]

[0043] 其中，cosA表示所述第一地区的声纹特征矢量与所述用户的声纹特征的余弦夹角；

[0044] 计算语料库中的全部声纹特征矢量的比值，并按照从大到小的顺序进行排序，筛选出比值最高的三个声纹特征矢量对应的地区的方言作为所述用户的方言。

[0045] 根据本发明的一个可选实施例，所述用户的语音可以通过以下一种或多种组合的方式获取：

[0046] 通过智能人机交互的方式获取；

[0047] 通过远程视频的方式获取。

[0048] 本发明的第二方面提供一种基于语音的个人信用评估装置，所述装置包括：

[0049] 获取模块，用于获取用户的语音；

[0050] 提取模块，用于提取所述语音中的声纹特征矢量；

[0051] 第一识别模块，用于根据所述声纹特征矢量识别所述用户的方言；

[0052] 第二识别模块，用于根据所述语音识别所述用户的性别及年龄；

[0053] 生成模块，用于根据所述用户的方言、性别及年龄生成用户个人信息报告；

[0054] 输出模块，用于比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。

[0055] 本发明的第三方面提供一种终端，所述终端包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述基于语音的个人信用评估方法。

[0056] 本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于语音的个人信用评估方法。

[0057] 本发明所述的基于语音的个人信用评估方法、装置、终端及存储介质，本发明提供的基于语音的用户个人信用评估方法，获取用户的语音，提取所述语音中的声纹特征矢量，根据所述声纹特征矢量识别所述用户的方言，根据所述语音识别所述用户的性别及年龄，根据所述用户的方言、性别及年龄生成用户个人信息报告，比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。通过反欺诈平台对用户的语音进行多个维度的信息提取与分析，由于用户的语音具有不可欺骗性，因而提取的多个维度的信息能够真实且全面的反映用户的性别、年龄及地区，最后与个人资料进行比对时，评估出的个人信用准确率更高，更全面和客观。附图说明

[0058] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

[0059] 图1是本发明实施例一提供的基于语音的个人信用评估方法的流程图。

[0060] 图2是本发明实施例二提供的基于语音的个人信用评估装置的结构图。

[0061] 图3是本发明实施例三提供的终端的结构示意图。

[0062] 如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

[0063] 为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

[0064] 在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0065] 除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

[0066] 实施例一

[0067] 图1是本发明实施例一提供的一种基于语音的个人信用评估方法的流程图。

[0068] 如图1所示，所述基于语音的个人信用评估方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

[0069] S11，获取用户的语音。

[0070] 用户在提交贷款申请时，需要填写个人资料，例如，姓名、性别、年龄、籍贯以及资产等。由于用户的个人资料有待核实，而人工审核的方式也无法满足贷款申请的时效性和准确性，因而可以在接收到用户的贷款申请后，获取用户的语音，基于语音判断用户的个人资料是否真实。

[0071] 在一个可选的实施例中，用户的语音可以通过以下一种或多种组合的方式获取：

[0072] 1)通过智能人机交互的方式获取用户的语音；

[0073] 反欺诈平台中可以设置智能人机交互模块，通过智能人机交互模块与用户进行交互，采用一问一答的方式，获取交互语音。再通过语音分离技术，例如，语音分离器，将用户的语音从交互语音中分离出来。

[0074] 2)通过远程视频的方式获取用户的语音。

[0075] 反欺诈平台中可以设置远程视频模块，工作人员通过远程视频模块与用户进行远程视频，采用一问一答的方式，获取远程语音。再通过语音分离技术，例如，语音分离器，将用户的语音从远程语音中分离出来。

[0076] 需要说明的是，无论是通过智能人机交互的方式获取用户的语音，还是通过远程视频的方式获取用户的语音，都是围绕着用户的身份信息和资产信息进行的提问，所提出的问题在一定程度上具有随机性，用户的回答语音无法提前录制或采用机器生成，因而获取的用户的语音具有真实性，为后续基于语音进行的信用评估提供了有力和准确的数据支撑，得到的信用评估结果真实可靠，准确度高。

[0077] S12，提取所述语音中的声纹特征矢量。

[0078] 在一个可选的实施例中，所述提取所述语音中的声纹特征矢量包括：

[0079] 对所述语音依次进行预加重、分帧以及加窗处理；

[0080] 对每一个加窗进行傅里叶变换得到频谱；

[0081] 通过梅尔滤波器对所述频谱进行滤波，得到梅尔频谱；

[0082] 对所述梅尔频谱进行倒谱分析，得到梅尔频率倒谱系数；

[0083] 基于所述梅尔频率倒谱系数构建所述声纹特征矢量。

[0084] 所述倒谱分析包括取对数、做逆变换等方式，逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数，通过对梅尔频谱进行倒谱分析得到梅尔频率倒谱系数(Mel Frequency Cestrum Coefficient，MFCC系数)，该梅尔频率倒谱系数就是这帧语音的声纹特征；最后，将每帧语音的MFCC系数组成声纹特征矢量。

[0085] 在其他实施例中，还可以通过基于Identity-Vector的声纹识别算法或者基于神经网络的时序类分类(concurrent technologies corporation，CTC)算法提取出所述语音中的声纹特征矢量。关于基于Identity-Vector的声纹识别算法或者基于神经网络的CTC算法均为现有技术，本发明在此不再详细阐述。

[0086] 在智能人机交互和远程视频的过程中，虽然用户采用了普通话进行了回应，但受到地区方言的影响，不同地区的用户的普通话与标准普通话之间存在不同程度的差异。这种差异不同于口误，而是受到方言影响的有规律可循的偏差。

[0087] 考虑到现有的方言存在地区交叉，则将预先存储的数据语料库，按照地区进行分类，如东三省一类，京津冀一类，川渝一类，江浙沪一类，陕甘宁一类，分别以音节和音素为最小单位进行拆分，形成音节语料库和音素语料库。将音节、音素语料库与标准普通话之间的差异，如前/后鼻音，平/翘舌音，儿化音等，提取不同地区的同字音调特征，以及同字音素特征，量化生成平面的声纹特征失量，形如音调和音素。

[0088] 其中，所述音素指的是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素，如〔ma〕包含〔m〕、〔a〕两个发音动作，是两个音素，相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素，如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。例如“普通话”，由三个音节“pu、tong、hua”组成，可以分析成“p，u，t，o，ng，h，u，a”八个音素。

[0089] S13，根据所述声纹特征矢量识别所述用户的方言。

[0090] 由于不同地区的声纹特征矢量不同，又因其声纹特征矢量并非线性无关，故用户的声纹特征可用任意两个地区的声纹特征矢量线性表示，且表示方式不唯一。

[0091]

[0092] 其中，表示第一地区的声纹特征矢量，表示第二地区的声纹特征矢量，表示用户的声纹特征。

[0093] 采用如下公式计算各个地区的声纹特征矢量到用户的声纹特征的投影与用户的声纹特征的模的比值。

[0094]

[0095] 其中，cosA表示第一地区的声纹特征矢量与用户的声纹特征的余弦夹角。

[0096] 计算语料库中的全部声纹特征矢量的比值，并按照从大到小的顺序进行排序，筛选出比值最高的三个声纹特征矢量作为结果输出。例如：京津冀的可能性75％，内蒙古的可能性56％，东三省的可能性53％。该三个声纹特征矢量对应的地区的方言作为所述用户的方言。

[0097] S14，根据所述语音识别所述用户的性别及年龄。

[0098] 不同性别的用户，其音频信息有所不同，不同年龄段的用户，其音频信息也有所不同，可以基于所述音频信息反过来预测出用户的性别和年龄。

[0099] 在一个可选的实施例中，所述根据所述语音识别所述用户的性别及年龄包括：

[0100] 通过已训练好的语音-性别识别模型识别所述梅尔频谱系数得到用户的性别；

[0101] 通过已训练好的语音-年龄识别模型识别所述梅尔频谱系数得到用户的年龄。

[0102] 本实施例中，可以预先训练语音-性别识别模型和语音-年龄识别模型，通过将MFCC作为已训练好的语音-性别识别模型的输入，将语音-性别识别模型的输出作为用户的性别，将MFCC作为已训练好的语音-年龄识别模型的输入，将语音-年龄识别模型的输出作为用户的年龄。

[0103] 在一个可选的实施例中，所述语音-性别识别模型的训练过程如下：

[0104] 获取不同性别的多个用户的语音；

[0105] 提取每个语音的梅尔频率倒谱系数；

[0106] 将所述性别及对应的梅尔频率倒谱系数作为样本数据集；

[0107] 将所述样本数据集划分为训练集和测试集；

[0108] 将所述训练集输入预设神经网络中进行训练，得到语音-性别识别模型；

[0109] 将所述测试集输入所述语音-性别识别模型中进行测试；

[0110] 获取测试通过率；

[0111] 当所述测试通过率大于或者等于预设通过率阈值，结束所述语音-性别识别模型的训练；当所述测试通过率小于预设通过率阈值，则增加训练集的数量，重新进行语音-性别识别模型的训练。

[0112] 本实施例中，可以获取不同年龄段的男性和女性的语音，然后提取出语音的MFCC，基于不同年龄段不同性别的用户对应的MFCC训练语音-性别识别模型。

[0113] 所述语音-年龄识别模型的训练过程同所述语音-性别识别模型的训练过程，本发明在此不再详细阐述，具体可参见语音-性别识别模型的训练过程的内容及相关描述。

[0114] S15，根据所述用户的方言、性别及年龄生成用户个人信息报告。

[0115] 通过方言可以对用户居住地、户籍所在地或出生地进行初步定位，并结合性别、年龄，得到用户的个人信息。根据预先定义好的模板，基于用户的方言，性别和年龄生成用户个人信息报告。

[0116] 预先定义好的模板与用户填写贷款申请时的界面相同，如此便于对用户个人信息报告和用户的个人资料进行比对。

[0117] S16，比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。

[0118] 本实施例中，将用户个人信息报告中的每一数据与用户填写的贷款申请中的个人资料中的每一数据进行一一比对。当比对成功时，表明用户填写的贷款申请的个人资料正确，评估用户信用良好。当比对失败时，表明用户填写的贷款申请的个人资料有误，评估用户信用较差。

[0119] 进一步的，在根据所述语音识别所述用户的性别及年龄之后，所述方法还包括：

[0120] 将所述梅尔频率倒谱系数输入已训练好的语音-情绪识别模型中；

[0121] 获取所述语音-情绪识别模型的输出结果；

[0122] 若输出结果为中立情绪，则保持所述性别及年龄的识别概率不变；

[0123] 若输出结果为正面情绪，则增加所述性别及年龄的识别概率；

[0124] 若输出结果为负面情绪，则降低所述性别及年龄的识别概率。

[0125] 本实施例中，可以采用IEMOCAP作为语音-情绪识别模型的数据集，IEMOCAP中有十余种情绪，每种情绪还对应有语音，预先将情绪分为三大类：中立、正面(开心、惊喜、兴奋)、负面(伤心、生气、害怕、厌恶)，然后分别提取三类情绪中的语音的声纹特征频率倒谱系数MFCC，并基于MFCC训练出语音-情绪识别模型。

[0126] 情绪可以反映出用户的细微心里活动，通过情绪可以在一定程度上反映出用户的语音的真实性。因此，当用户的情绪为正面情绪时，可以认为用户是积极真实的，语音-性别识别模型识别出性别的可信度及语音-年龄识别模型识别出年龄的可信度较高，则提高用户的性别和年龄的概率；当用户的情绪为负面情绪时，可以认为用户是消极伪造的，语音-性别识别模型识别出性别的可信度及语音-年龄识别模型识别出年龄的可信度不高，则降低用户的性别和年龄的概率。通过情绪的识别，来进一步辅佐证明性别和年龄的识别可靠度。

[0127] 综上所述，本发明提供的基于语音的用户个人信用评估方法，获取用户的语音，提取所述语音中的声纹特征矢量，根据所述声纹特征矢量识别所述用户的方言，根据所述语音识别所述用户的性别及年龄，根据所述用户的方言、性别及年龄生成用户个人信息报告，比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。通过反欺诈平台对用户的语音进行多个维度的信息提取与分析，由于用户的语音具有不可欺骗性，因而提取的多个维度的信息能够真实且全面的反映用户的性别、年龄及地区，最后与个人资料进行比对时，评估出的个人信用准确率更高，更全面和客观。

[0128] 实施例二

[0129] 图2是本发明实施例二提供的基于语音的个人信用评估装置的结构图。

[0130] 在一些实施例中，所述基于语音的个人信用评估装置20可以包括多个由程序代码段所组成的功能模块。所述基于语音的个人信用评估装置20中的各个程序段的程序代码可以存储于终端的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)基于语音的个人信用评估的功能。

[0131] 本实施例中，所述基于语音的个人信用评估装置20，运行于终端中，根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：获取模块201、提取模块202、第一识别模块203、第二识别模块204、生成模块205及输出模块206。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

[0132] 获取模块201，用于获取用户的语音。

[0133] 用户在提交贷款申请时，需要填写个人资料，例如，姓名、性别、年龄、籍贯以及资产等。由于用户的个人资料有待核实，而人工审核的方式也无法满足贷款申请的时效性和准确性，因而可以在接收到用户的贷款申请后，获取用户的语音，基于语音判断用户的个人资料是否真实。

[0134] 在一个可选的实施例中，用户的语音可以通过以下一种或多种组合的方式获取：

[0135] 1)通过智能人机交互的方式获取用户的语音；

[0136] 反欺诈平台中可以设置智能人机交互模块，通过智能人机交互模块与用户进行交互，采用一问一答的方式，获取交互语音。再通过语音分离技术，例如，语音分离器，将用户的语音从交互语音中分离出来。

[0137] 2)通过远程视频的方式获取用户的语音。

[0138] 反欺诈平台中可以设置远程视频模块，工作人员通过远程视频模块与用户进行远程视频，采用一问一答的方式，获取远程语音。再通过语音分离技术，例如，语音分离器，将用户的语音从远程语音中分离出来。

[0139] 需要说明的是，无论是通过智能人机交互的方式获取用户的语音，还是通过远程视频的方式获取用户的语音，都是围绕着用户的身份信息和资产信息进行的提问，所提出的问题在一定程度上具有随机性，用户的回答语音无法提前录制或采用机器生成，因而获取的用户的语音具有真实性，为后续基于语音进行的信用评估提供了有力和准确的数据支撑，得到的信用评估结果真实可靠，准确度高。

[0140] 提取模块202，用于提取所述语音中的声纹特征矢量。

[0141] 在一个可选的实施例中，所述提取模块202提取所述语音中的声纹特征矢量包括：

[0142] 对所述语音依次进行预加重、分帧以及加窗处理；

[0143] 对每一个加窗进行傅里叶变换得到频谱；

[0144] 通过梅尔滤波器对所述频谱进行滤波，得到梅尔频谱；

[0145] 对所述梅尔频谱进行倒谱分析，得到梅尔频率倒谱系数；

[0146] 基于所述梅尔频率倒谱系数构建所述声纹特征矢量。

[0147] 所述倒谱分析包括取对数、做逆变换等方式，逆变换一般是通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数，通过梅尔频谱进行倒谱分析得到梅尔频率倒谱系数(Mel Frequency Cestrum Coefficient，MFCC系数)，该梅尔频率倒谱系数就是这帧语音的声纹特征；最后，将每帧语音的MFCC系数组成声纹特征矢量。

[0148] 在其他实施例中，还可以通过基于Identity-Vector的声纹识别算法或者基于神经网络的时序类分类(concurrent technologies corporation，CTC)算法提取出所述语音中的声纹特征矢量。关于基于Identity-Vector的声纹识别算法或者基于神经网络的CTC算法均为现有技术，本发明在此不再详细阐述。

[0149] 在智能人机交互和远程视频的过程中，虽然用户采用了普通话进行了回应，但受到地区方言的影响，不同地区的用户的普通话与标准普通话之间存在不同程度的差异。这种差异不同于口误，而是受到方言影响的有规律可循的偏差。

[0150] 考虑到现有的方言存在地区交叉，则将预先存储的数据语料库，按照地区进行分类，如东三省一类，京津冀一类，川渝一类，江浙沪一类，陕甘宁一类，分别以音节和音素为最小单位进行拆分，形成音节语料库和音素语料库。将音节、音素语料库与标准普通话之间的差异，如前/后鼻音，平/翘舌音，儿化音等，提取不同地区的同字音调特征，以及同字音素特征，量化生成平面的声纹特征失量，形如音调和音素。

[0151] 其中，所述音素指的是根据语音的自然属性划分出来的最小语音单位，从声学性质来看，音素是从音质角度划分出来的最小语音单位，从生理性质来看，一个发音动作形成一个音素，如〔ma〕包含〔m〕、〔a〕两个发音动作，是两个音素，相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素，如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。例如“普通话”，由三个音节“pu、tong、hua”组成，可以分析成“p，u，t，o，ng，h，u，a”八个音素。

[0152] 第一识别模块203，用于根据所述声纹特征矢量识别所述用户的方言。

[0153] 由于不同地区的声纹特征矢量不同，又因其声纹特征矢量并非线性无关，故用户的声纹特征可用任意两个地区的声纹特征矢量线性表示，且表示方式不唯一。

[0154]

[0155] 其中，表示第一地区的声纹特征矢量，表示第二地区的声纹特征矢量，表示用户的声纹特征。

[0156] 采用如下公式计算各个地区的声纹特征矢量到用户的声纹特征的投影与用户的声纹特征的模的比值。

[0157]

[0158] 其中，cosA表示第一地区的声纹特征矢量与用户的声纹特征的余弦夹角。

[0159] 计算语料库中的全部声纹特征矢量的比值，并按照从大到小的顺序进行排序，筛选出比值最高的三个声纹特征矢量作为结果输出。例如：京津冀的可能性75％，内蒙古的可能性56％，东三省的可能性53％。该三个声纹特征矢量对应的地区的方言作为所述用户的方言。

[0160] 第二识别模块204，用于根据所述语音识别所述用户的性别及年龄。

[0161] 不同性别的用户，其音频信息有所不同，不同年龄段的用户，其音频信息也有所不同，可以基于所述音频信息反过来预测出用户的性别和年龄。

[0162] 在一个可选的实施例中，所述第二识别模块204根据所述语音识别所述用户的性别及年龄包括：

[0163] 通过已训练好的语音-性别识别模型识别所述梅尔频谱系数得到用户的性别；

[0164] 通过已训练好的语音-年龄识别模型识别所述梅尔频谱系数得到用户的年龄。

[0165] 本实施例中，可以预先训练语音-性别识别模型和语音-年龄识别模型，通过将MFCC作为已训练好的语音-性别识别模型的输入，将语音-性别识别模型的输出作为用户的性别，将MFCC作为已训练好的语音-年龄识别模型的输入，将语音-年龄识别模型的输出作为用户的年龄。

[0166] 在一个可选的实施例中，所述语音-性别识别模型的训练过程如下：

[0167] 获取不同性别的多个用户的语音；

[0168] 提取每个语音的梅尔频率倒谱系数；

[0169] 将所述性别及对应的梅尔频率倒谱系数作为样本数据集；

[0170] 将所述样本数据集划分为训练集和测试集；

[0171] 将所述训练集输入预设神经网络中进行训练，得到语音-性别识别模型；

[0172] 将所述测试集输入所述语音-性别识别模型中进行测试；

[0173] 获取测试通过率；

[0174] 当所述测试通过率大于或者等于预设通过率阈值，结束所述语音-性别识别模型的训练；当所述测试通过率小于预设通过率阈值，则增加训练集的数量，重新进行语音-性别识别模型的训练。

[0175] 本实施例中，可以获取不同年龄段的男性和女性的语音，然后提取出语音的MFCC，基于不同年龄段不同性别的用户对应的MFCC训练语音-性别识别模型。

[0176] 所述语音-年龄识别模型的训练过程同所述语音-性别识别模型的训练过程，本发明在此不再详细阐述，具体可参见语音-性别识别模型的训练过程的内容及相关描述。

[0177] 生成模块205，用于根据所述用户的方言、性别及年龄生成用户个人信息报告。

[0178] 通过方言可以对用户居住地、户籍所在地或出生地进行初步定位，并结合性别、年龄，得到用户的个人信息。根据预先定义好的模板，基于用户的方言，性别和年龄生成用户个人信息报告。

[0179] 预先定义好的模板与用户填写贷款申请时的界面相同，如此便于对用户个人信息报告和用户的个人资料进行比对。

[0180] 输出模块206，用于比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。

[0181] 本实施例中，将用户个人信息报告中的每一数据与用户填写的贷款申请中的个人资料中的每一数据进行一一比对。当比对成功时，表明用户填写的贷款申请的个人资料正确，评估用户信用良好。当比对失败时，表明用户填写的贷款申请的个人资料有误，评估用户信用较差。

[0182] 进一步的，在根据所述语音识别所述用户的性别及年龄之后，所述基于语音的个人信用评估装置20还包括：第三识别模块，用于将所述梅尔频率倒谱系数输入已训练好的语音-情绪识别模型中；获取所述语音-情绪识别模型的输出结果；若输出结果为中立情绪，则保持所述性别及年龄的识别概率不变；若输出结果为正面情绪，则增加所述性别及年龄的识别概率；若输出结果为负面情绪，则降低所述性别及年龄的识别概率。

[0183] 本实施例中，可以采用IEMOCAP作为语音-情绪识别模型的数据集，IEMOCAP中有十余种情绪，每种情绪还对应有语音，预先将情绪分为三大类：中立、正面(开心、惊喜、兴奋)、负面(伤心、生气、害怕、厌恶)，然后分别提取三类情绪中的语音的声纹特征频率倒谱系数MFCC，并基于MFCC训练出语音-情绪识别模型。

[0184] 情绪可以反映出用户的细微心里活动，通过情绪可以在一定程度上反映出用户的语音的真实性。因此，当用户的情绪为正面情绪时，可以认为用户是积极真实的，语音-性别识别模型识别出性别的可信度及语音-年龄识别模型识别出年龄的可信度较高，则提高用户的性别和年龄的概率；当用户的情绪为负面情绪时，可以认为用户是消极伪造的，语音-性别识别模型识别出性别的可信度及语音-年龄识别模型识别出年龄的可信度不高，则降低用户的性别和年龄的概率。通过情绪的识别，来进一步辅佐证明性别和年龄的识别可靠度。

[0185] 综上所述，本发明实施例提供的基于语音的用户个人信用评估装置，获取用户的语音，提取所述语音中的声纹特征矢量，根据所述声纹特征矢量识别所述用户的方言，根据所述语音识别所述用户的性别及年龄，根据所述用户的方言、性别及年龄生成用户个人信息报告，比对所述用户个人信息报告与用户的个人资料后输出用户信用评估结果。通过反欺诈平台对用户的语音进行多个维度的信息提取与分析，由于用户的语音具有不可欺骗性，因而提取的多个维度的信息能够真实且全面的反映用户的性别、年龄及地区，最后与个人资料进行比对时，评估出的个人信用准确率更高，更全面和客观。

[0186] 实施例三

[0187] 参阅图3所示，为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中，所述终端3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

[0188] 本领域技术人员应该了解，图3示出的终端的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述终端3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

[0189] 在一些实施例中，所述终端3包括一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的终端，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

[0190] 需要说明的是，所述终端3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

[0191] 在一些实施例中，所述存储器31用于存储程序代码和各种数据，例如安装在所述终端3中的基于语音的个人信用评估装置20，并在终端3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器
(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

[0192] 在一些实施例中，所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述终端3的控制核心(Control Unit)，利用各种接口和线路连接整个终端3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行终端3的各种功能和处理数据，例如执行基于语音的个人信用评估的功能。

[0193] 在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

[0194] 尽管未示出，所述终端3还可以包括给各个部件供电的电源(比如电池)，根据本发明的一个可选实施例，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

[0195] 应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

[0196] 上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

[0197] 在进一步的实施例中，结合图3，所述至少一个处理器32可执行所述终端3的操作装置以及安装的各类应用程序(如所述的基于语音的个人信用评估装置20)、程序代码等，例如，上述的各个模块。

[0198] 所述存储器31中存储有程序代码，且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如，图3中所述的各个模块是存储在所述存储器31中的程序代码，并由所述至少一个处理器32所执行，从而实现所述各个模块的功能以达到基于语音的个人信用评估的目的。

[0199] 在本发明的一个实施例中，所述存储器31存储多个指令，所述多个指令被所述至少一个处理器32所执行以实现基于语音的个人信用评估的功能。

[0200] 具体地，所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

[0201] 在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

[0202] 所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

[0203] 另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

[0204] 对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

[0205] 最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

标题	发布/更新时间	阅读量
一种构建语料库的方法、设备、服务器和存储介质	2020-05-12	717
英语口语发音评分方法和系统	2020-05-12	796
一种跨语言情感语音合成方法及系统	2020-05-12	114
中英混合语料的生成方法、装置、设备及存储介质	2020-05-13	826
一种视频内容展现方法及装置	2020-05-11	669
基于音节的自动语音识别	2020-05-14	712
智能语音交互的方法、装置及计算机可读存储介质	2020-05-12	48
一种基于语音控制的测量仪器测试系统及方法	2020-05-17	211
语音合成方法、装置、系统和存储介质	2020-05-18	366
使用多个计算设备的对讲式通信	2020-05-18	515

基于语音的个人信用评估方法、装置、终端及存储介质

基于语音的个人信用评估方法、装置、终端及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：