基于语音的评分方法及相关装置专利检索-音素信号处理专利检索查询-专利查询网

基于语音的评分方法及相关装置

阅读：567发布：2020-05-08

专利汇可以提供基于语音的评分方法及相关装置专利检索，专利查询，专利分析的服务。并且本申请提供了一种基于语音的评分方法及相关装置，通过将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，确定识别答复数据；提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；将所述指标特征数据输入训练好的准确度模型，确定识别准确度；将所述第一特征数据输入训练好的第一分类模型，确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，确定第二概率数据；根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数。消除了人为音素的主观影响，大大提高了评分的准确率。，下面是基于语音的评分方法及相关装置专利的具体信息内容。

权利要求

1.一种基于语音的评分方法，其特征在于，所述方法包括：
将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据；
提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；
将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度；
将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据；
根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；
基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数，所述目标分数用于诊断所述目标用户是否处于认知障碍状态。
2.根据权利要求1所述的方法，其特征在于，所述提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据，包括：
提取所述识别答复数据中的后验概率特征、音素特征以及文本特征作为所述指标特征数据；
基于所述找钱问题的标准答案数据提取所述识别答复数据中的组合关键词文本作为所述第一特征数据；
基于所述找钱问题的标准答案数据提取所述识别答复数据中的单一关键词数据作为所述第二特征数据。
3.根据权利要求2所述的方法，其特征在于，所述基于所述找钱问题的标准答案数据提取所述识别答复数据中的组合关键词文本作为所述第一特征数据，包括：
基于所述标准答案数据提取所述识别答复数据中的组合关键词；
将语义相同的组合关键词进行合并处理得到所述组合关键词文本。
4.根据权利要求2所述的方法，其特征在于，所述基于所述找钱问题的标准答案数据提取所述识别答复数据中的单一关键词数据作为所述第二特征数据，包括：
基于所述标准答案数据筛选出所述识别答复数据中的单一关键词文本；
基于所述单一关键词文本对应的时间特征、数量特征和位置特征确定所述单一关键词数据。
5.根据权利要求2所述的方法，其特征在于，所述准确度模型包括概率模块；所述将所述指标特征数据输入训练好的准确度模型，根据所述准确度模型的输出确定识别准确度，包括：
将所述后验概率特征、音素特征以及文本特征输入所述概率模块，根据所述概率模块的输出确定所述识别准确度，所述识别准确度用于表示所述识别答复数据的准确率。
6.根据权利要求1所述的方法，其特征在于，所述第一概率数据包括所述第一分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率，所述第二概率数据包括所述第二分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率。
7.根据权利要求1所述的方法，其特征在于，所述根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据，包括：
根据所述识别准确度确定所述第一概率数据的第一权重和所述第二概率数据的第二权重；
基于所述第一权重、所述第二权重、所述第一概率数据以及所述第二概率数据进行计算得到所述目标概率数据，所述目标概率数据用于表示最准确的四种正确答复类别对应的概率和错误答复类别对应的概率。
8.根据权利要求7所述的方法，其特征在于，所述基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数，包括：
筛选出所述目标概率数据中最大概率值对应的目标类别，所述目标类别包括四种正确答复类别和错误答复类别中的任一类别；
根据预设评分规则计算所述目标类别对应的所述目标分数，所述预设评分规则包括蒙特利尔认知评估量表评分规则。
9.一种基于语音的评分装置，其特征在于，所述装置包括处理单元和通信单元，所述处理单元用于：将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据；提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度；将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据；根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数，所述目标分数用于诊断所述目标用户是否处于认知障碍状态。
10.一种电子设备，其特征在于，包括应用处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述应用处理器执行，所述程序包括用于执行如权利要求1～8任一项所述的方法中的步骤的指令。
11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求
1～8任一项所述的方法。

说明书全文

基于语音的评分方法及相关装置

技术领域

[0001] 本申请涉及语音识别领域，特别是一种基于语音的评分方法及相关装置。

背景技术

[0002] 人口老龄化是世界各国目前都面临的严峻挑战，中国作为世界上人口最多的国家，人口老龄化的问题愈加严重。研究表明，轻度认知功能障碍(Mild Cognitive
Impairment，MCI)是介于正常衰老和老年痴呆之间的一种状态，患有MCI的老年人是阿尔兹海默症的高危人群，每年大约10％-30％轻度认知功能障碍的患者转变为阿尔兹海默症，如果对老年人的认知障碍情况进行早期筛查，尽早对认知障碍的情况进行确诊，并进行早期干预，可能会延缓阿尔兹海默症的形成，因此针对老年人认知障碍筛查有着重要的意义。

[0003] 目前国际上针对MCI的筛查评估工具代表性的有蒙特利尔认知评估量表MoCA，其拥有着扎实的理论支撑和广泛的临床应用，传统方法为测试人员对被测试者进行书面或口头测试，但当被测试者回答“找钱题”这种主观题时，不同的测试人员对该被测试者的评分可能会有显著性差异，这不仅浪费了大量人力还严重影响了诊断质量。
发明内容

[0004] 基于上述问题，本申请提出了一种基于语音的评分方法及相关装置，可以基于答复语音的识别准确度采用多个融合的分类模型自动对目标用户进行评分，消除了人为因素的主观影响，大大提高了自动评分的准确率。

[0005] 本申请实施例第一方面提供了一种基于语音的评分方法，所述方法包括：

[0006] 将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据；

[0007] 提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；

[0008] 将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度；

[0009] 将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据；

[0010] 根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；

[0011] 基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数，所述目标分数用于诊断所述目标用户是否处于认知障碍状态。

[0012] 本申请实施例第二方面提供了一种基于语音的评分装置，所述装置包括处理单元和通信单元，所述处理单元用于：将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据；提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度；将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据；根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数，所述目标分数用于诊断所述目标用户是否处于认知障碍状态。

[0013] 本申请实施例第三方面提供了一种电子设备，包括处理器、存储器，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如本申请实施例第一方面任一方项所描述的步骤的指令。

[0014] 本申请实施例第四方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如本申请实施例第一方面任一项所描述的方法。

[0015] 本申请实施例第五方面提供了一种计算机产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

[0016] 通过实施上述申请实施例，可以得到以下有益效果：

[0017] 上述基于语音的评分方法及相关装置，通过将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，确定识别答复数据；提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；将所述指标特征数据输入训练好的准确度模型，确定识别准确度；将所述第一特征数据输入训练好的第一分类模型，确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，确定第二概率数据；根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数。消除了人为音素的主观影响，大大提高了评分的准确率。附图说明

[0018] 为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0019] 图1为本申请实施例提供的基于语音的评分方法的系统构架图；

[0020] 图2为本申请实施例提供的一种基于语音的评分方法的流程示意图；

[0021] 图3为本申请实施例提供的一种电子设备的结构示意图；

[0022] 图4为本申请实施例提供的一种基于语音的评分装置的功能单元组成框图。

具体实施方式

[0023] 为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

[0024] 本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

[0025] 在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

[0026] 本申请实施例所涉及到的电子设备可以是具备通信能力的电子设备，该电子设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(User Equipment，UE)，移动台(Mobile Station，MS)，终端设备(terminal device)等等。

[0027] 需要说明的是，本申请所提到的找钱问题为MoCA测试中的一道主观题，在本申请实施例中以下述内容进行说明，其内容可以为“想象您有很多1元、5元、10元的钱，现在您购买了1个13元的东西，需要付给我13元，请给我3种付款方式，我不会找您零钱，您需要付给我13元整”，可以理解的是，上述内容只是一种可能的描述方式，并不代表对找钱问题的具体限定。

[0028] 下面结合图1对本申请实施例中的基于语音的评分方法的系统架构作详细说明，图1为本申请实施例提供的基于语音的评分方法的系统架构图，包括语音识别模块110，特征提取模块120以及处理器130，其中，上述语音识别模块110可以包括语音采集单元111和语音识别单元112，上述语音采集单元可以为麦克风阵列，在目标用户接收到问题之后开始采集上述目标用户的语音数据，上述语音识别单元112可以为语音识别模型，根据采集到的语音数据输出识别结果，上述语音识别模块110与特征提取模块120相互连接，上述特征提取模块120可以根据上述语音识别模块110发送的识别结果提取特征数据，上述处理器130与上述特征提取模块120相互连接，根据上述特征提取模块120输出的特征数据进行评分，上述处理器130可以内置识别准确度模型131、第一分类模型132、第二分类模型133以及评分单元134，上述识别准确度模型131用于基于特征数据中的指标特征判断上述识别结果是否准确，上述第一分类模型132用于基于上述特征数据中的第一特征输出上述语音数据对应的每种答复方式的概率，上述第二分类模型133用于基于上述特征数据中的第二特征输出上述语音数据对应的每种答复方式的概率，上述评分单元134可以根据上述识别准确度模型131、上述第一分类模型132和上述第二分类模型133的输出以及评分规则输出评价分数。

[0029] 通过上述系统架构，可以基于答复语音的识别准确度采用多个融合的分类模型自动对目标用户进行评分，消除了人为因素的主观影响，大大提高了自动评分的准确率。

[0030] 下面结合图2对本申请实施例中的一种基于语音的评分方法作详细说明，图2为本申请实施例提供的一种基于语音的评分方法的流程示意图，具体包括以下步骤：

[0031] 步骤201，将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据。

[0032] 其中，上述目标用户为接受MoCA测试的老年人，上述答复语音特征数据可以为上述目标用户针对该找钱问题的答复的语音的特征数据，上述训练好的语音识别模型可以包括声学模型和语言学模型，上述声学模型用于判断上述答复语音特征的音素状态的声学置信度，上述语言学模型用于判断上述答复语音特征的对应文字的语言学置信度，上述识别答复数据包括了上述答复语音特征数据对应的识别文本数据、声学置信度、语言学置信度等数据，用于表征上述答复语音特征的识别结果。

[0033] 具体的，可以先获取目标用户的原始答复语音数据进行预处理，上述预处理可以先通过语音增强技术提高上述原始答复语音数据的信噪比，再通过特征提取算法将时域特征与频域特征进行组合提取得到上述答复语音特征数据；之后，将上述答复语音特征数据输入上述训练好的语音识别模型，通过上述训练好的语音识别模型的声学模型和语言学模型输出上述识别答复数据。需要说明的是，上述语音识别模型可以根据本申请的应用场景进行特化训练，如采用老年人的语音数据进行训练，可以提高识别结果的准确性。

[0034] 需要说明的是，因为找钱问题存在复数解，所以目标用户对找钱问题的答复为多条语音，此处每条语音对应一种答复方式，即此处的答复语音特征数据也为任一种答复方式对应的语音，本申请的方法每次获取上述目标用户的一条答复语音，重复执行本申请方法直到上述目标用户答复完毕，依此来进行综合评分。

[0035] 通过将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据，可以得到比较准确的识别结果，提高后续评分的准确率。

[0036] 步骤202，提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据。

[0037] 其中，上述指标特征数据包括后验概率特征、音素特征以及文本特征，上述后验概率特征包括声学模型后验概率置信度和语言学模型后验概率置信度，上述音素特征可以包括发音方式特征、发音时间特征等，上述发音方式特征可以包括四个声调各自的占比、轻擦音(f、s、x、sh、h)占比、浊擦音(r)占比、不送气塞音(b、d、g)占比、送气塞音(p、t、k)占比等，上述发音时间特征可以包括每个字对应的发音时长、静音时长占比等，上述文本特征可以包括词性特征和词句特征等，上述词性特征可以包括语气词占比、动词占比、形容词占比、名词占比等，上述词句特征可以包括句子的完整度、重复词语的占比等。

[0038] 需要说明的是，本申请实施例中一般针对老年人进行语音识别，而识别老年人的语音通常需要以下特征来提高识别准确度：语速，通常语速影响着说话内容是否能被人工听取出来；发音方式，老年人的发音方式具有一定的特殊性，如静音停留时间占整段音频时间比年轻人多等；词性分布，如老年人的语音中常常动词占比较少；声调特征分布，如第四声调较少等。所以，通过采用上述指标特征数据，可以反映上述识别答复数据的识别准确度。

[0039] 其中，可以基于上述找钱问题的标准答案数据提取上述识别答复数据中的组合关键词文本作为上述第一特征数据，上述标准答案数据包括四种正确答复方式，其答复逻辑分别为“1张10元+3张1元”、“2张5元+3张1元”、“8张1元+1张5元”以及“13张1元”，根据上述答复逻辑，提取上述识别答复数据中的组合关键词，具体的，上述组合关键词包括单个特征“钱”、“张数”以及组合特征“钱+张数”，可以进行模糊提取到如下组合关键词：

[0040] 单个特征：一元、五元、十元、一张、两张、二张、三张、五张、八张、十三张、十张、一块、五块、十块、一个、两个、二个、三个、五个、八个、十三个、十个；

[0041] 组合特征：二个一块、二个一元、二张一块、二张一元、九个一块、九个一元、九张一张、两个一块、两个一元、两张一块、两张一元、六个一块、六个一元、六张一块、六张一元、七个一块、七个一元、七张一块、七张一元、三个五块、三个五元、三张五块、三张五元、十个一块、十个一元、十张一张、四个一块、四个一元、四张一块、四张一元、五块三个、五块三张、五元三个、五元三张、一块二个、一块二张、一块九个、一块九张、一块两个、一块两张、一块六个、一块六张、一块七个、一块七张、一块十个、一块十张、一块四个、一块四张、一元二个、一元二张、一元九个、一元九张、一元两个、一元两张、一元六个、一元六张、一元七个、一元七张、一元十个、一元十张、一元四个、一元四张、八个一块、八个一元、八张一块、八张一元、两个五块、两个五元、两张五块、两张五元、三个一块、三个一元、三张一块、三张一元、十块一个、十块一张、十三个一块、十三个一元、十三张一块、十三张一元、十元一个、十元一张、五个一块、五个一元、五块两个、五块两张、五块一个、五块一张、五元两个、五元两张、五元一个、五元一张、五张一块、五张一元、一个十块、一个十元、一个五块、一个五元、一块八个、一块八张、一块三个、一块三张、一块十三个、一块十三张、一块五个、一块五张、一元八个、一元八张、一元三个、一元三张、一元十三个、一元十三张、一元五个、一元五张、一张十块、一张十元、一张五块、一张五元。

[0042] 之后将语义相同的组合关键词进行合并处理得到上述组合关键词文本，上述组合关键词文本为与“一元”“五元”“十元”语义相同的文本、与“一张”“二张”“三张”“八张”“十三张”语义相同的文本以及与“一张十元”、“三张一元”“两张五元”“八张一元”“一张一元”“十三张一元”语义相同的文本。

[0043] 其中，可以基于上述找钱问题的标准答案数据提取上述识别答复数据中的单一关键词数据作为上述第二特征数据，上述标准答案数据同上在此不再赘述。

[0044] 其中，可以先基于上述标准答案数据筛选出上述识别答复数据中的单一关键词文本，上述单一关键词可以包括“钱”和“数字”语义的关键词文本，进行模糊提取到如下单一关键词文本：一、二、三、四、五、六、七、八、九、十、十一、十二、十三、块、元。再基于上述单一关键词文本对应的时间特征、数量特征和位置特征确定所述单一关键词数据，上述时间特征为上述单一关键词文本对应的平均持续时长，上述数量特征为上述单一关键词文本出现的次数，上述位置特征为上述单一关键词文本在语音中的位置，具体的，因为上述标准答案数据的四种正确答复逻辑中出现的数字只包括“一”、“二”、“三”、“五”、“八”、“十”、“十三”，所以最终可以保留的单一关键词数据为：

[0045] 与“一”语义相同的词的个数及其平均持续时长和位置、与“二”语义相同的词的个数及其平均持续时长和位置、与“三”语义相同的词的个数及其平均持续时长和位置、与“五”语义相同的词的个数及其平均持续时长和位置、与“八”语义相同的词的个数及其平均持续时长和位置、与“十”语义相同的词的个数及其平均持续时长和位置、与“十三”语义相同的词的个数及其平均持续时长和位置。

[0046] 需要说明的是，之所以采用数字作为上述第二特征数据，是因为不同的方言中对数字的发音区别不大，如此可以在上述识别准确度低的时候以更大的权重采用上述第二分类模型的输出结果，提高评分的准确度。

[0047] 通过提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据，可以基于同一识别结果得到不同的特征数据输入不同的模型进行处理，消除了人为因素的主观影响，大大提高了自动评分的准确率。

[0048] 步骤203，将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度。

[0049] 其中，上述训练好的准确度模型可以为逻辑回归(Logistic regression)模型等，包括概率模块，基于每段语音中的上述后验概率特征、上述音素特征以及上述文本特征来判断该段语音的识别准确度，上述识别准确度可以以概率形式表示，越趋近于0则表示上述识别答复数据的准确率越低，越趋近于1则表示上述识别答复数据的准确率越高。

[0050] 通过将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度，可以基于答复语音的识别准确度采用多个融合的分类模型自动对目标用户进行评分。

[0051] 步骤204，将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据。

[0052] 其中，上述训练好的第一分类模型可以为根据人工标注的训练数据建立的分类模型，上述训练好的第二分类模型可以为根据上述语音识别模型标注的文本建立的模型。

[0053] 其中，上述第一概率数据可以为多维向量，包括上述第一分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率，上述第二概率数据可以为多维向量，包括上述第二分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率。四种正确答复类别的答复逻辑分别为“1张10元+3张1元”、“2张5元+3张1元”、“8张1元+1张5元”以及“13张1元”，上述四种正确答复类别之外的答复即为上述错误答复类别。

[0054] 具体的，上述第一概率数据包括上述目标用户的答复为“1张10元+3张1元”的概率、上述目标用户的答复逻辑为“1张10元+3张1元”的概率、上述目标用户的答复逻辑为“2张5元+3张1元”的概率、上述目标用户的答复逻辑为“8张1元+1张5元”的概率、上述目标用户的答复逻辑为“13张1元”的概率以及上述目标用户的答复逻辑为上述错误答复类别的概率，同理，上述第二概率数据也包括上述第一概率数据包括的四种正确答复类别对应的概率和错误答复类别对应的概率，只是其数值可能存在不同，在此不再赘述。

[0055] 通过将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据，可以采用多个不同的模型分别输出上述目标用户的答复落入每个类别的概率，使输出数据相互参照，降低错误发生的概率。

[0056] 步骤205，根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据。

[0057] 其中，上述目标概率数据为基于上述识别准确度将上述第一概率数据和上述第二概率数据融合进行输出得到的多维向量，其同样包括四种正确答复类别对应的概率和错误答复类别对应的概率，具体的，可以如下公式进行计算：目标概率数据＝(1-识别准确度)*第二概率数据+识别准确度*第一概率数据。

[0058] 即上述识别准确度越高，则采用上述第一概率数据的第一权重更大，采用上述第二概率数据的第二权重越小；上述识别准确度越低，则采用上述第一概率数据的第一权重越小，采用上述第二概率数据的第二权重越大。

[0059] 如此，在识别结果与真实内容大部分相同时，由于上述识别结果的识别准确度较高，提取到的上述第一特征数据的可信度也较高，所以增大上述第一权重，采用上述第一分类模型可以输出准确度较高的上述第一概率数据，上述第一概率模型可以较好地反映上述目标用户的答复内容，充分发挥了基于人工标注的训练数据建立的第一分类模型的价值；在识别结果与真实内容存在较多不同时，由于此时识别数字部分的识别准确率高于识别非数字部分的识别准确率，所以可以增大上述第二权重，更多地采用上述第二分类模型的输出结果，充分发挥了基于上述语音识别模型标注的文本建立的第二分类模型的价值。

[0060] 步骤206，基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数。

[0061] 其中，可以先筛选出上述目标概率数据中最大概率值对应的目标类别，上述目标类别包括四种正确答复类别和错误答复类别中的任一类别，再根据预设评分规则计算所述目标类别对应的所述目标分数，所述预设评分规则包括蒙特利尔认知评估量表评分规则。

[0062] 具体的，若上述目标类别为上述四种正确答复类别中的任意一种且该目标类别在之前未出现过，则所述目标用户得一分，若上述目标类别为上述错误答复类别或上述四种正确答复类别中的任意一种但该目标类别在之前出现过，则所述目标用户得零分。如此对该目标用户的每条答复语音数据进行评分，最后每条答复语音数据对应的目标分数，上述目标分数用于诊断所述目标用户是否处于认知障碍状态。

[0063] 通过上述方法步骤，可以基于答复语音的识别准确度采用多个融合的分类模型自动对目标用户进行评分，消除了人为因素的主观影响，大大提高了自动评分的准确率。

[0064] 下面结合图3对本申请实施例中一种电子设备300进行说明，图3为本申请实施例提供的一种电子设备300的结构示意图，包括应用处理器301、通信接口302和存储器303，所述应用处理器301、通信接口302和存储器303通过总线304相互连接，总线304可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构
(Extended Industry Standard Architecture，简称EISA)总线等。总线304可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中，所述存储器303用于存储计算机程序，所述计算机程序包括程序指令，所述应用处理器301被配置用于调用所述程序指令，执行以下步骤的方法：

[0065] 将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据；

[0066] 提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；

[0067] 将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度；

[0068] 将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据；

[0069] 根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；

[0070] 基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数，所述目标分数用于诊断所述目标用户是否处于认知障碍状态。

[0071] 在一个可能的实施例中，在所述提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据方面，所述程序中的指令具体用于执行以下操作：

[0072] 提取所述识别答复数据中的后验概率特征、音素特征以及文本特征作为所述指标特征数据；

[0073] 基于所述找钱问题的标准答案数据提取所述识别答复数据中的组合关键词文本作为所述第一特征数据；

[0074] 基于所述找钱问题的标准答案数据提取所述识别答复数据中的单一关键词数据作为所述第二特征数据。

[0075] 在一个可能的实施例中，在所述基于所述找钱问题的标准答案数据提取所述识别答复数据中的组合关键词文本作为所述第一特征数据方面，所述程序中的指令具体用于执行以下操作：

[0076] 基于所述标准答案数据提取所述识别答复数据中的组合关键词；

[0077] 将语义相同的组合关键词进行合并处理得到所述组合关键词文本。

[0078] 在一个可能的实施例中，在所述基于所述找钱问题的标准答案数据提取所述识别答复数据中的单一关键词数据作为所述第二特征数据方面，所述程序中的指令具体用于执行以下操作：

[0079] 基于所述标准答案数据筛选出所述识别答复数据中的单一关键词文本；

[0080] 基于所述单一关键词文本对应的时间特征、数量特征和位置特征确定所述单一关键词数据。

[0081] 在一个可能的实施例中，在所述准确度模型包括概率模块；所述将所述指标特征数据输入训练好的准确度模型，根据所述准确度模型的输出确定识别准确度方面，所述程序中的指令具体用于执行以下操作：

[0082] 将所述后验概率特征、音素特征以及文本特征输入所述概率模块，根据所述概率模块的输出确定所述识别准确度，所述识别准确度用于表示所述识别答复数据的准确率。

[0083] 在一个可能的实施例中，所述第一概率数据包括所述第一分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率，所述第二概率数据包括所述第二分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率。

[0084] 在一个可能的实施例中，在所述根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据方面，所述程序中的指令具体用于执行以下操作：

[0085] 根据所述识别准确度确定所述第一概率数据的第一权重和所述第二概率数据的第二权重；

[0086] 基于所述第一权重、所述第二权重、所述第一概率数据以及所述第二概率数据进行计算得到所述目标概率数据，所述目标概率数据用于表示最准确的四种正确答复类别对应的概率和错误答复类别对应的概率。

[0087] 在一个可能的实施例中，在所述基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数方面，所述程序中的指令具体用于执行以下操作：

[0088] 筛选出所述目标概率数据中最大概率值对应的目标类别，所述目标类别包括四种正确答复类别和错误答复类别中的任一类别；

[0089] 根据预设评分规则计算所述目标类别对应的所述目标分数，所述预设评分规则包括蒙特利尔认知评估量表评分规则。

[0090] 上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是，电子设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所提供的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

[0091] 本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

[0092] 图4是本申请实施例提供的一种基于语音的评分装置400的功能单元组成框图。所述基于语音的评分装置400应用于电子设备，包括处理单元401、通信单元402和存储单元403，其中，所述处理单元401，用于执行如上述方法实施例中的任一步骤，且在执行诸如发送等数据传输时，可选择的调用所述通信单元402来完成相应操作。下面进行详细说明。

[0093] 所述处理单元401，用于将目标用户对找钱问题的答复语音特征数据输入训练好的语音识别模型，根据所述语音识别模型的输出确定识别答复数据；

[0094] 提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据；

[0095] 将所述指标特征数据输入训练好的准确度模型，根据所述训练好的准确度模型的输出确定识别准确度；

[0096] 将所述第一特征数据输入训练好的第一分类模型，根据所述训练好的第一分类模型的输出确定第一概率数据，以及，将所述第二特征数据输入训练好的第二分类模型，根据所述训练好的第二分类模型的输出确定第二概率数据；

[0097] 根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据；

[0098] 基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数，所述目标分数用于诊断所述目标用户是否处于认知障碍状态。

[0099] 在一个可能的实施例中，在所述提取所述识别答复数据的指标特征数据、第一特征数据以及第二特征数据方面，所述处理单元401具体用于：

[0100] 提取所述识别答复数据中的后验概率特征、音素特征以及文本特征作为所述指标特征数据；

[0101] 基于所述找钱问题的标准答案数据提取所述识别答复数据中的组合关键词文本作为所述第一特征数据；

[0102] 基于所述找钱问题的标准答案数据提取所述识别答复数据中的单一关键词数据作为所述第二特征数据。

[0103] 在一个可能的实施例中，在所述基于所述找钱问题的标准答案数据提取所述识别答复数据中的组合关键词文本作为所述第一特征数据方面，所述处理单元401具体用于：

[0104] 基于所述标准答案数据提取所述识别答复数据中的组合关键词；

[0105] 将语义相同的组合关键词进行合并处理得到所述组合关键词文本。

[0106] 在一个可能的实施例中，在所述基于所述找钱问题的标准答案数据提取所述识别答复数据中的单一关键词数据作为所述第二特征数据方面，所述处理单元401具体用于：

[0107] 基于所述标准答案数据筛选出所述识别答复数据中的单一关键词文本；

[0108] 基于所述单一关键词文本对应的时间特征、数量特征和位置特征确定所述单一关键词数据。

[0109] 在一个可能的实施例中，在所述准确度模型包括概率模块；所述将所述指标特征数据输入训练好的准确度模型，根据所述准确度模型的输出确定识别准确度方面，所述处理单元401具体用于：

[0110] 将所述后验概率特征、音素特征以及文本特征输入所述概率模块，根据所述概率模块的输出确定所述识别准确度，所述识别准确度用于表示所述识别答复数据的准确率。

[0111] 在一个可能的实施例中，所述第一概率数据包括所述第一分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率，所述第二概率数据包括所述第二分类模型输出的四种正确答复类别对应的概率和错误答复类别对应的概率。

[0112] 在一个可能的实施例中，在所述根据所述识别准确度对所述第一概率数据和所述第二概率数据进行处理，得到目标概率数据方面，所述处理单元401具体用于：

[0113] 根据所述识别准确度确定所述第一概率数据的第一权重和所述第二概率数据的第二权重；

[0114] 基于所述第一权重、所述第二权重、所述第一概率数据以及所述第二概率数据进行计算得到所述目标概率数据，所述目标概率数据用于表示最准确的四种正确答复类别对应的概率和错误答复类别对应的概率。

[0115] 在一个可能的实施例中，在所述基于所述目标概率数据中最大概率对应的类别对所述目标用户进行评分，得到目标分数方面，所述处理单元401具体用于：

[0116] 筛选出所述目标概率数据中最大概率值对应的目标类别，所述目标类别包括四种正确答复类别和错误答复类别中的任一类别；

[0117] 根据预设评分规则计算所述目标类别对应的所述目标分数，所述预设评分规则包括蒙特利尔认知评估量表评分规则。

[0118] 本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

[0119] 本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

[0120] 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

[0121] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0122] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

[0123] 上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0124] 另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0125] 上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体
现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0126] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：
Random Access Memory，简称：RAM)、磁盘或光盘等。

[0127] 以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

标题	发布/更新时间	阅读量
一种基于CLDNN+CTC声学模型的语音识别方法	2020-05-11	970
一种跨语言情感语音合成方法及系统	2020-05-12	743
一种样本生成方法、装置、服务器及存储介质	2020-05-12	609
基于深度学习的VR智能语音交互英语方法	2020-05-12	409
一种实时音频驱动的虚拟人物口型同步控制方法	2020-05-08	665
音频生成方法、装置、计算机可读存储介质及计算设备	2020-05-11	524
语音数据重构方法、装置及电子设备	2020-05-08	610
音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法	2020-05-08	811
検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム	2020-05-11	212
音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム	2020-05-11	452

基于语音的评分方法及相关装置

基于语音的评分方法及相关装置

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：