英语口语发音评分方法和系统专利检索-语音语料库人工智能专利检索查询-专利查询网

英语口语发音评分方法和系统

阅读：796发布：2020-05-12

专利汇可以提供英语口语发音评分方法和系统专利检索，专利查询，专利分析的服务。并且本发明公开了一种英语口语发音评分方法，所述方法包括：对预先录制的待评分语音进行预处理，得到待评分语音语料；提取待评分语音语料的特征参数；根据待评分语音语料的特征参数进行语种识别，以得到待评分语音的语种识别结果；根据语种识别结果判断待评分语音的语种是否为英语；当判定待评分语音的语种为英语时，分别对待评分语音的情感、语速、节奏、语调、发音准确度和重音进行评分；对情感、语速、节奏、语调、发音准确度和重音的分数进行加权，得到总分；当判定待评分语音的语种不是英语时，反馈语种错误信息。本发明的英语口语发音评分方法提高了口语发音评分的合理性、准确性和智能性，同时本发明还提供了一种英语口语发音评分系统。，下面是英语口语发音评分方法和系统专利的具体信息内容。

权利要求

1.一种英语口语发音评分方法，其特征在于，所述方法包括：
录制不同语种的标准语音；
对每个语种的标准语音进行预处理，得到每个语种的标准语音语料；
提取每个语种的所述标准语音语料的特征参数；其中，所述标准语音语料的特征参数包括GFCC 特征向量和SDC特征向量；
对每个语种的所述标准语音计算所有帧的GFCC特征向量和SDC特征向量的均值特征向量；
将GFCC特征向量的均值特征向量与SDC特征向量的均值特征向量合成为一个特征向量，以得到每个语种的标准特征向量；
将每个语种的标准特征向量作为改进的GMM-UBM模型的输入向量，采用混合型聚类算法对输入了所述输入向量的所述改进的GMM-UBM模型进行初始化；其中，混合型聚类算法包括：采用划分聚类的算法对所述输入向量的所述改进的GMM-UBM模型进行初始化，得到初始化聚类；采用层次聚类的算法对所述初始化聚类进行合并；
在对所述GMM-UBM模型进行初始化后，通过EM算法训练得到UBM模型；通过UBM模型进行自适应变换得到各个语种的GMM模型，作为所述标准语音的每个语种模型；
对预先录制的待评分语音进行预处理，得到待评分语音语料；
提取所述待评分语音语料的特征参数；
根据所述待评分语音语料的特征参数计算所述标准语音的每个语种模型的模型概率得分，选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果；
根据所述待评分语音的语种识别结果判断所述待评分语音的语种是否为英语；
当判定所述待评分语音的语种为英语时，分别对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音进行评分；
对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音的分数按照对应的权重系数进行加权，以得到总分；
当判定所述待评分语音的语种不是英语时，反馈语种错误信息。
2.如权利要求1所述的英语口语发音评分方法，其特征在于，所述根据所述待评分语音语料的特征参数计算所述标准语音的每个语种模型的模型概率得分，选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果，包括：
基于改进的GMM-UBM模型识别方法根据所述待评分语音语料的特征参数计算标准语音的每个语种模型的模型概率得分；其中，所述待评分语音语料的特征参数包括GFCC特征参数向量和SDC特征参数向量，所述SDC特征向量由所述标准语音语料的GFCC特征向量扩展而成；
选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果。
3.如权利要求1所述的英语口语发音评分方法，其特征在于，所述对所述待评分语音的情感进行评分的具体步骤为：
提取所述待评分语音语料的基频特征、短时能量特征和共振峰特征；
采用基于概率神经网络的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果；
根据标准答案的情感分析结果对所述待评分语音的情感分析结果进行评分。
4.如权利要求1所述的英语口语发音评分方法，其特征在于，所述对所述待评分语音的重音进行评分的具体步骤为：
获取所述待评分语音语料的短时能量特征曲线；
根据所述短时能量特征曲线设定重音能量阈值和非重音能量阈值；
根据非重音能量阈值对所述待评分语音语料划分子单元；
在所有所述子单元中去除持续时间小于设定值的所述子单元，得到有效子单元；
在所有所述有效子单元中去除能量阈值小于所述重音能量阈值的所述有效子单元，得到重音单元；
获取各个所述重音单元的重音位置，得到各个所述重音单元的起始帧位置与结束帧位置；
根据所述待评分语音与标准答案的各个所述重音单元的重音位置计算重音位置差异；
根据所述重音位置差异对所述待评分语音进行评分。
5.一种英语口语发音评分系统，其特征在于，所述系统包括：
标准语音录制模块，用于录制不同语种的标准语音；
标准语音预处理模块，用于对每个语种的标准语音进行预处理，得到每个语种的标准语音语料；
标准语音特征参数提取模块，用于提取每个语种的所述标准语音语料的特征参数；其中，所述标准语音语料的特征参数包括GFCC特征向量和SDC特征向量；
均值特征向量计算模块，用于对每个语种的所述标准语音计算所有帧的GFCC特征向量和SDC特征向量的均值特征向量；
特征向量合成模块，用于将GFCC特征向量的均值特征向量与SDC特征向量的均值特征向量合成为一个特征向量，以得到每个语种的标准特征向量；
初始化模块，用于将每个语种的标准特征向量作为改进的GMM-UBM模型的输入向量，采用混合型聚类算法对输入了所述输入向量的所述改进的GMM-UBM模型进行初始化；其中，混合型聚类算法包括：采用划分聚类的算法对所述输入向量的所述改进的GMM-UBM模型进行初始化，得到初始化聚类；采用层次聚类的算法对所述初始化聚类进行合并；
UBM模型生成模块，用于在对所述GMM-UBM模型进行初始化后，通过EM算法训练得到UBM模型；
语种模型生成模块，用于通过UBM模型进行自适应变换得到各个语种的GMM模型，作为所述标准语音的每个语种模型；
待评分语音预处理模块，用于对预先录制的待评分语音进行预处理，得到待评分语音语料；
待评分语音参数提取模块，用于提取所述待评分语音语料的特征参数；
语种识别模块，用于根据所述待评分语音语料的特征参数计算所述标准语音的每个语种模型的模型概率得分，选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果；
语种判断模块，用于根据所述待评分语音的语种识别结果判断所述待评分语音的语种是否为英语；
评分模块，用于当判定所述待评分语音的语种为英语时，分别对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音进行评分；
总分加权模块，用于对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音的分数按照对应的权重系数进行加权，以得到总分；
不予评分模块，用于当判定所述待评分语音的语种不是英语时，反馈语种错误信息。
6.如权利要求5所述的英语口语发音评分系统，其特征在于，所述语种识别模块包括：
模型概率得分计算模块，用于基于改进的GMM-UBM模型识别方法根据所述待评分语音语料的特征参数计算标准语音的每个语种模型的模型概率得分；其中，所述待评分语音语料的特征参数包括GFCC特征参数向量和SDC特征参数向量，所述SDC特征向量由所述标准语音语料的GFCC特征向量扩展而成；
语种选取模块，用于选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果。
7.如权利要求5所述的英语口语发音评分系统，其特征在于，所述评分模块包括：
情感特征提取单元，用于提取所述待评分语音语料的基频特征、短时能量特征和共振峰特征；
情感特征匹配单元，用于采用基于概率神经网络的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果；
情感评分单元，用于根据标准答案的情感分析结果对所述待评分语音的情感分析结果进行评分。
8.如权利要求5所述的英语口语发音评分系统，其特征在于，所述评分模块包括：
重音特征曲线获取单元，用于获取所述待评分语音语料的短时能量特征曲线；
能力阈值设定单元，用于根据所述短时能量特征曲线设定重音能量阈值和非重音能量阈值；
子单元划分单元，用于根据非重音能量阈值对所述待评分语音语料划分子单元；
有效子单元提取单元，用于在所有所述子单元中去除持续时间小于设定值的所述子单元，得到有效子单元；
重音单元选取单元，用于在所有所述有效子单元中去除能量阈值小于所述重音能量阈值的所述有效子单元，得到重音单元；
重音位置获取单元，用于获取各个所述重音单元的重音位置，得到各个所述重音单元的起始帧位置与结束帧位置；
重音位置比较单元，用于根据所述待评分语音与标准答案的各个所述重音单元的重音位置计算重音位置差异；
重音评分单元，用于根据所述重音位置差异对所述待评分语音进行评分。

说明书全文

英语口语发音评分方法和系统

技术领域

[0001] 本发明涉及语音识别和评价技术领域，特别涉及英语口语发音评分方法和系统。

背景技术

[0002] 计算机辅助语言学习系统(Computer-Assistant Language Learning，CALL)研究是当前的热点问题。在计算机辅助语言学习系统中，口语发音评价系统用于评价口语发音质量，其通过提供考卷并对考生作答的语音进行识别后，对语音的准确度等指标进行评分，并以此评价考生的口语发音质量。

[0003] 发明人在实施本发明的过程中，发现现有的口语发音评价系统具有如下缺点：

[0004] 现有的口语发音评价系统只能针对单一语种进行相应的评价，当教学内容要求考生以英语完成发音质量评价考试时，例如，在英语的口语答卷中，即使考生以不符合要求的语种进行发音，如使用汉语进行作答，此时系统仍会给予考生一定分数，从而影响了评分的合理性和准确性。

发明内容

[0005] 本发明提出英语口语发音评分方法和系统，提高了口语发音评分的合理性和准确性。

[0006] 本发明一方面提供一种英语口语发音评分方法，所述方法包括：

[0007] 对预先录制的待评分语音进行预处理，得到待评分语音语料；

[0008] 提取所述待评分语音语料的特征参数；

[0009] 根据所述待评分语音语料的特征参数对所述待评分语音进行语种识别，以得到所述待评分语音的语种识别结果；

[0010] 根据所述待评分语音的语种识别结果判断所述待评分语音的语种是否为英语；

[0011] 当判定所述待评分语音的语种为英语时，分别对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音进行评分；

[0012] 对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音的分数按照对应的权重系数进行加权，以得到总分；

[0013] 当判定所述待评分语音的语种不是英语时，反馈语种错误信息。

[0014] 作为更优选地，所述根据所述待评分语音语料的特征参数对所述待评分语音进行语种识别，以得到所述待评分语音的语种识别结果，包括：

[0015] 基于改进的GMM-UBM模型识别方法根据所述待评分语音语料的特征参数计算标准语音的每个语种模型的模型概率得分；其中，所述待评分语音语料的特征参数包括GFCC特征参数向量和SDC特征参数向量，所述SDC 特征向量由所述标准语音语料的GFCC特征向量扩展而成；

[0016] 选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果。

[0017] 作为更优选地，所述方法还包括：

[0018] 在录制待评分语音之前，录制不同语种的标准语音；

[0019] 对每个语种的标准语音进行预处理，得到每个语种的标准语音语料；

[0020] 提取每个语种的所述标准语音语料的特征参数；其中，所述标准语音语料的特征参数包括GFCC特征向量和SDC特征向量；

[0021] 对每个语种的所述标准语音计算所有帧的GFCC特征向量和SDC特征向量的均值特征向量；

[0022] 将GFCC特征向量的均值特征向量与SDC特征向量的均值特征向量合成为一个特征向量，以得到每个语种的标准特征向量；

[0023] 将每个语种的标准特征向量作为改进的GMM-UBM模型的输入向量，采用混合型聚类算法对输入了所述输入向量的所述改进的GMM-UBM模型进行初始化；其中，混合型聚类算法包括：采用划分聚类的算法对所述输入向量的所述改进的GMM-UBM模型进行初始化，得到初始化聚类；采用层次聚类的算法对所述初始化聚类进行合并。

[0024] 在对所述GMM-UBM模型进行初始化后，通过EM算法训练得到UBM模型；

[0025] 通过UBM模型进行自适应变换得到各个语种的GMM模型，作为所述标准语音的每个语种模型。在所述方法的一个实施方式中，所述对所述待评分语音的情感进行分数评定的具体步骤为：

[0026] 提取所述待评分语音语料的基频特征、短时能量特征和共振峰特征；

[0027] 采用基于概率神经网络的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果；

[0028] 根据所述标准答案的情感分析结果对所述待评分语音的情感分析结果进行评分。

[0029] 在所述方法的一个实施方式中，所述对所述待评分语音的重音进行分数评定的具体步骤为：

[0030] 获取所述待评分语音语料的短时能量特征曲线；

[0031] 根据所述短时能量特征曲线设定重音能量阈值和非重音能量阈值；

[0032] 根据非重音能量阈值对所述待评分语音语料划分子单元；

[0033] 在所有所述子单元中去除持续时间小于设定值的所述子单元，得到有效子单元；

[0034] 在所有所述有效子单元中去除能量阈值小于所述重音能量阈值的所述有效子单元，得到重音单元；

[0035] 获取各个所述重音单元的重音位置，得到各个所述重音单元的起始帧位置与结束帧位置；

[0036] 根据所述待评分语音与所述标准答案的各个所述重音单元的重音位置计算重音位置差异；

[0037] 根据所述重音位置差异对所述待评分语音进行评分。

[0038] 本发明另一方面还提供了一种英语口语发音评分系统，所述系统包括：

[0039] 待评分语音预处理模块，用于对预先录制的待评分语音进行预处理，得到待评分语音语料；

[0040] 待评分语音参数提取模块，用于提取所述待评分语音语料的特征参数；

[0041] 语种识别模块，用于根据所述待评分语音语料的特征参数对所述待评分语音进行语种识别，以得到所述待评分语音的语种识别结果；

[0042] 语种判断模块，用于根据所述待评分语音的语种识别结果判断所述待评分语音的语种是否为英语；

[0043] 评分模块，用于当判定所述待评分语音的语种为英语时，分别对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音进行评分；

[0044] 总分加权模块，用于对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音的分数按照对应的权重系数进行加权，以得到总分；

[0045] 不予评分模块，用于当判定所述待评分语音的语种不是英语时，反馈语种错误信息。

[0046] 作为更优选地，所述语种识别模块包括：

[0047] 模型概率得分计算模块，用于基于改进的GMM-UBM模型识别方法根据所述待评分语音语料的特征参数计算标准语音的每个语种模型的模型概率得分；其中，所述待评分语音语料的特征参数包括GFCC特征参数向量和SDC特征参数向量，所述SDC特征向量由所述标准语音语料的GFCC特征向量扩展而成；

[0048] 语种选取模块，用于选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果。

[0049] 作为更优选地，所述系统还包括：

[0050] 标准语音录制模块，用于在录制待评分语音之前，录制不同语种的标准语音；

[0051] 标准语音预处理模块，用于对每个语种的标准语音进行预处理，得到每个语种的标准语音语料；

[0052] 标准语音特征参数提取模块，用于提取每个语种的所述标准语音语料的特征参数；其中，所述标准语音语料的特征参数包括GFCC特征向量和SDC特征向量；

[0053] 均值特征向量计算模块，用于对每个语种的所述标准语音计算所有帧的GFCC特征向量和SDC特征向量的均值特征向量；

[0054] 特征向量合成模块，用于将GFCC特征向量的均值特征向量与SDC特征向量的均值特征向量合成为一个特征向量，以得到每个语种的标准特征向量；

[0055] 初始化模块，用于将每个语种的标准特征向量作为改进的GMM-UBM模型的输入向量，采用混合型聚类算法对输入了所述输入向量的所述改进的GMM-UBM模型进行初始化；其中，混合型聚类算法包括：采用划分聚类的算法对所述输入向量的所述改进的GMM-UBM模型进行初始化，得到初始化聚类；采用层次聚类的算法对所述初始化聚类进行合并。

[0056] UBM模型生成模块，用于在对所述GMM-UBM模型进行初始化后，通过EM算法训练得到UBM模型；

[0057] 语种模型生成模块，用于通过UBM模型进行自适应变换得到各个语种的GMM模型，作为所述标准语音的每个语种模型。在所述系统的一个实施方式中，所述评分模块包括：

[0058] 情感特征提取单元，用于提取所述待评分语音语料的基频特征、短时能量特征和共振峰特征；

[0059] 情感特征匹配单元，用于采用基于概率神经网络的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果；

[0060] 情感评分单元，用于根据所述标准答案的情感分析结果对所述待评分语音的情感分析结果进行评分。

[0061] 在所述系统的一个实施方式中，所述评分模块包括：

[0062] 重音特征曲线获取单元，用于获取所述待评分语音语料的短时能量特征曲线；

[0063] 能力阈值设定单元，用于根据所述短时能量特征曲线设定重音能量阈值和非重音能量阈值；

[0064] 子单元划分单元，用于根据非重音能量阈值对所述待评分语音语料划分子单元；

[0065] 有效子单元提取单元，用于在所有所述子单元中去除持续时间小于设定值的所述子单元，得到有效子单元；

[0066] 重音单元选取单元，用于在所有所述有效子单元中去除能量阈值小于所述重音能量阈值的所述有效子单元，得到重音单元；

[0067] 重音位置获取单元，用于获取各个所述重音单元的重音位置，得到各个所述重音单元的起始帧位置与结束帧位置；

[0068] 重音位置比较单元，用于根据所述待评分语音与所述标准答案的各个所述重音单元的重音位置计算重音位置差异；

[0069] 重音评分单元，用于根据所述重音位置差异对所述待评分语音进行评分。

[0070] 相比于现有技术，本发明具有如下突出的有益效果：本发明提供了一种英语口语发音评分方法和系统，其中方法包括：对预先录制的待评分语音进行预处理，得到待评分语音语料；提取所述待评分语音语料的特征参数；根据所述待评分语音语料的特征参数与标准语音的每个语种模型对所述待评分语音进行语种识别，以得到所述待评分语音的语种识别结果；根据所述待评分语音的语种识别结果判断所述待评分语音的语种是否为英语；当判定所述待评分语音的语种为英语时，分别对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音进行评分；对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音的分数按照对应的权重系数进行加权，以得到总分。本发明提供的英语口语发音评分方法和系统，通过待评分语音语料的特征参数与标准语音的每个语种模型对待评分语音进行语种识别和语种判断，防止了对语种不符合要求的语音进行评分，提高了评分的合理性和准确性，进一步保证了评分系统的稳定性和高效率；通过分别对待评分语音的情感、语速、节奏、语调、发音准确度和重音这六项指标进行评分并对分数按照对应的权重系数进行加权，实现了对学生口语发音质量的多方面考察，提高了评分的客观性，且便于教师针对不同题目设置各项指标的权重系数进行加权，使得评分方法更加灵活；通过反馈语种错误信息，对使用了不符合英语的语音进行发音的情况进行反馈，增加了评分系统的可靠性和智能性，便于教师通过迅速掌握评分失败情况做出对考考场情况作出相应处理、对考试人员进行警示等其他措施，提高了教学工作的质量。附图说明

[0071] 图1是本发明提供的英语口语发音评分方法的第一实施例的流程示意图；

[0072] 图2是本发明提供的英语口语发音评分系统的第一实施例的结构示意图。

具体实施方式

[0073] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0074] 参见图1，是本发明提供的英语口语发音评分方法的第一实施例的流程示意图，所述方法包括：

[0075] S101，对预先录制的待评分语音进行预处理，得到待评分语音语料；

[0076] S102，提取所述待评分语音语料的特征参数；

[0077] S103，根据所述待评分语音语料的特征参数对所述待评分语音进行语种识别，以得到所述待评分语音的语种识别结果；

[0078] S104，根据所述待评分语音的语种识别结果判断所述待评分语音的语种是否为英语；

[0079] S105，当判定所述待评分语音的语种为英语时，分别对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音进行评分；

[0080] S106，对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音的分数按照对应的权重系数进行加权，以得到总分；

[0081] S107，当判定所述待评分语音的语种不是英语时，反馈语种错误信息。

[0082] 在一种可选的实施方式中，所述对预先录制的所述待评分语音进行预处理，包括：对所述待评分语音进行预加重、分帧、加窗和端点检测。

[0083] 即通过对所述待评分语音进行预加重，实现对其高频部分加以提升，使信号的频谱变得平坦，保持在低频到高频的整个频带中。

[0084] 即通过对所述待评分语音进行分帧，获得在短时间内相对稳定的语音信号，有利于后期对语音数据的进一步处理。

[0085] 在一种可选的实施方式中，采用半帧交叠分帧的方式对所述待评分语音进行分帧。

[0086] 即通过采用半帧交叠分帧的方式，考虑了语音信号之间的相关性，从而保证了各个语音帧之间的平滑过渡，提高了语音信号处理的精确度。

[0087] 在一种可选的实施方式中，采用汉明窗对所述待评分语音进行分帧。

[0088] 即通过采用汉明窗得到频谱相对平滑的语音信号，有利于后期对语音数据的进一步处理。

[0089] 在一种可选的实施方式中，采用双门限比较法对所述待评分语音进行端点检测。

[0090] 即通过双门限比较法有效地避免了噪声的影响，提高了检测度，使语音特征提取更具高效性，有利于后期对语音数据的进一步处理。

[0091] 即通过对所述待评分语音进行预加重、分帧、加窗和端点检测实现待评分语音的预处理，提高待评分语音的检测度，便于更好地提取待评分语音的特征参数。

[0092] 在一种可选的实施方式中，所述对所述待评分语音的语速进行评分，包括：获取所述待评分语音使用的单词个数；获取所述待评分语音的时长；根据所述单词个数和所述时长计算所述待评分语音的语速；将所述待评分语音的语速与所述标准答案的语速进行比较，得到语速比较结果；根据所述语速比较结果对所述待评分语音的语速进行评分。

[0093] 即通过单词个数和待评分语音的时长可快速地得到待评分语音的语速，再通过与标准答案的语速进行比较，将语速评分与标准答案的语速要求联系起来，提高了评分的客观性和合理性。

[0094] 在一种可选的实施方式中，所述对所述待评分语音的发音准确度进行评分，包括：提取所述待评分语音的特征参数；基于预先根据所述标准语音的特征参数建立的语音模型根据所述待评分语音的特征参数对所述待评分语音的内容进行匹配，得到匹配结果；根据所述待评分语音的特征参数和所述标准语音的特征参数计算相关系数；根据所述识别结果和所述相关系数对所述待评分语音的发音准确度进行评分；其中，所述匹配结果用于表示所述待评分语音的内容是否正确。

[0095] 即通过结合所述识别结果和所述相关系数对所述待评分语音的发音准确度进行评分，提高了评分的准确性和客观性。

[0096] 在一种可选的实施方式中，所述对所述待评分语音的节奏进行评分，包括：根据所述标准答案和所述待评分语音计算dPVI(差异性成对变异指数，the Distinct Pairwise Variability Index)参数；根据所述dPVI参数对所述待评分语音的节奏进行评分。

[0097] 需要说明的是，标准语音包含多个语种的标准发音；标准答案是使用所述待评分语音进行作答的题目的标准答案；所述权重系数为预先设置。

[0098] 即通过待评分语音语料的特征参数与标准语音的每个语种模型对待评分语音进行语种识别和语种判断，防止了对语种不符合要求的语音进行评分，提高了评分的合理性和准确性，进一步保证了评分系统的稳定性和高效率；通过分别对待评分语音的情感、语速、节奏、语调、发音准确度和重音这六项指标进行评分并对分数按照对应的权重系数进行加权，实现了对学生口语发音质量的多方面考察，提高了评分的客观性，且便于教师针对不同题目设置各项指标的权重系数进行加权，使得评分方法更加灵活；通过反馈语种错误信息，对使用了不符合英语的语音进行发音的情况进行反馈，增加了评分系统的可靠性和智能性，便于教师通过迅速掌握评分失败情况做出对考考场情况作出相应处理，提高了教学工作的质量。

[0099] 作为更优选地，所述根据所述待评分语音语料的特征参数对所述待评分语音进行语种识别，以得到所述待评分语音的语种识别结果，包括：

[0100] 基于改进的GMM-UBM模型识别方法根据所述待评分语音语料的特征参数计算标准语音的每个语种模型的模型概率得分；其中，所述待评分语音语料的特征参数包括GFCC特征参数向量和SDC特征参数向量，所述SDC特征向量由所述标准语音语料的GFCC特征向量扩展而成；

[0101] 选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果。

[0102] 需要说明的是，改进的GMM-UBM模型识别方法是指：根据所述待评分语音语料的特征参数对待评分语音的每一帧计算每个语种的GMM模型的对数似然比，作为每一帧每个语种的GMM模型的混合分量；根据所述待评分语音语料的特征参数对待评分语音的每一帧计算每个语种的UBM模型的对数似然比，作为每一帧每个语种的UBM模型的混合分量；每一帧每个语种的GMM模型的混合分量与每一帧每个语种的UBM模型的混合分量的差值，得到每一帧每个语种模型的对数差；将所述待评分语音语料的所有帧的每个语种模型的对数差进行加权，得到所述每个语种模型的模型概率得分。

[0103] 即通过计算每个语种模型的模型概率得分快速地识别所述待评分语音的语种，提高了语种识别速度，进而提高了评分的效率。

[0104] 作为更优选地，所述方法还包括：

[0105] 在录制待评分语音之前，录制不同语种的标准语音；

[0106] 对每个语种的标准语音进行预处理，得到每个语种的标准语音语料；

[0107] 提取每个语种的所述标准语音语料的特征参数；其中，所述标准语音语料的特征参数包括GFCC特征向量和SDC特征向量；对每个语种的所述标准语音计算所有帧的GFCC(Grammatone Frequency Cepstrum Coefficient，伽马通滤波器倒谱系数)特征向量和SDC(Shifted delta cepstra，移位差分倒谱特征)特征向量的均值特征向量；

[0108] 将GFCC特征向量的均值特征向量与SDC特征向量的均值特征向量合成为一个特征向量，以得到每个语种的标准特征向量；

[0109] 将每个语种的标准特征向量作为改进的GMM-UBM模型的输入向量，采用混合型聚类算法对输入了所述输入向量的所述改进的GMM-UBM模型进行初始化；其中，混合型聚类算法包括：采用划分聚类的算法对所述输入向量的所述改进的GMM-UBM模型进行初始化，得到初始化聚类；采用层次聚类的算法对所述初始化聚类进行合并。

[0110] 在对所述GMM-UBM模型进行初始化后，通过EM(Expectation Maximization Algorithm，期望最大化算法)算法训练得到UBM(Universal Background Model，通用背景模型)模型；

[0111] 通过UBM模型进行自适应变换得到各个语种的GMM(Gaussian Mixture Model，高斯混合模型)模型，作为所述标准语音的每个语种模型。即通过GFCC特征向量和SDC特征向量得到标准特征向量，从而得到更丰富的特征信息，提高了语种识别率；通过采用混合K-means和层次聚类的算法进行初始化，减少层次算法运算的复杂度与迭代深度，进而缩短了处理时间，提高了评分效率；通过采用改进的GMM-UBM模型训练方法对每个语种的标准语音进行模型训练，通过拉大各个语种的GMM模型之间的距离，提高了语种识别的准确性和效率。

[0112] 本发明还提供了一种英语口语发音评分方法的第二实施例，所述方法包括上述英语口语发音评分方法的第一实施例中的步骤S101～S106，还进一步限定了，所述对所述待评分语音的情感进行分数评定的具体步骤为：

[0113] 提取所述待评分语音语料的基频特征、短时能量特征和共振峰特征；

[0114] 采用基于概率神经网络的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果；

[0115] 根据所述标准答案的情感分析结果对所述待评分语音的情感分析结果进行评分。

[0116] 在本实施例中，所述情感分析结果包括情感种类；例如，情感种类为高兴、悲伤或正常。

[0117] 在本实施例中，基频特征为基音频率特征，其包括基频的统计学变化参数，由于基因周期是发浊音时声带震动所引起的周期，因此基频特征用于反映情感的变化；短时能量特征是指短时间内的声音能量，能量大则说明声音的音量大，通常当人们愤怒或者生气的时候，发音的音量较大；当人们沮丧或者悲伤的时候，往往讲话声音较低，短时能量特征包括短时能量的统计学变化参数；共振峰特征反映的是声道特征，其包括共振峰的统计学变化参数，当人处于不同情感状态时，其神经的紧张程度不同，导致声道形变，共振峰频率发生相应的改变；概率神经网络(Probabilistic Neural Network，PNN)是基于统计原理的神经网络模型，常用于模式分类。

[0118] 在一种可选的实施方式中，所述采用基于概率神经网络的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果，具体为：采用线性预测方法对所述待评分语音的每帧语音的共振峰参数进行提取；采用分段聚类法将所述共振峰参数规整为32阶的语音情感特征参数，从而与所述基频特征和所述短时能量特征构成46阶的语音情感特征参数；采用基于概率神经网络的语音情感识别方法将所述语音情感特征参数与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果。

[0119] 在一种可选的实施方式中，根据所述标准答案的情感分析结果对所述待评分语音的情感分析结果进行评分，具体为：当所述标准答案的情感种类与所述待评分语音的情感种类相同时，对所述待评分语音评定一定分值的分数。

[0120] 即通过提取待评分语音语料的基频特征、短时能量特征和共振峰特征以及语音情感识别方法，有效地获取待评分语音的情感分析结果，进一步提高了评分的合理性和准确性。

[0121] 本发明还提供了一种英语口语发音评分方法的第三实施例，所述方法包括上述英语口语发音评分方法的第一实施例中的步骤S101～S106，还进一步限定了，所述对所述待评分语音的重音进行分数评定的具体步骤为：

[0122] 获取所述待评分语音语料的短时能量特征曲线；

[0123] 根据所述短时能量特征曲线设定重音能量阈值和非重音能量阈值；

[0124] 根据非重音能量阈值对所述待评分语音语料划分子单元；

[0125] 在所有所述子单元中去除持续时间小于设定值的所述子单元，得到有效子单元；

[0126] 在所有所述有效子单元中去除能量阈值小于所述重音能量阈值的所述有效子单元，得到重音单元；

[0127] 获取各个所述重音单元的重音位置，得到各个所述重音单元的起始帧位置与结束帧位置；

[0128] 根据所述待评分语音与所述标准答案的各个所述重音单元的重音位置计算重音位置差异；

[0129] 根据所述重音位置差异对所述待评分语音进行评分。

[0130] 在一种可选的实施方式中，根据所述待评分语音与所述标准答案的各个所述重音单元的重音位置计算重音位置差异，具体为：根据如下公式计算重音位置差异：

[0131]

[0132] 其中，diff是重音位置差异，n是所述重音单元的数量，Lenstd是标准答案语音语料的帧长度，leftstd[i]是标准答案语音语料的第i个重音单元的起始帧位置，rightstd[i]是标准答案语音语料的第i个重音单元的结束帧位置，Lentest是待评分语音语料的帧长度，lefttest[i]是待评分语音语料的第i个重音单元的起始帧位置，righttest[i]是待评分语音语料的第i个重音单元的结束帧位置。

[0133] 即通过短时能量特征曲线得到所述待评分语音与所述标准答案的重音位置差异并根据重音位置差异进行评分，大大减少了计算量，提高了评分的效率。

[0134] 本发明另一方面还提供了一种英语口语发音评分系统，所述系统包括：

[0135] 待评分语音预处理模块201，用于对预先录制的待评分语音进行预处理，得到待评分语音语料；

[0136] 待评分语音参数提取模块202，用于提取所述待评分语音语料的特征参数；

[0137] 语种识别模块203，用于根据所述待评分语音语料的特征参数与标准语音的每个语种模型对所述待评分语音进行语种识别，以得到所述待评分语音的语种识别结果；

[0138] 语种判断模块204，用于根据所述待评分语音的语种识别结果判断所述待评分语音的语种是否为英语；

[0139] 评分模块205，用于当判定所述待评分语音的语种为英语时，分别对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音进行分数评定；

[0140] 总分加权模块206，用于对所述待评分语音的情感、语速、节奏、语调、发音准确度和重音的分数按照对应的权重系数进行加权，以得到总分不予评分模块。

[0141] 在一种可选的实施方式中，所述待评分语音预处理模块包括：待评分语音预处理单元，用于对所述待评分语音进行预加重、分帧、加窗和端点检测。

[0142] 即通过对所述待评分语音进行预加重，实现对其高频部分加以提升，使信号的频谱变得平坦，保持在低频到高频的整个频带中。

[0143] 即通过对所述待评分语音进行分帧，获得在短时间内相对稳定的语音信号，有利于后期对语音数据的进一步处理。

[0144] 在一种可选的实施方式中，采用半帧交叠分帧的方式对所述待评分语音进行分帧。

[0145] 即通过采用半帧交叠分帧的方式，考虑了语音信号之间的相关性，从而保证了各个语音帧之间的平滑过渡，提高了语音信号处理的精确度。

[0146] 在一种可选的实施方式中，采用汉明窗对所述待评分语音进行分帧。

[0147] 即通过采用汉明窗得到频谱相对平滑的语音信号，有利于后期对语音数据的进一步处理。

[0148] 在一种可选的实施方式中，采用双门限比较法对所述待评分语音进行端点检测。

[0149] 即通过双门限比较法有效地避免了噪声的影响，提高了检测度，使语音特征提取更具高效性，有利于后期对语音数据的进一步处理。

[0150] 即通过对所述待评分语音进行预加重、分帧、加窗和端点检测实现待评分语音的预处理，提高待评分语音的检测度，便于更好地提取待评分语音的特征参数。

[0151] 在一种可选的实施方式中，所述评分模块包括：单词个数获取单元，用于获取所述待评分语音使用的单词个数；时长获取单元，用于获取所述待评分语音的时长；语速计算单元，用于根据所述单词个数和所述时长计算所述待评分语音的语速；语速比较单元，用于将所述待评分语音的语速与所述标准答案的语速进行比较，得到语速比较结果；语速评分单元，用于根据所述语速比较结果对所述待评分语音的语速进行评分。

[0152] 即通过单词个数和待评分语音的时长可快速地得到待评分语音的语速，再通过与标准答案的语速进行比较，将语速评分与标准答案的语速要求联系起来，提高了评分的客观性和合理性。

[0153] 在一种可选的实施方式中，所述评分模块包括：发音准确度参数提取单元，用于提取所述待评分语音的特征参数；发音准确度匹配单元，用于基于预先根据所述标准答案的特征参数建立的语音模型根据所述待评分语音的特征参数对所述待评分语音的内容进行匹配，得到匹配结果；发音准确度相关系数计算单元，用于根据所述待评分语音的特征参数和所述标准答案的特征参数计算相关系数；发音准确度评分单元，用于根据所述识别结果和所述相关系数对所述待评分语音的发音准确度进行评分；其中，所述匹配结果用于表示所述待评分语音的内容是否正确。

[0154] 即通过结合所述识别结果和所述相关系数对所述待评分语音的发音准确度进行评分，提高了评分的准确性和客观性。

[0155] 在一种可选的实施方式中，所述评分模块包括：指数参数计算单元，用于根据所述标准答案和所述待评分语音计算dPVI(差异性成对变异指数，the Distinct Pairwise Variability Index)参数；节奏评分单元，用于根据所述dPVI参数对所述待评分语音的节奏进行评分。

[0156] 需要说明的是，标准语音包含多个语种的标准发音；标准答案是使用所述待评分语音进行作答的题目的标准答案；所述权重系数为预先设置。

[0157] 即通过待评分语音语料的特征参数与标准语音的每个语种模型对待评分语音进行语种识别和语种判断，防止了对语种不符合要求的语音进行评分，提高了评分的合理性和准确性，进一步保证了评分系统的稳定性和高效率；通过分别对待评分语音的情感、语速、节奏、语调、发音准确度和重音这六项指标进行评分并对分数按照对应的权重系数进行加权，实现了对学生口语发音质量的多方面考察，提高了评分的客观性，且便于教师针对不同题目设置各项指标的权重系数进行加权，使得评分方法更加灵活；通过反馈语种错误信息，对使用了不符合英语的语音进行发音的情况进行反馈，增加了评分系统的可靠性和智能性，便于教师通过迅速掌握评分失败情况做出对考场情况进行处理，提高了教学工作的质量。

[0158] 作为更优选地，所述语种识别模块包括：

[0159] 模型概率得分计算模块，用于基于改进的GMM-UBM模型识别方法根据所述待评分语音语料的特征参数计算标准语音的每个语种模型的模型概率得分；其中，所述待评分语音语料的特征参数包括GFCC特征参数向量和SDC特征参数向量，所述SDC特征向量由所述标准语音语料的GFCC特征向量扩展而成；

[0160] 语种选取模块，用于选取具有最大的所述模型概率得分的语种模型对应的语种作为所述待评分语音的语种识别结果。

[0161] 需要说明的是，改进的GMM-UBM模型识别方法是指：根据所述待评分语音语料的特征参数对待评分语音的每一帧计算每个语种的GMM模型的对数似然比，作为每一帧每个语种的GMM模型的混合分量；根据所述待评分语音语料的特征参数对待评分语音的每一帧计算每个语种的UBM模型的对数似然比，作为每一帧每个语种的UBM模型的混合分量；每一帧每个语种的GMM模型的混合分量与每一帧每个语种的UBM模型的混合分量的差值，得到每一帧每个语种模型的对数差；将所述待评分语音语料的所有帧的每个语种模型的对数差进行加权，得到所述每个语种模型的模型概率得分。

[0162] 即通过计算每个语种模型的模型概率得分快速地识别所述待评分语音的语种，提高了语种识别速度，进而提高了评分的效率。

[0163] 作为更优选地，所述系统还包括：

[0164] 标准语音录制模块，用于在录制待评分语音之前，录制不同语种的标准语音；

[0165] 标准语音预处理模块，用于对每个语种的标准语音进行预处理，得到每个语种的标准语音语料；

[0166] 标准语音特征参数提取模块，用于提取每个语种的所述标准语音语料的特征参数；其中，所述标准语音语料的特征参数包括GFCC特征向量和SDC特征向量；

[0167] 均值特征向量计算模块，用于对每个语种的所述标准语音计算所有帧的GFCC特征向量和SDC特征向量的均值特征向量；

[0168] 特征向量合成模块，用于将GFCC特征向量的均值特征向量与SDC特征向量的均值特征向量合成为一个特征向量，以得到每个语种的标准特征向量；

[0169] 初始化模块，用于将每个语种的标准特征向量作为改进的GMM-UBM模型的输入向量，采用混合型聚类算法对输入了所述输入向量的所述改进的GMM-UBM模型进行初始化；其中，混合型聚类算法包括：采用划分聚类的算法对所述输入向量的所述改进的GMM-UBM模型进行初始化，得到初始化聚类；采用层次聚类的算法对所述初始化聚类进行合并。

[0170] UBM模型生成模块，用于在对所述GMM-UBM模型进行初始化后，通过EM算法训练得到UBM模型；

[0171] 语种模型生成模块，用于通过UBM模型进行自适应变换得到各个语种的GMM模型，作为所述标准语音的每个语种模型。

[0172] 即通过GFCC特征向量和SDC特征向量得到标准特征向量，从而得到更丰富的特征信息，提高了语种识别率；通过采用混合K-means和层次聚类的算法进行初始化，减少层次算法运算的复杂度与迭代深度，进而缩短了处理时间，提高了评分效率；通过采用改进的GMM-UBM模型训练方法对每个语种的标准语音进行模型训练，通过拉大各个语种的GMM模型之间的距离，提高了语种识别的准确性和效率。

[0173] 本发明还提供了一种英语口语发音评分系统的第二实施例，其包括上述英语口语发音评分系统的第一实施例的待评分语音预处理模块201、待评分语音参数提取模块202、语种识别模块203、语种判断模块204、评分模块205和总分加权模块206不予评分模块，还进一步限定了，所述评分模块包括：

[0174] 情感特征提取单元，用于提取所述待评分语音语料的基频特征、短时能量特征和共振峰特征；

[0175] 情感特征匹配单元，用于采用基于概率神经网络(Probabilistic Neural Network，PNN)的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果；

[0176] 情感评分单元，用于根据所述标准答案的情感分析结果对所述待评分语音的情感分析结果进行评分。

[0177] 在本实施例中，所述情感分析结果包括情感种类；例如，情感种类为高兴、悲伤或正常。

[0178] 在本实施例中，基频特征为基音频率特征，其包括基频的统计学变化参数，由于基因周期是发浊音时声带震动所引起的周期，因此基频特征用于反映情感的变化；短时能量特征是指短时间内的声音能量，能量大则说明声音的音量大，通常当人们愤怒或者生气的时候，发音的音量较大；当人们沮丧或者悲伤的时候，往往讲话声音较低，短时能量特征包括短时能量的统计学变化参数；共振峰特征反映的是声道特征，其包括共振峰的统计学变化参数，当人处于不同情感状态时，其神经的紧张程度不同，导致声道形变，共振峰频率发生相应的改变；概率神经网络(Probabilistic Neural Network，PNN)是基于统计原理的神经网络模型，常用于模式分类。

[0179] 在一种可选的实施方式中，所述采用基于概率神经网络的语音情感识别方法将所述待评分语音语料的基频特征、短时能量特征和共振峰特征与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果，具体为：采用线性预测方法对所述待评分语音的每帧语音的共振峰参数进行提取；采用分段聚类法将所述共振峰参数规整为32阶的语音情感特征参数，从而与所述基频特征和所述短时能量特征构成46阶的语音情感特征参数；采用基于概率神经网络(Probabilistic Neural Network，PNN)的语音情感识别方法将所述语音情感特征参数与预先建立的情感语料库进行匹配，得到所述待评分语音的情感分析结果。

[0180] 在一种可选的实施方式中，所述情感评分单元包括：情感分数评定子单元，用于当所述标准答案的情感种类与所述待评分语音的情感种类相同时，对所述待评分语音评定一定分值的分数。

[0181] 即通过提取待评分语音语料的基频特征、短时能量特征和共振峰特征以及语音情感识别方法，有效地获取待评分语音的情感分析结果，进一步提高了评分的合理性和准确性。

[0182] 本发明还提供了一种英语口语发音评分系统的第三实施例，其包括上述英语口语发音评分系统的第一实施例的待评分语音预处理模块201、待评分语音参数提取模块202、语种识别模块203、语种判断模块204、评分模块205和总分加权模块206不予评分模块，还进一步限定了，所述评分模块包括：

[0183] 重音特征曲线获取单元，用于获取所述待评分语音语料的短时能量特征曲线；

[0184] 能力阈值设定单元，用于根据所述短时能量特征曲线设定重音能量阈值和非重音能量阈值；

[0185] 子单元划分单元，用于根据非重音能量阈值对所述待评分语音语料划分子单元；

[0186] 有效子单元提取单元，用于在所有所述子单元中去除持续时间小于设定值的所述子单元，得到有效子单元；

[0187] 重音单元选取单元，用于在所有所述有效子单元中去除能量阈值小于所述重音能量阈值的所述有效子单元，得到重音单元；

[0188] 重音位置获取单元，用于获取各个所述重音单元的重音位置，得到各个所述重音单元的起始帧位置与结束帧位置；

[0189] 重音位置比较单元，用于根据所述待评分语音与所述标准答案的各个所述重音单元的重音位置计算重音位置差异；

[0190] 重音评分单元，用于根据所述重音位置差异对所述待评分语音进行评分。

[0191] 在一种可选的实施方式中，所述根据所述待评分语音与所述标准答案的各个所述重音单元的重音位置计算重音位置差异，具体为：根据如下公式计算重音位置差异：

[0192]

[0193] 其中，diff是重音位置差异，n是所述重音单元的数量，Lenstd是标准答案语音语料的帧长度，leftstd[i]是标准答案语音语料的第i个重音单元的起始帧位置，rightstd[i]是标准答案语音语料的第i个重音单元的结束帧位置，Lentest是待评分语音语料的帧长度，lefttest[i]是待评分语音语料的第i个重音单元的起始帧位置，righttest[i]是待评分语音语料的第i个重音单元的结束帧位置。

[0194] 即通过短时能量特征曲线得到所述待评分语音与所述标准答案的重音位置差异并根据重音位置差异进行评分，大大减少了计算量，提高了评分的效率。

[0195] 本发明提供的英语口语发音评分方法和系统，通过待评分语音语料的特征参数与标准语音的每个语种模型对待评分语音进行语种识别和语种判断，防止了对语种不符合要求的语音进行评分，提高了评分的合理性和准确性，进一步保证了评分系统的稳定性和高效率；通过分别对待评分语音的情感、语速、节奏、语调、发音准确度和重音这六项指标进行评分并对分数按照对应的权重系数进行加权，实现了对学生口语发音质量的多方面考察，提高了评分的客观性，且便于教师针对不同题目设置各项指标的权重系数进行加权，使得评分方法更加灵活；通过反馈语种错误信息，对使用了不符合英语的语音进行发音的情况进行反馈，增加了评分系统的可靠性和智能性，便于教师通过迅速掌握评分失败情况做出对考试时间进行调整等其他措施，提高了教学工作的质量。

[0196] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

[0197] 以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

标题	发布/更新时间	阅读量
一种构建语料库的方法、装置、计算设备及存储介质	2020-05-08	808
音素时长预测建模方法及音素时长预测方法	2020-05-15	824
一种语料收集方法、装置及系统	2020-05-16	723
英语口语发音评分方法和系统	2020-05-12	796
基于谱特征和ELM的语音情感识别方法	2020-05-15	285
一种基于声门波信号特征提取的语音情感识别方法	2020-05-08	689
基于音节的自动语音识别	2020-05-14	712
一种面向在线考试的无人监考方法	2020-05-17	686
家电设备的语音控制方法及装置	2020-05-15	60
车机语音测试系统及方法	2020-05-16	856

英语口语发音评分方法和系统

英语口语发音评分方法和系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：