提高口语评测性能的方法及系统专利检索-语音信号音频信号广播专利检索查询-专利查询网

提高口语评测性能的方法及系统

阅读：567发布：2021-04-13

专利汇可以提供提高口语评测性能的方法及系统专利检索，专利查询，专利分析的服务。并且本发明公开了一种提高口语评测性能的方法及系统，该方法包括：接收待评测的用户语音数据，所述语音数据包括：朗读题语音数据和半开放题型语音数据；根据所述朗读题语音数据对各朗读题进行评分；从评分结果中获取自适应有效数据；根据所述自适应有效数据对预设的声学模型进行优化；利用优化后的声学模型对各半开放题进行评分。利用本发明，可以有效地提高口语评测的准确性。，下面是提高口语评测性能的方法及系统专利的具体信息内容。

权利要求

1.一种提高口语评测性能的方法，其特征在于，包括：
接收待评测的用户语音数据，所述语音数据包括：朗读题语音数据和半开放题型语音数据；
根据所述朗读题语音数据对各朗读题进行评分；
从评分结果中获取自适应有效数据；
对所述自适应有效数据进行语音单元均衡处理，以确定目标自适应语句或目标自适应基本语音单元；
根据所述目标自适应语句或目标自适应基本语音单元对预设的声学模型进行优化；
利用优化后的声学模型对各半开放题进行评分。
2.根据权利要求1所述的方法，其特征在于，所述根据所述朗读题语音数据对各朗读题进行评分包括：
将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐，获取文本字串中各基本语音单元对应的语音信号片段；
计算所述基本语音单元与其对应的语音信号片段的似然度；
根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率；
根据所述后验概率计算各朗读题的得分。
3.根据权利要求2所述的方法，其特征在于，所述从评分结果中获取自适应有效数据包括：
选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。
4.根据权利要求3所述的方法，其特征在于，所述对所述自适应有效数据进行语音单元均衡处理，以确定目标自适应语句包括：
分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；
依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应语句。
5.根据权利要求2所述的方法，其特征在于，所述从评分结果中获取自适应有效数据包括：
选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。
6.根据权利要求5所述的方法，其特征在于，所述对所述自适应有效数据进行语音单元均衡处理，以确定目标自适应基本语音单元包括：
分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；
依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应基本语音单元。
7.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述目标自适应语句或目标自适应基本语音单元对预设的声学模型进行优化包括：
采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化；或者采用基于最大后验概率的自适应方式对预设的声学模型进行优化。
8.一种提高口语评测性能的系统，其特征在于，包括：
接收模块，用于接收待评测的用户语音数据，所述语音数据包括：朗读题语音数据和半开放题型语音数据；
朗读题评分模块，用于根据所述朗读题语音数据对各朗读题进行评分；
自适应数据提取模块，用于从所述朗读题评分模块输出的评分结果中获取自适应有效数据；
模型优化模块，用于根据所述自适应有效数据对预设的声学模型进行优化；
半开放题评分模块，用于利用优化后的声学模型对各半开放题进行评分；
所述系统还包括：第一均衡模块或第二均衡模块，其中：
所述第一均衡模块，用于在根据所述自适应数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理，以确定目标自适应语句；
所述第二均衡模块，用于在根据所述自适应数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理，以确定目标自适应基本语音单元；
所述模型优化模块，具体用于根据所述目标自适应语句或所述目标自适应基本语音单元对预设的声学模型进行优化。
9.根据权利要求8所述的系统，其特征在于，所述朗读题评分模块包括：
对齐单元，用于将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐，获取文本字串中各基本语音单元对应的语音信号片段；
似然度计算单元，用于计算所述基本语音单元与其对应的语音信号片段的似然度；
后验概率计算单元，用于根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率；
得分计算单元，用于根据所述后验概率计算各朗读题的得分。
10.根据权利要求9所述的系统，其特征在于，
所述自适应数据提取模块，具体用于选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。
11.根据权利要求10所述的系统，其特征在于，
所述第一均衡模块包括：
统计单元，用于分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；
第一确定单元，用于依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应语句。
12.根据权利要求9所述的系统，其特征在于，
所述自适应数据提取模块，具体用于选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。
13.根据权利要求12所述的系统，其特征在于，所述第二均衡模块包括：
统计单元，用于分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；
第二确定单元，用于依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应基本语音单元。
14.根据权利要求8至13任一项所述的系统，其特征在于，
所述模型优化模块，具体用于采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化；或者采用基于最大后验概率的自适应方式对预设的声学模型进行优化。

说明书全文

提高口语评测性能的方法及系统

技术领域

[0001] 本发明涉及语音信号处理技术领域，具体涉及一种提高口语评测性能的方法及系统。

背景技术

[0002] 作为人际交流的重要媒介，口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧，人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。传统的人工口语水平评测方法使教师和学生在教学时间和空间上受到很大限制，在师资力量、教学场地、经费支出等方面也存在诸多硬件上的差距和不平衡；人工评测无法避免评估者自身的个体偏差，从而不能保证评分标准的统一，有时甚至无法准确反映被测者的真实水平；而对于大规模口语测试，则需要大量的人力、物力和财力支持，限制了经常性、规模性的评估测试。为此，业界相继开发出了一些语言教学和评测系统。

[0003] 口语评测主要涉及到两类题型，即朗读题型和半开放题型。其中，朗读题型是指要求用户朗读预设文本借以考察用户对基本语音单元发音的标准程度及语句朗读的流利程度；半开放题型是指由系统播放图像、视频或者短文等提示内容，并根据这些提示内容要求用户回答相关问题或口语复述播放内容等的测试项目。

[0004] 对于半开放题型的口语评测，现有技术中主要是利用自动语音识别技术对用户语音内容进行文本识别，然后根据识别结果统计关键词汇和短语命中率等特征进行相关评分。由于半开放题型的口语评测标准主要在于判断关键词汇和短语是否出现语法错误，因此对待评测语音进行语音识别获取正确的识别结果显得尤为重要，如何提高在半开放性题型口语评测中语音识别结果的正确率是亟待解决的一个重要问题。

发明内容

[0005] 本发明实施例提供一种提高口语评测性能的方法及系统，以提高口语评测的准确性。

[0006] 为此，本发明提供如下技术方案：

[0007] 一种提高口语评测性能的方法，包括：

[0008] 接收待评测的用户语音数据，所述语音数据包括：朗读题语音数据和半开放题型语音数据；

[0009] 根据所述朗读题语音数据对各朗读题进行评分；

[0010] 从评分结果中获取自适应有效数据；

[0011] 根据所述自适应有效数据对预设的声学模型进行优化；

[0012] 利用优化后的声学模型对各半开放题进行评分。

[0013] 优选地，所述根据所述朗读题语音数据对各朗读题进行评分包括：

[0014] 将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐，获取文本字串中各基本语音单元对应的语音信号片段；

[0015] 计算所述基本语音单元与其对应的语音信号片段的似然度；

[0016] 根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率；

[0017] 根据所述后验概率计算各朗读题的得分。

[0018] 优选地，所述从评分结果中获取自适应有效数据包括：

[0019] 选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。

[0020] 优选地，所述方法还包括：

[0021] 在根据所述自适应有效数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理，包括：

[0022] 分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；

[0023] 依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应语句；

[0024] 所述根据所述自适应有效数据对预设的声学模型进行优化包括：根据所述目标自适应语句对预设的声学模型进行优化。

[0025] 优选地，所述从评分结果中获取自适应有效数据包括：

[0026] 选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。

[0027] 优选地，所述方法还包括：

[0028] 在根据所述自适应有效数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理，包括：

[0029] 分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；

[0030] 依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应基本语音单元；

[0031] 所述根据所述自适应有效数据对预设的声学模型进行优化包括：根据所述目标自适应基本语音单元对预设的声学模型进行优化。

[0032] 优选地，所述根据所述自适应有效数据对预设的声学模型进行优化包括：

[0033] 采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化；或者[0034] 采用基于最大后验概率的自适应方式对预设的声学模型进行优化。

[0035] 一种提高口语评测性能的系统，包括：

[0036] 接收模块，用于接收待评测的用户语音数据，所述语音数据包括：朗读题语音数据和半开放题型语音数据；

[0037] 朗读题评分模块，用于根据所述朗读题语音数据对各朗读题进行评分；

[0038] 自适应数据提取模块，用于从所述朗读题评分模块输出的评分结果中获取自适应有效数据；

[0039] 模型优化模块，用于根据所述自适应有效数据对预设的声学模型进行优化；

[0040] 半开放题评分模块，用于利用优化后的声学模型对各半开放题进行评分。

[0041] 优选地，所述朗读题评分模块包括：

[0042] 对齐单元，用于将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐，获取文本字串中各基本语音单元对应的语音信号片段；

[0043] 似然度计算单元，用于计算所述基本语音单元与其对应的语音信号片段的似然度；

[0044] 后验概率计算单元，用于根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率；

[0045] 得分计算单元，用于根据所述后验概率计算各朗读题的得分。

[0046] 优选地，所述自适应数据提取模块，具体用于选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。

[0047] 优选地，所述系统还包括：

[0048] 第一均衡模块，用于在根据所述自适应数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理；所述第一均衡模块包括：

[0049] 统计单元，用于分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；

[0050] 第一确定单元，用于依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应语句；

[0051] 所述模型优化模块，具体用于根据所述目标自适应语句对预设的声学模型进行优化。

[0052] 优选地，所述自适应数据提取模块，具体用于选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。

[0053] 优选地，所述系统还包括：

[0054] 第二均衡模块，用于在根据所述自适应数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理；所述第二均衡模块包括：

[0055] 统计单元，用于分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；

[0056] 第二确定单元，用于依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应基本语音单元；

[0057] 所述模型优化模块，具体用于根据所述目标自适应基本语音单元对预设的声学模型进行优化。

[0058] 优选地，所述模型优化模块，具体用于采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化；或者采用基于最大后验概率的自适应方式对预设的声学模型进行优化。

[0059] 本发明实施例提供的提高口语评测性能的方法及系统，从考生朗读题语音中提取有效自适应数据，并利用该数据对声学模型进行自动优化，从而将通用声学模型定制成与考生音色一致的考生模型，将话者无关模型转化成话者相关模型，极大地提高了语音识别效果，从而有效地提高了半开放题型甚至整体口语评测系统评分的准确性。附图说明

[0060] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

[0061] 图1是现有技术中对半开放题型的评测方法的示意图。

[0062] 图2是本发明实施例提高口语评测性能的方法的流程图；

[0063] 图3是本发明实施例提高口语评测性能的系统的一种结构示意图；

[0064] 图4是本发明实施例提高口语评测性能的系统的另一种结构示意图；

[0065] 图5是本发明实施例提高口语评测性能的系统的另一种结构示意图。

具体实施方式

[0066] 为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

[0067] 下面首先对现有技术中对半开放题型的口语评测方法做简单说明。如图1所示，是现有技术中对半开放题型的评测方法的示意图。

[0068] 该评测方法包括以下步骤：

[0069] 步骤一：接收用户语音信号输入，即考生语音输入。

[0070] 步骤二：语音信号特征提取，进一步还可包括语音信号的降噪预处理等。

[0071] 所述语音信号特征是指能表征用户发音特点的矢量，通常可以提取和训练集相匹配的39维MFCC（Mel Frequency Cepstrum Coefficient，Mel 频率倒谱系数）特征等。

[0072] 步骤三：解码器根据提取的语音信号特征，确定语音信号对应的文本内容。

[0073] 具体地，系统在搜索网络内搜索最优路径并确定最优识别结果。所述搜索网络由系统预设的声学模型、语言模型通过静态或者动态方式展开成巨大的搜索空间，并通过Viterbi 算法获取N-Best解码结果。

[0074] 步骤四：根据识别得到的文本内容确定当前用户的口语评分。

[0075] 一般的系统会根据N-Best解码结果计算关键词或者短语命中比率等特征获得评分。

[0076] 其中，声学模型用于描述各基本语音单元发音特点的数学模型，在统计模式识别应用中，其模型参数的确定往往要在海量的训练数据上统计得到，具体训练过程如下：

[0077] （1）采集训练数据；

[0078] （2）提取训练数据的声学特征；

[0079] （3）设置声学模型拓扑结构；

[0080] （4）声学模型参数训练。

[0081] 语言模型训练过程主要是：收集语言模型训练所需的训练文本，并采用目前国际上主流的N-Gram统计语言模型作为所述语言模型的拓扑结构，然后采用最大似然估计得到训练文本中每个单词所有历史词汇的条件概率分布。

[0082] 显然，上述步骤三中文本识别结果直接影响到口语评测的效果，识别结果越正确则口语评测越可靠。在自动语音识别系统设置下，解码器根据预设的声学模型、语言模型，通过静态或者动态方式展开成巨大的搜索空间，通过Viterbi算法获取N-Best解码结果。识别准确率与搜索网络、特别是声学模型的准确性及区分性有关。声学模型越精细，和测试环境越匹配，则识别准确率越高。

[0083] 而传统系统采用的声学模型由于是系统预先在海量数据上训练得到的，往往具有较强的普适性，相应的对各具体发音人的识别就有所欠缺。特别是对半开放题型口语评分系统，不同考生音色之间存在较大的差异，且考场环境容易受到诸多因素影响，测试环境和训练环境往往存在较大的差异，预先训练的声学模型和考生音色失配，导致语音识别准确率极低，相应得传统语音识别系统给出的N-Best识别结果和标准答案之间的相关性往往较差。

[0084] 为此，本发明实施例提供一种提高口语评测性能的方法及系统，在对具体用户的口语进行评测过程中，首先对需要评测的朗读题部分进行正常口语评分，对评分结果分析获取有效的自适应数据，获取用户发音个性化信息，然后根据所述自适应数据对预设的声学模型进行优化，使声学模型与用户音色相匹配，然后再根据优化后的声学模型对半开放题型乃至整体口语题型进行评测。

[0085] 如图2所示，是本发明实施例提高口语评测性能的方法的流程图，包括以下步骤：

[0086] 步骤201，接收待评测的用户语音数据，所述语音数据包括：朗读题语音数据和半开放题型语音数据。

[0087] 步骤202，根据所述朗读题语音数据对各朗读题进行评分。

[0088] 具体地，可以将朗读题语音数据与朗读题的题面文本信息进行字音对齐，获取文本字串中各基本语音单元对应的语音信号片段，然后计算各基本语音单元与其对应的语音信号片段的似然度，根据计算得到的似然度统计各基本语音单元与其对应的语音信号片段的后验概率，根据所述后验概率计算各朗读题的得分。

[0089] 所述后验概率是指在得到″结果″的信息后重新修正的概率。

[0090] 假设基本语音单元为Mi，其对应的语音信号片段为Oi，基本语音单元Mi与其对应的语音信号片段Oi的似然度为P(Oi|Mi)，则计算基本语音单元Mi与其对应的语音信号片段Oi的后验概率P(Mi|Oi)的过程如下：

[0091] 首先计算语音信号片段Oi相对于基本语音单元Mi所属的混淆语音单元集合中各基本语音单元的似然度：

[0092] P(Oi|Mj),j=1,2,...,i-1,i+1,...,K

[0093] 其中，K为预设的语音单元个数。

[0094] 各基本语音单元所属的混淆语音单元集合可以预先设置，比如，可以将所有基本语音单元作为混淆语音单元集合。进一步地，还可以根据当前考察的基本语音单元的类别确定相同类别的混淆语音单元集合，如中文普通话评测中声母替换音素只允许是声母音素。更进一步地，还可以选择和当前考察的基本语音单元具有发音类似性的基本单元作为混淆语音单元集合。

[0095] 然后，根据概率公式可得给定语音片段O与基本语音单元Mi的后验概率为：

[0096]

[0097] 在本发明实施例中，可以综合各基本语音单元的后验概率对朗读题进行评分。具体地，可以将所述朗读题内所有基本语音单元的后验概率的平均值作为所述朗读题的得分，即朗读题的得分为：

[0098]

[0099] 其中，N为一句朗读题中基本语音单元的个数。

[0100] 显然，综合得分越高则说明考生该句朗读题发音越准确。

[0101] 步骤203，从评分结果中获取自适应有效数据。

[0102] 为了保证声学模型自适应的可靠，要求自适应有效数据要尽可能正确，并且能够反映用户的发音特点。

[0103] 在本发明实施例中，针对不同的用户，可以得到不同的自适应数据。具体地，可以有以下几种方式获取自适应数据：

[0104] 方式一、按句子置信度进行挑选，即选择句子平均后验概率超过指定门限T1（比如，T1=-0.85）的朗读题的语音数据作为有效自适应数据。一般来说这样的句子发音较正确，质量高，整句被挑选作自适应有效数据。

[0105] 方式二、按基本语音单元置信度进行挑选，即选择后验概率超过指定门限T2（不同语音单元门限可以不同，T2可以为-0.7～-1.87）的基本语音单元对应的语音数据作为自适应有效数据。

[0106] 需要说明的是，上述门限T2和门限T1可以相同，也可以不同。

[0107] 进一步地，由于按句子置信度进行挑选或按基本语音单元置信度挑选自适应数据都存在各语音单元自适应数据分布不均衡的情况，且可能影响自适应效果。为此，在本发明实施例中，还可以进一步对获取的自适应有效数据进行语音单元均衡处理，以提高自适应的鲁棒性。

[0108] 针对上述第一种方式获取的自适应有效数据，进行语音单元均衡处理的过程如下：

[0109] （1）分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合。

[0110] 比如，获取的自适应语句的个数为S，分别统计出每个语句中各类簇出现的次数：Fk(Vi)和Fk(Ci)，其中，k=1,2,...,S。

[0111] （2）利用最小化目标函数确定目标自适应语句，所述最小化目标函数为：

[0112]

[0113] 其中，pi∈{0,1}，用于描述S个语句中被选中和未选中的情况，具体地，所述目标函数优化可以由人工通过2S次循环遍历且优选尽可能多的语句为pi=1设定结果。

[0114] 通过该方法，可以从一定程度上消除上述第一种自适应语句挑选方式单纯按句子挑选带来的基本语言单元个数极端失衡的现象。

[0115] 针对上述第二种方式获取自适应数据，进行语音单元均衡处理的过程如下：

[0116] 假设自适应语句中每个类簇出现的次数为F(Vi)和F(Ci)，最终实际挑选参与自适应的每个类簇个数分别是f(Vi),f(Vi)≤F(Vi)和f(Ci),f(Ci)≤F(Ci)，通过最小化目标函数：

[0117]

[0118] 以元音为例，每个类簇出现可能的选择为F(Vi)种，这样M个元音类簇共有组合方式，因此总共可能的组合方式为通过遍历所有可能组合情况，使得目标函数值取最小值，此时挑选得到的自适应语音单元为最均衡情况。

[0119] 步骤204，根据所述自适应数据对预设的声学模型进行优化。

[0120] 相应地，在得到目标自适应语句后，就可以根据所述目标自适应语句对预设的声学模型进行优化。

[0121] 具体可以采用基于最大似然线性回归（Maximum Likelihood Linear Regression，MLLR）或最大后验概率（Maximum A Posteriori Linear Regression，MAPLR）等传统自适应方法进行声学模型的自适应。

[0122] 步骤205，利用优化后的声学模型对各半开放题进行评分。

[0123] 需要说明的是，在实际应用中，不仅可以利用优化后的声学模型对半开放题型进行评分，进而还可以对朗读题进行重估，进一步提高朗读题的评分准确性。

[0124] 本发明实施例提供的提高口语评测性能的方法，从考生朗读题语音中提取有效自适应数据，并利用该数据对声学模型进行自动优化，从而将通用声学模型定制成与考生音色一致的考生模型，将话者无关模型转化成话者相关模型，即通过自动学习用户发音特色，提高预设声学模型和用户发音特点的匹配度，极大地提高了语音识别效果，从而有效地提高了半开放题型甚至整体口语评测系统评分的准确性。

[0125] 相应地，本发明实施例还提供一种提高口语评测性能的系统，如图3所示，是该系统的一种结构示意图。

[0126] 在该实施例中，所述系统包括：

[0127] 接收模块301，用于接收待评测的用户语音数据，所述语音数据包括：朗读题语音数据和半开放题型语音数据；

[0128] 朗读题评分模块302，用于根据所述朗读题语音数据对各朗读题进行评分；

[0129] 自适应数据提取模块303，用于从所述朗读题评分模块302输出的评分结果中获取自适应有效数据；

[0130] 模型优化模块304，用于根据所述自适应有效数据对预设的声学模型进行优化；

[0131] 半开放题评分模块305，用于利用优化后的声学模型对各半开放题进行评分。

[0132] 在实际应用中，上述朗读题评分模块302可以包括：

[0133] 对齐单元，用于将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐，获取文本字串中各基本语音单元对应的语音信号片段；

[0134] 似然度计算单元，用于计算所述基本语音单元与其对应的语音信号片段的似然度；

[0135] 后验概率计算单元，用于根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率；

[0136] 得分计算单元，用于根据所述后验概率计算各朗读题的得分。

[0137] 另外，在本发明实施例中，自适应数据提取模块303具体可以选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据，或者选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。

[0138] 进一步地，由于按句子置信度进行挑选或按基本语音单元置信度挑选自适应数据都存在各语音单元自适应数据分布不均衡的情况，且可能影响自适应效果。为此，在本发明实施例的系统中，还可以进一步对获取的自适应有效数据进行语音单元均衡处理，以提高自适应的鲁棒性。

[0139] 如图4所示，是本发明实施例提高口语评测性能的系统的另一种结构示意图。

[0140] 与图3所示实施例不同的是，在该实施例中，所述系统还包括：

[0141] 第一均衡模块401，用于在所述模型优化模块304根据自适应数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理。

[0142] 该第一均衡模块401具体可以包括：统计单元和第一确定单元。其中：

[0143] 所述统计单元用于分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；

[0144] 所述第一确定单元用于依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应语句，具体过程可参照前面本发明方法实施例中的描述，在此不再赘述。

[0145] 相应地，在该实施例中，模型优化模块304根据所述目标自适应语句对预设的声学模型进行优化。

[0146] 如图5所示，是本发明实施例提高口语评测性能的系统的另一种结构示意图。

[0147] 与图3所示实施例不同的是，在该实施例中，所述系统还包括：

[0148] 第二均衡模块501，用于在所述模型优化模块304根据自适应数据对预设的声学模型进行优化之前，对所述自适应有效数据进行语音单元均衡处理

[0149] 该第二均衡模块501包括：统计单元和第二确定单元。其中：

[0150] 所述统计单元用于分别统计每句自适应有效数据中各类簇出现的次数，所述各类簇是指发音类似的基本语音单元集合；

[0151] 所述第二确定单元用于依据所述各类簇出现的次数，利用最小化目标函数确定目标自适应基本语音单元，具体过程可参照前面本发明方法实施例中的描述，在此不再赘述。

[0152] 相应地，在该实施例中，模型优化模块304根据所述目标自适应基本语音单元对预设的声学模型进行优化。

[0153] 本发明实施例提供的提高口语评测性能的系统，从考生朗读题语音中提取有效自适应数据，并利用该数据对声学模型进行自动优化，从而将通用声学模型定制成与考生音色一致的考生模型，将话者无关模型转化成话者相关模型，极大地提高了语音识别效果，从而有效地提高了半开放题型甚至整体口语评测系统评分的准确性。

[0154] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

[0155] 本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

[0156] 以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

标题	发布/更新时间	阅读量
语音降噪系统	2020-05-08	185
身份验证方法、装置、电子设备及存储介质	2020-05-08	129
家用电器及其控制方法	2020-05-11	192
一种通信方法、设备和系统	2020-05-08	816
数据收集方法、装置、智能电视及计算机可读存储介质	2020-05-08	438
语音信号处理方法、系统、装置、计算机设备和存储介质	2020-05-08	802
一种基于声门波信号特征提取的语音情感识别方法	2020-05-08	156
一种适用于医药产品的交易系统	2020-05-08	998
一种语音识别方法、装置、设备和存储介质	2020-05-08	90
一种订单打印机及打印系统	2020-05-08	943

提高口语评测性能的方法及系统

提高口语评测性能的方法及系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：