一种错误自感知的声调发音学习方法和系统专利检索-感知心理学与精神病学专利检索查询-专利查询网

一种错误自感知的声调发音学习方法和系统

阅读：918发布：2021-06-12

专利汇可以提供一种错误自感知的声调发音学习方法和系统专利检索，专利查询，专利分析的服务。并且本发明公开了一种错误自感知的声调发音学习方法和系统，首先建立标准发音语音库，训练得到上下文相关的三元声调模型和音素模型；从学习者语音中提取语谱和基频特征，并对基频特征进行后处理；利用三元声调模型计算反映声调质量的评分参数，得到声调评价得分、声调后验概率；基于源一滤波器模型合成具有标准目标声调和用户语音频谱特征的语音，并采用声调后验概率加权平均的二次函数绘制声调曲线；最后将目标声调语音和实际发音的声调曲线反馈给学习者。本发明通过声音和图像两种方式来直接反映声调发音质量，能够提供形象、直观的反馈信息，使学习者可以自发地感知声调发音错误并进行校正，并增加了学习的娱乐性和趣味性，提高学习效率。，下面是一种错误自感知的声调发音学习方法和系统专利的具体信息内容。

权利要求

1.一种错误自感知的声调发音学习方法，其特征在于包括如下步骤：步骤S1：首先建立标准发音语音库，训练声调模型和音素模型，得到上下文相关的三元声调模型和音素模型；步骤S2：从学习者的语音中提取声学特征，包括语音频谱特征和声调特征，并对声调特征进行后处理；步骤S3：根据标准声调模型和音素模型，利用基于隐马尔可夫模型的上下文相关的三元声调模型计算反映声调质量的评分参数，得到声调评价得分、声调后验概率；步骤S4：基于源-滤波器模型合成具有标准目标声调和学习者语音频谱特征的新语音，并反馈给学习者；步骤S5：采用声调后验概率加权平均的二次函数绘制声调曲线，并将标准声调曲线和实际发音的声调曲线反馈给学习者。
2. 根据权利要求1中所述的错误自感知的声调发音学习方法，其特征在于：所述歩骤S4中采用基于源一滤波器模型生成标准目标声调语音，保留学习者自身语音频谱特征，并不改变语音内容，具体包括如下步骤：步骤S4.1:对学习者的发音进行声学分析，提取语音信号中的基频序列、非周期谐波成分特征和语音的语音频谱特征；步骤S4.2:用产生的目标声调的基频序列修正或替换学习者发音中的基频序列；步骤S4.3:基于源一滤波器模型，利用目标声调的基频序列和声道响应滤波器合成带有目标声调的学习者发音。
3. 根据权利要求2中所述的错误自感知的声调发音学习方法，其特征在于：所述步骤S4的基于源一滤波器模型生成标准目标声调语音的过程中，采用归一化线性多项式表示声调实现模型，根据目标声调的类型，选择不同声调对应的标准归一化时间函数，并和学习者的声调基频均值和范围一同代入声调实现模型，计算得到目标声调的基频序列。
4. 根据权利要求2中所述的错误自感知的声调发音学习方法，其特征在于：所述步骤S4的基于源一滤波器模型生成标准目标声调语音的过程中，首先从标准发音库中提取不同带调音节的标准声调基频序列，并进行平滑、归一化等处理，训练得到标准声调的基频序列模板；然后选择和学习者的发音相同的音节所对应的声调基频序列模板作为目标声调的基频序列。
5. 根据权利要求1中所述的错误自感知的声调发音学习方法，其特征在于：所述歩骤S5中采用声调后验概率加权平均的二次函数绘制声调曲线，具体包括以下步骤：歩骤S5.1:设计标准声调曲线对应的二次函数的系数；歩骤S5.2:计算每种声调的后验概率；歩骤S5.3:使用后验概率加权标准声调曲线的二次函数，得到实际声调的曲线函数；歩骤S5.4:根据声调曲线函数，绘制目标声调和实际声调的曲线。
6. 根据权利要求1中所述的错误自感知的声调发音学习方法，其特征在于：还包括声调评分和错误提示功能，用以给出对声调发音质量的客观量化得分，并告知学习者声调发音错误信息以及相关改进建议。
7. 根据权利要求1中所述的错误自感知的声调发音学习方法，其特征在于：基于隐马尔可夫模型的上下文相关的三元声调模型的声调评分、基于源-滤波器模型的目标声调语音合成和基于后验概率加权的二次函数声调曲线生成适用于字、词、短语和句等多种不同语音单元的声调发音学习，尤其是多音节连续语音的声调发音学习。
8. —种错误自感知的声调发音学习系统，其特征在于包括：模型训练模块（2)，建立标准发音语音库，训练声调模型和音素模型，得到标准上下文相关的三元声调模型和音素模型；前端处理模块（l),从学习者的语音中提取声学特征，包括语音频谱特征和声调特征，并对声调特征进行后处理；评价参数计算模块（3)，根据模型训练模块（2)得到的标准声调模型和音素模型，利用基于隐马尔可夫模型的上下文相关的三元声调模型计算反映声调质量的评分参数，得到从前端处理模块（1)提取的学习者语音的声调评价得分、声调后验概率；反馈模块（4)，基于源一滤波器模型合成具有标准目标声调和学习者语音频谱特征的语音，采用评价参数计算模块（3)得到的声调后验概率加权平均的二次函数绘制声调曲线，将标准目标声调语音、标准声调曲线、实际发音的声调曲线和声调发音量化评分及错误提示反馈给学习者。

说明书全文

一种错误自感知的声调发音学习方法和系统

技术领域

本发明涉及计算机语音信号处理领域，尤其涉及在计算机辅助的口语语言学习中，通过改进的反馈机制实现错误自感知的声调发音学习的方法和系统。
声调是有调语言（如汉语和泰语）的重要组成部分，具有辨词表意和传达情感的作用。如果声调发音不准，那么会导致语言交流的困难。因此，声调通常是衡量口语语言能力的重要指标。对于非母语学习者来说，声调发音是有调语言的口语学习中的最大障碍之一。
计算机辅助的口语学习为语言学习提供了一个有效的途径，并且现在已被越来越多的学习者所接受。计算机辅助的口语学习最重要的一个特征就是交互能力，即能够为学习者提供有价值的反馈信息，包括发音评价和发音指导。
巳公开的专利文献，如公开号为CN101383103和CN1815522的专利等，都涉及了对声调发音进行评估和指导的方法，但这类方法对声调发音的指导方式主要是首先总结声调发音规则，然后根据声调发音错误给出确定的改进建议。这种预先设定好的指导建议有三个局限性：一、指导建议是抽象的，不同学习者对建议的理解不同；二、声调主要由声带振动频率产生，难以主观直接控制；三、建议的普适性和具体性（针对不同的学习者和学习内容）是矛盾的，因此学习者从指导建议中得到的帮助非常有限。除了发音指导建议之外，这些系统也能提供标准声调发音，但对这种发音对用户来说可能是陌生的，有时和用户的声音相差甚远，用户难以准确模仿。
已公开专利CN101315733中涉及了声调的识别和后验概率计算。为了进行声调识别，它在语音识别系统基础上进行语音数据的声韵母切分和限制声韵母边界的声调的识别；根据切分和限制边界识别的结果计算声调后验概率。这种方法的局限性就是：一、声调识别和后验概率计算严重依赖于声韵母边界，如果学习者发音不准，语音识别得到的声韵母边界就不可靠，这对于非母语学习者尤其显著；二、对于多音节连续语音的声调发音学习来说，声韵母边界的准确确定比较困难，尤其是自然口语的声调发音学习。
已公开的涉及声调发音学习的现有技术，反馈方式单一，指导信息抽象，还有如下不足：一、难以支持对连续语音的声调进行准确评分，这是一项重要的功能缺失；二、对于非母语学习者来说，来自计算机的错误提示和改进建议是教条的，难以提供感性认识，会导致对建议的理解偏差，而对于改进没有量化感觉。
现有的声调发音学习系统所能提供的反馈信息是抽象的，不丰富的，难以错误自感知的。对学习者来说，标准声调的发音示例是陌生的，难以和其实际发音进行对比来发现声调错误，并且也是难以模仿的。在声调曲线绘制方面，标准4声调曲线过于简单，携带的指导信息有限，难以反映实际声调发音质量；而绘制实际声调的基频轨迹又过于粗糙、复杂，学习者难以发现确切的发音错误和指导。现有声调发音学习系统对学习者来说难以启发式地诱导用户进行学习，可能导致学习者一味模仿标准的发音而无法从与该系统的互动中在感性上得到准确、直观、丰富的指导信息，其性能是不完善的。因此，开发一种具有立体的全方位的错误反馈能力的声调发音学习方法和系统是非常必要的，可以提供形象、直观、娱乐的反馈信息，具有错误自感知能力。

发明内容

本发明要解决的技术问题是：提供一种具有错误自感知功能的声调发音学习方法和系统，具有综合的、立体的学习反馈机制，能为学习者提供形象、直观、娱乐的反馈信息，使得学习者可以明确感知自己的声调发音错误和正确的声调发音，从而启发式地引导学习者有目标地校正自己的声调发音，提高声调发音学习的效率。
本发明的技术方案是：一种错误自感知的声调发音学习方法，包括如下步骤-
歩骤Sl:首先建立标准发音语音库，训练声调模型和音素模型，得到标准上下文相关的三元声调模型和语谱音素模型；
歩骤S2:从学习者的语音中提取声学特征，包括语音频谱特征和声调特征，并对声调特征进行后处理；
歩骤S3:根据标准声调模型和音素模型，利用基于隐马尔可夫模型(Hidden Markov Model, HMM)的上下文相关的三元声调模型计算反映声调质量的评分参数，得到声调评价得分、声调后验概率；歩骤S4:基于源—滤波器模型合成具有标准目标声调和学习者语音频谱特征的新语音，并反馈给学习者；
歩骤S5:采用声调后验概率加权平均的二次函数绘制声调曲线，并将标准声调曲线和实际发音的声调曲线反馈给学习者。
本发明还提出了一种错误自感知的声调发音学习系统，包括：
模型训练模块2，建立标准发音语音库，训练声调模型和音素模型，得到标准上下文相关的三元声调模型和音素模型；
前端处理模块l，从学习者的语音中提取声学特征，包括语音频谱特征和声调特征，并对声调特征进行后处理；
评价参数计算模块3，根据模型训练模块2得到的标准声调模型和音素模型，利用基于隐马尔可夫模型的上下文相关的三元声调模型计算反映声调质量的评分参数，得到从前端处理模块l提取的学习者语音的声调评价得分、声调后验概率；
反馈模块4，基于源一滤波器模型合成具有标准目标声调和学习者语音频谱特征的语音，采用评价参数计算模块3得到的声调后验概率加权平均的二次函数绘制声调曲线，将标准目标声调语音、标准声调曲线、实际发音的声调曲线和声调发音量化评分及错误提示反馈给学习者。
本发明的错误自感知的声调发音学习方法更详细的技术方案是：所述步骤S4中采用基于源—滤波器模型生成标准目标声调语音，保留学习者自身语言特征，并不改变语音内容，合成的目标声调语音具有很好的自然度和清晰度，提高了声调错误感知的容易程度和学习的趣味性。具体包括如下步骤：
(54.1) 对学习者的发音进行声学分析，提取语音信号中的基频序列、非周期谐波成分特征和语音的语音频谱特征；
(54.2) 用产生的目标声调的基频序列修正或替换学习者发音中的基频
序列；
(54.3) 基于源一滤波器模型，利用目标声调的基频序列和声道响应滤波器合成带有目标声调的学习者发音。
所述步骤S4的基于源一滤波器模型生成标准目标声调语音的过程中，采用归一化线性多项式表示声调的一般实现模型，根据目标声调的类型，选
6择不同声调对应的标准归一化时间函数，并和学习者的声调基频均值和范围一同代入声调实现模型，计算得到目标声调的基频序列。
所述步骤S4的基于源一滤波器模型生成标准目标声调语音的过程中，首先从标准发音库中提取不同带调音节的标准声调基频序列，并进行平滑、归一化等处理，得到标准声调的基频序列模板；然后选择和学习者的发音相同的音节所对应的声调基频序列模板作为目标声调的基频序列。
所述步骤S5中采用声调后验概率加权平均的二次函数绘制声调曲线，可得到平滑的易于理解的声调曲线，定量地反映声调发音质量。具体包括以下步骤：
(55.1) 设计标准声调曲线对应的二次函数的系数；
(55.2) 计算每种声调的后验概率；
(55.3) 使用后验概率加权标准声调曲线的二次函数，得到实际声调的曲线函数；
(55.4) 根据声调曲线函数，绘制目标声调和实际声调的曲线。所述错误自感知的声调发音学习方法还包括声调评分和错误提示功能，
用以给出对声调发音质量的客观量化得分，并告知学习者声调发音错误信息以及相关改进建议。
所述的错误自感知的声调发音学习方法可应用于多音节连续语音（如短语和句子）的声调学习场景。采用基于HMM模型的上下文相关的三元声调模型可以对连续语音计算不同层级（如字、词、句）的声调评分。在得到每个音节的声调边界后，基于源-滤波器模型的目标声调语音合成技术可以生成具有标准声调的连续语音，而基于后验概率加权的声调曲线生成技术可以
绘制每个音节实际声调的曲线。本发明的优点是：
1. 本发明提供了一种全面的、立体的声调学习反馈机制，通过声音和图像两种方式来反映声调发音质量，能够提供形象、直观、娱乐的反馈信息，使学习者可以自发地感知声调发音错误，从而启发式地引导学习者有目标地校正自己的声调发音，提高声调发音学习的效率。
2. 采用基于HMM的上下文相关的三元声调模型可以更好地建模上下文协同发音对声调模式的影响，在计算声调评价得分时，不需要预先对语音按照音节分段，得到的声调评价得分更加准确，计算的声调后验概率比其他模型（如基于高斯混合模型（GMM)的声调模型、基于HMM的一元声调模型）计算的后验概率更为准确，从而使绘制的声调曲线更真实准确。
3. 基于源-滤波器模型的目标声调语音合成不会改变语音频谱特征，即学习者本人的发音特征和语音内容得以保留，这使得学习者可以直接对比合
成的目标声调语音和实际语音的声调差异，更专注于感知声调并纠正声调错误，同时也增加了学习的趣味性。在语音其它声学特征都不变的情况下去感知声调差异，这对于非母语学习者来说更有帮助。
4. 采用声调后验概率加权二次函数的声调曲线，使得绘制的声调曲线是平滑的，并且对于相同声调其曲线也有差异，其弯折程度和趋势有效反映了用户声调发音的准确程度，比简单的实际声调的4声调平滑曲线更加真实，比粗糙的实际声调的基频轨迹曲线更具有指导意义。这种声调曲线绘制方法不仅可以清楚地表明不同声调类型，而且可以表现相同声调的不同的发音准确程度。声调曲线和声调发音质量之间存在定量联系，学习者能够通过视觉更容易地感知并识别声调发音错误。
5. 基于HMM的上下文相关的三元声调模型可以对连续语音的声调发音进行评价，而所述的目标声调合成和声调曲线绘制方法也适用于连续语音情况。因此，本发明所公开的方法和系统适用于字、词、短语和句子等不同层次的声调发音学习任务。
附图说明
下面结合附图及一个应用于中文声调学习的优选实施例对本发明作进一步描述：
图1为本发明的实施例的总功能框图；图2为本发明的实施例的总流程图；
图3为本发明的实施例的声调发音评价参数计算流程图；图4为本发明的实施例的源一滤波器模型的原理图；图5为本发明的实施例的目标声调合成流程图；图6为本发明的实施例的声调曲线绘制流程图；
图7为本发明的实施例的标准声调曲线和实际声调曲线的比较示意图。其中：1前端处理模块；2模型训练模块；3评价参数计算模块；4反馈模块。

具体实施方式

实施例：如图1和图2所示，本发明首先建立标准发音语音库，利用标准声调发音数据训练声调模型和音素模型，得到上下文相关的三元声调模型和音素模型，然后记录并分析学习者的发音，从中提取声学特征，包括语音频谱特征和声调基频特征，并对基频特征进行后处理，给出声调发音质量的评价，利用学习者的原始语音生成具有目标声调发音的语音，并反馈给学习者，绘制平滑的目标声调和实际声调的轮廓曲线，也同时反馈给学习者。通过以上机制，使得学习者能够感知自己的声调发音错误，引导学习者自发地修正声调发音。
首先模型训练模块2建立标准发音语音库：要求录音文本覆盖所有音素/音节，常用音节相对均衡，声调相对均衡，文本涵盖单音节词、多音节词和句子，录音人性别均衡，年龄呈高斯分布，录音人普通话水平较高，声调发音要准确，通过自动和人工方式对原始录音数据和标注进行多轮检査和筛选，去除声调发音模糊的数据，修正错误声调标注。
然后建立音素和声调的隐马尔科夫模型（Hidden Markov Model,HMM)，采用上下文相关建模方法。上下文相关建模是语音识别中的一项重要技术。三元声调建模采用了上下文相关建模技术，可建模上下文协同发音引起的声调模式变化。假设一段语音信号对应的声调序列为："U，tl,t3，t2,t4，t4 "，那么其对应的上下文相关的三元声调模型序列为"tl+tl，tl-t3+t2，t3-t2+t4，t2-t4+"，t4-t4，，，其中"ti"表示声调i，比如"t3"表示声调3。
在本实施例的音素建模中，在长度为25ms的数据帧上逐帧提取感知线性预测（PLP， Perceptually Based Linear Prediction)特征，帧移10ms。采
用PLP特征训练音素单元的HMM模型。
在本实施例的声调建模中，在长度为25ms的数据帧上逐帧（帧移10ms)提取目标声调基频序列和能量作为声调特征，对基频序列进行平滑，并做归一化处理，消除不同学习者的调域差异。采用期望最大化算法（EM算法）来训练基于HMM模型的上下文相关的三元声调模型。为了进行数据共享，提高模型推广能力，对上下文相关的三元声调模型进行数据驱动的状态绑定。期望最大化算法是成熟的机器学习技术。模型训练模块2建立的标准发
音语音库，以及声调模型和音素模型等数据均存储于计算机设备、嵌入式计
算设备（如PDA、蜂窝电话、MP3等媒体播放设备）以及专用的学习设备 (如语言学习机等）的存储设备中，以备错误自感知的声调发音学习系统随时调用。
在声调模型和音素模型建立好之后，就可以开始为学习者服务了。学习者通过上述计算机等设备输入语音数据，前端处理模块1从学习者的语音中提取声学特征，包括谱特征和声调特征，并对声调特征做后处理。评价参数计算模块3根据标准声调模型和音素模型，利用基于HMM模型的上下文相关的三元声调模型计算反映声调质量的评分参数，得到声调评价得分、声调后验概率、声调长度等参数。如图3所示为声调发音评价参数计算流程图。声调评价得分是强制对齐的似然度和识别的似然度之比（参考文献"S.M. Witt: Use of speech recognition in computer-assisted language learning, PhD. Thesis, 1999")。识别似然度是指语音的内容未知，通过搜索标准发音语音库中所有可能的模型序列组合寻找似然度得分最大的模型序列作为识别结果，它所对应的似然度得分就是识别似然度。强制对齐似然度是指语音的内容已知的情况下，用对应的模型去计算的概率。本实施例采用基于HMM 模型的上下文相关的三元声调模型。
给定声调模型参数A 、声学特征序列0和声调数目iV，声调的后验概率
可以通过下式计算：
，"=",局 (1)
在上下文相关的三元声调模型情况下，（1)式需要修正为下式：
其中，/,代表声调^前一个发出的声调，^代表声调0后一个发出的声周。
如果学习文本是多音节词或者句子，那么每个音节上的声调后验概率的计算可以采用两种实现方式：
一、首先通过音素模型对语音进行强制对齐，获得音节边界，然后在每个音节段上分别计算声调后验概率；
二、直接使用上下文相关的三元声调模型进行解码，获得表示多候选结果的网格（Lattice),然后对Lattice中的所有路径进行对齐，得到声调混淆网络（参考文献"L. Mangu， E. Brill, A. Stolcke: Finding consensus in speech recognition: word error minimization and other applications of confusion networks, Computer Speech & Language 14(4): 373-400， 2000")，每个混淆集合中的声调得分就是声调后验概率。
声调评价得分的计算公式如下：
log
(9
log I (,义）-log max /?(<9 | r,, A)
户l. j _J
(3)
|<9|
其中，A表示声调模型，O为对应声调&的声学特征序列，l"表示序列的长度（帧数）。在使用上下文相关的三元声调模型的声调评价得分计算中，我们不需要预先知道每个声调的边界。声调的最佳边界由上下文相关的三元声调模型解码自动获得。这样就减少了对音素模型的依赖，并且很好的建模了声调上下文的影响。在连续语音的声调质量评估中，这样使用上下文相关的三元声调模型具有更好的评价性能。
把上述评分参数，如声调评价得分，映射为百分制得分或者是5分制得分，通过反馈模块4的还具有声调发音评分和错误提示功能，用以给出对声调发音质量的可度量的得分，并告知学习者声调发音错误信息以及相关改进建议。
本发明采用源一滤波器模型进行目标声调合成。如图5所示，为目标声调合成流程图，具体包括如下步骤：
(1) 对学习者的发音进行声学分析，提取语音信号中的基频序列、非周期谐波成分特征和语音的语音频谱特征；
(2) 用产生的目标声调的基频序列修正或替换学习者发音中的基频序
列；
(3) 基于源一滤波器模型，利用目标声调的基频序列和声道响应滤波器合成带有目标声调的学习者发音。
首先对学习者的发音进行声学分析，包括：提取语音信号中的激励源特征，即学习者语音的基频序列，提取非周期谐波成分特征和语音的声道响应特征，即语音频谱。采用声调模型或者音素模型对学习者的发音进行强制对齐，得到音节（syllable)边界，分析每个音节边界内的语音，提取其基频序列。基频提取可以采用很多算法，本发明中采用实时频率映射的固定点分析方法（参考文献"H. Kawahara: Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation F0 and periodicity, proc. Eurospeech，99， 2781-2784")。语音频谱通过短时傅立叶变换来提取，然后采用基频自适应的方法来进行谱平滑，去除周期性干扰（参考文献 "H. Kawahara: Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous隱frequency-based F0 extraction, Speech Communication, 27， 187-207， 1999，，）。
然后使用新生成的目标声调基频序列修正或者替换学习者发音中声调的基频序列。其中，目标声调基频序列可以由基于规则的方法、或基于数据的方法、或者是规则和数据相结合的方法来产生。
基于规则的目标声调基频序列的生成方法如下：
根据实验语音学的相关研究成果，声调实现模型可以表示为一个归一化线性多项式，艮P:
柳=,+/,乂"）（4) 其中：/为归一化时长，/£{1，2，3，4}表示阴平、阳平、上声和去声4种
声调，/e为体现学习者调域髙低的基频均值，fd为体现说话人调域的宽度， fi(t)为标准声调的调形函数，本实施例中声调的调形函数表示为：
= a,. + 6/ — c/2 +《f3 — ( 5 )
不同的声调具有不同的调性函数参数{&， "•， d，根据目标声调的
类型，选择对应的m^M^-^^^^科^/，最后采用（o-式^^^^
调的基频序列。
基于数据的目标声调基频序列的生成方法如下：
首先对标准发音库中的语音按音节分组，再按照声调分组，对每组中的
12发音提取其声调基频序列。然后采用和声调特征处理相同的方法对基频序列进行平滑处理，采用动态时间伸缩算法（DTW， Dynamic Time Warpping) (参考文献 "L. R. Rabiner， B.-H. Juang : Fundamentals of Speech Recognition, Englewood Cliffs: Prentice Hall, 1993")对每组基频序列进行归整，得到该音节下该声调的标准基频序列模板。动态时间伸縮算法是日本学者板仓（Itakura)将动态规划技术应用于解决孤立词识别时说话速度不均匀的难题，提出的把时间规整和距离测度计算结合起来的一种非线性归整技术。
从标准基频序列模板库中选择和示例文本音节相同的发音，采用该音节下目标声调对应基频序列模板作为目标声调的基频基频序列。
接着用生成的目标声调的基频序列来代替学习者发音中的原始声调的基频序列，如果目标声调基频基频序列与原始声调基频序列的长度不同，那么需要对发音的语谱进行拉伸或者压縮，使之和目标声调基频序列的长度保持一致，可以通过插值操作实现。采用基频自适应方法使用目标声调的基频序列对做完插值操作的语音频谱进行平滑。此外，还需要根据目标声调类型调整语谱的能量分布，此为现有技术。
然后基于源一滤波器模型利用目标声调的基频序列和声道响应滤波器合成带有目标声调的学习者发音。如图4所示为源一滤波器模型的原理图。源一滤波器模型是一种通用的刻画语音信号产生的模型（参考文献"H. Dudley: Remaking speech, J. Acoust. Soc. Amer. 11(2)， 169-177， 1939")。根据源一滤波器模型，数字语音信号JC(^)可以看成是由声门产生的激励信号 e(^)和声道的冲击响应A(^l进行巻积操作产生：
x(") = e(M)*/?00 (6)
声门激励信号eW即为目标基频序列，声道的冲击响应A〜参数即为学习者的语音频谱。两者的巻积即为合成的目标声调语音。通过反馈模块4输出声音给学习者。正由于基于源-滤波器模型的声调转换采用了学习者产生的语音谱，不会改变语音的频谱特征，即学习者本人的发音特征和语音内容得以保留，这使得学习者更专注于感知声调发音错误，启发式地诱导学习者去纠正自己的声调发音。目标声调语音通过计算机设备、嵌入式计算设备（如PDA、蜂窝电话、MP3等媒体播放设备）以及专用的学习设备（如语言学习机等）的音频输出设备输出。
在得到声调后验概率之后，可以画出采用声调后验概率加权平均的二次曲线绘制声调曲线。如图6所示，为绘制声调曲线的流程图，具体包括如下步骤：
(1) 设计标准声调曲线对应的二次函数的系数；
(2) 计算每种声调的后验概率；
(3) 使用后验概率加权标准声调曲线的二次函数，得到实际声调的曲线函数；
(4) 在五度标调坐标下，绘制目标声调和实际声调的曲线。本实施例中采用五度标调法（参考文献"Y.-R. Chao: A system of tone
letters, LeMaitre Phon"ique, 45， 24-27, 1930")，设计四个二次函数来表示四声调，分别为：
f20) = a2X2+V + C2 (7)
"x) = a4x2 + 64x + c4
通过这一组方程，在五度标调坐标中，可以绘制出4种声调的标准曲线。用A矩阵代表函数组的系数：
(8)
设经过声调识别得到四个声调的后验概率，将其表示为一个向量： P = (Pt P2 P3 P4)
其中，p,指声调/的后验概率。
则声调后验概率加权的声调二次函数可表示为：
《x) = PA7'X，其中X二（x2 jc l)r (9)
根据（8)式在五度标调坐标下绘制学习者发音的声调曲线，如图7所示，为本实施例的标准声调曲线和实际声调曲线的比较图。标准声调曲线和
卜 "2 a3 。4)
A = 63 64
、C! c2 c3实际声调曲线通过计算机等设备的显示设备输出，学习者通过和标准曲线进行比较，从而发现自己声调发音的错误或者缺陷。如停止的"停"的标准发音为ting发阳平2声调，学习者将2声发成了类似3声的样子，通过反馈模块4显示比较曲线，学习者看到后，根据曲线调整发音，直到使自己的发音曲线和标准声调曲线相近为止。
采用声调后验概率加权的声调二次函数绘制的声调曲线对于相同声调也有差异，其弯折程度和趋势有效反映了用户的声调发音准确程度，比简单
的实际声调的4声调平滑曲线更加真实，比粗糙的实际声调的基频轨迹曲线更具有指导意义，不仅可以清楚地表明不同声调类型，而且可以表现相同声调的不同发音的准确程度，通过视觉能够给学习者以直观的指导。
另外，反馈模块中可以设置声调错误提示模块，用来告诉学习者声调发音错误的类型和改进的方法。
上述实施例中，声调发音学习的声学单元可以是单字、词、短语或者句子级发音。本发明所实施的上下文相关的三元声调模型、目标声调语音合成和实际语音声调曲线绘制方法支持不同长度的语音单元的声调发音学习。
如果学习内容是一段多音节连续语音的声调发音，系统首先采用上下文相关的三元声调模型对学习者的语音计算强制对齐似然度和识别似然度。在计算识别似然度时，采用根据语音音节数构造的固定长度的解码网络，可以保证高的识别正确率。然后利用声调评分算法可以计算得到音节、词和句子级的声调发音评分。根据声调识别得到的音节边界，对每个音节的声调基频序列进行修正或替换，最后合成具有标准声调发音的学习者语音，保留学习者自身语言特点和语音内容。同时，对每个音节的声调可以通过后验概率加权的二次函数绘制其曲线，学习者可以通过视觉感知每个音节上的声调发音错误。
以上所述，仅为本发明的优选实施例，并不能以此限定本发明实施的范围，凡依本发明权利要求及说明书内容所作的简单的变换，皆应仍属于本发明覆盖的保护范围。本领域的普通技术人员在拥有常规的音频输入输出和显示输出的计算机设备、嵌入式计算设备（如PDA、蜂窝电话、MP3等媒体播放设备）以及专用的学习设备（如语言学习机等）上即可以实现本发明所公开的错误自感知的声调发音学习方法和系统。

标题	发布/更新时间	阅读量
感知装置	2020-05-11	332
一种以物联网为依托的感知城市系统	2020-05-11	598
新感知盲道	2020-05-12	149
含氧感知器	2020-05-12	604
速度感知器	2020-05-12	941
机架感知	2020-05-11	429
增强光学和感知数字护目镜	2020-05-11	896
感知无线网络的协作频谱感知方法和感知节点	2020-05-13	529
仿人眼感知技术	2020-05-13	956
感知水杯	2020-05-12	770

一种错误自感知的声调发音学习方法和系统

一种错误自感知的声调发音学习方法和系统

技术领域

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：