首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 随机森林 / 一种汉语口语重音自动检测方法

一种汉语口语重音自动检测方法

阅读:721发布:2022-01-09

专利汇可以提供一种汉语口语重音自动检测方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种汉语口语重音自动检测方法,是通过 语音识别 技术对说话人的朗读语音结合其朗读或跟读文本内容进行自动切分与对齐,利用语音 信号 处理技术结合语言学的基本理论对切分的语音段进行特征参数的提取,然后通过 机器学习 的方法对提取的特征参数进行分类处理得到说话人汉语口语重音与非重音的检测及其诊断信息。本发明能自动、有效地检测出朗读者发音的重音 位置 是否正确,应用于普通话自动测试与评估系统中,有助于让学生更好的把握汉语的重音,表达的意思更加明确。在普通话辅助教学 软件 中增加重音的检测及其诊断功能,有助于使发音者的普通话更加纯正和地道,从而达到高效交际的目的。,下面是一种汉语口语重音自动检测方法专利的具体信息内容。

1.一种汉语口语重音自动检测方法,其特征是:
步骤1:对语音文件结合其对应的标准朗读文本内容进行自动切分对齐;
步骤2:利用语音信号处理技术结合语言学的基本理论对切分的语音段提取基频特征参数、音长特征参数、绝对能量特征参数及其频谱特征参数;
步骤3:对提取的上述特征参数进行句中归一化,得到归一化的特征参数;
步骤4:对归一化的特征参数进行数据预处理,得到用于分类的特征参数;
步骤5:利用分类器对预处理后的分类特征参数进行分类,得到各音节的机器得分;
步骤6:设定限对所要检测出来的重音或非重音音节进行检测及其输出诊断信息。
2.根据权利要求1所述的汉语口语重音检测方法,其特征是:所述自动切分对齐是通过语音文件及其朗读文本内容结合声学模型、发音词典得到声学得分,再利用维特比搜索技术得到最终的各音节片段信息,该各音节片段信息包括各音节及其声母、韵母的起始时间和终止时间。
3.根据权利要求1所述的汉语口语重音检测方法,其特征是:所述基频特征参数提取包括:
步骤21:用自相关法以为单位对语音文件做基频提取,并修正提取过程中产生的倍频或半频,利用样条函数对没有基频的位置进行插值,得到整句语音的连续的基音频率曲线,切分后的一个音素由至少3帧或3帧以上组成,插值后每帧得到一个基频值;然后分别求得各音节的基频均值、基频最大值、基频最小值、终点基频值和基频幅度差值作为基频特征参数,计算上述基频特征参数过程中的各音节语音帧的范围为该音节的元音音素段部分;
步骤22:对句中各基频特征参数做归一化:是先求得整句语音的基频均值,然后用各音节的基频均值、基频最大值、基频最小值、终点基频值和基频幅度差值除以整句语音的基频均值得到句中归一化的基频特征参数。
4.根据权利要求1所述的汉语口语重音检测方法,其特征是:所述绝对能量特征参数提取是先求得各音节的绝对能量和句平均绝对能量;然后对各音节的绝对能量通过句平均绝对能量做句中归一化得到各音节的绝对能量特征参数。
5.根据权利要求4所述的汉语口语重音检测方法,其特征是:所述句中归一化的方法:是用各音节的绝对能量去除以句平均绝对能量。
6.根据权利要求1所述的汉语口语重音检测方法,其特征是:所述的音长特征参数提取,是首先计算一段语音的平均音长,平均音长的计算为各音节的长度之和除以音节的个数;通过各音节音长去除以平均音长,得到各音节音长的平均音长归一化特征参数。
7.根据权利要求1所述的汉语口语重音检测方法,其特征是:所述的音长特征参数提取,利用各音节的音长除以语速做归一化得到音长的语速归一化特征参数。
8.根据权利要求1所述的汉语口语重音检测方法,其特征是:所述的频谱特征参数是以帧为单位对各音节的语音进行高频预加重,加汉明窗,通过快速傅立叶变换得到各帧的频域信息,采用带通滤波器滤波计算各帧的子带能量,结合音节的时间信息求得各音节的子带能量和句平均子带能量,用音节平均子带能量除以句平均子带能量各做句中归一化得到各音节的子带能量特征参数。
9.根据权利要求1所述的汉语口语重音检测方法,其特征是:所述重音的检测是采用机器学习方法对所提取的特征参数进行分类处理,得到最后的重音检测结果;分类器可选用支持向量机人工神经网络决策树随机森林或高斯混合模型分类器;对预处理过的特征参数通过分类器处理后,每一个音节得到一个机器得分,再通过设定门限来确定该得到一句朗读语音信息中的重音与非重音部分的检测结果。
10.根据权利要求9所述的汉语口语重音检测方法,其特征是:对分类器检测出来的重音结果与标注好重音部分的朗读文本内容进行对比,确认重音词是否发音正确;通过文本的形式提示朗读者在发音的时候应该重读的字或词是否重读、没有标记重读的字或词是否发成了重音。

说明书全文

技术领域

发明涉及语音识别、普通话自动测试与评估以及汉语口语教学领域,涉及一种实用的汉语口语重音检测方法。

背景技术

近年来,随着语音识别技术的发展,普通话自动测试与评估系统在国内已经受到普遍的关注。该系统是集合了语音识别、考试学、心理学等高精尖技术客观评测系统,运用发音评判、韵律评判等相关技术,对测试者回答的正确性、发音及韵律的准确性以及表达的流利程度进行自动判断,给出测试者各项表现的评判结果,并在综合各项表现评分的基础上,给出测试者口语平的总体预测。而在自动语音识别领域以及普通话水平自动评估系统中,重音是衡量发音质量好坏中一个重要的衡量指标,是韵律成分中一种不可或缺的重要特征。
从语言学的度来讲,一句话都有其主题和焦点,语法解决一句话形式上正确与否的问题,而重音解决的是在具体语境中表达的内容是否有效,情感是否鲜明,中心是否明确的问题。可以说,重音的准备把握在语义的表达上有举足轻重的地位。从技术层面来讲,目前语音识别特别是大词汇量连续语音识别技术已日趋成熟,利用数据驱动技术构建模型,解决口语重音的检测和诊断问题时可行的。

发明内容

本发明的目的在于利用计算机实现对口语交流中的重音位置进行定位,运用于普通话教学软件,自动测试与评估系统中,因此,提出一种汉语口语重音的检测方法及装置。
为达成所述目的,本发明是提供一种汉语口语重音的检测方法,包括如下步骤:
步骤1:对语音文件结合其对应的标准朗读文本内容进行自动切分对齐;
步骤2:利用语音信号处理技术结合语言学的基本理论对切分的语音段提取基频特征参数、音长特征参数、绝对能量特征参数及其频谱特征参数;
步骤3:对提取的上述特征参数进行句中归一化,得到归一化的特征参数;
步骤4:对归一化的特征参数进行数据预处理,得到用于分类的特征参数;
步骤5:利用分类器对预处理后的分类特征参数进行分类,得到各音节的机器得分;
步骤6:设定限对所要检测出来的重音或非重音音节进行检测及其输出诊断信息。
本发明的有益效果:本发明采用自动检测技术,可有效的检测出朗读者发音重音位置不正确的地方,用于普通话教学辅助软件中,可以起到辅助教学的作用。应用于普通话自动测试与评估系统中,有助于让学生更好的把握汉语的重音,表达的意思更加明确。特别是在对外汉语教学中,我们会发现一些老外说出来的中文没有语法错误,但会出现一些言不达意的现象,原因就在于对普通话的重音或者音调把握不得当。在这类辅助教学软件中增加重音的检测及其诊断功能,有助于老外的汉语水平更加纯正和地道,从而达到高效交际的目的。
附图说明
附图1为本发明重音自动检测方法的流程框图

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
在连续的口语交流中,音长,音高大小,能量大小都会随着在句子中位置的改变而产生复杂的变化,这些变化都有可能影响重音的分布。因此,我们选用语音的音长,音高,能量,和频谱特征来区分重音与非重音。
本发明技术要点是,对语音文件结合其对应的标准朗读文本内容进行自动切分对齐;利用语音信号处理技术结合语言学的基本理论对切分的语音段提取基频特征参数、音长特征参数、绝对能量特征参数及其频谱特征参数;对提取的所述特征参数进行句中归一化,得到归一化的特征参数;对归一化的特征参数进行数据预处理,得到用于分类的特征参数;利用分类器对预处理后的分类特征参数进行分类,得到各音节的机器得分;设定门限对所要检测出来的重音或非重音音节进行检测及输出诊断。
通过标准发音文本对其相应的语音文件进行强制切分,得到各汉语音节的语音片段,其语音片段信息包括该音节的名称、起始时间、终止时间和组成该音节的各音素的名称、起始时间、终点时间,得到各语音片段的时间长信息,时间长度信息包括整句的时间长,各音节和音素的时间长,音节的平均时间长。然后通过提取语音片段的基频特征,得到语音音节的音高,对提取的音节基频信息通过整句的平均音高做归一化。结合切分后得到的各音节的时间信息计算各音节的绝对能量,并通过句平均绝对能量做归一化得到各音节的绝对能量特征参数。对切分后的语音以为单位进行频谱分析,每帧的时间长度取25ms,相邻帧的时间间隔取10ms,以帧为单位对各音节的语音进行高频预加重,加汉明窗,用快速傅立叶变换得到各帧的频谱信息,通过带通滤波器计算各帧的子带能量,结合音节的时间信息求得各音节的子带能量和句平均子带能量,用各音节的平均子带能量除以句平均子带能量各做句中归一化得到各音节的子带能量特征参数。通过对语音片段进行强制切分得到的音长信息计算各音节的子带能量特征。最后对上述特征参数通过设计分类器计算给出机器得分,并通过门限对机器得分进行判决从而给出相应的检测结果及诊断信息。
该方法主要由以下几个流程组成,语音文件的自动切分对齐,各音节特征的提取,分类器的设计。具体过程如下:
1.对给定的语音文件通过标准发音文本,词典和声学模型计算语音文件每帧的声学得分,利用维特比搜索技术得到该语音的自动切分对齐的各音节片段信息结果——即朗读语音中的声母、韵母和标准发音文本中各声母、韵母一一对应、并得到各发音音节和组成该音节的各音素的时间段信息。该各音节片段信息包括各音节及其声母、韵母的起始时间和终止时间。
2.根据1所得到的各发音音节和组成该音节的各音素的时间段信息,对各音节提取各音长、基频、绝对能量、音长和频谱特征并分别做句中归一化作为重音检测的特征,具体如下:
2.1)音长特征:
根据语言学的知识,音长是汉语重音中的一个基本的声学特征,所以我们分别取切分后各音节的音长,第一个音节音长为T1,第n个音节的音长Tn,平均音长Taver定义为
Taver=1NΣn=1n=NTn
其中N为语音中音节个数。所述的音长特征参数是首先计算一段语音的平均音长,平均音长的计算为各音节的长度和除以音节的个数;
2.1.1通过各音节音长去除以平均音长,得到句中各音节的音长的平均音长归一化特征参数。
2.1.2通过各音节音长去除以语速(rate of speech,ROS)做归一化得到句中各音节音长的语速归一化特征参数。因为一句话中存在停顿的时候,语速ROS计算公式如下:
ROS=TNend-T1start-TsilenceN
其中TNend为最后一个音节的终点时间,T1start为第一个音节的起始时间,Tsilence为第一个词到最后一个词之间的长静音部分,通过端点检测来实现。
2.2)基频特征:
用自相关法以帧为单位对语音文件做初步的基频提取,并修正提取过程中产生的倍频或半频,利用样条函数对没有基频的位置进行插值,从而获得整句语音连续的基频曲线,基频的值的范围从50HZ到500HZ,切分后的一个音素由至少3帧或3帧以上组成,插值后每帧得到一个基频值;然后分别求得各音节的基频均值、基频最大值、基频最小值、终点基频值和基频幅度值作为基频特征参数,在上面的基频特征参数计算中我们只考虑各音节的元音音素段部分;具体介绍如下:
a.通过整句基频均值对各音节的基频均值做归一化,即各音节的基频均值除以整句语音的基频均值。
b.通过整句基频均值对各音节的基频最大值做归一化,即各音节的基频最大值除以整句语音的基频均值。
c.通过整句基频均值对各音节的基频最小值做归一化,即各音节的基频最小值值除以整句语音的基频均值。
d.通过整句基频均值对各音节的终点基频值做归一化,即各音节的终点基频值除以整句语音的基频均值。
e.通过整句基频均值对各音节的基频幅度差值做归一化,即各音节内的基频最大值减基频最小值除以整句语音的基频均值。
2.3)绝对能量特征:
由步骤1得到的音节时间长度,求取各音节的绝对能量。第i个音节的绝对能量Ei计算公式如下:
Ei=logΣn=iStartn=iEndAn2
其中An为音频的第n个采样点的幅度大小,Ei为第i个音节的能量大小,iStart与iEnd分别为第i个音节的起始采样点和终止采样点,n是起始采样点和终止采样点之间的整数。句平均绝对能量Eave可以由以下计算公式得到:
Eave=1NΣi=1i=NEi
其中N为一句话中语音中音节个数。
通过该句语音的句平均绝对能量对各音节的绝对能量做归一化,即各音节的绝对能量除以该句语音的句平均绝对能量。
2.4)频谱特征:
以帧为单位对各音节的语音帧进行处理,分帧后,通常要对语音帧信号Sn进行高频预加重得到
s^n=sn-0.97sn-1
主要是通过高频放大补偿由于嘴唇的发射而引起语音高频信号sn的衰减,其中0.97是预加重系数。最后在进行频域分析前,需要对每帧信号加窗(通常采用汉明窗),以补偿由于信号截断而引起的频谱泄漏
sn={0.54-0.46·cos(2π(n-1)N-1)}·s^n
s′n是加窗之后第n点的值,N为汉明窗的点数。通过快速傅立叶变换得到各帧的频域信息,采用带通滤波器滤波计算各帧的子带能量,通过音节的时间信息求得各音节的子带能量和句平均子带能量,用各音节的平均子带能量除以句平均子带能量做句中归一化得到各音节的子带能量特征参数。通过大量实验表明,频域的子带能量对重音的检测是很有帮助的。从50Hz~500Hz,500Hz~2200HZ,2200HZ~4000HZ以及中频4000Hz到高频8000HZ的子带能量大小在重音的分类中能起到较好的效果。因此,对此设计带通FIR滤波器,求得50Hz~500Hz,500Hz~2200HZ,2200HZ~4000HZ,4000Hz~8000HZ子带能量,并分别通过句中的各子带平均能量做归一化作为该句语音重音的子带能量特征参数。
2.5)数据预处理
对数据进行预处理后有助于加快分类器数据处理的速度,这里有两种方案,一种是将数据压缩在lower和upper区间内,即对每一维特征,找到最大值Fmax和最小值Fmin后进行数据的归一化处理:
Fnorm=lower+Fraw-FminFmax-Fmin(upper-lower)
其中Fnorm是归一化后的特征值,Frow是进行归一化前的特征值。upper是数据归一化区间的上限,lower是数据归一化区间的下限值。
另一种方法是减均值除以方差:
Fnorm=Fraw-AVERVAR
其中AVER为一维特征的平均值,VAR为一维特征的方差值。
3.重音的检测及诊断
机器学习方法采用分类器(例如支持向量机人工神经网络决策树随机森林或高斯混合模型分类器)对所提取的特征参数进行分类处理,对每个进行检测的音节处理得到一个机器得分。支持向量机分类器选用径向基核函数。我们通过设定一个门限来对一个音节的机器得分进行判断。高于该门限的判定为重音,低于该门限的判断为非重音。
对分类检测出来的重音结果和标记好重音部分的朗读文本内容进行对比,确认重音词是否发音正确;通过文本的形式提示朗读者在发音的时候应该重读的字或词是否重读、没有标记重读的字或词是否发成了重音。由于汉语是一种单音节语言,对于单个字,通过音节进行判断,对于词而言,将其转换成多个音节的组合,对其进行检测和诊断。
实施本发明方法的系统主要由以上三部分组成,在PC机上实现,采用c++语言编写,并编制了实现该方法的算法及程序。该技术的新颖性在于:对语音进行自动切分后,提取基频,能量,音长及其频谱特征参数,对所提特征参数进行特定的归一化及其数据预处理,利用分类器对预处理以后的数据进行分类得到各音节的机器得分,通过设定门限的方法对所要检测出来的重音或非重音音节进行检测及其诊断。设定的门限可以是一个固定的值或根据不同情况而定(例如:根据不同地域的人的口音差别而定)。
实例说明
汉语是一门非常优美的语言,其内涵博大精深。在该重音检测方法中,我们选用一些日常用语进行实验性研究。实例如下:
朗读的文本内容:
1)(李明)星期天要去巢参加奥运会?
2)李明(星期天)要去鸟巢参加奥运会?
3)李明星期天要去(鸟巢)参加奥运会?
4)李明星期天要去鸟巢参加(奥运会)?
如上所述带有重音标记的四句话中,加圆括号的词为重读的词,我们可以看到,同一句话用不同的重音语气所要表述的主题大不一样。例如第一句强调的是李明这个运动员,而第二句话强调的是星期天这个时间,第三句话强调的是鸟巢这个地点,第四句话强调的是以奥运会为主题的这个全球性体育盛会。如果读者把第一句话的重音朗读为“李明(星期天)要去鸟巢参加奥运会?”,通过系统自动检测出读者的重读发音位置没有按照朗读文本的要求而进行,指出读者重音位置发音没有按照要求,提示读者的重音发音位置应该放到第一个词上面。
我们分别录取了北京本地人的标准普通话共8000句,录音过程中对所要重读的部分进行标注,录音的采样率为16K。朗读者根据标注文本朗读或跟读,朗读者严格遵循录音标准以保证录音数据的准确性。然后用附图1方法对朗读者的语音进行重音检测。步骤如下:
对所录语音和标准朗读文本进行自动切分对齐。
对已切分好的语音进行特征参数提取及其数据预处理,提取特征参数包括:音长参数、能量参数、基频参数、频谱参数,并进行特征参数的归一化和数据预处理;
对预处理过的特征参数通过分类器处理后,每一个音节得到一个机器得分,再通过设定门限得方法来确定该得到口语信息中的重音与非重音部分的检测结果,最后对比原来标注好重音部分的朗读文本内容给出重音的发音诊断报告。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈