用于对连续语言进行可视化的系统和方法

申请号 CN201610380141.X 申请日 2016-06-01 公开(公告)号 CN107305771A 公开(公告)日 2017-10-31
申请人 国家阅读方式研究院公司; 发明人 N·A·卡尔博; M·卡尔博;
摘要 公开了用于对连续语音进行 可视化 的系统和方法。所述系统和方法包括:接收朗读内容作为发音语音;分析所述发音,以确定在大声朗读时文本的发音气息串的特性和音长;以及基于所述发音气息串的特性和音长来产生要成为可视内容的起点和终点的高亮显示。
权利要求

1.一种用于对连续语言进行可视化的系统,所述系统包括:
处理器,动作为
接收朗读内容的语音;
分析所述语音,以确定所述语音的发音气息串;以及
基于所确定的发音气息串来产生所述内容的高亮显示的起点和终点。
2.根据权利要求1的用于对连续语言进行可视化的系统,其中,为了确定所述发音气息串,所述处理器还动作为
分析所述语音,以在所述语音中确定所述语音的语音参数在长于预设阈值时间段的时间段中低于一阈值的点;以及
将每个点标记为发音气息串的起点或终点。
3.根据权利要求2的用于对连续语言进行可视化的系统,进一步包括:
显示器,用于显示所述内容;以及
扬声器,用于输出所述语音,
其中,所述处理器进一步动作为在输出与所述内容对应的语音时,对标记点之间的内容进行高亮显示。
4.根据权利要求2的用于对连续语言进行可视化的系统,其中,所述阈值为音频电平阈值。
5.根据权利要求2的用于对连续语言进行可视化的系统,其中,所述语音参数包括气息吸气、呼气、连音、舌闪音、齿闪音、腭闪音、喉部吸气音、以及发音法中的一个或多个。
6.根据权利要求2的用于对连续语言进行可视化的系统,其中,所述预设阈值时间段为
1毫秒。
7.根据权利要求2的用于对连续语言进行可视化的系统,其中,所述处理器进一步动作为调整标记点以与连续语言串之间的位置相符。
8.根据权利要求1的用于对连续语言进行可视化的系统,进一步包括:
存储器,用于存储所述语音。
9.根据权利要求1的用于对连续语言进行可视化的系统,其中,所述处理器进一步动作为
接收所述内容;以及
在存储器中存储所述内容。
10.根据权利要求1的用于对连续语言进行可视化的系统,其中,所述处理器进一步动作为
在显示器上显示所述内容;以及
基于所述标记点来对所述内容进行高亮显示。
11.一种用于对连续语言进行可视化的方法,所述方法包括:
通过处理器接收朗读内容的自然发声语言的音频;
通过所述处理器分析所述发声语音,以识别和确定发音气息串的起点和终点;以及通过所述处理器基于预定参数和随后测量的发音气息串来产生所述内容的所述起点和所述终点的高亮显示。
12.根据权利要求11的用于对连续语言进行可视化的方法,其中,通过所述处理器确定所述发音气息串的起点和终点包括:
接收可听文本发声;
分析所述发声,以在所述发声中确定可测量的起点和终点构成文本和音频的合理预定参数、且在长于预设阈值时间段的时间段中处于预定阈值内或超过所述预定阈值的点;以及
将每个气息串测量标记为发音气息串的起点或终点。
13.根据权利要求12的用于对连续语言进行可视化的方法,进一步包括:
通过所述处理器在显示器上显示所述内容;
通过所述处理器经由扬声器输出朗读内容的自然发声语言的音频;以及
随着朗读内容的自然发声语言的音频的文本表示被输出,对标记点之间的文本内容进行高亮显示。
14.根据权利要求12的用于对连续语言进行可视化的方法,其中,所述预定阈值为音频电平阈值。
15.根据权利要求12的用于对连续语言进行可视化的方法,其中,所述语音参数包括气息吸气、呼气、连音、舌闪音、齿闪音、腭闪音、喉部吸气音、以及发音法中的一个或多个。
16.根据权利要求12的用于对连续语言进行可视化的方法,其中,所述预设阈值时间段为1毫秒。
17.根据权利要求12的用于对连续语言进行可视化的方法,进一步包括:
调整标记点以与字之间的位置相符。
18.根据权利要求11的用于对连续语言进行可视化的方法,进一步包括:
通过所述处理器在存储器中存储所述语音。
19.根据权利要求11的用于对连续语言进行可视化的方法,进一步包括:
通过所述处理器接收所述内容;以及
通过所述处理器在存储器中存储所述内容。
20.根据权利要求11的用于对连续语言进行可视化的方法,进一步包括:
通过所述处理器在显示器上显示所述内容;以及
基于所述标记点来对所述内容进行高亮显示。

说明书全文

用于对连续语言进行可视化的系统和方法

技术领域

[0001] 本申请涉及一种计算机化的(computerized)阅读学习系统和方法,且更具体地,涉及一种用于在连续语言(connected language)被读出(utter)和听到时对它进行可视化、以通过学习如何阅读的过程来有效地调动(move)学生的系统和方法。

背景技术

[0002] 教授学生如何阅读的技术是众所周知。许多现有技术的技术包括向学生提供故事或者其他书面内容并向学生输出预先存储的该故事的朗读,该学生将跟着它的朗读一起阅读该书面内容。
[0003] 其他现有技术的系统可以在显示装置上显示文本(text),并随着预先存储的该文本的朗读被输出而对该文本进行高亮显示(highlight)。这些系统通常以逐字(word-by-word)、或逐行(line-by-line)为基础来高亮显示文本。对于学习阅读的学生来说,逐字或逐行的系统不一定是自然语言的表示,或者无法在文本被自然地读出时与之精确地配准(align),因此不是一种有效的系统,易于导致较长的学习曲线。
[0004] 本申请涉及对于这些现有技术系统的改进。发明内容
[0005] 本发明的一个实施例为一种用于对连续语言进行可视化的系统。所述系统包括处理器,动作为接收朗读内容的自然连续发音作为音频;所述系统分析所述发音,以确定所述音频的发音气息串的音长和连续性;并且所述系统基于预定发音气息串参数来产生从所述气息串的起点到终点的高亮显示,以对应于内容音频。
[0006] 本发明的另一实施例为一种用于对连续语言进行可视化的方法。所述方法包括:通过处理器接收文本音频内容;通过所述处理器分析所述文本音频以确定发音气息串的起点和终点;以及通过所述处理器基于预定发音气息串来产生用于标记文本的高亮显示,使得它与这些起点和终点相符,并且在它被读出时与文本的音频同步,还与正被朗读的文本的这些起点和终点相符。
[0007] 所述系统包括处理器,动作为接收朗读内容的语音;分析所述语音,以确定所述语音的发音气息串;以及基于所确定的发音气息串来产生所述内容的高亮显示点。
[0008] 所述方法包括:通过处理器接收朗读内容的语音;通过所述处理器分析所述语音,以确定所述语音的发音气息串;以及通过所述处理器基于所确定的发音气息串来产生所述内容的高亮显示点。附图说明
[0009] 附图构成说明书的一部分并包括本发明的示范性实施例,并且示出了其各种目的及其特征。
[0010] 图1是根据本发明实施例的用于对连续语言进行可视化的系统的系统图。
[0011] 图2是示出了现有技术中的系统的图。
[0012] 图3是示出了根据本发明实施例的用于对连续语言进行可视化的系统和方法的图。
[0013] 图4是根据本发明实施例的用于对连续语言进行可视化的方法的流程图
[0014] 图5是根据本发明实施例的用于对连续语言进行可视化的方法的流程图。
[0015] 图6是根据本发明实施例的用于对连续语言进行可视化的方法的流程图。

具体实施方式

[0016] 在下文中参考附图来描述本发明的各个实施例。贯穿附图中,相同结构或功能的元件利用相同的附图标记来表示。附图仅意欲便于本发明的描述,并不要被解释为对于本发明范围的限制。另外,结合本发明特定实施例所描述的一方面不一定限于该实施例,而是可以与本发明的任何其他实施例相结合地实施。
[0017] 连续发声语音(connected articulated speech)是自然的语音,反之亦然。在本申请中,为了学习者能够听、看、及内化吸收(internalize)构成大多数语系的字素(grapheme)和音素(phoneme)的协同序列(coordinated sequence),两者的发出声音和书面表示都被同时地、可视地且可听地呈现。借助于精准到逼近毫秒的音频频率测量与音素单元选择的独特结合来完成准确的协同(coordination)。
[0018] 既不是基于字母的(alphabetic)也不是基于字的、本申请中使用的选择和协同技术,是通过被称为发音气息串(vocalized breath string)的连续语音要素(speech component)的结构的起点和终点以及模式(pattern)来引导的。换句话说,该技术取决于音调(tone)、音长(duration)、声调(expression)、气息(breath)、音质(quality)和连续性(connectedness)方面的、发声或说话的特性和/或清晰程度。
[0019] 连接文本(linked text)的选择包括完整和正常的发音气息串,并可以包括诸如气息吸气(breath aspiration)、呼气(exhalation)、连音(tonal link)、舌闪音(tongue flap)、齿闪音(tooth flap)、腭闪音(palate flap)、喉部吸气音(guttural click)、或其他发音法(vocalization)之类的语音参数。通常来说,文本选择不取决于字母结构或语法。
[0020] 发音气息串可以是一个字、或一个词组、或一句话。要高亮显示的文本在近乎毫秒的程度上完美地匹配到发音气息串或气息连续发音表达(breath-connected voiced utterance)的音频表示。高亮显示选择指向口说文本串(spoken text string),该口说文本串的结尾可能无法被系统觉察,但是可以进行手动调整。如果单个字(word)被隔开和加强,即,被识别为发音气息串,那么该单个字可被选为要被高亮显示的表达。气息串(即,连续语言)的终点的选择,应留出额外的一毫秒、两毫秒、十毫秒或更多毫秒的延迟,作为字或气息串的缓冲。该延迟可根据系统参数和操作人员的需求进行改变。
[0021] 参考图1,示出了根据本申请实施例的用于对连续语言进行可视化的系统100。系统100包括计算机101、用于控制系统100的整体操作的处理器102、用于存储程序和数据的存储器103、用于显示内容和该内容的高亮显示的显示器104、用于输出音频指令和内容的朗读的扬声器105、以及用于接收用户和/或操作人员输入的用户界面106。
[0022] 处理器102专编程为分析语音和识别发音气息串,该发音气息串用于高亮显示在显示器104上显示的内容(例如,文本)。这里使用的语音可包括实时的或预先录制的口说语言,并且能够至少部分地与在显示器上显示的文本相对应。一般地,如这里使用的,语音将指代预先录制的故事的朗读,其将与故事的文本的显示一起被有声地输出。
[0023] 在现有技术的系统中,例如如图2所示,文本如201所示地被显示在显示器上。在202-205的屏幕截图系列中,现有技术的系统一次高亮显示一个字或一次高亮显示一行。因此,句子“大猫很大(Big Cat is big)”最后被高亮显示为“大—猫—很—大(Big---Cat---is---big)”(破折号用来表示各字的高亮显示之间的时间),或者整句话都被高亮显示。即便系统可能正以正常的语速输出该句子的重读(read-back),高亮显示在语言被读出时或在语言串的自然连续性方面,出现与该语言相脱离。这导致正常语音与高亮显示之间的、延迟或阻碍阅读进度的脱节。另一现有的系统可显示一整行文本的无差别地高亮显示,而不管各字之间的可听的自然连续或停顿(silence)。
[0024] 在特定的实例中,本申请处理可听语音,从而产生按照它被说出的方式而与自然语言对应的高亮显示。如图3所示,根据本申请的系统和方法从如301所示地显示内容而开始。与现有技术的系统相反地,系统100处理语音(即,内容的重读)以确定该语音的自然语流(即,发音气息串),并然后根据自然口说语言来高亮显示文本。因此,同样一句“大猫很大(Big Cat is big)”将被系统100高亮显示为“大猫—很大(Big Cat--is big)”,这对应于在本实例中该文本被如何朗读以及语言被如何自然地连续和发声。在特定实例中在被口说和听到时的正常语音与在被听到和看到时的文本的同步高亮显示之间的相关性极大地加快学习。
[0025] 图4是示出了用于对连续语言进行可视化的方法的流程图。
[0026] 在步骤S1中,处理器102接收和存储内容。内容可以包括大多数书面语言中的文本,并且可以包括故事、诗歌、杂志和报纸文章等。
[0027] 接下来,在步骤S2中,处理器102接收和存储语音。语音为特定内容的朗读。语音也可包括口说语言的预览(或者介绍)和不包括在显示文本中的口说语言的序言(prologue),其可能与内容不相关并不会被处理以用于高亮显示。另外,尽管在本实施例中存储了语音,但是处理器102可被编程为实时地处理和高亮显示。
[0028] 在步骤S3中,处理器102分析语音以确定语音的自然和相关发声模式。下面,将关于图5更加详细地描述此处理。在该分析期间,处理器102确定发音气息串的结构的起点和终点、连续性以及其他模式,而不是确定字母结构、音素内容或语法。处理器102考虑音调、音长、声调、气息、音质、和连续性方面的、发声或说话的特性和/或清晰程度,并且可以包括诸如气息吸气、呼气、连音、舌闪音、齿闪音、腭闪音、喉部吸气音、或其他发音法之类的语音参数。
[0029] 一旦识别出自然语音模式,在步骤S4中,处理器102就基于所确定的自然语音模式来产生内容的高亮显示。处理器102可在存储器103中存储所产生的高亮显示,以用于之后的回放和显示。
[0030] 图5是示出了用于对连续语言进行可视化的方法的流程图。
[0031] 在步骤S11中,处理器102接收可听的发音。语音可从存储器或者通过麦克被实时地接收。在步骤S12中,处理器102分析语音以识别各发音气息串以及特定种类和音长长度的各气息串之间的可听的停顿。为此,处理器102将发音文本的音频特征与第一阈值Th1进行比较。阈值Th1是特定音频电平特征、以及以毫秒度量的特定音长的该音频电平特征的缺失的量度。处理器102不必尝试识别各字之间的间隔(或停顿)(尽管这种关联可能发生),而是相反地,要监听所有的语音参数,以便识别重要的预定连续和停顿。语音参数可包括气息吸气、呼气、连音、舌闪音、齿闪音、腭闪音、喉部吸气音、或其他发音法中的一个或多个。
[0032] 当语音参数不低于阈值Th1时,处理器102继续在步骤S12中分析语音。当语音参数低于阈值Th1时,在步骤S14中,处理器102统计语音低于阈值Th1的时间。当语音参数在预设时间T1已逝去前升高至高于阈值Th1时,处理器102继续分析语音。预设时间高于1毫秒,但这个时间可以上下变动。当语音参数在预设时间T1中没有升高至高于阈值Th1时,处理器102继续到步骤S15,并在语音中标记语音参数在长于预设时间段T1中低于阈值Th1的点。
[0033] 处理器102如上所述地继续接收、分析语言并在语音中标记点,直到在步骤S16中处理器102确定到达与内容对应的语音的结尾为止。该结尾可为语音实际的结尾,或者是在包括序言语音时被识别为内容朗读语音的结尾的预设点。此时,在步骤S17中,处理器102在存储器103中存储该语音连同所述标记点。
[0034] 上述处理的变型是可预期的。例如,处理器102可编程为实时地分析语音。随着语音被接收、分析和标记,处理器102可将语音和标记存储到存储器103中。作为另一种变型,高亮显示可随着语音分析而实时地发生。换句话说,例如,如果正在接收实时语音且在显示器104上显示内容,那么处理器102可随着识别出带有标记或没有标记的点而对内容进行高亮显示。另外,如果语音的开始对应于内容,则第一个标记点可设置在语音的开始处,或者如果有预览语音要在内容的开始前被输出,则第一标记点可设置在稍后的点处。同样地,标记可被处理器102或操作人员进行调整以更精确地反映自然语音或对应于实际且自然的音素间隔。其他的变型也是可预期的。
[0035] 图6是示出了用于对连续语言进行可视化的方法的流程图。
[0036] 当学习者访问系统100以启动内容的显示和语音的回放时,处理器102在显示器104上显示该内容的部分或全部。处理器102然后启动语音回放。在到达标记点时,处理器
102高亮显示在各标记点之间识别的内容,并且继续直到到达内容的结尾为止。
[0037] 本发明可通过在朗读故事文本被听到时将朗读故事文本的高亮显示建立在自然发生的语音上来提高学习人员的学习能
[0038] 虽然各方面和实施例此处已公开,但其他方面和实施例在本领域也是显而易见的。在权利要求表明的范围和精神内,这里公开的用于示例的各方面和实施例不限于此。
QQ群二维码
意见反馈