汉语与外语自动实时语音翻译并标注字幕的音像录播设备专利检索-语音合成标记语言人工智能专利检索查询-专利查询网

汉语与外语自动实时语音翻译并标注字幕的音像录播设备

阅读：999发布：2020-05-27

专利汇可以提供汉语与外语自动实时语音翻译并标注字幕的音像录播设备专利检索，专利查询，专利分析的服务。并且本技术方案是一种汉语与外语自动实时语音翻译并标注字幕的音像录播设备，属于语音和图像数据处理设备技术领域。本技术方案的设备包括话筒和摄像机模块 1、音视频同步信号标记模块2、有声语言音频信号提取模块3、汉语语音识别模块4、汉语翻译成外语的机器翻译模块5、视频画面或影像画面字幕叠加机模块6、外语语音合成模块7、音视频编码压缩模块8、网络传输模块9、带音视频解码解压缩软件服务器模块10、网络传输模块11、带音视频音像播放软件的客户端模块12、外语语音识别模块13、外语翻译成汉语的机器翻译模块14、汉语语音合成模块15。本技术方案的音像录播设备可以方便中外信息实时交流。，下面是汉语与外语自动实时语音翻译并标注字幕的音像录播设备专利的具体信息内容。

权利要求

1.一种汉语与外语自动实时语音翻译并标注字幕的音像录播设备, 其特征是：包括话筒和摄像机模块（１）、音视频同步信号标记模块（２）、有声语言音频信号提取模块（3）、汉语语音识别模块（4）、汉语翻译成外语的机器翻译模块（5）、视频画面或影像画面字幕叠加机模块（6）、外语语音合成模块（7）、音视频编码压缩模块（8）、网络传输模块（9）、带音视频解码解压缩软件服务器模块（10）、网络传输模块（11）、带音视频音像播放软件的客户端模块（12）、外语语音识别模块（13）、外语翻译成汉语的机器翻译模块（14）、汉语语音合成模块（15）。
2.如权利要求1所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是该设备工作时按以下步骤进行:
在现场实时汉语语音音像录播时，所述录播设备通过话筒和摄像机模块（１），将汉语语音及现场场景录入并储存到所述的录音录像设备的系统中，系统中的计算机首先通过音视频同步信号标记模块（２）做好通过上述摄像机模块（１）摄制的影像资料中视频画面或影像画面与上述话筒录制的对应的汉语有声语言的音频信号同步信号标记并储存在音像录播设备的储存系统中, 然后将带同步信号标记的有声语言的音频信号通过有声语言音频信号提取模块(3)提取出来，带同步信号标记的汉语有声语言的音频信号提取出来后再传给计算机中的汉语语音识别模块（4），汉语语音识别模块（4）将汉语语音识别成带与所识别的汉语语音相同同步信号标记的用26个拉丁字母表示的汉语语音码,再通过汉语翻译成外语的机器翻译模块（5）将上述汉语语音码翻译成用26个拉丁字母表示的与对应汉语语音码句子具有相同同步信号标记的指定的外文句子, 再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给现有的视频画面或影像画面字幕叠加机模块（6），根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上,同时将上述翻译成带同步信号标记的指定的外文句子,通过外语语音合成模块（7）合成成相应的带同步信号标记的外语语音，然后与具有相同同步信号标记的带中外文字幕的视频画面或影像画面合成在一起并通过上述音视频编码压缩模块（8）进行编码和压缩，经上述编码和压缩后再传输给网络传输模块（9），再由网络传输模块（9）将编码和压缩后的上述具有相同同步信号标记的带中外文字幕和外语语音的视频画面或影像画面传输到宽带网络，宽带网络将其传输到指定的带音视频解码解压缩软件服务器模块（10）上进行储存，带音视频音像播放软件的客户端模块（12）通过网络传输模块（11）登陆到上述带音视频解码解压缩软件服务器模块（10）就可以实时观看上述现场实时带中外文字幕和外语语音的视频影像资料画面；
在现场实时外语语音音像录播时，所述录播设备通过话筒和摄像机模块（１），将外语语音及现场场景录入并储存到所述的录音录像设备的系统中，系统中的计算机首先通过音视频同步信号标记模块（２）做好通过上述摄像机模块（１）摄制的影像资料中视频画面或影像画面与上述话筒录制的对应的外语有声语言的音频信号同步信号标记并储存在音像录播设备的储存系统中, 然后将带同步信号标记的有声语言的音频信号通过有声语言音频信号提取模块(3)提取出来，带同步信号标记的外语有声语言的音频信号提取出来后再传给计算机中的外语语音识别模块（13），外语语音识别模块（13）将外语语音识别成带与所识别的外语语音相同同步信号标记的用26个拉丁字母表示的外文,再通过外语翻译成汉语的机器翻译模块（14）将上述外文翻译成用26个拉丁字母表示的与对应外文句子具有相同同步信号标记的汉语语音码句子, 再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给现有的视频画面或影像画面字幕叠加机模块（6），根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上,同时将上述翻译成带同步信号标记的汉语句子,通过汉语语音合成模块（15）合成成相应的带同步信号标记的汉语语音，然后与具有相同同步信号标记的带中外文字幕的视频画面或影像画面合成在一起并通过上述音视频编码压缩模块（8）进行编码和压缩，经上述编码和压缩后再传输给网络传输模块（9），再由网络传输模块（9）将编码和压缩后的上述具有相同同步信号标记的带中外文字幕和汉语语音的视频画面或影像画面传输到宽带网络，宽带网络将其传输到指定的带音视频解码解压缩软件服务器模块（10）上进行储存，带音视频音像播放软件的客户端模块（12）通过网络传输模块（11）登陆到上述带音视频解码解压缩软件服务器模块（10）就可以实时观看上述现场实时带中外文字幕和汉语语音的视频影像资料画面。
3.如权利要求1所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是：所述的汉语翻译成外语的机器翻译模块（5）和外语翻译成汉语的机器翻译模块（14）可以合并采用一种使用汉语语音码的汉语与外语双向可逆机器翻译模块。
4.如权利要求1所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备, 其特征是:上述网络传输模块（9）或网络传输模块（11），可以是有线网络传输模块也可以是3G、4G、wifi、wimax、蓝牙无线网络传输模块，在采用有线网络传输模块时，上述宽带网络是有线宽带网络，在采用无线网络传输模块时，上述宽带网络是无线宽带网络。
5.如权利要求2或3所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是:所述的汉语语音码是以单词为单位，这里将单个汉字看作单音节词，根据组成该单词的每个音节的《汉语拼音方案》中的拼音，用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码拼写，并通过得到的语音码的编码直接表达汉语信息，当直接用语音码编码来表示汉语信息时，其标点符号的用法同英文的标点符号的用法相同，编码时同一个单词的多个音节不用空格连续编码，单词与单词之间要有空格隔开。
6.如权利要求5所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是:所述的汉语语音码是声母全部用辅音拉丁字母表示，用于表示汉语信息的语音码的声母除了《汉语拼音方案》中的声母zh、ch、sh分别用j、q、x三个辅音拉丁字母表示外，其余的声母用与《汉语拼音方案》中的相同符号的辅音拉丁字母表示，《汉语拼音方案》中的zhi、chi、shi分别用语音码的jr、qr、xr表示，《汉语拼音方案》中的er用语音码的er来表示，jr或qr或xr及er 键盘输入时分别按J和R或Q和R或X和R及E和R两个键位
输入。
7.如权利要求5所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是: 所述的汉语语音码用26个字母中的一个字母y表示原来《汉语拼音方案》中的单韵母和介母中的ü，其余单韵母和介母的编码采用与《汉语拼音方案》中的单韵母和介母相同的符号。
8.如权利要求5所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是:所述的汉语语音码复合韵母除了用与《汉语拼音方案》中的相同的符号表示外，用一个辅音字母表示。
9.如权利要求5所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是: 所述的汉语语音码其调码用四个元音字母和一个汉语不用的字母v表示，用拉丁字母a、e、v、u、o分别表示《汉语拼音方案》中的阴平－、阳平e：/、上声v：∨、去声u：\、轻声o不标。
10.如权利要求1或2或3所述的汉语与外语自动实时语音翻译并标注字幕的音像录播设备,其特征是:所述的汉语翻译成外语的机器翻译模块（5）、外语翻译成汉语的机器翻译模块（14）、使用汉语语音码的汉语与外语双向可逆机器翻译模块能够内嵌汉字和汉语拼音与汉语语音码双向转换模块，所述的汉语语音码，在汉字系统的计算机中可以通过上述汉字和汉语拼音与汉语语音码双向转换模块转换成汉字,汉语语音码或汉字能够单独或者汉语语音码与汉字、汉语拼音，意义一致的外文对照显示、储存、输出。

说明书全文

汉语与外语自动实时语音翻译并标注字幕的音像录播设备

技术领域

[0001] 本技术方案属于语音和图像数据处理设备技术领域。

背景技术

[0002] 目前市面上的汉语或外语有声影像资料的汉字或外文或其对照字幕叠加，一般通过人工方式将汉语或外语有声影像资料中的汉语或外语转换成汉字或外文，再交给视频画面或影像画面字幕叠加机将表达汉语意思的汉字字幕叠加在视频画面或影像画面上，同时通过翻译将汉语翻译成外语或反之将外语翻译成汉语，再通过配音人员将语音配到同步的视频画面或影像画面上，由于存在大量实时或非实时的汉语或世界各地的外语有声影像资料，包括电视录像和电影等有声影像资料，因此，如果单靠采用人工转换的方式会很费工费时而且很难做到实时传输，随着数字有声影像技术的出现，特别是计算机系统用于处理视频影像资料的技术出现，越来越需要有一种能自动实时将汉语或外语语音的音像分别相互转换成外语或汉语语音并加注字幕的技术出现，而且这种能自动根据汉语或外语语音实时转换成汉语或外语字幕的技术不但能在带汉字系统的计算机系统中运行，还能再不带汉字系统只带128个字符的ASCII码系统的以美国为代表的西方国家的计算机系统中运行，以满足世界互联网的日益广泛的运用和云计算、物联网以及世界各地汉语热的出现，中西文化交流越来越频繁的新形势的需要。发明内容

[0003] 本技术方案的提出就是为了解决上述出现这些问题。具体来说本技术方案通过采用以下的汉语与外语自动实时语音翻译并标注字幕的音像录播设备的技术来解决上述出现的问题：本技术方案采用的录播设备,其特征是：包括话筒和摄像机模块１、音视频同步信号标记模块２、有声语言音频信号提取模块3、汉语语音识别模块4、汉语翻译成外语的机器翻译模块5、视频画面或影像画面字幕叠加机模块6、外语语音合成模块7、音视频编码压缩模块8、网络传输模块9、带音视频解码解压缩软件服务器模块10、网络传输模块11、带音视频音像播放软件的客户端模块12、外语语音识别模块13、外语翻译成汉语的机器翻译模块
14、汉语语音合成模块15。

[0004] 本技术方案采用的录播设备工作时按以下步骤进行:在现场实时汉语语音音像录播时，所述录播设备通过话筒和摄像机模块１，将汉语语音及现场场景录入并储存到所述的录播设备系统中，系统中的计算机首先通过音视频同步信号标记模块２做好通过上述摄像机模块１摄制的影像资料中视频画面或影像画面与上述话筒录制的对应的汉语有声语言的音频信号同步信号标记并储存在音像录播设备的储存系统中,然后将带同步信号标记的有声语言的音频信号通过有声语言音频信号提取模块3提取出来，带同步信号标记的汉语有声语言的音频信号提取出来后再传给计算机中的汉语语音识别模块4，汉语语音识别模块4将汉语语音识别成带与所识别的汉语语音相同同步信号标记的用26个拉丁字母表示的汉语语音码,再通过汉语翻译成外语的机器翻译模块5将上述汉语语音码翻译成用26个拉丁字母表示的与对应汉语语音码句子具有相同同步信号标记的指定的外文句子, 再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给现有的视频画面或影像画面字幕叠加机模块6，根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上,同时将上述翻译成带同步信号标记的指定的外文句子,通过外语语音合成模块7合成成相应的带同步信号标记的外语语音，然后与具有相同同步信号标记的带中外文字幕的视频画面或影像画面合成在一起并通过上述音视频编码压缩模块8进行编码和压缩，经上述编码和压缩后再传输给网络传输模块9，再由网络传输模块9将编码和压缩后的上述具有相同同步信号标记的带中外文字幕和外语语音的视频画面或影像画面传输到宽带网络，宽带网络将其传输到指定的带音视频解码解压缩软件服务器模块10上进行储存，带音视频音像播放软件的客户端模块12通过网络传输模块11登陆到上述带音视频解码解压缩软件服务器模块10就可以实时观看上述现场实时带中外文字幕和外语语音的视频影像资料画面；在现场实时外语语音音像录播时，所述录播设备通过话筒和摄像机模块１，将外语语音及现场场景录入并储存到所述的录播设备系统中，系统中的计算机首先通过音视频同步信号标记模块２做好通过上述摄像机模块１摄制的影像资料中视频画面或影像画面与上述话筒录制的对应的外语有声语言的音频信号同步信号标记并储存在音像录播设备的储存系统中, 然后将带同步信号标记的有声语言的音频信号通过有声语言音频信号提取模块3)提取出来，带同步信号标记的外语有声语言的音频信号提取出来后再传给计算机中的外语语音识别模块13，外语语音识别模块13将外语语音识别成带与所识别的外语语音相同同步信号标记的用26个拉丁字母表示的外文,再通过外语翻译成汉语的机器翻译模块14将上述外文翻译成用26个拉丁字母表示的与对应外文句子具有相同同步信号标记的汉语语音码句子,再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给现有的视频画面或影像画面字幕叠加机模块6，根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上,同时将上述翻译成的带同步信号标记的汉语句子,通过汉语语音合成模块15合成成相应的带同步信号标记的汉语语音，然后与具有相同同步信号标记的带中外文字幕的视频画面或影像画面合成在一起并通过上述音视频编码压缩模块8进行编码和压缩，经上述编码和压缩后再传输给网络传输模块9，再由网络传输模块9将编码和压缩后的上述具有相同同步信号标记的带中外文字幕和汉语语音的视频画面或影像画面传输到宽带网络，宽带网络将其传输到指定的带音视频解码解压缩软件服务器模块10上进行储存，带音视频音像播放软件的客户端模块12通过网络传输模块11登陆到上述带音视频解码解压缩软件服务器模块10就可以实时观看上述现场实时带中外文字幕和汉语语音的视频影像资料画面。

[0005] 上述的汉语翻译成外语的机器翻译模块5和外语翻译成汉语的机器翻译模块14可以合并采用一种使用汉语语音码的汉语与外语双向可逆机器翻译模块。

[0006] 上述网络传输模块9或网络传输模块11，可以是有线网络传输模块也可以是3G、4G、wifi、wimax、蓝牙无线网络传输模块，在采用有线网络传输模块时，上述宽带网络是有线宽带网络，在采用无线网络传输模块时，上述宽带网络是无线宽带网络。

[0007] 上述的汉语翻译成外语的机器翻译模块5和外语翻译成汉语的机器翻译模块14、以及使用汉语语音码的汉语与外语双向可逆机器翻译模块能够内嵌汉字和汉语拼音与汉语语音码双向转换模块，上述的汉语语音码，在汉字系统的计算机中可以通过上述汉字和汉语拼音与汉语语音码双向转换模块转换成汉字,汉语语音码或汉语拼音，汉字能够单独或者汉语语音码与汉字、汉语拼音，意义一致的外文对照显示、储存、输出。

[0008] 上述的汉语语音码是以单词为单位，这里将单个汉字看作单音节词，根据组成该单词的每个音节的《汉语拼音方案》中的拼音，用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码拼写，并通过得到的语音码的编码直接表达汉语信息，当直接用语音码编码来表示汉语信息时，其标点符号的用法同英文的标点符号的用法相同，编码时同一个单词的多个音节不用空格连续编码，单词与单词之间要有空格隔开。

[0009] 由于本技术方案采用26个拉丁字母表示的汉语语音码来表达汉语信息，且当直接用语音码编码来表示汉语信息时，其标点符号的用法同英文的标点符号的用法相同，这样就保证了汉语信息的表达连标点符号在内都与ASCII码完全一致，也即与ASCII码100%兼容，这样上述汉语语音识别模块、机器翻译模块、语音合成模块由于处理的汉语信息是用与ASCII码完全一致的汉语语音码来表示的，这样就使得这些模块可以在ASCII码系统的计算机中运行，由于组成整个系统的模块可以在ASCII码系统的计算机中运行，因此，整个系统可以在ASCII码系统的计算机中运行。

[0010] 有了本技术方案以后，汉语信息可以在汉字内码系统和非汉字内码系统的ASCII内码系统的计算机信息系统中畅通无阻地进行传输和处理，而且随着世界互联网的日益广泛的运用和云计算、物联网以及世界各地汉语热的出现，使得汉语与以英语为代表的世界各国的实时非实时的影像资料的相互观摩交流带来了极大的方便,特别是方便中国观众通过外国的实时影视资料边看新闻边学外语，外国观众通过中国的实时影视资料边看中国新闻边学汉语,从而使汉语能够更广更好地传播到世界各地，促进中国文化和世界文化的相互交流。附图说明

[0011] 图1所示是本发明在现场实时汉语语音音像录播时的录播设备系统示意图图2所示是本发明在现场实时外语语音音像录播时的录播设备系统示意图

具体实施方式

[0012] 下面结合实施例对本发明的具体实施方式作进一步的说明。（一）本技术方案所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法：
注：破折号“—”后的符号均为汉语拼音符号，破折号“—”前的字母为所采用的汉语每一音节声、韵、调的编码,以下均同，以下将下列对照表简称为码表。

[0013] 这里值得指出的是：在用键盘键入汉语语音码及汉语语音码语句的标点符号时，组成汉语语音码编码的26个拉丁字母与西文标准键盘的26个字母键完全一一相同对应，汉语语音码语句的标点符号键与西文标准键盘的标点符号键也一一相同对应，输入汉语语音码字母和标点符号时，只需要击打西文标准键盘的相应的相同键位即可。

[0014] 1、声码的编码符号采用与汉语拼音方案基本一致的声母的字母符号，比如采用下面这种声码的编码形式：b—b ; p—p ; m—m ; f—f ; d—d ; t—t ;
n—n ; l—l ; g—g ; k—k ; h—h ;
j—zh， j ; q—ch，q ; x—sh，x ;r—r ;
z—z ; c—c ; s—s ; y—y ; w—w 。

[0015] 2、汉语拼音介母（ü）采用26个拉丁字母中的一个字母表示，比如采用下面这种介码的编码形式：i—i ; u—u ; y—ü 。

[0016] 3、韵码的编码，对单韵母除（ü）采用26个拉丁字母中的一个字母表示外，其它采用与汉语拼音相同的字母符号，汉语拼音的复合韵母可以采用《汉语拼音方案》相同的形式，也可以采用一个辅音字母来编码，比如采用下面的这种字母符号来对汉语拼音的韵母进行编码：a—a ; o—o ; e—e ; i—i ; u—u ; y—ü ;
k—ao ; c— ai ; s—an ; x—ou ; w—ei ; n—en ;
z—ua ; l—uo ; b—ang ; d—ong ; p—eng ；
q—ing ; g—ng ; er—er ;
r—i ; “i只与汉语拼音声母zh、ch、sh相拼时，汉语拼音的i用语音码的编码r代表”。即：汉语拼音的zhi、chi、shi分别用语音码的jr、qr、xr代表。jr或qr或xr及er键盘输入时分别按J和R或Q和R或X和R及E和R两个键位输入。

[0017] 4、调码的编码除采用一个汉语不用的辅音字母v表示汉语拼音的上声（∨）外，其它采用元音字母来表示汉语的声调，比如采用下面的字母来对汉语拼音的声调进行编码： a— — ，阴平 ; e— / ，阳平 ; v— ∨ ，上声 ; u—\ ，去声 ;o— 拼音不标轻声调号，轻声。

[0018] （二）利用上述编码的汉语语音码汉语信息表示采用如下的方法：以单词为单位，这里将单个汉字看作单音节词，根据组成该单词的每个音节的《汉语拼音方案》中的拼音，依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码，同一个单词的多个音节不用空格隔开连写，单词与单词之间的编码用空格隔开，当汉语信息表示处于汉语语音码状态时，其六种点号，七种标号和一个移行号采用与英文相同的形式；
这里由于将独立运用的汉字看作单音节词，因此，本发明所采用的汉字编码的方法和汉语单词音节编码的方法相同，在本发明中采用单词音节编码按词连写后得到单词编码，我们将由若干个单词组成的一组词称为词组，本发明所采用词组的编码同汉语句子的编码相同，由于单词可以表示词组和汉语句子，因此在本发明中所采用的词组的编码和汉语句子的编码都可以通过单词的编码实现，而不需要对词组和汉语句子另外制定一套专门的编码，一般在整句整篇以词为单位表示汉语信息时，在理解时一般不需要进行同音字词的选择，原则上听起来不会产生歧义的句子，用编码表达时也不会产生歧义。

[0019] 下面以一句通过话筒输入的汉语句子的语音与英语句子的语音为例来说明本技术方案的具体实现步骤在现场实时汉语语音音像录播时，所述录播设备通过话筒和摄像机模块１，将汉语语音及现场场景录入并储存到所述的录播设备的系统中，系统中的计算机首先通过音视频同步信号标记模块２做好通过上述摄像机模块１摄制的影像资料中视频画面或影像画面与上述话筒录制的对应的汉语有声语言的音频信号同步信号标记并储存在音像录播设备的储存系统中,音视频同步信号标记模块2制作同步信号标记可以采用现有的制作视频画面或影像画面与音频同步时间戳标记的技术进行。

[0020] 然后将带同步信号标记的汉语有声语言的音频信号通过有声语言音频信号提取模块3提取出来，提取方法可以直接按系统储存的汉语有声语言音频数字信号提取，也可以将有汉语声语言音频信号通过D/A数模转换装置将系统储存的汉语有声语言音频数字信号转换成模拟信号再提取出来，更原始的方法是汉语有声语言音频信号通过喇叭播放汉语有声语言的声音的方式提取出来，这里就不一一枚举。

[0021] 带同步信号标记的汉语有声语言的音频信号提取出来后再传给计算机中的汉语语音识别模块4，汉语语音识别模块4将汉语语音识别成带与所识别的汉语语音相同同步信号标记的用26个拉丁字母表示的汉语语音码。

[0022] 当采用汉语语音码汉语语音识别模块4来进行汉语语音识别时，该汉语语音识别模块将汉语音节作为识别的基元，通过查找预先储存在计算机系统中的汉语音节语音模板和汉语语音音节码对照表，匹配后识别出相应的汉语音节语音码，语音连续输入时便得到连续的汉语音节语音码串，对上述得到汉语音节语音码串通过查词库的方式进行按词切分，对多种单词切分，可以依据汉语词法句法上下文联系及统计规律等手段进行判别后再进行单词切分，对切分出的单词采取同一单词的音节与音节之间连写，词与词之间空格的方式表示。

[0023] 下面例举用本发明方法对汉语语音进行汉语语音码识别的例子：1．汉语语音转换成汉语语音码：
比如：我们提取影像资料中的下列汉语句子的汉语语音：
“我们每天使用拉丁文。”
（1）通过查找预先储存在计算机系统中的汉语音节语音模板和汉语语音音节码对照表，匹配后识别出相应的汉语音节语音码串：
Wov mno mwv tisa xrv ydu laa dqa wnv .（音节与音节之间有空格）
或wovmnomwvtisaxrvydulaadqawnv. （音节与音节之间无空格）
(熟练后mno中的轻音符o在不引起混音时可以省略,以上以下均同。)
为了让大家看清楚这里将表示声调的字母加了下划线，语音码中的声调字母同时具隔音节作用，实际语音码中声调无下划线，熟练汉语语音码后声调兼隔音节符能够方便区分出来。

[0024] 这样便完成了一个系统的复杂性与系统的词库规模性无关的纯语音识别过程。

[0025] （2）将语音码串进行单词切分，最终完成以词为单位的语音码转换。

[0026] 通过查找预先储存在计算机系统中的分好词的汉语语音码单词词库，将同一个单词的多个音节连写，词与词之间用空格隔开便得到以下我们最终需要的汉语语音码：Wovmno mwvtisa xrvydu laadqawnv.
再通过汉语翻译成外语的机器翻译模块5将上述汉语语音码翻译成用26个拉丁字母表示的与对应汉语语音码句子具有相同同步信号标记的指定的外文句子：
调用汉语翻译成外语的机器翻译模块5，再将得到的汉语语音码表示的汉语信息转换成外文，这里以英文为例，对其它外文也一样，这里就不一一举例。

[0027] (注:以上以下文中出现的与汉语语音码对照的汉字是为了方便理解汉语语音码的含义,实际在纯ASCII码系统运行中并不出现, 以上以下均同)比如将上面得到的汉语语音码表示的汉语信息：
wovmno mwvtisa xrvydu laadqawnv .
调用汉语翻译成外语的机器翻译模块(5)得到以下翻译转换步骤,最终得到上述对应汉语语音码的英文句子:
1．wovmno mwvtisa xrvydu laadqawnv .（汉语语音码表示的汉语信息）
我们每天使用拉丁文。（用汉字表示的汉语信息）
a)查预先储存在计算机系统中的标注单词词性的汉语词典建立单词词性串：（句中括号内的部分是词性，以下均同）
wovmno（人称代词1）+ mwvtisa（时间名词1）+ xrvydu（动词1）+ laadqawnv（名词
2）.
我们（人称代词1） + 每天（时间名词1） +使用（动词1） + 拉丁文（名词2）。

[0028] b)根据上面得到的句子词性串查预先储存在计算机系统中的表得到预先储存在表中的汉语句型：（词性和该词所作的句子成分串组成句型，以下均同）
wovmno（人称代词1作主语）+ mwvtisa （时间名词1作时间状语）+ xrvydu（动词1作谓语）+ laadqawnv （名词2作宾语）
我们（人称代词1作主语） + 每天（时间名词1作时间状语） + 使用（动词1作谓语）+ 拉丁文（名词2作宾语）
c)根据上面得到的汉语句型查表得到预先储存在表中的对应的英语句型：
wovmno（人称代词1作主语）+ xrvydu （动词1作谓语）+ laadqawnv（名词2作宾语）+ mwvtisa（时间名词1作时间状语）
我们（人称代词1作主语） +使用（动词1作谓语） + 拉丁文（名词2作宾语）+ 每天（时间名词1作时间状语）
此时查预先储存在计算机系统中的汉英词库进行单词或词组意思的转换，并按此句型顺序输出便完成汉语翻译成英语的转换，为了表明此机器翻译过程的可双向性，我们再作下面进一步的变换：
d)根据上面得到英语句型查表得到预先储存在表中的与对应的英语单词或词组词性相一致的词性串：（该词性串也可从得到的目标语言句型中提取得到，以下均同）wovmno（人称代词1）+ xrvydu（动词1）+ laadqawnv（名词2）+ mwvtisa（时间名词
1）.
我们（人称代词1） + 使用（动词1） + 拉丁文（名词2） + 每天（时间名词1）。

[0029] e)查预先储存在计算机系统中的汉英词库进行单词或词组意思的转换并按上面所得到的英语句型的顺序输出：we（人称代词1） use（动词1） latin（名词2） every day（时间名词1）.we use latin every day.
这样便完成了汉语翻译成英语的转换。

[0030] 再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给传统的视频画面或影像画面字幕叠加机模块6，根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上。

[0031] 同时将上述翻译成带同步信号标记的指定的外文：We use latin every day.
通过外语语音合成模块7合成成相应的带同步信号标记的外语语音并与具有相同同步信号标记的上述带字幕的视频画面或影像画面合成在一起储存或同步输出，这样我们采用上述方法实现了将汉语语音实时影像资料转变成英语语音并加注中外文字幕的实时影像资料，同理对其它外语也可以采用相同的方法实现以上的过程和结果，这里就不再一一累述。

[0032] 最后并通过上述得到的英语语音并加注中外文字幕的实时影像资料经过音视频编码压缩模块8进行编码和压缩，经上述编码和压缩后再传输给网络传输模块9，再由网络传输模块9将编码和压缩后的上述具有相同同步信号标记的带中外文字幕和外语语音的视频画面或影像画面传输到宽带网络，宽带网络将其传输到指定的带音视频解码解压缩软件服务器模块10上进行储存，带音视频音像播放软件的客户端模块12通过网络传输模块11登陆到上述带音视频解码解压缩软件服务器模块10就可以实时观看上述现场实时带中外文字幕和外语语音的视频影像资料画面，这样我们就通过本技术的设备完成了实时汉语语音音像转化为实时外语语音并加注中外文资料的音像资料的录播过程。

[0033] 在现场实时外语语音音像录播时，用上述同样的方法首先通过将传统计算机软件的音视频同步信号标记模块2，做好影像资料中视频画面或影像画面和对应的有声语言的音频信号同步信号标记,然后将带同步信号标记的有声语言的音频信号通过有声语言音频信号提取模块3提取出来，传给计算机中的外语语音识别模块13，外语语音识别模块将外语语音识别成带与所识别的外语语音具有相同同步信号标记的用26个拉丁字母表示的外文：比如，我们从上述实时影像资料中提取下列一句英语句子的语音：
We use latin every day.
首先调用英语语音识别模块(13)，我们得到上述英文句子：
We use latin every day.
同理，更进一步采用以下的方法，我们可以完成从英语语音到汉语语音和汉语语音码的字幕转换:
通过外语翻译成汉语的机器翻译模块(14)将上述外文翻译成用26个拉丁字母表示的与该对应外文句子具有相同同步信号标记的汉语语音码句子:
调用外语翻译成汉语的机器翻译模块(14)我们得到以下翻译步骤和结果：
1．“we use latin every day.” （这是通过英语语音识别得到的英语句子）c)查预先储存在计算机系统中的标注单词或词组词性的英语词典建立单词或词组的词性串：
we（人称代词1）+ use（动词1） + latin（名词1） + every day（时间名词2）.d)根据上面得到的句子词性串查表得到预先储存在表中的英语句型：
we （人称代词1作主语）+ use（动词1作谓语）+ latin（名词1作宾语）+ every day（时间名词2作时间状语）
e)根据上面得到英语句型查表得到预先储存在表中的对应的汉语句型：
we （人称代词1作主语）+ every day（时间名词2作时间状语）+ use（动词1作谓语）+ latin（名词1作宾语）
此时查预先储存在计算机系统中的汉英—英汉双向词库进行单词或词组意思的转换，并按此句型顺序输出便完成英语翻译成汉语的转换，为了表明此机器翻译过程的可双向性，我们再作下面进一步的变换：
f)根据上面得到汉语句型查表得到预先储存在表中的与对应的汉语单词或词组词性相一致的词性串：
we （人称代词1）+ every day（时间名词2）+ use（动词1）+ latin（名词1） g)查预先储存在计算机系统中的汉英—英汉双向词典进行单词或词组意思的转换并按上面所得到的汉语句型的顺序输出：
wovmno（人称代词1）+ mwvtisa（时间名词2）+ xrvydu（动词1）+ laadqawnv（名词
1）.
最后我们得到：
wovmno mwvtisa xrvydu laadqawnv .（汉语语音码表示的汉语信息）
这样我们重复汉语译英语的过程就又得到了我们刚才交给系统翻译成英语的汉语句子，说明了该机器翻译方法具有双向可逆性。同理，也可以用上面的方法对复句进行双向翻译,这里就不再累述。

[0034] 再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给传统的视频画面或影像画面字幕叠加机模块6，根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面或影像画面同步信号标记的对应关系将字幕信息叠加在视频画面或影像画面上。

[0035] 同时将上述翻译成带同步信号标记的汉语语音码句子,通过汉语语音合成模块15合成成相应的带同步信号标记的汉语语音并与具有相同同步信号标记的带字幕的视频画面或影像画面合成在一起储存或同步输出。

[0036] 接下去计算机调用汉语语音合成模块15将上述汉语语音码转换成汉语语音，并在需要时将翻译得到的汉语语音码表示的汉语句子一并输出，这样就完成了所述的设备系统从英语语音到汉语语音和字幕的转换，该汉语语音合成模块15将汉语语音码转换成汉语语音的具体由以下步骤完成：仍以下的汉语语音码组成的句子为例:
wovmno mwvtisa xrvydu laadqawnv .
其意义用汉字表达为：
“我们每天使用拉丁文。”
在对汉语语音码表达的汉语信息进行汉语语音合成时，一般根据需要可以采用以下三种方法之一：
1．通过查汉语语音码与音节汉语语音合成文件对照表进行语音合成的方法：
查预先储存在计算机系统中的汉语语音码与音节汉语语音合成文件对照表后得到
与语音码对应的汉语语音的声音文件（为表述方便该声音文件用“相对应的音节汉语拼音.wav”表示，实际情况中是没有汉语拼音符号的，它只是预先储存在计算机系统中，可以通过一定的声音播放软件播放的表示相应音节汉语语音的声音文件。

[0037] wov（wǒ.wav） mno(men.wav) mwv (měi.wav) tisa(tiān.wav) xrv(shǐ.wav ) ydu(yòng.wav) laa(lā.wav) dqa(dīng.wav) wnv(wěn.wav).对查找到的代表该音节汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。

[0038] 2．通过查汉语单词语音码和单词汉语语音合成文件对照表进行语音合成的方法：查预先储存在计算机系统中的汉语单词语音码和单词语音合成文件对照表后得到预先储存在计算机系统中的与单词语音码对应的以单词为单位的汉语语音的声音文件（为表述方便该以单词为单位的汉语声音文件用“相对应的以单词为单位的汉语拼音.wav”表示，实际情况是没有汉语拼音符号的，它只是预先储存在计算机系统中，可以通过一定的声音播放软件播放的表示相应以单词为单位的汉语语音的声音文件）
wovmno(wǒmen.wav) mwvtisa (měitiān.wav) xrvydu(shǐyòng.wav)
laadqawnv(lādīngwěn.wav).
对查找到的以单词为单位代表该汉语语音的相应的声音文件用声音播放软件依次顺序播出,词与词之间采用比同一单词音节之间更长的时间间隔来依次连续播出,这样会听起来更接近按词朗读的效果,更符合人们听语音的习惯。

[0039] 3．通过查汉语语音码串和最大匹配语段汉语语音合成文件对照表进行语音合成的方法：该方法采用最大匹配法，通过查预先储存在计算机系统中的以最大语段为单位的汉语语音码串和语段汉语语音合成文件对照表输出相应的汉语语音。比如通过查预先储存在计算机系统中的最大语段为：“wovmno mwvtisa xrvydu 我们每天使用 ”和“hsuyyv laadqawnv汉语拉丁文”那么汉语语音合成按下面的方式进行：
Wovmno mwvtisa xrvydu（wǒmen měitiān shǐyòng.wav) hsuyyv laadqawnv (hànyǔ lādīngwěn.wav).
（为表述方便上述该以语段为单位的汉语声音文件用“相对应的以该语段为单位的汉语拼音.wav”表示，实际情况是没有汉语拼音符号的，它只是预先储存在计算机系统中，可以通过一定的声音播放软件播放的表示相应以该语段为单位的汉语语音的声音文件）在上述三种语音合成方法中第一种方法所需要的计算机系统语音文件储存空间最小，第三种所需要的计算机系统语音文件储存空间最大。

[0040] 有时为了校对的方便，我们需要将汉语语音码中的标点符号和移行号朗读出来，这就要对汉语语音码中的标点符号和移行号进行语音合成，为了使得汉语语音码所表达的汉语信息与ASCII码100%兼容，这里我们特别规定汉语语音码中的标点符号和移行号分别与英文的标点符号和移行号相同，在具体语音合成时我们只要将相应的预先储存在计算机系统中的标点符号和移行号的声音文件提取出来，用声音播放软件进行播放便可，比如：六种点号：句号“.”（jùhào.wav）、问号“？”（wènhào.wav）、感叹号“！”（gǎntànhào.wav）、逗号“，”（dòuhào.wav）、冒号“：”（màohào.wav）、分号“；”（fēnhào.wav）。

[0041] 七种标号：引号“ ” （yǐnhào.wav）、括号（）（kuòhào.wav）、破折号“-” （pòzhéhào.wav）、省略号…（shěngluèhào.wav）、着重号．（zhuózhònghào.wav）、书名号（（））（shūmínghào.wav）、间隔号. （jiàngéhào.wav）。

[0042] 一个移行号：移行号“-” （yíhánghào.wav）。

[0043] 上面列出了本发明所采用的与英语相同的六种点号、七种标号和一个移行号，括号中的“.wav”文件就是与标点符号或移行号发音相应的语音合成文件，当该语音合成文件是汉语的语音合成文件时，则该标点符号或移行号朗读出来的声音便是汉语相应的标点符号或移行号的声音。

[0044] 上述通过汉语语音合成模块15得到了相应的带同步信号标记的汉语语音，然后与具有相同同步信号标记的带中外文字幕的视频画面或影像画面合成在一起并通过上述音视频编码压缩模块8进行编码和压缩，经上述编码和压缩后再传输给网络传输模块9，再由网络传输模块9将编码和压缩后的上述具有相同同步信号标记的带中外文字幕和汉语语音的视频画面或影像画面传输到宽带网络，宽带网络将其传输到指定的带音视频解码解压缩软件服务器模块10上进行储存，带音视频音像播放软件的客户端模块12通过网络传输模块11登陆到上述带音视频解码解压缩软件服务器模块10就可以实时观看上述现场实时带中外文字幕和汉语语音的视频影像资料画面。

[0045] 更进一步在得到汉语语音码后，汉语语音码需要时可以通过汉语语音码汉字转换模块转换成汉字,该汉语语音码汉字转换模块可以内嵌在机器翻译模块5和14以及汉语语音码汉语与外语双向可逆机器翻译模块中，此时整个系统必须运行在汉字系统的计算机中, 汉语语音码或汉字或汉语拼音能够单独或者汉语语音码与汉字、汉语拼音，意义一致的外文对照显示、储存、输出,此时整个系统必须运行在汉字系统的计算机中，具体过程如下：通过调用汉语语音码汉字双向转换模块计算机通过以下步骤将汉语语音码转换成汉字：
通过分别查找汉语语音码与以词为单位的汉字和汉语拼音对照表可以方便地将汉语语音码转换成汉字和汉语拼音，比如：
wovmno 通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词和拼音音节或单词对照表得到wǒmen，再通过wǒmen查找到以词为单位的汉字，当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后，一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音，直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如： wovmno 可以转换为wǒmen，再通过wǒmen可以转换成 “我们”，这样wovmno和“我们”便直接建立了对应关系，需要时可以不通过汉语拼音wǒmen进行转换，而直接在wovmno和“我们”之间实现双向可逆转换。

[0046] 遇同音词时，可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词为单位的汉字选定。比如：ysvlune 上装满了邮包。ysvlune上装满了原油。结合上下文的联系可以知道：前面一句中的“ysvlune”代表邮轮，后面一句中的“ysvlune” 代表油轮，这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。

[0047] 上述双向可逆转换的结果既可以单独显示也可以对照显示，比如：原句：“我们每天使用汉语拉丁文。”用本发明方法计算机可以可逆地转换为以下几种形式：
1.“Wǒmen měitiān shǐyòng lādīngwěn。”
2.“wovmno mwvtisa xrvydu laadqawnv.”
3.“Wǒmen měitiān shǐyòng lādīngwěn。”
我们每天使用拉丁文。

[0048]4.“wovmno mwvtisa xrvydu laadqawnv.”
我们每天使用拉丁文。

[0049]5. “Wǒmen měitiān shǐyòng lādīngwěn。”
“wovmno mwvtisa xrvydu laadqawnv.”
为了让外国人或中国少数民族更方面地了解汉语的含义和学习汉语，也可以在每个对照的单词中插入相应的外语单词或少数民族文字，比如在下面的单词中加入相应的英语单词作中文意思的注解：
“wovmno Wǒmen mwvtisa měitiān xrvydu shǐyòng laadqawnv lādīngwěn 。”我们 We 每天every day 使用 use 拉丁文Latine。

[0050] 用上述方法，所述的设备系统对汉语语音与英语语音及其对应字幕实现了双向可逆转换，并且通过现有的视频画面或影像画面与字符信号叠加技术将汉语语音与英语语音及其对应字幕实现了双向可逆转换并与同步对应的视频画面或影像画面合成叠加储存或输出。

[0051] 以此类推，用上述方法，我们还可以实现汉语对其它外语，一种外语对另一种外语的双向可逆语音及其对应字幕的转换并与同步对应的视频画面或影像画面合成叠加储存或并通过所述的网络传输和服务器以及客户端可以实时观看转换后的语种的语音和中外文字幕的音像资料画面。

[0052] 最后值得指出的是：上述的汉语翻译成外语的机器翻译模块5和外语翻译成汉语的机器翻译模块14可以合并采用一种使用汉语语音码的汉语与外语双向可逆机器翻译模块。上述网络传输模块9或网络传输模块11，可以是有线网络传输模块也可以是3G、4G、wifi、wimax、蓝牙无线网络传输模块，在采用有线网络传输模块时，上述宽带网络是有线宽带网络，在采用无线网络传输模块时，上述宽带网络是无线宽带网，上述的汉语翻译成外语的机器翻译模块5和外语翻译成汉语的机器翻译模块14、以及使用汉语语音码的汉语与外语双向可逆机器翻译模块能够内嵌汉字和汉语拼音与汉语语音码双向转换模块，上述的汉语语音码，在汉字系统的计算机中可以通过上述汉字和汉语拼音与汉语语音码双向转换模块转换成汉字,汉语语音码或汉字能够单独或者汉语语音码与汉字、汉语拼音，意义一致的外文对照显示、储存、输出。这里就不在一一累述。

[0053] 依次类推，用上述设备，我们还可以实现汉语对其它外语，一种外语对另一种外语的双向可逆语音及其对应字幕的转换并与同步对应的视频画面或影像画面合成叠加储存并实时通过有线或无线网络输出汉语字幕或外语字幕或其对照字幕具有汉语语音或外语语音实时同步影像画面，进一步需要时可以从服务器上下载该音像资料并转换成各种便于播放的格式供电视台或多媒体机播放。

标题	发布/更新时间	阅读量
韵律结构分析装置与语音合成的装置及方法	2020-05-18	566
一种跨语言情感语音合成方法及系统	2020-05-19	38
POI相对位置信息语音播报方法	2020-05-24	279
汉语外语有声影像资料双向可逆语音转换并加注字幕方法	2020-05-26	382
投影仪设备的视频检索方法、装置、设备及存储介质	2020-05-12	581
System for tuning synthesized speech	2020-05-24	342
発音学習コンテンツ提供装置、システム、プログラム及び方法	2020-05-21	261
음성인식을 위한 언어모델 생성 장치 및 방법	2020-05-22	131
语音播报方法及装置	2020-05-16	1010
編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法	2020-05-25	604

汉语与外语自动实时语音翻译并标注字幕的音像录播设备

汉语与外语自动实时语音翻译并标注字幕的音像录播设备

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：