首页 / 专利库 / 软件 / 协同著作 / 实现多语字幕翻译的方法

实现多语字幕翻译的方法

阅读:777发布:2020-05-14

专利汇可以提供实现多语字幕翻译的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种实现多语字幕翻译的方法,主要解决 现有技术 存在字幕翻译只能由字幕组独立完成,无法实现多人协同翻译,且翻译成本大,翻译速度慢,而且存在翻译完成人与发包人间著作权的问题。本发明通过采用包括以下步骤:1)根据音视频文件的原始字幕或语音属性将其按时间维度分解成多个音视频碎片文件;2)音视频碎片文件分发至SNS社区;3)SNS社区用户针对一个或多个音视频碎片文件进行多语翻译;4)选取各音视频碎片文件各语种最佳的翻译内容,并整合成为该语种相应的翻译字幕的技术方案较好地解决了该问题,可用于实现多语字幕翻译。,下面是实现多语字幕翻译的方法专利的具体信息内容。

1.一种实现多语字幕翻译的方法,包括以下步骤:
1)根据音视频文件的原始字幕或语音属性将其按时间维度分解成多个音视频碎片文件;
2)音视频碎片文件分发至SNS社区;所述SNS为社会性网络服务;
3)SNS社区用户针对一个或多个音视频碎片文件进行多语翻译;
4)选取各音视频碎片文件各语种最佳的翻译内容,并整合成为该语种相应的翻译字幕。
2.根据权利要求1所述实现多语字幕翻译的方法,其特征在于所述步骤1)具体包括以下过程:
11)按音视频文件的原始字幕进行解析,或按音视频文件的语音属性进行解析;
12)对解析完成的音视频文件进行分解碎片化并生成音视频碎片文件。
3.根据权利要求1所述实现多语字幕翻译的方法,其特征在于所述步骤2)至步骤4)的碎片化文件发布及生成翻译视频具体包括以下过程:
22)将已碎片化的音视频碎片文件发布至SNS社区;
33)SNS社区用户对自己感兴趣的片段进行翻译;
44)后台人员收集每段音视频片段的各语种的最佳翻译,并将同一语种的各碎片最佳翻译整合生成该语种字幕文件。
4.根据权利要求1所述实现多语字幕翻译的方法,其特征在于所述按时间维度分解包括以进入连续语音段之前的静音段或非语音段的时间点作为句子的开始时间,以结束连续语音段时的最后一个语音段的时间点作为句子的结束时间。
5.根据权利要求1所述实现多语字幕翻译的方法,其特征在于所述按时间维度分解包括将包含2个静音段或非语音段的音频段设为停顿最小长度。
6.根据权利要求1所述实现多语字幕翻译的方法,其特征在于所述按时间维度分解包括将包含5个语音段的音频段设为句子最小长度。
7.根据权利要求1所述实现多语字幕翻译的方法,其特征在于所述按时间维度分解包括将包含30个语音段的音频段设为句子最大长度。
8.根据权利要求2所述实现多语字幕翻译的方法,其特征在于所述按音视频文件的原始字幕进行解析包括:判断原始字幕文件是否为文本字幕格式,如果是,则解析字幕文件;
否则,将字幕文件转化为文本字格式后再解析字幕文件。
9.根据权利要求2所述实现多语字幕翻译的方法,其特征在于所述按音视频文件的语音属性进行解析包括:判断视频文件不含原始字幕后将视频文件中的音频部分进行剥离生成音频文件,然后解析音频文件。
10.根据权利要求2所述实现多语字幕翻译的方法,其特征在于所述按音视频文件的语音属性进行解析包括根据音频文件中的不同场景,区分开对话声音和其他声音的语音识别过程。

说明书全文

实现多语字幕翻译的方法

技术领域

[0001] 本发明涉及一种实现多语字幕翻译的方法。

背景技术

[0002] 视频碎片化是一个近年来才逐渐发展的技术。国内各大以视频播放、视频分享为主的网站推出了视频碎片化分享的功能,即用户可以使用网站提供的工具从一个视频文件中截取想要分享的视频片段并将其分享,但也仅限于此。例如文献CN102185880A公开了一种视频直播负载均衡方法和系统,终端向根服务器发出播放视频碎片文件的请求;根服务器接收终端发出的播放视频碎片文件的请求,查找与终端最近的边际服务器地址,重定向终端的连接地址为边际服务器地址;终端向边际服务器请求视频碎片文件;如果边际服务器存有视频碎片文件,则边际服务器将视频碎片文件返回给终端;如果边际服务器没有视频碎片文件,则向边际服务器登记的直播源服务器请求视频碎片文件,直播源服务器将视频碎片文件返回给终端。而国外的viki等网站虽已有字幕在线翻译功能,但其翻译过程中,音视频文件并未进行碎片化,翻译人员在线翻译时便捷性不够好。
[0003] 对于翻译领域来说,一个较长的音视频文件需要多名不同语种的翻译人员专心致志耗费较长的时间,视频碎片化可以更加有效利用翻译人员的碎片化时间,加快音视频文件字幕翻译的进度,且同一个视频片段可以汲取多名翻译人员的翻译建议,提升翻译质量。此时,如何实现系统自动合理地将音视频文件碎片化成为了一个技术瓶颈

发明内容

[0004] 本发明所要解决的技术问题是现有技术存在字幕翻译只能由字幕组独立完成,无法实现多人协同翻译,且翻译成本大,翻译速度慢,而且存在翻译完成人与发包人间著作权的问题,提供一种新的实现多语字幕翻译的方法。该方法能够自动合理地将音视频文件碎片化并生成相应的音视频碎片文件,实现在最短时间内,以最低的成本,完成最佳的多语种字幕翻译。
[0005] 为了解决上述技术问题,本发明采用的技术方案如下:一种实现多语字幕翻译的方法,包括以下步骤:
[0006] 1)根据音视频文件的原始字幕或语音属性将其按时间维度分解成多个音视频碎片文件;
[0007] 2)音视频碎片文件分发至SNS社区;所述SNS为社会性网络服务;
[0008] 3)SNS社区用户针对一个或多个音视频碎片文件进行多语翻译;
[0009] 4)选取各音视频碎片文件各语种最佳的翻译内容,并整合成为该语种相应的翻译字幕。
[0010] 上述技术方案中,优选地,所述步骤1)具体包括以下过程:
[0011] 11)按音视频文件的原始字幕进行解析,或按音视频文件的语音属性进行解析;
[0012] 12)对解析完成的音视频文件进行分解碎片化并生成音视频碎片文件。
[0013] 上述技术方案中,优选地,所述步骤2)至步骤4)的碎片化文件发布及生成翻译视频具体包括以下过程:
[0014] 22)将已碎片化的音视频碎片文件发布至SNS社区;
[0015] 33)SNS社区用户对自己感兴趣的片段进行翻译;
[0016] 44)后台人员收集每段音视频片段的各语种的最佳翻译,并将同一语种的各碎片最佳翻译整合生成该语种字幕文件。
[0017] 上述技术方案中,优选地,所述按时间维度分解包括以进入连续语音段之前的静音段或非语音段的时间点作为句子的开始时间,以结束连续语音段时的最后一个语音段的时间点作为句子的结束时间。
[0018] 上述技术方案中,优选地,所述按时间维度分解包括将包含2个静音段或非语音段的音频段设为停顿最小长度。
[0019] 上述技术方案中,优选地,所述按时间维度分解包括将包含5个语音段的音频段设为句子最小长度。
[0020] 上述技术方案中,优选地,所述按时间维度分解包括将包含30个语音段的音频段设为句子最大长度。
[0021] 上述技术方案中,优选地,所述按音视频文件的原始字幕进行解析包括:判断原始字幕文件是否为文本字幕格式,如果是,则解析字幕文件;否则,将字幕文件转化为文本字格式后再解析字幕文件。
[0022] 上述技术方案中,优选地,所述按音视频文件的语音属性进行解析包括:判断视频文件不含原始字幕后将视频文件中的音频部分进行剥离生成音频文件,然后解析音频文件。
[0023] 上述技术方案中,优选地,所述按音视频文件的语音属性进行解析包括根据音频文件中的不同场景,区分开对话声音和其他声音的语音识别过程。
[0024] 本发明将碎片化技术应用于多语字幕的翻译中,采用原始字幕解析方法与语音分析方法相结合的方式对音视频文件进行解析和碎片化。具体来说,针对有原始字幕的音视频文件,剥离字幕文件并对其进行解析,根据字幕文件解析结果对音视频文件进行碎片化分割;针对无原始字幕的音视频文件,需要剥离视频文件中声音部分生成音频文件进行分析(音频文件则直接进行分析),分析音频文件后,系统得出音视频文件中的各片段时间点,并据此对其进行碎片化分割生成碎片文件。采用本发明方法,能够自动合理地将音视频文件碎片化并生成相应的音视频碎片文件,实现在最短时间内,以最低的成本,完成最佳的多语种字幕翻译,取得了较好的技术效果。附图说明
[0025] 图1为本发明的基于音视频碎片化技术的多语字幕翻译实现方法流程示意图。
[0026] 图2为本发明的音视频文件碎片化示意图。
[0027] 为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0028] 图1为本发明的一种基于音视频碎片化技术的多语字幕翻译实现方法流程示意图,如图所示,所述方法采用以下步骤:
[0029] 1)用户上传音视频文件;
[0030] 2)按音视频文件的原始字幕或按音视频文件的语音属性进行解析,并对解析完成的音视频文件进行分解碎片化并生成音视频碎片文件;
[0031] 3)音视频碎片文件分发至SNS社区;
[0032] 4)SNS社区用户参与音视频碎片文件的翻译,即针对一个或多个音视频碎片文件进行多语翻译;
[0033] 5)选取各碎片文件各语种最佳的翻译内容;
[0034] 6)整合碎片化翻译内容,生成各语种的字幕。
[0035] 其中,上述对音视频字幕文件解析及碎片化过程包括:将绝大多数已知的字幕文件转换成srt字幕文件,对其进行解析;另外,对不含字幕的音视频文件根据从视频文件中提取的音频文件中的不同场景,区分开对话声音和其他声音,进行基于特定的语音分析,并据此得出音视频文件碎片化分割方案。比如可以根据不同的说话人各自独有的发音特点进行基于特定人的语音识别,并据此得出音视频文件碎片化分割方案。
[0036] 上述方法中按时间维度将音视频文件分解成多个音视频碎片文件过程中,为有效实现对句子长短和数目的有效控制,避免会造成很多极短的句子或出现若干长句情况,在采用时间维度进行分解的同时分别对停顿最小长度、句子最小长度和句子最大长度加以限制。限制停顿最小长度的作用是忽略较短的伴音信息,比如说话人的瞬时换气等,以保证一句话的完整性。在实际应用中,设定2个音频段为最小停顿长度,即连续语音单元中的单个非语音单元不会被视为一个停顿。句子最小长度限制的作用是滤除掉音频的短时无效消息,比如说话人的咳嗽等,在实际应用中,设定5个音频段为句子最小长度。句子最大长度限制的作用是避免句子单元过长,采用该方法尽快使句子结束,在实际应用中,设定30个音频段为句子最大长度。
[0037] 上述方法中生成各语种的字幕在显示时,为方便观众观看字幕,可将结果中较长的句子分为多行显示。
[0038] 图2为本发明的音视频文件碎片化示意图,如图所示,包括以下过程:
[0039] 1)用户上传音视频文件;
[0040] 2)对音视频文件进行分析;
[0041] 3)判断音视频文件是否含有原始字幕;
[0042] 4)如果音视频文件含有原始字幕,则进一步判断音视频文件是否为srt格式;否则,将视频文件中的音频部分进行剥离,生成音频文件;
[0043] 5)如果含有原始字幕的音视频文件为srt格式,则按音视频文件的原始字幕进行解析;否则将含有原始字幕的音视频文件转换为srt格式,然后再按音视频文件的原始字幕进行解析;
[0044] 6)对将视频文件中的音频部分进行剥离所得的音频文件按音视频文件的语音属性进行解析;
[0045] 7)根据解析完成的音视频文件属性选择合适的生成音视频文件碎片化分割方案;
[0046] 8)根据音视频文件碎片化分割方案生成音视频文件碎片文件。
[0047] 上述对音视频文件进行碎片化的过程包括对视频文件中提取的音频流通过音频分类区分出音频中语音部分和非语音部分,将不含说话内容的飞语音部分分离出去,并将语音部分切分成若干“类句子”单元。对于音频分类系统可在高斯混合模型(Gaussian MixtureModel,GMM)、K-近邻(K-Nearest Neighbor,KNN)或支持矢量机(Support Vector Machine,SVM)之间进行分类器选择,可以设置诸如长、段长等配置参数。
[0048] 下面通过实施例对本发明作进一步的阐述。

具体实施方式

[0049] 【实施例1】
[0050] 参照图1和图2所述的方法,采用如下的部分核心代码:
[0051]
[0052]
[0053]
[0054] 以2008年《新闻联播》音频中随机选取的邢质斌讲话的55个句子进行了测试,所选取的音频句子来自演播室,采用本发明方法进行字幕翻译,词句及音节识别精度均达98.8%,翻译精度达98.6%。
[0055] 【实施例2】
[0056] 采用与【实施例1】相同的部分核心代码,以2010年《新闻30分》音频中随机选取的郎永淳讲话的100个句子进行了测试,所选取的音频句子来自演播室,采用本发明方法进行字幕翻译,词句及音节识别精度均达98.2%,翻译精度达98.5%。
[0057] 【实施例3】
[0058] 采用与【实施例1】相同的部分核心代码,以2012年《非常6+1》音频中随机选取的参与者讲话的400个句子进行了测试,所选取的音频句子来自演播室和室外等各种场景,采用本发明方法进行字幕翻译,词句及音节识别精度均达98%,翻译精度达98.3%。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈