首页 / 专利分类库 / 乐器;声学 / 模型训练方法、电子设备、存储介质及程序产品

模型训练方法、电子设备、存储介质及程序产品

申请号 CN202410108323.6 申请日 2024-01-25 公开(公告)号 CN117894315A 公开(公告)日 2024-04-16
申请人 出门问问(苏州)信息科技有限公司; 发明人 张莉娜; 魏光辉; 宋莎莎;
摘要 本公开提供了模型训练方法、 电子 设备、存储介质及程序产品。本公开还提供的模型训练方法包括:获取多媒体文件集;对于多媒体文件集中任一多媒体文件,将该多媒体文件的语音输入第一 语音识别 模型,得到语音识别结果;对该多媒体文件的字幕进行光学字符识别,得到文本识别结果;根据多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。
权利要求

1.一种模型训练方法,其特征在于,包括:
获取多媒体文件集;
对于所述多媒体文件集中任一多媒体文件,将该多媒体文件的语音输入第一语音识别模型,得到语音识别结果;
对该多媒体文件的字幕进行光学字符识别,得到文本识别结果;以及
根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。
2.根据权利要求1所述的模型训练方法,其特征在于,
在所述对该多媒体文件的字幕进行光学字符识别之前,还包括:
获取所述语音识别结果中句子对应的起始时间和终止时间;
所述对该多媒体文件的字幕进行光学字符识别,包括:根据句子对应的起始时间和终止时间对该多媒体文件的字幕进行光学字符识别。
3.根据权利要求1或2所述的模型训练方法,其特征在于,所述根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型,包括:
根据所述语音识别结果和文本识别结果获取字误率;
根据所述语音识别结果、文本识别结果和字误率确定目标识别结果;以及根据所述多媒体文件集中多媒体文件的语音和目标识别结果训练所述第二语音识别模型。
4.根据权利要求3所述的模型训练方法,其特征在于,所述根据所述语音识别结果和文本识别结果获取字误率,包括:
将所述语音识别结果作为参考文本,获取所述文本识别结果的字误率;或者,将所述文本识别结果作为参考文本,获取所述语音识别结果的字误率。
5.根据权利要求3所述的模型训练方法,其特征在于,所述将所述语音识别结果作为参考文本获取字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,包括:
判断所述语音识别结果中句子的字误率是否小于预设第一阈值
如果小于,将该句子对应的文本识别结果作为所述目标识别结果;以及如果不小于,将该句子对应的语音识别结果作为所述目标识别结果。
6.根据权利要求5所述模型训练方法,其特征在于,所述将所述语音识别结果作为参考文本计算字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,还包括:
判断所述语音识别结果中句子的字误率是否小于预设第二阈值;
如果不小于,推移该句子对应的多媒体文件,得到推移文件;
对所述推移文件的字幕进行光学字符识别,得到推移识别结果;以及
根据该句子的语音识别结果和推移识别结果确定目标识别结果。
7.根据权利要求6所述的模型训练方法,其特征在于,在所述根据该句子的语音识别结果和推移识别结果确定目标识别结果之前,还包括:
根据该句子对应的文本识别结果和推移识别结果获取变化率;
判断所述变化率是否超过预设第三阈值;
如果不超过,将该句子对应的语音识别结果作为所述目标识别结果;以及如果超过,执行根据该句子的语音识别结果和推移识别结果确定目标识别结果步骤。
8.一种电子设备,其特征在于,包括:
存储器,所述存储器存储执行指令;以及
处理器,所述处理器执行所述存储器存储的执行指令,实现权利要求1至7中任一项所述的模型训练方法。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时实现如权利要求1至7中任一项所述的模型训练方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至7中任一项所述的模型训练方法。

说明书全文

模型训练方法、电子设备、存储介质及程序产品

技术领域

[0001] 本公开涉及一种模型训练方法、电子设备、存储介质及程序产品。

背景技术

[0002] 语音识别也称为自动语音识别(Automatic Speech Recognition,ASR),其目标是用电脑自动将人类的语音内容转换为相应的文字。由于深度学习和数据技术的进步,近年来语音识别技术取得了长足的进步。
[0003] 现有技术中,一般通过预先训练的语音识别模型实现语音识别,而训练语音识别模型的过程中需要准备大量的语音数据和对应的文本数据,上述数据一般通过人工方式获取。
[0004] 然而,采用人工方式获取数据的效率较低,导致语音识别模型的训练效率较低;且采用人工方式获取的语音数据训练语音识别模型,模型的鲁棒性较差。发明内容
[0005] 本公开提供了一种模型训练方法、电子设备、存储介质及程序产品。
[0006] 根据本公开的一个方面,提供一种模型训练方法,包括:
[0007] 获取多媒体文件集;
[0008] 对于所述多媒体文件集中任一多媒体文件,将该多媒体文件的语音输入第一语音识别模型,得到语音识别结果;
[0009] 对该多媒体文件的字幕进行光学字符识别,得到文本识别结果;
[0010] 根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。
[0011] 根据本公开的至少一个实施方式的模型训练方法,在所述对该多媒体文件的字幕进行光学字符识别之前,还包括:
[0012] 获取所述语音识别结果中句子对应的起始时间和终止时间;
[0013] 所述对该多媒体文件的字幕进行光学字符识别,包括:根据句子对应的起始时间和终止时间对该多媒体文件的字幕进行光学字符识别。
[0014] 根据本公开的至少一个实施方式的模型训练方法,所述根据所述多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型,包括:
[0015] 根据所述语音识别结果和文本识别结果获取字误率;
[0016] 根据所述语音识别结果、文本识别结果和字误率确定目标识别结果;
[0017] 根据所述多媒体文件集中多媒体文件的语音和目标识别结果训练所述第二语音识别模型。
[0018] 根据本公开的至少一个实施方式的模型训练方法,所述根据所述语音识别结果和文本识别结果获取字误率,包括:
[0019] 将所述语音识别结果作为参考文本,获取所述文本识别结果的字误率;或者,[0020] 将所述文本识别结果作为参考文本,获取所述语音识别结果的字误率。
[0021] 根据本公开的至少一个实施方式的模型训练方法,所述将所述语音识别结果作为参考文本获取字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,包括:
[0022] 判断所述语音识别结果中句子的字误率是否小于预设第一阈值
[0023] 如果小于,将该句子对应的文本识别结果作为所述目标识别结果;
[0024] 如果不小于,将该句子对应的语音识别结果作为所述目标识别结果。
[0025] 根据本公开的至少一个实施方式的模型训练方法,所述将所述语音识别结果作为参考文本计算字误率时,所述根据所述语音识别结果、文本识别结果和字误率确定目标识别结果,还包括:
[0026] 判断所述语音识别结果中句子的字误率是否小于预设第二阈值;
[0027] 如果不小于,推移该句子对应的多媒体文件,得到推移文件;
[0028] 对所述推移文件的字幕进行光学字符识别,得到推移识别结果;
[0029] 根据该句子的语音识别结果和推移识别结果确定目标识别结果。
[0030] 根据本公开的至少一个实施方式的模型训练方法,在所述根据该句子的语音识别结果和推移识别结果确定目标识别结果之前,还包括:
[0031] 根据该句子对应的文本识别结果和推移识别结果获取变化率;
[0032] 判断所述变化率是否超过预设第三阈值;
[0033] 如果不超过,将该句子对应的语音识别结果作为所述目标识别结果;
[0034] 如果超过,执行根据该句子的语音识别结果和推移识别结果确定目标识别结果步骤。
[0035] 根据本公开的另一个方面,提供一种电子设备,包括:存储器,所述存储器存储执行指令;处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行本公开任一个实施方式的模型训练方法。
[0036] 根据本公开的又一个方面,提供一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现本公开任一个实施方式的模型训练方法。
[0037] 根据本公开的再一个方面,提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本公开任一个实施方式的模型训练方法。附图说明
[0038] 附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0039] 图1为本公开实施例1提供的模型训练方法的结构示意图一。
[0040] 图2为本公开实施例1提供的模型训练方法的结构示意图二。
[0041] 图3为图1所示的模型训练方法中训练第二语音识别模型方法的结构示意图。
[0042] 图4为图3所示的训练第二语音识别模型方法中确定目标识别结果方法的流程图一。
[0043] 图5为图3所示的训练第二语音识别模型方法中确定目标识别结果方法的流程图二。
[0044] 图6为图3所示的训练第二语音识别模型方法中确定目标识别结果方法的流程图三。
[0045] 图7为本公开实施例2提供的模型训练装置的结构示意图一。
[0046] 图8为本公开实施例2提供的模型训练装置的结构示意图二。

具体实施方式

[0047] 下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0048] 需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0049] 除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0050] 在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
[0051] 当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
[0052] 本文使用的术语是为了描述具体实施例的目的,而不意图限制本申请的范围。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0053] 本公开的模型训练方法可应用于本公开的模型训练装置,该模型训练装置可被配置于服务器上。
[0054] 下文结合图1至图6对本公开的模型训练方法进行详细说明。
[0055] 实施例1:
[0056] 图1为本公开的一个实施方式的模型训练方法的流程图。
[0057] 参考图1,本实施方式的模型训练方法M100,包括:
[0058] 步骤S110,获取多媒体文件集。
[0059] 步骤S120,对于多媒体文件集中任一多媒体文件,将该多媒体文件的语音输入第一语音识别模型,得到语音识别结果。
[0060] 步骤S130,对该多媒体文件的字幕进行光学字符识别,得到文本识别结果。
[0061] 步骤S140,根据多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。
[0062] 本公开提供的模型训练方法,通过多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型,实现模型训练。由于通过包括语音和字幕的多媒体文件即可训练第二语音识别模型,无需人工,从而提高语音识别模型的训练效率,进而提升用户体验;且由于多媒体文件的音频信息比较复杂,通过多媒体文件训练语音识别模型还能够提高语音识别的鲁棒性,进而提高语音识别模型的实用性和准确率。该方法解决了现有技术中采用人工方式获取数据的效率较低,导致语音识别模型的训练效率较低;且采用人工方式获取的语音数据训练语音识别模型,模型的鲁棒性较差的问题。另外,通过光学字符识别结合语音识别,还能够解决语音识别场景中同音不同字等竞合问题,进一步提高语音识别的准确率。
[0063] 在本公开的一些实施方式中,通过步骤S110获取的多媒体文件集中多媒体文件包括语音和字幕,该多媒体文件可以为视频、内嵌字幕的音频文件等。
[0064] 在本公开的一些实施方式中,步骤S120中第一语音识别模型与步骤S140中第二语音识别模型可以为相同的语音识别模型,也可以为不同的语音识别模型。特别地,步骤S140中第二语音识别模型可以预设初始语音识别模型,即通过步骤S140直接对初始语音模型进行训练;步骤S140中第二语音识别模型也可以是初步训练好的语音模型(如通过开源数据库获取的语音和文本数据训练初始语音模型得到,或通过其他方式获取现有的语音模型等)。
[0065] 在本公开的一些实施方式中,步骤S120中多媒体文件的语音可以使用视频编辑工具或音频提取工具等提取音频后输入第一语音识别模型;特别地,为提高模型训练效果和鲁棒性,在输入第一语音识别模型之前,还可以对提取的音频进行降采样、均衡化、降噪等预处理。
[0066] 在本公开的一些实施方式中,通过步骤S140训练第二语音识别模型的过程中,可以按句子划分后训练;具体地,对于任一多媒体文件,该过程可以包括:按句划分语音识别结果,得到至少一个分段识别结果;对于任一分段识别结果,获取该句子对应的文本识别结果和分段语音;分别根据每个分段训练数据训练第二语音识别模型;每个分段训练数据包括分段识别结果、对应的文本识别结果和分段语音。
[0067] 进一步地,为防止一个多媒体文件中包括重复语音,导致语音识别结果和文本识别结果难以对应,如图2所示,在步骤S130之前,本公开提供的模型训练方法,还可以包括:
[0068] 步骤S150,获取语音识别结果中句子对应的起始时间和终止时间。
[0069] 此时,步骤S130具体为,根据句子对应的起始时间和终止时间对该多媒体文件的字幕进行光学字符识别。
[0070] 在本公开的一些实施方式中,通过该步骤S130进行光学字符识别(Optical Character Recognition,OCR)时,可以根据句子对应的起始时间和终止时间截取多媒体文件中对应的子文件,然后对子文件进行光学字符识别。
[0071] 在本公开的一些实施方式中,如图3所示,通过步骤S140训练第二语音识别模型的过程可以包括:步骤S141,根据语音识别结果和文本识别结果获取字误率;步骤S142,根据语音识别结果、文本识别结果和字误率确定目标识别结果;步骤S143,根据多媒体文件集中多媒体文件的语音和目标识别结果训练第二语音识别模型。其中,通过步骤S141获取字误率的方式可以为将语音识别结果作为参考文本,获取文本识别结果的字误率;通过步骤S141获取字误率的方式也可以为将文本识别结果作为参考文本,获取语音识别结果的字误率。
[0072] 在本公开的一些实施方式中,步骤S141可以将两个文本对齐,然后找到两个文本之间匹配和不匹配的字,然后将不匹配的字数除以参考文本的总字数,以得到字误率。
[0073] 在本公开的一些实施方式中,以步骤S141具体为将语音识别文本作为参考文本获取字误率为例,如图4所示,通过步骤S142确定目标识别结果的过程可以包括:步骤S1421,判断语音识别结果中句子的字误率是否小于预设第一阈值;如果小于,执行步骤S1422;如果不小于,执行步骤S1423;步骤S1422,将该句子对应的文本识别结果作为目标识别结果;步骤S1423,将该句子对应的语音识别结果作为目标识别结果。
[0074] 进一步地,为防止语音识别结果和文本识别结果未对齐,导致字误率较大,如图5所示,通过步骤S142确定目标识别结果的过程还可以包括:步骤S1424,判断语音识别结果中句子的字误率是否小于预设第二阈值;步骤S1425,如果不小于,推移该句子对应的多媒体文件,得到推移文件;步骤S1426,对推移文件的字幕进行光学字符识别,得到推移识别结果;步骤S1427,根据该句子的语音识别结果和推移识别结果确定目标识别结果。
[0075] 在本公开的一些实施方式中,图4和图5可以结合使用,此时通过步骤S1421确定不小于预设第一阈值时,可以直接通过步骤S1424判断是否小于预设第二阈值,如果不小于,执行步骤S1425;如果小于,执行步骤S1423,上述过程与图4和图5所示的相似,在此不再一一赘述。
[0076] 在本公开的一些实施方式中,通过步骤S1425推移文件的方式可以为向前和/或向后推移,该推移的大小可以按需设置,如推移n个、n秒等。向前和/或向后推移时,可以改变终止和/或起始位置;特别地,向前推移时,也可以不改变终止位置;向后推移时,还可以不改变起始位置。
[0077] 此时,为防止推移后数据变化不大,重复对比计算增加计算量,如图6所示,在步骤S1427之前,还可以包括:步骤S1428,根据该句子对应的文本识别结果和推移识别结果获取变化率;步骤S1429,判断变化率是否超过预设第三阈值;如果超过,执行步骤S1427;如果不超过,执行步骤S1430;步骤S1430,将该句子对应的语音识别结果作为目标识别结果。
[0078] 在本公开的一些实施方式中,如果推移包括多种推移方式时,可以对每种方式分别执行步骤S1428和步骤S1429过程。以存在A、B和C共3中推移方式为例,上述过程可以为,采用A方式通过步骤S1425推移,得到第一文件;通过步骤S1426获取对应的第一结果;通过步骤S1428获取第一变化率;通过步骤S1429判断第一变化率是否超过预设第三阈值;如果超过,执行步骤S1427;否则,采用B方式继续执行上述过程,直至所有方式执行完毕,最终如果仍然不超过,执行步骤S1430。
[0079] 在本公开的一些实施方式中,对于语音识别结果中的各个句子,可以重复上述过程分别确定目标识别结果后,形成训练数据集并对第二语音识别模型进行训练。以文本识别结果作为参考文本确定目标识别结果的过程,与上述过程相似,在此不再一一赘述。
[0080] 实施例2:
[0081] 图7至8示出了采用处理系统的硬件实现方式的模型训练装置示例图。
[0082] 该装置可以包括执行上述流程图中各个或几个步骤的相应模。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
[0083] 该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备电压调节器、功率管理电路、外部天线等的各种其它电路1400连接。
[0084] 总线1100可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended Industry Standard Component)总线等。总线可以分为地址总线数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
[0085] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为:表示包括一个或多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。本公开的优选实施方式的范围可以包括其他实现方式,其中可以不按所描述的顺序,例如可以根据所涉及的功能按基本同时方式或按相反顺序来执行功能,这应被本领域技术人员所理解。处理器可以用于执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,存储于计算机可读存储介质,例如存储器。在一些实施方式中,软件程序的部分或全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载后并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何合适方式(例如,借助于固件)而被配置为执行上述方法之一。
[0086] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
[0087] 就本说明书而言,“可读存储介质”可以是任何包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置、及便携式只读存储器(CDROM)。另外,可读存储介质甚至可以是可打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
[0088] 应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(PGA)、现场可编程门阵列(FPGA)等。
[0089] 本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成。程序可以存储于一种可读存储介质中。程序在执行时,包括实施方法的步骤之一或其组合。
[0090] 此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
[0091] 如图7所示,根据本公开的模型训练装置,可以包括
[0092] 文件集获取模块1010,用于获取多媒体文件集。
[0093] 语音识别模块1020,用于对于多媒体文件集中任一多媒体文件,将该多媒体文件的语音输入第一语音识别模型,得到语音识别结果。
[0094] 文本识别模块1030,用于对该多媒体文件的字幕进行光学字符识别,得到文本识别结果。
[0095] 模型训练模块1040,用于根据多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型。
[0096] 进一步地,本公开提供的模型训练装置,还可以包括:
[0097] 时间戳模块1050,用于获取语音识别结果中句子对应的起始时间和终止时间。
[0098] 文本识别模块1030,具体用于根据句子对应的起始时间和终止时间对该多媒体文件的字幕进行光学字符识别。
[0099] 进一步地,本公开提供的模型训练装置中模型训练模块1040,可以包括:
[0100] 字误率获取子模块1041,用于根据语音识别结果和文本识别结果获取字误率。
[0101] 目标获取子模块1042,用于根据语音识别结果、文本识别结果和字误率确定目标识别结果。
[0102] 训练子模块1043,用于根据多媒体文件集中多媒体文件的语音和目标识别结果训练第二语音识别模型。
[0103] 其中,目标获取子模块1042可以包括:
[0104] 第一判断单元1051,用于判断语音识别结果中句子的字误率是否小于预设第一阈值。
[0105] 第二结果单元1052,用于如果小于,将该句子对应的文本识别结果作为目标识别结果。
[0106] 第二结果单元1053,用于如果不小于,将该句子对应的语音识别结果作为目标识别结果。
[0107] 该目标获取子模块1042,还可以包括:
[0108] 第二判断单元1054,用于判断语音识别结果中句子的字误率是否小于预设第二阈值。
[0109] 推移单元1055,用于如果不小于,推移该句子对应的多媒体文件,得到推移文件。
[0110] 推移识别单元1056,用于对推移文件的字幕进行光学字符识别,得到推移识别结果。
[0111] 目标识别单元1057,用于根据该句子的语音识别结果和推移识别结果确定目标识别结果。
[0112] 该目标获取子模块1042,还可以包括:
[0113] 变化率单元1058,用于根据该句子对应的文本识别结果和推移识别结果获取变化率。
[0114] 第三判断单元1059,用于判断变化率是否超过预设第三阈值。
[0115] 第三结果单元1060,用于如果不超过,将该句子对应的语音识别结果作为目标识别结果。
[0116] 本公开提供的模型训练装置,通过上述模块/子模块/单元实现模型训练的过程,与本公开实施例1提供的相似,在此不再一一赘述。图8为模型训练装置包括上述全部模块/子模块/单元时的结构,模型训练装置仅包括上述部分模块/子模块/单元时,结构与图7所示的相似,在此不再一一赘述。
[0117] 本公开提供的模型训练装置,通过多媒体文件集中多媒体文件的语音、语音识别结果和文本识别结果训练第二语音识别模型,实现模型训练。由于通过包括语音和字幕的多媒体文件即可训练第二语音识别模型,无需人工,从而提高语音识别模型的训练效率,进而提升用户体验;且由于多媒体文件的音频信息比较复杂,通过多媒体文件训练语音识别模型还能够提高语音识别的鲁棒性,进而提高语音识别模型的实用性和准确率。该装置解决了现有技术中采用人工方式获取数据的效率较低,导致语音识别模型的训练效率较低;且采用人工方式获取的语音数据训练语音识别模型,模型的鲁棒性较差的问题。另外,通过光学字符识别结合语音识别,还能够解决语音识别场景中同音不同字等竞合问题,进一步提高语音识别的准确率。
[0118] 本公开还提供了一种电子设备,包括:存储器,存储器存储执行指令;以及处理器或其他硬件模块,处理器或其他硬件模块执行存储器存储的执行指令,使得处理器或其他硬件模块执行上述的模型训练方法。
[0119] 本公开还提供了一种可读存储介质,可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现上述的模型训练方法。
[0120] 本公开还提供了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述的模型训练方法。
[0121] 在本说明书的描述中,参考术语“一个实施方式/实施例”、“一些实施方式/实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必是在相同的实施方式/实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式/实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/实施例或示例以及不同实施方式/方式或示例的特征进行结合和组合。
[0122] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0123] 本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
QQ群二维码
意见反馈