从音频文件中提取有声片段的方法、装置设备及存储介质专利检索-音频分割音频信号处理信号处理信号处理专利检索查询-专利查询网

从音频文件中提取有声片段的方法、装置设备及存储介质

阅读：714发布：2020-05-14

专利汇可以提供从音频文件中提取有声片段的方法、装置设备及存储介质专利检索，专利查询，专利分析的服务。并且本发明提供一种从音频文件中提取有声片段的方法、装置、设备及存储介质。其中，该方法包括：获取待处理音频文件；对所述待处理音频文件进行分割，得到多个音频片段；对每个所述音频片段进行语音识别处理，得到语音识别结果；基于所述语音识别结果判断有声片段并提取所述有声片段。本发明解决了处理长音频文件的效率低下等问题，提高了长音频文件中有声片段的定位效率和定位的准确性，以实现快速有效地从长音频文件中提取有声片段，节约时间，提高工作效率。，下面是从音频文件中提取有声片段的方法、装置设备及存储介质专利的具体信息内容。

权利要求

1.一种从音频文件中提取有声片段的方法，其特征在于，包括：
获取待处理音频文件；
对所述待处理音频文件进行分割，得到多个音频片段；
对每个所述音频片段进行语音识别，得到语音识别结果；
基于所述音频文件的语音识别结果判断有声片段并提取所述有声片段。
2.根据权利要求1所述的方法，其特征在于，所述语音识别结果包括以字为单位的文本，以及每个字在所述音频文件中的偏移位置。
3.根据权利要求2所述的方法，其特征在于，在得到多个音频片段后攒批进行所述语音识别处理，得到各个批次的所述语音识别结果。
4.根据权利要求3所述的方法，其特征在于，对于各个批次的所述语音识别进行排序合并，得到排序后的完整的所述语音识别结果。
5.根据权利要求4所述的方法，其特征在于，基于所述语音识别结果判断有声片段并提取，具体包括：
从头开始遍历所述语音识别结果，并基于所述语音识别结果是否存在文本判断当前音频片段是否有声；
当所述语音识别结果中存在文本时，判断为当前的音频片段有声；
根据该文本中的首字的偏移位置，记录有声片段的开始位置；
继续遍历所述文本，直至出现一个不存在文本的音频片段，以上一个音频片段中的文本中最后一个字所对应的偏移位置作为该有声片段的结束位置；
重复上述步骤，直至针对所述语音识别结果均已判断完毕，得到所述有声片段并提取。
6.根据权利要求5所述的方法，其特征在于，针对两个相邻的有声片段，当前一有声片段的语音识别结果中的文本的尾字所对应的偏移位置与后一有声片段的语音识别结果中的文本的首字所对应的偏移位置之差小于预定阈值时，将该两段有声片段进行合并输出。
7.一种音频分析装置，其特征在于，包括：
获取模块，用于获取待处理音频文件；
切分模块，用于对所述待处理音频文件进行分割，得到多个音频片段；
语音识别模块，用于对每个所述音频片段进行语音识别，得到语音识别结果；
提取模块，基于所述语音识别结果判断有声片段并提取所述有声片段。
8.根据权利要求7所述的装置，其特征在于，所述语音识别结果包括以字为单位的文本，以及每个字在所述音频文件中的偏移位置。
9.根据权利要求8所述的装置，其特征在于，所述语音识别模块具体用于：在得到多个音频片段后攒批进行所述语音识别处理，得到各个批次的所述语音识别结果。
10.根据权利要求9所述的装置，其特征在于，所述语音识别模块具体用于：对于各个批次的所述语音识别进行排序合并，得到排序后的完整的所述语音识别结果。

说明书全文

从音频文件中提取有声片段的方法、装置设备及存储介质

技术领域

[0001] 本发明涉及语音识别领域，尤其涉及一种从音频文件中提取有声片段的方法、装置、设备及计算机可读存储介质。

背景技术

[0002] 随着语音识别技术日趋成熟，语音识别技术已经被广泛应用于各个行业领域，伴随各种领域语音识别软件的出现，用户可以通过语音识别软件，将语音转换为相应的文字，使得用户无需再手动输入文字，给用户的生活和工作带来很大的便利。

[0003] 在处理长音频文件时，一般为了避免遗漏内容，会选择从头到尾完整听一遍音频文件，这样会花费大量时间，而长音频文件中往往包含大量冗余空白内容，这些空白内容音频不属于有效内容，耗费时间浪费人力，针对处理长音频文件的效率低下等问题，目前尚未提出有效的解决方案。

发明内容

[0004] 有鉴于此，本发明提供一种从音频文件中提取有声片段的方法、装置、设备及计算机可读存储介质，能够快速有效地在长音频文件中提取有用的音频文件，节约时间，提高工作效率。

[0005] 为解决上述技术问题，一方面，本发明实施例提供一种从音频文件中提取有声片段的方法，包括：

[0006] 获取待处理音频文件；对所述待处理音频文件进行分割，得到多个音频片段，可以按照时间大小或音频片段的大小进形切分；对每个所述音频片段进行语音识别处理，得到语音识别结果，识别结果包括每个音频片段的有声片段和无声片段，并在有声片段中得到语音信号或文字信息等，对多个音频片段的识别结果合并，以得到音频片段的完整的语音识别结果，其中可以采用语音端点检测技术(VAD)对每一个音频片段从带有噪声的语音中准确的定位出语音的开始和结束点，以对音频片段去除静音(无声片段)和噪音，以能够精准的对有声片段进行定位，基于所述语音识别结果判断有声片段并提取所述有声片段。

[0007] 根据本申请的实施例，提高了长音频文件中有声片段的定位效率和定位的准确性，以实现快速有效地从长音频文件中提取有声片段，节约时间，提高工作效率。

[0008] 在本申请第一方面的一个实施例中，所述语音识别结果包括以字为单位的文本，以及每个字在音频文件中的偏移位置。通过确定每个字在音频片段中的位置可以有效的提取该文本，以提高有声片段提取的速度。

[0009] 在本申请第一方面的一个实施例中，在得到多个音频片段后攒批进行所述语音识别处理，得到各个批次的所述语音识别结果。也就是说，由于在音频片段中可能有大量的无声音的片段，因此通过积攒大批量音频片段并进行的语音识别处理，可以提高处理结果，并能够快速分析长音频文件的内容。

[0010] 在本申请第一方面的一个实施例中，对于各个批次的所述语音识别进行排序合并处理，得到排序后的完整的所述语音识别结果，可以完整识别长音频文件的内容并排序。

[0011] 在本申请第一方面的一个实施例中，基于所述语音识别结果判断有声片段并提取，具体包括：从头开始遍历所述语音识别结果，并基于所述语音识别结果是否存在文本判断当前音频片段是否有声；当所述语音识别结果中存在文本时判断为当前的音频片段有声；根据该文本中的首字的偏移位置，记录有声片段的开始位置；继续遍历所述文本，直至出现一个不存在文本的音频片段，以上一个音频片段中的文本中最后一个字所对应的偏移位置作为该有声片段的结束位置；重复上述步骤，直至针对所述语音识别结果均已判断完毕，得到所述有声片段并提取。由此，可以快速有效地分析长音频文件，找到所有包含有效内容的音频文件片段。

[0012] 在本申请第一方面的一个实施例中，针对两个相邻的有声片段，当前一有声片段的语音识别结果中的文本的尾字所对应的偏移位置与后一有声片段的语音识别结果中的文本的首字所对应的偏移位置之差小于预定阈值时，将该两段有声片段进行合并输出。由此，可以找到需要合并的音频文件并合并。

[0013] 在本申请第一方面的一个实施例中，可以在获取所述待处理音频文件后进行过滤处理以删除噪音，此后进行所述分割。通过该方法可以得到清晰的音频文件，便于后期对音频文件的处理。

[0014] 第二方面，本发明实施例还提供了一种音频分析装置，包括：

[0015] 获取模块，用于获取待处理音频文件；

[0016] 切分模块，用于对所述待处理音频文件进行分割，得到多个音频片段；

[0017] 语音识别模块，用于对每个所述音频片段进行语音识别处理，得到语音识别结果；

[0018] 提取模块，基于所述语音识别结果判断有声片段并提取所述有声片段。

[0019] 根据本申请的实施例，能够快速有效地在长音频文件中提取有用的音频文件，节约时间，提高工作效率。

[0020] 在本申请第二方面的一个实施例中，所述语音识别结果包括以字为单位的文本，以及每个字在音频片段中的偏移位置。

[0021] 在本申请第二方面的一个实施例中，语音识别模块具体还用于，在得到多个音频片段后攒批进行所述语音识别处理，得到各个批次的所述语音识别结果。

[0022] 在本申请第二方面的一个实施例中，语音识别模块具体还用于，对于各个批次的所述语音识别进行排序合并处理，得到排序后的完整的所述语音识别结果。

[0023] 在本申请第二方面的一个实施例中，所述提取模块具体用于：

[0024] 从头开始遍历所述语音识别结果，并基于所述语音识别结果是否存在文本判断当前音频片段是否有声；

[0025] 当所述语音识别结果中存在文本时判断为当前的音频片段有声；

[0026] 根据该文本中的首字的偏移位置，记录有声片段的开始位置；

[0027] 继续遍历所述文本，直至出现一个不存在文本的音频片段，以上一个音频片段中的文本中最后一个字所对应的偏移位置作为该有声片段的结束位置；

[0028] 重复上述步骤，直至针对所述语音识别结果均已判断完毕，得到所述有声片段并提取。

[0029] 在本申请第二方面的一个实施例中，所述提取模块，针对两个相邻的有声片段，当前一有声片段的语音识别结果中的文本的尾字所对应的偏移位置与后一有声片段的语音识别结果中的文本的首字所对应的偏移位置之差小于预定阈值时，将该两段有声片段进行合并输出。

[0030] 在本申请第二方面的一个实施例中，在获取所述待处理音频文件后进行过滤处理以删除噪音，此后进行所述分割。

[0031] 第三方面，本发明实施例提供一种电子设备，包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行上述从音频文件中提取有声片段的方法。

[0032] 第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，程序执行上述的从音频文件中提取有声片段的方法。

[0033] 本发明的上述技术方案至少具有如下有益效果之一：

[0034] 根据在本发明实施例，通过切分长音频文件，对每段音频文件进行语音识别处理，以语音识别后每段音频对应的文本判断音频片段开始位置，以及音频片段中断的位置，从而快速有效地在长音频文件中提取有效内容的音频文件，节约时间，提高工作效率。附图说明

[0035] 图1为本发明实施例的从音频文件中提取有声片段的方法流程图；

[0036] 图2为本发明实施例的音频信号片段的示意图；

[0037] 图3为本发明实施例的截取音频信号片段的示意图。

[0038] 图4为本发明实施例的基于语音识别结果判断有声片段并提取的方法流程图；

[0039] 图5为本发明实施例的音频分析装置的示意图。

[0040] 图6为本发明实施例的电子设备的示意图；

具体实施方式

[0041] 为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

[0042] 如图1所示，本发明实施例的从音频文件中提取有声片段的方法，包括如下步骤：

[0043] 步骤101，获取待处理音频文件。

[0044] 具体地，在上述步骤中，音频文件包括MP3、WMA、WAVE和MOV等常见音频格式，音频文件可以通过话筒、麦克风等语音输入设备，或者带有麦克风的智能设备(例如，手机、平板电脑、笔记本等)输入语音数据。在步骤101中，获取待处理的音频文件，可以通过提交上传音频文件，得到待处理的音频文件，也可以通过输入音频文件路径，得到待处理的音频文件。

[0045] 步骤102，对待处理音频文件进行分割，得到多个音频片段。

[0046] 具体地，如图2，3所示，把音频文件按时间长度来切分，例如预设切分间隔设为30s，按顺序每30s切分成一个小音频文件，切分后得到若干批时长30s的音频片段文件。其中，后一次切分的音频片段文件的开始时间为前一次切分的音频片段文件的结束时间。并将切分后的多个音频片段文件按照顺序排列，并命名保存到指定路径下的文件夹中。进而得到一批音频片段文件，该音频片段固定时长30s。

[0047] 需要说明的是，作为一种可选的实施方式，本申请的其他实施例中也可以按照音频文件大小进行切分，例如每个音频文件大小设为1MB。

[0048] 步骤103，对每个音频片段进行语音识别处理，得到语音识别结果。

[0049] 具体地，通过语音识别技术，同时对若干音频片段按顺序进行批处理，可以识别音频文件的内容并输出成以字为单位的文本文件保存，文本文件可以保存在指定路径下的文件夹中。其中，语音识别结果中包含两组信息，一组是以字为单位的文本信息，另一组是字对应在音频文件中的偏移位置。

[0050] 此外，本申请中可以采用VAD技术对每一个音频片段中静音和噪音片段去除，以提高语音识别的结果，得到更加准确的文本信息，提高有声片段的定位准确性和效率。

[0051] 步骤104，基于语音识别结果判断有声片段并提取有声片段。

[0052] 具体地，在得到每批音频片段文件的文本文件后，进一步对文本文件内容做判断，当文本文件非空时，判断该文本文件包含有效内容，把非空文本文件保存到专用的文件夹中，并找到非空文本文件对应的音频文件片段，对应的音频片段就是有声片段，把对应的音频片段保存到专用的文件夹中。

[0053] 根据本申请的一个实施例，步骤103中，语音识别结果包括以字为单位的文本，以及每个字至在音频文件中的偏移位置。由此，可以根据文本文件信息，快速找到对应的音频文件。

[0054] 根据本申请的一个实施例，步骤103中，在得到多个音频片段后攒批进行语音识别处理，得到各个批次的语音识别结果。由此，对多个音频片段的批处理，可以大大提高分析音频速度，快速高效得到音频文件识别结果。

[0055] 根据本申请的一个实施例，对于各个批次的语音识别进行排序合并处理，得到排序后的语音识别结果。由此，排序合并后可以得到完整的音频分析结果。

[0056] 如图4所示，步骤104，基于语音识别结果判断有声片段并提取，具体包括：

[0057] 步骤3051，从头开始遍历语音识别结果，并基于语音识别结果是否存在文本判断当前音频片段是否有声；

[0058] 步骤3052，当语音识别结果中存在文本时判断为当前的音频片段有声；

[0059] 步骤3053，根据该文本中的首字的偏移位置，记录有声片段的开始位置；

[0060] 步骤3054，继续遍历文本，直至出现一个不存在文本的音频片段，以上一个音频片段中的文本中最后一个字所对应的偏移位置作为该有声片段的结束位置；

[0061] 步骤3054，重复上述步骤，直至针对语音识别结果均已判断完毕，得到有声片段并提取。

[0062] 具体地，在上述步骤中，通过遍历完整的识别结果，根据识别结果中的是否有文本来判断当前位置是否有声，有非空文本就有声，记录有声片段的开始位置，从开始位置继续遍历文本，直到找一个空文本，以空文本在音频文件中的偏移位置作为有声片段的结束位置。依此方法继续遍历识别结果，即可找到所有的有声音频片段。

[0063] 根据本申请的一个实施例，针对两个相邻的有声片段，当前一有声片段的语音识别结果中的文本的尾字所对应的偏移位置与后一有声片段的语音识别结果中的文本的首字所对应的偏移位置之差小于预定阈值时，将该两段有声片段进行合并输出。可以得到有序地整合语音识别结果。

[0064] 根据本申请的一个实施例，步骤102中，在获取待处理音频文件后进行过滤处理以删除噪音，此后进行分割。由此，可以得到清晰的音频文件，便于后续步骤对音频文件的处理。

[0065] 通过上述实施例公开的方案，提供了一种从音频文件中提取有声片段的方法，通过对语音识别技术的运用，准确高效地分析了音频文件的内容，将音频文件分析过程花费的时间大大缩短，节约人力，提高了工作效率，同时避免人工操作可能造成的音频文件内容的遗漏。

[0066] 本发明实施例还提供了一种音频分析装置，如图5所示，该装置包括：获取模块1001、切分模块1002、语音识别模块1003和提取模块1004。

[0067] 其中，获取模块1001，用于获取待处理音频文件；

[0068] 切分模块1002，用于对待处理音频文件进行分割，得到多个音频片段；

[0069] 语音识别模块1003，用于对每个音频片段进行语音识别处理，得到语音识别结果，所述语音识别结果包括以字为单位的文本，以及每个字在音频片段中的偏移位置。

[0070] 提取模块1004，基于语音识别结果判断有声片段并提取有声片段。

[0071] 根据本申请的实施例，能够快速有效地在长音频文件中提取有用的音频文件，节约时间，提高工作效率。

[0072] 根据本申请的一个实施例，语音识别模块具体还用于，在得到多个音频片段后攒批进行所述语音识别处理，得到各个批次的所述语音识别结果，对于各个批次的所述语音识别进行排序合并处理，得到排序后的完整的语音识别结果。

[0073] 根据本申请的一个实施例，所述提取模块具体用于从头开始遍历所述语音识别结果，并基于所述语音识别结果是否存在文本判断当前音频片段是否有声，当所述语音识别结果中存在文本时判断为当前的音频片段有声；根据该文本中的首字的偏移位置，记录有声片段的开始位置；继续遍历所述文本，直至出现一个不存在文本的音频片段，以上一个音频片段中的文本中最后一个字所对应的偏移位置作为该有声片段的结束位置；重复上述步骤，直至针对所述语音识别结果均已判断完毕，得到所述有声片段并提取。

[0074] 根据本申请的一个实施例，所述提取模块用于针对两个相邻的有声片段，当前一有声片段的语音识别结果中的文本的尾字所对应的偏移位置与后一有声片段的语音识别结果中的文本的首字所对应的偏移位置之差小于预定阈值时，将该两段有声片段进行合并输出。

[0075] 根据本申请的一个实施例，为了提高提取的有声片段的效率和准确度，在获取所述待处理音频文件后进行过滤处理以删除噪音，此后进行所述分割。此处需要说明的是，上述获取模块1001、切分模块1002、语音识别模块1003和提取模块1004对应于实施例1中的步骤101至401，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

[0076] 由上可知，在本申请上述实施例中，通过获取模块1001获取待处理音频文件，切分模块1002将获取到的待处理音频文件按照预设规则划分为多个文件较小的子语音数据，保存到指定文件夹，通过语音识别模块1003对每个音频片段进行语音识别处理，得到语音识别结果，最后通过提取模块1004基于语音识别结果判断有声片段并提取有声片段，提高了长音频文件中有声片段的定位效率和定位的准确性，以实现快速有效地从长音频文件中提取有声片段，节约时间，提高工作效率。进而解决了现有的长音频分析速度慢，效率低的技术问题。

[0077] 如图6所示，本发明实施例提供了一种电子设备，包括：处理器1401和存储器1402，在存储器1402中存储有计算机程序指令，其中，在计算机程序指令被处理器运行时，使得处理器1401执行以下步骤：

[0078] 获取待处理音频文件；

[0079] 对待处理音频文件进行分割，得到多个音频片段；

[0080] 对每个音频片段进行语音识别处理，得到语音识别结果；

[0081] 基于语音识别结果判断有声片段并提取有声片段。

[0082] 进一步地，如图6所示，电子设备还包括网络接口1403、输入设备1404、硬盘1405、和显示设备1406。

[0083] 上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器1401代表的一个或者多个中央处理器(CPU)，以及由存储器1402代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

[0084] 网络接口1403，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，并可以保存在硬盘1405中。

[0085] 输入设备1404，可以接收操作人员输入的各种指令，并发送给处理器1401以供执行。输入设备1404可以包括话筒、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

[0086] 显示设备1406，可以将处理器1401执行指令获得的结果进行显示。

[0087] 存储器1402，用于存储操作系统运行所必须的程序和数据，以及处理器1401计算过程中的中间结果等数据。

[0088] 可以理解，本发明实施例中的存储器1402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器1402旨在包括但不限于这些和任意其它适合类型的存储器。

[0089] 在一些实施方式中，存储器1402存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统14021和应用程序14014。

[0090] 其中，操作系统14021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序14014，包含各种应用程序，例如播放器(Media Player)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序14014中。

[0091] 上述处理器1401，当调用并执行存储器1402中所存储的应用程序和数据，具体的，可以是应用程序14014中存储的程序或指令时，获取待处理音频文件；对待处理音频文件进行分割，得到多个音频片段；对每个音频片段进行语音识别处理，得到语音识别结果；基于语音识别结果判断有声片段并提取有声片段。

[0092] 本发明上述实施例揭示的方法可以应用于处理器1401中，或者由处理器1401实现。处理器1401可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器1401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1401可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1402，处理器1401读取存储器1402中的信息，结合其硬件完成上述方法的步骤。

[0093] 可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。

[0094] 对于软件实现，可通过执行本文功能的模块(例如过程、函数等)来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

[0095] 具体地，处理器1401还用于读取计算机程序，执行如下步骤:

[0096] 语音识别结果包括以字为单位的文本，以及每个字至在音频文件中的偏移位置。

[0097] 优选地，在得到多个音频片段后攒批进行语音识别处理，得到各个批次的语音识别结果。

[0098] 优选地，对于各个批次的语音识别进行排序合并处理，得到排序后的完整的语音识别结果。

[0099] 优选地，基于语音识别结果判断有声片段并提取，具体包括：

[0100] 从头开始遍历语音识别结果，并基于语音识别结果是否存在文本判断当前音频片段是否有声；

[0101] 当语音识别结果中存在文本时判断为当前的音频片段有声；

[0102] 根据该文本中的首字的偏移位置，记录有声片段的开始位置；

[0103] 继续遍历文本，直至出现一个不存在文本的音频片段，以上一个音频片段中的文本中最后一个字所对应的偏移位置作为该有声片段的结束位置；

[0104] 重复上述步骤，直至针对语音识别结果均已判断完毕，得到有声片段并提取。

[0105] 优选地，针对两个相邻的有声片段，当前一有声片段的语音识别结果中的文本的尾字所对应的偏移位置与后一有声片段的语音识别结果中的文本的首字所对应的偏移位置之差小于预定阈值时，将该两段有声片段进行合并输出。

[0106] 在获取待处理音频文件后进行过滤处理以删除噪音，此后进行分割。

[0107] 另外，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器运行时，使得处理器执行以下步骤：

[0108] 获取待处理音频文件；

[0109] 对待处理音频文件进行分割，得到多个音频片段；

[0110] 对每个音频片段进行语音识别处理，得到语音识别结果；

[0111] 基于语音识别结果判断有声片段并提取有声片段。

[0112] 在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

[0113] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

[0114] 上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

[0115] 以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

标题	发布/更新时间	阅读量
一种影片多版本整合存储和提取系统	2020-05-08	323
一种单声道说话人分离模型、训练方法和分离方法	2020-05-11	119
一种钢琴学习系统	2020-05-14	514
基于音频的圈养大熊猫自然交配结果的预测方法及系统	2020-05-13	955
一种基于DFT的双通道语声分离方法	2020-05-14	72
图像处理方法、装置、计算机存储介质及电子设备	2020-05-08	549
在native层实现无缝录像的方法、装置及终端设备	2020-05-08	161
从音频文件中提取有声片段的方法、装置设备及存储介质	2020-05-14	714
一种基于深度模糊森林的情绪识别方法	2020-05-11	169
一种带式振膜的励磁扬声器	2020-05-14	817

从音频文件中提取有声片段的方法、装置设备及存储介质

从音频文件中提取有声片段的方法、装置设备及存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：