音频处理方法、装置、终端和计算机可读存储介质专利检索-音频分割音频信号处理信号处理信号处理专利检索查询-专利查询网

音频处理方法、装置、终端和计算机可读存储介质

阅读：194发布：2020-05-12

专利汇可以提供音频处理方法、装置、终端和计算机可读存储介质专利检索，专利查询，专利分析的服务。并且本发明提出了一种音频处理方法、装置、终端和计算机可读存储介质，其中，音频处理方法，包括：根据指定识别方式生成待处理音频的标记信息；根据标记信息对待处理音频进行标记，并生成标记音频；根据标记结果生成标记音频的声源列表。通过本发明的技术方案，基于对待处理音频进行标记，根据标记结果生成标记音频的声源列表，可以准确和快速的查找出用户需要的相关音频的信息，满足了大部分人查询需求，提升了用户查询体验。，下面是音频处理方法、装置、终端和计算机可读存储介质专利的具体信息内容。

权利要求

1.一种音频处理方法，其特征在于，包括：
根据指定识别方式生成待处理音频的标记信息；
根据所述标记信息对所述待处理音频进行标记，并生成标记音频；
根据标记结果生成所述标记音频的声源列表。
2.根据权利要求1所述的音频处理方法，其特征在于，所述根据指定识别方式生成待处理音频的标记信息，具体包括：
根据声纹识别方式识别所述待处理音频中的至少一个声纹特征，以将所述至少一个声纹特征确定为所述标记信息。
3.根据权利要求2所述的音频处理方法，其特征在于，所述根据标记结果生成所述标记音频的声源列表，具体包括：
若一段所述待处理音频中包括多个所述声纹特征，则根据多个所述声纹特征分割所述待处理音频；
将分割后的所述标记音频根据所述声纹标记进行分类，以根据分类结果生成所述声源列表。
4.根据权利要求2所述的音频处理方法，其特征在于，还包括：
若每个所述声纹标记对应多段所述标记音频，根据所述声纹标记对属于同类的多段所述标记音频执行合成操作。
5.根据权利要求1所述的音频处理方法，其特征在于，所述根据指定识别方式生成待处理音频的标记信息，具体包括：
提取所述待处理音频的时间戳信息，将所述时间戳信息确定为所述标记信息。
6.根据权利要求5所述的音频处理方法，其特征在于，所述根据标记结果生成所述标记音频的声源列表，具体包括：
确定所述时间戳信息所属的时间段；
将所述标记音频根据所述时间段进行分类，以根据分类结果生成所述声源列表。
7.根据权利要求1所述的音频处理方法，其特征在于，所述根据指定识别方式生成待处理音频的标记信息，具体包括：
识别所述待处理音频的语义信息，将所述语义信息确定为所述标记信息。
8.根据权利要求7所述的音频处理方法，其特征在于，所述根据标记结果生成所述标记音频的声源列表，具体包括：
将所述标记音频根据所述语义信息进行分类，以根据分类结果生成所述声源列表。
9.根据权利要求1所述的音频处理方法，其特征在于，所述在识别待处理音频中的至少一个声纹特征，并对所述至少一个声纹特征进行声纹标记前，还包括：
通过麦克风接收所述待处理音频、通过无线信道或有线信道接收所述待处理音频或在视频中提取所述待处理音频中的至少一种。
10.根据权利要求1至9中任一项所述的音频处理方法，其特征在于，所述根据标记结果生成所述标记音频的声源列表，具体包括：
将所述标记音频以列表的形式显示在所述显示屏上，并根据所述标记信息生成对应的显示标识符。
11.根据权利要求1至9中任一项所述的音频处理方法，其特征在于，还包括：
响应于查询指令，确定所述查询指令对应的查询参数；
根据所述查询参数对所述声源列表执行查询操作，以配置出与所述查询参数匹配的目标信息。
12.根据权利要求11所述的音频处理方法，其特征在于，所述响应于查询指令，确定所述查询指令对应的查询参数，具体包括：
所述查询指令为音频查询指令，在接收到所述音频查询指令时，提取所述音频查询指令中的声纹特征，以将所述声纹特征确定为所述查询参数；和/或
所述查询指令包括内容关键词，以将所述内容关键词确定为所述查询参数；和/或所述查询指令包括时间关键词，以将所述时间关键词确定为所述查询参数。
13.根据权利要求11所述的音频处理方法，其特征在于，还包括：
对所述目标信息执行语音识别操作，以将所述目标信息转换为文本信息。
14.一种音频处理装置，其特征在于，包括：存储器和处理器；
所述存储器，用于存储程序代码；
所述处理器，用于调用所述程序代码执行如权利要求1至13中任一项所述的音频处理方法。
15.一种终端，其特征在于，包括：
如权利要求14所述的音频处理装置。
16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述方法的步骤。

说明书全文

音频处理方法、装置、终端和计算机可读存储介质

技术领域

[0001] 本发明涉及音频处理技术领域，具体而言，涉及一种音频处理方法、一种音频处理装置、一种终端和一种计算机可读存储介质。

背景技术

[0002] 目前，大多数人都会使用手机进行录音或拍视频，继而保存下来一些需要的内容。

[0003] 现有技术中，语音和声纹识别仅用于手机屏幕解锁。录音和视频只能通过标签声纹而标记，应用端只能人工去寻找某个片段，机械的识别某个人的某个特定指令，这种方法的应用范围很小，用户使用体验较差。

[0004] 另外，整个说明书对背景技术的任何讨论，并不代表该背景技术一定是所属领域技术人员所知晓的现有技术，整个说明书中的对现有技术的任何讨论并不代表该现有技术一定是广泛公知的或一定构成本领域的公知常识。

发明内容

[0005] 本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

[0006] 有鉴于此，本发明的一个目的在于提供一种音频处理方法。

[0007] 本发明的另一个目的在于提供一种音频处理装置。

[0008] 本发明的又一个目的在于提供一种终端。

[0009] 本发明的又一个目的在于提供一种计算机可读存储介质。

[0010] 为了实现上述目的，本发明第一方面的技术方案提供了一种音频处理方法，包括：根据指定识别方式生成待处理音频的标记信息；根据标记信息对待处理音频进行标记，并生成标记音频；根据标记结果生成标记音频的声源列表。

[0011] 在该技术方案中，基于对待处理音频进行标记，根据标记结果生成标记音频的声源列表，可以准确和快速的查找出用户需要的相关音频的信息，满足了大部分人查询的需求，提升了用户查询体验。

[0012] 在上述技术方案中，根据指定识别方式生成待处理音频的标记信息，具体包括：根据声纹识别方式识别待处理音频中的至少一个声纹特征，以将至少一个声纹特征确定为标记信息。

[0013] 其中，声纹是用电学仪器显示的携带言语信息的声波频道。声纹不仅具有特定性，而且有相对稳定性的特点。对于成年人来说，人的声音可保持长期相对稳定不变。讲话者如果故意模仿他人声音和语气，即使模仿的惟妙惟肖，讲话者的声纹也始终相同。

[0014] 在该技术方案中，通过对获取的至少一个待处理音频中的声纹特征进行声纹标记，当用户想要找需要的音频时，可以在声纹标记过的待处理音频中查找，使得查找方便和快捷。

[0015] 在上述技术方案中，根据标记结果生成标记音频的声源列表，具体包括：若一段待处理音频中包括多个声纹特征，则根据多个声纹特征分割待处理音频；将分割后的标记音频根据声纹标记进行分类，以根据分类结果生成声源列表。

[0016] 在该技术方案中，根据多个声纹特征分割待处理音频，将分割后的标记音频根据声纹标记进行分类，可以在检测到具有多个声纹特征时，根据声纹特征将待处理音频切割为多段音频数据，将多段音频数据根据声纹标记进行分类，可以准确的找出用户需要的音频，提升用户查询体验。

[0017] 在上述技术方案中，还包括：若每个声纹标记对应多段标记音频，根据声纹标记对属于同类的多段标记音频执行合成操作。

[0018] 在该技术方案中，基于对属于同类的多段标记音频执行合成操作，可以将不是在一个时间段的同类的音频放在一起，当用户想要找同一类的音频时，准确而快速的将这类音频找出来。

[0019] 在上述技术方案中，根据指定识别方式生成待处理音频的标记信息，具体包括：提取待处理音频的时间戳信息，将时间戳信息确定为标记信息。

[0020] 在该技术方案中，通过将待处理音频的时间戳信息作为标记信息，使得用户可以准确的查找相应时间段的音频。

[0021] 在上述技术方案中，根据标记结果生成标记音频的声源列表，具体包括：确定时间戳信息所属的时间段；将标记音频根据时间段进行分类，以根据分类结果生成声源列表。

[0022] 在该技术方案中，通过对每一类的音频信息进行不同时间段的子类划分，根据分类结果生成声源列表，生成声源列表中记录了详细的待处理音频的获取时间，在用户查找某个时间段某类音频信息的时候可以准确和便捷的找出相应音频信息，提升了用户的查询体验。

[0023] 在上述技术方案中，根据指定识别方式生成待处理音频的标记信息，具体包括：识别待处理音频的语义信息，将语义信息确定为标记信息。

[0024] 在该技术方案中，通过识别待处理音频，将待处理音频的语义信息得到，并进行标记，可以在用户想要查找音频中的某一段话的时候，准确找出相应的音频信息。

[0025] 在上述技术方案中，根据标记结果生成标记音频的声源列表，具体包括：将标记音频根据语义信息进行分类，以根据分类结果生成声源列表。

[0026] 在该技术方案中，通过将标记的音频根据语义信息进行分类，可以将同一类的语义信息放在一起，方便用户查找。

[0027] 在上述技术方案中，在识别待处理音频中的至少一个声纹特征，并对至少一个声纹特征进行声纹标记前，还包括：通过麦克风接收待处理音频、通过无线信道或有线信道接收待处理音频或在视频中提取待处理音频中的至少一种。

[0028] 在该技术方案中，通过麦克风接收待处理音频可以加强音频音量，通过无线信道可以快速的接收待处理音频或在视频中提取待处理音频，通过有线信道可以稳定而不受干扰的接收待处理音频或在视频中提取待处理音频。

[0029] 在上述技术方案中，根据标记结果生成标记音频的声源列表，具体包括：将标记音频以列表的形式显示在显示屏上，并根据标记信息生成对应的显示标识符。

[0030] 在该技术方案中，基于将标记的音频以列表的形式显示在显示屏上，使得用户可以第一时间就看到想要查找的音频，更加直观。

[0031] 在上述技术方案中，还包括：响应于查询指令，确定查询指令对应的查询参数；根据查询参数对声源列表执行查询操作，以配置出与查询参数匹配的目标信息。

[0032] 在该技术方案中，基于查询指令确定查询参数，其中，查询参数可以具有多种类型，比如基于关键字的查询、基于时间的查询和基于声纹特征的查询等，基于该查询参数在已有的音频数据中执行查询操作，以得到匹配的可视化的音频信息。

[0033] 在上述技术方案中，响应于查询指令，确定查询指令对应的查询参数，具体包括：查询指令为音频查询指令，在接收到音频查询指令时，提取音频查询指令中的声纹特征，以将声纹特征确定为查询参数；和/或查询指令包括内容关键词，以将内容关键词确定为查询参数；和/或查询指令包括时间关键词，以将时间关键词确定为查询参数。

[0034] 在该技术方案中，基于音频查询指令中的声纹特征、内容关键词和时间关键词作为查询参数，可以配置出与查询参数匹配的音频信息，准确而快速的找到用户需要的音频。在上述技术方案中，还包括：对目标信息执行语音识别操作，以将目标信息转换为文本信息。

[0035] 在该技术方案中，通过将音频信息转换为文本信息，用户可以基于文本信息准确的找到相应的音频信息，提升了用户查询体验。

[0036] 本发明第二方面的技术方案提供了一种音频处理装置，该控制装置包括处理器，处理器执行计算机程序时实现如上述任一项技术方案限定的音频处理方法。

[0037] 故而具有上述任一项技术方案限定的技术效果，在此不再赘述。

[0038] 本发明第三方面的技术方案提供了一种终端，如上述任一项技术方案限定的音频处理装置。该音频处理装置的处理器执行计算机程序时实现上述任一项技术方案限定的音频处理方法。

[0039] 故而具有上述任一项技术方案限定的音频处理方法技术效果，在此不再赘述。

[0040] 本发明的第四方面的技术方案提供了一种计算机可读存储介质，计算机程序被处理器执行时实现上述任一项技术方案限定的音频处理方法的步骤，故而具有上述任一项技术方案限定的音频处理方法的技术效果，在此不再赘述。

[0041] 本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。附图说明

[0042] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

[0043] 图1示出了根据本发明一个实施例的音频处理方法的流程示意图；

[0044] 图2示出了根据本发明又一个实施例的音频处理方法的流程示意图；

[0045] 图3示出了根据本发明又一个实施例的音频处理方法的流程示意图；

[0046] 图4示出了根据本发明又一个实施例的音频处理方法的流程示意图；

[0047] 图5示出了根据本发明的一个实施例的音频处理装置的示意框图；

[0048] 图6示出了根据本发明的一个实施例的终端的示意框图；

[0049] 图7示出了根据本发明的一个实施例的计算机可读存储介质的示意框图。

具体实施方式

[0050] 为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

[0051] 在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

[0052] 下面参照图1至图7描述根据本发明的一些实施例。

[0053] 实施例一

[0054] 如图1所示，示出了根据本发明一个实施例的音频处理方法的流程示意图，包括：

[0055] 步骤S102，根据指定识别方式生成待处理音频的标记信息。

[0056] 步骤S104，根据标记信息对待处理音频进行标记，并生成标记音频。

[0057] 步骤S106，根据标记结果生成标记音频的声源列表。

[0058] 在该实施例中，基于对待处理音频进行标记，根据标记结果生成标记音频的声源列表，可以准确和快速的查找出用户需要的相关音频的信息，满足了大部分人查询的需求，提升了用户查询体验。

[0059] 在上述实施例中，根据指定识别方式生成待处理音频的标记信息，具体包括：根据声纹识别方式识别待处理音频中的至少一个声纹特征，以将至少一个声纹特征确定为标记信息。

[0060] 其中，声纹是用电学仪器显示的携带言语信息的声波频道。声纹不仅具有特定性，而且有相对稳定性的特点。对于成年人来说，人的声音可保持长期相对稳定不变。讲话者如果故意模仿他人声音和语气，即使模仿的惟妙惟肖，讲话者的声纹也始终相同。

[0061] 在该实施例中，通过对获取的至少一个待处理音频中的声纹特征进行声纹标记，当用户想要找需要的音频时，可以在声纹标记过的待处理音频中查找，使得查找方便和快捷。

[0062] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：若一段待处理音频中包括多个声纹特征，则根据多个声纹特征分割待处理音频；将分割后的标记音频根据声纹标记进行分类，以根据分类结果生成声源列表。

[0063] 在该实施例中，根据多个声纹特征分割待处理音频，将分割后的标记音频根据声纹标记进行分类，可以在检测到具有多个声纹特征时，根据声纹特征将待处理音频切割为多段音频数据，将多段音频数据根据声纹标记进行分类，可以准确的找出用户需要的音频，提升用户查询体验。

[0064] 在上述实施例中，还包括：若每个声纹标记对应多段标记音频，根据声纹标记对属于同类的多段标记音频执行合成操作。

[0065] 在该实施例中，基于对属于同类的多段标记音频执行合成操作，可以将不是在一个时间段的同类的音频放在一起，当用户想要找同一类的音频时，准确而快速的将这类音频找出来。

[0066] 在上述实施例中，根据指定识别方式生成待处理音频的标记信息，具体包括：提取待处理音频的时间戳信息，将时间戳信息确定为标记信息。

[0067] 在该实施例中，通过将待处理音频的时间戳信息作为标记信息，使得用户可以准确的查找相应时间段的音频。

[0068] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：确定时间戳信息所属的时间段；将标记音频根据时间段进行分类，以根据分类结果生成声源列表。

[0069] 在该实施例中，通过对每一类的音频信息进行不同时间段的子类划分，根据分类结果生成声源列表，生成声源列表中记录了详细的待处理音频的获取时间，在用户查找某个时间段某类音频信息的时候可以准确和便捷的找出相应音频信息，提升了用户的查询体验。

[0070] 在上述实施例中，根据指定识别方式生成待处理音频的标记信息，具体包括：识别待处理音频的语义信息，将语义信息确定为标记信息。

[0071] 在该实施例中，通过识别待处理音频，将待处理音频的语义信息得到，并进行标记，可以在用户想要查找音频中的某一段话的时候，准确找出相应的音频信息。

[0072] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：将标记音频根据语义信息进行分类，以根据分类结果生成声源列表。

[0073] 在该实施例中，通过将标记的音频根据语义信息进行分类，可以将同一类的语义信息放在一起，方便用户查找。

[0074] 在上述实施例中，在识别待处理音频中的至少一个声纹特征，并对至少一个声纹特征进行声纹标记前，还包括：通过麦克风接收待处理音频、通过无线信道或有线信道接收待处理音频或在视频中提取待处理音频中的至少一种。

[0075] 在该实施例中，通过麦克风接收待处理音频可以加强音频音量，通过无线信道可以快速的接收待处理音频或在视频中提取待处理音频，通过有线信道可以稳定而不受干扰的接收待处理音频或在视频中提取待处理音频。

[0076] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：将标记音频以列表的形式显示在显示屏上，并根据标记信息生成对应的显示标识符。

[0077] 在该实施例中，基于将标记的音频以列表的形式显示在显示屏上，使得用户可以第一时间就看到想要查找的音频，更加直观。

[0078] 在上述实施例中，还包括：响应于查询指令，确定查询指令对应的查询参数；根据查询参数对声源列表执行查询操作，以配置出与查询参数匹配的目标信息。

[0079] 在该实施例中，基于查询指令确定查询参数，其中，查询参数可以具有多种类型，比如基于关键字的查询、基于时间的查询和基于声纹特征的查询等，基于该查询参数在已有的音频数据中执行查询操作，以得到匹配的可视化的音频信息。

[0080] 在上述实施例中，响应于查询指令，确定查询指令对应的查询参数，具体包括：查询指令为音频查询指令，在接收到音频查询指令时，提取音频查询指令中的声纹特征，以将声纹特征确定为查询参数；和/或查询指令包括内容关键词，以将内容关键词确定为查询参数；和/或查询指令包括时间关键词，以将时间关键词确定为查询参数。

[0081] 在该实施例中，基于音频查询指令中的声纹特征、内容关键词和时间关键词作为查询参数，可以配置出与查询参数匹配的音频信息，准确而快速的找到用户需要的音频。

[0082] 在上述实施例中，还包括：对目标信息执行语音识别操作，以将目标信息转换为文本信息。

[0083] 在该实施例中，通过将音频信息转换为文本信息，用户可以基于文本信息准确的找到相应的音频信息，提升了用户查询体验。

[0084] 实施例二

[0085] 如图2所示，示出了根据本发明又一个实施例的音频处理方法的流程示意图，包括：

[0086] 步骤S202，获取音频信息。

[0087] 步骤S204，根据声纹识别方式识别待处理音频中的至少一个声纹特征，将至少一个声纹特征确定为标记信息。

[0088] 步骤S206，生成可视化的声源列表。

[0089] 步骤S208，对可视化的声源列表进行分类、合成和分享。

[0090] 步骤S210，提取需求声源信息。

[0091] 其中，获取音频信息的方式包括：麦克风收取声音、选取某一段视频和选取某一段音频。当获取了音频信息，智能语音芯片配合算法处理，根据不同的声音特征分辨不同的声音，并根据不同人的声音进行声纹标记，例如A、B和C等等；根据声纹标记的列表，输出声音信息，生成可视化的声源列表(A、B和C等等)；根据声源信息，实现了可视化选择操作，例如：列表中有3个声源(A、B和C)，多段声音(1、2、3和4等等)，可将A对应的1、2、3和4等多段声音独立于B和C的声音提取出来；还可以有后续操作，例如对提供可视化的声源列表进行分类(根据时间分)、合成(把都是A的多段声音合成在一起)和分享(压缩后分享某段语音)等。

[0092] 实施例三

[0093] 如图3所示，示出了根据本发明又一个实施例的音频处理方法的流程示意图，包括：

[0094] 步骤S302，提供一段音频，智能语音芯片计算出声音特征。

[0095] 步骤S304，与需要搜索的视频和音频片段进行比对。

[0096] 步骤S306，提取出比对相似程度较高的的片段，并标记为A。

[0097] 步骤S308，将A的结果提取出，列出清单，提供可视化操作。

[0098] 实施例四

[0099] 如图4所示，示出了根据本发明又一个实施例的音频处理方法的流程示意图，包括：

[0100] 步骤S402，获取音频信息。

[0101] 步骤S404，智能语音芯片配合算法处理，将音频信息转变为文本信息。

[0102] 步骤S406，基于文本信息，提供可视化的列表。

[0103] 其中，音频信息获取方式包括：麦克风收取声音、选取某一段视频和选取某一段音频。当获取音频信息，智能语音芯片配合算法处理，将音频信息翻译和理解，转变为文本信息，根据文本信息，与可视化的声源列表进行匹配，得到用户预期的音频信息。

[0104] 实施例五

[0105] 如图5所示，本发明的实施例还公开了一种音频处理装置500，该音频处理装置500包括处理器502，处理器502执行计算机程序时实现如上述任一实施例的音频处理方法。故而具有上述任一实施例的技术效果，在此不再赘述。

[0106] 其中，上述处理器包括MCU(Micro-programmed Control Unit，微程序控制器)、CPU(Central Processing Unit，中央处理机)、DSP(Digital Signal Processor，数字信号处理器)、单片机和嵌入式设备中的至少一种逻辑计算器件。

[0107] 实施例六

[0108] 如图6所示，本发明的实施例还提供了一种终端600，如上述任一项实施例限定的音频处理装置500；该音频处理装置的处理器执行计算机程序时实现上述任一项实施例限定的音频处理方法。故而具有上述任一实施例的技术效果，在此不再赘述。

[0109] 实施例七

[0110] 如图7所示，本发明的实施例还提供了一种计算机可读存储介质700，该计算机可读存储介质700中存储有计算机程序702，计算机程序702被处理器执行时实现上述任一实施例公开的控制方法的步骤，故而具有上述任一实施例的控制方法的技术效果，在此不再赘述。

[0111] 在该实施例中，计算机程序702被处理器执行时实现以下步骤：

[0112] 根据指定识别方式生成待处理音频的标记信息；根据标记信息对待处理音频进行标记，并生成标记音频；根据标记结果生成标记音频的声源列表。

[0113] 在该实施例中，基于对待处理音频进行标记，根据标记结果生成标记音频的声源列表，可以准确和快速的查找出用户需要的相关音频的信息，满足了大部分人查询的需求，提升了用户查询体验。

[0114] 在上述实施例中，根据指定识别方式生成待处理音频的标记信息，具体包括：根据声纹识别方式识别待处理音频中的至少一个声纹特征，以将至少一个声纹特征确定为标记信息。

[0115] 其中，声纹是用电学仪器显示的携带言语信息的声波频道。声纹不仅具有特定性，而且有相对稳定性的特点。对于成年人来说，人的声音可保持长期相对稳定不变。讲话者如果故意模仿他人声音和语气，即使模仿的惟妙惟肖，讲话者的声纹也始终相同。

[0116] 在该实施例中，通过对获取的至少一个待处理音频中的声纹特征进行声纹标记，当用户想要找需要的音频时，可以在声纹标记过的待处理音频中查找，使得查找方便和快捷。

[0117] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：若一段待处理音频中包括多个声纹特征，则根据多个声纹特征分割待处理音频；将分割后的标记音频根据声纹标记进行分类，以根据分类结果生成声源列表。

[0118] 在该实施例中，根据多个声纹特征分割待处理音频，将分割后的标记音频根据声纹标记进行分类，可以在检测到具有多个声纹特征时，根据声纹特征将待处理音频切割为多段音频数据，将多段音频数据根据声纹标记进行分类，可以准确的找出用户需要的音频，提升用户查询体验。

[0119] 在上述实施例中，还包括：若每个声纹标记对应多段标记音频，根据声纹标记对属于同类的多段标记音频执行合成操作。

[0120] 在该实施例中，基于对属于同类的多段标记音频执行合成操作，可以将不是在一个时间段的同类的音频放在一起，当用户想要找同一类的音频时，准确而快速的将这类音频找出来。

[0121] 在上述实施例中，根据指定识别方式生成待处理音频的标记信息，具体包括：提取待处理音频的时间戳信息，将时间戳信息确定为标记信息。

[0122] 在该实施例中，通过将待处理音频的时间戳信息作为标记信息，使得用户可以准确的查找相应时间段的音频。

[0123] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：确定时间戳信息所属的时间段；将标记音频根据时间段进行分类，以根据分类结果生成声源列表。

[0124] 在该实施例中，通过对每一类的音频信息进行不同时间段的子类划分，根据分类结果生成声源列表，生成声源列表中记录了详细的待处理音频的获取时间，在用户查找某个时间段某类音频信息的时候可以准确和便捷的找出相应音频信息，提升了用户的查询体验。

[0125] 在上述实施例中，根据指定识别方式生成待处理音频的标记信息，具体包括：识别待处理音频的语义信息，将语义信息确定为标记信息。

[0126] 在该实施例中，通过识别待处理音频，将待处理音频的语义信息得到，并进行标记，可以在用户想要查找音频中的某一段话的时候，准确找出相应的音频信息。

[0127] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：将标记音频根据语义信息进行分类，以根据分类结果生成声源列表。

[0128] 在该实施例中，通过将标记的音频根据语义信息进行分类，可以将同一类的语义信息放在一起，方便用户查找。

[0129] 在上述实施例中，在识别待处理音频中的至少一个声纹特征，并对至少一个声纹特征进行声纹标记前，还包括：通过麦克风接收待处理音频、通过无线信道或有线信道接收待处理音频或在视频中提取待处理音频中的至少一种。

[0130] 在该实施例中，通过麦克风接收待处理音频可以加强音频音量，通过无线信道可以快速的接收待处理音频或在视频中提取待处理音频，通过有线信道可以稳定而不受干扰的接收待处理音频或在视频中提取待处理音频。

[0131] 在上述实施例中，根据标记结果生成标记音频的声源列表，具体包括：将标记音频以列表的形式显示在显示屏上，并根据标记信息生成对应的显示标识符。

[0132] 在该实施例中，基于将标记的音频以列表的形式显示在显示屏上，使得用户可以第一时间就看到想要查找的音频，更加直观。

[0133] 在上述实施例中，还包括：响应于查询指令，确定查询指令对应的查询参数；根据查询参数对声源列表执行查询操作，以配置出与查询参数匹配的目标信息。

[0134] 在该实施例中，基于查询指令确定查询参数，其中，查询参数可以具有多种类型，比如基于关键字的查询、基于时间的查询和基于声纹特征的查询等，基于该查询参数在已有的音频数据中执行查询操作，以得到匹配的可视化的音频信息。

[0135] 在上述实施例中，响应于查询指令，确定查询指令对应的查询参数，具体包括：查询指令为音频查询指令，在接收到音频查询指令时，提取音频查询指令中的声纹特征，以将声纹特征确定为查询参数；和/或查询指令包括内容关键词，以将内容关键词确定为查询参数；和/或查询指令包括时间关键词，以将时间关键词确定为查询参数。

[0136] 在该实施例中，基于音频查询指令中的声纹特征、内容关键词和时间关键词作为查询参数，可以配置出与查询参数匹配的音频信息，准确而快速的找到用户需要的音频。在上述实施例中，还包括：对目标信息执行语音识别操作，以将目标信息转换为文本信息。

[0137] 在该实施例中，通过将音频信息转换为文本信息，用户可以基于文本信息准确的找到相应的音频信息，提升了用户查询体验。

[0138] 本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0139] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0140] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0141] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0142] 应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

[0143] 尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

[0144] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

标题	发布/更新时间	阅读量
指令生成方法、智能键盘和存储介质	2020-05-13	143
一种钢琴学习系统	2020-05-14	514
实时对象识别监测方法及存储介质	2020-05-13	850
一种关联书本与电子资源的系统	2020-05-12	596
一种便携式帕金森病运动迟缓监测干预装置及方法	2020-05-11	503
一种基于表情、语音和眼动特征的多模态测谎方法	2020-05-13	426
文章推荐方法、装置、设备及存储介质	2020-05-13	600
一种书写内容的识别方法及电子设备	2020-05-08	65
一种可观看电脑画面的电视机	2020-05-12	394
一种带式振膜的励磁扬声器	2020-05-14	817

音频处理方法、装置、终端和计算机可读存储介质

音频处理方法、装置、终端和计算机可读存储介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：