背景音乐的提示及识别方法、装置、设备以及介质专利检索-音乐信号处理音频信号处理广播专利检索查询-专利查询网

背景音乐的提示及识别方法、装置、设备以及介质

阅读：965发布：2020-05-14

专利汇可以提供背景音乐的提示及识别方法、装置、设备以及介质专利检索，专利查询，专利分析的服务。并且本发明实施例公开了一种背景音乐的提示及视频中背景音乐的识别方法、装置、设备及存储介质。所述方法包括：在视频播放界面中播放目标视频；获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户。本发明实施例的技术方案可以在视频播放过程中，实时获取与播放视频匹配的背景音乐信息，实现了在视频播放过程中，将获取到的背景音乐信息提供给用户，使用户获取视频背景音乐信息的过程更加便捷，节省用户时间。，下面是背景音乐的提示及识别方法、装置、设备以及介质专利的具体信息内容。

权利要求

1.一种背景音乐的提示方法，其特征在于，包括：
在视频播放界面中播放目标视频；
获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；
在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户。
2.根据权利要求1所述的方法，其特征在于，所述背景音乐信息中还包括：背景音乐在所述目标视频中的起止播放位置；
所述在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户，包括：
根据所述起止播放位置，确定背景音乐在所述目标视频中的存续时间段；
如果确定所述目标视频的当前播放位置位于所述存续时间段内，则将所述背景音乐描述信息提供给所述用户。
3.根据权利要求1或2所述的方法，其特征在于，所述将所述背景音乐描述信息提供给用户，包括：
在所述视频播放界面中，显示背景音乐提示选项；
根据所述用户对所述音乐提示选项的选择，将所述背景音乐描述信息提供给所述用户。
4.根据权利要求3所述的方法，其特征在于，所述在所述视频播放界面中，显示背景音乐提示选项，包括：
在所述视频播放界面中，通过浮层显示所述背景音乐提示选项。
5.根据权利要求3所述的方法，其特征在于，所述根据所述用户对所述音乐提示选项的选择，将与所述背景音乐描述信息提供给所述用户，包括：
根据所述用户对所述音乐提示选项的选择，与所述视频播放界面关联的设定显示区域内，以设定的显示形式将所述背景音乐描述信息提供给所述用户；
其中，所述背景音乐描述信息包括下述至少一项：背景音乐的名称、背景音乐的作者、背景音乐的演奏者或者演唱者以及背景音乐的所属专辑。
6.根据权利要求5所述的方法，其特征在于，与所述视频播放界面关联的设定显示区域内，以设定的显示形式将所述背景音乐描述信息提供给所述用户，包括：
在所述视频播放界面的底部，以卡片的形式，通过浮层将所述背景音乐描述信息提供给所述用户。
7.根据权利要求6所述的方法，其特征在于，所述卡片为可点击卡片，所述可点击卡片与所述背景音乐的播放地址关联。
8.根据权利要求6所述的方法，其特征在于，在所述视频播放界面的底部，以卡片的形式，通过浮层将所述背景音乐描述信息提供给所述用户的同时，还包括：
在所述卡片的底部，显示与所述背景音乐匹配的关联推荐信息。
9.根据权利要求1所述的方法，其特征在于，所述获取与所述目标视频匹配的背景音乐信息，包括：
将所述目标视频的识别信息发送至服务器，并获取所述服务器反馈的，与所述目标视频匹配的背景音乐信息；
其中，所述服务器预先存储有视频与背景音乐信息之间的映射关系，或者，所述服务器根据所述目标视频中包括的音频内容，实时计算得到与所述目标视频匹配的所述背景音乐信息。
10.一种视频中背景音乐的识别方法，其特征在于，包括：
获取待识别的视频，并提取所述视频中的音频内容；
根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹；
将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐；
获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。
11.根据权利要求10所述的方法，其特征在于，所述根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹，包括：
获取与所述音频内容匹配的频谱图，并将所述频谱图中的各个频率点转换为对应的梅尔标度；
在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述视频的音频内容匹配的比对音乐指纹。
12.根据权利要求11所述的方法，其特征在于，获取与所述音频内容匹配的频谱图，包括：
按照设定时间窗口，以及设定滑动步长，对所述音频内容进行频域信号处理，得到与所述音频内容对应的频谱图；
其中，所述频谱图定义了在指定频率点以及指定时间点下的能量值。
13.根据权利要求11所述的方法，其特征在于，所述在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述视频的音频内容匹配的比对音乐指纹，包括：
将与各所述能量极值点分别对应的频域特征点，按照时间先后顺序进行排序；
在排序结果中，获取连续的、设定数量的所述频域特征点构成至少一个极值点集合，并根据所述极值点集合中的各频域特征点，以及所述极值点集合中与首个频域特征点对应的时间点，计算哈希值；
与各所述极值点集合分别对应的所述哈希值、以及与极值点集合中首个特征极值点对应的时间点，构造与各所述极值点集合分别对应的比对音乐子指纹；
将与各所述极值点集合对应的比对音乐子指纹的集合，作为与所述视频的音频内容匹配的比对音乐指纹。
14.根据权利要求10所述的方法，其特征在于，所述将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐，包括：
分别将与所述视频对应的多个对比音乐子指纹，与所述音乐库中的各个音乐分别对应的多个标准音乐子指纹进行匹配，筛选得到与所述视频的各所述比对音乐子指纹分别对应的至少一个标准音乐子指纹作为目标匹配音乐子指纹；
计算每个所述比对音乐子指纹的时间信息，与对应的至少一个目标标准音乐子指纹的时间信息之间的时间差；
按照所属的音乐，对各所述目标匹配音乐子指纹进行归类，并统计每一个类别中包括的相同时间差的最大重复次数；
获取最大重复次数值最大的目标类别，并在确定所述目标类别的最大重复次数值超过设定阈值时，将与所述目标类别对应的音乐作为所述目标音乐。
15.根据权利要求14所述的方法，其特征在于，在所述获取最大重复次数值最大的目标类别，并在确定所述目标类别的最大重复次数值超过设定阈值时，将与所述目标类别对应的音乐作为所述目标音乐之后，还包括：
按照时间顺序，获取所述视频中，与所述目标音乐的标准音乐子指纹匹配的首位比对音乐子指纹，以及末位比对音乐子指纹；
根据与所述首位比对音乐子指纹，以及末位比对音乐子指纹分别对应的时间信息，确定背景音乐在所述视频中的起止播放位置；
所述将所述目标音乐的音乐描述信息，加入至所述目标视频的背景音乐信息与所述目标视频对应存储，包括：
将所述目标音乐的音乐描述信息，以及背景音乐在所述视频中的起止播放位置，加入至所述目标视频的背景音乐信息与所述目标视频对应存储。
16.根据权利要求10所述的方法，其特征在于，在所述将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐之前，还包括：
依次获取音乐库中的一个音乐作为当前处理音乐；
得到与所述当前处理音乐对应的频谱图；
将所述频谱图中的各个频率点转换为对应的梅尔标度；
在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述当前处理音乐匹配的标准音乐指纹；
返回执行依次获取音乐库中的一个音乐作为当前处理音乐操作，直至完成对所述音乐库中全部音乐的处理。
17.一种背景音乐的提示装置，其特征在于，包括：
目标视频播放模块，用于在视频播放界面中播放目标视频；
背景音乐信息获取模块，用于获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；
背景音乐信息提示模块，用于在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户。
18.一种视频中背景音乐的识别装置，其特征在于，包括：
音频内容提取模块，用于获取待识别的视频，并提取所述视频中的音频内容；
比对音乐指纹构造模块，用于根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹；
目标音乐获取模块，用于将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐；
描述信息存储模块，用于获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。
19.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-9中任一所述的背景音乐的提示方法，或实现如权利要求10-16中任一所述的视频中背景音乐的识别方法。
20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的背景音乐的提示方法，或实现如权利要求10-16中任一所述的视频中背景音乐的识别方法。

说明书全文

背景音乐的提示及识别方法、装置、设备以及介质

技术领域

[0001] 本发明实施例涉及互联网技术，尤其涉及一种背景音乐的提示及视频中背景音乐的识别方法、装置、设备以及存储介质。

背景技术

[0002] 随着互联网技术的迅速发展，网络宽带随之增加，流量价格逐渐下降，观看视频已经成为大众娱乐生活的重要组成部分。无论专业团队的大制作还是个人即兴制作，通常都会增加背景音乐来渲染气氛。大众在观看视频过程中经常会对背景音乐感兴趣，产生背景音乐的识别需求，这时通常会通过发弹幕来请求背景音乐，并且需要进一步通过浏览器或者音乐软件进行二次查询才能最终得到背景音乐的发行版本，过程比较繁琐且耗时较长。

[0003] 现有技术中，部分应用软件具有听歌识曲的功能，但其通常需要通过终端麦克风采集正在播放的音频，周围噪音经常会随着待识别音频被一起采集，从而导致识别结果不准确或者识别成功率低的问题。

发明内容

[0004] 本发明实施例提供了一种背景音乐的提示及视频中背景音乐的识别方法、装置、设备以及存储介质，实现了在视频播放过程中，实时获取当前播放视频中的背景音乐信息，使用户获取视频中的背景音乐的过程更加便捷。

[0005] 第一方面，本发明实施例提供了一种背景音乐的提示方法，包括：

[0006] 在视频播放界面中播放目标视频；

[0007] 获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；

[0008] 在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户。

[0009] 第二方面，本发明实施例还提供了一种视频中背景音乐的识别方法，包括：

[0010] 获取待识别的视频，并提取所述视频中的音频内容；

[0011] 根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹；

[0012] 将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐；

[0013] 获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0014] 第三方面，本发明实施例还提供了一种背景音乐的提示装置，包括：

[0015] 目标视频播放模块，用于在视频播放界面中播放目标视频；

[0016] 背景音乐信息获取模块，用于获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；

[0017] 背景音乐信息提示模块，用于在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户。

[0018] 第四方面，本发明实施例还提供了一种视频中背景音乐的识别装置，包括：

[0019] 音频内容提取模块，用于获取待识别的视频，并提取所述视频中的音频内容；

[0020] 比对音乐指纹构造模块，用于根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹；

[0021] 目标音乐获取模块，用于将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐；

[0022] 描述信息存储模块，用于将所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0023] 第五方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例中任一所述的背景音乐的提示方法，或实现如本发明实施例中任一所述的视频中背景音乐的识别方法。

[0024] 第六方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的背景音乐的提示方法，或实现如本发明实施例中任一所述的视频中背景音乐的识别方法。

[0025] 本发明实施例提供了一种背景音乐的提示及视频中背景音乐的识别方法、装置、设备以及存储介质，通过在视频播放过程中，实时获取与当前播放的目标视频相匹配的背景音乐信息，并将上述背景音乐信息提供给用户，实现了用户在观看视频过程中，无需退出视频观看页面即可获取视频中背景音乐的效果，以及，通过将视频中包含的音频内容转化到频域，并根据音频的梅尔标度形式的频域特征点构造比对音乐指纹，用于与音乐库中的标准音乐指纹进行匹配，以识别出当前播放视频对应的背景音乐，有效提高了音乐识别的成功率和准确性。附图说明

[0026] 图1a是本发明实施例一中的一种背景音乐的提示方法的流程图；

[0027] 图1b是本发明实施例一的技术方案所适用的一种展示背景音乐提示选项的场景；

[0028] 图1c是本发明实施例一的技术方案所适用的一种展示背景音乐描述卡片以及关联推荐信息的场景；

[0029] 图2是本发明实施例二中的一种背景音乐的提示方法的流程图；

[0030] 图3是本发明实施例三中的一种视频中背景音乐的识别方法的流程图；

[0031] 图4a是本发明实施例四中的一种视频中背景音乐的识别方法的流程图；

[0032] 图4b是本发明实施例四的技术方案所适用的一种频谱图的示意图；

[0033] 图5a是本发明实施例五中的一种视频中背景音乐的识别方法的流程图；

[0034] 图5b是本发明实施例五提供的一种指纹匹配示意图；

[0035] 图6是本发明实施例六中的一种背景音乐的提示装置的结构图；

[0036] 图7是本发明实施例七中的一种视频中背景音乐的识别装置的结构图；

[0037] 图8是本发明实施例八中的一种计算机设备的结构示意图。

具体实施方式

[0038] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

[0039] 另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

[0040] 实施例一

[0041] 图1a为本发明实施例一提供的一种背景音乐的提示方法的流程图，本实施例可适用于通过视频类客户端播放包含背景音乐的视频的情况，该方法可以由本发明实施例提供的背景音乐的提示装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可集成在用于提供视频播放服务的视频类客户端中，与视频服务器配合使用。如图1a所示，本实施例的方法具体包括：

[0042] S110、在视频播放界面中播放目标视频。

[0043] 本实施例中，安装于移动终端或者PC(Personal Computer，个人计算机)端上的视频类客户端响应于用户的视频播放操作，例如，点击视频(典型的，小视频)推荐页面中的某一个视频，则视频播放界面中开始播放用户指定的视频内容。示例性的，移动终端可以是智能手机或者平板电脑等，目标视频是由用户指定的将要播放的视频。

[0044] S120、获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息。

[0045] 在本实施例中，可以根据目标视频的身份标识信息，向对应的视频服务器请求与该目标视频对应的背景音乐信息，以获取与所述目标视频匹配的背景音乐信息，或者，也可以根据本地预存的视频的身份标识信息与对应的背景音乐信息之间的映射关系，直接获取与所述目标视频匹配的背景音乐信息。

[0046] 其中，可以在该目标视频开始播放时，向视频服务器请求与该目标视频对应的背景音乐信息，或者也可以在该目标视频的当前播放内容中开始包含有背景音乐时，向视频服务器请求与该目标视频对应的背景音乐信息，或者，也可以根据用户在视频播放界面中点击的设定按钮，触发向视频服务器请求与该目标视频对应的背景音乐信息等，本实施例对此并不进行限制。

[0047] 具体的，所述背景音乐信息为与该视频中播放的背景音乐关联的信息，例如，用于描述该背景音乐基本信息，以使用户能够快速澄清或者定位该背景音乐的背景音乐描述信息。典型的，该背景音乐描述信息可以为背景音乐的音乐名。当然，可以理解的是，一个视频中可以包括有多段背景音乐，或者一段背景音乐并未出现在视频中的全部播放区间内，为了便于准确定位视频中的背景音乐，该背景音乐信息中还可以包括背景音乐在所述目标视频中的起止播放位置等。

[0048] 需要说明的是，视频服务器中可以预先存储有视频的身份标识信息与对应的背景音乐信息之间的映射关系，进而在视频服务器接收到该目标视频的身份标识信息后，可以通过上述映射关系直接获取与所述目标视频对应的背景音乐信息，并反馈给所述视频类客户端；

[0049] 进一步的，如果该视频服务器中未存储有目标视频的身份标识信息，则可以实时提取该目标视频中包括的背景音乐，并将该背景音乐与预存的音乐库(包括有各个音乐的背景音乐信息)进行匹配，获取与该背景音乐匹配的音乐对应的背景音乐信息反馈给所述视频类客户端。

[0050] S130、在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户。

[0051] 本实施例中，在获取到当前播放视频的背景音乐的基础上，通过界面显示的方式将背景音乐描述信息提供给用户。示例性的，视频类客户端在播放视频过程中，获取到当前播放视频中包含的背景音乐，可以将当前播放视频页面由横屏展示转换为竖屏展示，在视频播放区域下方展示背景音描述信息，同时在背景音乐描述信息下方进一步展示与当前背景音乐相关的推荐视频资料，用户可以根据需求滑动手机屏幕观看相关信息。

[0052] 可选的，将背景音乐提供给用户的过程还可以是，在获取到当前播放视频中包含的背景音乐后，不改变当前视频的播放状态，在所述视频播放界面中，显示一个新的用于提供背景音乐提示服务的功能按钮(背景音乐提示选项)；根据所述用户对所述音乐提示选项的选择，将所述背景音乐描述信息提供给所述用户。

[0053] 本可选的实施例中，进一步根据用户需求在视频播放界面设置了背景音乐提示选项，当识别到视频对应的背景音乐时，仅在播放界面不影响用户观看视频的位置，展示背景音乐提示选项，当用户对当前背景音乐感兴趣时，可以选择上述背景音乐提示选项，此时再对用户展示背景音乐相关内容。

[0054] 可选的，在所述视频播放界面中，显示背景音乐提示选项，包括：

[0055] 在所述视频播放界面中，通过浮层显示所述背景音乐提示选项。

[0056] 本可选的实施例中，当识别到背景音乐信息后，即在视频播放页面上方的图层悬浮展示背景音乐提示图标，用于提示用户当前有识别到的背景音乐。示例性的，如图1b所示，在视频播放页面右侧显示一个音符形状的图标。

[0057] 可选的，根据所述用户对所述音乐提示选项的选择，将与所述背景音乐描述信息提供给所述用户，包括：

[0058] 根据所述用户对所述音乐提示选项的选择，与所述视频播放界面关联的设定显示区域内，以设定的显示形式，将所述背景音乐描述信息提供给所述用户；

[0059] 其中，所述背景音乐描述信息包括下述至少一项：背景音乐的名称、背景音乐的作者、背景音乐的演奏者或者演唱者以及背景音乐的所属专辑。

[0060] 本可选的实施例中，当用户对当前背景音乐感兴趣并且选择了音乐提示选项后，可以在视频播放区域中预先设定的信息显示区域以设定形式展示获取到的背景音乐描述信息。示例性的，当用户竖屏观看视频时，设定显示区域可以是视频播放页面的下方，当用户横屏观看视频时，可以通过分屏展示功能，将显示区域设定在视频播放区域右侧，设定显示形式可以是卡片形式或者弹窗形式，这里不做具体限定。

[0061] 可选的，与所述视频播放界面关联的设定显示区域内，以设定的显示形式将所述背景音乐描述信息提供给所述用户，包括：

[0062] 在所述视频播放界面的底部，以卡片的形式，通过浮层将所述背景音乐描述信息提供给所述用户。

[0063] 本可选的实施例中，当用户选择背景音乐提示选项后，在页面中的视频播放区域下方展示如图1c中视频下方第一张卡片所示的包含背景音乐名称、作者、专辑等背景音乐描述信息的卡片。其中，上述卡片也是区别于视频播放图层，在显示界面的浮层进行展示。

[0064] 可选的，所述卡片为可点击卡片，所述可点击卡片与所述背景音乐的播放地址关联。

[0065] 本可选的实施例中，上述卡片时包含背景音乐播放地址的可点击卡片，当用户进一步点击上述卡片时，页面可直接跳转到背景音乐播放页面，用户可以直接播放该背景音乐。

[0066] 可选的，在所述卡片的底部，显示与所述背景音乐匹配的关联推荐信息。

[0067] 本可选的实施例中，在上述可点击卡片下方还显示如图1c中视频下方第二张卡片所示的与背景音乐相关的其他推荐信息，例如，背景音乐对应的歌曲MV，演唱会或者以该歌曲作为主题曲的电视剧片段等，用户可以通过点击下方推荐信息，跳转到相关推荐视频页面。

[0068] 在本实施例中，获取到与当前播放视频匹配的背景音乐后，在视频播放页面上方图层展示背景音乐提示选项，当检测到用户选择背景音乐提示选项的操作时，展示背景音乐描述信息以及相关推荐信息，实现了在视频播放过程中实时获取视频背景音乐的效果，解决了用户查找背景音乐过程繁琐的问题，节省用户时间。

[0069] 实施例二

[0070] 图2为本发明实施例二提供的一种背景音乐的提示方法的流程图，本实施例以上述实施例为基础进行优化，在本实施例中，将获取与目标视频匹配的背景音乐信息，具体化为：将所述目标视频的识别信息发送至服务器，并获取所述服务器反馈的，与所述目标视频匹配的背景音乐信息；其中，所述服务器预先存储有视频与背景音乐信息之间的映射关系，或者，所述服务器根据所述目标视频中包括的音频内容，实时计算得到与所述目标视频匹配的所述背景音乐信息。

[0071] 相应的，在目标视频的播放过程中，将背景音乐描述信息提供给用户，具体包括：根据所述起止播放位置，确定背景音乐在所述目标视频中的存续时间段；如果确定所述目标视频的当前播放位置位于所述存续时间段内，则将所述背景音乐描述信息提供给所述用户。

[0072] 相应的，本发明实施例的方法包括：

[0073] S210、在视频播放界面中播放目标视频。

[0074] S220、将所述目标视频的识别信息发送至服务器，并获取所述服务器反馈的，与所述目标视频匹配的背景音乐信息；

[0075] 其中，所述服务器预先存储有视频与背景音乐信息之间的映射关系，或者，所述服务器根据所述目标视频中包括的音频内容，实时计算得到与所述目标视频匹配的所述背景音乐信息。

[0076] 可选的，所述背景音乐信息中还包括：背景音乐在所述目标视频中的起止播放位置。

[0077] 本实施例中，通过将当前播放视频的识别信息发送到服务器，由服务器进行视频背景音乐的识别，最终接收服务器反馈的与当前播放视频匹配的背景音乐信息。其中，视频的识别信息可以是视频的播放网址。

[0078] 在本实施例中，服务器可以预先存储视频与背景音乐的映射关系，其中，一个视频对应至少一首背景音乐，每首音乐信息中还包含该音乐在视频中的起止播放位置，当服务器接收到视频识别信息后，通过该识别信息确定当前播放视频，以根据上述映射关系确定与当前播视频匹配的背景音乐信息，当服务器预先存储的映射关系中不包含当前待识别视频时，可以通过当前视频包含的音频内容，通过音乐识别算法计算得到与所述目标视频匹配的所述背景音乐信息。示例性的，当服务器接收到视频播放地址后，从映射关系中确定当前播放视频，并进一步查询与当前视频对应的背景音乐。

[0079] S230、根据所述起止播放位置，确定背景音乐在所述目标视频中的存续时间段。

[0080] 本实施例中，实时获取的背景音乐信息中还包含背景音乐在视频中的起止播放位置，通过该起止位置确定背景音乐在视频中存续的时间段，例如，正在播放的视频总时长为10分钟，当视频播放到30％-50％的位置时，播放背景音乐1，当视频播放到60％-70％的位置时，播放背景音乐2，则可以通过上述音乐的起止播放位置，确定背景音乐1存在于视频的第3分钟到第5分钟，背景音乐2存在于视频的第6分钟到第7分钟。

[0081] S240、如果确定所述目标视频的当前播放位置位于所述存续时间段内，则将所述背景音乐描述信息提供给用户。

[0082] 本实施例中，在视频播放过程中，一段视频可以对应多段背景音乐，只有在视频播放至某一特定背景音乐所存续的时间段内，才会将该背景音乐的相关信息提示给用户。对应的，在步骤230的举例中，会在视频播放到第3分钟到第5分钟时，向用户提供背景音乐1的相关信息，并在视频播放到第6分钟到第7分钟时，向用户提供背景音乐2的相关信息。

[0083] 本实施例中，通过获取到的背景音乐在当前播放视频中的起止位置确定背景音乐在视频中存续的时间段，当视频播放到特定背景音乐存续时间段内时，向用户提供该背景音乐的相关信息，本实施例的技术方案能够在背景音乐播放时间段内提供对应的描述信息，以使用户明能够在听到背景音乐的同时，对照读取相关描述信息。

[0084] 实施例三

[0085] 图3为本发明实施例三提供的一种视频中背景音乐的识别方法的流程图，本实施例可适用于利用音频的频域特征进行背景音乐识别的情况，该方法可以由本发明实施例提供的视频中背景音乐的识别装置来执行，该装置可采用软件和/或硬件的方式实现，该装置可集成服务器中。如图1所示，本实施例的方法具体包括：

[0086] S310、获取待识别的视频，并提取所述视频中的音频内容。

[0087] 本身实施例中，在视频播放过程中，服务器首先获取需要进行背景音乐识别的视频，并从视频文件中提取出相应音频内容。其中，音频内容中包含背景音乐。

[0088] S320、根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹。

[0089] 其中，在步骤310中获取到的原始音频是时序上的响度数据，并且通常包含各种各样的噪声，如果直接从时序上提取原始音频的特征，则容易受到叠加在原始音频上的噪声的影响，使得数据分布发生较大变化，从而导致音乐识别的准确率降低。并且，即使同一音乐的不同翻唱版本，其在时序数据分布上也与原版音乐存在较大差异，因此，在时序上提取原始音频的特征进行背景音乐识别的方法具有鲁棒性较低的缺陷。

[0090] 本实施例中，为了解决上述问题，首先将获取到的时域上的音频转化到频域上，从而获取音频内容的频域特征，例如，频域特征可以包括一定时长的音频对应的频率以及能量值。但是由于人耳对于频率的感知并不是线性的，因此需要对频率值进一步转化，将频率转化为梅尔标度，得到多个梅尔标度形式的频域特征点，最终根据音频中的频域特征点构造视频中音频内容的音乐指纹，用于背景音乐的识别。具体的，首先，将视频中的音频内容划分为多个窗口，并分别将其转化到频域上，从而得到频率及其对应能量值，并进一步将频率转化为梅尔标度，然后在全局搜索能量极值点，并将能量极值点对应的梅尔标度作为频域特征点，最终将这些频域特征点按照设定方式进行分组处理，每组得到一个比对音乐子指纹，而全部比对音乐子指纹的集合构成比对音乐指纹。示例性的，所述比对音乐子指纹可以是连续的、指定数量的频域特征点对应哈希值，也可以是上述哈希值与第一个频域特征点的位置构成的组合，或者，由上述哈希值、第一个频域特征点的位置以及首末频域特征点的时间差构成的组合。

[0091] S330、将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐。

[0092] 其中，标准音乐指纹是由音乐库中存储的标准音乐的频域特征点构造而成的，作为背景音乐识别中的比对标准。

[0093] 本实施例中，提取音乐库中的标准音乐指纹，然后将步骤320中得到的比对音乐指纹与音乐库中的标准音乐指纹进行匹配，匹配过程中需要将当前音频内容的比对音乐指纹与音乐库中存储的全部标准音乐指纹进行匹配，最终将与当前音频匹配的标准音乐作为与所述视频对应的目标音乐。

[0094] S340、获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0095] 本实施例中，在步骤330确定了与当前播放视频对应的目标音乐的基础上，确定与上述目标音乐对应的音乐描述信息(例如，音乐名称、作者或者演唱者等信息)，并进一步将上述目标音乐的音乐描述信息作为与当前播放视频匹配的背景音乐信息，以在用户观看过程中需要了解背景音乐详细信息时，及时提供给用户。

[0096] 本实施例中，通过将从视频中提取到的音频内容转化到频域上，从而确定音频的梅尔标度形式的频域特征点，并进一步根据频域特征点构造与音频对应的比对音乐指纹，最终通过将比对音乐指纹与音乐库中包含的标准音乐指纹进行匹配，确定与视频对应的目标音乐。一方面，梅尔标度形式的频域特征点构造的音乐指纹有效提高了音乐识别的成功率和准确性，另一方面，将获得的目标音乐描述信息作为与当前播放视频匹配的背景音乐信息可以有效满足用户的背景音乐识别需求，节省用户的时间。

[0097] 实施例四

[0098] 图4a为本发明实施例四提供的一种视频中背景音乐的识别方法的流程图，本实施例以上述实施例为基础进行优化，在本实施例中，将根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹，具体化为：获取与所述音频内容匹配的频谱图，并将所述频谱图中的各个频率点转换为对应的梅尔标度；在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述视频的音频内容匹配的比对音乐指纹。

[0099] 相应的，本发明实施例的方法包括：

[0100] S410、获取待识别的视频，并提取所述视频中的音频内容。

[0101] S420、获取与所述音频内容匹配的频谱图，并将所述频谱图中的各个频率点转换为对应的梅尔标度。

[0102] 其中，频谱图是将时序上的音频转化到频域上，得到的表示信号时间、频率以及能量之间关系的图谱，梅尔标度是基于彼此等距的听众对高音的感性判断的刻度，这个标度和正常频率之间的参考点定义是将1000梅尔的高音指定为100Hz的音调。

[0103] 本实施例中，首先将时序上的音频转化到频域上得到表示当前音频的时间、频率以及能量之间关系的图谱，但由于人耳对于频率的感知并不是线性的，因此，将上述频谱图中的音频频率转换为人耳可以感知的梅尔标度，最终得到的频谱图如图4b所示，音频频率与梅尔标度之间的转换关系式如下：

[0104]

[0105] 其中，f是音频的频率。

[0106] 可选的，获取与所述音频内容匹配的频谱图，包括：

[0107] 按照设定时间窗口，以及设定滑动步长，对所述音频内容进行频域信号处理，得到与所述音频内容对应的频谱图；

[0108] 其中，所述频谱图定义了在指定频率点以及指定时间点下的能量值。

[0109] 本可选的实施例中，首先将音频信号按照设定的时间窗口以及设定滑动步长进行划分，得到以设定时间窗口为单位的多段音频信号，例如，每个窗口可以包含5秒的音频。然后对每个窗口中的音频分别进行离散傅里叶变换(Discrete Fourier Transform，DFT)将音频从时域转换到频域，得到特定时间内音频的频率及其对应的能量值，最终由各个窗口中音频的频率、能量值及其对应的时间构成频谱图，在该频谱图中，横轴表示时间，纵轴表示音频的频率，颜色表示在特定的时间及频率下对应的能量值。

[0110] S430、在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述视频的音频内容匹配的比对音乐指纹。

[0111] 本实施例中，首先在频谱图中获取音频中的全部能量极值点，其中，能量极值点表示在频谱图中，能量值大于与其相邻的左右频率点，即在一定时间范围内能量值的最大点，然后在步骤420中将各个频率点转换为对应的梅尔标度的基础上，确定全部能量极值点对应的梅尔标度作为频域特征点，进一步的，按照设定的方式，将上述频域特征点处理，生成当前音频的音乐指纹。

[0112] 可选的，所述在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述视频的音频内容匹配的比对音乐指纹，包括：

[0113] 将与各所述能量极值点分别对应的频域特征点，按照时间先后顺序进行排序；

[0114] 在排序结果中，获取连续的、设定数量的所述频域特征点构成至少一个极值点集合，并根据所述极值点集合中的各频域特征点，以及所述极值点集合中与首个频域特征点对应的时间点，计算哈希值；

[0115] 与各所述极值点集合分别对应的所述哈希值、以及与极值点集合中首个特征极值点对应的时间点，构造与各所述极值点集合分别对应的比对音乐子指纹；

[0116] 将与各所述极值点集合对应的比对音乐子指纹的集合，作为与所述视频的音频内容匹配的比对音乐指纹。

[0117] 本可选的实施例中，提供了具体的根据频域特征点构造比对音乐指纹的具体方式，在一个具体的例子中：首先，将在全局搜索到的全部极值点分别对应的频域特征点在时域上进行排序，得到按时间排序的频域特征点1，2，3，4，5，6，然后在得到的排序结果中，将三个连续的频域特征点构成一个极值点集合，可以进一步得到四个极值点集合(1，2，3)，(2，3，4)，(3，4，5)，(4，5，6)。其次，将极值点集合中各频域特征点以及第一个频域特征点对应的时间点连接起来计算哈希值SHA1，最终，将极值点集合分别对应的所述哈希值、以及极值点集合中首个特征极值点对应的时间点组合构成比对音乐子指纹，即每个极值点集合对应一个对比音乐子指纹，也就是说在一段音频中可以得到多个比对音乐子指纹(每个子指纹都由SHA1值，起始位置以及背景音乐信息组成)，最终将各个极值点集合对应的比对音乐子指纹构成的集合，作为这段音频的音乐指纹，成为比对音乐指纹。

[0118] S440、将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐。

[0119] 可选的，在将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐之前，还包括：

[0120] 依次获取音乐库中的一个音乐作为当前处理音乐；

[0121] 得到与所述当前处理音乐对应的频谱图；

[0122] 将所述频谱图中的各个频率点转换为对应的梅尔标度；

[0123] 在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述当前处理音乐匹配的标准音乐指纹；

[0124] 返回执行依次获取音乐库中的一个音乐作为当前处理音乐操作，直至完成对所述音乐库中全部音乐的处理。

[0125] 本可选的实施例中，按照一定顺序对音乐库中的所有音乐进行音乐指纹构建，直至获得音乐库中全部音乐包含的全部音乐指纹。其中，具体的音乐指纹构建方法祥见步骤420～步骤430的描述，此处不再赘述。

[0126] S450、获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0127] 本实施例中，通过对音频内容进行频域信号处理得到包含指定频率点以及指定时间点下能量值的频谱图，并将频谱图中能量极值点对应的梅尔标度作为频域特征点，并最终根据上述频域特征点构造比对音乐指纹，用于背景音乐的识别，其中，根据能量极值点的梅尔标度构造比对音乐指纹的方法有效提高了背景音乐识别召回率。

[0128] 实施例五

[0129] 图5a为本发明实施例五提供的一种视频中背景音乐的识别方法的流程图，本实施例以上述实施例为基础进行优化，在本实施例中，将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐，具体化为：分别将与所述视频对应的多个对比音乐子指纹，与所述音乐库中的各个音乐分别对应的多个标准音乐子指纹进行匹配，筛选得到与所述视频的各所述比对音乐子指纹分别对应的至少一个标准音乐子指纹作为目标匹配音乐子指纹；计算每个所述比对音乐子指纹的时间信息，与对应的至少一个目标标准音乐子指纹的时间信息之间的时间差；按照所属的音乐，对各所述目标匹配音乐子指纹进行归类，并统计每一个类别中包括的相同时间差的最大重复次数；获取最大重复次数值最大的目标类别，并在确定所述目标类别的最大重复次数值超过设定阈值时，将与所述目标类别对应的音乐作为所述目标音乐。

[0130] 相应的，本发明实施例的方法包括：

[0131] S510、获取待识别的视频，并提取所述视频中的音频内容。

[0132] S520、根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹。

[0133] S530、分别将与所述视频对应的多个对比音乐子指纹，与所述音乐库中的各个音乐分别对应的多个标准音乐子指纹进行匹配，筛选得到与所述视频的各所述比对音乐子指纹分别对应的至少一个标准音乐子指纹作为目标匹配音乐子指纹。

[0134] 本实施例中，从音乐库中提取按照时间先后顺序排序的标准音乐子指纹，用于和视频中包含的音频内容对应的比对音乐子指纹进行匹配，筛选出与比对音乐子指纹的SHA1值相同的标准音乐子指纹。

[0135] S540、计算每个所述比对音乐子指纹的时间信息，与对应的至少一个目标标准音乐子指纹的时间信息之间的时间差。

[0136] 本实施例中，按照音乐在前，视频在后，如图5b所示，针对SHA1值相同的子指纹，计算每个比对音乐子指纹的时间信息，与对应的目标标准音乐子指纹的时间信息之间的时间差。示例性的，在图5b中，标准音乐中的子指纹a，b，d分别与视频音乐中的子指纹1，2，3对应(即SHA1值相同)，则分别确定子指纹a，b，d在标准音乐中的时间，以及子指纹1，2，3在视频音乐中的时间，并一一计算相匹配的子指纹的时间差，最终将获取到的时间差、视频标识信息、标准音乐的标识信息以及比对音乐子指纹(即视频中音乐的子指纹)的位置信息对应保存。

[0137] S550、按照所属的音乐，对各所述目标匹配音乐子指纹进行归类，并统计每一个类别中包括的相同时间差的最大重复次数。

[0138] 本实施例中，由于视频音乐中的子指纹可能与多个标准音乐的子指纹相匹配，因此将目标匹配子指纹按照其所属音乐进行归类。示例性的，视频中包含10个比对音乐子指纹，分别与曲库中三首标准音乐中包含的标准音乐子指纹匹配成功，则需要分别确定这三首标准音乐中与比对音乐子指纹匹配的子指纹所对应的时间差(对应步骤540中对应保存的时间差)，并进一步统计出相同时间差的最大重复次数。

[0139] S560、获取最大重复次数值最大的目标类别，并在确定所述目标类别的最大重复次数值超过设定阈值时，将与所述目标类别对应的音乐作为所述目标音乐。

[0140] 本实施例中，根据步骤550中统计的音乐库中每首音乐包含的相同时间差的最大重复次数，并将重复次数最多的音乐作为候选音乐，然后将候选音乐中包含的相同时间差的重复次数与预设的置信度阈值相比较，当该次数超过设定阈值时，将该候选音乐作为目标音乐。

[0141] 可选的，在所述获取最大重复次数值最大的目标类别，并在确定所述目标类别的最大重复次数值超过设定阈值时，将与所述目标类别对应的音乐作为所述目标音乐之后，还包括：

[0142] 按照时间顺序，获取所述视频中，与所述目标音乐的标准音乐子指纹匹配的首位比对音乐子指纹，以及末位比对音乐子指纹；

[0143] 根据与所述首位比对音乐子指纹，以及末位比对音乐子指纹分别对应的时间信息，确定背景音乐在所述视频中的起止播放位置。

[0144] 本可选的实施例中，为了确定背景音乐在视频中的起止播放位置，需要找到时序上与目标音乐的标准音乐子指纹匹配的首位比对音乐子指纹和末位比对音乐子指纹，并确定其对应的时间信息。示例性的，如图5b所示，比对音乐子指纹1是视频中与目标音乐对应的首位比对音乐子指纹，比对音乐子指纹3是视频中与目标音乐对应的末位比对音乐子指纹，由于上述视频中的比对音乐子指纹是按照时间先后顺序排列的，那么上述首位和末位的比对音乐子指纹所对应的时间点即为当前识别到的背景音乐在视频中的起止播放时间。

[0145] S570、获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0146] 可选的，将所述目标音乐的音乐描述信息，以及背景音乐在所述视频中的起止播放位置，所述加入至所述目标视频的背景音乐信息与所述目标视频对应存储。

[0147] 本可选的实施例中，将在时序上确定的，背景音乐在视频中的起止播放位置以及目标音乐的音乐描述信息与目标视频对应保存，使得在目标视频播放到背景音乐的起始位置时，对用户进行背景音乐提示。

[0148] 本实施例中，通过将视频比对音乐指纹与音乐库中存储的标准音乐指纹中包含的子指纹进行匹配，得到与比对音乐子指纹匹配的全部标准音乐子指纹作为目标匹配音乐子指纹，然后通过计算并统计比对音乐子指纹与对应的目标匹配音乐子指纹之间的时间差确定出候选音乐，当候选音乐中包含的与比对音乐子指纹时间差相同的子指纹超过预设的置信度阈值时，即可确认当前候选音乐为与背景音乐对应的标准音乐，该计算方法有效提高了音乐识别的效率，实现快速识别背景音乐的效果。

[0149] 实施例六

[0150] 图6为本发明实施例六提供的一种背景音乐的提示装置的结构示意图，如图6所示，所述装置包括：目标视频播放模块610、背景音乐信息获取模块620，以及背景音乐信息提示模块630。其中：

[0151] 目标视频播放模块610，用于在视频播放界面中播放目标视频；

[0152] 背景音乐信息获取模块620，用于获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；

[0153] 背景音乐信息提示模块630，用于在所述目标视频的播放过程中，将所述背景音乐描述信息提供给用户。

[0154] 本发明实施例提供了一种背景音乐的提示装置，通过在视频播放过程中，实时获取与当前播放的目标视频相匹配的背景音乐信息，并将上述背景音乐信息提供给用户，实现了用户在观看视频过程中，无需退出视频观看页面即可获取视频中背景音乐的效果。

[0155] 在上述各实施例的基础上，所述背景音乐信息中还包括：背景音乐在所述目标视频中的起止播放位置；

[0156] 背景音乐信息提示模块630，包括：

[0157] 时间段确定单元，用于根据所述起止播放位置，确定背景音乐在所述目标视频中的存续时间段；

[0158] 时间段提示单元，用于如果确定所述目标视频的当前播放位置位于所述存续时间段内，则将所述背景音乐描述信息提供给所述用户。

[0159] 在上述各实施例的基础上，背景音乐信息提示模块630，还包括：

[0160] 提示选项显示单元，用于在所述视频播放界面中，显示背景音乐提示选项；

[0161] 背景音乐信息提示单元，用于根据所述用户对所述音乐提示选项的选择，将所述背景音乐描述信息提供给所述用户。

[0162] 在上述各实施例的基础上，提示选项显示单元，可以具体用于：

[0163] 在所述视频播放界面中，通过浮层显示所述背景音乐提示选项。

[0164] 在上述各实施例的基础上，背景音乐信息提示单元，包括：

[0165] 信息提示子单元，用于根据所述用户对所述音乐提示选项的选择，与所述视频播放界面关联的设定显示区域内，以设定的显示形式，将所述背景音乐描述信息提供给所述用户；

[0166] 其中，所述背景音乐描述信息包括下述至少一项：背景音乐的名称、背景音乐的作者、背景音乐的演奏者或者演唱者以及背景音乐的所属专辑。

[0167] 在上述各实施例的基础上，信息提示子单元，包括：

[0168] 卡片提示子单元，在所述视频播放界面的底部，以卡片的形式，通过浮层将所述背景音乐描述信息提供给所述用户。

[0169] 在上述各实施例的基础上，所述卡片为可点击卡片，所述可点击卡片与所述背景音乐的播放地址关联。

[0170] 在上述各实施例的基础上，卡片提示子单元，可以具体用于：

[0171] 在所述卡片的底部，显示与所述背景音乐匹配的关联推荐信息。

[0172] 在上述各实施例的基础上，背景音乐信息获取模块620，可以具体用于：

[0173] 将所述目标视频的识别信息发送至服务器，并获取所述服务器反馈的，与所述目标视频匹配的背景音乐信息；

[0174] 其中，所述服务器预先存储有视频与背景音乐信息之间的映射关系，或者，所述服务器根据所述目标视频中包括的音频内容，实时计算得到与所述目标视频匹配的所述背景音乐信息。

[0175] 上述背景音乐的提示装置可执行本发明任意实施例所提供的背景音乐的提示方法，具备执行背景音乐的提示方法的相应的功能模块和有益效果。

[0176] 实施例七

[0177] 图7为本发明实施例七提供的一种视频中背景音乐的识别装置的结构示意图，如图7所示，所述装置包括：音频内容提取模块710、比对音乐指纹构造模块720，目标音乐获取模块730，以及描述信息存储模块740。其中：

[0178] 音频内容提取模块710，用于获取待识别的视频，并提取所述视频中的音频内容；

[0179] 比对音乐指纹构造模块720，用于根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹；

[0180] 目标音乐获取模块730，用于将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐；

[0181] 描述信息存储模块740，用于获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0182] 本实施例中，通过将从视频中提取到的音频内容转化到频域上，从而确定音频的梅尔标度频形式的频域特征点，并进一步根据频域特征点构造与音频对应的比对音乐指纹，最终通过将比对音乐指纹与音乐库中包含的标准音乐指纹进行匹配，确定与视频对应的目标音乐。一方面，梅尔标度形式的频域特征点构造的音乐指纹有效提高了音乐识别的成功率和准确性，另一方面，将获得的目标音乐描述信息作为与当前播放视频匹配的背景音乐信息可以有效满足用户的背景音乐识别需求，节省用户的时间。

[0183] 在上述各实施例的基础上，所述比对音乐指纹构造模块720，包括：

[0184] 频谱图获取单元，用于获取与所述音频内容匹配的频谱图，并将所述频谱图中的各个频率点转换为对应的梅尔标度；

[0185] 比对音乐指纹构造单元，用于在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述视频的音频内容匹配的比对音乐指纹。

[0186] 在上述各实施例的基础上，所述频谱图获取单元，可以具体用于：

[0187] 按照设定时间窗口，以及设定滑动步长，对所述音频内容进行频域信号处理，得到与所述音频内容对应的频谱图；

[0188] 其中，所述频谱图定义了在指定频率点以及指定时间点下的能量值。

[0189] 在上述各实施例的基础上，所述比对音乐指纹构造单元，可以具体用于：

[0190] 将与各所述能量极值点分别对应的频域特征点，按照时间先后顺序进行排序；

[0191] 在排序结果中，获取连续的、设定数量的所述频域特征点构成至少一个极值点集合，并根据所述极值点集合中的各频域特征点，以及所述极值点集合中与首个频域特征点对应的时间点，计算哈希值；

[0192] 与各所述极值点集合分别对应的所述哈希值、以及与极值点集合中首个特征极值点对应的时间点，构造与各所述极值点集合分别对应的比对音乐子指纹；

[0193] 将与各所述极值点集合对应的比对音乐子指纹的集合，作为与所述视频的音频内容匹配的比对音乐指纹。

[0194] 在上述各实施例的基础上，所述目标音乐获取模块730，包括：

[0195] 匹配音乐子指纹获取单元，用于分别将与所述视频对应的多个对比音乐子指纹，与所述音乐库中的各个音乐分别对应的多个标准音乐子指纹进行匹配，筛选得到与所述视频的各所述比对音乐子指纹分别对应的至少一个标准音乐子指纹作为目标匹配音乐子指纹；

[0196] 时间差计算单元，用于计算每个所述比对音乐子指纹的时间信息，与对应的至少一个目标标准音乐子指纹的时间信息之间的时间差；

[0197] 时间差统计单元，用于按照所属的音乐，对各所述目标匹配音乐子指纹进行归类，并统计每一个类别中包括的相同时间差的最大重复次数；

[0198] 目标音乐确定单元，用于获取最大重复次数值最大的目标类别，并在确定所述目标类别的最大重复次数值超过设定阈值时，将与所述目标类别对应的音乐作为所述目标音乐。

[0199] 在上述各实施例的基础上，所述视频中背景音乐的识别装置，还包括：

[0200] 首末比对音乐子指纹获取模块，用于在所述获取最大重复次数值最大的目标类别，并在确定所述目标类别的最大重复次数值超过设定阈值时，将与所述目标类别对应的音乐作为所述目标音乐之后，按照时间顺序，获取所述视频中，与所述目标音乐的标准音乐子指纹匹配的首位比对音乐子指纹，以及末位比对音乐子指纹；

[0201] 播放位置确定模块，用于根据与所述首位比对音乐子指纹，以及末位比对音乐子指纹分别对应的时间信息，确定背景音乐在所述视频中的起止播放位置。

[0202] 所述描述信息存储模块740，可以具体用于：

[0203] 将所述目标音乐的音乐描述信息，以及背景音乐在所述视频中的起止播放位置，所述加入至所述目标视频的背景音乐信息与所述目标视频对应存储。

[0204] 在上述各实施例的基础上，所述视频中背景音乐的识别装置，还包括：

[0205] 当前处理音乐获取模块，用于在所述将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐之前，依次获取音乐库中的一个音乐作为当前处理音乐；

[0206] 当前处理音乐频谱图获取模块，用于得到与所述当前处理音乐对应的频谱图；

[0207] 梅尔标度转换模块，用于将所述频谱图中的各个频率点转换为对应的梅尔标度；

[0208] 标准音乐指纹构造模块，在所述频谱图中搜索全部能量极值点，并获取与各所述能量极值点分别对应的梅尔标度作为频域特征点，构造与所述当前处理音乐匹配的标准音乐指纹；

[0209] 音乐循环处理模块，用于返回执行依次获取音乐库中的一个音乐作为当前处理音乐操作，直至完成对所述音乐库中全部音乐的处理。

[0210] 上述视频中背景音乐的识别装置可执行本发明任意实施例所提供的视频中背景音乐的识别方法，具备执行视频中背景音乐的识别方法的相应功能模块和有益效果。

[0211] 实施例八

[0212] 图8为本发明实施例八提供的一种计算机设备的结构示意图。图8示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图8显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

[0213] 如图8所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

[0214] 总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

[0215] 计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

[0216] 系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

[0217] 具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

[0218] 计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图8中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

[0219] 处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的背景音乐的提示方法。

[0220] 也即：所述处理单元执行所述程序时实现：在视频播放界面中播放目标视频；

[0221] 获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；

[0222] 在所述目标视频的播放过程中，将所述背景音乐描述信息提供给所述用户。

[0223] 或者，实现本发明实施例所提供的视频中背景音乐的识别方法，也即：

[0224] 获取待识别的视频，并提取所述视频中的音频内容；

[0225] 根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹；

[0226] 将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐；

[0227] 获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0228] 实施例九

[0229] 本发明实施例九提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有发明实施例提供的背景音乐的提示方法。

[0230] 也即，该程序被处理器执行时实现：在视频播放界面中播放目标视频；

[0231] 获取与所述目标视频匹配的背景音乐信息，所述背景音乐信息中包括：背景音乐描述信息；

[0232] 在所述目标视频的播放过程中，将所述背景音乐描述信息提供给所述用户，[0233] 或者，该程序被处理器执行时实现如本申请所有发明实施例提供视频中背景音乐的识别方法。

[0234] 也即，该程序被处理器执行时实现：获取待识别的视频，并提取所述视频中的音频内容；

[0235] 根据所述音频内容的频域特征，得到与所述音频内容对应的多个梅尔标度形式的频域特征点，并根据各所述频域特征点构造与所述视频的音频内容匹配的比对音乐指纹；

[0236] 将所述视频的比对音乐指纹，与音乐库中各音乐的标准音乐指纹进行匹配，得到与所述视频对应的目标音乐；

[0237] 获取所述目标音乐的音乐描述信息，作为与所述目标视频匹配的背景音乐信息。

[0238] 可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

[0239] 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

[0240] 计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

[0241] 可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

[0242] 注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

标题	发布/更新时间	阅读量
一种K歌系统、方法及家庭场景K歌系统	2020-05-12	248
一种心情调节装置	2020-05-13	286
一种具有远红外热释电感应功能的无人售货柜	2020-05-14	820
一种智能家居睡眠装置及系统	2020-05-17	564
一种将心跳信号转换成音乐的系统	2020-05-16	704
一种声音信号处理方法及终端设备	2020-05-12	671
耳挂式人体信息采集设备	2020-05-16	183
一种适用于乐器音箱的信号处理系统	2020-05-15	341
一种缓解心理症状的可视化音乐装置	2020-05-15	429
基于单片机的抢答器电路	2020-05-13	282

背景音乐的提示及识别方法、装置、设备以及介质

背景音乐的提示及识别方法、装置、设备以及介质

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：