首页 / 专利库 / 专利权 / 专利合作条约 / 第II章 / 增强的内容跟踪系统和方法

增强的内容跟踪系统和方法

阅读:420发布:2020-05-15

专利汇可以提供增强的内容跟踪系统和方法专利检索,专利查询,专利分析的服务。并且如图2中的系统所示,本 发明 涉及媒体文件(例如,数字音乐文件)的客户端侧内容 跟踪 系统。音频跟踪--或者实际上多媒体跟踪--转向客户端侧的 角 度,客户端负责通过跟踪以下中的至少一项--并且随后将上行链路报告至 服务器 --来确立对 选定 的源音频轨道的使用:与播放已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,以及在客户端设备处使用、执行或操纵所述已识别的源音频轨道的方式。考虑到所报告的跟踪数据以及其与唯一标识符的链接以允许选择和/或识别媒体文件(例如,源音频轨道),服务器功能被设计为存储或转发--可能在订阅服务以及针对内容使用的计费制度的背景下--与在所述客户端设备处或者由所述客户端设备使用所述源音频轨道的至少一部分相关的跟踪数据。在音频的背景下,在客户端处对使用的报告可以继而促使将相关的多媒体内容从第三方 数据库 (108)串流到所述客户端设备。对于音乐,对进入和离开完整音频轨道的章节的进入和退出点的报告可以与章节之间音乐上无缝的音频过渡相符合。,下面是增强的内容跟踪系统和方法专利的具体信息内容。

1.一种跟踪对可以在客户端设备上播放的音频轨道的使用的方法,所述客户端设备可以连接至具有服务器的网络,所述服务器被设置为提供对第一数据库的受控访问,所述第一数据库中存储包括一个或多个音乐章节的多个源音频轨道,其中所述方法包括:
向所述服务器作出请求以访问所述多个源音频轨道中某一已识别的源音频轨道,针对所述已识别的源音频轨道的所述请求由所述客户端设备作出;
为所述客户端设备提供对所述已识别的源音频轨道的访问,所述访问包括使与所述已识别的源音频轨道相关的唯一标识符对所述客户端设备可用;以及
在所述客户端设备处,通过跟踪以下中的至少一项来确立在所述客户端设备处对所述已识别的源音频轨道的使用:
与播放所述已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,以及
在所述客户端设备处使用、执行或操纵所述已识别的源音频轨道的方式;
在所述客户端设备处,针对(a)进入和退出点和/或(b)在所述客户端设备处使用、执行或操纵所述已识别的源音频轨道的方式生成跟踪数据;
通过所述网络向所述服务器发送对在所述客户端设备处本地使用所选择的源音频轨道中的至少一部分的报告,所述报告将所述跟踪数据与所述唯一标识符相关联;
在所述服务器处,考虑到所述跟踪数据以及其和所述唯一标识符的链接,存储或转发与通过所述客户端设备使用所述已识别的源音频轨道的至少一部分相关的跟踪数据。
2.根据权利要求1所述的方法,其中所述跟踪数据推断或报告存在以下中的至少一项:
i)所述已识别的源音频轨道的演绎作品,其中对所述演绎作品通过在所述客户端设备的处理进行汇编;
ii)所述已识别的源音频轨道与其他媒体的同步,其中所述同步通过在所述客户端设备处的处理产生;以及
iii)在所述客户端设备处对所述已识别的源音频轨道的机械或电子复制,其中所述复制通过在所述客户端设备处的处理发起。
3.根据权利要求1或2所述的方法,其中第二数据库存储:
相关联的音频文件描述,其定义在每个源音频轨道中章节之间音乐上可行的淡入淡出或剪辑,在每个章节中每个可行的淡入淡出或剪辑由和音乐时间中的一点相对应的实时点定义,其中听觉上无缝的淡入淡出保持所选择章节的进入和退出点之间的音乐节奏,其中提供对所述源音频轨道的访问包括至少向所述正在请求的客户端设备发送相关联的音频文件描述;
并且所述方法进一步包括:
在所述正在请求的客户端设备处,利用所述相关联的音频文件描述来识别针对所述源音频轨道中所述章节中的至少一些之间的一连串淡入淡出或剪辑的实时过渡点,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;
向所述服务器发送针对所述已识别的源音频轨道的所述过渡点以及所述源音频轨道的所述唯一轨道标识符;
在所述服务器处解析由所述过渡点和所述唯一轨道标识符标识的所述源音频轨道的特定音乐章节从而允许报告对所述特定音乐章节的使用。
4.根据权利要求3所述的方法,其中所述第二数据库进一步存储与所述多个源音频轨道中的至少一些中的每一个相关联的上传文件,每个上传文件定义对其相应源音频文件的编辑,其中所述上传文件允许在读取所述上传文件且所述上传文件可由所述客户端访问时选择每个源音频轨道内的章节的次序。
5.根据权利要求3或4所述的跟踪使用的方法,进一步包括:
在所述服务器处,响应于解析所述特定音乐章节,识别并且随后促使向所述正在请求的客户端设备传送目标信息,所述目标信息被预先标识为与所述源音频轨道或所述特定音乐章节相关。
6.根据权利要求3、4或5所述的跟踪使用的方法,其中针对所述已识别的源音频轨道的所述过渡点通过所述服务器存储在数据库中作为对所述源音频轨道的所述编辑的表示。
7.根据权利要求6所述的跟踪使用的方法,进一步包括:
通过向客户端设备提供对所述过渡点的访问,使对所述源音频轨道的所述编辑的所述表示可用,从而允许播放所述编辑。
8.根据权利要求7所述的跟踪使用的方法,其中所述过渡点作为元数据嵌入在音频轨道中。
9.根据权利要求3至8中任一项所述的跟踪使用的方法,其中所述过渡点是实时值。
10.根据权利要求9所述的跟踪使用的方法,其中所述实时值是所述源音频轨道中的脉冲计数。
11.根据任一项前述权利要求所述的跟踪使用的方法,其中所述已识别的源音频轨道作为文件被下载或串流到所述正在请求的客户端设备。
12.一种用于跟踪对数字音频文件的使用的系统,所述系统包括:
服务器,其被设置为提供对多个源数字音频文件的受控访问,所述多个源数字音频文件各自包含至少一个音乐章节,其中所述服务器被设置为:
响应于从客户端设备接收到的对于访问所述多个源数字音频文件中的已识别的源音频文件的请求,为所述客户端设备提供对所述已识别的源音频文件的访问;
向所述客户端设备提供与已经对其提供访问的所述已识别的源音频轨道相关的唯一标识符;
从所述客户端设备接收链接至所述唯一标识符的跟踪数据,所述跟踪数据与以下中的至少一项相关:
与在所述客户端设备处播放所述已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,以及
在所述客户端设备处使用、执行或操纵所述已识别的源音频轨道的方式;通过存储或转发链接至由所述客户端设备请求的所述已识别的源音频轨道的所述唯一标识符的所述跟踪数据来跟踪对所述已识别的源音频轨道的使用,所述跟踪数据与由所述客户端设备对所述已识别的源音频轨道中至少一部分的使用相关。
13.根据权利要求12所述的系统,其中所述服务器被进一步设置为:
为客户端设备提供对其中存储相关联的音频文件描述的数据库的访问,所述相关联的音频文件描述定义在每个源音频轨道中章节之间音乐上可行的淡入淡出或剪辑,在每个章节中每个可行的淡入淡出或剪辑由和音乐时间中的一点相对应的实时点定义,其中听觉上无缝的淡入淡出保持所选择章节的进入和退出点之间的音乐节奏;
向所述正在请求的客户端设备发送相关联的音频文件描述,所述音频文件描述与所述源音频轨道相关;
从向其发送所述相关联的音频文件描述的所述客户端设备接收参考所述源音频轨道的所述唯一标识符的过渡点,所述过渡点实时标识所述源音频轨道中所述章节中的至少一些之间的一连串淡入淡出或剪辑,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;
解析由所述过渡点和所述唯一轨道标识符标识的所述源音频轨道的特定音乐章节从而允许报告对所述特定音乐章节的使用。
14.根据权利要求13所述的系统,其中所述服务器被进一步设置为响应于解析所述特定音乐章节,识别并且随后促使传送被预先标识为与所述源音频轨道或所述特定音乐章节相关的目标信息以及哪些目标信息被存储在数据库中。
15.根据权利要求12或14所述的系统,其中所述服务器被进一步设置为将针对所述已识别的源音频轨道的所述过渡点存储在数据库中作为对所述源音频轨道的编辑的表示。
16.根据权利要求15所述的系统,其中所述服务器被进一步设置为通过向客户端设备提供对所述过渡点的访问,使对所述源音频轨道的所述编辑的所述表示可用,从而允许播放所述编辑。
17.根据权利要求12或16所述的系统,其中所述跟踪数据推断或报告存在以下中的至少一项:
i)所述已识别的源音频轨道的演绎作品,其中对所述演绎作品通过在所述客户端设备的处理进行汇编;
ii)所述已识别的源音频轨道与其他媒体的同步,其中所述同步通过在所述客户端设备处的处理产生;以及
iii)在所述客户端设备处对所述已识别的源音频轨道的机械或电子复制,其中所述复制通过在所述客户端设备处的处理发起。
18.根据权利要求12或17所述的系统,其中所述服务器被进一步设置为通过以下中的至少一项解析对于使用所述已识别的源音频轨道的支付义务:
a)所述客户端设备;以及
b)媒体服务器,耦合至网络和所述客户端设备,所述客户端设备与所述媒体服务器进行交互。
19.根据权利要求18所述的系统,其中所述媒体服务器在社交媒体平台中。
20.根据权利要求1至11中任一项所述的方法或者根据权利要求12至19中任一项所述的系统,其中所述源音频轨道的至少一些章节形成多媒体文件的一部分,所述多媒体文件包含被同步用于与至少一个所选择的章节一起显示的至少一个图像。
21.一种在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,所述方法包括:
从包含多个数字媒体文件的数据库中选择所选择的数字媒体文件,所述多个数字媒体文件各自具有一个或多个章节;
通过通信网络接收对所述所选择的数字媒体文件的访问,并且进一步接收与所述所选择的数字媒体文件相关的唯一标识符;
通过跟踪以下中的至少一项来确立在所述客户端设备处对所述所选择的数字媒体文件的使用:
与播放所述所选择的数字媒体文件的至少一个章节相关联的进入和退出点,以及在所述客户端设备处使用、执行或操纵所述所选择的数字媒体文件的方式;
针对(a)那些进入或退出点和/或(b)在所述客户端设备处使用、执行或操纵所述所选择的数字媒体文件的方式中的一个或两个生成跟踪数据;
通过所述通信网络传送对在所述客户端设备处本地使用所述所选择的数字媒体文件的至少一部分的报告,所述报告将所述跟踪数据与所述唯一标识符相关联。
22.根据权利要求21所述的在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,进一步包括:
接收针对所述所选择的数字媒体文件的相关联的文件描述,所述文件描述定义所述所选择的数字媒体文件中章节之间的可行的淡入淡出,以及
利用所述相关联的文件描述来识别所述所选择的数字媒体文件中多个章节中至少一些所选择的章节之间的一连串淡入淡出的实时过渡点;
通过所述网络在上行链路上发送针对所述所选择的数字媒体文件的所述过渡点和所述唯一标识符以允许报告对特定章节的使用。
23.根据权利要求21所述的在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,进一步包括:
接收针对所述所选择的数字媒体文件的相关联的音频文件描述,所述音频文件描述定义所述所选择的数字媒体文件中音频章节之间的音乐上可行的淡入淡出,每个可行的淡入淡出通过和音乐时间中的一点相对应的实时点来定义,其中听觉上无缝的淡入淡出可以被执行以保持在所述所选择的数字媒体文件的所选择章节中进入和退出点之间的音乐节奏,以及
利用所述相关联的音频文件描述来识别所述所选择的数字媒体文件中多个音频章节中至少一些所选择的音频章节之间的一连串淡入淡出的实时过渡点,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;
通过所述网络在上行链路上发送针对所述所选择的数字媒体文件的所述过渡点和所述唯一标识符以允许报告对特定章节的使用。
24.根据权利要求23所述的在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,进一步包括:
通过改变其中的音频章节的次序来编辑所述所选择的数字媒体文件。
25.根据权利要求23所述的在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,进一步包括:
将选择源音频轨道的章节的能限制于仅对那些可以在编辑中一起连续淡入淡出从而在所述源音频轨道的音乐上匹配的章节中的进入和退出点之间保持音乐节奏的章节。
26.根据权利要求21至25所述的在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,其中所述所选择的数字音频文件作为文件被下载或串流。
27.根据权利要求23所述的在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,进一步包括:
通过服务器访问所述源音频轨道的编辑版本;以及
通过经由所述服务器访问与所述编辑相关联的所存储的元数据来播放所述编辑版本,其中所述元数据定义过渡点以允许在所述客户端设备上播放所述编辑版本。
28.根据权利要求21所述的在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,其中所述所选择的数据媒体文件包括源音频轨道的至少一些章节并且所述所选择的数据媒体文件是包含至少一个图像的多媒体文件,所述至少一个图像被同步用于与所述源音频轨道的至少一个所选择章节一起在所述客户端设备上显示。
29.根据权利要求21至28所述的在客户端设备上播放音频轨道并跟踪对所述音频轨道的音乐章节的使用的方法,其中所述跟踪数据推断或报告存在以下中的至少一项:
i)已识别的源音频轨道的演绎作品,其中对所述演绎作品通过在所述客户端设备的处理进行汇编;
ii)已识别的源音频轨道与其他媒体的同步,其中所述同步通过在所述客户端设备处的处理产生;以及
iii)在所述客户端设备处对已识别的源音频轨道的机械或电子复制,其中所述复制通过在所述客户端设备处的处理发起。
30.一种跟踪对可以在客户端设备上播放的音频轨道的使用的方法,所述客户端设备可以连接至具有服务器的网络,所述服务器提供对第一数据库的受控访问,所述第一数据库中存储包括一个或多个音乐章节的多个源音频轨道,其中所述方法包括:
向所述服务器作出请求以访问所述多个源音频轨道中某一已识别的源音频轨道,针对所述已识别的源音频轨道的所述请求由所述客户端设备作出;
为所述客户端设备提供对所述已识别的源音频轨道的访问,所述访问包括使与所述已识别的源音频轨道相关的唯一标识符对所述客户端设备可用;以及
在所述客户端设备处,通过跟踪以下中的至少一项来确立在所述客户端设备处对所述已识别的源音频轨道的使用:
与播放所述已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,以及
在所述客户端设备处使用、执行或操纵所述已识别的源音频轨道的方式;
在所述客户端设备处,针对(a)进入和退出点和(b)在所述客户端设备处使用、执行或操纵所述已识别的源音频轨道的方式中的至少一个生成跟踪数据;
通过所述网络向所述服务器发送对在所述客户端设备处本地使用所述所选择的源音频轨道的至少一部分的报告,所述报告将所述跟踪数据与所述唯一标识符相关联;
实现对与所述客户端设备使用所述已识别的源音频轨道的至少一部分相关的跟踪数据的存储和转发中的至少之一。
31.一种跟踪对可以在客户设备上播放的音频轨道的使用的方法,所述客户端设备可以连接至具有服务器的网络,所述服务器被设置为提供对第一数据库的受控访问,所述第一数据库中存储包括一个或多个音乐章节的多个源音频轨道,其中所述方法包括:
在所述服务器处接收对访问所述多个源音频轨道中某一已识别的源音频轨道的请求;
在所述服务器处管理对所述已识别的源音频轨道的访问,包括使与所述已识别的源音频轨道相关的唯一标识符对所述客户端设备可用;以及
在所述服务器处接收对在所述客户端设备处已经发生的本地使用所述已识别的源音频轨道的至少一部分的报告,所述报告将跟踪数据与所述唯一标识符相关联并且所述跟踪数据通过报告对以下中的至少一项的跟踪来确认对所述已识别的源音频轨道的使用、执行或操纵:
与在所述客户端设备处播放所述已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,以及
在所述客户端设备处使用、执行或操纵所述已识别的源音频轨道的方式;在所述服务器处将所述跟踪数据与到所述唯一标识符的链接相关联,以及对与所述客户端设备使用所述已识别的源音频轨道的至少一部分相关的跟踪数据进行存储和转发中的至少之一,以解析对所述多个源音频轨道中的每一个源音频轨道的音乐章节的特定使用。
32.一种计算机程序,其当由客户端设备的处理器执行时促使所述客户端设备执行根据权利要求21至29中任一项所述的步骤。
33.一种计算机程序,其当由联网服务器的处理器执行时促使所述服务器执行根据权利要求30和31所述的步骤。

说明书全文

增强的内容跟踪系统和方法

技术领域

[0001] 本发明大体上涉及内容跟踪系统和相关方法。具体地但是并非唯一地,本发明涉及可操作为管理对旨在用于通过下载或串流更广泛地向公众发行的经编制和上传的媒体剪辑或文件进行控制的系统(和方法)。更具体地,本发明涉及监测和调节对此类已上传媒体剪辑和/或文件内经识别的专有音频和/或专有视频内容的访问以及随后对其的发布进行控制的系统和方法。

背景技术

[0002] 音乐、电影和游戏产业,尤其是与内容提供相关的方面正在不断发展。在这个方面,作为串流或下载数据文件的(例如)音乐或原声音乐的销售和发行在这些市场中正占据主要地位。这与通过建立定制零售渠道但是现在却逐渐减少的光盘和DVD技术(或者历史上的胶盘唱片)的销售形成了对比。
[0003] 在过去通过,例如,对购买的物理存储介质的磁带到磁带的复制来预测,未经许可的复制总是存在的。尽管如此,普遍存在的数字存储和点对点(“P2P”)文件共享能大大削弱了可以由版权所有者对受版权保护的艺术作品进行控制的平。简而言之,通过广域的数字领域(例如,互联网)提供和重新分配媒体内容(音频、电影或其他视觉媒体)使其相对更容易滥用和公然忽视版权所有者的权利,尤其是因为对版权作品(或者版权作品的摘编)的跟踪当前比较困难并且由数字网络的基础架构(即,服务器侧)内的进程驱动。
[0004] 对于“唱片公司”--即已整理版权素材的目录的所有者(例如,迪士尼公司和华纳音乐集团(Warner Music Group))--来说,问题是如何确保对访问和使用其受保护的音频和/或视频内容的合理的支付。尽管该问题略微带有商业考虑因素的色彩,但是该问题可以归为如何能够实现一种识别并管理(通常未经许可的)第三方对多媒体内容的使用的稳健的技术系统,或者,另一方面,唱片公司如何能够确保准确地跟踪并报告对其素材(包括演绎作品或加工作品)的使用。
[0005] 有效技术跟踪过程的结果允许唱片公司主张支付要求并且随后对受保护作品的每次特定使用或部分使用获取适当的(例如,一定比例或全部的)的支付。
[0006] 针对使用媒体内容对唱片公司的支付实际上可以进一步链接到所应用的广告,并且通过混合所选择的音乐或视频分段以及随后将这些相同的已选择和已经混合的分段重新编辑成其他演绎汇编,其中原创作品的出处被频繁地掩盖或者整个丢失,识别过程被复杂化。
[0007] 为了提供背景,可能需要考虑通过例如 的社交共享平台在订户和唱片公司--特别是唱片公司的数据库--之间的交互。 是一个免费的视频共享网站,其使观看在线视频变得容易,同时用户界面提供了创建和上传可以与其他人进行共享的个性化编制视频的能力。 本身将其服务描述为用于人们在全球范围内连接、通知和
启发其他人的论坛,同时其可作为用于大大小小原创内容创建者和广告商的发布平台。
[0008] 订户可以创建媒体文件形式的内容,内容通常可以包含已经设置为视频和/或静态图像的音乐。视频和静态图像实际上可以由订户利用个人视频记录设备或相机唯一地生成,但是他们也可以从电视事件、电影中或者从其他第三方来源捕获数据,包括串流的数据。该媒体文件随后在网上由订户上传,从而使得其可以存储在可访问的数据库中,该数据库本身是包括服务器设备的网络的一部分,即接口连接到该网络内。
[0009] 网络可以是广域网“WAN”,例如万维网,或者其可以是具有提供受控访问的防火墙的局域网“LAN”。
[0010] 然而,在创建的媒体文件的存储被普遍认可之前并且确定地在允许更广泛地发布媒体文件之前,网守函数[通常支撑于属于唱片公司的人工智能“AI”平台上]分析上传的媒体文件以识别音乐和/或视频的构成部分。例如,该服务器侧的人工智能通过对比媒体内容的且在其内的捕获采样(或完整轨道)与存储在属于唱片公司的另一数据库中的参考数据(例如,轨道和视频)来进行适当的内容识别和内容匹配。
[0011] 唱片公司的数据库还可以存储由唱片公司设定的“规定使用政策”,同时该政策由其他服务器侧设备施加,例如内容平台(例如, )的网络服务器。该规定使用政策规定了上传的媒体文件是否可以由请求访问创建的媒体文件的一个或多个第三方(或受众)订户提供和访问。规定使用政策可以编辑某些内容或者完全拒绝对整个已上传媒体文件的访问。另选地,规定使用政策可以允许媒体内容在显示时附带(或不附带)在线促销或广告。
[0012] 此外,与媒体文件一起显示的广告可以指向试图访问所存储的媒体文件的选定人口统计或账户持有者,例如,借助于账户持有者的逻辑MAC地址导出的位置。这些广告、促销和/或公告可以在使媒体文件下行串流到正在请求的受众订户/账户持有者之前显示,或者可以与串流的媒体文件同时并在其之外显示。此外,每次有访问存储的媒体文件的请求时,网络服务器生成给唱片公司的报告,该报告标识了通过访问存储的媒体文件中至少一部分正在播放/显示的内容。
[0013] 然而,问题是:(1)服务器侧的内容识别并不总能注意到媒体文件内经编辑的或者演绎的原创作品,因此这些媒体文件从未受制于规定使用政策,和/或(2)网络服务器无法完全或者部分地报告受众成员对媒体文件的一部分或全部内的内容的使用或者事实上的相关使用,包括对媒体内容的构成内容的额外复制,和/或(3)对于并未出现相关的广告生成缺乏适当的报告手段,使得影响了规定使用政策。
[0014] 如以上所指出的,这些问题中的任一个均可导致收入的损失和缺少对电子文件(无论是视频、音频还是更一般性的数据)分布和/或使用的控制。此外,鉴于存储的媒体文件可以瞬间串流到数以千计的设备,或者在一天的任意时间串流,简直无法采用人工来决定每个请求。在需要评价每个访问请求和/或(从大量受众中)识别出请求者以及随后识别出满足规定使用政策的适当补充性广告过程中,可能存在令人无法接受的延迟。同样,对于个人的团队简直不可能评估在原始上传的媒体文件内或者实际上在从该原始上传的媒体文件提取的任何演绎媒体中的特定内容片段的程度或量。
[0015] 国际标准记录代码“ISRC”是一种经采用的用于唯一并永久标识记录的行业标准。这意味着由同一艺术家在不同时间记录的同一歌曲将引入不同的唯一ISRC代码。对于音频有类似的惯例,ISRC由两个字母的国家代码(例如,美国为US)和后面紧跟的用来唯一表示负责轨道的艺术家的三个字符的注册人代码构成。在注册人代码后是两位的参考年份以及标识轨道的五位数字。由此产生了用于音乐轨道的唯一标识符,按照示范性形式,其可以是US-RTX-16-00007。其他的格式明显也是可能的,但是ISRC是常见且公认的。

发明内容

[0016] 根据本发明的第一方面,提供了一种跟踪对可以在客户端设备上播放的音频轨道的使用的方法,该客户端设备可以连接至具有服务器的网络,服务器被设置为提供对第一数据库的受控访问,第一数据库中存储包括一个或多个音乐章节的多个源音频轨道,其中该方法包括:向服务器作出请求以访问多个源音频轨道中某一已识别的源音频轨道,针对已识别的源音频轨道的请求由客户端设备作出;为客户端设备提供对已识别的源音频轨道的访问,所述访问包括使与已识别的源音频轨道相关的唯一标识符对客户端设备可用;以及在客户端设备处,通过跟踪以下中的至少一项来确立在客户端设备处对已识别的源音频轨道的使用:与播放已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,以及在客户端设备处使用、执行或操纵已识别的源音频轨道的方式;在客户端设备处,针对(a)进入和退出点和/或(b)在客户端设备处使用、执行或操纵已识别的源音频轨道的方式生成跟踪数据;通过网络向服务器发送对在客户端设备处本地使用所选择的源音频轨道中的至少一部分的报告,该报告将跟踪数据与唯一标识符相关联;在服务器处,考虑到跟踪数据以及其和唯一标识符的链接,存储或转发与通过客户端设备使用已识别的源音频轨道的至少一部分相关的跟踪数据。
[0017] 跟踪数据可以推断或报告存在以下中的至少一项:i)已识别的源音频轨道的演绎作品,其中对演绎作品通过在客户端设备的处理进行汇编;ii)已识别的源音频轨道与其他媒体的同步,其中同步通过在客户端设备处的处理产生;以及iii)在客户端设备处对已识别的源音频轨道的机械或电子复制,其中复制通过在客户端设备处的处理发起。
[0018] 在一实施例中,第二数据库可以存储:相关联的音频文件描述,其定义在每个源音频轨道中章节之间音乐上可行的淡入淡出或剪辑,在每个章节中每个可行的淡入淡出或剪辑由和音乐时间中的一点相对应的实时点定义,其中听觉上无缝的淡入淡出保持所选择章节的进入和退出点之间的音乐节奏,其中提供对源音频轨道的访问包括至少向正在请求的客户端设备发送相关联的音频文件描述;并且该方法进一步包括:在正在请求的客户端设备处,利用相关联的音频文件描述来识别针对源音频轨道中章节的至少一些之间的一连串淡入淡出或剪辑的实时过渡点,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;向服务器发送针对已识别的源音频轨道的过渡点以及源音频轨道的唯一轨道标识符;在服务器处解析由过渡点和唯一轨道标识符标识的源音频轨道的特定音乐章节从而允许报告对特定音乐章节的使用。
[0019] 第二数据库可以进一步存储与多个源音频轨道中的至少一些中的每一个相关联的上传文件,每个上传文件定义对其相应源音频文件的编辑,其中上传文件允许在读取所述上传文件且所述上传文件可由客户端访问时选择每个源音频轨道内的章节的次序。
[0020] 在本发明的另一方面,提供了一种用于跟踪对数字音频文件的使用的系统,该系统包括:服务器,其被设置为提供对多个源数字音频文件的受控访问,该多个源数字音频文件各自包含至少一个音乐章节,其中服务器被设置为:响应于从客户端设备接收到的对于访问多个源数字音频文件中的某一已识别的源音频文件的请求,为客户端设备提供对该已识别的源音频文件的访问;向客户端设备提供与已经对其提供访问的所述已识别的源音频轨道相关的唯一标识符;从客户端设备接收链接至唯一标识符的跟踪数据,所述跟踪数据与以下中的至少一项相关:与在客户端设备处播放已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,以及在客户端设备处使用、执行或操纵已识别的源音频轨道的方式;通过存储或转发链接至由客户端设备请求的已识别的源音频轨道的唯一标识符的跟踪数据来跟踪对已识别的源音频轨道的使用,所述跟踪数据与由客户端设备对已识别的源音频轨道中至少一部分的使用相关。
[0021] 服务器可以被进一步设置为:为客户端设备提供对其中存储相关联的音频文件描述的数据库的访问,该相关联的音频文件描述定义在每个源音频轨道中章节之间音乐上可行的淡入淡出或剪辑,在每个章节中每个可行的淡入淡出或剪辑由和音乐时间中的一点相对应的实时点定义,其中听觉无缝的淡入淡出保持所选择章节的进入和退出点之间的音乐节奏;向正在请求的客户端设备发送相关联的音频文件描述,该音频文件描述与源音频轨道相关;从向其发送相关联的音频文件描述的客户端设备接收参考源音频轨道的唯一标识符的过渡点,所述过渡点实时标识源音频轨道中章节中的至少一些之间的一连串淡入淡出或剪辑,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;以及解析由过渡点和唯一轨道标识符标识的源音频轨道的特定音乐章节从而允许报告对特定音乐章节的使用。
[0022] 响应于解析特定音乐章节,服务器(在各种实施例中)可以识别并且随后促使向正在请求的客户端设备传送目标信息,该目标信息被预先标识为与源音频轨道或特定音乐章节相关。
[0023] 优选地,针对已识别的源音频轨道的所述过渡点通过服务器存储在数据库中作为对源音频轨道的编辑的表示。
[0024] 实施例通过向客户端设备提供对过渡点的访问,使对源音频轨道的编辑的表示可用,从而允许播放该编辑。过渡点被优选地作为元数据嵌入在音频轨道中。过渡点可以是实时值,例如源音频轨道内的脉冲计数。本领域技术人员可以理解报告过渡的其他方法。
[0025] 已识别的源音频轨道(或者数字媒体文件)可以作为文件被下载或串流到正在请求的客户端设备。
[0026] 跟踪数据可以推断或报告存在以下中的至少一项:i)已识别的源音频轨道的演绎作品,其中对演绎作品通过在客户端设备的处理进行汇编;ii)已识别的源音频轨道与其他媒体的同步,其中同步通过在客户端设备处的处理产生;以及iii)在客户端设备处对已识别的源音频轨道的机械或电子复制,其中复制通过在客户端设备处的处理发起。
[0027] 在至少一个实施例中,服务器被进一步设置为通过以下中的至少一个解析对于使用已识别的源音频轨道的支付义务:a)客户端设备;以及b)媒体服务器,媒体服务器耦合至网络和客户端设备,客户端设备与媒体服务器进行交互。
[0028] 媒体服务器可以在社交媒体平台内。
[0029] 源音频轨道的至少一些章节形成多媒体文件的一部分,多媒体文件包含被同步用于与至少一个所选择的章节一起显示的至少一个图像。
[0030] 在本发明的第三方面,提供了一种在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法,该方法包括:从包含多个数字媒体文件的数据库中选择所选择的数字媒体文件,所述多个数字媒体文件各自具有一个或多个章节;通过通信网络接收对所选择的数字媒体文件的访问,并且进一步接收与所选择的数字媒体文件相关的唯一标识符;通过跟踪以下中的至少一项来确立在客户端设备处对所选择的数字媒体文件的使用:与播放所选择的数字媒体文件的至少一个章节相关联的进入和退出点,以及在客户端设备处使用、执行或操纵所选择的数字媒体文件的方式;针对(a)那些进入和退出点和/或(b)在客户端设备处使用、执行或操纵所选择的数字媒体文件的方式中的一个或两个生成跟踪数据;通过通信网络传送对在客户端设备处本地使用所选择的数字媒体文件中至少一部分的报告,报告将跟踪数据与唯一标识符相关联。
[0031] 一种在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的优选方法进一步包括:接收针对所选择的数字媒体文件的相关联的文件描述,该文件描述定义所选择的数字媒体文件中章节之间的可行的淡入淡出,以及利用相关联的文件描述来识别所选择的数字媒体文件中多个章节中至少一些所选择的章节之间的一连串淡入淡出的实时过渡点;通过网络在上行链路上发送针对所选择的数字媒体文件的过渡点和唯一标识符以允许报告对特定章节的使用。
[0032] 在客户端设备上播放媒体内容并跟踪对媒体内容的章节的使用的方法可以进一步包括:接收针对所选择的数字媒体文件的相关联的音频文件描述,该音频文件描述定义所选择的数字媒体文件中音频章节之间的音乐上可行的淡入淡出,每个可行的淡入淡出通过和音乐时间中的一点相对应的实时点来定义,其中听觉上无缝的淡入淡出可以被执行以保持在所选择的数字媒体文件的所选择章节中进入和退出点之间的音乐节奏,以及利用相关联的音频文件描述来识别所选择的数字媒体文件中多个音频章节中至少一些所选择的音频章节之间的一连串淡入淡出的实时过渡点,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;通过网络在上行链路上发送针对所选择的数字媒体文件的过渡点和唯一标识符以允许报告对特定章节的使用。
[0033] 所述系统和方法可以被设为将选择源音频轨道的章节的能力限制于仅对那些可以在编辑中一起连续淡入淡出从而在源音频轨道的音乐上匹配的章节中的进入和退出点之间保持音乐节奏的章节。
[0034] 通过用作数据储存库的网守的服务器访问源音频轨道的编辑版本;以及通过经由服务器访问与编辑相关联的所存储的元数据来播放编辑版本,其中元数据定义过渡点以允许在客户端设备上播放该编辑版本。
[0035] 在本发明的另一方面,提供一种计算机程序产品,当其由客户端设备的处理器执行时,促使客户端设备执行如本文所述的方法的步骤。
[0036] 在一个特定实施例中,提供一种跟踪对可以在客户端设备上播放的音频轨道的音乐章节的使用的方法,客户端设备可以连接至具有服务器的网络,服务器被设置为提供对至少一个数据库的受控访问,该至少一个数据库中存储包含多个章节的多个源音频轨道;相关联的音频文件描述,其定义在每个源音频轨道中章节之间音乐上可行的淡入淡出或剪辑,在每个章节中每个可行的淡入淡出或剪辑由和音乐时间中的一点相对应的实时点定义,其中听觉上无缝的淡入淡出保持所选择章节的进入和退出点之间的音乐节奏;以及与多个源音频轨道的至少一些中的每一个相关联的上传文件,每个上传文件定义对其相应源音频文件的编辑,其中上传文件允许在读取所述上传文件时选择每个源音频轨道内的章节的次序,其中方法包括:向服务器作出请求以访问某一已识别的源音频轨道,请求由客户端设备作出;为正在请求的客户端设备提供对源音频轨道的访问并向正在请求的客户端设备至少发送相关联的音频文件描述;以及在正在请求的客户端设备处,利用相关联的音频文件描述来识别源音频轨道中至少一些章节之间的一连串淡入淡出的实时过渡点,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;向服务器发送这对已识别的源音频轨道的过渡点和源音频轨道的唯一轨道标识符;以及在服务器处解析由过渡点和唯一轨道标识符标识的源音频轨道的特定音乐章节从而允许报告对特定音乐章节的使用。
[0037] 一种用于跟踪对音频轨道的音乐章节的使用的系统的实施例公开了一种系统,其中:服务器被设置为提供对至少一个数据库的受控访问,该至少一个数据库中存储包含多个章节的多个源音频轨道,相关联的音频文件描述,其定义在每个源音频轨道中章节之间音乐上可行的淡入淡出,在每个章节中的每个可行淡入淡出由和音乐时间中一点对应的实时点定义,其中听觉上无缝的淡入淡出在所选择的章节的进入和退出点之间保持音乐节奏,以及与多个源音频轨道的至少一些中的每一个相关联的上传文件,每个元数据文件定义对其相应源音频文件的编辑,其中当读取元数据文件时元数据文件允许选择每个源音频轨道内章节的次序,其中服务器被设置为:提供对多个源音频轨道中用户识别的源音频轨道的访问;向已识别的用户设备下行发送和用户识别的源音频轨道有关的至少一个音频文件描述以及用于所述源音频轨道的唯一标识符;从已识别的用户设备接收i)用于已经授权给已识别的用户设备访问的源音频轨道中至少一些章节之间的一连串淡入淡出的实时过渡点,所述过渡点中的每一个和实现章节之间听觉上无缝过渡的音乐时间中的一点相对应,以及ii)唯一轨道标识符;解析由过渡点和唯一轨道标识符标识的源音频轨道的特定音乐章节从而允许报告对特定音乐章节的使用。
[0038] 在另一实施例中,一种在客户端设备上播放音频轨道并跟踪对该音频轨道的音乐章节的使用的方法包括:从数据库中选择具有多个章节的源音频轨道;接收针对所选择的音频轨道的相关联的音频文件描述,该音频文件描述定义源音频轨道中章节之间的在音乐上可行的淡入淡出,每个可行的淡入淡出通过和音乐时间中的一点相对应的实时点来定义,其中听觉上无缝的淡入淡出可以被执行以保持在所选择的音频轨道的所选择章节中进入和退出点之间的音乐节奏,以及利用相关联的音频文件描述来识别源音频轨道中多个章节中至少一些所选择的章节之间的一连串淡入淡出的实时过渡点,所述过渡点中的每一个和实现听觉上无缝过渡的音乐时间中的一点相对应;通过网络向耦合至设备的服务器发送针对已识别的源音频轨道的过渡点和源音频轨道的唯一轨道标识符以允许报告对特定音乐章节的使用。
[0039] 所述方法的方面可以被实现为可以由客户端设备和服务器处的处理器执行的计算机程序产品。
[0040] 有利地,本发明提供了一种通过使用元数据来跟踪媒体内容特别是音频内容(尽管其原理可以适用于跟踪数字领域中其他形式的媒体)的客户端侧机制,该元数据保持音频轨道(或者类似物)的构成要素和原始源文件之间的关系,而不管对这些构成要素的编辑和重新排列的次数如何。本发明的实施例允许按照听觉上无缝的方式对音频文件进行编辑,其中通过最初提供的音频文件描述支持在最初非相连的章节(即,不同的采样切片)之间的淡入淡出,该音频文件描述将每个音乐上有意义的音频章节解析成音乐时间和实时特征(为了实现听觉上无缝的淡入淡出两者均是所需要的)。通过嵌入适合的相对于原始文件定义淡入淡出的实时剪辑过渡数据,播放经编辑的文件的设备可以上行传输基于对特定构成(音频)章节的使用的报告。该报告随后在服务器侧被使用以生成关于内容跟踪的另一报告,该另一报告可以被发送到商业服务器,商业服务器用于基于所报告的跟踪事件管理许可程序和/或促使向从其发送上行链路报告的设备提供和章节有关的辅助媒体。有利地,与能够明确识别对音频(和/或视频,根据可能的情况)的特定章节的特定使用相关联的精细颗粒度提高使本发明的系统能够授予与经汇编和播放的媒体文件的不同章节成比例的收入共享。因此,本发明简化了与通过现有面向服务器的解决方案的内容跟踪相关联的基础架构,并且由于随着捕获和报告使用(即使当此类使用符合对编辑的编辑的情况,该情况形式上导致对关于音频的所使用章节的出处的相关信息的损失)的能力提高而改善了内容报告,提高了稳健性。附图说明
[0041] 现在将参考附图描述本发明的示范性实施例,其中:
[0042] 图1是常规媒体共享系统的示意图;
[0043] 图2是优选实施例的内容汇编、传递和跟踪系统的示意图;
[0044] 图3是在真实世界事件和音频片段(例如,音乐的章节)之间建立的关系的示意图,并且其中该关系根据本发明来建立;
[0045] 图4是根据本发明的优选实施例的系统的示意图;
[0046] 图5是图4的系统内所采用的章节编制智能的功能图;
[0047] 图6是根据优选创建过程的跟踪汇编和元数据创建的功能图;
[0048] 图7是在离开音频的章节内不同音乐主题的退出点和到该不同音乐主题的进入点之间的优选剪辑策略的时域图;
[0049] 图8a、图8b和图8c示出了根据优选实施例的相对于公共时间基准和相应开始事件、淡入淡出或剪辑在活动音频章节和目标音频章节之间的淡入淡出或剪辑;
[0050] 图9由图9a至图9c组成,是音乐的不同章节的频谱图,章节具有根据本发明的优选实施例确定的退出点和进入点;
[0051] 图10是显示在音乐的不同章节中不同拍子记号之间相对定时的时序图;
[0052] 图11由图11a至图11d组成,其显示了通过其确定开始的优选过程,该过程由优选的系统在开展图8a至图8c中例示的淡入淡出或剪辑过程中采用;以及
[0053] 图12是根据优选实施例的跟踪数据库的示范性配置。

具体实施方式

[0054] 图1是常规媒体共享系统10的示意图。
[0055] 在图1中,用户使用计算机12(或者类似物,例如智能手机或PDA)来构建媒体文件18并且随后通过网络14上传16。媒体文件包含通常采用音频22和/或图像24中至少一种的形式的内容20,包括静态图像和/或视频。图像24可以从本地来源26输入到计算机内,例如摄像机等,并且可以接受基于网络或本地安装在计算机12上的一些形式的编辑软件28的处理。关于媒体文件的音频,其可以从本地获得或者可以通过访问远程数据储存库或数据库并且随后串流素材以允许本地编辑来获取。在此实例中,媒体文件18的组成部分的起源并不重要且只要媒体文件18包含用户希望通过订阅内容提供方30所支持的一些形式的渠道来发布的数据就够了,该数据可以是完整的音频轨道或者视频剪辑的采样或部分而非完整无缺的原创艺术作品。同样,内容提供方30是否需要付费或非付费订阅并不重要,尽管在任一种情况下,用户可以通常具有某种形式的注册,鉴于内容提供方,例如 被充
分理解而容易鉴别的。通常,订阅媒体内容提供方30可以是服务器和相关的数据库,同时服务器具有一些适当的接口和可操作控制逻辑(共同由控制器31表示)。可访问的数据库可以是位于订阅媒体内容提供方30本地或远程。
[0056] 关于网络14的性质,其可以是WAN、LAN、PLMN或有线公共网络的一种或混合并且可以更宽泛地扩展从而使得数据库通过网络14得到访问。网络14仅提供按需通信路径和回路32-36,该按需通信路径和回路允许各种基础架构件和订户设备的互连和交互,例如用于生成媒体文件18的计算机12和多个订户或受众设备,例如由笔记本电脑38所例示的,其希望下载、串流或以其他方式收听或观看已经由用户进行汇编的部分或全部已上传媒体文件
18。
[0057] 假定现在媒体文件18已经由用户在计算机12处进行了汇编并且按地址向订阅媒体内容提供方30发送,则媒体文件接受询问以识别其是否适合于存储并由受众38进行更广泛地第三方访问。在这个方面,通过订阅媒体内容提供方30调用服务器侧的网守函数40(通常基于人工智能)。网守函数40可以在订阅媒体内容提供方30内或者位于属于不同商业实体的外部服务器上,例如前述的唱片公司。网守函数40被设置为对已上传媒体文件的构成部分(或者全部)执行内容识别/内容匹配,并且随后促成决定是否(以及在何种程度上)可以存储该(以及事实上每个)已上传媒体文件18以及查看或访问每个上传媒体文件18的部分或全部的方式。就这一点而言,网守函数40同时耦合至订阅媒体内容提供方30和集中式或分布式数据库44,其中该集中式或分布式数据库中存储:i)大量已上传且不同的媒体文件;ii)原始音频轨道和/或视频和/或静态图像的参考数据库;以及iii)包含广告或促销内容的广告数据库,该广告或促销内容通常基于人口统计和/或地址数据与个人或群体交叉引用。
[0058] 网守函数40还可以耦合至商业服务器46,该商业服务器继而与订阅媒体内容提供方30、集中式或分布式数据库44以及一些形式的可访问存储器58进行通信,该存储器包括一组规则,即定义谁来观看或者是否能查看上传的媒体文件的规定使用政策50。规定使用政策50通常由唱片公司来设定(大体上并且通常由虚线52所包围的一些或全部功能来表示)。
[0059] 返回到网守函数40,通过将媒体文件的全部或构成部分与预先存储的和原创艺术作品有关的素材进行比较,对上传的媒体文件18评论和分类。此类比较技术为人们所熟知,因此无需再详细进行描述,因为其仅和常规系统如何工作的背景相关。尽管如此,简而言之,网守函数40实质上查找在每个上传的媒体文件18的接受分析的章节和参考数据之间的相似度和差异量。随后关于如何引用上传的媒体文件(相对于已确定是相关的原创艺术作品)以及如何控制访问该上传的媒体文件的方式,例如,是否在访问或不访问(存储在广告数据库中的)已识别或补充性广告的情况下显示器任意内容,或者是否要编辑或者完全压缩器内容作出确定。因此规定使用政策50是一种可由唱片公司定义的政策以及用于基于对每个(存储的)上传媒体文件18的后续访问为唱片公司产生收入的政策。
[0060] 从访问的度,图1示出了一种第三方终端,例如笔记本电脑38,其通过网络14连接至订阅媒体内容提供方30。当然不时地可以存在多个第三方终端连接至系统。在使用中,第三方终端可以由用户进行操作,该用户可以输入地址或者以其他方式搜索已上传到数据库44内并且现在已经批准且存储在其中的媒体文件。订阅媒体内容提供方30可以管理访问的请求并且提供到所请求的(存储的)媒体文件的路径以允许在第三方终端处操纵和/查看该媒体文件。该路径可以是直接的点对点连接,但是通常是间接的,即通过订阅内容提供方30。当请求对媒体文件的访问时或者当正在进行将媒体文件串流或下载到第三方终端时,由服务器侧的系统生成报告60,该报告60被传送到商业服务器46。另外,基本上与播放或下载所请求的媒体文件同时,将与所上传和存储的媒体文件18相关联的规定使用政策具体化并应用,从而促使将合适的广告传送到(或将编辑应用于)为了在第三方终端处查看媒体文件的下载。报告60允许事件日志增加以使用原创艺术作品,以及允许针对原创艺术作品的使用对订阅媒体内容提供方30或第三方终端的用户中的一个或另一个征收许可费。其可以简单地是所记录的在上传数据文件18与原创艺术作品和规定使用政策两者之间的交叉引用自动地促使将任何合适的广告下行传送到第三方终端,并且访问数据库促使报告60由商业服务器46记录(在存储装置48中)以用于立即的或累计的事件发票开具目的。
[0061] 图1因此示出了服务器侧的内容识别和跟踪,且其系统配置易受到上述报告遗漏和未记录的错误的影响。
[0062] I.内容跟踪
[0063] 相比而言,本发明采用了一种客户端中心方法用于跟踪识别。图2中的系统配置共享了和图1中系统配置的一些相似之处,尽管对跟踪和报告协议有显著的简化以及在基础架构组件、跟踪表征以及报告复杂性方面的相关简化。网络14的拓扑允许系统的各种模块和组件进行交互并保持数据连接,同时这意味着,从基础架构侧,组件可以利用互连进行物理地分布从而显示出典型的购买示范性功能连接性。
[0064] 在图2中,计算机12的用户仍然可以编辑28内容以汇编和生成媒体文件,但是内容可能不同地来源于,例如,本地摄像机102或其他图像库(其可以是远程且在线的),同时音频轨道从Mashtraxx数据库104请求和下载。Mashtraxx音频轨道--其存储在Mashtraxx数据库104上--包括与同时适合切入和切出轨道的节拍过渡点有关的元数据,并且这种元数据允许Mashtraxx系统无缝地重新排序和结合具有共同音乐特征的轨道。元数据的性质在以下更详细地进行讨论并且在PCT/GB2016/051862中详细进行了描述,该文献以其整体通过引用结合于此。Mashtraxx元数据与音频轨道中的每个相连章节有关并且为每个音频轨道中的每个音频章节提供唯一且永久的标识符。因此每个章节可以通过其唯一且永久的标识符独立地跟踪,无论其被如何使用或操纵,因为元数据永久地与章节相关联,并且系统内的参考数据库维护每个唯一且永久的标识符的记录。包含任意音频的Mashtraxx媒体文件的汇编可以因此总是包括对Mashtraxx音频章节的来源起源的记录,不管该音频章节是否是从副本的复制提取。换言之,包含原始Mashtraxx音频(以及相关元数据)的方面的演绎作品仍然是可以唯一识别的,此外,还可以跟踪和报告它们的具体使用。
[0065] 在这种背景下,“章节”是指音频的单个片段或采样,其无法在不影响与另一音频章节的无缝连接的情况下被划分成更短的长度(在音乐时间上),该无缝连接能够实现对第一音频章节固有的底层音乐节拍或节奏的用户无法察觉的改变。当然,章节可以由任意长度组成并且这些长度在源音频轨道的注释器的选项处设置,但是无论如何章节具有允许在淡入淡出期间进入和退出每个章节的乐感和音乐属性。术语“Mashtraxx元数据文件”可以因此根据实施例与增强的Mashtraxx元数据有关,该增强的Mashtraxx元数据在时间上定义至少一个音频轨道中的音频章节的连接和重新排序,但是该术语还可以与复合文件有关,该复合文件同时包含了与相关联的已编辑音频轨道或已编辑多媒体图像中一个或两个的嵌入式Mashtraxx元数据和音频轨道编辑。Mashtraxx元数据文件可以因此采用两种替代形式中的一种,这取决于元数据是下行链路传送(即,当元数据是“音频文件描述”时用于对音频轨道的潜在编辑和播放的目的)还是上行链路传送,在上行链路传送情况下存在对播放音频轨道和/或对源音频文件的编辑的描述的报告。
[0066] 返回到图2,用户(通常)从属于唱片公司或由其管理的唱片公司专有数据库107(例如,iTunes)获取源音频轨道,或者以其他方式从Mashtraxx音乐编辑和访问数据库(图2中显示为Mashtraxx数据库104和上传数据库106)获取,其自身已经从唱片公司获取了原始音频轨道。唱片公司专有数据库的位置并不重要,并且实际上,其可以是Mashtraxx音乐编辑和访问数据库104-106的一部分。在源音频的初始下载之后的原因仅是允许用户识别目标轨道。这种识别可以涉及通过播放原始轨道和/或通过搜索应用的采用被包含或者与任何音频轨道相关联的唯一标识ISRC形式的行业标准元数据的音频识别。当然,用户实际上可以直接到专用的音乐数据库下载(或者以其他方式串流)演绎作品,但是应当理解,演绎“编辑”可能被误识别,因为其可能具有不同于原始源音频轨道的音乐排列。因此,以原始源音频轨道来开始编辑处理可能更好,尽管这完全是任选的,并且通过本发明的实施例可以设想“对编辑的编辑”。
[0067] 源轨道随后还可以在编辑处理中使用。
[0068] 安装在用户的计算机、智能电话等上的Mashtraxx编辑应用程序101为用户提供允许访问源音频轨道和Mashtraxx音乐编辑和访问数据库中至少一个的界面。此外,可以通过网页浏览器来访问编辑应用程序101,因此用户的计算机上可以不再需要特定的软件并且编辑应用程序101因此是暂时的。编辑应用程序101还允许对数据的上传,数据可以是具有相关联的增强Mashtraxx元数据的复合媒体文件,但是替代地,上传可以仅是增强Mashtraxx元数据文件或者对相关的本地发生的事件的报告“日志”,该报告“日志”与源音频轨道或者支持源音频文件的至少分段重新排列或者音频-视频编译的编译媒体文件永久地关联。
[0069] A)音频文件描述
[0070] 仅为了解释起见,假定对象是源音频轨道的第一次编辑,而非对当前编辑的重新编辑(其同样得到本发明实施例的支持)。Mashtraxx编辑应用程序101向Mashtraxx服务器111发送请求,以通过返回提供对所选择的源音频文件的至少一个音频文件描述。音频文件描述包括对源轨道内的章节如何按照无缝方式一起淡入淡出的完整定义,描述因此包括源轨道的每个已识别章节如何同时按照音乐时间和实时进行定义的细节。需要在音乐时间方面的定义来解释在不会引起对听者的音乐上可辨别的冲击的情况下哪些可以组织/剪辑在一起,而实时方面的定义精确地标识在数字处理域中剪辑实际上必须何时发生(相对于音乐小节内的节拍的采样速率空间)。这两种不同的时间量度都是需要的,因为音乐时间包含无法变换成实时表示的语义。另外,音频文件描述可以包括辅助信息,例如子文件名称,以及被用来帮助相对于同一轨道中其他音乐切片对音乐的特定章节(或“切片)分类的主观评价信息。例如,轨道可以包括前奏、多个副歌、多个主歌以及结尾部分,同时在前奏与结尾部分、副歌(或多个副歌)和主歌或多个主歌中每一个之间的相对音乐显著性(或“强度”),以及实际上,(除了其他可辨认的音乐章节之外)在主歌和副歌之间的相对强度。此外,在,例如,副歌的共同主题内,能够感知到一个副歌相对于另一个表达相同但是时间移位的副歌具有相对更高的音乐显著性,因此可以在音频文件描述的结构内定义共同主题之间差别的更精细等级。
[0071] 当对其相关的源轨道应用时,音频文件描述允许对源轨道分区(或“分段”)以用于编辑和重新组合的目的。音频文件描述,即,归于轨道的每个章节的元数据,因此定义可以在哪里以及如何按照不同的次序重新汇编轨道的章节,并且按照此方式没有或者基本上没有音乐上(音频)的刺声。
[0072] 关于音频文件描述,每个轨道被分段成各自具有已定义的相对音乐强度或主题的章节,例如前奏、副歌、主歌、结尾部分等。这样的分段或分区是对每个音频轨道的构成部分的一种有效的高级表征。实际上,主歌、副歌、前奏和结尾部分中的每一个从音乐的角度看自身可以--并且实际上通常是--划分成更小的章节,该更小的章节随后可以重新编织在一起并利用本文中所述的技术进行跟踪。通过本公开的全部内容解决的问题包括如何按照有效且无缝的方式剪切并重新结合时间上分离的章节。因此,每个轨道的优选表征可以将每个轨道划分成更小的可能章节,或者在实际的实施例中,章节对于注释器在音乐上是有意义的,同时这种划分通过手动(在人类注释者的情况下)或者通过应用人工智能(其中应用的处理规则将决定章节长度)来实现。
[0073] 每个轨道的音频文件描述因此包括以下中的至少一些,并且通常包括其全部:
[0074] 1“. 切片(slice)”词典,即,列出在已识别轨道内的所有切片的“章节(section)”细节。
[0075] 2.对于已识别轨道的每个切片,“淡入淡出持续时间”是基于采样速率的数值。淡入淡出持续时间是可变的并且与用于从第一章节或(通常)同一轨道中用户选择的一不同章节淡出的时间。应当注意,当对轨道分类时,淡入淡出持续时间由系统管理员选择,同时该持续时间被选择为反映在音乐的不同流派之间变化的听觉上淡入淡出要求。例如,在流行音乐中,在每秒四万四千一百(44100)次采样的标称采样速率下,典型的淡入淡出可以存在超过3毫秒。相反,在古典音乐中章节之间的淡入淡出通常存在超过相对于在流行音乐中明显更长的时间,否则该剪辑在听觉上很容易被感知到。
[0076] 3.对于每个章节/切片(出于操纵的目的,其可以以名称字符串来提供),在通过检查源音频轨道填充的指定字段中提供定时特征,该定时特征同时在音乐时间和实际时间中定义了章节/切片。更具体地,此类字段包括:
[0077] a“. 采样开始(sample start)”:以整数值表示,其实时并根据采样速率定义了切片的精确开始点。例如,其可以是采样编号两万七千六百零三(27,603)。
[0078] b“.采样持续时间(sample duration)”:由数值表示,其定义了特定切片中采样的总数量,例如192450,其在44,100的采样速率下对应于实际时间的四千三百六十三点九(4363.9)毫秒。这实际上是任选的字段和具体的实施方式,因为信息同样存在于元数据内的其他地方,也就是说在“长度”参数内。
[0079] c“.位置(position)”:依据小节并且由此依据“节拍”、“片段”、“脉冲”和“节奏”来定义。“位置(Position)”是在音乐时间上的描述,其提供情景式的音乐开始点而非在实时线中“采样开始”的抽象数值。因此,“位置”的使用在无缝音频的意义上通过使用节拍、小节和片段从而补偿原始音频轨道的来源的本质和起源定义了哪些可以端对端地连接在一起。例如,如果某一轨道被添加到Mashtraxx数据库且该轨道是从iTunes(而非音乐储存库Tidal)获取的,则针对事件的实时位置可能并不对应。相反,依据音乐时间(即,小节、节拍和片段)定义同一事件允许进行同步和产生公共的时间基准,从而允许由不同的注释器和/或以不同的采样速率汇编源轨道。换言之,两个不同的数据库储存库可以针对名义上相同的记录具有两个不同的音频文件。因此,位置参数补偿这些定时差异从而有效地对准小节、节拍和片段。
[0080] d“. 长度(length)”:和采样持续时间相对应的音乐时间表示,以及对哪些实际上可以在音乐上剪辑而非仅仅是哪里(“采样持续时间”)需要作出剪辑的定义。长度是关键因素并且定义由小节、节拍和片段定义的剪辑事件的音乐时间过渡。从实施的角度来看,小节和节拍因此是各个整数值,而片段是浮点数。“长度”还优选地依据时间域和绝对时间来定义,同时位置依据相关脉冲的总数量来表达。例如,出于处理的目的,小节可以被设置为具有例如576个子划分(称为“脉冲”),可以理解,小节的持续时间实际上在长度上实时改变,这基于音频轨道可能改变拍子记号的事实,并且这意味着在章节之间编辑还可能需要考虑到拍子记号的这种变化。因此,可以考虑将脉冲作为最低的时间参考公分母,其可以表示普通或复合音乐时间中的节拍或片段。因此“长度”是有重要意义的,其允许在匹配的章节之间存在淡入淡出/剪辑,因为任何编辑必须在具有音乐意义的点处且按照音乐时间发生。在音乐时间中,小节、拍子和片段因此包含在时间的任何绝对度量(例如,采样持续时间)中丢失的语义信息。从优选实施方式的角度,脉冲是(类似小节和节拍)的整数值。“长度”优选地包括实时的量度,被称为采样长度,其为实时数字,为脉冲数和音乐的章节的拍子记号和节奏两者的乘积的函数。“长度”因此是持续时间的音乐时间表示。“长度”是每个章节/切片的属性,同样也是每个弱拍和退出点的属性(参见下文)。相比于依据“采样”,持续时间在音乐时间上的表示对于确定可以在哪里作出编辑是至关重要的。“长度”因此适用于描述每个音乐章节中的多个属性,这些属性包括章节、弱拍和退出点。
[0081] e“.弱拍列表(anacrusis_list)”:对于每个章节,存在至少一个弱拍,同时每个弱拍本身长由度(参见上文)、“采样偏移”以及“弱拍淡入淡出持续时间”来定义。采样偏移是采样速率的整数值并且按照弱拍和所选择的音乐位置(其为稍后在图7和图9中所示的抽象进入/退出点)之间采样的整数值反映时间偏移。弱拍淡入淡出持续时间是采样的整数值并且反映与针对特定弱拍的特定淡入淡出时间有关的覆盖位置,因此弱拍淡入淡出持续时间替代了附接到特定音乐流派的一般性设置的淡入淡出持续时间(cross_fade_duration)。
[0082] f“. 退出点列表(exit_point_list)”:对于每个章节,可以存在至少一个退出点,如随后参考图9所描述的。同样,每个退出点依据音乐时间中的“长度”参数进行描述。如随后将进行描述的,章节可以具有多个可能的退出点(即,弱拍)用于淡入淡出,但是退出弱拍的音乐长度必须与被用作进入经时间移位的切片的下一进入点的弱拍的长度相匹配。对于剪辑,长度优选地相对于基于脉冲计数的过渡,因为语义性的音乐信息存在于该长度内而非与脉冲相关联的绝对数。
[0083] g“. 切片强度(slice_intensity)”:这实际上是一种主观值,如上所述,可以由负责汇编音乐文件描述的音乐工程师(或AI)来指定。如上所述,其通常是在1和例如7之间的整数值,其可以用于追踪/识别在整个轨道的背景内章节的方面或主题。与切片强度相关联的辅助数据可以包括允许软件表示不同章节(即,不同的强度)的颜色值,在音频的波形内以不同颜色呈现,但是对于音频的匹配淡入淡出章节要以彩色示出(而非仅仅作为黑白轮廓的波形)。当然,也可以使用其他的视觉标识方案。例如,图3中波形的章节T1、T2和T4可以按照两种或更多种的颜色来显示以反映音频轨道变化的方面,同时对章节T3重新排序可以去除后续的选项以淡入到章节T2,即使在原始轨道中T2在T3之前。这可能导致章节T2被降低重要性,例如,去除了任何先前应用的颜色,作为其不再可以被有效选择作为淡入淡出选项的后果。
[0084] h“. 自由形式属性(free-form properties)”:其通过一个或多个辅助字段来实现,该一个或多个辅助字段被设置为存储可以用于识别音乐或乐器功能或者用于将经编辑的音频文件与补充视频数据对准的元数据。通常,这些字段表示精确的定时进入点,因此它们各自是指向特定采样的整数,例如,视频(或者类似物)的开始点可以附接至该采样点并触发。
[0085] 任选地,音频文件描述中可以包含其他信息,例如典型轨道细节和拍子记号数据。
[0086] 因此,音频文件描述是一种结构化的数据存储库,其包含重新编辑典型音频轨道所必需的所有数据。因此,音频文件描述可以被输出作为,例如,JSON文件,尽管其他的编码方案也是同样可行的。
[0087] 在更详细地考虑根据本发明的通过其进行内容跟踪的过程以及执行其各种实施例之前,通过发明内容本领域技术人员可以理解,每个音频文件描述包含针对音乐轨道中每个章节或切片的应用注释细节,同时这些应用(元数据)细节通过依据与整个轨道中其他章节的音乐兼容性表达或反映章节的属性来表征每个章节。因此,每个章节的细节在元数据中解释了如何使用每个章节的方式。因此,最重要的和进入弱拍的列表(“弱拍列表”)以及退出的列表(“退出点列表”)有关,它们中的每一个包含对一个或多个相关弱拍的定义。每个弱拍按照音乐时间中的小节、节拍和片段利用一定长度来进行描述,但是随后还按照脉冲和采样描述以用于处理和精确地识别实时过渡。使用脉冲中的长度以便决定哪些进入弱拍可以与哪些退出弱拍进行匹配。随后由软件使用采样中的长度来确切地决定在哪里淡入淡出音频的两个选定章节。采样中的该长度已经通过编辑工具利用音乐定时信息预先进行了计算,即,拍子记号、每分钟拍子等。
[0088] 因此,音频文件描述元数据描述了章节的排序是否可以关于彼此切换,并且如果可切换,存在哪些替代方式来允许所选择的章节拼接在一起从而产生相连的音频输出。应当注意,同样的两个章节能够按照多种方式以听觉上无缝的淡入淡出拼接在一起,同时每种替代方式需要选择一对匹配的弱拍以用于在相应的章节之间退出和进入。
[0089] B)编辑的上传
[0090] 特定的编辑可以由此被定义为重新排序的章节的序列,以及针对章节之间每个过渡的合适的进入弱拍和退出弱拍的对应选择。
[0091] 返回的音频文件描述现在可以由计算机12(或者类似物)上运行的Mashtraxx编辑应用程序101使用以对源轨道进行编辑,从而汇编独立的Mashtraxx元数据编辑文件或者以其他方式汇编包含嵌入的Mashtraxx编辑元数据的Mashtraxx媒体文件。尽管用于编辑的元数据可以采取多种替代形式,优选实施例将所产生的元数据提供为表示每个过渡的精确时间点的一连串数字。数字因此与在与“长度”和“位置”有关的章节细节中所使用的脉冲相关联,同时数字用作时间戳过渡。被编码作为编辑元数据的其他信息包括轨道标识符,其可以对应于(并且优选地确实对应于)ISRC,以及任选地,对应于所应用的完成在特定音频编辑中所识别的点处淡入淡出的图片的淡入淡出持续时间。音频编辑设置可以通过定义在与音频源轨道相关的音频文件描述内标识的时间点来进行描述。在Mashtraxx编辑元数据中使用的唯一轨道标识符可以因此是对例如ISRC的唯一映射引用,从而允许对在编辑/播放中使用的原始源音频轨道的构成部分的内容跟踪。
[0092] 在本文中描述了对编辑的汇编以及实现其的方式。在产生和报告Mashtraxx编辑元数据时,音频文件描述已经达到了其关于特定编辑的目的。所得到的独立Mashtraxx编辑元数据文件(例如,轨道标识符和时间戳过渡)或者Mashtraxx媒体文件(即,音频轨道和时间戳过渡的组合)随后通过Mashtraxx服务器上传以存储在Mashtrax数据库中,例如存储在数据库104中。
[0093] 对某一编辑的编辑可以被定义为在原始编辑中使用的音频的子集,即如果原始编辑具有“副歌1-主歌-副歌2”的结构,则对编辑的编辑的合适的可能可以是“副歌1-主歌的1/2”或者“副歌1-副歌2”。
[0094] 在第一种情况下,由于子集是原始编辑的相连章节,对编辑的编辑的报告机制和原始编辑中的完全一样(以上所述)。唯一的差别是播放了原始歌曲中较少的素材,因此客户端侧报告能够报告这种情况。客户端侧由此仍然能够报告正在使用原始源音频轨道中的哪些章节。
[0095] 为了提供背景,如果存在对编辑的子编辑或二次编辑,则淡入淡出和ISRC并未改变,因为Mashtraxx编辑元数据仍然完整无缺。例如,两个音频编辑的子集可以结合在一起,因此可以适当地对两个部分中使用的确切章节进行报告。系统因此被配置为并且能够发送正确的报告信息,因为两个编辑均为原始编辑的子集,针对它们的音频章节和ISRC或其他跟踪信息仍然完整无缺。
[0096] 在第二种情况下,由预先存在的编辑创建新编辑,同时某一编辑的这种新编辑规定不同的淡入淡出。在这种情况下,编辑应用程序101需要同时访问原始音频轨道和音频文件描述。编辑应用程序101被配置为确定其正被要求修改某一编辑,因为编辑应用程序已经从系统获得具有相关联的Mashtraxx编辑元数据的Mashtraxx音频轨道。原始编辑可以被认为是用于新编辑的模板,但是构建该编辑的同一过程需要音频文件描述,因为只有其具有构建新编辑所必需的全部信息。
[0097] 针对用于编辑的文件内容,这可以采用任何数量的适当形式,该适当形式使Mashtraxx系统能够在可以后续重现该编辑的程度上理解该编辑。针对已识别源文件编辑的编辑的一示范性格式可以因此是:
[0098] 源文件ISRC代码音频US-RTX-16-00007;
[0099] "最大音频时间线进入(MXAudioTimelineEntry)@0.000000s:小节(Bar)3[0-1]:弱拍(Anacrusis)[(0 0 0 0)/->[0 0 0 0]+1044采样(samples)]->0[2]退出(Exit)[/->[4 0 0 0]]弱拍(Anacrusis)[(0 0 0 0)/->[0 0 0 0]+512采样(samples)]",
[0100] "最大音频时间线进入@10.553016s:小节43[0-3]:弱拍[(0 0 0 0)/->[0 0 0 0]+132采样]->0[0]退出[退出小节47/->[4 0 0 0]]弱拍[-(0 2 2 0)/->[0 0 0 -360]+282采样]",
[0101] "最大音频时间线进入@20.851066s:小节55[2-4]:弱拍[-(0 2 2 0)/->[0 0 0 -360]+-813采样]->0[0]退出[退出小节59/->[4 0 0 0]]弱拍[-(0 2 2 0)/->[0 0 0 -
360]+-425采样]",
[0102] "最大音频时间线进入@31.067846s:小节47[0-4]:弱拍[-(0 2 2 0)/->[0 0 0 -360]+282采样]->0[2]退出[退出小节51/->[4 0 0 0]]弱拍[(0 0 0 0)/->[0 0 0 0]+432采样]",
[0103] "最大音频时间线进入@41.377506s:小节3[0-1]:弱拍[(0 0 0 0)/->[0 0 0 0]+1044采样]->0[0]退出[/->[4 0 0 0]]弱拍[-(0 3 0 0)/->[0 0 0 -432]+1034采样]",[0104] "最大音频时间线进入@51.954195s:小节7[1-1]:弱拍[(0 0 0 0)/->[0 0 0 0]+
512采样]->0[0]退出[退出小节11/->[4 0 0 0]]弱拍[-(0 3 0 0)/->[0 0 0 -432]+154采样]"
[0105] 或者以典型的JSON形式表示:
[0106] {
[0107] "ISRC":"US-RTX-16-00007",
[0108] "编辑":[{
[0109] "章节":{
[0110] "名称":"小节3-6",
[0111] "开始":{
[0112] "小节":3,
[0113] "节拍":0,
[0114] "片段":0,
[0115] "脉冲":1728,
[0116] "采样":47628000
[0117] },
[0118] "结束":{
[0119] "小节":7,
[0120] "节拍":0,
[0121] "片段":0,
[0122] "脉冲":4032,
[0123] "采样":111132000
[0124] }
[0125] },
[0126] "进入弱拍":{
[0127] "长度":{
[0128] "小节":0,
[0129] "节拍":0,
[0130] "片段":0,
[0131] "脉冲":0,
[0132] "采样":0
[0133] },
[0134] "采样偏移":1044
[0135] }.
[0136] "退出弱拍":{
[0137] "长度":{
[0138] "小节":0,
[0139] "节拍":2,
[0140] "片段":2,
[0141] "脉冲":1440,
[0142] "采样":9922500
[0143] },
[0144] "采样偏移":282
[0145] },{
[0146] "章节":{
[0147] "名称":"小节47-50",
[0148] "开始":{
[0149] "小节":47,
[0150] "节拍":0,
[0151] "片段":0,
[0152] "脉冲":27072,
[0153] "采样":746172000
[0154] },
[0155] "结束":{
[0156] "小节":51,
[0157] "节拍":0,
[0158] "片段":0,
[0159] "脉冲":29376,
[0160] "采样":809676000
[0161] }
[0162] },
[0163] "进入弱拍":{
[0164] "长度":{
[0165] "小节":0,
[0166] "节拍":2,
[0167] "片段":2,
[0168] "脉冲":1440,
[0169] "采样":9922500
[0170] },
[0171] "采样偏移":-425
[0172] },
[0173] "退出弱拍":{
[0174] "长度":{
[0175] "小节":0,
[0176] "节拍":2,
[0177] "片段":1,
[0178] "脉冲":1296,
[0179] "采样":8930250
[0180] },
[0181] "采样偏移":282
[0182] }
[0183] }]
[0184] }
[0185] C)编辑和报告的使用
[0186] 转向在上传Mashtrax编辑元数据文件之后出现的内容跟踪的具体问题,订户设备(例如,计算机38,或者实际上,正在操作其上汇编了编辑的设备的原始用户)直接或者通过重新定向功能间接地从订阅媒体内容提供方30访问Mashtraxx服务器111。为了访问Mashtraxx服务器111,订户设备使用Mashtraxx软件113,其为本地安装的或者是基于网络的应用程序。订户设备38现在能够播放由Mashtraxx编辑元元数据以及特别是由过渡点和淡入淡出持续时间定义的编辑。实际上,存在三种订户设备可以播放音频文件的方式:
[0187] i)Mashtraxx软件113可以促使原始音频文件和Mashtraxx编辑元数据下载到订户设备并且随后原始音频文件由Mashtraxx编辑元数据在本地重新组织结构以恢复上传编辑。文件可以从数据库的组合发送或者仅从Mashtraxx数据库104-106发送;
[0188] ii)Mashtraxx软件113促使将音频编辑的完全嵌入(以及永久预上传)版本下载或串流到订户设备,从而既简化了在订户设备处的处理又简化了在Mashtraxx服务器111处的处理,前提是完整的编辑在本地预先存储并且可随时下载;
[0189] iii)Mashtraxx软件113促使订阅媒体内容提供方30的Mashtraxx服务器或控制器31在运行中向相关且已识别的源轨道应用Mashtraxx编辑元数据文件,该相关且已识别的源轨道本身:(a)本地存储在Mashtraxx系统内;(b)本地存储在作出访问请求的订户设备处;或者(c)远程地存储在服务订阅媒体内容提供方30的数据库中。所得到的编辑,一旦经过汇编,随后被作为文件或串流数据向下游传送到请求该编辑的订户设备。
[0190] 通过订户(利用Mashtraxx软件113)作出对音频编辑(或者实际上对包含音频编辑的文件)的请求的结果是Mashtraxx服务器111生成详细说明对已识别轨道的章节的使用的报告。该请求包含允许交叉引用唱片公司的音乐目录的唯一轨道标识,同时在Mashtraxx编辑元数据中提供的特定定时确保将要播放或者已播放过的单个轨道也可以得到识别。报告可以由Mashraxx服务器在接收到请求时、在每个轨道开始播放时生成,或者在周期性报告中,例如,Mashtraxx软件关闭或超时时生成。如果报告是基于编辑在订户设备处的播放,则明显能实现更高的可见性。
[0191] 因此,Mashtraxx编辑元数据从属于包含任何音频轨道或与任何音频轨道相关联的国际标准记录代码“ISRC”。因此,Mashtraxx编辑是作为原始音频轨道(通常按照数字形式记录)的原创艺术作品的演绎,并且通过Mashtraxx系统和Mashtraxx编辑(其基于Mashtraxx音频文件描述)的访问提供了一致的内容跟踪。
[0192] 因此上传的Mashtraxx编辑元数据并不需要接受任何AI询问,因为其中的每个音乐章节的出处总是得到保存,因为该出处被编码在最初由Mashtraxx编辑应用程序101编写用于操纵的Mashtraxx音频文件内。
[0193] 因此,当调用现在存储的Mashtraxx编辑元数据文件中的每一个以用于由运行在订户设备(例如,笔记本电脑38)上的Mashtaxx软件113重放时,商业服务器仅需要记录该调用并应用规定使用政策以提供预先存储在广告数据库108中且利用对编辑的访问递送的补充媒体。实际上,补充媒体可以基于例如计算机地址的预先注册或者识别正在请求编辑的用户的登录程序按照定向方式递送。
[0194] 对每个轨道章节的使用的报告由此被大大简化,因为每个章节的出处被记录并且是已知的,这是由于对(Mashtraxx元数据文件的)每个章节的播放被设置为生成可追踪的报告,该可追踪的报告将唯一且永久的轨道标识符和表达章节标识转发到基础架构组件内,也就是Mashtraxx服务器111、商业服务器46以及订阅媒体内容提供方30中的至少一个,否则所有这些组件几乎瞬间(如有需要)或在固定的报告时间获得。这意味着,在本发明的以下系统中,在其何时发生以及使用轨道的已识别章节的发生次数方面,对内容的跟踪现在更为精确。此外,由于图2中的系统能够在各个章节被播放时对它们进行跟踪并且是用户中心(而非服务器侧驱动)的,系统既能够专识别流行的音乐章节,又能够精确地在原创艺术作品的版权所有者之间拆分(即,分配)与(具有或不具有视频)受许可音乐轨道的播放相关联的收入。
[0195] 综合图2的系统背后的过程,音频文件(或者包含Mashtraxx音频数据的多媒体文件)的Mashtraxx编辑的物理汇编器可以在本地编辑设备上(例如,计算机12)识别原始音乐轨道,例如通过下载该原始音乐轨道和播放该原始音乐轨道。用户随后可以通过网络和系统请求获取对应的Mashtraxx增强的音频文件描述。这种音频文件描述允许用户基于常见音乐主题和节拍、小节之间的共同性操纵对Mashtraxx轨道内章节的定序,以及临时对准在弱拍之间的音乐开始,如音频文件描述中所表征的。
[0196] 在优选实施例中,编辑应用程序利用音频波形和针对章节的音频文件描述将Mashtraxx轨道的视觉表示具体化,因为这些章节将在原始音频轨道中连续播放。随后用户被提供通过选择起始轨道章节并且随后仅被显示整个音频轨道内可以被剪辑成第一章节同时在相邻章节的节拍或节奏方面保留无缝过渡的那些其他章节来生成新轨道编辑的能力。在选择音乐的第二邻接章节(其可以具有不同的音乐主题和音乐强度)之后,可以重复或终止该过程,由此产生具有不同章节时间线的新轨道编辑。任选地,这种保存的编辑随后可以利用视频或静态图像来增强,并且所得到的编译被上传到Mashtraxx上传数据库106中。轨道标识和定时随后被上行传送并存储在Mashtraxx数据库处(或其他可访问的数据库)。
[0197] 通过采用这种客户端侧的方法来跟踪内容,在唱片公司规定使用政策的背景下可以预见使用Mashtraxx元数据的任何上传媒体文件从而允许根据具体识别的轨道使用来实现精确的收入分配。系统实际上可以报告使用了整个音频轨道的哪些部分以及在演绎编辑中哪里出现了对章节的使用。这是因为,系统通常知道每个章节的起源并通过运行Mashtraxx应用程序113的任何机器对编辑的听觉重现促使Mashtraxx数据库104-106得到访问。此外,对任何编辑的任何迭代总是保留了关于原始源文件的出处,因为一定形式的唯一且永久的章节标识符(作为针对特定轨道的时间戳记录在Mashtraxx元数据中)总是被保留且总是存在。
[0198] 相反,已知某一听者已经听了一定量时间的特定Mashtraxx编辑,则系统能够反向工作并确定听到的是原始音频文件中的哪些部分。
[0199] 从Mashtraxx服务器111到商业服务器46和/或订阅媒体内容提供方的控制器31的报告可以因此采用以下(针对每个轨道)在表1中所示的示范性形式,同时所生成的这种报告用来反映来自播放编辑的设备的上行请求和/或上行报告。可以理解,报告的精确形式是可以自由适应性调整的,并且仅仅需要包含足够将报告链接到ISRC(或者类似物)并识别在已经被播放的编辑中已识别章节的使用的信息。某些信息是完全任选的,例如,提供了对其他信息的重复,尽管已经以用户友好的形式提供,并且可以因此将其包含,仅是为了帮助解释报告。
[0200]
[0201] 表1
[0202] 应当注意,商业服务器可以实际上是订阅内容提供方30的控制器31。
[0203] 来自播放编辑的装置的上行报告可以包括关于时间的明显更多的细节,但是可以包括至少章节标识和唯一轨道标识符,例如,ISRC。
[0204] 如果客户端,即,计算机38,仅想要下载原始轨道(未经编辑的轨道),则Mashtraxx服务器111仍然提供包含音频文件描述的可编辑轨道。按照类似于前述“编辑”示例的方式,该音频文件描述可以是独立的或者完全嵌入在源轨道的未编辑原始版本中。因此,提供音频文件描述总是允许客户编辑和上传定义相连章节之间精确边界的实时数据点。在其中不存在编辑且用户仅播放音频轨道的原始未编辑,即,全新的,的原始版本的实例中,本地具体化的软件(或者计算机58上运行的网页浏览器,视情况而定)运行以向回发送仅实时列出在原始音频轨道的预先识别的相连章节之间的过渡点的报告。对弱拍的选择已经得到解决,因为这实际上是在原始源轨道和相关联的音频文件描述中的默认位置。换言之,当在客户端处播放原始音频轨道时,章节已经在相邻章节之间具有无缝的听觉过渡,这些过渡通过实时报告在现有相连章节之间的现有边界点保持了原始音频轨道的原始流动和节奏。然而,通过向回报告来自客户端侧的过渡点,服务器现在能够自己识别对这些章节的播放,而不管该播放是从开始到结束还是音频轨道的仅一部分。Mashtraxx服务器111随后可以自己生成给商业服务器46的报告以分配对轨道的精确使用以用于内容跟踪/许可问题。
[0205] 在报告客户端处使用和生成能提供可反向引用的可追踪唯一轨道标识符(或者特定音乐章节,如果章节自身是唯一标识的而非通过定时)的合适数据日志方面,客户端的本地操作系统“OS”还可以基于现有的内置OS功能在日志中提供辅助信息。例如,可以为OS委派确定和报告在客户端处本地采用的用来播放、处理或操纵音频轨道数据的输出机制的任务,即通过客户端经上行报告的跟踪数据可以包括和在客户端设备处使用、执行或操纵已识别的源音频轨道的方式有关的信息。例如,OS可以将数据编码到和在客户端设备处使用的行输出的本质或者在回放或操纵所选择轨道中音频数据期间使用的扬声器插口或HDMI端口有关的日志内。可以利用以用于在补充上行报告中使用的其他OS功能包括端口无线播放(port_airplay)、端口内置(port_built-in)接收机和客户端处本地无线通信的使用,包括蓝牙和光通路。
[0206] 作为示例,可报告的统计值可以包括在客户端处播放音频轨道中至少一部分的次数(通常在其中应用程序连续运行的时间窗口内)。其他形式的报告回放可以仅是开始位置和停止位置,而且也可以是对轨道数字采样的开始和通过跳过音乐章节的搜索过程获得的开始点的位置。
[0207] 报告可以被构造成精确地识别本地编辑,尽管在上行报告中的统计值可以推断-并且由此服务器处需要一定解释和解析-在客户端设备处对所选择音频轨道的播放或修改的性质。
[0208] 被引用到(即,链接至)针对所选择的音频轨道的可追踪唯一标识符内的日志和报告足以允许收集关于以下方面的理解:
[0209] ·在客户端设备处对演绎作品的汇编,此类演绎作品包含编辑和/或通过包含新音频内容(例如,旁白或歌声或乐器添加)对所选择音频轨道的增强中的至少一个;
[0210] ·对音频轨道的同步,其包括以下中的至少一项:
[0211] ο视频与音频轨道的同步;
[0212] ο图片与音频轨道的同步;以及
[0213] ο与用户生成的内容的同步;
[0214] ·对音频轨道的机械或电子复制,包括:
[0215] ο对音频轨道的采样
[0216] ο从音频轨道提取定时信息以支持感官上可感知效果与音频轨道的同步,例如通常在电子游戏中使用的光线水平变化、鼓点节拍、视频效果以及编辑。
[0217] 在一些实施例中,可以将对音频文件描述的提供限制于已识别的客户端设备。
[0218] II.轨道汇编以及淡入淡出考虑因素
[0219] 在这一点上,解释如何在一个或多个轨道的看似不同的章节之间实现无缝对准是合适的。
[0220] PCT/GB2016/051862描述了一种系统和方法,其中存在相对于真实世界事件的数字音频轨道的章节(或切片)的背景同步。这些章节的特征在于用户感知和/或基于机器的评估,其根据通过在音频章节中检测到的或识别的基础节奏或节拍而使用户或机器联想到的感知“主题”对每个音频章节进行分类。
[0221] 在PCT/GB2016/051862中,描述了一种在两个音频章节之间拼接在一起的方法,所述两个音频章节具有在两个音频章节的相关元数据中反映的预先识别的背景主题,两个音频章节中的每一个具有与其指定主题相关的起点和终点。这可以替代地被认为是第一音频章节和目标音频章节之间的淡入淡出,第一音频章节和目标音频章节各自包含与弱拍相关联的开始,该弱拍与音频轨道中所选择的抽象退出点或抽象进入点有关。
[0222] 拼接方法包括:通过将每个音频章节划分为各自具有已识别节奏的节奏节拍,为所述两个音频章节中的每一个产生第一时间基准;通过将每个节拍分成每个节拍内至少多个相等且均匀间隔的时间分割,将每个音频章节的每个节拍分成可测量的片段来产生第二时间基准;确定建议跟随第一音频章节的目标音频章节中的至少一个进入弱拍,所述至少一个进入弱拍中的每一个依据相对于目标音频章节的起点的节拍和片段提供第一定时位移;确定第一音频章节中的至少一个退出弱拍,所述至少一个退出弱拍中的每一个依据相对于第一音频章节的终点的节拍和片段提供第二定时位移;将第一定时位移与第二定时位移对比,以识别第一定时位移和第二定时位移之间是否存在对应关系;以及在第一定时位移和第二定时位移之间没有对应关系的情况下,拒绝从第一音频章节到目标音频章节的潜在拼接,否则识别出第一音频章节与所建议的目标音频章节拼接兼容。
[0223] 淡入淡出方法包括:在第一音频章节和目标音频章节中选择弱拍,该弱拍具有和第一音频章节和目标音频章节中相应抽象退出点和抽象进入点相对应的测量时间位移;通过弱拍测量第一音频章节和目标音频章节中每一个的开始的时间差,以创建用于在第一音频章节和目标音频章节之间过渡的实际退出点和实际进入点;评估第一音频章节和目标音频章节中的各自的开始哪个在时间上相对于第一音频章节和目标一音频章节中对准的弱拍最早出现;以及在所述最早的开始点处开始增强时或之前的点处实现第一音频章节和目标音频章节之间的淡入淡出,使得目标音频章节将第一音频章节替换为有效音频输出以实现音频输出中的无缝节奏过渡。
[0224] 该方法允许已识别的乐句或主题被同步或链接到真实世界事件中。在这种背景下,“乐句或主题”定义音频的“章节”,其具有一组可定义的特征,该特征补充、反映或以匹配作为时间输入呈现的事件的背景感知和已识别的性质。因此,音频的章节服务于事件背景的美学。所实现的同步有利地实现了有可能不同的预先已识别乐句之间的无缝音乐过渡(利用定时基准来准确地匹配预先存在但已识别的拍子记号或节拍),乐句具有由其相应拍子记号、强度、声调、音乐节奏和/或乐句所定义的不同情感主题。通过动态地改变、重新排序或重复并且随后在周围物理环境中发生的背景中播放音频章节来增强用户在真实世界中的整体感官体验,例如,在踏板操课程中有运动的不同阶段期间,在冲刺期间音乐速率和强度增加并且在恢复期期间变缓。随附的音乐实时地自动选择以伴随不断变化的物理或本地环境事件,同时音频采样的同步使音频采样成为整体感官体验的整体但互补的部分。
[0225] 关于Mashtraxx音频文件的编辑和编译,软件编辑套件,可选地以可下载的应用程序的形式提供,为消费者提供动态地和实时地编辑和重新设计现有音乐内容的工具以实现到用户体验的同步。更具体地,该系统和方法提供用于动态同步数字音乐内容以匹配生活方式、活动和消费者选择的机会,以及基于对定义的音频章节中的主题的表征的同步以及随后基于音频章节内的弱拍事件从该音频章节中确立合适的进入点和退出点的机会。该软件应用程序允许选择性重新成像并跟踪例如用户关于特定物理刺激所特别喜欢的歌曲以适应当时的条件,例如跑步或散步或与视频剪辑中的场景对齐的同步,从而产生自定义的和用户定制的体验。因此,该系统产生并提供使用,例如立即播放或广播,复合媒体文件,其将瞬时或不断变化的真实世界事件与自定义的和用户可选择的音频组件相关联,该音频组件旨在增强整体感官体验。
[0226] 因此,通过使用适用于众多不同应用领域的基于元数据的同步,包括锻炼、视频游戏、个人视频编辑和广告,针对实时同步到各种媒体实现对当前数字音乐的更多重复使用和重新配置。基于环境的变化,系统创建并且更具体地允许编辑和重新汇编在一个或多个时间上不同的音频章节或音频文件中呈现的音乐内容以适应该场合。因此,音频输出,例如,随着游戏内感测到的变化而改变,使得音频输出是伴随游戏中动作或DVD内的情绪和动作的同步音乐。所得到的音乐文件格式,包括具有嵌入在元数据中的标签的音乐片段的表征,使用户能够在他们的视频和社交媒体应用程序中使用他们特别喜欢的音乐轨道。
[0227] 因此,Mashtraxx数据库104包含一个数字音频文件或多个数字音频文件,这些文件被元标记以提供存储在数据库中的多个音频章节,所述多个音频章节中的每一个具有抽象退出点和抽象进入点,并且每个抽象退出点和抽象进入点具有至少一个弱拍,该至少一个弱拍具有定时偏移,该定时偏移对应于表示在弱拍周围的音频中的瞬态的最大差异点的开始。随后编辑组件被设置为:选择具有和第一音频章节和目标音频章节中各自抽象退出点和抽象进入点相对应的测量时间位移的弱拍,其中播放第一音频章节,第二音频章节变为有效并被播放;评估第一音频章节和目标音频章节中的各自的开始哪个在时间上相对于第一音频章节和目标一音频章节中对齐的弱拍最早出现;以及在所述最早的开始点处开始增强时或之前的点处实现从第一音频章节到目标音频章节之间的淡入淡出,使得目标音频章节将第一音频章节替换为有效音频输出以从而实现无缝节奏过渡。当然,章节中的每一个进一步得到唯一地识别,但是这种唯一标识和内容追踪相关(如以上在图2的背景下所解释的)而与如何汇编/重新编辑轨道并不相关。
[0228] 为了识别章节并且在数据库内存储所采样的音乐(或者类似物)的分段,编辑应用程序按照以下方式运行。参考图3,每个章节314--其每个可以具有不同的持续时间T1-T4--利用元数据进行编码,元数据标识该章节(以及其主题)和/或特别是章节314的可解析的背景品质。访问和参考元数据允许随后对章节实时地进行重新排序,以便允许章节与有关,即,相关的真实世界事件对齐。
[0229] 优选地,系统从不改变原始音频文件,而是利用汇编的元数据,其允许回放引擎跳转到适当编码的文件,近乎实时地对其编辑和淡入淡出(节省了一些适当的缓冲以允许用于处理)。
[0230] 作为在锻炼的背景下的非限制性示例,音乐轨道可以包括用于副歌的欢快节奏,因此欢快节奏适合于在锻炼的冲刺部分期间由更高的能量输出速率引起的更快的心率。相比而言,同一音乐轨道可以包括半时间章节。因此,半时间章节可能更适合于运动期间的积极性恢复期而非冲刺期。因此,系统产生了多个已识别章节,即,轨道的切片,其可以在时间上移动以便更合适地与外部驱动的活动对准。这种时间的移动可能导致章节的重新排序,即原始音乐轨道中的自然相连序列可能产生序列T1、T2、T3、T1、T5、T6、T1,其中T1是重复的副歌,T2到T6是主歌、主题或音乐乐章。这种时间移动还可能导致音频输出的总持续时间相对于原始音乐轨道被延长或截断。识别主题并将章节的相关表征存储到元数据中可能导致章节(相对于电影)的重新对齐的排序,其产生具有不同序列T1、T1、T6、T2、T3、T1、T1、T1的音频输出。该重新排序在图3中通过“Mashtraxx”音频频谱320表示,该音频频谱显示了Mashtraxx章节的这种重新排序。优选地,相邻的章节彼此相连,例如,音乐节奏没有可辨识的变化和/或相邻章节之间没有可辨别的静默。稍后将参考图7和图9描述轨道的有效采样章节与存储的章节(相同轨道或不同轨道的)之间的淡入淡出机制。
[0231] 因此,该设置允许已识别的音乐章节被同步并链接到真实世界事件中。所实现的同步包括使用定时偏移(例如相对前进)实现在有可能不同的预先已识别章节之间的无缝音乐过渡,优选地准确地匹配预先存在但已识别的拍子记号或节拍,章节具有由其相应拍子记号、强度、声调、音乐节奏和/或乐句所定义的不同情感主题。因此,优选实施例通过在周围物理环境中发生的事物的背景下改变音乐章节(并因此改变不同的主题)来增强整体感官体验,例如,在踏板操课程中有氧运动的不同阶段期间,在冲刺期间音乐速率和强度增加并且在恢复期期间减缓。随附的音乐(或可听见的内容,例如画外音和画内音设计或幻听音)会实时地自动选择,以配合不断变化的物理事件--可以通过电子方式实时监测,例如利用心率监测器--从而形成整体感官体验的整体但互补的部分。不同于实时监测,伴随的音频采样,例如音乐片段,可以被预编程为与触发点绑定和播放,例如视频游戏中的场景变化。
[0232] 如以上所指出的,作为编辑套件的输入,系统430(图4)采集真实世界的外部事件312。这些事件可以是实时感测的事件或者是存储在介质上并通过通信接口432提供给系统的已记录事件。处理环境434通常包括至少一个处理器,其运行存储在存储器436中的程序代码。
[0233] 该处理环境434可以在各种平台上得到支持,包括通过网络连接的服务器、平板计算机、PC或智能电话。
[0234] 存储器436可以位于处理环境434本地或者远程地位于分布式系统中。存储在存储器436中的应用程序(“apps”)允许对真实世界时间进行自动化分析,并且此外,允许相对于预先识别的术语的词汇438(同样存储在存储器436中)对所采样的事件内的时间域数据进行表征。在实践中,与监测到的或记录的外部事件312对应的输入信号可以包含多个不同的特征,例如与通过实时监控器感测并报告的运动和积极性恢复(例如图3中所示)的不同阶段相关联的不同心率,或者在视频的背景下,可以是可辨认的不同面部表情、当大对象在屏幕上移动时该大对象的不同像素强度和/或像素移动的速率。还可以定义反映情感或活动的其他特征。
[0235] 相同的思路是可识别特征随时间变化,因为外部活动随着时间变化,因为环境或个体的情感或物理状态随时间变化。因此,事件输入--无论形式如何--都可以被认为是具有不同但可识别主题的采样事件数据的多个相连事件分段的集合。在功能上,处理环境434被配置为针对至少一个预先存储的词汇单词参考每个事件分段,该参考永久地或在暂时的基础上与事件分段一起记录。每个事件分段的词汇单词充当一个声调或“简报元素”,其随后可用于交叉引用并最终选择相关的音频章节,该章节利用对应的或密切相关的词汇单词进行类似地表征,词汇单词可以存储在针对音频轨道的元数据中、存储在相关文件中,并且最优选地划分在每个音频章节的报头内。除非特定的背景需要更为限制性的解释,术语“音频章节”、“分段”和“音频切片”应当被认为是等同的并且表示来自数字音频文件内的不同长度的采样。
[0236] 作为处理环境434的辅助输入,可以提供用户界面440以允许用户评论外部事件输入312。该评论功能可以与生成简报元素的自动分析独立或互补。因此,手动评论也将词汇单词归入并附加到事件分段,因此提供了生成简报元素的替代或补充过程。
[0237] 返回到图4,如由处理环境所执行的,对外部事件的功能分析可以包括:
[0238] i)在外部事件312内的相对和/或实际定时442。例如,定时分析可以识别出满足最小阈值的事件、具有持久持续时间和/或命中点的事件/特征。命中点是在游戏或电影的时间线上的给定时刻,此时发生需要同时出现音乐特征,即,“命中”,的一些动作。命中点的另一个行业名称为“米老鼠式配乐(Mickey Mousing)”,例如,在动画片《猫和老鼠》中,在保龄球沿架子滚动并且随后落到汤姆的头上之后可能存在听起来很大声的木块敲击声。替代地,有时命中点占用给定长度的时间,这被更恰当地称为“持续特征”。例如,在保龄球已经落到汤姆的头上之后且在其已经弹开之后,汤姆情不自禁地晃动三秒钟。相关的持续特征可以因此通过由尺子弹击桌子发出的声音来实现,同时振动的声音在淡出或结束前持续一段三秒的时间。
[0239] ii)在外部事件内的强度444和强度的比例缩放。例如,强度可以基于相对的亮度级别或声音级别或者通过输入432从外部来源接收到的可监测函数的变化率(例如,心率)。强度还可以与情感上感知的强度有关,其标识了在音频片段中特定章节相对于整个音频片段的其他章节显著或次要的程度,整个音频片段可以是一首完整的歌曲或者来自不同音频来源或记录的轨道的汇编,例如来自不同音频CD的不同轨道。强度可以因此作为根据用户品味或偏好设置的主观量度。
[0240] iii)音频功能分析446,包括但不限于,节拍分析、拍子记号分析、气候移动识别、强度增加或降低、音频突然停止处的急剧下降、静态或韵律分析、重复段的强调和识别。
[0241] 一旦已经定调了事件分段并因此产生了简报要素,则这些事件分段可以通过网络串流或者以其他方式进行存储450以用于由章节汇编智能452稍后检索和使用。这种章节汇编智能452基于人工智能(“AI”)所支持的处理并且可以替代地被称为“Mashtraxx框架”。章节汇编智能452被配置为提供附加处理和产生新的媒体采样(或“复合媒体文件”454),其中新的音频,例如,新的音乐轨道,按照无缝和序列化方式增强来自真实世界事件的事件分段。事实上,新的音频可以补充或替代从真实世界事件捕获的音频采样。
[0242] 章节汇编智能452响应于附加的输入,也就是包含针对原始音频轨道的分段或片段的Mashtraxx元数据458的增强音频轨道458。音频轨道可以实际上是来自多个用户选择的轨道或者来自单个记录的音频文件(其无需是音乐)的多个采样。音频轨道456可以,例如,通过 库提供或者从音乐储存库串流或以其他方式获取。随后将描述Mashtraxx元数据的产生。
[0243] 以下将更为详细地并专门关于图4描述Mashtraxx元数据的产生。然而,总的来说,Mashtraxx元数据提供音频分段定义,包括轨道拍子记号和其他音乐属性和/或函数,它们作为与音频轨道相关联的数据提供。针对某一轨道的经修改的数字音频文件可以包括元数据标签,其被配对到轨道中的音乐事件,例如铙钹滴答和鼓点节拍。替代地,对Mashtraxx元数据的访问可以从外部管理的数据储存库/或数据库访问或串流,该外部管理的数据储存库/或数据库通过设备运行的本地应用程序来访问。在该后一个方面,基于设备的应用程序优选地被设置为基于原创版权艺术作品(即,音频轨道)的对于本地设备/用户的注册状态从远程数据库获取Mashtraxx元数据。如果原始音频轨道被视为非法复制,则强行禁止对Mashtraxx元数据的访问,和/或,否则,应用程序可以标记该非法复制或禁用对原始轨道的播放,直到轨道/用户通过针对原始轨道的已认证许可证得到验证。
[0244] 出于防伪目的,本地安装的应用程序通过对音频应用指纹法来检查本地内容,这可以基于任何数量的已知技术,包括轨道头中的轨道元数据和/或通过音频采样的轨道内分析。应用程序被配置为随后检查包含Mashtraxx数据的中心数据库,检查揭示针对已识别的轨道是否存在Mashtraxx数据。如果存在,则应用程序被配置为向用户提供该Mashtraxx数据,以作为应用程序内的Mashtraxx选项。
[0245] 获取许可状态是很好理解的,并且通常基于注册过程。然而,对版权使用的注册并不与本发明系统的基本问题特别是元数据标签的形成有密切关系,该元数据标签被用于增加与补充不断变化的真实世界事件的协调音频相关联的沉浸式感官体验。
[0246] 图3是图4的系统内采用的章节汇编智能452的功能图。
[0247] 对于将被插入且已经依据其固有主题(标签已经针对主题放置在音频章节的对应元数据中,如稍后所解释的)预先表征的音频章节,章节汇编智能452选择559并排序560音频章节以和真实世界事件相对应。这样得到了音频章节的有序列表562,其可以包括相连的重复音乐段落。选择合适的音频章节需要考虑和分析564元数据标签,并且任选地但非优选地,评估566所选择的音频章节562本身是否包含用于提供其插入的足够素材。确定素材不足导致以下中的一项或多项:拒绝音频章节、决定重复,即循环,音频分段以便填充真实世界事件的整个持续时间,和/或通过(例如,当通常实现为包括图形用户界面“GUI”时图4中的)的用户界面的用户建议。循环可以涉及通过元数据标签的预存储反映的章节内循环。该章节内循环允许在章节内部建立循环,并且由此定义内部自洽的剪辑点。
[0248] 对音频分段的选择可以由通过控制接口将简报记录输入到系统中的直接用户输入来规定。简报记录指出了可变参数,包括但不限于持续时间、轨道内的命中点的性质,以及轨道的情绪。另选地,可以向用户呈现多个替代的轨道选项,每个选项具有共同主题,并且随后要求指示偏好。全自动系统是另一种选择。
[0249] 与实际执行从有效音频轨道到目标轨道的淡入淡出和/或直接剪辑的过程无关(如特别关于图8a至8c所讨论的),框架汇编智能552被配置为评估不同轨道中的章节是否是基本上兼容的,并且优选地,在其能够被拼接或剪辑在一起从而在其间产生听觉上无缝的过渡的程度上是兼容的。现在将参考图9、图10和图12描述优选的过程。
[0250] 图9是音乐的不同章节的频谱表示,章节具有根据优选实施例确定的退出点和进入点。图9显示了可以独立执行以对齐所选音频章节中的相关主题的编辑点处理,是将所选音频章节重新排列成合并数据格式的前提,该格式最终与真实世界事件对齐,从而通过加强对伴音阶段的贡献来增强感官体验。
[0251] 在图9a中,用于音频章节(“音频章节1”)的音频频谱151的包络变化被高度简化并且显示为具有急剧转变的块。如将理解的,频谱151具有随时间变化的时间域表示。采用音乐小节形式的时间基准(章节1的“小节1”至“小节8”)在名义上标识的“抽象”进入点152和名义上标识的“抽象”退出点154之间划分音频章节。抽象进入点152和抽象退出点154因此定义音频章节,这些抽象点由MIR函数和/或用户输入确定和选择,以识别在,例如,整个歌曲轨道的总体内的不同主题之间的可表征过渡。因此,“主题”是具有音频轨道或汇编的复合的背景上不同的方面。主题可以根据感知/识别的相似性或差异来对章节的背景进行分类。因此,主题在与轨道的章节相关的数据库内编码,并且可以直接编码为归属的元数据。
[0252] 遗憾地是,已经认识到,由于音频的性质,抽象进入点152和抽象退出点154可能与音频章节有效的(即实际的)退出点162、164和进入点166、168不一致。例如,在章节1中(图9a中的附图标记160),可以存在一个或多个可能的抽象退出点154、155,每个抽象退出点
154、155具有一个或多个实际退出点162、164。在该示范性背景下,可以识别出主题过渡在小节4和小节5之间的过渡时发生,而实际退出点162、164(其考虑了时间基准和节拍)可能在小节4内的不同时间发生。
[0253] 因此,在能够在各章节之间过渡之前,需要寻找不同章节之间的兼容性,此外,还需要提供基本上无缝的听觉过渡的定时过渡。在第一种情况下,已识别和应用的元数据标签可以提供不同主题之间可接受的相关性的指示。例如,假设主题的数字缩放在1和8之间,第一音频章节可以具有主题一表征,该主题一表征可以代表缓慢和忧郁的场景。相比之下,第二音频章节可以具有主题二表征,该主题二表征可以表示稍微更快(相对于第一音频章节)和背景上更强烈的氛围。第三音频章节可以具有非常有活力的感知,因此被表征为具有在八级中的第N级(其中N是整数)下缩放的强度(即,用户定义的级别)。在该示例中,从听觉上无缝过渡的角度来看,在第一章节的主题一与不同音乐章节中的另一主题一之间的过渡显然是可实现的。鉴于表征中的明显接近度,也可以在第一章节和第二章节之间无缝过渡。然而,实际上,仅仅基于对相应音频章节的基础主题的表征的评估,从第一章节过渡到第三音频章节可能是不可行的。然而,优选实施例提供了对这种听觉上无缝过渡问题的解决方案。
[0254] 因此,有必要进一步研究有效音频章节和要切入音频的建议目标音频章节之间的实际退出点和进入点的性质。实际退出点选自绑定到已识别的弱拍内的合适退出点中的至少一个以及通常多个。在编辑之前针对每个音频章节识别合适的退出点和进入点(并存储在数据库中),使得智能处理环境452需要最小的缓冲来汇编与可解析的外部事件刺激流互补的编辑音频。因此,音频之间的过渡可以基本上实时地实现,不产生可辨别的音频连续性损失,且不管在真实世界事件未展开时是否动态地选择章节。
[0255] 图9b是图9a中小节4的展开视图。同样,为了清楚起见,小节4的音频频谱被示为简化的块形式,其具有随时间变化的信号偏移。小节4被分成四个节拍(“节拍1”至“节拍4”),每个节拍进一步分成相等数量的片段(f1至f4)--在这种情况下每个节拍有四个相等的片段。关于抽象退出点155,实际可能的退出点将对应于在弱拍处或在其之前或之后的点(可选地并且可互换地称为“拾取”或“开始”),如图9b中关于“可能的实际退出B 164”所示。弱拍是音符或音符序列,其位于音乐的小节中的第一个强拍之前。因此,通过MIR和/或用户输入,在抽象退出点155附近识别用于实际退出点的弱拍。在图9b的示范性情况下,弱拍在抽象退出点之前:i)在第一可能退出点162的情况下,减去一个节拍和零片段的距离;以及ii)在第二可能退出点164的情况下,零节拍并减去两个片段的距离。
[0256] 必须进行类似的评估来识别进入音频章节的进入点。现在参考图9c,实际退出点选自绑定到已识别的弱拍内的合适退出点中的至少一个以及通常多个。同样,为了清楚起见,小节0和小节1的音频频谱被示为简化的块形式,其具有随时间变化的信号偏移。小节0和小节1各自被分成四个节拍(“节拍1”至“节拍4”),每个节拍进一步分成相等数量的片段(f1至f4)--在这种情况下每个节拍有四个相等的片段。关于抽象进入点152,实际可能的进入点166,168可以对应于在弱拍处或紧挨其之前或之后的点。因此,通过MIR和/或用户输入,在抽象进入点152附近识别用于实际进入点166、168的弱拍。在图9c的示范性情况下,弱拍跨越抽象进入点:i)在第一可能进入点166的情况下,加上零节拍和零片段的距离;以及ii)在第二可能进入点168的情况下,减去一个节拍并减去零个片段的距离。
[0257] 作为识别音频章节内的精确和实际的进入和退出点位置的过程的概述,优选实施例将音频的章节(根据主题识别)划分为重复的时间单位,例如,有节奏的节拍(其可以具有可变的持续时间)。每个节拍都可以有各自的“节奏”,术语“节奏”应理解为意指每分钟的时间单位数。随后将这些节拍分割或“分部分”成至少多个相等且均匀间隔的时间分割(称为“片段”)。相邻节拍内的片段的数量可以不同。然而,相邻时间单位(“节拍”)之间的片段的持续时间可以是不同的,因为每个时间单位可能具有其自己的节奏。因此,对于与节拍相关的第一时间基准和第二时间基准中的第二分数量度量,相对于已识别的章节的起点/终点确定可能合适但重要的进入/退出点(即,弱拍)的近似位置。正是这种所测量的相对于弱拍的时间位移--以节拍和片段表示--允许将音频的一个章节无缝整合到音频的另一不同的章节。更具体地,为了实现听觉上无缝的过渡,系统的处理智能寻找具有相同测量位移(依据节拍和片段表示)的退出点和进入点--依据节拍和片段表示。
[0258] 因此,数据库200,如图12中所示,被组装并且可用于在图4的系统内运行的设备。因此,数据库200将音乐轨道与相关轨道元数据进行关联。更具体地,数据库将音频章节202映射到轨道206的已识别的主题204以及这些主题如何相对于该章节内定义的定时208被定义。最后,每个主题202被分解为至少一个并且通常是多个编辑上有价值的进入点210和退出点212,它们与(依据节拍和片段表示的)弱拍事件相关。
[0259] 返回到图9b和9c,章节之间的剪辑可以因此由在小节4且在节拍4的开始(附图标记162)的有效音频章节到章节(X-1)、小节零、用于进入点168的节拍4位置(其具有一节拍零片段的弱拍位移)组成。当然,也可以出现用于弱拍的节拍和片段位移的其他组合,这些组合由音频驱动。如有必要,缓冲用于补偿定时延迟或提前,以对齐不同章节之间的剪辑。
[0260] 因此,图9的目的是支持有效的编辑功能,并且更具体地,是允许相对于距离小节过渡的具体量化距离--与任何拍子记号相关--以及音频的节奏内的节拍和片段识别编辑点。
[0261] 图12的数据库至少存储音频章节的交叉引用的进入和退出点,如果要将它们无缝地拼接在一起,则需要具有正确的对准定时。实际上,在计算编辑点之前,需要满足匹配标准。节拍是从开始检测(节拍检测)计算的,片段是通过均匀地划分节拍之间的时间来计算的。“实际进入/退出”和“抽象进入/退出”与“抽象片段位置”和“实际检测到的节拍”不一致,不存在此类关系。
[0262] 图10是示出在例如音乐轨道的不同章节中的不同拍子记号252、254之间的相对定时的时序图250。例如,第一音频章节中的拍子记号可以是复合6/8时间,而第二音频章节中的定时可以是简单的4/4时间。由于定时记号之间的差异,优选实施例的系统必须评估实际上退出点和进入点之间的记录位移(依据节拍和片段表示)是否实际对应。换句话说,章节之间的剪辑必须考虑章节之间的不同拍子记号。
[0263] 这种评估通过建立脉冲的第三时间基准来实现,所述脉冲的长度取决于不同章节的相应小节内的片段的最小公倍数,然后相应章节的小节被分割成相等数量的固定长度脉冲。因此,在不同章节的片段之间片段中脉冲的数量可以不同。因此,系统应用系数来对准不同的拍子记号,该系数是不同章节内脉冲之间的比率。
[0264] 在图10的示例中,在复合6/8时间内,相邻节拍之间将存在六个片段。在简单的4/4时间内,相邻节拍之间会有四个片段。因此,所得到的的乘积的最小公倍数提供6的脉冲计数。因此,在相关之后,系数1.5确定(和合适的弱拍有关的)剪辑点将存在于复合时间(在该示例中)的小节X、节拍1、八分音符2、片段2处,但是在简单时间的小节Y、节拍3、片段3处。
[0265] 倍增系数带来的是在一个拍子记号中的时间弱拍可以与其他互换,这可能是复杂的。
[0266] 明确地,图10技术性地但从音乐的角度示出:
[0267] 简单的拍子记号是4/4/16。4/4记谱法是标准的,而16表示十六分音符片段,因此在四分音符节拍中存在四个十六分音符片段。针对4/4/16的简单拍子记号的实际退出是从小节末端减去一个节拍再减去两个2片段。在这种情况下,小节的末端对应于抽象退出。
[0268] 复合拍子记号是6/8/16。6/8表示在小节中各自有2节拍的点状四分音符。这意味着相比于其中仅存在八分音符的简单拍子记号,每个节拍中有三个八分音符。同样地,相比于四个片段的十六分,有六个片段的16分。
[0269] 在该图10的示例中,这意味着要通过节拍在中途编辑,需要将片段的数量乘以1.5以使6/8小节中的编辑与4/4小节中的编辑等同。因此,为了在节拍之间排列编辑点,简单的拍子记号退出乘以1.5,或者相反,复合拍子记号最低分量除以1.5。这意味着第24个脉冲的网格,其中在简单时间中的第16个脉冲等于三个脉冲,并且在复合时间中的第16个脉冲等于两个脉冲。系统因此能够测量这些脉冲中的所有的进入和退出,并将该数量乘以与拍子记号相关的给定系数。应当注意,第24个脉冲在该示例中是有效的,但在其他拍子记号的其他情况下可能不同。在实践中,系统智能说:“我在减去一个节拍和减去两个片段处有一简单时间退出,因此-4-2=-6个16分片段。这给出十八个脉冲并且每个片段提供三个脉冲。对于复杂时间,预先计算的退出发生在减去一个节拍、减去一个八分音符、减去一个片段。因此,-6-2-1=-9个16分片段,同时这给出十八个脉冲,每个片段提供三个脉冲,但除以1.5的复合系数,因为两者现在都归一化为十八脉冲长度,针对该进入退出的退出。
[0270] 章节汇编智能352被配置为对用户通过用户界面上传或以其他方式输入的任何提供的简报记录进行分析。章节汇编智能352用于识别和计算完成简报记录所需的音乐分段,同时识别基于与章节相关的元数据。简报记录可以在轨道输出期间动态地更新,以反映用户通知的要求的变化。
[0271] 随后使可用的音频章节562可用568以在定序器570中进行完全排序,该定序器优选地基于AI逻辑。通常被编程实现的定序器570被配置为选择适当的音频分段并将其与对应的事件对齐。排序基于放置在音频章节的元数据中的标签与简报元素,即,Mashtraxx词汇单词,的相关性,该简报元素被分配给将被听觉增强的外部事件的每个部分。
[0272] 在功能上,定序器570被配置或设置成识别和匹配音乐间隔或功能572,这是音频章节之间无缝过渡所必需的。另外,定序器570操作以匹配不同的已识别主题之间的进入和退出点574,其中正在播放第一主题的音频章节,并且第二主题的音频章节将在第一主题淡出时(快速)切入第一主题。同样,这是音频章节之间无缝过渡所必需的。最后,定序器570匹配音乐定时576。这些功能可以基于音乐信息检索“MIR”算法(例如以上所指出的算法),尽管通过提供为用户提供输入、改写或定义应用在音频章节元数据中的标签从而定义音频/音乐章节主题的能力的界面解决了MIR评估中的低效率或错误的自动分析。同样,这是音频章节之间无缝过渡所必需的。如前所述,分段的定义是根据对听众/用户的感知特性和/或特定章节内的音频的定量和/或定性参数(通过MIR软件测量)来作出的。
[0273] “主题”可以以二进制编码形式或基于单词的自然语言表示,其包括比上面刚刚提供的示例更多或更少的信息。例如,用户定义的试探法可用于为简报记录提供更大的间隔和定义,因此可以更直接地选择和汇编音频分段。例如,试探可以涉及i)歌曲序列并因此涉及所得音频输出相对于原始歌曲或音轨中的主歌和副歌的排序的重新排序程度,ii)分段唯一性,例如,关于重复分段的数量或允许性的指示,以及iii)建立延长特定音频分段所需的“填充”点的循环点。
[0274] 在极限情况下,音频分段的元数据标签可以仅仅是与用于定义当前和正在进行的外部事件312的表征的Mashtraxx词汇相关的单词。
[0275] 音频发生器580(图5)耦合到定序器570。音频发生器80被配置为管理当前正在播放的有效音频分段与目标分段之间的淡入淡出82,该目标分段是当外部事件改变时要播放的下一个预定和选择的音频分段。该功能包括识别与弱拍相关的适当过渡(替代地且可互换地称为“拾取”或“开始”),例如,在音乐的小节中第一个强拍之前的音符或音符序列。就实施例而言,开始--例如强拍--是重要的,因为其遗漏或误时可以被察觉到并且代表音频中的不自然中断,而其存在提供连续性和流动。因此排列在紧邻当前有效轨道或目标轨道中的最早开始之前的弱拍处在当前音频分段和后续音频分段之间拼接,从而允许表达不同主题的不同音频分段被匹配在一起。系统因此用于将弱拍固定并记录到音频分段中的适当点。
[0276] 音频发生器580优选地包括缓冲功能584以平滑音频传输并最小化延迟。作为其输出586,音频发生器580可以串流88汇编的音频分段或将音频分段发送到文件590(其可以是图2中媒体文件108的一部分)。
[0277] 图6是根据优选创建过程的轨道汇编和元数据创建的功能图。图6因此表示,例如,应用于原始音乐轨道456以创建包含针对原始音乐轨道456的Mashtraxx元数据的复合媒体文件(图4的附图标记454)的过程。
[0278] 对于上传或使其可用于图5的系统的音频轨道,音频轨道经受基于AI的MIR算法,如前所述。通过GUI的优选提供,可以输入对音频轨道的频谱合成、拍子记号1102(包括节奏)和其他重要音乐事件的人工审查以定义或改进(进一步)主题和音频分段。虽然仅仅是优选的,但这种基于人工的过程可以因此解决与对音频轨道的表征的自动解释相关的缺陷或错误。例如,可以通过GUI手动调整音频分段的期望信号包络的起始点,以便更精确地对准音频数据采样的开始与特定音乐事件的开始(以及由此与外部事件有关的将通过本文所述过程增强的已识别主题)。
[0279] 对拍子记号的分析提供对小节和节拍的确定,以及在构成所选音频章节的样本之间出现这些小节和节拍时的变化。该分析为(优选实施例的)所描述的机制提供基础,以用于将一个章节无缝地整合到另一个章节,而不管拍子记号和弱拍的不同。
[0280] 另外,在每个音频章节内,系统被配置为检测1104在不同点处的开始。以下将参考图7并且更详细地描述在源(即,有效播放切片)和目标切片(即,已经被选择作为下一个播放以改变音频主题的音频章节)之间的剪辑。图11显示了可以通过其确定开始的优选方法。
[0281] 关于图11所解释的开始确定可以独立于本文所描述的其他方面来实现,尽管其包含在系统中提供了全面的解决方案。音乐开始是音乐(或其他听觉上明显的)事件开始的时间点。
[0282] 在图11a中,典型的音频信号1300被示出为包括具有不同幅度的分量1302、1304。对于开始检测,优选实施例首先将瞬态部分(即,音频信号的快速演变的方面,即在连续采样窗口中显示出能量的显著变化的频率,其中每个采样窗口具有小于约五十毫秒的持续时间)与音频信号1300的静态部分(即音频信号的稳定方面,特别是出现在连续采样窗口上的频率)分离,这产生如图11b所示的时间域表示1310。瞬态部分通常与较高频率相关联,并且其中这些较高频率显示出能量显著增加。随后确定瞬态部分的幅度包络1320,这通常基于卷积函数,如本领域技术人员在音频信号处理方面所理解的。
[0283] 随后,相对于功率阈值1330,检测幅度包络1320中的峰值。峰值对应于局部区域中包络的最大点。接着,为了获得开始的准确位置,系统被配置为在时间上从峰值向后走查瞬态信号(在逐个样本的基础上)以找到点X,在该点处,该点X之前的一段时间的信号的特征与该点X之后一段时间信号的同样特征最大程度上不同。从局部峰值向后迭代将持续发生可能高达七十毫秒或者到具有在预定阈值以上功率的前一局部峰值(如果其发生地更早的话)。对于具有高于阈值的功率的相邻峰值,在最大差异处的这些峰值之间必然存在开始。
[0284] 特性包括但不限于在点X之前和之后的瞬态信号的一阶导数的标准偏差。换句话说,在采样窗口上采样的相邻功率中的最大比率为开始提供最合适的点,这在图11d中示出。瞬态包络涉及整个音频轨道上的所有瞬变,同时所生成的幅度包络包含具有超过功率阈值的峰值的多个采样窗口并且由此包含需要确定的多个开始。显然这又是不同的,开始的起点通过优选地寻找识别采样点来检测,其中在该采样点之前的预定时段上所识别的可测量特性的变化率的标准偏差最大地不同于在相同预定时间段(通常约十毫秒,假定典型的采样速率为44.1k)上在采样点之后所测量/确定的规定可测量特征。
[0285] 采样周期/窗口可以在约十毫秒至约五十毫秒的范围内。作为开始的示例,击钹很可能代表起始,因为它可能在音频信号中其出现的时刻具有最大的瞬态变化。
[0286] 再次返回到图6和用于生成轨道元数据的过程,进一步的自动轨道分析(其可以根据手动输入再次查看)用于解析小节/节拍位置1106。给定水平和由此开始之间的关系,可以通过或者基于开始检测1104得到小节和节拍检测。
[0287] 关于系统内正在进行的信号处理,拍子记号分析1102、开始检测1104和小节/节拍检测1106(以及来自用户1110的任何监督输入)用于将音频轨道切片或分段为具有不同持续时间的主题,其与Mashtraxx词汇相关,该Mashtraxx词汇被用于对外部事件的性质进行分类从而对音频增强的性质进行分类。在这方面,优选地使用AI逻辑实现的元标签1112编译增强音频轨道458,其包括用于所选音频章节的元数据标签。如所指示或推断的,该元数据至少识别音乐功能和强度以及针对与该章节相关联的主题的剪辑和淡入淡出的退出和进入点。元数据标记意味着可以使采样和传送的音频,即切片或分段,与已识别的外部事件312的定时精确地重合,例如通过超过触发阈值或从分配的Mashtraxx词汇单词的主题的标识来识别。
[0288] 拍子记号或时间线生成允许以乐谱来描述轨道章节,这对于轨道章节的正确匹配是必不可少的。准确识别拍子记号允许可移动的时间线,其支持对最近节拍的自动捕捉。
[0289] 该系统生成时间线,该时间线优选地创建于用于数字音频轨道的节拍和小节中,从而确保为编辑过程保留音乐忠实符号。正是这一点支撑了按照以下方式对内容的成功剪辑、切片以重新混音,即使其不会对作品的音乐完整性产生不利影响。系统智能允许构建灵活的方法,其可以根据要修改的音频输入进行调整。例如,如果检测到节奏减缓,则可以相应地调整时间线。这对于用于重新混音和重新编辑目的的音乐形式的解构很重要。它支持有形地理解音频如何在时间轴上与音乐相关联,并允许用户在数字格式内保持真实的音乐结构感。
[0290] 因此,音频章节创建是将轨道分成可以重新排列以形成新作曲的章节的过程。优选地,章节被自动地对齐到小节。每个章节可以属于可以由用户定义的组,但是优选地默认为前奏、主歌、桥、副歌、中8或结尾部分中的一个(如元数据所标识的)。每个章节都允许自定义的元数据属性,包括但不限于强度、音乐功能、乐器、元声和标签。
[0291] 本文所述的系统利用软件来保持依据小节、节拍以及小节的片段的传统作曲节奏分析。这允许用户按照传统方式参与分割和理解小节和节拍组合。这将保持作曲直觉,使得对想法的解构和重新排列在音乐上直截了当。该系统还结合脉冲数据,从而开发数字音频的全部潜力,使最小的组成片段能够进一步被分成脉冲。脉冲的主要功能是提供处理不同拍子记号和用于在不同章节中的不同拍子记号之间进行剪辑的系数所需的最小间隔。
[0292] 因此,完整轨道的元数据包含一组音频章节描述以及如何将其转换过渡到任何其他章节或从任何其他章节过渡的说明。因此,每个音频章节包括全面的元数据,从而允许在给定与外部事件的表征相关的用户简报的情况下构建切片序列。任选地,元数据可以包含对原始音频轨道的参考,从而使得能够从在线音乐库(例如Spotify)定位正确的轨道。这允许元数据独立于原始轨道存储,并且元数据和轨道都由章节汇编智能452串流或下拉。
[0293] 因此,元数据框架允许根据某些用户定义的类别来标记音乐。例如,这些类别可包括,例如,流派、情绪、格和节奏,并且可用于创建可搜索的声音数据库。实际上,该系统具有不仅可以通过标题和艺术家,而且可以通过声音、流派和音乐风格来搜索音乐潜力的。因此,图12的数据库配置允许搜索各个章节的元标签,而不仅仅是在处理元数据的全局方法上。例如,优选的是元标签系统可以满足简报要求,例如:“我想要一首乐观、快乐生动的曲目,另外其需要在某些时候有小号独奏,并且在其他地方还有带有弦乐的休闲章节。”现有系统无法提供如此丰富和灵活的搜索。
[0294] 优选地,元数据方案不仅允许将数据归于整个轨道,而且有助于特定章节的细间隔注释,从而提供对音乐作品显著特征的描述性数据。一个或多个(通常是多个)应用的音乐表征对于每个音乐片段是共有的,并且因此允许AI机制根据与所识别的传入事件(来自真实世界)的同步要求来编辑数字音频文件。因此,音频的情感元标签独立于应用于每个章节的主题的表征。搜索不同的情绪情感可以允许换出不同的音频章节以满足同步要求。因此,一些关键特征包括与以下相关的音乐命中点和功能描述符:
[0295] ·高潮:音乐在哪里达到顶峰
[0296] ·静态章节:在所感知到背景和/或实际级别强度方面音乐既没有提高也没有降低
[0297] ·急剧退出:音乐突然变得非常稀疏
[0298] ·向下淡入淡出:音乐强度逐渐降低
[0299] ·构建:音乐的强度逐渐提高
[0300] ·强调:对话和表演下的低级音频填充
[0301] ·流派
[0302] ·乐器类型
[0303] 音乐作品的每个章节都可以根据其形式功能来描述,即该章节如何在该作品的整体内操作,例如,强调、退出淡入淡出和构建。因此,无论应用于某个章节的情感相关的背景元标签如何,如果可以根据所描述的音乐形式功能来描述传入的事件数据,则可以使用任何音乐作品并满足同步要求,而不管用户对特定作品的表征而主观产生的任何情感。这对于在各种实施例中应用的所描述的处理的功能是重要的。
[0304] 元标签不需要局限于音乐,并且可以应用于其他声源(例如踢足球),因此可以通过标记到已识别外部事件的插入音频章节来增强声场。
[0305] 图7是在轨道采样内离开不同音乐主题的退出点和到该不同音乐主题的进入点之间的优选剪辑策略的时间域表示1130。
[0306] 在图7中,存在两个时间域频谱:第一有效“正在播放”音频分段1132和第二“目标”音频分段1134,其用于在主题中引入变化并将要切入的第二分段,即将第一有效分段替换为新的相关音频输出。优选实施例以接近无缝的方式实现这种淡入淡出/剪辑。
[0307] 两个时间域频谱均包括共同特征,例如开始1136a-1136f。
[0308] 就拍子记号或时间基准1150而言,这在垂直虚线的图中表示,该垂直虚线将音频包络划分成可具有对应于十六分音符、八分音符或一些其他选定定时的持续时间的分段。在图7中,示例图提供了节拍的四个片段3.1、3.2、3.3和3.4,其将每个包络的相关部分划分为四个相等的时间分区。事实上,这四个片段可以表示音频轨道中的音乐节拍或多个节拍或一些其他时间段。
[0309] 参考图8a、图8b和图8c,就从第一有效正在播放音频分段1132退出到第二目标音频分段1134而言,优选的淡入淡出/剪辑过程首先识别并接着对比第一有效正在播放音频分段开始A和第二目标音频分段开始D中的相对开始,同时关于最近的适当时间基准1150作出评估。使两个开始开始A和开始D时间上接近地播放或者时间上明显延迟的预期开始可能导致音频的流动性和主题之间的过渡出现显著的不连续。
[0310] 因此,当要发生主题过渡时,优选实施例考虑在(有效分段和目标分段的每一个中的)第一开始和查看第一个起始点(在每个有效分段和目标分段中)之间的采样时间差(s1相对于s2,s3相对于s4),并选择替代方案中最早的。无论开始是在有效播放轨道还是目标轨道中出现,相对于时间基准1150的最早开始时间是从有效正在播放章节到目标章节存在淡入淡出且优选地存在瞬时剪辑1180时的点。对于淡入淡出,典型的淡入淡出可能需要大约五毫秒。淡入淡出优于瞬时剪辑,因为其避免了由于两个信号中的电压不太可能匹配而造成的音频爆裂的可能性。除非特定背景需要更限制性的解释,否则术语“剪辑”应被视为一种淡入淡出事件发生地更快的具体情况。
[0311] 在图8a中,从有效音频章节1132到目标章节1134的剪辑1180因此与有效音频章节1132中的开始开始上升的样本同时(或者,如果缓冲可用,稍微在其之前)触发。然后播放目标音频轨道并成为有效轨道,直到需要另一个主题改变为止。在图8b中,从有效音频章节
1132到目标章节1134的剪辑1180因此与目标音频章节1132中的开始开始上升的样本同时(或者,如果缓冲可用,稍微在其之前)触发。通常,采样率和时间基准在几分之一秒内运行,因此绝对剪辑(而不是较慢的淡入淡出)是无关紧要的并且基本上不明显。因此,该过程允许无缝且连续的重构音频作品。缓冲是优选的,因为其提供预处理。
[0312] 在图8c中,应当注意,目标音频1134中的开始发生在时间基准1150之前,而在有效播放章节中,检测到开始发生在时间基准之后。在图8c中,剪辑和淡入淡出因此与在目标章节1134中检测到的开始一起定时,同时缓冲确保能维持其定时。
[0313] 通过将元数据与原始轨道分离并将元数据存储在安全数据库中,优选实施例的系统可选地保持元数据的实质内容不可见,从而保护了许可和版权问题。因此,分离过程可以消除P2P(点对点)共享所需的大部分访问,因为可以在每次需要时动态地生成内容。实际上,优选实施例的系统可以保护原始内容,以及由用户输入和同步过程所生成的新内容。
[0314] 因此,系统和过程通过可实时操作的自动化过程支持创意编辑。因此,可以动态编辑游戏音乐以跟随游戏的故事:高潮与低谷,成就与失败。由于游戏内体验总是变化的,这意味着智能框架452(图2)可以操作为串流被验证为每个轨道的访问密钥的音乐,以消除那些不具有有效访问密钥的用户的盗版。此外,使用音频的元标记和与真实世界事件的相关性允许用户利用他们喜欢的音乐,例如,个人YouTube、Facebook和Vimeo视频。
[0315] 总之,该创新提供了一种编辑数字音频信息的方法,该数字音频信息具有能实现实时音乐同步的类似音乐的复合特征。该系统提供开始检测以及对退出和进入音频章节中提供无缝听觉过渡的弱拍事件的识别。这种复杂的系统使用DSP和专业AI算法来分析原始音频数据并执行以前需要专业知识和训练有素的音乐专业人员执行的编辑操作。此外,该自适应系统对音频数据进行分段,同时寻求附加一组易于调整以允许编辑改变的控制代码。该系统用于转换数字音频信息的音乐重要参数。虽然波形已成为数字编辑的标准表示和导航界面,但它忽略了在小节和节拍方面的传统成分节奏分析。此信息对于音频轨道的重新排列和重新混音至关重要,并且是自动同步所必需的。此外,该系统支持对采用文件格式的与给定音乐作品的神韵、轨迹和强度有关的附加描述性元数据进行编码。目前没有用于捕获音乐作品的叙述功能的现有元数据格式,并且这将提供用于实现此目的的结构化方式以及用于将该高级信息转换为低级可传递数据格式的系统。
[0316] 从端用户功能的角度来看,该软件被配置为允许端用户提供描述性数据,该描述性数据将有助于自动检索由章节汇编智能452自动重新混合的轨道的选择以适合需要音乐伴奏的场景。端用户可以通过所描述的访问界面提供指导,该指导可以基于他们想要创建的情绪,甚至建议他们希望音乐实现的叙述。该系统优选地被配置为通过基于来自用户的简单输入仅检索被估计为与用户相关的项目来减少信息过载,诸如一段电影数据的基本注释或与对音乐的期望使用有关的信息。该系统被配置为基于由分析员或注释者决定的全局和轨道内规范来选择相关轨道,例如通过自然语言或Mashtraxx词汇单词的输入以及与外部事件相关联。这方面的实例可以是情绪、音乐的一般配速/速度、主要乐器(如果他们有任何想法)和流派。
[0317] 因此,本发明的各种实施例和设置提供了一种方法和相关的组件交互网络,其可以跟踪对可以在客户端设备上播放的音频轨道的使用,该客户端设备可以连接至具有服务器的网络,该服务器被设置成提供对数据库的受控访问,数据库中存储多个唯一可识别的源音频轨道。通常,源音频轨道包括根据可定义主题或绝对定时明确分类的多个音乐章节。
[0318] 内容跟踪通常开始于向服务器作出请求以允许客户端设备从存储在服务器可访问的数据库内的多个源音频轨道访问已识别/所选择的源音频轨道。作为网守运行的服务器向客户端设备提供对已识别的源音频轨道的访问(例如,下载或串流),同时该访问包括使与已识别的源音频轨道相关的唯一标识符对客户端设备可用。如本文所解释的,唯一标识符通常嵌入在轨道的元数据内,因此轨道的提供固有地预见唯一和相关轨道标识符的传送。在客户端设备处,应用程序或浏览器界面具体化功能,该功能通过跟踪以下中的至少一项来确立在客户端设备处对已识别的源音频轨道的使用:与播放已识别的源音频轨道中所述音乐章节的至少一个相关联的进入和退出点,和/或跟踪在客户端设备处使用、执行或操纵已识别的源音频轨道的方式。通过在客户端设备处针对(a)这些进入和退出点和/或(b)在客户端设备处使用、执行或操纵已识别的源音频轨道的方式中一个或两个进行处理的操作,来汇编跟踪数据(例如,可能被实现为针对音频轨道重新编码的元数据的日志)。该跟踪数据链接到至少一个唯一标识符,以允许后续服务器端侧对远程事件的理解。客户端设备被配置为通过网络向服务器发送跟踪数据(以合适的形式,如本文所示)以及轨道标识符。
[0319] 在服务器处,考虑到跟踪数据及其和唯一标识符的链接,服务器被配置为整理(针对已识别的轨道的所有轨道和/或所有用户)、存储或转发与通过客户端设备使用已识别的源音频轨道的至少一部分相关的跟踪数据。
[0320] 服务器还可以被设置为通过以下中的至少一项解析对于使用已识别的源音频轨道的支付义务:a)客户端设备;以及b)媒体服务器,媒体服务器耦合至网络和客户端设备,客户端设备与媒体服务器进行交互。这可以最终导致直接开票和对客户端账户自动借记(如果存在已注册的预先存在的订阅服务),或者如果社交媒体平台支持或管理对这种所选择的音频轨道的上传和播放,则对该平台开票。
[0321] 跟踪的技术过程附加或替代地支持测量[例如,由内容所有者]和如何搜索轨道、如何下载轨道、如何完全或分章节倾听轨道、如何编辑轨道和/或如何输出轨道或附加到其他媒体有关的定量量度。这允许内容所有者了解关于特定轨道的各个阶段的效率,从而允许内容所有者改进元数据的间隔和/或适应或改进在所述量化评估的环节中被识别为无效的任何品质。例如,定量分析可以基于所观察到的对特定音频轨道的特定(例如,重复播放的)章节的使用,考虑到轨道的呈现的性质、音频母版制作的质量和/或轨道的复合汇编,改变对轨道的定价。
[0322] 上传的跟踪数据可以因此被认为是用来推断或直接报告存在以下中至少一项所必需的信息:(i)已识别的源音频轨道的演绎作品,其中对演绎作品通过在客户端设备的处理进行汇编;(ii)已识别的源音频轨道与其他媒体的同步,其中同步通过在客户端设备处的处理产生;以及(iii)在客户端设备处对已识别的源音频轨道的机械或电子复制,其中复制通过在客户端设备处的处理发起;和/或(iv)轨道的一般性使用。
[0323] 虽然优选实施例利用同时用于编码无缝过渡点和识别源轨道的元数据,但是如本文所述的用户驱动的内容跟踪方法可以基于仅在客户端设备处接收源轨道标识并且随后确立在该客户端设备处对所识别的源音频轨道的使用而起作用。因此,传送到客户端设备的元数据可以具有更一般的性质(并且与,例如,用于听觉上无缝过渡的最佳点和用于编辑目的的精确剪辑点无关)。相反,下行链路传送的元数据可以仅是轨道标识或轨道标识符,其可能具有与添加到该基础轨道标识或轨道标识符的音频相关的附加定时数据。事实上,考虑到视频也可以在用户设备本地编辑,并且通过与视频的播放或者在客户端设备处使用、执行或操纵所识别的源视频相关联的进入和退出点来报告此类编辑,本发明也可以应用于独立于任何音频文件的视频编辑。
[0324] ********
[0325] 本发明的各方面可以以可下载的形式或以其它方式提供在计算机可读介质上,例如CD ROM,其包含程序代码,该程序代码在具体化时在网络服务器等处执行链接嵌入功能。当然,应当理解,以上描述仅作为示例给出,并且可以进行细节上的修改。
[0326] 识别开始的方法和系统,如关于图11a至图11d所特别描述的,实际上可以在音频数据的同步之外找到进一步和更多的应用以增强被监测的事件。因此,该方法和系统可以更通用地应用于识别任何音乐或音频内容文件中的开始,而不管音乐是否根据背景主题(无论是自动感知还是通过用户或专家评论设置)进行分类。
[0327] 尽管实施例讨论了音频对外部事件的适应性,但反之亦然,因为外部事件可以由音频元数据触发或发展。例如,外部事件可以是在电影中的连续场景之间出现的视频过渡或者是计算机游戏的级别的新阶段(例如,当新角色到达时或者当获得新能力并且在玩游戏期间首次呈现给游戏玩家时)。基于对(例如)在优选实施例的背景中确定的强度、章节、小节、节拍以及节拍的片段中一个或多个的理解,可以使用从各种优选实施例导出的音频元数据来驱动体验事件的所观察到的临时属性的改变,例如,灯光闪烁或道具在现场舞台表演或CGI环境或录制视频中移动。
[0328] 虽然已经解释了优选实施例,特别是在可编辑轨道的背景下,但是应该理解,本发明可以直接应用于已经依据音乐兼容性表征了其各个章节的经注释的原始音频轨道。换句话说,图2的系统适用于已经用Mashtraxx音频文件描述进行分类的轨道,其允许在下载和数据处理时进行无缝的客户端编辑(不管轨道是否实际经历了编辑和后续上传)。因此,无缝淡入淡出设备从属于客户端侧用于报告从音频或多媒体源获取的音频章节的特定识别使用的方法。通过扩展,对与唯一轨道标识符相关联的内容的章节的使用以及进入或退出点的相关定时的客户端侧报告也可用于内容跟踪、报告和针对通过分布式网络对内容的特定章节的使用而对多个订户按比例计费。
[0329] 应当进一步认识到,可以通过使用专用的点对点通信信道或用于通信会话的唯一标识来建立与轨道的关联。假设信息的传送是双向的,即在下行链路方向上从[网守]服务器到客户端设备传送源轨道,而在上行链路上从客户端设备到服务器报告数据,其使用分配且专用的信道和/或通信会话的唯一标识,然后唯一轨道标识符可以被认为是潜在冗余的。换句话说,一旦客户端设备已经选择了源轨道并且服务器知晓此选择,使用专用信道按照与优选轨道标识符相同的方式有效地运行,因为服务器处的系统智能能够通过识别在以下之间存在直接关联而解析出由客户端设备对所选择轨道的使用:(a)在客户端设备处访问和使用音频轨道,以及(b)所分配的专用信道和/或通信会话,通过该专用信道和/或通信会话提供对音频轨道的访问并发送对本地客户端确定的使用的报告。“WebSocket”协议是点对点通信会话的一个示例,其可以支持这种信号交换和直接关联,从而与通过服务器访问然后在客户端设备处进行本地操纵或呈现的特定选择的音频轨道建立关联。因此,如背景所需要的,术语“唯一标识符”(或类似物,包括“唯一轨道标识符”)应当被理解为与轨道相关联的编码元数据片段和/或与访问(在可访问的数据库中的)特定选定的音频作品相关联的专用通信链路中的一个或两个。
[0330] 尽管在音频轨道以及其使用和编辑的示范性背景下进行了描述,但是内容跟踪的机制可以更通用地应用于跟踪对所选来源的使用,即经下载、使用和操纵的原始数字媒体文件。这些数字媒体文件可以包括远程存储在数据库上的多媒体文件和视频内容,该数据库可以根据希望订阅访问多媒体内容数据库的客户端设备的请求访问。
[0331] 如本申请中所使用的,术语“组件”、“模块”、“系统”、“终端”、“服务器”、“用户/订户设备/装置”等旨在指代计算机相关的实体,无论是硬件固件、硬件和软件的组合、软件,或者是执行的软件。例如,组件可以是但不限于是,在处理器(或者可互换地“控制器”)上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或计算机。作为例示说明,在计算设备上运行的应用程序以及计算设备均可以作为组件。一个或多个组件可以驻留在进程和/或执行线程内并且某一组件可以本地化到一个计算机上和/或分布在两个或更多个计算机之间。此外,这些组件可以通过具有在其上存储的各种数据结构的各种计算机可读媒体来执行。组件可以通过本地和/或远程进程进行通信,例如根据具有一个或多个数据包的信号(例如,来自与本地系统、分布式系统中另一组件交互的一个组件的数据,和/或在网络上的数据,例如通过该信号与其他系统交互的互联网)。
[0332] 应当理解,在本文所公开进程中步骤的特定顺序或分级结构是示范性方法的示例。基于设计偏好,应当理解,进程中步骤的特定顺序或分级结构可以在保留在本公开的范围内的同时进行重新排列。所附的方法权利要求按照样例顺序提供了各种步骤的要素,但是并非旨在局限于所提供的特定顺序或者分级结构,除非明确地描述了特定的顺序或者逻辑上需要。
[0333] 此外,本文中所述的各个方面或特征可以通过利用标准编程和/或工程技术被实现为方法、装置或制品。本文中所使用的术语“制品”旨在涵盖可以从任意计算机可读装置或介质中访问的计算机程序。例如,计算机可读介质可以包括但不限于,磁存储装置(例如,硬盘软盘、磁条等)、光学盘(例如,光盘(CD)、数字通用盘(DVD)等)、智能卡以及闪存装置(例如,可擦除可编程只读存储器(EPROM)、卡、条、保密磁碟等)。另外,本文中所述的各种存储介质,例如数据库和存储器,可以表示用于存储信息的一个或多个装置和/或其他计算机可读介质。术语“计算机可读介质”可以包括但不限于,光学、磁性、电子、电磁介质以及能够存储、包含和/或携载指令和/或数据的各种其他有形介质。
[0334] 本领域技术人员可以进一步意识到,结合本文中所公开的示例进行描述的各种例示性的逻辑块、模块、电路、方法以及算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地例示说明硬件和软件的这种可互换性,以上已经大体上根据它们的功能描述了各种例示性的组件、块、模块、电路、方法以及算法。此类功能被实现为硬件还是软件取决于特定应用以及根据整体系统所施加的设计约束条件。技术人员可以针对每个特定应用按照不同的方式来实现所述功能,与此同时在字面上或者等同地仍然保留在所附权利要求的范围内。
[0335] 除非特定的设置彼此相互排斥,本文中所述的各种实施例可以进行组合以增强系统功能和/或任选地产生在有效递送传感器相关同步音频过程中的互补功能。鉴于之前描述的全部内容,技术人员可以容易地理解此类组合。同样地,优选实施例的各方面可以按照独立设置的方式实现,其中在每个互连并且因此相互作用的系统组件中提供更多有限且因此特定的组件功能,虽然总体上,它们一起支持、实现并产生所描述的真实世界影响。实际上,应当理解,除非特定优选实施例中的特征被明确地标识为彼此不相容或者周围的背景暗示它们是相互排斥的并且在互补和/或支持意义上不易于组合,否则本公开的全部内容能够构思并设想这些互补实施例的特定特征可以选择性地进行组合以提供一个或多个全面但略微不同的技术解决方案。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈