首页 / 专利库 / 广播 / 帧内预测 / 一种全景声处理方法

一种全景声处理方法

阅读:1047发布:2020-05-25

专利汇可以提供一种全景声处理方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种全景声处理方法,包括:获取声场空间的声音对象;以监听点为为原点建立三维 坐标系 ,确定声音对象的三维坐标值原点建立三维坐标系,确定声音对象的三维坐标值;将声音对象的三维坐标值按时间顺序划分为参考 块 和预测块;对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码;根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域。本发明提供了三维声场的声音对象在录音制作、编码、解码和 渲染 回放时的坐标定义、运动轨迹和作用区域表示方法,编码效率高、声音表现 力 好且声音制作方便。,下面是一种全景声处理方法专利的具体信息内容。

1.一种全景声处理方法,其特征在于,包括:
获取声场空间的声音对象;
以监听点为原点建立三维坐标系,确定声音对象的三维坐标值;
将声音对象的三维坐标值按时间顺序划分为参考和预测块;
对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码;
根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域。
2.根据权利要求1所述的全景声处理方法,其特征在于:所述原点定义为声场空间平切面中心与录音师双连线中心等高的位置
3.根据权利要求1所述的全景声处理方法,其特征在于:所述声音对象的位置轨迹以为单位,每帧包括若干个块,每帧的第一个块为所述参考块、后续块为所述预测块。
4.根据权利要求3所述的全景声处理方法,其特征在于:所述声音对象每个块的三维坐标值为(xi,yi,zi),(xi,yi,zi)映射为(pIDi,Axi,Ayi,Azi),pIDi为象限标识符,Axi、Ayi、Azi为位置坐标的绝对值。
5.根据权利要求4所述的全景声处理方法,其特征在于:所述参考块对(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxi,Dyi,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为4~16比特的无符号数Dxi、Dyi、Dzi;所述预测块对当前块与前一块的坐标值差值(Δxk,Δyk,Δzk)进行编码,其中,Δxk是当前块与前一块x轴坐标的差分值,Δyk是当前块与前一块y轴坐标的差分值,Δzk是当前块与前一块z轴坐标的差分值,且差值(Δxk,Δyk,Δzk)被映射为(pIDk,|Δxk|,|Δyk|,|Δzk|),其中pIDk是Δxk,Δyk,Δzk的象限标识符,|Δxk|、|Δyk|、|Δzk|分别对应Δxk、Δyk、Δzk的绝对值,|Δxk|、|Δyk|、|Δzk|在[0,2]内编码为4~17比特的无符号数Dxk、Dyk、Dzk。
6.根据权利要求5所述的全景声处理方法,其特征在于:所述无符号数Dxi、Dyi、Dzi和Dxk、Dyk、Dzk采用DIF(n)编码方法:取Dxi、Dyi、Dzi或Dxk、Dyk、Dzk中的任意一个的值无符号位置坐标DIFdata与(2^n-1)的大小相比较,如果小于(2^n-1),则用n比特储存它;否则将n比特全部置1;然后紧跟2n比特,以此类推,直至(2^(kn)-1)>DIFdata,k为正整数。
7.根据权利要求6所述的全景声处理方法,其特征在于:采用4比特、8比特、10比特、12比特中任一单位存储所述无符号位置坐标DIFdata。
8.根据权利要求6所述的全景声处理方法,其特征在于:所述声音对象的有效作用区域为锥形 其中 为声音对象和原点连线在xoy平面上的投影与x轴的夹、范围
[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是描述锥面张开大小的、定义为锥面母线中轴线的夹角,范围[0,π/2]。
9.根据权利要求8所述的全景声处理方法,其特征在于:根据所述声音对象的坐标(xi,yi,zi)得到
γ编码为4比特的无符号数B,
映射关系为:γ=π/2×B/(2^4-1),0<=B<=(2^4-1)。

说明书全文

一种全景声处理方法

技术领域

[0001] 本发明涉及声音编码技术领域,具体涉及一种全景声处理方法。

背景技术

[0002] 随着计算能和网络的快速发展,在电影、电视、音乐、游戏、虚拟现实和网络视频等应用领域,能表现真实三维声场的音频录制、缩混编辑、编码、解码、渲染和回放技术,有着重要的应用价值。“全景声”是对三维声场的形象描述。
[0003] 目前,MPEG推出了MPEG H的三维声编码技术,Dolby公司推出了Atmos全景声编码技术,都在传统多声道信号编码的基础上,提出了声音对象编码的概念。其中,Dolby Atmos采用直接记录声音对象的三维运动轨迹的方式,对声音对象的三维坐标(x、y、z)进行编码,并且对声音对象的渲染和回放方式,划分为9个矩形区域。MPEG H则不直接对声音对象编码,而是采用参数立体声的编码技术,将多个声音混合成一个单声道信号,并对每个声音对象的空间感知信息(相位、强度和相关性)编码;在解码时,先解码单声道和信号,再利用声音对象的空间感知信息,恢复出每个声音对象。
[0004] 在高质量应用场合,如电影等领域,Dolby Atmos能够获得比MPEG H更高的声音质量。但是Dolby Atmos的空间坐标体系、坐标表示方法、声音对象坐标编码方法、声音对象分区表示方法都存在编码效率低、声音表现力差和声音制作不方便等局限。
[0005] DolbyAtmos在描述声场时,将坐标原点定于前方左侧屏幕扬声器高度位置,从原点到右墙为X轴,从原点到后墙为Y轴,从原点到房顶为Z轴;同时,将房间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。以如上的位置坐标和区域划分来编码声音对象。
[0006] DolbyAtmos的坐标原点定义和区域是分离的,对点声源、面声源和扩散声源等声音对象的表达效率不高。另外,Dolby Atmos的扬声器区域和实际声音对象的有效作用区域不是等价关系,后者是实际物理声场的更准确描述。
[0007] 从声音编码效率的度看,一般来说在表达完整的信息的前提下力争用更少的码流,从而达到更高的编码效率。现有的坐标定义方法是用一个固定的比特数来对坐标进行编码,比如DolbyAtmos就是将位置坐标的映射到单位立方体中,得到一个范围在[0,1]的小数,然后用12比特来储存这个无符号小数。这样编码的结果是无论位置坐标是否变化都要用12比特来存储,从而产生了大量的码流的浪费。实际上,声音对象的位置大多变化缓慢,在相邻或相邻之间的位置坐标数据间存在较大冗余。
[0008] 从声音表现力来看,现有的空间区域划分都是采用的固定划分的方式,例如DolbyAtmos将空间划分为左侧屏幕扬声器区域、中间屏幕扬声器区域、右侧屏幕扬声器区域、左墙扬声器区域、右墙扬声器区域、后墙左侧扬声器区域、后墙右侧扬声器区域、左房顶扬声器区域和右房顶扬声器区域等九个区域。这样对于声音对象的定位就缺乏弹性,可选择的余地较少,从而使声音表现不够灵活。

发明内容

[0009] 发明目的:针对现有技术的不足,本发明提供一种全景声处理方法,编码效率高,声音表现力好。
[0010] 技术方案:本发明所述的全景声处理方法,包括:
[0011] 获取声场空间的声音对象;
[0012] 以监听点为原点建立三维坐标系,确定声音对象的三维坐标值;
[0013] 将声音对象的三维坐标值按时间顺序划分为参考块和预测块;
[0014] 对参考块的三维坐标值进行直接编码,对预测块的三维坐标值进行差分编码;
[0015] 根据编码前或解码后的声音对象三维坐标值确定声音对象的有效作用区域。
[0016] 进一步完善上述技术方案,所述原点定义为声场空间平切面中心、与录音师双连线中心等高的位置。
[0017] 进一步地,所述声音对象的位置轨迹以帧为单位,每帧包括若干个块,每帧的第一个块为所述参考块、后续块为所述预测块。
[0018] 进一步地,所述声音对象每个块的三维坐标值为(xi,yi,zi),(xi,yi,zi)映射为(pIDi,Axi,Ayi,Azi),pIDi为象限标识符,Axi、Ayi、Azi为位置坐标的绝对值。
[0019] 进一步地,所述参考块对(pIDi,Axi,Ayi,Azi)直接编码成(pIDj,Dxj,Dyj,Dzi),pIDj采用3比特,Axi、Ayi、Azi在范围[0,1]内编码为4~16比特的无符号数Dxj、Dyj、Dzi;所述预测块对当前块与前一块的坐标值差值(Δxk,Δyk,Δzk)进行编码,其中,Δxk是当前块与前一块x轴坐标的差分值,Δyk是当前块与前一块y轴坐标的差分值,Δzk是当前块与前一块z轴坐标的差分值,且差值(Δxk,Δyk,Δzk)被映射为(pIDk,|Δxk|,|Δyk|,|Δzk|),其中pIDk是Δxk,Δyk,Δzk的象限标识符,|Δxk|、|Δyk|、|Δzk|分别对应Δxk、Δyk、Δzk的绝对值,|Δxk|、|Δyk|、|Δzk|在[0,2]内编码为4~17比特的无符号数Dxk、Dyk、Dzk。
[0020] 进一步地,所述无符号数Dxk、Dyk、Dzk采用DIF(n)编码方法:取无符号位置坐标Dxk、Dyk、Dzk中的任意一个DIFdata与(2^n-1)的大小相比较,如果小于(2^n-1),则用n比特储存它;否则将n比特全部置1,然后紧跟2n比特;以此类推,直至(2^(kn)-1)>DIFdata(k为正整数)。
[0021] 进一步地,采用4比特或8比特或12比特存储所述无符号位置坐标DIFdata。
[0022] 进一步地,所述扬声器的有效作用区域为锥形 其中 为声音对象和原点连线在xoy平面上的投影与x轴的夹角、范围[0,2π),θ为声音对象和原点连线与z轴的夹角,γ是描述锥面张开大小的、定义为锥面母线中轴线的夹角,范围[0,π/2]。
[0023] 进一步地,根据所述声音对象的坐标(xi,yi,zi)得到
[0024]
[0025]
[0026] γ编码为4比特的无符号数B,
[0027] 映射关系为:γ=π/2×B/(2^4-1),0<=B<=(2^4-1)。
[0028] 有益效果:与现有技术相比,本发明的优点:本发明在传统多声道立体声声场的基础上,引入了声音对象的三维声技术,提供了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹和作用区域表示方法,引入了声音对象有效作用区域,并用锥形表示,将声音对象的坐标(x,y,z)和有效作用区域 统一到一个坐标系统,点源可以仅用三维坐标值表示,面源不仅需要三维坐标值,还需要区域信息,更有效的表示点源声音对象、面源声音对象,实现更高效率的空间表示和更好的声场效果,更加完善的三维声场;编码效率高、声音表现力好且声音制作方便。
[0029] 本发明采用了差分编码的方法,这种编码方式保证了对于大多数声音对象都能用较少的比特进行编码,比如对移动时速不高于53km/h的低速对象都能只用4个比特进行编码,大大节约了码流空间。而对于少数高速对象,用DIF(n)方式对其进行拓展,也能完成编码。对于低速对象这种编码大大节约了码流空间,而对高速对象,虽然将会使用更多的比特数,但是考虑到大多数对象是低速对象,总体来说是提高了编码效率。
[0030] 而本发明提出了一种新的划分方式,以对象与原点的连线为中轴来得到一个圆锥,圆锥的张角可调,圆锥所笼罩的区域就是对象的有效作用区域。现有的区域划分是从扬声器的角度出发对扬声器的分布进行区域划分,而本发明是从对象的角度出发划分出对象的有效作用区域,有利于录音师定义自己理想的有效作用区域,而在进行对象呈现时可以根据实际声场的扬声器布置和所采用的呈现算法来灵活地决定扬声器的取舍,这样形成的区域划分将使得对声音对象的重建更加具有表现力。
[0031] 从声音的制作的角度来看,通过灵活的定义了声音对象的位置以及声场空间的区域划分,在声音制作的环节上能够方便地在传统的3D立体声基础上随意添加声音对象,使得无论录音还是声音制作的环节都充满了灵活性。附图说明
[0032] 图1为本发明的扬声器的区域划分示意图。

具体实施方式

[0033] 下面结合附图对本发明技术方案进行详细说明。
[0034] 实施例1:以一个立方体来描述声场空间为例,典型应用是扬声器布置于立方体的边界面。声音对象的空间坐标定义:将坐标原点定义为水平切面的中心、高度与录音师监听时耳朵齐平的位置,并令x轴指向右侧(墙),y轴指向前方(通常为屏幕),z轴垂直指向上方(房顶)。
[0035] 对声场空间采用归一化坐标表示,x轴、y轴和z轴的最大绝对坐标值为1,z轴较短一侧为地面,其归一化绝对坐标值为a(a<1),则此声场空间的8个坐标为:
[0036] (1,1,1)——表示区域前方右上角;
[0037] (-1,1,1)——表示区域前方左上角;
[0038] (1,1,-a)——表示区域前方右下角;
[0039] (-1,1,-a)——表示区域前方左下角;
[0040] (1,-1,1)——表示区域后方右上角;
[0041] (-1,-1,1)——表示区域后方左上角;
[0042] (1,-1,-a)——表示区域后方右下角;
[0043] (-1,-1,-a)——表示区域后方左下角。
[0044] 声音对象的位置轨迹编码以帧为单位划分,每帧进一步分为若干块。为和压缩编码兼容,采用1024个样本为一帧:48kHz采样频率时,每个块为256个样本,时间间隔为5.3ms;96kHz采样频率时,每个块为512个样本,时间间隔为5.3ms。第i块的某一声音对象的位置坐标表示为(x(i),y(i),z(i)),i=1、2、3、4。声音对象的位置坐标(x,y,z)可以映射为用四个量(pID,Ax,Ay,Az)来描述,即象限标识符pID和位置坐标的绝对值Ax、Ay、Az(取值范围为[0,1])。
[0045] 声音对象的象限标识符pID是对坐标(x,y,z)的象限位置的描述,与(x,y,z)的符号位信息(signb(x),signb(y),signb(z))相对应,其中signb(x)是取符号位运算[0046] signb(x)=0当x>=0;
[0047] signb(x)=1当x<0;
[0048] 象限标识符可取如下值:
[0049] 表1象限标识符pID表
[0050]pID索引 符号位
0 (0,0,0)
1 (0,0,1)
2 (0,1,0)
3 (0,1,1)
4 (1,0,0)
5 (1,0,1)
6 (1,1,0)
7 (1,1,1)
[0051] 每帧的第一个块为参考块,对该块的声音对象空间位置信息采用直接编码;后续的块为预测块,对该块的声音对象空间位置信息采用差分编码。
[0052] 第一个块直接对(pID,Ax,Ay,Az)编码,pID用三个比特,如表1所示;Ax、Ay、Az在范围[0,1]内编码为10比特的无符号数Dx、Dy、Dz,,它们满足的映射关系为:
[0053]
[0054]
[0055]
[0056] 后续块做差分编码,即对当前块与前一块的坐标值的差值(Δx,Δy,Δz)进行编码,其中,Δx是当前块和前一块x轴坐标的差分值,Δy是当前块和前一块y轴坐标的差分值,Δz是当前块和前一块z轴坐标的差分值;满足如下关系:
[0057] x(k)=x(k-1)+Δx,-2≤Δx≤2;
[0058] y(k)=y(k-1)+Δy,-2≤Δy≤2;
[0059] z(k)=z(k-1)+Δz,-2≤Δz≤2;
[0060] 与前述过程类似,差值(Δx,Δy,Δz)也被映射为用四个量(pID,|Δx|,|Δy|,|Δz|)来描述。pID是(Δx,Δy,Δz)的象限标识符,|Δx|、|Δy|和|Δz|分别对应Δx、Δy、Δz的绝对值,取值范围为[0,2]。pID用三个比特,如表1所示,|Δx|、|Δy|和|Δz|可映射为11比特的无符号数Dx、Dy和Dz,它们满足的映射关系为:
[0061]
[0062]
[0063]
[0064] 而对于无符号数Dx、Dy和Dz采用DIF(n)编码方法,DIF(n)编码的编码过程为:首先比较待编码的无符号位置坐标DIFdata(DIFdata为Dx,Dy,Dz中的任意值)和(2^n-1)的大小,如果小于(2^n-1),则用n个比特储存它;否则将n个比特全部置1,然后紧跟2n个比特;以此类推直至(2^(kn)-1)>DIFdata(k为正整数)。以DIF(4)编码为例,对无符号数Dx、Dy和Dz采用DIF(4)编码时,可能出现的k值为1、2和3,具体码流结构如下:
[0065]
[0066] 声音对象的差分编码过程中,要给坐标值的差分留足够的空间,以便于使得它的储存精度足够和第一个块中位置坐标的储存精度一致。于是有如下公式:
[0067]
[0068] 其中R为房间的半边长,L为相邻两个块中对象的位移,n为储存差分值所用的比特数。
[0069] 对于一个10m见方的房间,首先选取4比特来储存这个差分值,那么它最多能够储存的值为:
[0070]
[0071] 于是解得L<0.0781,那么此时声音对象的最大速度为:
[0072]
[0073] 在实际录音当中,对于大多数声音对象,其时速大多低于53km/h,采用4个比特储存就够了,这个效率非常高。至于高速运动的声音对象,即速度大于53km/h,可扩展为8比特储存。此时即便快如飞机(假设100m/s),也有:L=100×0.0053=0.53(m);L为相邻两个块的距离,此时由于L/2^8<5/2^10,可见8个比特完全能够容纳。
[0074] 而当房间扩大到100米时,由10比特储存,其精度为50/2^10,此时储存残差的精度更是足够的。下表定义了不同比特和房间尺寸时能够存储的最大声像速度:
[0075] 表2不同情况下能够储存的对象速度
[0076]  10m 100m
4比特 53km/h 530km/h
8比特 848km/h 8480km/h
12比特 13568km/h 135680km/h
[0077] 在一个三维区域内,对于声音对象的重构,有一些区域内的声音对象作用显著,而另一些声音对象可能毫无作用。从这个角度来看,对于某一特定的声音对象,对其作用区域进行划分,只使用区域内一部分声音对象,从而可以使得计算模型和混音操作更简单。典型的声音对象除了点声源,还有面声源(可以理解为距离很远的点声源)和扩散声源(可以是扩散式声源,如爆炸声等),声音对象有效作用区域是用于描述面声源的。该有效作用区域实际是为录音师在录音监听时提供的,录音师将自己理想的有效作用区域以元数据的方式提供给编码器,再由编码器按所述的方式写入到码流中。因在解码端只能拿到解码三维坐标值,因此,编码时可用解码三维坐标值确定有效作用区域,以使编码前的有效作用区域和解码后的作用区域一致。实际上,在一定的精度内,编码前的三维坐标值和解码后的三维坐标值非常接近,其差即三维坐标值的量化误差。
[0078] 划分方法见图1,当声音对象的方位确定时,以原点和声音对象连线为轴,展开一个圆锥,原点是圆锥的顶点。此时圆锥所笼罩的扬声器便是有效扬声器。
[0079] 对于这种划分,为了方便表达,采用极坐标的形式,用三个参数来表示这个划分,其中 组成了声音对象的方位角,为对象和原点连线在xoy平面上的投影与x轴的夹角,范围[0,2π),θ为对象和原点连线与z轴的夹角。而第三个参数γ是用来描述锥面张开大小的,定义为锥面母线和中轴线的夹角,范围[0,π/2]。由此,整个锥面就被确定下来,随之三维空间的区域划分就完成了。
[0080] 对于 前面已经定义了对象的位置,声音对象的位置坐标表示为(x,y,z),于是很容易求得。
[0081] 以上声音对象编码的伪代码:
[0082]
[0083] 以上方法给出了三维声场的声音对象在录音制作、编码、解码和渲染回放时的坐标定义、运动轨迹、作用区域等表示方法。在三维声编码时,除了声音对象轨迹和作用区域等信息编码外,还需要对声音对象的波形做编码。
[0084] 考虑到声音对象彼此的独立性,高质量的声音对象波形可采用独立的编码方式,包括各种已知的无损编码和有损音频编码技术,如APE、FLAC、MP3、AAC、AVS等。在对带宽要求很高的低码率场合,亦可采用参数编码的方式,将多个声音对象混合成一个和声道,并采用参数编码方法,来有效表示多个声音对象。此类的参数编码方法包括SAC(Spatial Audio Coding)、BBC(Binaural Cue Coding)、MPEG Surround等。
[0085] 因声音波形编码的方法较为成熟,在此不作赘述。
[0086] 如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈