音频译码装置

申请号 CN96122821.0 申请日 1996-09-28 公开(公告)号 CN1154606A 公开(公告)日 1997-07-16
申请人 新日本制铁株式会社; 发明人 福地弘行; 佐藤弥章;
摘要 一种能减少进行一连串的译码处理所需要的存储 电路 量、进行降频混频处理的音频译码装置。在对使用时间轴/ 频率 轴变换在频率区域编码的多个声道的音频数据进行译码的音频译码装置中,在由频率区域降频混频装置对频率区域的音频数据进行降频混频处理后,通过由频率轴/时间轴变换装置变换为时间区域的音频数据,削减与减少的声道数相应的 存储器 。另外,通过按流 水 线处理方式进行各声道的反量化处理和各声道的频率轴/时间轴变换处理,在两种处理中可以共用工作 缓冲器 。
权利要求

1.一种通过时间轴/频率轴变换,对包含在频率区域表示的多个声道 的音频信号的频率区域音频数据的编码数据进行译码的音频译码装置,其 特征在于:包括为了将上述多个声道的音频信号以规定的电平比对规定的 声道数进行混频而处理上述频率区域音频数据的频率区域降频混频装置和 将由上述频率区域降频混频装置处理的频率区域音频数据从频率区域向时 间区域变换的频率轴/时间轴变换装置。
2.按权利要求1所述的音频译码装置,其特征在于:上述频率区域音 频数据分别具有可变位长,包括表示对于上述多个声道的音频信号之一的 (1个的)采样的采样数据;上述音频译码装置还包括根据上述频率区域 音频数据求各采样数据的位长、识别采样数据并将识别的采样数据供给上 述频率区域降频混频装置的反量化装置。
3.按权利要求1所述的音频译码装置,其特征在于:上述频率区域音 频数据具有包含表示上述多个声道的音频信号的可变数的采样的数据的可 变长度的数据;上述编码数据还包含表示各数据块的长度的块长度信 息;上述音频译码装置还包括从上述编码数据分离出上述频率区域音频数 据和上述块长度信息的分离装置;上述频率轴/时间轴变换装置根据由上 述分离装置分离的块长度信息将由上述频率区域降频混频装置处理的频率 区域音频数据从频率区域向时间区域变换。
4.按权利要求3所述的音频译码装置,其特征在于:还包括当上述频 率区域降频混频装置应处理的数据块的长度对上述多个声道的音频信号不 同时,使上述多个声道的音频信号的数据块长度一致后,将该数据块供给 上述频率区域降频混频装置的块长度调整装置。
5.按权利要求4所述的音频译码装置,其特征在于:上述块长度调整 装置包括当应处理的至少1个声道的音频信号的数据块长度与应处理的其 他声道的音频信号的数据块的长度不同时,将上述至少1个声道的音频信 号的多个数据块结合,使结合的多个数据块具有与上述其他声道的音频信 号的数据块的长度相等的长度,并将包含在结合的多个数据块中的频率区 域音频数据从频率区域向时间区域变换,从而作成时间区域音频数据的第 2频率轴/时间轴变换装置和将上述时间区域音频数据从时间区域向频率 区域变换,作成第2频率区域音频数据,并将上述第2频率区域音频数据 供给上述频率区域降频混频装置的时间轴/频率轴变换装置。
6.按权利要求3所述的音频译码装置,其特征在于:上述频率区域降 频混频装置在应处理的至少1个声道的音频信号的数据块的长度与应处理 的其他声道的音频信号的数据块的长度不同时,将上述至少1个声道的音 频信号从混频的对象中排除出去。
7.一种通过时间轴/频率轴变换,对包含在频率区域表示的多个声道 的音频信号的频率区域音频数据的编码数据进行译码的音频译码装置,其 特征在于:上述频率区域音频数据分别具有可变位长,包括表示对上述多 个声道的音频信号之一的采样的采样数据;上述音频译码装置包括根据上 述频率区域音频数据求各采样数据的位长并识别采样数据的反量化装置、 将由上述反量化装置识别的采样数据从频率区域向时间区域变换的频率轴 /时间轴变换装置和在上述反量化装置的反量化处理和上述频率轴/时间 轴变换装置的频率轴/时间轴变换处理中使用的存储器,对上述多个声道 的各音频信号,按流线处理方式进行上述反量化装置的反量化处理和上 述频率轴/时间轴变换装置的频率轴/时间轴变换处理。
8.按权利要求7所述的音频译码装置,其特征在于:上述频率区域音频 数据包含上述多个声道的音频信号内的至少2个信号共用的耦合数据;上 述存储器具有用于存储上述耦合数据的区域。
9.一种通过时间轴/频率轴变换,对包含在频率区域表示的多个声道 的音频信号的频率区域音频数据的编码数据进行译码的音频译码装置,其 特征在于:包括对上述多个声道的各音频信号使用余弦函数将上述频率区 域音频数据从频率区域向时间区域变换作成时间区域音频数据的频率轴/ 时间轴变换装置、根据具有基于上述余弦函数的对称性的1组时间区域音 频数据值内的一方求另一方进行窗帘运算的窗帘运算装置和用于延迟由上 述窗帘运算装置进行窗帘运算时使用的该时间区域音频数据的缓冲存储器 即存储具有上述对称性的1组该时间区域音频数据值内的上述一方的缓冲 存储器。
10.一种通过时间轴/频率轴变换,对包含在频率区域表示的多个声 道的音频信号的频率区域音频数据的编码数据进行译码的音频译码装置, 其特征在于:包括对上述多个声道的各音频信号将上述频率区域音频数据 从频率区域向时间区域变换作成时间区域音频数据的频率轴/时间轴变换 装置、对上述时间区域音频数据进行窗帘运算的窗帘运算装置、为了将上 述多个声道的音频信号按规定的电平比对规定的声道数进行混频而对从上 述窗帘运算装置输出的时间区域音频数据进行处理的降频混频装置和用于 暂时存储从上述降频混频装置输出的时间区域音频数据并输出的缓冲存储 器。
11.按权利要求10所述的音频译码装置,其特征在于:上述缓冲存 储器包含以一定速率输出从上述降频混频装置输出的时间区域音频数据用 的区域。
12.一种通过时间轴/频率轴变换,对包含在频率区域表示的多个声 道的音频信号的频率区域音频数据的编码数据进行译码的音频译码装置, 其特征在于:包括对上述多个声道的各音频信号将上述频率区域音频数据 从频率区域向时间区域变换作成时间区域音频数据的频率轴/时间轴变换 装置、对上述时间区域音频数据进行窗帘运算的窗帘运算装置、上述窗帘 运算装置进行窗帘运算时使用的数据延迟用的缓冲存储器和为了将上述多 个声道的音频信号按规定的电平比对规定的声道数进行混频而对从上述窗 帘运算装置输出的时间区域音频数据进行处理的降频混频装置即将处理过 的时间区域音频数据存储到上述缓冲存储器内的降频混频装置。
13.按权利要求12所述的音频译码装置,其特征在于:还包括上述 窗帘运算装置进行窗帘运算时将上述时间区域音频数据分为应延迟的部分 和不应延迟的部分的分配装置,上述降频混频装置只处理从上述分配装置 输出的应延迟的部分,并将处理过的部分存储到上述缓冲存储器内。
14.按权利要求1所述的音频译码装置,其特征在于:上述频率轴/ 时间轴变换装置使用MDCT将该频率区域音频数据从频率区域向时间区 域变换。
15.按权利要求7所述的音频译码装置,其特征在于:上述频率轴/ 时间轴变换装置使用MDCT将该频率区域音频数据从频率区域向时间区 域变换。
16.按权利要求9所述的音频译码装置,其特征在于:上述频率轴/ 时间轴变换装置使用MDCT将该频率区域音频数据从频率区域向时间区 域变换。
17.按权利要求10所述的音频译码装置,其特征在于:上述频率轴 /时间轴变换装置使用MDCT将该频率区域音频数据从频率区域向时间 区域变换。
18.按权利要求12所述的音频译码装置,其特征在于:上述频率轴 /时间轴变换装置使用MDCT将该频率区域音频数据从频率区域向时间 区域变换。

说明书全文

发明涉及将使用数据压缩技术压缩的音频数据展开的音频译码装 置,例如,将从传输线传送来的压缩音频数据或者从记录媒体再生的压缩 音频数据展开的音频译码装置。

此前,已知用于对音频信号进行高效率编码的各种方式。例如,有使 用将时间区域的信号变换为频率区域的信号的时间轴/频率轴变换进行音 频信号变换,在各频带区域进行适应人的听觉的数据压缩的方式。作为时 间轴/频率轴变换的方式,例如有使用副带滤波器及MDCT(修改的离 散余弦变换)的方式。

关于副带滤波器编码方式和MDCT编码方式的概况,例如在 MARCEL DEKKAR 出版社(New York)1991年出版的 FURUI&SONDHI编写的“Advances in Speech Signal Processing”的1 09页~140页中有所描述。下面,说明使用基于MDCT编码方式的 时间轴/频率轴变换的音频编码方式。

图1是使用该MDCT编码方式的编码装置的结构例。该编码装置的 编码处理方法如下所述。

即,通过输入端51输入的数字音频信号由MDCT电路41每隔某 一时间间隔从时间区域的信号变换为频率区域的信号。与该时间间隔对应 的数据长度称为变换长度。

并且,从上述MDCT电路41输出的频率区域的音频数据由量化电 路42进行量化并进行可变长编码后,在多路传送电路43中附加上采样 频率等标题信息,作为编码数据从输出端52输出。

在上述MDCT电路41中进行的时间轴/频率轴变换处理,由下述 式(1)描述。 y ( m ) = Σ k = 0 N - 1 w ( k ) x ( k ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / ( 2 N ) ] - - - ( 1 )

其中,x(k)是输入信号,w(k)是窗函数,y(m)是经过M DCT处理的信号,N是变换块长度,n=N/2是相位项。窗函数w(k) 是用于修正有时在各变换块的端点发生的不连续的信号的函数,其形状的 一个例子示于图2。另外,在式(1)中,输入MDCT电路41的输入 信号x(k)的数为N,m取从0到N/2-1的值,所以,经过MDC T处理的信号y(m)的数为N/2。

在MDCT处理中,在当前块的变换后进行下一个块的变换时,在从 当前块向下一个块使采样只错开N/2的点进行变换。即,采样以只重叠 N/2点的形式对各变换块连续地进行MDCT处理。这是为了防止在各 变换块的边界部分发生不连续的信号。该状态示于图3。图3是变换块长 度N的值为512时的例子。

在图3的例子中,为了便于说明,将音频数据按每256个采样作为 一个子块。首先,乘以窗函数用以覆盖子块0和子块1,进行MDCT处 理。其次,将采样错开256点,乘以窗函数用以覆盖子块1和子块2, 进行MDCT处理。这样,在图3的例子中,使采样每256点进行重叠, 连续地进行512点各块的MDCT处理。

在MDCT电路41中的变换块长度一定时,就是上述那样的处理, 但是,已知的还有利用输入信号的信号特性通过改变变换块长度提高编码 效率的方式。作为这种可变块长度的MDCT编码方式的一个例子,有国 际标准规格ISO IEC 11172-3中的MPEG音频层II I  。

在该可变块长度的MDCT方式中,按照输入信号的特性随时间改变 变换块长度。即,当输入信号的特性稳定时,就使用长的变换块长度进行 编码。与此相反,例如当输入脉冲信号时等,输入信号的特性急剧地变化 时,就使用短的变换块长度进行编码。

改变变换块长度的方法有各种方法,但是,当长的变换块长度为整数 N时,通常采用使短的变换块长度为N/L(L=2、3、…)的方法。

在图1的编码装置中,在变换块长度决定电路44中,按照输入的音 频信号的特性决定变换块长度,并将决定的变换块长度信息供给MDCT 电路41和多路传送电路43。在MDCT电路41中,按照从变换块长 度决定电路44输入的变换块长度信息随时间改变变换块长度,进行MD CT处理。

另一方面,当由上述变换块长度决定电路44决定的变换块长度信息 传送给多路传送电路43时,就由上述多路传送电路43将变换块长度信 息和量化数据进行多路化处理,并作为编码数据从输出端52输出。

作为从输入端51输入的数字音频信号,可以处理多声道的音频信 号。例如,当输入图像等使用的5声道的音频信号时,5声道分别独立地 进行MDCT电路41、量化电路42和变换块长度决定电路44的处 理。并且,在多路传送电路43中,将5声道的数据多路化后,作为编码 数据输出。

这时,通过利用各声道间的相关性进行编码,可以提高同一位速率的 音质。并且,作为这样的处理方式,已知的有差分方式和耦合方式。差分 方式主要用于低频的副带信息(各变换块内的数据),是一种通过求2个 频道的副带信息的和与差,在进行编码时集中地将信息配置到1个声道中 从而可以减小信息量的方式。

另一方面,耦合方式主要用于高频的副带信息,是一种通过在多个声 道中共用实采样的值从而可以减小信息量的方式。即,在高频区域,作为 音质的功率比较小,在多个声道中共用1个副带信息在听觉上也不会有问 题。因此,如果在各声道的高频区域的副带信息中有类似的部分,通过将 该类似的部分的信息共用化,便可减小信息量。

其次,先有的MDCT方式的音频译码装置的一个例子示于图4。

下面,使用图4说明对多声道的音频数据进行译码的先有的译码技 术。

在图4中,经过编码的音频数据通过输入端21输入信号分离电路3 1。在信号分离电路31中,输入的编码数据分离为多路化的多声道的音 频数据和变换块长度信息。

从上述信号分离电路31输出的各声道的音频数据在反量化电路32 中按各频道进行反量化处理,处理结果输入IMDCT(Inverse MDC T)电路33。这里,所谓反量化处理,就是求经过可变长度编码的各采 样数据的位长,识别各采样数据。由上述信号分离电路31分离的变换块 长度信息也输入该IMDCT电路33。在该IMDCT电路33中,根 据输入的变换块长度信息对各频道进行IMDCT处理。

在上述IMDCT电路33中进行的频率轴/时间轴变换处理用下式 (2)描述。 x ( k ) = Σ m = 0 N / 2 - 1 y ( m ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / ( 2 N ) ] - - - ( 2 )

其中,x(k)是经过IMDCT处理的信号,y(m)是经过MD CT处理的信号,N是变换块长度,n=N/2是相位项。另外,经过I MDCT处理的信号x(k)的数为N,经过MDCT处理的信号y(m) 的数为N/2。

根据式(2)经过IMDCT处理的信号暂时存储到延迟缓冲器34 内后,由窗帘运算电路35进行窗帘运算。窗帘运算电路35乘以和进行 MDCT处理时相同形状的窗函数(示于图2),并对由当前块的前半部 分和前一块的后半部分重叠的部分的数据进行加法运算,再次构成音频信 号。这是由于在进行MDCT处理时是对各N/2点将采样重叠进行变换 的,所以,如果不进行加法运算,就会发生折叠现象。

图5示出了这时的重叠的情况。在本例中,首先对分别具有512点 采样的块0和块1中256点重叠的部分进行加法运算,再次构成256 点的音频信号。其次,对块1和块2中256点重叠的部分进行加法运算, 再次构成下一个256点的音频信号。以后,进行同样的处理,对逐个2 56点再次构成音频信号。

当多个声道的音频数据进行了编码时,如果在译码一侧的声音输出用 的扬声器只具有比编码的声道数少的声道时,有时要进行降频混频处理。 所谓降频混频处理,就是从多个声道的音频数据产生出小于该声道数的声 道的音频数据的处理。该处理的一个例子由以下式(3)描述。 y [ n ] = Σ ch = 0 N - 1 a [ ch ] · x [ ch ] [ n ] - - - ( 3 )

其中,x(ch)(n)是与声道ch对应的输入信号,y(n)是 经过降频混频处理的1个声道的信号,α(ch)是与声道ch对应的用 于降频混频的系数,M是表示进行降频混频的对象频道数。

例如,图像等使用的音频信号有时5声道的音频数据进行了编码,但 是,在一般的家庭的音频装置中,多数只能输出2声道。这时,在降频混 频电路36中,进行2次式(3)所示的降频混频处理,从5声道的声音 产生出2声道的声音。

当然,在译码一侧可以全部输出编码的声道数的音频数据时,就不必 进行降频混频处理。这时,降频混频电路36就什么处理也不进行,由窗 帘运算电路35进行了窗帘运算的音频数据直接从输出端22输出。

图6是将图4所示的先有的音频译码装置考虑了存储量的更详细示出 的硬件结构图。

图6是处理5声道的音频数据的例子,用来说明变换块长度为512 点时的存储量。另外,假定上述5声道分别是左声道Lch、中声道Cc h、右声道Rch、后方左声道LSch和后方右声道RSch。

在图6中,经过信号分离电路31和反量化电路32的处理而进行了 反量化的各声道的音频数据存储到反量化缓冲器37内。并且,对于存储 在该反量化缓冲器37内的各声道的反量化数据,由IMDCT电路(频 率轴/时间轴变换电路)33对各声道进行式(2)的运算,并将运算结 果存储到时间轴信息缓冲器38内。

其次,存储在上述时间轴信息缓冲器38内的各声道的音频数据输入 窗帘运算电路(加法/窗帘电路)35。并且,在该窗帘运算电路35中, 进行窗帘运算后,将当前块的前半部分的数据和存储在延迟缓冲器34内 的前一块的后半部分的数据进行重叠加法运算。

并且,由上述窗帘运算电路35进行重叠加法运算的结果存储到PC M缓冲器39内。另外,当前块的后半部分的数据在进行窗帘运算后存储 到上述延迟缓冲器34内,在下一个块的重叠加法运算中使用。

然后,当需要进行降频混频处理时,由降频混频电路36从PCM缓 冲器39中读出各声道的音频数据,进行由式(3)所示的降频混频处理。 并且,经过这样降频混频处理的结果通过输出端22输出。

如图6所示,在先有的音频译码装置中,必须设置反量化缓冲器37、 时间轴信息缓冲器38、延迟缓冲器34和PCM缓冲器39等各缓冲存 储器。并且,反量化缓冲器37、时间轴信息缓冲器38、延迟缓冲器3 4的存储容量分别至少需要256×5字,PCM缓冲器39的存储容量 至少需要256×10字。

在上述PCM缓冲器39中需要256×10字的存储容量,是基于 如下理由。即,通常在音频机器中,要求以一定的速率输出PCM数据。 为了满足这一要求,存储由窗帘运算电路35运算后的数据和以一定的速 率输出数据需要使缓冲器双路化进行流线动作。因此,PCM缓冲器3 9的存储容量需要256×5×2字。

也就是说,在先有的音频译码装置中,反量化缓冲器37、时间轴信 息缓冲器38、延迟缓冲器34和PCM缓冲器39各缓冲存储器总共需 要6400字的存储容量,这就存在需要相当大的存储容量的问题。

本发明就是为了解决这样的问题而开发的,目的在于在音频译码装置 中几乎不影响音质而减少存储容量。即,本发明的目的在于通过减少进行 一连串的译码处理所需要的存储容量,提供一种可以进行降频混频处理且 廉价的音频译码装置。

本发明的音频译码装置通过时间轴/频率轴变换,对包含在频率区域 表示的多个声道的音频信号的频率区域音频数据的编码数据进行译码。

为了达到上述目的,按本发明的第1观点设计的音频译码装置包括为 了将上述多个声道的音频信号以规定的电平比对规定的声道数进行混频而 处理上述频率区域音频数据的频率区域降频混频装置和将由上述频率区域 降频混频装置处理的频率区域音频数据从频率区域向时间区域变换的频率 轴/时间轴变换装置。

按照本发明的第1观点,通常,在一连串的译码处理的最后,在时间 区域进行的降频混频处理是在频率轴/时间轴变换处理前的频率区域进行 的,利用降频混频处理减小在频率轴/时间轴变换处理中应处理的数据的 声道数。因此,频率轴/时间轴变换处理所需要的存储器的容量可减少与 声道数的减少量相应的容量。

另外,在按本发明的第2观点设计的音频译码装置中,上述频率区域 音频数据分别具有可变位长,包括表示关于上述多个声道的1个音频信号 的(1个)采样的采样数据;上述音频译码装置包括从上述频率区域音频 数据求各采样数据的位长并识别采样数据的反量化装置、将由上述反量化 装置识别的采样数据从频率区域向时间区域变换的频率轴/时间轴变换装 置和在上述反量化装置的反量化处理和上述频率轴/时间轴变换装置的频 率轴/时间轴变换处理中使用的存储器。对上述多个声道的各音频信号, 利用流水线处理进行上述反量化装置的反量化处理和上述频率轴/时间轴 变换装置的频率轴/时间轴变换处理。

按照本发明的第2观点,使用反量化装置和频率轴/时间轴变换装置 进行流水线处理时,存储器是公用的,不必分别设置用于存储经过反量化 处理的数据的存储器和用于存储经过频率轴/时间轴变换处理的数据的存 储器。而且,对于多个声道的各音频信号,通过进行流水线处理,可以多 次巡回使用存储器内的同一区域,所以,设置比音频信号的声道数少的存 储区域就够了。

另外,按本发明的第3观点设计的音频译码装置包括对上述多个声道 的各音频信号使用余弦函数将上述频率区域音频数据从频率区域向时间区 域变换从而作成时间区域音频数据的频率轴/时间轴变换装置、根据具有 基于上述余弦函数的对称性的1组时间区域音频数据值内的一方求另一方 而进行窗帘运算的窗帘装置和用于延迟由上述窗帘装置进行窗帘运算时使 用的该时间区域音频数据的缓冲存储器即存储具有上述对称性的1组该时 间区域音频数据值内的上述一方的上述缓冲存储器。

按照本发明的第3观点,因窗帘运算是在根据具有对称性的1组时间 区域音频数据值内的一方求另一方后进行的,所以,在用于延迟进行窗帘 运算时使用的时间区域音频数据的缓冲存储器内,只存储1组时间区域音 频数据值内的一方就可以了。

另外,按本发明的第4观点设计的音频译码装置包括对上述多个声道 的各音频信号将上述频率区域音频数据从频率区域向时间区域变换从而作 成时间区域音频数据的频率轴/时间轴变换装置、对上述时间区域音频数 据进行窗帘运算的窗帘装置、为了将上述多个声道的音频信号以规定的电 平比对规定的声道数进行混频而处理从上述窗帘装置输出的时间区域音频 数据的降频混频装置和用于暂时存储从上述降频混频装置输出的时间区域 音频数据并输出的缓冲存储器。

按照本发明的第4观点,在利用混频处理减少音频信号的声道数后, 时间区域音频数据存储到数据输出用的缓冲存储器内,所以,和进行窗帘 运算之后声道数多的音频数据存储到缓冲存储器内的先有例相比,可以减 少缓冲存储器的容量。

另外,按本发明的第5观点设计的音频译码装置包括对上述多个声道 的各音频信号将上述频率区域音频数据从频率区域向时间区域变换从而作 成时间区域音频数据的频率轴/时间轴变换装置、对该时间区域音频数据 进行窗帘运算的窗帘装置、上述窗帘装置进行窗帘运算时使用的数据延迟 用的缓冲存储器、为了将上述多个声道的音频信号以规定的电平比对规定 的声道数进行混频而处理从上述窗帘装置输出的时间区域音频数据的降频 混频装置即将处理过的时间区域音频数据存储到上述缓冲存储器内的上述 降频混频装置。

按照本发明的第5观点,在利用混频处理减少音频信号的声道数后, 时间区域音频数据存储到数据延迟用的缓冲存储器内,所以,和进行频率 轴/时间轴变换之后的声道数多的音频数据存储到缓冲存储器内的先有例 相比,可以减少缓冲存储器的容量。

图1是表示音频编码装置的结构例的图。

图2是表示窗函数的形状的一例的图。

图3是表示MDCT处理的顺序的图。

图4是表示先有的音频译码装置的结构例的图。

图5是表示译码处理时的重叠关系的图。

图6是表示图4所示的先有的音频译码装置的硬件结构例的图。

图7是表示本发明第1实施例的音频译码装置的具体结构例的图。

图8是表示图7所示的降频混频装置和频率轴/时间轴变换装置的具 体结构例图。

图9是表示本发明第2实施例的音频译码装置的硬件结构例的图。

图10是用于说明先有的音频译码装置的动作的图。

图11是用于说明本发明第2实施例的音频译码装置的动作的图。

图12是表示本发明第3实施例的音频译码装置的硬件结构例的图。

图13是用于说明本发明第3实施例的音频译码装置的特征的图。

图14是表示本发明第4实施例的音频译码装置的硬件结构例的图。

图15是表示本发明第5实施例的音频译码装置的硬件结构例的图。

图16是表示图15所示的第5实施例的音频译码装置的功能结构的 框图

下面,参照附图说明本发明的音频译码装置的实施例。

第1实施例的音频译码装置的结构例示于图7。

在图7中,通过输入端21输入的编码数据由信号分离电路31分离 为多个声道的音频数据和变换块长度信息。该音频数据表示频率区域的多 个声道的音频信号,所以,称为频率区域音频数据。

由该信号分离电路31分离的各声道的频率区域音频数据由反量化电 路32对各声道进行反量化处理,并输入频率区域降频混频装置40。另 外,由信号分离电路31分离的变换块长度信息输入频率轴/时间轴变换 装置33。

表示从频率轴/时间轴变换装置33输出的时间区域的多个声道的音 频信号的音频数据(时间区域音频数据)由延迟缓冲器34延迟后,输入 窗帘运算电路35,进行窗帘运算。

图8是考虑了存储量更详细地示出与图7所示的本实施例的音频译码 装置的频率区域降频混频装置40和频率轴/时间轴变换装置33相当的 部分。

下面利用图8说明在该频率区域降频混频装置40和频率轴/时间轴 变换装置33内进行的处理。

图8和图6一样,也是表示处理5声道的音频数据的例子,用来说明 变换块长度为512点时的存储量。另外,在图8中,Lch表示左声道、 Cch表示中心声道、Rch表示右声道、LSch表示后方左声道、R Sch表示后方右声道、Ldch表示经过降频混频处理的左声道、Rd ch表示经过降频混频处理的右声道的各声道用的数据区域。

由图7的反量化电路32进行了反量化处理的数据存储到图8的第1 存储电路111内。其次,对于存储在第1存储电路111内的频率区域 的音频数据,由频率区域降频混频电路101进行降频混频处理,并将其 结果存储到第2存储电路112内。在频率区域降频混频电路101内进 行的处理由下式(4)描述。 Y [ n ] = Σ ch = 0 W - 1 a [ ch ] X [ ch ] [ n ] - - - ( 4 )

式(4)中的X(ch)(n)是与声道ch对应的频率区域的输入 信号,Y(n)是经过降频混频处理的频率区域的信号,α(ch)是与 声道ch对应的用于降频混频处理的系数,和式(3)所示的相同。另外, M表示进行降频混频的对象声道数。

如果在成为降频混频处理对象的各声道间变换块长度不同时,首先由 频率轴/时间轴变换电路105暂时将与其他声道不同的声道的数据变换 为时间区域的数据,并存储到第5存储电路115内。然后,由时间轴/ 频率轴变换电路104以使变换块长度一致的形式再次进行向频率区域的 变换。这样,在频率区域内进行降频混频处理时,就使各声道的变换块长 度一致了。这样,便可有效地进行频率区域内的降频混频处理。

例如,考虑作为变换块长度使用N和N/2这两种进行编码的情况。 这时,成为降频混频处理对象的5个声道有可能具有N和N/2这两种变 换块长度。这时,在利用频率轴/时间轴变换电路105将变换块长度N /2的数据变换为2个频率轴/时间轴后,由时间轴/频率轴变换电路1 04使用变换块长度N进行时间轴/频率轴变换,使各声道间的变换块长 度均为N。

其次,由频率轴/时间轴变换电路102对存储在第2存储电路11 2内的频率区域的音频数据进行向时间区域的变换处理,并将其变换结果 存储到第3存储电路113内。最后,由加法/窗帘电路103进行以下 处理。

即,当前块的前半部分的数据进行窗帘处理后,与存储在第4存储电 路114内的前一块的后半部分的数据进行重叠加法运算,再次构成音频 数据。并且,将这样再次构成的音频数据通过输出端22输出。另外,当 前块的后半部分的数据进行窗帘处理后存储到第4存储电路114内。

如图8所示,各存储电路111~115的规模是第1存储电路11 1为256×5字,第2和第4存储电路112及114各为256×2 字,第3存储电路113为512×2字,第5存储电路115为512 字。即,在本实施例中,总共用3840字的存储器就够了,所以,与图 6的先有例比较可知,在本实施例中,可以减少2560字的存储量。因 此,按照本实施例,可以廉价地构成能够进行降频混频处理的音频译码装 置。

在图8所示的频率区域降频混频装置和频率轴/时间轴变换装置的处 理中,通过进行频率轴/时间轴变换及时间轴/频率轴变换修正各声道间 的变换块长度的不一致。

另外,在使用具有可变块长度的时间轴/频率轴的编码方式中,在几 乎所有的块中,都选择频率分辨率高、编码效率高的长的变换块长度,只 有很少的块选择短的变换块长度。因此,进行降频混频处理时发生变换块 长度不一致的也很少。

关于译码的处理量,在各声道间,在发生变换块长度不一致的块中处 理量局部地增加,但是,在其他几乎所有的块中,处理量反而减少,所以, 从总体上讲,可以使处理量比以往减少约20%。

另外,为了更廉价地构成音频译码装置,省去图8的频率轴/时间轴 变换电路105、第5存储电路115和时间轴/频率轴变换电路10 4,在各声道间,变换块长度不一致时,可以进行将不一致的声道从降频 混频处理的对象中排除的处理。这时,也可以廉价地构成能够进行降频混 频处理的音频译码装置,而且,可以获得比较好的音质,并进一步减小电 路规模和译码处理量。

在本实施例中,作为时间轴/频率轴变换以MDCT为例进行了说 明,但是,上述讨论可以很容易地应用于使用其他方式的时间轴/频率轴 变换的情况。

按照本实施例,如上所述,在使用时间轴/频率轴变换将在频率区域 编码的多个声道的音频数据进行译码的音频译码装置中,在频率区域进行 降频混频处理后进行频率轴/时间轴变换,所以,可以利用上述降频混频 处理减少在降频混频处理之后的频率轴/时间轴变换处理中处理的数据的 声道数,由于在上述频率轴/时间轴变换处理中暂时存储数据,所以,可 以减少所需要的存储电路数。另外,由于可以减少在上述频率轴/时间轴 变换处理中处理的数据的声道数,所以,从总体上还可以减少译码的处理 量,这样,便可实现不使音质大幅度降低而能进行降频混频处理的廉价的 音频译码装置。

另外,按按照本实施例的特征,利用上述频率区域降频混频装置将多 个声道的音频数据在频率区域进行降频混频处理时,当成为对象的各声道 间时间轴/频率轴变换处理的变换块长度不同时,在使所有的声道的变换 块长度一致后进行降频混频处理,所以,可以有效地进行频率区域内的降 频混频处理。

另外,按照本实施例的其他特征,当各声道间变换块长度不一致时, 就将不一致的声道从进行降频混频处理的对象中排除,所以,可以使装置 结构简化,同时,可以构成廉价的音频译码装置,获得比较好的音质,从 而可以几乎不降低音质而进一步减小电路规模和译码处理量。

下面,参照附图详细说明本发明的音频译码装置的第2实施例。

图9是表示第2实施例的音频译码装置的硬件结构例的图,与作为先 有例所示的图6的结构相比较,进行说明。

在图6中,分为信号分离电路31和反量化电路32所示的部分,在 图9中将它们合而为一作为DMUX1示出。即,本实施例的DMUX1 同时进行多路数据的分离处理和分离的各声道的音频数据的反量化处理。 另外,图9和图6一样,也是表示处理5声道的音频数据的例子,示出了 变换块长度为512点时的存储量。

图9所示的第2实施例的音频译码装置通过使上述DMUX1和IM DCT电路2协调动作,可以减少缓冲存储器的容量。

即,在图6的先有例中,在IMDCT电路33的前后,分别具有2 个256×5字的缓冲存储器,但是,在本实施例中,通过由上述DMU X1和IMDCT电路2进行流水线处理,循环使用工作缓冲器3,工作 缓冲器3的存储容量为256×3字就够了。另外,所谓流水线处理,就 是在多个处理中共同使用同一个存储器的情况。

下面,使用图10和图11详细说明这种情况。即,在图6所示的先 有例中,如图10所示,首先对左声道Lch、中心声道Cch、右声道 Rch、后方左声道LSch和后方右声道RSch这5个声道进行反量 化处理,并将这样得到的各声道的反量化数据存储到反量化缓冲器37 内。

5声道的反量化数据存储到上述反量化缓冲器37内时,接着,就由 IMDCT电路33对该5声道的反量化数据按各声道进行频率轴/时间 轴变换处理,这样得到的时间区域的音频数据按各声道存储到时间轴信息 缓冲器38内。因此,以往总共需要10组缓冲存储器。

相反,在本实施例中,如图11所示,由DMUX1先将左声道Lc h的音频数据进行反量化处理后存储到工作缓冲器3内的第1缓冲器#1 内时,立刻便由IMDCT电路2对存储在该第1缓冲器#1内的反量化 数据进行频率轴/时间轴变换。此间,DMUX1对中心声道Cch进行 反量化处理,并将这样得到的反量化数据存储到第2缓冲器#2内。

另外,IMDCT电路2在结束对存储在上述第1缓冲器#1内的反 量化数据的频率轴/时间轴变换处理后,立刻就对存储在第2缓冲器#2 内的反量化数据进行频率轴/时间轴变换处理。此间,DMUX1对右声 道Rch进行反量化处理,并将这样得到的反量化数据再次存储到第1缓 冲器#1内。

这样,通过使DMUX1和IMDCT电路2进行流水线动作,在该 流水线处理中使用的工作缓冲器3中仅设置第1缓冲器#1和第2缓冲器 #2基本上就够了。

在本实施例中,如图9所示,在工作缓冲器3中,除了上述第1缓冲 器#1和第2缓冲器#2外,还设置第3缓冲器#3。该第3缓冲器#3 是为了存储在先有例中说明过的耦合用的数据使用的。

即,在耦合方式中,是将各声道的高频区域的音频数据中类似的部分 的信息作为共用,所以,另外需要用于存储该共用部分的数据的缓冲存储 器。这里,使第3缓冲器#3的存储容量为256字,但是,只要至少具 有共用化的最大限度的容量(由编码方式决定的容量。在本实施例中,为 219字)就可以了。

这样,在本实施例中,在DMUX1的多路数据的分离处理和反量化 处理以及IMDCT电路2的频率轴/时间轴变换处理中使用的缓冲存储 器使用工作缓冲器3内的第1~第3缓冲器#1~#3的3组就行了,其 存储容量为256×3字就够了。因此,与进行相同的处理需要256× 10字的存储容量的先有例(图6)相比,可以大幅度地减少总体的存储 容量。

下面,说明本发明的第3实施例。图12是表示第3实施例的音频译 码装置的硬件结构例的图,是将图9所示的第2实施例的结构变形的例 子。

图12所示的音频译码装置在由IMDCT电路2利用频率轴/时间 轴变换的音频数据的余弦函数的对称性变换为时间区域的音频数据的25 6点的采样值中,通过只将原始值存储到延迟缓冲器内,便可进一步减少 缓冲存储器的容量。

下面,使用图13、图3和图5详细地说明这一点。本实施例的变换 块长度是512点,变换为时间区域的512点的音频数据接着进行窗帘 运算,但是,如图3所示,在编码时窗帘运算是将采样值逐个错开256 点相互重叠而进行的。即,上述512点的采样值,2次巡回使用256 点的采样值。

因此,在第3实施例中,通过仔细安排上述256点的采样值的巡回 使用的方式,便可减少延迟缓冲器9的存储容量。即,如图13所示,将 原始的256点的采样值(①、②部分)配置在变换块长度的正中间。并 且,在进行窗帘运算之前,通过利用余弦函数的对称性求与上述①、②部 分的采样值对称的①’、②’部分的样值,便可得到512点的采样值。

这时,如使用图5说明的那样,在上述求出的512点的采样值中, 属于前半部分A的256点的采样值在图12的窗帘运算电路8的重叠加 法运算中直接使用,相反,属于后半部分B的256点的采样值在受到规 定时间的延迟后用于进行重叠加法运算。即,受到规定时间的延迟的只是 属于后半部分B的256点的采样值。

这里,在属于后半部分B的256点的采样值中,②’的采样值是根据 原始的②的采样值通过计算求出的。因此,只要将②部分的128点的采 样值存储到延迟缓冲器9内将其延迟规定时间,便可再现512点的采样 值并进行窗帘运算。

只要使图12所示的窗帘运算电路8在根据上述①、②部分的采样值 求出具有对称性的①’、②’部分的采样值后进行窗帘运算,在适用上就没有 问题。

如上所述,在第3实施例中,只要将经过频率轴/时间轴变换的音频 数据的原始部分即128点的采样值存储到延迟缓冲器9内就可以了。这 样,在图9的第2实施例中,延迟缓冲器5需要256×5字的存储容量, 但是,在第3实施例中,有128×5字的存储容量就够了,所以,可以 进一步减少音频译码装置总体的存储容量。

下面,说明本发明的第4实施例。图14是表示该第4实施例的音频 译码装置的硬件结构例的图,是将图12所示的第3实施例的结构变形的 例子。

图14所示的音频译码装置通过将由窗帘运算电路8进行窗帘运算生 成的5声道的PCM数据立刻进行降频混频处理,并只将降频混频后的结 果存储到PCM缓冲器10内,便可进一步减少缓冲存储器的容量。

即,由图14的DMUX1和IMDCT电路2按流水线式地进行处 理,所以,在利用由此而得到的音频数据进行窗帘运算的窗帘运算电路8 中,间歇地生成5声道的PCM数据。这时,在上述第2和第3实施例中, 在将该5声道的PCM数据直接存储到PCM缓冲器6内后,利用降频混 频电路7对2声道进行降频混频处理并输出。

相反,在第4实施例中,将由窗帘运算电路8生成的5声道的PCM 数据立刻进行降频混频处理使之成为2声道。并且,只将该降频混频处理 后的2声道的PCM数据存储到PCM缓冲器10内。

这样,在第2和第3实施例中,PCM缓冲器6需要256×10字 的存储容量,相反,在第4实施例中,PCM缓冲器10只要256×4 字的存储容量就够了,可以进一步减少音频译码装置总体的存储容量。

在图14中,降频混频电路7和PCM缓冲器10之间用双箭头连接 是基于如下理由。即,降频混频处理并不是5声道的PCM数据全部聚齐 一起进行的,而是将各声道的PCM数据一点一点地重复写入的。

因此,需要进行由降频混频电路7读入暂时存储在PCM缓冲器10 内的数据,将经过降频混频处理的值与该读入的值进行加法运算并将该加 法运算后的值再次存储到PCM缓冲器10内的相同的存储区域的处理。 图14的双箭头就是表示这种重复写入的处理。

下面,说明本发明的第5实施例。图15是表示该第5实施例的音频 译码装置的硬件结构的图,是将图14所示的第4实施例的结构变形的例 子。

在上述第4实施例中,在进行降频混频处理后,通过将由此得到的声 道数少的PCM数据存储到PCM缓冲器10内,可以将PCM缓冲器1 0的存储容量减少相当于进行降频混频的部分。可以说与延迟缓冲器 9的关系也是如此。

因此,在图15所示的第5实施例中,按照如下方式进行处理。即, 将由IMDCT电路2变换为时间区域的信息的音频数据分为不被延迟的 部分的数据(属于图13的前半部分A的256点的采样值)和受到延迟 的部分的数据(属于图13的后半部分B的256点的采样值)。

并且,在不被延迟的一侧,和通常一样,在由第1窗帘运算电路11 进行窗帘运算后,由第1降频混频电路12进行降频混频处理。在上述第 1窗帘运算电路11中在进行窗帘运算后不进行重叠加法运算。

另一方面,在被延迟的一侧,由第2降频混频电路13将由IMDC T电路2进行频率轴/时间轴变换的音频数据立刻进行降频混频处理,并 只将该降频混频处理后的声道数少的音频数据存储到延迟缓冲器14内。

使用上述延迟缓冲器14由第2降频混频电路13降频混频后的2声 道的音频数据供给第2窗帘运算电路15,进行窗帘运算。并且,由这样 得到的256点的采样值构成的PCM数据和由通过上述第1窗帘运算电 路11的窗帘运算而得到的256点的采样值构成的PCM数据进行重叠 加法运算,并存储到PCM缓冲器10内。

如上所述,在第4实施例中,延迟缓冲器9需要128×5字的存储 容量,相反,在第5实施例中,延迟缓冲器14只要128×2字的存储 容量就够了,从而可以进一步减少音频译码装置总体的存储容量。

图16是将图15所示的第5实施例的音频译码装置的硬件结构按照 处理的流程改写的功能框图。

下面,根据图15和图16简单地说明第5实施例的音频译码装置的 动作。

由图16的DMUX1分离为各声道的音频数据,同时,按各声道进 行反量化的音频数据暂时存储到图15的工作缓冲器3内。

这里,使图16中的DMUX1与IMDCT电路2、输出选择电路 16、第1窗帘运算电路11、第1降频混频电路12和第2降频混频电 路13协调动作时,只使用工作缓冲器3内的第1和第2缓冲器#1、# 2,不改变处理时间便可使5声道的译码处理按流水线动作。

另外,采用耦合方式时,只使用除了上述2个缓冲器#1、#2之外 再加上第3缓冲器#3这3个缓冲器,也可以使5声道的译码处理按流水 线动作。

由上述IMDCT电路2进行了频率轴/时间轴变换的音频数据传送 给输出选择电路16,分为不需要进行延迟的音频数据和需要进行延迟的 音频数据。不需要进行延迟的音频数据可以用下式(5)表示 x ( k ) = Σ k = 0 N / 2 - 1 y ( m ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / 2 N ] - - - ( 5 )

在式(5)中,x(k)是经过IMDCT处理的信号,y(m)是 经过MDCT处理的信号,N是变换块长度,n=N/2是相位项。另外, 经过IMDCT处理的信号x(k)的数是N,经过MDCT处理的信号 y(m)的数是N/2。

在式(5)中,令j=N/2-k-1,利用余弦函数的对称性,可 将k=N/4~N/2-1变形为下式(6)的形式。

cos[π(2k+1+n)(2m+1)/2N]

=cos[π(2k+1+N/2)(2m+1)/2N]

=cos[π(2k+1)(2m+1)/2N+π(2m+1)/4]

=cos[π(2(N/2-j-1)+1)(2m+1)/2N+π(2m+1)/4]

=cos[-π(2j+1)(2m+1)/2N+π(2m+1)/2+π(2m+1)/4]

=cos[π(2j+1)(2m+1)/2N-3π(2m+1)/4]    (6)

=cos[π(2j+1)(2m+1)/2N-3π(2m+1)/4+π(2m+1)]

=cos[π(2j+1)(2m+1)/2N+π(2m+1)/4] 由式(6)可知,真正的原始值只是k=0~N/4-1的部分的值。

另外,需要延迟的音频数据用下式(7)表示。如果对式(7)同样 也进行变形,则只有k=N/2~3 N/4-1的部分是原始的值。因此, 可以只将该k=N/2~3 N/4-1的原始部分的数据暂时存储到延迟 缓冲器14内。 x ( k ) = Σ k = N / 2 N - 1 y ( m ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / 2 N ] - - - ( 7 )

上式(5)所示的不需要延迟的音频数据传送给第1窗帘运算电路1 1。并且,在该第1窗帘运算电路11中,对上式(5)所示的值x(k) 乘以窗函数后,由第1降频混频电路12进行降频混频处理,并将这样生 成的PCM数据存储到PCM缓冲器10内。

下面所示的式(8)是表示上述第1窗帘运算电路11和第1降频混 频电路12的处理内容的公式。在式(8)中,sch表示降频混频前的 声道序号,dch表示降频混频后的声道序号。

 (k=0~N/2-1)

for(sch=0;sch<5;sch++)

  for(dch=0;dch<2;dch++)                        (8)

    pcm_buf[dch][k]+=α[sch][dch]w[k]x[sch][k]

另外,由上述式(7)所示的需要延迟的音频数据传送给第2降频混 频电路13。并且,通过由该第2降频混频电路13进行降频混频处理(各 声道数据的重复写入的处理),声道数从5声道减少为2声道,并存储到 延迟缓冲器14内。将该第2降频混频电路13的处理内容示于下式 (9)。

(k=N/2~3N/4-1)

for(sch=0;sch<5;sch++)

  for(dch=0;dch<2;dch++)                   (9)

    delay_buf[dch][k]+=α[sch][dch]x[sch][k]

暂时存储到上述延迟缓冲器14内的音频数据,用于生成下面输出的 PCM数据。其运算处理在第2降频混频电路13的降频混频处理结束 后,并在2声道的音频数据存储到延迟缓冲器14内之后最终由第2窗帘 运算电路15进行。将该第2窗帘运算电路15的处理的运算式示于式(1 0)。

(k=N/2~3N/4-1)

for(dch=0;dch<2;dch++)

{                                                   (10)

  pcm_buf[dch][k]+=w[k]delay_buf[dch][k]

  pcm_buf[dch][k+N/4]+=w[k+N/4]delay_buf[dch][N/2-k-1]

}

通过上述处理生成的PCM数据暂时存储到PCM缓冲器10内后, 通过输出端22输出。在图15的例中,PCM缓冲器10的存储容量示 为256×4字,这是为了以一定速率输出PCM数据,而将PCM缓冲 器10流水线式地分别作为运算用和数据输出用。因此,不考虑以一定速 率输出的情况时,256×2字的存储容量就够了。

以上,详细地说明了第2~第5实施例,为了明确在各实施例中可将 缓冲存储器的容量减少到多大程度,将它们归纳在如下的表1中。

                     表1     存储容量     与先有例比     图10(先有例)     6400字     100%     第2实施例     4608字     72%     第3实施例     3968字     62%     第4实施例     2432字     38%     第5实施例     2048字     32%

在以上的说明中,从第2实施例到第5实施例按顺序说明了限定结构 元件的情况,但是,在各实施例中说明的技术可以分别独立地应用。

按照第2实施例,如上所述,各声道的反量化处理和各声道的频率轴 /时间轴变换处理使用工作缓冲器按流水线方式进行处理,所以,用反量 化装置和频率轴/时间轴变换装置进行流水线处理时可以共用1个工作缓 冲器,同时,可以多次循环使用该工作缓冲器内的同一缓冲区域,从而可 以几乎不影响音质而减少进行一连串的译码处理所需要的缓冲存储器的存 储容量。

按照第3实施例,利用变换为时间区域的信息的音频数据具有的余弦 函数的对称性,在具有上述对称性的1组数据值中,根据一方的数据值求 另一方的数据值,进行窗帘运算,所以,可以只将具有上述对称性的1组 数据值中一方的数据值存储到进行上述窗帘运算时使用的数据延迟用的缓 冲存储器内,从而能减少上述数据延迟用的缓冲存储器的容量。这样,便 可几乎不影响音质而减少进行一连串的译码处理所需要的缓冲存储器的存 储容量。

按照第4实施例,将由窗帘运算装置进行窗帘运算而生成的多个声道 的音频数据立刻进行降频混频处理,并且只将降频混频后的结果存储到数 据输出用的缓冲存储器内,所以,与将降频混频前的声道数多的音频数据 直接存储到缓冲存储器内的先有例相比,只要准备通过降频混频而减少的 声道数的数据输出用的缓冲存储器就够了,从而可以几乎不影响音质而减 少进行一连串的译码处理所需要的缓冲存储器的存储容量。

按照第5实施例,将进行了频率轴/时间轴变换的多个声道的音频数 据立刻进行降频混频处理,并且只将降频混频后的结果存储到数据延迟用 的缓冲存储器内,所以,与将降频混频前的声道数多的音频数据直接存储 到数据延迟用的缓冲存储器内的先有例相比,只要准备通过降频混频而减 少的声道数的数据延迟用的缓冲存储器就够了,从而可以几乎不影响音质 而减少进行一连串的译码处理所需要的缓冲存储器的存储容量。

QQ群二维码
意见反馈