音频译码装置

申请号 CN200310101328.4 申请日 1996-09-28 公开(公告)号 CN1496007A 公开(公告)日 2004-05-12
申请人 新日本制铁株式会社; 发明人 福地弘行; 佐藤弥章;
摘要 一种能减少进行一连串的译码处理所需要的存储 电路 量、进行降频混频处理的音频译码装置。在对使用时间轴/ 频率 轴变换在频率区域编码的多个声道的音频数据进行译码的音频译码装置中,在由频率区域降频混频装置对频率区域的音频数据进行降频混频处理后,通过由频率轴/时间轴变换装置变换为时间区域的音频数据,削减与减少的声道数相应的 存储器 。另外,通过按流 水 线处理方式进行各声道的反量化处理和各声道的频率轴/时间轴变换处理,在两种处理中可以共用工作 缓冲器 。
权利要求

1.一种通过时间轴/频率轴变换,对包含有在频率区域表示 多个声道的音频信号的频率区域音频数据的编码数据进行译码的 音频译码装置,其特征在于:该音频译码装置包括频率区域降频混 频装置,用于处理上述频率区域音频数据以便将上述多个声道的音 频信号以预定的电平比率对预定数量的声道的音频信号进行混频; 和频率轴/时间轴变换装置,用于将由上述频率区域降频混频装置处 理的频率区域音频数据从频率区域向时间区域变换。
2.按权利要求1所述的音频译码装置,其特征在于:上述频 率区域音频数据包括采样数据,每个采样数据具有可变位长并表示 相对于上述多个声道的音频信号之一的1个采样;以及,上述音频 译码装置还包括反量化装置,用于通过从上述频率区域音频数据中 得到每个采样数据的位长识别该采样数据,并用于将识别的采样数 据提供给上述频率区域降频混频装置。
3.按权利要求1所述的音频译码装置,其特征在于:上述频 率区域音频数据具有包含表示上述多个声道的音频信号的可变数 量的采样的数据的可变长度的数据;上述编码数据还包含表示各 数据块的长度的块长度信息;上述音频译码装置还包括从上述编码 数据分离出上述频率区域音频数据和上述块长度信息的分离装置; 上述频率轴/时间轴变换装置根据由上述分离装置分离的块长度 信息,将由上述频率区域降频混频装置处理的频率区域音频数据从 频率区域向时间区域变换。
4.按权利要求3所述的音频译码装置,其特征在于:该音频 译码装置还包括块长度调整装置,用于当上述频率区域降频混频装 置要处理的数据块的长度相对于上述多个声道的音频信号不同时, 使上述多个声道的音频信号的数据块长度一致后,将所述数据块提 供给上述频率区域降频混频装置。
5.按权利要求4所述的音频译码装置,其特征在于:上述块 长度调整装置包括第2频率轴/时间轴变换装置,用于当相对于要处 理的至少1个声道的音频信号的数据块长度与相对于要处理的其他 声道的音频信号的数据块的长度不同时,将与上述至少1个声道的 音频信号有关的多个数据块结合,以使结合的多个数据块具有与相 对于上述其他声道的音频信号的数据块的长度相等的长度,并将包 含在所述结合的多个数据块中的频率区域音频数据从频率区域向 时间区域变换,从而形成时间区域音频数据;以及包括时间轴/频率 轴变换装置,用于通过将上述时间区域音频数据从时间区域向频率 区域变换来形成第2频率区域音频数据,并将上述第2频率区域音 频数据提供给上述频率区域降频混频装置。
6.按权利要求3所述的音频译码装置,其特征在于:在相对 于要处理的至少1个声道的音频信号的数据块的长度与相对于其他 要处理的声道的音频信号的数据块的长度不同时,上述频率区域降 频混频装置将上述至少1个声道的音频信号从混频的对象中排除出 去。
7.一种通过时间轴/频率轴变换,对包含有在频率区域表示 多个声道的音频信号的频率区域音频数据的编码数据进行译码的 音频译码装置,其特征在于:该音频译码装置包括频率轴/时间轴变 换装置,用于通过相对于上述多个声道的各音频信号使用余弦函数 将上述频率区域音频数据从频率区域向时间区域变换,从而形成时 间区域音频数据;窗帘运算装置,用于从具有从上述余弦函数获得 的对称性的1组时间区域音频数据值内的一个值得到另一个值,并 用于进行窗帘运算;和缓冲存储器,用于延迟由上述窗帘运算装置 进行窗帘运算时使用的所述时间区域音频数据,并用于存储具有上 述对称性的1组时间区域音频数据值内的上述一个值。
8.一种通过时间轴/频率轴变换,对包含有在频率区域表示 多个声道的音频信号的频率区域音频数据的编码数据进行译码的 音频译码装置,其特征在于:该音频译码装置包括频率轴/时间轴变 换装置,用于相对于上述多个声道的每个音频信号将上述频率区域 音频数据从频率区域向时间区域变换以形成时间区域音频数据;窗 帘运算装置,用于对上述时间区域音频数据进行窗帘运算;降频混 频装置,用于对从上述窗帘运算装置输出的时间区域音频数据进行 处理,从而将上述多个声道的音频信号按预定的电平比率对预定数 量的声道的音频信号进行混频;缓冲存储器,用于暂时存储从上述 降频混频装置输出的时间区域音频数据并用于输出该时间区域音 频数据。
9.按权利要求8所述的音频译码装置,其特征在于:上述缓 冲存储器包含一个区域,用于以一预定速率输出从上述降频混频装 置输出的时间区域音频数据。
10.一种通过时间轴/频率轴变换,对包含有在频率区域表示 多个声道的音频信号的频率区域音频数据的编码数据进行译码的 音频译码装置,其特征在于:该音频译码装置包括频率轴/时间轴变 换装置,用于相对于上述多个声道的每个音频信号将上述频率区域 音频数据从频率区域向时间区域变换,以形成时间区域音频数据; 窗帘运算装置,用于对上述时间区域音频数据进行窗帘运算;缓冲 存储器,用于对上述窗帘运算装置进行窗帘运算时使用的数据进行 延迟;降频混频装置,用于处理从上述窗帘运算装置中输出的时间 区域音频数据,以便将上述多个声道的音频信号按预定的电平比率 对预定数量的声道的音频信号进行混频,以及用于将处理过的时间 区域音频数据存储到上述缓冲存储器内。
11.按权利要求10所述的音频译码装置,其特征在于:该音 频译码装置还包括分配装置,用于当上述窗帘运算装置进行窗帘运 算时,将上述时间区域音频数据分为应延迟的部分和不应延迟的部 分,其中,上述降频混频装置只处理从上述分配装置输出的应延迟 的部分,并将处理过的部分存储到上述缓冲存储器内。
12.按权利要求1所述的音频译码装置,其特征在于:上述频 率轴/时间轴变换装置使用反修正离散余弦变换(IMDCT)将所述 频率区域音频数据从频率区域向时间区域变换。
13.按权利要求7所述的音频译码装置,其特征在于:上述频 率轴/时间轴变换装置使用反修正离散余弦变换(IMDCT)将所述 频率区域音频数据从频率区域向时间区域变换。
14.按权利要求8所述的音频译码装置,其特征在于:上述频 率轴/时间轴变换装置使用反修正离散余弦变换(IMDCT)将所述 频率区域音频数据从频率区域向时间区域变换。
15.按权利要求10所述的音频译码装置,其特征在于:上述 频率轴/时间轴变换装置使用反修正离散余弦变换(IMDCT)将所 述频率区域音频数据从频率区域向时间区域变换。

说明书全文

技术领域

发明涉及将使用数据压缩技术压缩的音频数据展开的音频译码 装置,例如,将从传输线传送来的压缩音频数据或者从记录媒体再生 的压缩音频数据展开的音频译码装置。

背景技术

此前,已知用于对音频信号进行高效率编码的各种方式。例如, 有使用将时间区域的信号变换为频率区域的信号的时间轴/频率轴变 换进行音频信号变换,在各频带区域进行适应人的听觉的数据压缩的 方式。作为时间轴/频率轴变换的方式,例如有使用副带滤波器及 MDCT(修正离散余弦变换)的方式。
关于副带滤波器编码方式和MDCT编码方式的概况,例如在 MARCEL DEKKAR  出版社(New York)1991年出版的 FURUI & SONDHI编写的“Advances in Speech Signal Processing”的109 页~140页中有所描述。下面,说明使用基于MDCT编码方式的时间 轴/频率轴变换的音频编码方式。
图1是使用该MDCT编码方式的编码装置的结构例。该编码装置 的编码处理方法如下所述。
即,通过输入端51输入的数字音频信号由MDCT电路41每隔某 一时间间隔从时间区域的信号变换为频率区域的信号。与该时间间隔 对应的数据长度称为变换长度。
并且,从上述MDCT电路41输出的频率区域的音频数据由量化电 路42进行量化并进行可变长编码后,在多路传送电路43中附加上采样 频率等标题信息,作为编码数据从输出端52输出。
在上述MDCT电路41中进行的时间轴/频率轴变换处理,由下述 式(1)描述。
y ( m ) = Σ k = 0 N - 1 w ( k ) x ( k ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / ( 2 N ) ] - - - ( 1 )
其中,x(k)是输入信号,w(k)是窗函数,y(m)是经 过MDCT处理的信号,N是变换块长度,n=N/2是相位项。窗函 数w(k)是用于修正有时在各变换块的端点发生的不连续的信号的 函数,其形状的一个例子示于图2。另外,在式(1)中,输入MDC T电路41的输入信号x(k)的数为N,m取从0到N/2-1的值, 所以,经过MDCT处理的信号y(m)的数为N/2。
在MDCT处理中,在当前块的变换后进行下一个块的变换时, 在从当前块向下一个块使采样只错开N/2的点进行变换。即,采样以 只重叠N/2点的形式对各变换块连续地进行MDCT处理。这是为了 防止在各变换块的边界部分发生不连续的信号。该状态示于图3。图3 是变换块长度N的值为512时的例子。
在图3的例子中,为了便于说明,将音频数据按每256个采样作为 一个子块。首先,乘以窗函数用以覆盖子块0和子块1,进行MDCT 处理。其次,将采样错开256点,乘以窗函数用以覆盖子块1和子块2, 进行MDCT处理。这样,在图3的例子中,使采样每256点进行重叠, 连续地进行512点各块的MDCT处理。
在MDCT电路41中的变换块长度一定时,就是上述那样的处理, 但是,已知的还有利用输入信号的信号特性通过改变变换块长度提高 编码效率的方式。作为这种可变块长度的MDCT编码方式的一个例 子,有国际标准规格ISO IEC 11172-3中的MPEG音频层 III。
在该可变块长度的MDCT方式中,按照输入信号的特性随时间 改变变换块长度。即,当输入信号的特性稳定时,就使用长的变换块 长度进行编码。与此相反,例如当输入脉冲信号时等,输入信号的特 性急剧地变化时,就使用短的变换块长度进行编码。
改变变换块长度的方法有各种方法,但是,当长的变换块长度为 整数N时,通常采用使短的变换块长度为N/L(L=2、3、…)的 方法。
在图1的编码装置中,在变换块长度决定电路44中,按照输入的 音频信号的特性决定变换块长度,并将决定的变换块长度信息供给M DCT电路41和多路传送电路43。在MDCT电路41中,按照从变 换块长度决定电路44输入的变换块长度信息随时间改变变换块长度, 进行MDCT处理。
另一方面,当由上述变换块长度决定电路44决定的变换块长度信 息传送给多路传送电路43时,就由上述多路传送电路43将变换块长度 信息和量化数据进行多路化处理,并作为编码数据从输出端52输出。
作为从输入端51输入的数字音频信号,可以处理多声道的音频信 号。例如,当输入图像等使用的5声道的音频信号时,5声道分别独立 地进行MDCT电路41、量化电路42和变换块长度决定电路44的处 理。并且,在多路传送电路43中,将5声道的数据多路化后,作为编 码数据输出。
这时,通过利用各声道间的相关性进行编码,可以提高同一位速 率的音质。并且,作为这样的处理方式,已知的有差分方式和耦合方 式。差分方式主要用于低频的副带信息(各变换块内的数据),是一 种通过求2个频道的副带信息的和与差,在进行编码时集中地将信息 配置到1个声道中从而可以减小信息量的方式。
另一方面,耦合方式主要用于高频的副带信息,是一种通过在多 个声道中共用实采样的值从而可以减小信息量的方式。即,在高频区 域,作为音质的功率比较小,在多个声道中共用1个副带信息在听觉 上也不会有问题。因此,如果在各声道的高频区域的副带信息中有类 似的部分,通过将该类似的部分的信息共用化,便可减小信息量。
其次,先有的MDCT方式的音频译码装置的一个例子示于图4。
下面,使用图4说明对多声道的音频数据进行译码的先有的译码 技术。
在图4中,经过编码的音频数据通过输入端21输入信号分离电路 31。在信号分离电路31中,输入的编码数据分离为多路化的多声道的 音频数据和变换块长度信息。
从上述信号分离电路31输出的各声道的音频数据在反量化电路32 中按各频道进行反量化处理,处理结果输入IMDCT(Inverse MD CT)电路33。这里,所谓反量化处理,就是求经过可变长度编码的 各采样数据的位长,识别各采样数据。由上述信号分离电路31分离的 变换块长度信息也输入该IMDCT电路33。在该IMDCT电路33 中,根据输入的变换块长度信息对各频道进行IMDCT处理。
在上述IMDCT电路33中进行的频率轴/时间轴变换处理用下 式(2)描述。
x ( k ) = Σ k = 0 N / 2 - 1 y ( m ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / ( 2 N ) ] - - - ( 2 )
其中,x(k)是经过IMDCT处理的信号,y(m)是经过 MDCT处理的信号,N是变换块长度,n=N/2是相位项。另外, 经过IMDCT处理的信号x(k)的数为N,经过MDCT处理的 信号y(m)的数为N/2。
根据式(2)经过IMDCT处理的信号暂时存储到延迟缓冲器34 内后,由窗帘运算电路35进行窗帘运算。窗帘运算电路35乘以和进行 MDCT处理时相同形状的窗函数(示于图2),并对由当前块的前半 部分和前一块的后半部分重叠的部分的数据进行加法运算,再次构成 音频信号。这是由于在进行MDCT处理时是对各N/2点将采样重叠 进行变换的,所以,如果不进行加法运算,就会发生折叠现象。
图5示出了这时的重叠的情况。在本例中,首先对分别具有512 点采样的块0和块1中256点重叠的部分进行加法运算,再次构成256 点的音频信号。其次,对块1和块2中256点重叠的部分进行加法运算, 再次构成下一个256点的音频信号。以后,进行同样的处理,对逐个 256点再次构成音频信号。
当多个声道的音频数据进行了编码时,如果在译码一侧的声音输 出用的扬声器只具有比编码的声道数少的声道时,有时要进行降频混 频处理。所谓降频混频处理,就是从多个声道的音频数据产生出小于 该声道数的声道的音频数据的处理。该处理的一个例子由以下式(3) 描述。
y [ n ] = Σ ch = 0 w - 1 α [ ch ] · x [ ch ] [ n ] - - - - ( 3 )
其中,x(ch)(n)是与声道ch对应的输入信号,y(n) 是经过降频混频处理的1个声道的信号,α(ch)是与声道ch对 应的用于降频混频的系数,M是表示进行降频混频的对象频道数。
例如,图像等使用的音频信号有时5声道的音频数据进行了编码, 但是,在一般的家庭的音频装置中,多数只能输出2声道。这时,在 降频混频电路36中,进行2次式(3)所示的降频混频处理,从5声道 的声音产生出2声道的声音。
当然,在译码一侧可以全部输出编码的声道数的音频数据时,就 不必进行降频混频处理。这时,降频混频电路36就什么处理也不进行, 由窗帘运算电路35进行了窗帘运算的音频数据直接从输出端22输出。
图6是将图4所示的先有的音频译码装置考虑了存储量的更详细 示出的硬件结构图。
图6是处理5声道的音频数据的例子,用来说明变换块长度为512 点时的存储量。另外,假定上述5声道分别是左声道Lch、中声道 Cch、右声道Rch、后方左声道LSch和后方右声道RSch。
在图6中,经过信号分离电路31和反量化电路32的处理而进行了 反量化的各声道的音频数据存储到反量化缓冲器37内。并且,对于存 储在该反量化缓冲器37内的各声道的反量化数据,由IMDCT电路 (频率轴/时间轴变换电路)33对各声道进行式(2)的运算,并将运 算结果存储到时间轴信息缓冲器38内。
其次,存储在上述时间轴信息缓冲器38内的各声道的音频数据输 入窗帘运算电路(加法/窗帘电路)35。并且,在该窗帘运算电路35 中,进行窗帘运算后,将当前块的前半部分的数据和存储在延迟缓冲 器34内的前一块的后半部分的数据进行重叠加法运算。
并且,由上述窗帘运算电路35进行重叠加法运算的结果存储到P CM缓冲器39内。另外,当前块的后半部分的数据在进行窗帘运算后 存储到上述延迟缓冲器34内,在下一个块的重叠加法运算中使用。
然后,当需要进行降频混频处理时,由降频混频电路36从PCM 脉冲码调制缓冲器39中读出各声道的音频数据,进行由式(3)所示 的降频混频处理。并且,经过这样降频混频处理的结果通过输出端22 输出。
如图6所示,在先有的音频译码装置中,必须设置反量化缓冲器 37、时间轴信息缓冲器38、延迟缓冲器34和PCM缓冲器39等各缓冲 存储器。并且,反量化缓冲器37、时间轴信息缓冲器38、延迟缓冲器 34的存储容量分别至少需要256×5字,PCM缓冲器39的存储容量至 少需要256×10字。
在上述PCM缓冲器39中需要256×10字的存储容量,是基于如 下理由。即,通常在音频机器中,要求以一定的速率输出PCM数据。 为了满足这一要求,存储由窗帘运算电路35运算后的数据和以一定的 速率输出数据需要使缓冲器双路化进行流线动作。因此,PCM缓冲 器39的存储容量需要256×5×2字。
也就是说,在先有的音频译码装置中,反量化缓冲器37、时间轴 信息缓冲器38、延迟缓冲器34和PCM缓冲器39各缓冲存储器总共需 要6400字的存储容量,这就存在需要相当大的存储容量的问题。

发明内容

本发明就是为了解决这样的问题而开发的,目的在于在音频译码 装置中几乎不影响音质而减少存储容量。即,本发明的目的在于通过 减少进行一连串的译码处理所需要的存储容量,提供一种可以进行降 频混频处理且廉价的音频译码装置。
本发明的音频译码装置对包含频率区域音频数据的编码数据进行 译码,其中通过时间轴/频率轴变换由频率区域表示多个声道的音频 信号。
为了达到上述目的,按本发明的第1观点设计的音频译码装置包 括为了将上述多个声道的音频信号以规定的电平比对规定的声道数进 行混频而处理上述频率区域音频数据的频率区域降频混频装置和将由 上述频率区域降频混频装置处理的频率区域音频数据从频率区域向时 间区域变换的频率轴/时间轴变换装置。
按照本发明的第1观点,通常,在一连串的译码处理的最后,在 时间区域进行的降频混频处理是在频率轴/时间轴变换处理前的频率 区域进行的,利用降频混频处理减小在频率轴/时间轴变换处理中应 处理的数据的声道数。因此,频率轴/时间轴变换处理所需要的存储 器的容量可减少与声道数的减少量相应的容量。
另外,在按本发明的第2观点设计的音频译码装置中,上述频率 区域音频数据分别具有可变位长,包括表示关于上述多个声道的1个 音频信号的(1个)采样的采样数据;上述音频译码装置包括从上述频 率区域音频数据求各采样数据的位长并识别采样数据的反量化装置、 将由上述反量化装置识别的采样数据从频率区域向时间区域变换的频 率轴/时间轴变换装置和在上述反量化装置的反量化处理和上述频率 轴/时间轴变换装置的频率轴/时间轴变换处理中使用的存储器。对 上述多个声道的各音频信号,利用流水线处理进行上述反量化装置的 反量化处理和上述频率轴/时间轴变换装置的频率轴/时间轴变换处 理。
按照本发明的第2观点,使用反量化装置和频率轴/时间轴变换 装置进行流水线处理时,存储器是公用的,不必分别设置用于存储经 过反量化处理的数据的存储器和用于存储经过频率轴/时间轴变换处 理的数据的存储器。而且,对于多个声道的各音频信号,通过进行流 水线处理,可以多次巡回使用存储器内的同一区域,所以,设置比音 频信号的声道数少的存储区域就够了。
另外,按本发明的第3观点设计的音频译码装置包括对上述多个 声道的各音频信号使用余弦函数将上述频率区域音频数据从频率区域 向时间区域变换从而作成时间区域音频数据的频率轴/时间轴变换装 置、根据具有基于上述余弦函数的对称性的1组时间区域音频数据值 内的一方求另一方而进行窗帘运算的窗帘装置和用于延迟由上述窗帘 装置进行窗帘运算时使用的该时间区域音频数据的缓冲存储器即存储 具有上述对称性的1组该时间区域音频数据值内的上述一方的上述缓 冲存储器。
按照本发明的第3观点,因窗帘运算是在根据具有对称性的1组 时间区域音频数据值内的一方求另一方后进行的,所以,在用于延迟 进行窗帘运算时使用的时间区域音频数据的缓冲存储器内,只存储1 组时间区域音频数据值内的一方就可以了。
另外,按本发明的第4观点设计的音频译码装置包括对上述多个 声道的各音频信号将上述频率区域音频数据从频率区域向时间区域变 换从而作成时间区域音频数据的频率轴/时间轴变换装置、对上述时 间区域音频数据进行窗帘运算的窗帘装置、为了将上述多个声道的音 频信号以规定的电平比对规定的声道数进行混频而处理从上述窗帘装 置输出的时间区域音频数据的降频混频装置和用于暂时存储从上述降 频混频装置输出的时间区域音频数据并输出的缓冲存储器。
按照本发明的第4观点,在利用混频处理减少音频信号的声道数 后,时间区域音频数据存储到数据输出用的缓冲存储器内,所以,和 进行窗帘运算之后声道数多的音频数据存储到缓冲存储器内的先有例 相比,可以减少缓冲存储器的容量。
另外,按本发明的第5观点设计的音频译码装置包括对上述多个 声道的各音频信号将上述频率区域音频数据从频率区域向时间区域变 换从而作成时间区域音频数据的频率轴/时间轴变换装置、对该时间 区域音频数据进行窗帘运算的窗帘装置、上述窗帘装置进行窗帘运算 时使用的数据延迟用的缓冲存储器、为了将上述多个声道的音频信号 以规定的电平比对规定的声道数进行混频而处理从上述窗帘装置输出 的时间区域音频数据的降频混频装置即将处理过的时间区域音频数据 存储到上述缓冲存储器内的上述降频混频装置。
按照本发明的第5观点,在利用混频处理减少音频信号的声道数 后,时间区域音频数据存储到数据延迟用的缓冲存储器内,所以,和 进行频率轴/时间轴变换之后的声道数多的音频数据存储到缓冲存储 器内的先有例相比,可以减少缓冲存储器的容量。
附图说明
图1是表示音频编码装置的结构例的图。
图2是表示窗函数的形状的一例的图。
图3是表示MDCT处理的顺序的图。
图4是表示先有的音频译码装置的结构例的图。
图5是表示译码处理时的重叠关系的图。
图6是表示图4所示的先有的音频译码装置的硬件结构例的图。
图7是表示本发明第1实施例的音频译码装置的具体结构例的图。
图8是表示图7所示的降频混频装置和频率轴/时间轴变换装置 的具体结构例图。
图9是表示本发明第2实施例的音频译码装置的硬件结构例的图。
图10是用于说明先有的音频译码装置的动作的图。
图11是用于说明本发明第2实施例的音频译码装置的动作的图。
图12是表示本发明第3实施例的音频译码装置的硬件结构例的 图。
图13是用于说明本发明第3实施例的音频译码装置的特征的图。
图14是表示本发明第4实施例的音频译码装置的硬件结构例的 图。
图15是表示本发明第5实施例的音频译码装置的硬件结构例的 图。
图16是表示图15所示的第5实施例的音频译码装置的功能结构的 框图

具体实施方式

下面,参照附图说明本发明的音频译码装置的实施例。
第1实施例的音频译码装置的结构例示于图7。
在图7中,通过输入端21输入的编码数据由信号分离电路31分离 为多个声道的音频数据和变换块长度信息。该音频数据表示频率区域 的多个声道的音频信号,所以,称为频率区域音频数据。
由该信号分离电路31分离的各声道的频率区域音频数据由反量化 电路32对各声道进行反量化处理,并输入频率区域降频混频装置40。 另外,由信号分离电路31分离的变换块长度信息输入频率轴/时间轴 变换装置33。
表示从频率轴/时间轴变换装置33输出的时间区域的多个声道的 音频信号的音频数据(时间区域音频数据)由延迟缓冲器34延迟后, 输入窗帘运算电路35,进行窗帘运算。
图8是考虑了存储量更详细地示出与图7所示的本实施例的音频 译码装置的频率区域降频混频装置40和频率轴/时间轴变换装置33 相当的部分。
下面利用图8说明在该频率区域降频混频装置40和频率轴/时间 轴变换装置33内进行的处理,。
图8和图6一样,也是表示处理5声道的音频数据的例子,用来说 明变换块长度为512点时的存储量。另外,在图8中,Lch表示左声 道、Cch表示中心声道、Rch表示右声道、LSch表示后方左 声道、RSch表示后方右声道、Ldch表示经过降频混频处理的 左声道、Rdch表示经过降频混频处理的右声道的各声道用的数据 区域。
由图7的反量化电路32进行了反量化处理的数据存储到图8的第 1存储电路111内。其次,对于存储在第1存储电路111内的频率区域 的音频数据,由频率区域降频混频电路101进行降频混频处理,并将 其结果存储到第2存储电路112内。在频率区域降频混频电路101内进 行的处理由下式(4)描述。
Y [ n ] = Σ ch = 0 w - 1 α [ ch ] X [ ch ] [ n ] - - - - ( 4 )
式(4)中的X(ch)(n)是与声道ch对应的频率区域的输 入信号,Y(n)是经过降频混频处理的频率区域的信号,α(ch) 是与声道ch对应的用于降频混频处理的系数,和式(3)所示的相同。 另外,M表示进行降频混频的对象声道数。
如果在成为降频混频处理对象的各声道间变换块长度不同时,首 先由频率轴/时间轴变换电路105暂时将与其他声道不同的声道的数 据变换为时间区域的数据,并存储到第5存储电路115内。然后,由时 间轴/频率轴变换电路104以使变换块长度一致的形式再次进行向频 率区域的变换。这样,在频率区域内进行降频混频处理时,就使各声 道的变换块长度一致了。这样,便可有效地进行频率区域内的降频混 频处理。
例如,考虑作为变换块长度使用N和N/2这两种进行编码的情 况。这时,成为降频混频处理对象的5个声道有可能具有N和N/2这 两种变换块长度。这时,在利用频率轴/时间轴变换电路105将变换 块长度N/2的数据由相应于该数据2倍的一个数目经频率轴/时间轴 变换后,由时间轴/频率轴变换电路104使用变换块长度N进行时间 轴/频率轴变换,使各声道间的变换块长度均为N。
其次,由频率轴/时间轴变换电路102对存储在第2存储电路112 内的频率区域的音频数据进行向时间区域的变换处理,并将其变换结 果存储到第3存储电路113内。最后,由加法/窗帘电路103进行以下 处理。
即,当前块的前半部分的数据进行窗帘处理后,与存储在第4存 储电路114内的前一块的后半部分的数据进行重叠加法运算,再次构 成音频数据。并且,将这样再次构成的音频数据通过输出端22输出。 另外,当前块的后半部分的数据进行窗帘处理后存储到第4存储电路 114内。
如图8所示,各存储电路111~115的规模是第1存储电路111为 256×5字,第2和第4存储电路112及114各为256×2字,第3存储 电路113为512×2字,第5存储电路115为512字。即,在本实施例 中,总共用3840字的存储器就够了,所以,与图6的先有例比较可知, 在本实施例中,可以减少2560字的存储量。因此,按照本实施例,可 以廉价地构成能够进行降频混频处理的音频译码装置。
在图8所示的频率区域降频混频装置和频率轴/时间轴变换装置 的处理中,通过进行频率轴/时间轴变换及时间轴/频率轴变换修正 各声道间的变换块长度的不一致。
另外,在使用具有可变块长度的时间轴/频率轴的编码方式中, 在几乎所有的块中,都选择频率分辨率高、编码效率高的长的变换块 长度,只有很少的块选择短的变换块长度。因此,进行降频混频处理 时发生变换块长度不一致的也很少。
关于译码的处理量,在各声道间,在发生变换块长度不一致的块 中处理量局部地增加,但是,在其他几乎所有的块中,处理量反而减 少,所以,从总体上讲,可以使处理量比以往减少约20%。
另外,为了更廉价地构成音频译码装置,省去图8的频率轴/时 间轴变换电路105、第5存储电路115和时间轴/频率轴变换电路104, 在各声道间,变换块长度不一致时,可以进行将不一致的声道从降频 混频处理的对象中排除的处理。这时,也可以廉价地构成能够进行降 频混频处理的音频译码装置,而且,可以获得比较好的音质,并进一 步减小电路规模和译码处理量。
在本实施例中,作为时间轴/频率轴变换以MDCT为例进行了 说明,但是,上述讨论可以很容易地应用于使用其他方式的时间轴/ 频率轴变换的情况。
按照本实施例,如上所述,在使用时间轴/频率轴变换将在频率 区域编码的多个声道的音频数据进行译码的音频译码装置中,在频率 区域进行降频混频处理后进行频率轴/时间轴变换,所以,可以利用 上述降频混频处理减少在降频混频处理之后的频率轴/时间轴变换处 理中处理的数据的声道数,由于在上述频率轴/时间轴变换处理中暂 时存储数据,所以,可以减少所需要的存储电路数。另外,由于可以 减少在上述频率轴/时间轴变换处理中处理的数据的声道数,所以, 从总体上还可以减少译码的处理量,这样,便可实现不使音质大幅度 降低而能进行降频混频处理的廉价的音频译码装置。
另外,按按照本实施例的特征,利用上述频率区域降频混频装置 将多个声道的音频数据在频率区域进行降频混频处理时,当成为对象 的各声道间时间轴/频率轴变换处理的变换块长度不同时,在使所有 的声道的变换块长度一致后进行降频混频处理,所以,可以有效地进 行频率区域内的降频混频处理。
另外,按照本实施例的其他特征,当各声道间变换块长度不一致 时,就将不一致的声道从进行降频混频处理的对象中排除,所以,可 以使装置结构简化,同时,可以构成廉价的音频译码装置,获得比较 好的音质,从而可以几乎不降低音质而进一步减小电路规模和译码处 理量。
下面,参照附图详细说明本发明的音频译码装置的第2实施例。
图9是表示第2实施例的音频译码装置的硬件结构例的图,与作 为先有例所示的图6的结构相比较,进行说明。
在图6中,分为信号分离电路31和反量化电路32所示的部分,在 图9中将它们合而为一作为DMUX(多路分离电路)1示出。即,本 实施例的DMUX1同时进行多路数据的分离处理和分离的各声道的 音频数据的反量化处理。另外,图9和图6一样,也是表示处理5声道 的音频数据的例子,示出了变换块长度为512点时的存储量。
图9所示的第2实施例的音频译码装置通过使上述DMUX1和I MDCT电路2协调动作,可以减少缓冲存储器的容量。
即,在图6的先有例中,在IMDCT电路33的前后,分别具有 2个256×5字的缓冲存储器,但是,在本实施例中,通过由上述DM UX1和IMDCT电路2进行流水线处理,循环使用工作缓冲器3, 工作缓冲器3的存储容量为256×3字就够了。另外,所谓流水线处理, 就是在多个处理中共同使用同一个存储器的情况。
下面,使用图10和图11详细说明这种情况。即,在图6所示的先 有例中,如图10所示,首先对左声道Lch、中心声道Cch、右声 道Rch、后方左声道LSch和后方右声道RSch这5个声道进 行反量化处理,并将这样得到的各声道的反量化数据存储到反量化缓 冲器37内。
5声道的反量化数据存储到上述反量化缓冲器37内时,接着,就 由IMDCT电路33对该5声道的反量化数据按各声道进行频率轴/ 时间轴变换处理,这样得到的时间区域的音频数据按各声道存储到时 间轴信息缓冲器38内。因此,以往总共需要10组缓冲存储器。
相反,在本实施例中,如图11所示,由DMUX1先将左声道L ch的音频数据进行反量化处理后存储到工作缓冲器3内的第1缓冲 器#1内时,立刻便由IMDCT电路2对存储在该第1缓冲器#1内 的反量化数据进行频率轴/时间轴变换。此间,DMUX1对中心声 道Cch进行反量化处理,并将这样得到的反量化数据存储到第2缓 冲器#2内。
另外,IMDCT电路2在结束对存储在上述第1缓冲器#1内的 反量化数据的频率轴/时间轴变换处理后,立刻就对存储在第2缓冲 器#2内的反量化数据进行频率轴/时间轴变换处理。此间,DMUX 1对右声道Rch进行反量化处理,并将这样得到的反量化数据再次存 储到第1缓冲器#1内。
这样,通过使DMUX1和IMDCT电路2进行流水线动作, 在该流水线处理中使用的工作缓冲器3中仅设置第1缓冲器#1和第2 缓冲器#2基本上就够了。
在本实施例中,如图9所示,在工作缓冲器3中,除了上述第1 缓冲器#1和第2缓冲器#2外,还设置第3缓冲器#3。该第3缓冲器 #3是为了存储在先有例中说明过的耦合用的数据使用的。
即,在耦合方式中,是将各声道的高频区域的音频数据中类似的 部分的信息作为共用,所以,另外需要用于存储该共用部分的数据的 缓冲存储器。这里,使第3缓冲器#3的存储容量为256字,但是,只 要至少具有共用化的最大限度的容量(由编码方式决定的容量。在本 实施例中,为219字)就可以了。
这样,在本实施例中,在DMUX1的多路数据的分离处理和反 量化处理以及IMDCT电路2的频率轴/时间轴变换处理中使用的 缓冲存储器使用工作缓冲器3内的第1~第3缓冲器#1~#3的3组就 行了,其存储容量为256×3字就够了。因此,与进行相同的处理需要 256×10字的存储容量的先有例(图6)相比,可以大幅度地减少总体 的存储容量。
下面,说明本发明的第3实施例。图12是表示第3实施例的音频 译码装置的硬件结构例的图,是将图9所示的第2实施例的结构变形 的例子。
图12所示的音频译码装置在由IMDCT电路2利用频率轴/时 间轴变换的音频数据的余弦函数的对称性变换为时间区域的音频数据 的256点的采样值中,通过只将原始值存储到延迟缓冲器内,便可进 一步减少缓冲存储器的容量。
下面,使用图13、图3和图5详细地说明这一点。本实施例的变 换块长度是512点,变换为时间区域的512点的音频数据接着进行窗帘 运算,但是,如图3所示,在编码时窗帘运算是将采样值逐个错开256 点相互重叠而进行的。即,上述512点的采样值,2次巡回使用256点 的采样值。
因此,在第3实施例中,通过仔细安排上述256点的采样值的巡回 使用的方式,便可减少延迟缓冲器9的存储容量。即,如图13所示, 将原始的256点的采样值(①、②部分)配置在变换块长度的正中间。 并且,在进行窗帘运算之前,通过利用余弦函数的对称性求与上述①、 ②部分的采样值对称的①’、②’部分的样值,便可得到512点的采样值。
这时,如使用图5说明的那样,在上述求出的512点的采样值中, 属于前半部分A的256点的采样值在图12的窗帘运算电路8的重叠加 法运算中直接使用,相反,属于后半部分B的256点的采样值在受到 规定时间的延迟后用于进行重叠加法运算。即,受到规定时间的延迟 的只是属于后半部分B的256点的采样值。
这里,在属于后半部分B的256点的采样值中,②’的采样值是根 据原始的②的采样值通过计算求出的。因此,只要将②部分的128点 的采样值存储到延迟缓冲器9内将其延迟规定时间,便可再现512点的 采样值并进行窗帘运算。
只要使图12所示的窗帘运算电路8在根据上述①、②部分的采样 值求出具有对称性的①’、②’部分的采样值后进行窗帘运算,在适用上 就没有问题。
如上所述,在第3实施例中,只要将经过频率轴/时间轴变换的 音频数据的原始部分即128点的采样值存储到延迟缓冲器9内就可以 了。这样,在图9的第2实施例中,延迟缓冲器5需要256×5字的存 储容量,但是,在第3实施例中,有128×5字的存储容量就够了,所 以,可以进一步减少音频译码装置总体的存储容量。
下面,说明本发明的第4实施例。图14是表示该第4实施例的音 频译码装置的硬件结构例的图,是将图12所示的第3实施例的结构变 形的例子。
图14所示的音频译码装置通过将由窗帘运算电路8进行窗帘运算 生成的5声道的PCM数据立刻进行降频混频处理,并只将降频混频 后的结果存储到PCM缓冲器10内,便可进一步减少缓冲存储器的容 量。
即,由图14的DMUX1和IMDCT电路2按流水线式地进行 处理,所以,在利用由此而得到的音频数据进行窗帘运算的窗帘运算 电路8中,间歇地生成5声道的PCM数据。这时,在上述第2和第3 实施例中,在将该5声道的PCM数据直接存储到PCM缓冲器6内 后,利用降频混频电路7对2声道进行降频混频处理并输出。
相反,在第4实施例中,将由窗帘运算电路8生成的5声道的PC M数据立刻进行降频混频处理使之成为2声道。并且,只将该降频混 频处理后的2声道的PCM数据存储到PCM缓冲器10内。
这样,在第2和第3实施例中,PCM缓冲器6需要256×10字的 存储容量,相反,在第4实施例中,PCM缓冲器10只要256×4字的 存储容量就够了,可以进一步减少音频译码装置总体的存储容量。
在图14中,降频混频电路7和PCM缓冲器10之间用双箭头连接 是基于如下理由。即,降频混频处理并不是5声道的PCM数据全部 聚齐一起进行的,而是将各声道的PCM数据一点一点地重复写入的。
因此,需要进行由降频混频电路7读入暂时存储在PCM缓冲器 10内的数据,将经过降频混频处理的值与该读入的值进行加法运算并 将该加法运算后的值再次存储到PCM缓冲器10内的相同的存储区域 的处理。图14的双箭头就是表示这种重复写入的处理。
下面,说明本发明的第5实施例。图15是表示该第5实施例的音 频译码装置的硬件结构的图,是将图14所示的第4实施例的结构变形 的例子。
在上述第4实施例中,在进行降频混频处理后,通过将由此得到 的声道数少的PCM数据存储到PCM缓冲器10内,可以将PCM缓 冲器10的存储容量减少减少相当于进行降频混频的部分。可以说与延 迟缓冲器9的关系也是如此。
因此,在图15所示的第5实施例中,按照如下方式进行处理。即, 将由IMDCT电路2变换为时间区域的信息的音频数据分为不被延 迟的部分的数据(属于图13的前半部分A的256点的采样值)和受到 延迟的部分的数据(属于图13的后半部分B的256点的采样值)。
并且,在不被延迟的一侧,和通常一样,在由第1窗帘运算电路 11进行窗帘运算后,由第1降频混频电路12进行降频混频处理。在上 述第1窗帘运算电路11中在进行窗帘运算后不进行重叠加法运算。
另一方面,在被延迟的一侧,由第2降频混频电路13将由IMD CT电路2进行频率轴/时间轴变换的音频数据立刻进行降频混频处 理,并只将该降频混频处理后的声道数少的音频数据存储到延迟缓冲 器14内。
使用上述延迟缓冲器14由第2降频混频电路13降频混频后的2 声道的音频数据供给第2窗帘运算电路15,进行窗帘运算。并且,由 这样得到的256点的采样值构成的PCM数据和由通过上述第1窗帘运 算电路11的窗帘运算而得到的256点的采样值构成的PCM数据进行 重叠加法运算,并存储到PCM缓冲器10内。
如上所述,在第4实施例中,延迟缓冲器9需要128×5字的存储 容量,相反,在第5实施例中,延迟缓冲器14只要128×2字的存储容 量就够了,从而可以进一步减少音频译码装置总体的存储容量。
图16是将图15所示的第5实施例的音频译码装置的硬件结构按照 处理的流程改写的功能框图。
下面,根据图15和图16简单地说明第5实施例的音频译码装置的 动作。
由图16的DMUX1分离为各声道的音频数据,同时,按各声道 进行反量化的音频数据暂时存储到图15的工作缓冲器3内。
这里,使图16中的DMUX1与IMDCT电路2、输出选择电 路16、第1窗帘运算电路11、第1降频混频电路12和第2降频混频电 路13协调动作时,只使用工作缓冲器3内的第1和第2缓冲器#1、# 2,不改变处理时间便可使5声道的译码处理按流水线动作。
另外,采用耦合方式时,只使用除了上述2个缓冲器#1、#2之 外再加上第3缓冲器#3这3个缓冲器,也可以使5声道的译码处理按 流水线动作。
由上述IMDCT电路2进行了频率轴/时间轴变换的音频数据 传送给输出选择电路16,分为不需要进行延迟的音频数据和需要进行 延迟的音频数据。不需要进行延迟的音频数据可以用下式(5)表示
x ( k ) = Σ k = 0 N / 2 - 1 y ( m ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / 2 N ] - - - - ( 5 )
在式(5)中,x(k)是经过IMDCT处理的信号,y(m) 是经过MDCT处理的信号,N是变换块长度,n=N/2是相位项。 另外,经过IMDCT处理的信号x(k)的数是N,经过MDCT 处理的信号y(m)的数是N/2。
在式(5)中,令j=N/2-k-1,利用余弦函数的对称性,可 将k=N/4~N/2-1变形为下式(6)的形式。
cos[π(2k+1+n)(2m+1)/2N]
=cos[π(2k+1+N/2)(2m+1)/2N]
=cos[π(2k+1)(2m+1)/2N+π(2m+1)/4]
=cos[π(2(N/2j-1)+1)(2m+1)/2N+π(2m+1)/4]
=cos[-π(2j+1)(2m+1)/2N+π(2m+1)/2+π(2m+1)/4]
=cos[π(2j+1)(2m+1)/2N-3π(2m+1)/4]          (6)
=cos[π(2j+1)(2m+1)/2N-3π(2m+1)/4+π(2m+1)]
=cos[π(2j+1)(2m+1)/2N+π(2m+1)/4] 由式(6)可知,真正的原始值只是k=0~N/4-1的部分的值。
另外,需要延迟的音频数据用下式(7)表示。如果对式(7)同 样也进行变形,则只有k=N/2~3N/4-1的部分是原始的值。因 此,可以只将该k=N/2~3N/4-1的原始部分的数据暂时存储到 延迟缓冲器14内。
x ( k ) = Σ k = N / 2 N - 1 y ( m ) cos [ π ( 2 k + 1 + n ) ( 2 m + 1 ) / 2 N ] - - - - ( 7 )
上式(5)所示的不需要延迟的音频数据传送给第1窗帘运算电路 11。并且,在该第1窗帘运算电路11中,对上式(5)所示的值x(k) 乘以窗函数后,由第1降频混频电路12进行降频混频处理,并将这样 生成的PCM数据存储到PCM缓冲器10内。
下面所示的式(8)是表示上述第1窗帘运算电路11和第1降频混 频电路12的处理内容的公式。在式(8)中,sch表示降频混频前 的声道序号,dch表示降频混频后的声道序号。
(k=0~N/2-1)
for(sch=0;sch<5;sch++)
  for(dch=0;dch<2;dch++)                        (8)
    pcm_buf[dch][k]+=α[sch][dch]w[k]x[sch][k]
另外,由上述式(7)所示的需要延迟的音频数据传送给第2降频 混频电路13。并且,通过由该第2降频混频电路13进行降频混频处理 (各声道数据的重复写入的处理),声道数从5声道减少为2声道, 并存储到延迟缓冲器14内。将该第2降频混频电路13的处理内容示于 下式(9)。
(k=N/2~3N/4-1)
for(sch=0;sch<5;sch++)
  for(dch=0;dch<2;dch++)                  (9)
    delay_buf[dch][k]+=α[sch][dch]x[sch][k]
暂时存储到上述延迟缓冲器14内的音频数据,用于生成下面输出 的PCM数据。其运算处理在第2降频混频电路13的降频混频处理结 束后,并在2声道的音频数据存储到延迟缓冲器14内之后最终由第2 窗帘运算电路15进行。将该第2窗帘运算电路15的处理的运算式示于 式(10)。
(k=N/2~3N/4-1)
for(dch=0;dch<2;dch++)
{                                                 (10)
  pcm_buf[dch][k]+=w[k]delay_buf[dch][k]
  pcm_buf[dch][k+N/4]+=w[k+N/4]delay_buf[dch][N/2-k-1]
}    
通过上述处理生成的PCM数据暂时存储到PCM缓冲器10内 后,通过输出端22输出。在图15的例中,PCM缓冲器10的存储容 量示为256×4字,这是为了以一定速率输出PCM数据,而将PCM 缓冲器10流水线式地分别作为运算用和数据输出用。因此,不考虑以 一定速率输出的情况时,256×2字的存储容量就够了。
以上,详细地说明了第2~第5实施例,为了明确在各实施例中可 将缓冲存储器的容量减少到多大程度,将它们归纳在如下的表1中。
                       表1     存储容量     与先有例比     图10(先有例)     6400字     100%     第2实施例     4608字     72%     第3实施例     3968字     62%     第4实施例     2432字     38%     第5实施例     2048字     32%
在以上的说明中,从第2实施例到第5实施例按顺序说明了限定 结构元件的情况,但是,在各实施例中说明的技术可以分别独立地应 用。
按照第2实施例,如上所述,各声道的反量化处理和各声道的频 率轴/时间轴变换处理使用工作缓冲器按流水线方式进行处理,所以, 用反量化装置和频率轴/时间轴变换装置进行流水线处理时可以共用 1个工作缓冲器,同时,可以多次循环使用该工作缓冲器内的同一缓冲 区域,从而可以几乎不影响音质而减少进行一连串的译码处理所需要 的缓冲存储器的存储容量。
按照第3实施例,利用变换为时间区域的信息的音频数据具有的 余弦函数的对称性,在具有上述对称性的1组数据值中,根据一方的 数据值求另一方的数据值,进行窗帘运算,所以,可以只将具有上述 对称性的1组数据值中一方的数据值存储到进行上述窗帘运算时使用 的数据延迟用的缓冲存储器内,从而能减少上述数据延迟用的缓冲存 储器的容量。这样,便可几乎不影响音质而减少进行一连串的译码处 理所需要的缓冲存储器的存储容量。
按照第4实施例,将由窗帘运算装置进行窗帘运算而生成的多个 声道的音频数据立刻进行降频混频处理,并且只将降频混频后的结果 存储到数据输出用的缓冲存储器内,所以,与将降频混频前的声道数 多的音频数据直接存储到缓冲存储器内的先有例相比,只要准备通过 降频混频而减少的声道数的数据输出用的缓冲存储器就够了,从而可 以几乎不影响音质而减少进行一连串的译码处理所需要的缓冲存储器 的存储容量。
按照第5实施例,将进行了频率轴/时间轴变换的多个声道的 音频数据立刻进行降频混频处理,并且只将降频混频后的结果存储到 数据延迟用的缓冲存储器内,所以,与将降频混频前的声道数多的音 频数据直接存储到数据延迟用的缓冲存储器内的先有例相比,只要准 备通过降频混频而减少的声道数的数据延迟用的缓冲存储器就够了, 从而可以几乎不影响音质而减少进行一连串的译码处理所需要的缓冲 存储器的存储容量。
申请是申请号为96122821.0,发明名称为“音频译码装置”的申 请的分案申请。
QQ群二维码
意见反馈