技术领域
[0001] 本
发明关于诸如在一频宽扩展(BWE)方案内通过调整一
音频信号的
频谱值的
相位来操控该音频信号的一方案。
背景技术
[0002] 音频信号的储存或发送经常被受严格的码率约束。以往,当只有很低的码率可用时,
编码器被迫大幅度地降低该发送音频的频宽。现代音频编译码器目前能够通过利用频宽扩展方法来编码宽带信号,如以下中所描述:2002年5月慕尼黑第112次AES会议中M.Dietz、L.Liljeryd、K. 及O.Kunz提出的“Spectral Band Replication,a novel approach in audio coding”;2002年5月慕尼黑第112次AES会议中S.Meltzer、R. 及F.Henn提出的“SBR enhanced audio codecs for digital broadcasting such as“Digital Radio Mondiale”(DRM)”;2002年5月慕尼黑第112次AES会议中T.Ziegler、A.Ehret、P.Ekstrand及M.Lutzky提出的“Enhancing mp3 with SBR:Features and Capabilities of the new mp3PRO Algorithm”;国际标准ISO/IEC14496-3:2001/填补FPDAM1,“Bandwidth Extension”,ISO/IEC,2002年;Vasu Iyengar 等人 提出 的“Speech bandwidth extension method and apparatus”;2002年5月德国慕尼黑AES第112次会议中E.Larsen、R.M.Aarts及M.Danessis提出的“Efficient high-frequency bandwidth extension of music and speech”;2003年10月美国纽约AES第115次会议中R.M.Aarts、E.Larsen及O.Ouweltjes提出的“A unified approach to low-and high frequency bandwidth extension”;2001年赫尔辛基科技大学声学及音频
信号处理试验室,K. 的研究报告“A Robust Wideband Enhancement for Narrowband Speech Signal”;2004年John Wiley&Sons有限责任公司,E.Larsen及R.M.Aarts提出的“Audio Bandwidth Extension–Application to psychoacoustics,Signal Processing and Loudspeaker Design”;2002年5月德国慕尼黑AES第112次会议中E.Larsen、R.M.Aarts及M.Danessis提出的“Efficient high-frequency bandwidth extension of music and speech”;1973年6月IEEE Transactions on Audio and Electroacoustics,AU-21(3)中J.Makhoul所著的“Spectral Analysis of Speech by Linear Prediction”;Ohmori等人于美国
专利申请案08/951,029中提出的音频频宽扩展系统及方法(Audio band width extending system and method);及Malah,D&Cox,R.V.于美国专利6895375提出的窄频语音的频宽扩展系统(System for bandwidth extension of Narrow-band speech)。这些
算法依赖于高频内容(HF)的一参数表示,这是通过转换成HF频谱区(“修补”)及应用一参数驱动后处理的方式由已译码信号的
波形编码的低频部分(LF)产生。
[0003] 最近,具有使用如以下所描述的相位声码器的一新算法:M.Puckett提出的“Phase-locked Vocoder”,IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics,Mohonk,1995 年; ,A.:“Transient detection and preservation in the phase vocoder”,citeseer.ist.psu.edu/679246.html;Laroche L.、Dolson M.:“Improved phase vocoder timescale modification of audio”,IEEE Trans.Speech and Audio Processing第7卷第3期第323-332页;及Laroche,J.&Dolson,M.在美国专利6549884中提出的“Phase-vocoder pitch-shifting for the patch generation”,该算法已经展现在Frederik Nagel、Sascha Disch提出的“Aharmonic bandwidth extension method for audio codecs”,2009年4月台湾台北ICASSP International Conference on Acoustics,Speech and Signal Processing,IEEE CNF。然而,称为“谐波频宽扩展(HBF)”的该方法易被受包含在音频信号中的瞬态的
质量下降,如2009年5月德国慕尼黑第126次AES会议上Frederik Nagel、Sascha Disch、Nikolaus Rettelbach提出的“A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs”中所述,这是由于在该标准相位声码器算法
中子频带上的垂直相干性不保证被维持且另外离散傅立叶转换(DFT)相位的重新计算不得不在隐含地假定有循环周期的一转换的分离时间
块上执行。
[0004] 已知特别可看到两种由于基于区块的相位声码器处理而产生的人为因素。这两种人为因素特别是由于应用了最新计算出的相位而由信号的时域循环卷积效应产生的波形分散及时域混迭。
[0005] 换句话说,因为在该BWE算法中对音频信号的频谱值应用了一相位调整,所以包含在音频信号的一区块中的一瞬态可能环绕在该区块周围,即循环卷积回该区块。这产生了时域混迭且因此导致音频信号降级。
[0006] 因此,用于特定处理包含瞬态的信号部分的方法应当被使用。然而,尤其因为该BWE算法在一编译码器链的译码器端执行,所以计算复杂度是一严重问题。因此,针对刚刚所述的音频信号降级的解决办法应当较佳地不以大大提高计算复杂度为代价来实现。
发明内容
[0007] 本发明的目的是例如在一BWE方案的脉络中,提供一种用于通过调整一音频信号的频谱值的相位而操控该音频信号的方案,其能够在减小刚刚所述的质量降级及降低该计算复杂度之间实现一较好折中。
[0008] 此目的由用于操控一音频信号的装置或用于操控一音频信号的一方法来实现,其中,该用于操控一音频信号的装置包含:
[0009] 一窗,其用于产生音频样本的多个连续区块,该多个连续区块包含音频样本的至少一个填补区块,该填补区块具有填补值及音频信号值;一第一转换器,其用于将该填补区块转换成具有频谱值的一频谱表示;一调相器,其用于调整该频谱值的相位以获得一已调频谱表示;及一第二转换器,其用于将该已调频谱表示转换成一已调时域音频信号,[0010] 以及其中,该用于操控一音频信号的一方法包含:
[0011] 产生音频样本的多个连续区块,该多个连续区块包含音频样本的至少一个填补区块,该填补区块具有填补值及音频信号值;将该填补区块转换成具有频谱值的一频谱表示;调整该频谱值的相位以获得一已调频谱表示;及将该已调频谱表示转换成一已调时域音频信号。
[0012] 构成本发明的
基础的基本构想在于,当具有填补值与音频信号值的音频样本的至少一个填补区块在调整该填补区块的这些频谱值的相位之前产生时,上述的较好折中可实现。通过该解决方法,由该相位调整产生的信号内容向区块边界的移动及一相应的时域混迭可被防止发生或至少使其可能性较小,且因此该音频质量可轻松地得到保持。
[0013] 本发明的用于操控一音频信号的构想基于产生音频样本的多个连续区块,该多个连续区块包含音频样本的至少一个填补区块,该填补区块具有填补值与音频信号值。该填补区块接着被转换成具有频谱值的一频谱表示。这些频谱值接着被调整以获得一已调频谱表示。最后,该已调频谱表示被转换成一已调时域音频信号。用于填补的该范围的值则可被移除。
[0014] 根据本发明的一
实施例,该填补区块较佳地通过在一时间区块之前或之后插入由零值构成的填补值而产生。
[0015] 根据一实施例,这些填补区块局限于那些包含一瞬态事件的区块,借此将额外的计算复杂度负担限于那些事件。更准确地,例如,当一瞬态事件在该音频信号的一区块中被检测到时,该区块按照一BWE算法通过一先进方式以一填补区块的形式被处理,而当该瞬态事件在另一区块中未检测到时,该音频信号的该区块作为只具有音频信号的一非填补区块以一BWE算法的一标准方式被处理。通过适应性地在该标准处理及先进处理之间转换,该平均计算工作量可大大地降低,例如,这允许减低处理器速度及减少内存。
[0016] 根据本发明的实施例,这些填补值安排在其中一瞬态事件被检测到的一时间区块之前及/或之后,因此该填补区块适于以例如分别通过一DFT及一IDFT处理器实现的一第一转换器及第二转换器在时域及频域之间转换。一较好的解决方法可以是将该填补对称地安排在该时间区块周围。
[0017] 根据一实施例,该至少一个填补区块通过将诸如零值的填补值补到该音频信号的音频样本的一区块而产生。可选择地,具有填补到一分析窗函数的一开始
位置或该分析窗函数的一结束位置的至少一个防护区的该分析窗函数用以通过将此分析窗函数应用到该音频信号的音频样本的一区块而形成一填补区块。例如,该窗函数可包含具有防护区的韩恩窗口(Hann window)。
附图说明
[0018] 下面,参考附图,本发明的实施例予以说明,其中:
[0019] 图1显示了用于操控一音频信号的一实施例的方块图;
[0020] 图2显示了用于利用该音频信号执行一频宽扩展的一实施例的方块图;
[0021] 图3显示了利用不同的BWE因子执行一频宽扩展算法的一实施例的一方块图;
[0022] 图4显示了利用一瞬态检测器转换一填补区块或一非填补区块的另一实施例的一方块图;
[0023] 图5显示了图4的一实施例的一实施方式的一方块图;
[0024] 图6显示了图4的一实施例的另一实施方式的一方块图;
[0025] 图7a显示了相位调整之前及之后的一示范性信号区块的示图,用以说明一相位调整对具有位于一时间区块的中心的一瞬态的一信号波形的影响;
[0026] 图7b显示了相位调整之前及之后的一示范性信号区块的示图,用以说明一相位调整对在一时间区块的一第一样本附近具有该瞬态的一信号波形的影响;
[0027] 图8显示了本发明的另一实施方式的一概述的方块图;
[0028] 图9a显示了呈具有防护区的一韩恩窗口形式的一示范性分析窗函数的示图,其中,这些防护区的特征在于为常数零,该窗口要用在本发明的一可选择实施例中;
[0029] 图9b显示了呈具有防护区的一韩恩窗口形式的一示范性分析窗函数的示图,其中,这些防护区的特征在于抖动,该窗口要用在本发明的又一可选择实施例中;
[0030] 图10显示了一频宽扩展方案中对一音频信号的一频谱带的一操控的一示意图;
[0031] 图11显示了一频宽扩展方案的脉络中的一重迭相加操作的示意图;
[0032] 图12显示了基于图4的一可选择实施例的一实施方式的一方块图及示意图;及[0033] 图13显示了一典型谐波频宽扩展(HBE)实施方式的一方块图。
具体实施方式
[0034] 图1说明了根据本发明的一实施例操控一音频信号的一装置。该装置包含一窗102,其具有用于一音频信号的一输入100。该窗102经实施来产生音频样本的多个连续区块,其包含至少一个填补区块。特定地,该填补区块具有填补值及音频信号值。出现在该窗
102的一输出103处的该填补区块被提供到一第一转换器104,该第一转换器104经实施来将该填补区块103转换成具有频谱值的一频谱表示。该第一转换器104的输出105处的这些频谱值接着被提供到一调相器106。该调相器106经实施来调整这些频谱值105的相位以在107获得一已调频谱表示。该输出107最后被提供到一第二转换器108,该第二转换器
108经实施来将该已调频谱表示107转换为一已调时域音频信号109。该第二转换器108的该输出109可连接到另一整数倍降低取样器,该整数倍降低取样器对于一频宽扩展方案来说是必须的,如结合图2、图3及图8所讨论的。
[0035] 图2显示了利用一频宽扩展因子(σ)执行一频宽扩展算法的一实施例的一示意图。在此,该音频信号100馈入包含一分析窗处理器110及一后续填补器112的窗102。在一实施例中,该分析窗处理器110被实施以产生具有相同大小的多个连续区块。该分析窗处理器110的输出111进一步连接到该填补器112。特定地,该填补器112被实施以填补在该分析窗处理器110的该输出111处的该多个连续区块中的一区块,以在该填补器112的该输出103处获得该填补区块。这里,该填补区块通过将填补值插入到音频样本的连续区块中的一第一样本之前或音频样本的该连续样本中的最后一样本之后的特定时间位置而获得。该填补区块103进一步由该第一转换器104转换以在该输出105处获得一频谱表示。而且,一带通
滤波器114被使用,其被实施以从该频谱表示105或者该音频信号100中提取带通信号113。该
带通滤波器114的一带通特性被选择使得该带通信号113被限制在一恰当的目标
频率范围。在此,该带通滤波器114接收到也在一下游调相器106的输出115处出现的一频宽扩展因子(σ)。在本发明的一个实施例中,一频宽扩展因子(σ)2.0用来执行该频宽扩展算法。在该音频信号100具有例如0KHz至4KHz的一
频率范围的情况下,该带通滤波器114将提取出2KHz到4KHz的频率范围,因此该带通信号113将通过该随后的BWE算法被转换到4KHz到8KHz的一目标频率范围内,条件是例如,该频宽扩展因子(σ)2.0被应用来选择一恰当的带通滤波器114(见图10)。该带通滤波器114的该输出113处的该带通信号的该频谱表示包含幅度信息及相位信息,它们分别在一定标器116与该调相器106中被进一步处理。该定标器116被实施以通过一因子来定标该幅度信息的这些频谱值113,其中,该因子依赖于一重迭相加特性,因为由该窗102实施的一重迭相加操作的一第一时间距离(a)与由一下游重迭相加器124施加的一不同时间距离(b)的一关系被计入。
[0036] 例如,如果有一重迭相加特性,其中,音频样本的连续区块的一第六次重迭相加(sixth-fold overlap-add)具有该第一时间距离(a),且该第二时间距离(b)与该第一时间距离(a)的比为b/a=2,则因子b/a×1/6将由该定标器116用以定标该输出113处的这些频谱值(参见图11),假定这是在一矩形分析窗的情况下。
[0037] 然而,该特定幅度定标只可在一下游整数倍降低取样器(downstream decimation)在该重迭相加操作之后执行时应用。如果该整数倍降低取样器在该重迭相加操作之前执行,则该整数倍降低取样器可能对这些频谱值的这些幅度产生一影响,此影响一般必须被该定标器116计入。
[0038] 该调相器106被配置以用该频宽扩展因子(σ)分别定标或乘以该音频信号的该频带的这些频率值113的这些相位,借此音频样本的一连续区块中的至少一个样本被循环卷积到该区块。
[0039] 基于一循环周期的循环卷积的影响是该第一转换器104及该第二转换器108所执行的该转换的一不期望的负面影响,其通过位于该分析窗704中间的一瞬态700(图7a)及位于该分析窗704的一边界附近的一瞬态702(图7b)的范例显示在图7中。
[0040] 图7a显示了位于该分析窗704中间,即在具有一样本长度706的音频样本的连续区块内居中的该瞬态700,,该样本长度706包括例如具有该连续区块的一第一样本708及一最后样本710的1001个样本。该原始信号700由一细虚线指明。在由该第一转换器104转换且随后例如使用一相位声码器对该原始信号的该频谱实施一相位调整后,该瞬态700将被平移且在由该第二转换器108转换后被循环卷积回该分析窗704,即使得该循环卷积瞬态701将仍位于该分析窗704内。该循环卷积瞬态701由用“没有防护”来指示的粗线指示。
[0041] 图7b显示了包含接近该分析窗704的该第一样本708的一瞬态702的该原始信号。具有一瞬态702的该原始信号同样由该细虚线指示。在此情况下,在由该第一转换器104转换及随后实施该相位调整之后,该瞬态702将被平移且在由该第二转换器108转换之后循环卷积回该分析窗704,由此一循环卷积瞬态703将被获得,其由用“没有防护”来指示的该粗线指示。在此,该循环卷积瞬态703产生,因为由于相位调整的缘故,该瞬态702的至少一部分被移到该分析窗704的该第一样本708之前,这导致该循环卷积瞬态703的循环包围。特定地,可从图7b中看出,由于循环周期的作用,该瞬态702中移出该分析窗704的该部分(部分705)再次出现在该分析窗704的该最后样本710的左侧。
[0042] 包含来自该定标器116的该输出117的该已调幅度信息及来自该调相器106的该输出107的该已调相位信息的该已调频谱表示被提供到该第二转换器108,其被配置以将该已调频谱表示转换成出现在该第二转换器108的该输出109处的该已调整的时域音频信号。该第二转换器108的该输出109处的该已调整时域音频信号接着被提供到一填补去除器118。该填补去除器118被实施以去除该已调整的时域音频信号中那些与在该调相器106的该下游处理应用该相位调整之前被插入以在该窗102的该输出103处产生填补区块的填补值的样本相对应的样本。更确切地说,位于该已调整时域音频信号的与该相位调整之前被插入填补值的这些特定时间位置相对应的那些时间位置的样本被移除。
[0043] 在本发明的一实施例中,填补值对称地被插入在音频样本的该连续区块的该第一样本708之前与音频样本的该连续区块的该最后样本710之后,例如,如图7所示,由此两个对称防护区712、714被形成,包围具有该样本长度706的该居中的连续区块。在该对称情况下,在这些频率值的该相位调整及它们随后成为该已调整的时域音频信号的转换之后,这些防护区或者“防护间隔”712、714较佳地可分别由该填补去除器118从该填补区块被移除,以便在该填补去除器118的该输出119处只获得没有这些填补值的该连续区块。
[0044] 在一可选择实施方式中,这些防护间隔可以不由该填补去除器118从该第二转换器108的该输出109移除,使得该填补区块的该已调整的时域音频信号将具有包括该居中的连续区块的该样本长度706及这些防护间隔的这些样本长度712、714的样本长度716。该信号可进一步在下至一重迭相加器124的后续处理阶段中被处理,如图2中的该方块图所示。在该填补去除器118不存在的情况下,包括对这些防护间隔进行操作的此处理也可被看作是对该信号的一过取样。即使该填补去除器118在本发明的实施例中不需要,但如图2中所示使用它是有利的,因为出现在该输出119处的该信号将已具有分别与在通过该填补器112填补之前出现在该分析窗处理器110的该输出111处的该原始连续区块或未经填补的区块相同的样本长度。因此,该后续处理阶段将容易地适用于该输出119处的该信号。
[0045] 较佳地,该填补去除器118的该输出119处的该已调整的时域音频信号被提供到一整数倍降低取样器120。该整数倍降低取样器120较佳地通过利用该频宽扩展因子(σ)操作的一简单取样率转换器来实施以在该整数倍降低取样器120的输出121获得一已整数倍降低取样的时域信号。在此,该整数倍降低取样特性依赖于由该调相器106在该输出115处提供的该相位调整特性。在本发明的一实施例中,该频宽扩展因子σ=2由该调相器106经由该输出115提供到该整数倍降低取样器120,借此每两个样本就有一样本将从该输出119处的该已调时域音频信号移除,从而产生出现在该输出121处的该已整数倍降低取样的时域信号。
[0046] 出现在该整数倍降低取样器120的该输出121处的该已整数倍降低取样时域信号随后被馈入到一合成窗122,该合成窗122被实施以例如将一合成窗函数应用到该已整数倍降低取样的时域信号,其中,该合成窗函数匹配于由该窗102的该分析窗处理器110应用的一分析函数。在此,该合成窗函数可以以这样一方式匹配于该分析函数:应用该合成函数抵消该分析函数的影响。可选择地,该合成窗122还可被实施以对该第二转换器108的该输出109处的该已调整的时域音频信号进行操作。
[0047] 来自该合成窗122的该输出123的已整数倍降低取样且经
加窗的时域信号接着被提供到一重迭相加器124。在此,该重迭相加器124接收关于由该窗102实施的该重迭相加操作的该第一时间距离(a)及该调相器106在该输出115处使用的该频宽扩展因子(σ)的信息。该重迭相加器124将比该第一时间距离(a)大的一不同时间距离(b)应用到该已整数倍降低取样且经加窗时域信号。
[0048] 在该整数倍降低取样在该重迭相加之后执行的情况下,根据一频宽扩展方案可以满足条件σ=b/a。然而,在如图2中显示的该实施例中,该整数倍降低取样在该重迭相加之前执行,因此该整数倍降低取样可对一般必须被该重迭相加器124计入的上述条件产生影响。
[0049] 较佳地,图2中显示的该装置可被配置用于执行包含一频宽扩展因子(σ)的一BWE算法,其中,该频宽扩展因子(σ)控制从该音频信号的一频带到一目标频带的一频率扩展。以此方式,在视该频宽扩展因子(σ)而定的该目标频率范围中的该信号可在该重迭相加器124的该输出125处获得。
[0050] 在一BWE算法的脉络中,一重迭相加器124被实施以通过将一输入时域信号的这些连续区块彼此间隔得比该音频信号的这些原始迭加连续区块远而引起该音频信号的时间扩展,以获得一扩展信号。
[0051] 在该整数倍降低取样在该重迭相加之后执行的情况下,例如,通过一因子2.0进行的一时间扩展将产生具有为该原始音频信号100的该持续时间两倍的一扩展信号。例如,以一相应整数倍降低取样因子2.0进行的后续整数倍降低取样将产生同样具有该音频信号100的该原始持续时间的一已整数倍降低取样且频宽延伸的信号。然而,在如图2所示的该整数倍降低取样器120位于该重迭相加器124之前的情况下,该整数倍降低取样器120可被配置以一频宽扩展因子(σ)2.0进行操作,使得例如每两个样本就有一样本从其输入时域信号中被移除,这产生具有该原始音频信号100的持续时间的一半的一已整数倍降低取样时域信号。同时,频率范围例如2KHz到4KHz中的一带通滤波信号的频宽将以一因子2.0来扩展,从而在整数倍降低取样过后产生在该相应目标频率范围例如4KHz至8KHz中的一信号121。随后,该已整数倍降低取样且频宽扩展的信号可通过该下游重迭相加器
124时域被扩展到该音频信号100的该原始持续时间。实质上,上述过程与一相位声码器的原理有关。
[0052] 从该重迭相加器124的该输出125获得的该目标频率范围中的该信号随后被提供到一波封调节器130。基于在该波封调节器130的该输入101处接收到的由该音频信号100推导出的发送参数,该波封调节器130被实施为以一确定的方式调节该重迭相加器124的该输出125处的该信号的波封,使得在该波封调节器130的该输出129处获得一校正信号,该校正信号包含一已调节的波封及/或一已校正的
音调。
[0053] 图3显示了本发明的一实施例的一方块图,其中,该装置被配置以利用不同的BWE因子(σ),例如σ=2,3,4,….执行一频宽扩展算法。开始,这些频宽扩展算法参数经由输入128转发到共同以这些BWE因子(σ)操作的所有装置。特定地,这些装置为该第一转换器104、该调相器106、该第二转换器108、该整数倍降低取样器120及该重迭相加器124,如图3所示。如上所述,用于执行该频宽扩展算法的这些连续处理装置被实施为以这样一方式操作:针对该输入128处的不同BWE因子(σ),可在该整数倍降低取样器120的输出121-1、121-2、121-3…处获得相应的已调整时域音频信号,它们的特征在于分别不同的目标频率范围或频带。接着,这些不同的已调整时域音频信号基于这些不同的BWE因子(σ)而由该重迭相加器124处理,从而在该重迭相加器124的输出125-1、125-2、125-3…处产生不同的迭加结果。这些迭加结果最终由一组合器126在其输出127处组合以获得包含这些不同目标频带的一组合信号。
[0054] 为了有一个概要性的观点,该频宽扩展算法的基本原理被绘示在图10中。特定地,图10示意性地显示了该BWE因子(σ)如何分别控制例如该音频信号100的该频带的一部分113-1、113-2、113-3与一目标频带125-1、125-2、125-3之间的频移。
[0055] 首先,在σ=2的情况下,具有例如2KHz到4KHz的一频率范围的一带通滤波信号113-1从该音频信号100的该初始频带被提取。该带通滤波信号113-1的该频带接着被转换为该重迭相加器124的该第一输出125-1。该第一输出125-1具有与以一因子2.0(σ=2)进行的该音频信号100的该初始频带的一频宽扩展相对应的一频率范围4KHz到8KHz。对于σ=2的该上频带也可被称为“第一填补频带”。接着,在σ=3的情况下,具有频带范围
8/3KHz到4KHz的一带通滤波信号113-2被提取,接着经过该重迭相加器124之后其被转换为该第二输出125-2,其特征在于为8KHz到12KHz的一频率范围。与以一因子3.0(σ=3)进行的一频带扩展相对应的该输出125-2的上频带也被称为“第二填补频带”。接着,在σ=4的情况下,具有一频率范围3KHz到4KHz的该带通滤波信号113-3被提取,接着经过该重迭相加器124之后其被转换为具有一频率范围12KHz到16KHz的该第三输出125-3。与以一因子4.0(σ=4)进行的一频宽扩展相对应的该输出125-3的上频带也可被称为“第三填补频带”。以此方式,可获得该第一填补频带、第二填补频带及第三填补频带,以
覆盖一最大频率高达16KHz的连续频带,较佳地该最大频率16KHz对于在一高质量频宽扩展算法的脉络中操控该音频信号100来说是需要的。原则上,该频宽扩展算法也可针对该BWE因子的较高值σ>4来执行,产生甚至更多的高频带。然而,考虑到,这样的高频带一般在该受操控信号的该
感知质量上不会产生进一步提高。
[0056] 如图3所示,基于这些不同BWE因子(σ)的这些迭加结果125-1、125-2、125-3…进一步由一组合器126组合,由此在该输出127处获得包含这些不同的频带(见图10)的一组合信号。在此,该输出127处的该组合信号由从该音频信号100的该最大频率(fmax)到该最大频率的σ倍(σ×fmax)的范围(如4kHz到16kHz(参见图10))中的该已转换高频填补带构成。
[0057] 该下游波封调节器130如上所述被配置以基于来自出现在该输入101处的该音频信号的发送参数而调整该组合信号的该波封,在该波封调节器130的该输出129处产生一校正信号。在该输出129处由该波封调节器130提供的该校正信号进一步由另一组合器132来与该原始音频信号100组合以最终在该另一组合器132的该输出131处获得频带经扩展的一受操控信号。如图10所示,该输出131处的该频宽扩展信号的该频率范围包含该音频信号100的该频带及根据该频宽扩展算法从该转换获得的这些不同频带,例如,范围总共从0KHz到16KHz(图10)。
[0058] 在根据图2的本发明的一实施例中,该窗102被配置以在音频样本的一连续区块中的一第一样本之前或音频样本的该连续区块的一最后样本之后的特定时间位置处插入填补值,其中,填补值的数目及该连续区块中的值的数目的总和至少为音频样本的该连续区块中的值的该数目的1.4倍。
[0059] 特定地,对于图7,具有该样本长度712的该填补区块的该第一部分插入在具有该样本长度706的该居中的连续区块704的该第一样本708之前,而具有该样本长度714的该填补区块的一第二部分插入在该居中的连续区块704之后。要指出的是,在图7中,该连续区块704或者该分析窗分别由“感兴趣区”(ROI)表示,其中,穿过这些样本0到1000的该竖直实线指示该分析窗704的这些边界,该循环卷积的条件在其中有效。
[0060] 较佳地,该连续区块704左边的该填补区块的该第一部分具有与该填补区块704右边的该填补区块的该第二部分相同的长度,其中,该填补区块的该总体大小具有一样本长度716(例如,从样本500到样本1500),其是该居中的连续区块704的该样本长度706的两倍。图7b中显示,例如,因为该调相器106实施一相位调整,所以最初位置靠近该分析窗704的该左边界的一瞬态702将被
时移,使得将获得以该居中的连续区块704的该第一样本708为中心的一平移瞬态707。在此情况下,该平移瞬态707将全部位于具有该样本长度716的该填补区块内,从而防止由该实施的相位调整导致的循环卷积或循环环绕。
[0061] 例如,如果该居中的连续区块704的该第一样本708左边的该填补区块的该第一部分不够大,不足以完全容纳该瞬态的一可能时移,则该瞬态将被循环卷积,这意味着该瞬态的至少一部分将重新出现在该居中的连续区块704的该最后样本710右边的该填补区块的该第二部分中。然而,在该后续处理阶段中应用该调相器106之后,该瞬态的此部分可较佳地通过该填补去除器118移除。然而,该填补区块的该样本长度716应当至少为该连续区块704的该样本长度706的1.4倍大。应考虑到,由例如一相位声码器实现的该调相器106实施的该相位调整总是造成朝着负时间的一时移,即朝着该时间/样本轴左边平移。
[0062] 在本发明的实施例中,该第一转换器104及第二转换器108被实施以对与该填补区块的该样本长度相对应的一转换长度操作。例如,如果该连续区块具有一样本长度N,而该填补区块具有至少为1.4×N的一样本长度,诸如2N,则由该第一转换器104及该第二转换器108应用的该转换长度将也是1.4×N,例如2N。
[0063] 然而,原则上,该第一转换器104及该第二转换器108的该转换长度应当依据该BWE因子(σ)而选择,因为该BWE因子(σ)越大,该转换长度应当越大。然而,较佳地是,使用与该填补区块的该样本长度那样长的一转换长度就已足够,即便对于该BWE因子的较大值,例如σ>4,该转换长度不够大,不足以阻止任何类型的循环卷积效应。这是因为在这样一情况下(σ>4),由循环卷积造成的瞬态事件的时域混迭例如在该已转换高频填补频带中是微不足道,并且将不能明显地影响该感知质量。
[0064] 在图4中,显示了一实施例,其包含一瞬态检测器134,该瞬态检测器134被实施以检测该音频信号100的一区块中的一瞬态事件,诸如,例如在图7中显示的具有该样本长度706的音频样本的该连续区块704中的一瞬态事件。
[0065] 特定地,该瞬态检测器134被配置以确定音频区块的一连续区块是否包含一瞬态事件,其特征在于该音频信号100的
能量在时间上的一突然变化,诸如,例如能量从一个时间部分到下一时间部分增加或降低了例如50%以上。
[0066] 例如,该瞬态检测可基于一频率选择处理,诸如表示包含在该音频信号100的该高频带中的该能量的一测量值的一频谱表示的高频部分的一平方操作,及能量上的时间变化与一预定临界值的一后续比较。
[0067] 而且,一方面,当诸如图7b的该瞬态事件702的该瞬态事件由该瞬态检测器134检测到处于与该填补器112的该输出103处的该填补区块相对应的该音频信号100的某一区块133-1中时,该第一转换器104被配置以转换该填补区块。另一方面,该第一转换器104被配置以转换该瞬态检测器134的该输出133-2处仅具有音频信号的一非填补区块,其中,该非填补区块与该音频信号100的该区块对应,这是在该区块中未检测到该瞬态事件时的情况。
[0068] 在此,该填补区块包含填补值,诸如,例如插入在图7b的该居中的连续区块704左边与右边的零值,及位于图7b的该居中的连续区块704内部的音频信号值。然而该非填补区块只包含音频信号值,诸如例如位于图7b的该连续区块704内部的音频样本的那些值。
[0069] 在其中由该第一转换器104进行的该转换且因而还有基于该第一转换器104的该输出105的后续处理阶段依赖于对该瞬态事件的检测的上述实施例中,该填补器112的该输出103处的该填补区块只在该音频信号100的某些
选定时间区块(即包含一瞬态事件的时间区块)内产生,在此期间在进一步操控该音频信号100之前进行填补就知觉质量来讲预期是有利的。
[0070] 在本发明的其它实施例中,对图4中分别由“无瞬态事件”或“瞬态事件”表示的用于该后续处理的该恰当信号路径的选择通过利用图5中显示的切换器136完成,该切换器136由该瞬态检测器134的该输出135控制,该输出135包含关于该瞬态事件的检测的信息,其包括在该音频信号100的该区块中是否检测到该瞬态事件的信息。来自该瞬态检测器134的信息由该切换器136转发到由“瞬态事件”表示的该切换器136的输出135-1或由“无瞬态事件”表示的该切换器136的输出135-2。在此,图5中的该切换器136的这些输出135-1、135-2完全与图4中的该瞬态检测器134的输出133-1、133-2对应。如上所述,该填补器112的该输出103处的该填补区块从该音频信号100的该区块135-1产生,其中,该瞬态事件由该瞬态检测器134检测到在该区块135-1中。此外,该切换器136被配置以在该瞬态事件由该瞬态检测器检测到时将该填补器112在该输出103产生的该填补区块馈入到第一子转换器138-1,且在该瞬态事件未由该瞬态检测器134检测到时将该输出135-2处的该非填补区块馈入到一第二子转换器138-2。在此,该第一子转换器138-1被用以利用该第一转换长度(例如2N)执行该填补区块的一转换,而该第二子转换器138-2被用以利用一第二转换长度(例如N)执行该非填补区块的一转换。因为该填补区块具有比该非填补区块大的一样本长度,所以该第二转换长度比该第一转换长度短。最后,可分别在该第一子转换器138-1的该输出137-1处获得一第一频谱表示或者在该第二子转换器138-2的输出
137-2处获得一第二频谱表示,这可在该频宽扩展算法的脉络中进一步被处理,如前面所说明。
[0071] 在本发明的一可选择实施例中,该窗102包含一分析窗处理器140,该分析窗处理器140被配置以将一分析窗函数应用到音频样本的一连续区块中,诸如,例如图7中的该连续区块704。由该分析窗处理器140应用的该分析窗函数特定地在该窗函数的一开始位置处包含至少一个防护区,诸如,例如开始于该图7b的该连续区块704左边的窗函数709的该第一样本718(即样本-500)的时间部分,或者在该窗函数的一结束位置处包含至少一个防护区,诸如,例如结束于图7b的该连续区块右侧的该窗函数709的最后一样本720(即样本1500)的时间部分。
[0072] 图6显示了本发明的一可选择实施例,其进一步包含一防护窗切换器142,该防护窗切换器142被配置以依赖于关于该瞬态检测器134的该输出135提供的该瞬态检测的信息来控制该分析窗处理器140。该分析窗处理器140受控制,因为具有一第一窗长度的该防护窗切换器142的输出139-1处的一第一连续区块在该瞬态事件由该瞬态检测器134检测到时产生且具有一第二窗长度的该防护窗切换器142的该输出139-2处的另一连续区块在该瞬态检测器没有检测到该瞬态事件时产生。在此,该分析窗处理器140被配置以将该分析窗函数(诸如,例如由图9a绘示的具有一防护区的一韩恩窗口)应用到该输出139-1处的该连续区块或者该输出139-2处的另一连续区块,从而分别获得该输出141-1处的一填补区块或者该输出142-2处的一非填补区块。
[0073] 在图9a中,例如该输出141-1处的该填补区块包含一第一防护区910及一第二防护区920,其中,这些防护区910、920的音频样本的值被设定为零。在此,这些防护区910、920包围对应于该窗函数的特性的一区域930,在此情况下该窗函数的特性由例如该韩恩窗口的该特性形状给定。可选择地,关于图9b,防护区940、950的音频样本的值还可在零附近抖动。图9中的竖直线指示该区域930的一第一样本905及最后一样本915。此外,防护区910、940开始于该窗函数的该第一样本901,而防护区920、950结束于该窗函数的该最后一样本903。以一韩恩窗口部分为中心的、例如包括图9a的防护区910、920的该完整窗口的样本长度900为该区域930的该样本长度的2倍大。
[0074] 在该瞬态检测器134检测到该瞬态事件的情况下,该输出139-1处的该连续区块被处理,因为该连续区块由该分析窗函数的该特性形状加权,诸如,例如图9a中所示的具有这些防护区910、920的该正规化韩恩窗口,而在该瞬态检测器134未检测到该瞬态事件的情况下,该输出139-2处的该连续区块被处理,因为该连续区块只由该分析窗函数的该区域930的该特性形状加权,诸如,例如图9a的该正规化韩恩窗口901的该区域930。
[0075] 这些输出141-1、141-2处的该填补区块或非填补区块利用包含刚刚上述的该防护区的该分析窗函数来产生的情况下,这些填补值或音频信号值分别源于由该窗函数的该防护区或该非防护(特性)区对这些音频样本的该加权。在此,这些填补值及音频信号值都表示加权值,其中,特定地这些填补值近似为零。特定地,这些输出141-1、141-2处的该填补区块或非填补区块可与显示在图5中的该实施例中的输出103、135-2处的那些填补区块或非填补区块。
[0076] 因为由应用该分析窗函数产生的该加权,该瞬态检测器134及该分析窗处理器140较佳地应当以某一方式被安排为使得通过该瞬态检测器134检测该瞬态事件发生在通过该分析窗处理器140应用该分析窗函数之前。否则,由于该加权处理,该瞬态事件的该检测将大受影响,这尤其与一瞬态事件位于这些防护区内或者接近该非防护(特性)区的这些边界的情况一样,因为在该区域中,与分析窗函数的这些值相对应的这些加权因子总是接近于零。
[0077] 利用具有该第一转换长度的该第一子转换器138-1及具有该第二转换长度的该第二子转换器138-2,该输出141-1处的该填补区块及该输出141-2处的该填补区块随后被转换成它们在输出143-1、143-2处的频谱表示,其中,该第一转换长度及该第二转换长度分别与这些被转换区块的样本长度相对应。这些输出143-1、143-2处的这些频谱表示可进一步如以前讨论的实施例中那样被处理。
[0078] 图8显示了该频宽扩展实施方式的一实施例的一概述。特定地,图8包括由“音频信号/附加参数”表示的区块800,该区块800提供由输出区块“低频(LF)音频数据”表示的该音频信号100。此外,该区块800提供可以与图2及图3中的该波封调节器130的该输入101相对应的解码参数。该区块800的该输出101处的这些参数可随后用于该波封调节器130及/或一音调校正器150。例如,该波封调节器130及该音调校正器150被配置以将一预定失真应用到该合成信号127以获得该失真信号151,该失真信号151可与图2及图3的该已校正信号129相对应。
[0079] 该区块800可以包含关于提供在该频宽扩展实施方式的该编码器端的该瞬态检测的旁侧信息。在该情况下,该旁侧信息进一步通过由该虚线表示的一比特流810发送到该译码器端上的该瞬态检测器134。
[0080] 然而较佳地,该瞬态检测执行于在此称为一“定框”装置102-1的该分析窗处理器110的该输出111处的音频样本的多个连续区块。换句话说,该瞬态旁侧信息在表示该译码器的该瞬态检测器134中被检测或者其从该编码器在该比特流810中被转送(虚线)。第一个解决方法未增加要被发送的位率,而第二个解决方法使该检测便利,因为原始信号仍然可得到。
[0081] 特定地,图8显示了被配置以执行一谐波频宽扩展(HBE)实施方式的一装置的一方块图,如图13所示,其与由该瞬态检测器134控制的该切换器136结合,用来视关于该输出135处的一瞬态事件的发生的信息而定来执行一信号适应性处理。
[0082] 在图8中,该定框装置102-1的该输出111处的该多个连续区块被提供给一分析窗装置102-2,该分析窗装置102-2被配置以应用具有一预定窗形状的一分析窗函数,诸如,例如一上升余弦窗,该上升余弦窗的特征在于:相比于典型地应用在一定框操作中的一矩形窗形状,其具有较少纵深侧面。视用该切换器136获得的由“瞬态”或“非瞬态”表示的该切换判决而定,该分析窗装置102-2的输出811处的多个连续加窗(即定框且加权)区块中的包括该瞬态事件的该区块135-1或不包括该瞬态事件的该区块135-2(由该检测器134检测)分别进一步被处理,如以前详细描述。特定地,可与图2、图4及图5中的该窗102的该填补器112相对应的一零填补装置102-3较佳地用来在该时间区块135-1的外部插入零值,借此获得与该填补区块103相对应的一已补零区块803,其样本长度2N为该时间区块
135-2的该样本长度N的2倍长。在此,该瞬态检测器134由“瞬态位置检测器”表示,因为其可用来确定该连续区块135-1相对于该输出811处的该多个连续区块的位置,即包含该瞬态事件的个别时间区块可从该输出811处的该连续区块序列中被识别出。
[0083] 在一个实施例中,该填补区块总是产生于其中该瞬态事件被检测出的一特定连续区块,而与该瞬态事件在该区块内的位置无关。在此情况下,该瞬态检测器134只被配置为以确定(识别)包含该瞬态事件的该区块。在一可选择实施例中,该瞬态检测器134还可被配置为以确定该瞬态事件相对于该区块的特
定位置。在该前一实施例中,可使用该瞬态检测器134的一更简单实施方式,而在该后一实施例中,该处理的计算复杂度可降低,因为只有一瞬态事件位于一特定位置且较佳地靠近一区块边界时,该填补区块才将产生且进一步被处理。换句话说,在该后一实施例中,只有当一瞬态事件位于该区块边界附近时(即当发生偏离中心瞬态时),才需要零填补区或防护区。
[0084] 图8的该装置实质上提供了一种在进入该相位声码器处理之前通过在每一时间区块的两端填补零而引入所谓的“防护间隔”来抵消该循环卷积效应的方法。在此,该相位声码器处理以该第一子转换器138-1或该第二子转换器138-2的该操作开始,例如,该第一子转换器138-1或该第二子转换器138-2分别包含具有一转换长度2N或N的一FFT处理器。
[0085] 特定地,该第一转换器104可被实施以执行该填补区块103的一短时傅立叶转换(STFT),而该第二转换器108可被实施以基于该输出105处的该已调整频谱表示的该幅度及相位执行一反STFT。
[0086] 关于图8,在已计算出这些新相位且例如执行该反STFT或反离散傅立叶转换(IDFT)合成之后,这些防护间隔仅仅脱离该时间区块的该中间部分,此时间区块在该声码器的该重迭相加(OLA)阶段中将被进一步处理。可选择地,这些防护间隔不被移除,但在该OLA阶段被进一步处理。此操作还可有效地被看作该信号的一过取样。
[0087] 作为根据图8的该实施方式的一结果,在该另一组合器132的该输出131处获得频宽扩展的一受操控信号。随后,另一定框装置160可用来以一预定方式调整由“具有高频(HF)的音频信号”表示的在该输出131处的该受操控音频信号的定框,例如,使得该另一定框装置160的该输出161处的音频样本的该连续区块将具有与该初始音频信号800一样的窗口长度。
[0088] 例如,如图8的实施例中概述的通过一相位声码器处理瞬态期间,在该脉络中利用防护间隔的可能优势示例性地在图7中形象化。面板a)显示了位于该分析窗中心的该瞬态(“虚线”指示原始信号)。在该情况中,该防护间隔对该处理不具有显著影响,因为该窗还可容纳该已调瞬态(“细实线”表示使用防护间隔,“粗实线”表示不具有防护间隔)。然而,如面板b)中所示,如果该瞬态偏离中心(“细虚线”指示原始信号),在该声码器处理期间,该瞬态将通过该相位操控被时移。如果此平移不能直接由该窗口涵盖的时间跨度所容纳,则循环卷积发生(“粗实线”表示不具有防护间隔),最终导致该瞬态(的多个部分)错位,从而降低该感知音频质量。然而,使用防护间隔通过将这些平移部分容纳在该防护区(“细实线”表示利用防护间隔)来防止循环卷积效应。
[0089] 作为对上述零填补实施方式的一可选择方式,具有防护区的窗口(见图9)可如上所述地被使用。在这些窗口具有防护区的情况下,这些窗口的一侧或两侧上,这些值大约为零。它们可确切地为零或者在零附近抖动,其具有以下可能优势:不是将零而是将小值通过相位适应从该防护区移入该窗口。图9显示了两种类型的窗口。特定地,在图9中,这些窗函数901、902之间的差异在于:图9a中该窗函数901包含其样本值准确为零的防护区910、920,而图9b中该窗函数902包含其样本值在零附近抖动的这些防护区940、950。因此,在该后一种情况下,替代零值的小值将通过该相位适应从该防护区940或950平移到该窗口的该区域930中。
[0090] 如上所述,使用防护间隔可能会由于其等效于过取样而增加计算复杂度,因为分析及合成转换必须关于具有实质上扩展长度(通常为一因子2)的信号区块而被计算。一方面,至少对于瞬态信号区块来讲,此确保了一改良感知质量,但这些只出现在一平均音乐音频信号的已选择区块中。另一方面,在该整个信号的处理中,处理能
力可平稳地提高。
[0091] 本发明的实施例基于以下事实:过取样只对某些已选择信号区块有利。特定地,这些实施例提供了一种新的信号适应处理方法,其包含一检测机制且只将过取样应用于那些确实提高感知质量的信号区块。而且,通过在该标准处理及先进处理的间适应式切换该信号处理,本发明的脉络中的该信号处理的效率可大大地提高,从而降低该计算工作量。
[0092] 为了说明该标准处理及该先进处理之间的差异,将在下面进行一典型谐频宽扩展(HBE)实施方式(图13)与图8的该实施方式的比较。
[0093] 图13绘示HBE的一概述。在此,多个相位声码器阶段操作于与该整个系统相同的取样频率上。然而,图8显示了只将零填补/过取样应用到确实有益且产生一提高的感知质量的该信号的那些部分的处理方式。这通过一切换判决来实现,该切换判决较佳地依赖于选择用于该后续处理的恰当信号路径的一瞬态位置检测。与图13显示的HBE比较,该瞬态位置检测134(自信号或比特流)、该切换器136及以该零填补器102-3应用的该零填补操作开始且以由该填补去除器118执行的该(可取舍)填补移除结束的右手边上的该信号路径已添加在图8说明的这些实施例中。
[0094] 在本发明的一个实施例中,该窗102被配置以产生形成一时间序列的音频样本的多个连续区块111,该时间序列包含至少一非填补区块133-2、141-2与一填补区块103、141-1形成的一第一对145-1以及一填补区块103、141-1及一连续非填补区块133-2、
141-2形成的一第二对145-2(见图12)。该第一对145-1及该第二对145-2在该频宽扩展实施方式的脉络中被进一步处理,直到他们相应的整数倍降低取样音频样本分别在该整数倍降低取样器120的这些输出147-1、147-2处被获得。这些已整数倍降低取样的音频样本
147-1、147-2随后馈入到该重迭相加器124,该重迭相加器124被配置以将该第一对145-1或该第二对145-2的该已整数倍降低取样音频样本147-1、147-2的重迭区块相加。
[0095] 可选择地,该整数倍降低取样器120还可位于该重迭相加器124之后,如以前相应所述。
[0096] 接着,对于该第一对145-1来说,分别在该非填补区块133-2、141-2的一第一样本151、155与该填补区块103、141-1的这些音频信号值的一第一样本153、157之间与图2的该时间距离b相对应的一时间距离b’由该重迭相加器124提供,使得在该重迭相加器124的该输出149-1处可得到处于该频宽扩展算法的该目标频率范围中的一信号。
[0097] 对于该第二对145-2来说,分别在该填补区块103、141-1的这些音频信号值的一第一样本153、157与该非填补区块133-2、141-2的一第一样本151、155之间的该时间距离b’由该重迭相加器124提供,使得在该重迭相加器124的该输出149-2处可得到处于该频宽扩展算法的该目标频率范围中的一信号。
[0098] 同样,在该处理链中该整数倍降低取样器120位于该重迭相加器124之前的情况下,如图2所示,应当考虑该整数倍降低取样可能对与时间距离b’的对应的一影响。
[0099] 应当指出的是,尽管本发明在区块表示实际或逻辑
硬件组件的方块图的该脉络中予以描述,但是本发明还可通过一计算机实施方法被实施。在后一种情况下,这些区块表示相应的方法步骤,其中,这些步骤代表相应的逻辑或实体硬件区块执行的功能。
[0100] 所描述的这些实施例只是为了说明本发明的这些原理。应当理解到,本文描述的的这些安排及细节的改变及变化对于熟于此技者将是明显的。因此,目的是只受所附
权利要求的范围限制而不受以本文中这些实施例的描述及说明方式表示的特定细节限制。视本发明方法的某些实施方式要求而定,这些发明方法可以以硬件或
软件形式实施。可利用与可程序化
计算机系统合作的一数字储存媒体,特定地其上储存有电可读
控制信号的一
硬盘、一DVD或一CD来执行该实施方式,使得这些发明方法可被执行。大体而言,因此本发明可作为具有储存在一机器可读载体上的
计算机程序码的一计算机程序产品来实施,当该计算机程序产品运行于一计算机上时,该程序代码被操作用于执行这些发明方法。换句话说,因此,这些发明方法为具有一程序代码的一计算机程序,当该计算机程序运行于一计算机上时该程序代码执行这些发明方法中的至少一个。该发明处理音频信号可储存在任何机器可读储存媒体上,诸如一数字储存媒体。
[0101] 该新处理的优势在于,在该申请中描述的这些上述实施例,即装置、方法或计算机程序,避免了不必要的昂贵、过于复杂的计算过程。其利用一瞬态位置检测,该瞬态位置检测识别包含例如偏离中心瞬态事件的时间区块且切换到先进处理,例如利用防护间隔的过取样处理,然而这只在那些在感知质量方面产生一提高的情况下进行。
[0102] 该表示的处理可用于以任何区块为基础的音频处理应用,例如,相位声码器或者围绕声音应用的参数学(2004年5月音频工程师协会第116次会议上Herre,J.;Faller,C.;Ertel,C.;Hilpert,J.; A.;Spenger,C 所 著 的“MP3 Surround:Efficient and Compatible Coding of Multi-Channel Audio”),其中时域循环卷积效应造成混迭且同时处理功能为一有限资源。
[0103] 最重要的申请为音频编码器,其通常实施于一手持式装置上且从而由一
电池供电而操作。