检测音频信号中无声的方法和接收压缩音频信号的接收机 |
|||||||
申请号 | CN02801544.4 | 申请日 | 2002-05-10 | 公开(公告)号 | CN1244900C | 公开(公告)日 | 2006-03-08 |
申请人 | 皇家菲利浦电子有限公司; | 发明人 | A·斯特拉; J·A·D·尼斯瓦德巴; M·巴比里; F·斯尼德尔; | ||||
摘要 | 本 发明 涉及一种检测音频 信号 中无声的方法,在局部信号功率低于给定固定或相关 阈值 功率电平、局部信号功率低于给定固定或相关阈值的持续时间在第一范围内、并且信号功率下降/上升速率和局部功率偏移中的至少一个参数在各自的另一范围内,检测无声。本发明还涉及在接收机(1)中利用这样的无声检测。 | ||||||
权利要求 | 1.一种检测音频信号中的无声的方法,所述方法包括: |
||||||
说明书全文 | 技术领域本发明涉及检测音频信号中的无声。本发明还涉及在广告检测 中利用这种无声检测。 背景技术EP 1 006 685 A2公开了一种用于处理电视信号以及检测电视信 号中广告片的出现的方法和装置。广告候选段检测器根据寂静段和 场景变化点来检测广告候选段。广告特征量检测器判断该广告候选 段是否具有广告片的各种特征,并根据判断结果给广告特征值增加 一个预定值。广告特征量检测器将最终广告特征值与预定阈值进行 比较,并根据比较结果判断广告候选段是否是广告段。寂静段检测 器将数字化音频信号的电平与阈值进行比较以检测寂静段,并将比 较结果输出到场景变化检测器。另外还参考EP 1 087 557 A2。 发明内容本发明的一个目的是提供一种有利的无声检测。为此,本发明 提供用于检测无声的方法、无声检测器和接收机。 根据本发明的第一方面,在所述局部信号功率电平低于所述给 定阈值功率电平、所述持续时间在第一范围之内、并且所述信号功 率下降速率和所述局部信号功率偏移中的所述至少一个参数在各自 的另一范围内,检测无声。在局部信号功率电平下降到给定固定或 相关阈值功率电平以下的时刻之前或在该时刻附近,确定信号功率 下降速率,并且在局部信号功率电平低于给定固定或相关阈值功率 电平的持续时间中的至少部分时间期间,确定局部信号功率偏移。 线性偏移和/或下降速率被用于过滤部分无声,这种无声可以是能感 知的但与广告检测无关。除了下降速率或作为对下降速率的补充, 可以利用上升速率,在局部信号功率电平上升到高于给定固定或相 关阈值功率电平的时刻附近确定上升功率。 在优选实施例中,无声开始时间、无声持续时间和局部信号功 率电平被用于后续统计模型中,以确定连续检测到的无声之间的内 容是否为广告片。这些参数可在无声检测中得到,并因此能够有利 地重用于确定连续检测到无声之间的内容是否真的是广告片。 当音频信号包括量化样本块、即具有一组比例因子的给定块时, 无声检测最好从压缩音频信号提取这组比例因子,并且根据比例因 子的组合估计给定块中的信号功率。给定块可以是音频帧或音频帧 的一部分。能够容易地从压缩音频中提取比例因子。本发明的这个 方面是基于这样一种理解:比例因子表示与其有关的样本的最大可 能值。因此,比例因子的组合,如平方比例因子的和给出信号功率 的粗略估计,这只需有限的计算负荷。这种粗略估计对于某些应用 是完全足够的,比如例如广告检测器中的无声检测。更有利的是只 利用这组比例因子的子集。通过只利用整个比例因子组的子集,进 一步减少了计算负荷。这可能导致更低的精确度,但与如用于广告 片的无声检测等的一些应用关系不大。可以通过省略时间方向和/或 频率方向中的比例因子执行子集的形成。例如,子集可以只包括压 缩音频信号中可得到的多个窄带子信号的子集,子集最好包括若干 较低频率的子信号的比例因子。在压缩音频信号是立体声或多声道 信号的情况下,可以只利用可得到声道的子集。 注意,WO 96/3271 A1公开了一种压缩和解压缩音频信号以用于 数字传输的系统,其中辅助数据可以与音频数据复用并编码并以可 对其进行解码的这样一种方式传送。这份文档在第159页公开了最 小比例因子值的计算从而检查另一频道中是否出现音频。 本发明还涉及一种用于传送节目的方法和装置,这种节目至少 包括音频信号,其中对音频信号中具有相对低的信号功率电平的时 间间隔进行检测,并且其中在所述时间间隔中引入附加无声,其中 附加无声比所述时间间隔短,并且在所述时间间隔期间,附加无声 的信号功率电平低于音频信号的信号功率电平。通过在低功率时间 间隔中提供附加无声,传送了若干利用无声检测控制广告检测器的 标记。在低功率时间间隔中提供附加无声的优点在于,与在高信号 功率时间间隔中增加无声相比,这些附加无声的能听度低。无声的 功率偏移电平以及功率下降/上升速率最好在对应于接收机侧的无声 检测器的范围内。本发明还提供一种信号和一种存储媒体。 本发明提供了一种检测音频信号中的无声的方法,所述方法包 括: 确定所述音频信号中的局部信号功率电平; 确定所述局部信号功率电平低于给定阈值功率电平的持续时 间; 确定以下参数中的至少一个: -在所述局部信号功率电平下降到所述给定阈值功率电平以下 的时刻之前或在该时刻附近的信号功率下降速率,以及 -在所述局部信号功率电平低于所述给定阈值功率电平的所述 持续时间中的至少部分时间期间的局部信号功率偏移, 所述方法还包括在所述局部信号功率电平低于所述给定阈值功 率电平、所述持续时间在第一范围之内、并且所述信号功率下降速 率和所述局部信号功率偏移中的所述至少一个参数在各自的另一范 围内,检测无声。 本发明还提供了一种用于接收压缩音频信号的接收机,所述接 收机包括: 输入端,用于获得压缩音频信号, 如上所述的无声检测器,用于检测所述压缩音频信号中的无声, 以及 用于影响所述压缩音频信号的装置,其中所述影响至少部分地 取决于对所述无声的所述检测。 附图说明 将参考附图对本发明的这些和其它方面进行说明并使本发明的 这些和其它方面变得清楚。 附图中: 图1示意根据本发明的实施例的接收机; 图2示意例示音频帧,它包括32个子带,将每个子带细分为3 块,每块包括12个量化样本并具有比例因子; 图3示意图2的例示音频帧,其中为各个子带选择最大比例因 子,用灰色加亮了可能的选择; 图4示意一个例示图,其中圆圈表示所检测无声的局部信号功 率,而十字表示这些局部信号功率的平均值;以及 图5示意与图4有关的例示似然函数。 附图只示意有助于理解本发明的实施例的那些部分。 具体实施方式图1示意了根据本发明的一个实施例的接收机1,用于接收压缩 音频信号[A]。接收机1包括输入10,用于获得压缩音频信号[A]。 输入10可以是天线、网络连接、读装置等。接收机1还包括无声检 测器11,用于检测压缩音频信号中的无声,以及影响块12,用于根 据无声检测来影响音频信号。块12可以是如解码器,用于对压缩音 频信号进行解码,其中所述解码根据所检测的无声。块12也可以是 跳越块,用于根据所检测的无声跳过部分压缩音频。可以增强无声 检测器11从而形成广告检测器。在解码过程中可以跳过检测到的广 告片。可以将受影响的音频信号A输出到输出装置13,其中该信号 A是解码的或仍是压缩的。输出13可以是网络连接、再现装置或记 录装置。压缩音频信号[A]可以包括在节目流中,其中节目流还包括 视频信号。在这种情况下,可以根据压缩音频信号中检测到的无声 在块12中影响至少部分节目信号。有利的应用是一种只存储非广告 内容的存储装置。 根据本发明的实施例的广告检测器自动检测视听流中的广告 决。这允许在任何一种诸如关键帧提取、编辑或回放的处理期间, 跳过广告片。对于多个音频特征,在滑动窗口上测量局部统计并将 其与广告片的统计模型进行比较。通过这种比较,得到归一化似然 函数,此函数表明音频信号如何在局部与广告片类似。可以适当地 触发此似然函数用于广告检测。选择统计窗口以使其详细描述局部 分析并且坚固的抵抗局部不规则性和波动性,这些并不影响检测。 该算法适合于某些情形,这些情形可以沿单个流变化或在两个流之 间变化。该算法独立于视频。尽管如此,仍然可以包括视频分析以 增强或扩展这种分类。该算法可以被用于多种存储系统。 许多音频编码器(如MPEG-1层1/2/3、MPEG-2层1/2/3、MPEG-2 AAC、MPEG-4 AAC、AC-3)是频域编码器。它们将源频谱分成多 个窄带子信号并对各个频率分量或样本分别进行量化。根据比例因 子并根据位分配对频率分量或样本进行量化。这些比例因子可以被 视作频率分量或样本的最大值的指示符。 在AC-3中,频率分量被表示为:尾数.2(-指数)表示。这里指数作 为各个尾数的比例因子,等于2(-指数)。 在MPEG-1层2中,窄带子信号被分为具有12个量化样本的若 干组,其中每组具有相应的比例因子。这个比例因子对应于与其相 关的样本的最大值。 检测算法最好利用比例因子的子集。在全部窄带子信号或其子 集中,通过计算比例因子的平方来计算信号功率的上限。 现在更详细地描述利用MPEG音频压缩的实施例。在MPEG层 2中,对应于48kHz、44.1kHz或32kHz的采样率,分别在24毫秒、 26.1毫秒或36毫秒的时间间隔划分音频信号。在每个这种时间间隔 中,将信号编码编码为一帧。参考图1,每个帧间隔被分为三部分并 且信号被分解为32个子带分量。对于各个子带分量和帧的各个三分 之一部分(图1中的一个矩形),根据比例因子并根据适当选择的 若干比特来对12个样本进行量化。比例因子给出了12个样本的绝 对值的上限估计。这种估计可能不是非常精确,但是广告检测不需 要过分精确。可以从各个音频帧提取比例因子,其计算负荷可忽略 不计,因为它们可以在帧中直接以伪对数指数得到。只需要对有限 的一些帧信头进行解码。不需要解压缩。 在立体声模式中,每个声道自身具有每帧96个比例因子。检测 算法只选择左声道或右声道的各个子带中的最大比例因子(见图2): 缓冲32个值并将其转换为线性(不是对数的)格式。例如,对于48kHz 的音频采样率,根据标准只利用子带0...26:它给出每24毫秒27个 样本,也就是1125样本/秒,这是广告检测器中非常普通的输入数据 速率。计算缓冲比例因子的平方,从而获得子带信号功率的上限。 接下来将它们用作: (1)它们的和给出总短时功率的上限; (2)它们可被用于计算短时带宽估计; 下表给出了用于MPEG-1层2中的比例因子的一些伪对数指数 (见ISO/IEC 11172-3:1993中的表B.1): 指数 比例因子 0 2.0000 1 1.5874 2 1.2599 3 1.0000 4 0.7937 5 0.6299 下面给出了音频帧j的短时功率估计: 帧_功率j≈∑(比例因子)j ,i 2≈∑100.6-0.2·指数 或者,有可能利用查找表寻找比例因子。在给定时刻对子带数 量执行求和。当利用子带的子集时,必须对子带总数或根据应用对 所用子带数量执行求和。 无声检测基于以下方面的嵌套阈值: 1)局部信号功率电平,通过利用如以上所示的帧_功率 2)无声持续时间; 以及至少一个以下参数: 3)无声期间的局部信号功率线性偏移;以及 4)无声开始前的局部信号功率下降速率;以及 5)无声结束时的局部信号功率上升速率; 因为信号功率特性极大地取决于无声检测器工作的环境,所以 无声检测器最好是自适应的。因此,为了使其是自适应的,将局部 功率电平相关参数(即1)、3)和/或4))与它们在时间上的平均 值进行比较。局部信号功率的典型阈值是0.01,即局部信号功率应 该小于信号功率的时间平均值的百分之一。通过利用长度为w帧的 自适应窗口来计算时间平均。以下是实际方案: 平均_帧_功率-1=0 其中j为帧指数。 无声持续时间是局部信号电平低于给定固定或自适应阈值功率 电平的持续时间。线性偏移是至少部分无声持续时间上(帧功率减 去平均帧功率)的总和。线性偏移和下降/上升速率被用于过滤部分 无声,这种无声可以是能感知的但与广告检测无关。最好利用如上 所述的比例因子来确定例如每音频帧或部分音频帧的局部信号功率 电平。 广告块中广告片之间的无声持续时间间断的实际范围是3/25秒 到20/25秒。 对无声开始时间、无声持续时间和无声局部信号功率电平的值 进行缓冲,用于下述统计计算。广告片的特征在于以下特征的局部 统计模型: 1)两个连续的所检测无声之间的时间间距; 2)所检测无声的局部信号功率电平(绝对的和/或相对的) 3)无声持续时间;以及 4)音频信号的局部带宽; 可以根据以下方式中的比例因子计算音频帧j的局部带宽: 每个特征得到0.5归一的似然函数,其值在0到1之间。它表示 这种特征的局部统计与广告片局部统计的类似程度。然后,将不同 的似然函数与不同的权组合,以获得全局似然函数,仍是0.5归一的, 这种全局似然函数得出某个时间的所有信息。计算时间轴上每个点 的全局似然函数,它被缓冲为无声开始时间。值0.5主要表示“总 不定度”或“0.5的概率在广告块内”。可以以不同的方式利用似然 函数。它可以被适当地触发以检测广告边界。可以由进一步分析和 分类的算法利用这种似然函数(用作广告片和非广告片之间的归一 化软分类),还可选地使用音频特征。可以从统计上分析不同水平 的视频特征(比如单亮度、单色度帧检测、场景变化检测)以及应 用同一似然方法或其它方法的音频特征。以及根据上述音频分析开 发并测试了具有回填(refilling)的触发广告检测。0.5归一似然函数 L(t)可被用于判定所检测的无声是否属于广告块。可以借助于函数 Q(L(t))完成,其中Q(L(t))被定义为如下: Q(L(t))=1如果L(t)>0.5 Q(L(t))=0如果L(t)<=0.5, 其中值0和1分别表示所检测的无声属于非广告块和广告块。 在实际实施例中,只有当广告片序列持续至少60秒时才检测得 到。如果仅在小于45秒的短间隔似然函数低于0.5,则Q(t)被设置1。 这个过程被称为“内部回填”。内部回填消除了零星的内部遗漏检 测。“外部回填”应用在广告片的开始和结束时。例如如果: ti,ti+1,...ti+N,...为所检测无声开始的瞬间序列并且 L(ti)=0.2 L(ti+1)=0.4 L(ti+2)=0.6 L(ti)>0.5对于各个j=i+3,...,i+N L(ti)<0.5对于j>i+N并且如果 Ti+2-ti+1<45.0秒 Ti+N+1-ti+N<45.0秒 则 Q(L(ti))=0 Q(L(ti+1))=1 Q(L(ti+2))=1 Q(L(ti+N+1))=1 Q(L(tj))=0对于j>i+N+1 外部回填对于避免系统遗漏第一和最后一点是有效的。这个事 实与开窗的具体情况有关。外部和内部回填可被视为特殊的非线性 滤波、上部驱动。可以利用广告块的通用统计模型。对一天中不同 时间和/或不同种类的节目(肥皂剧、谈话节目、足球比赛等)和/或 不同频道采用不同广告块模型,有可能精炼统计细节。尽管这对于 获得满意的性能不是必需的,但它当然可以改进性能。这是目标系 统的复杂性与其性能之间的折衷选择。对于一个信道,检测的自适 应性最好随时间的情况变化。此外最好具有频道切换的自适应性。 具体地说,单个频道的局部最小噪声电平可以随时间而变化,并且 从一个频道到另一频道可以发生明显地变化:这对于无声检测是关 键的。除此之外,广告块统计模式中的自适应性不是关键的,但是 有用的。系统可以实现为对局部最小噪声电平的完全自训练(自适 应)。唯一的约束是每当转换频道时对算法进行复位。这是因为在 初始化时期自适应性快而以后自适应性较慢,这时适应性和精确度 之间的折衷选择。如果使该算法在任何时候都是快速自适应的,那 么检测的精确度将降低,这是因为在广告块内部,相对快的自适应 将降低精确度。在实际的实施例中,切换自适应性只在开始的几分 钟(即任何相继的切换都复位)有效,而循单个频道的自适应性则 一直保持。通过不对称方案确保自适应性的稳定性。当最小噪声电 平降低时,自适应性比其增加时快。这意味着例如在检测到的无声 其局部功率能量低于之前检测到的无声局部功率能量时,无声检测 的局部功率能量阈值下降地也相对快。可以出现两种错误:遗漏广 告检测或者错误广告检测。这两种错误都相当低并且限于广告块的 开始或结束部分。总之该算法是灵活的:判定参数可以改变两种出 错率之间的折衷,取决于哪种更相关。例如,如果广告块检测是自 动关键帧提取的预处理,那么低的遗漏检测率更为重要。对于简单 的重放来说,低错误检测更为相关。参考所选特征(但可以加上其 它的),不进行子带分析就有可能分别估计局部功率能量和带宽。 低采样率时在两分钟(可以选择其它值)对称滑动窗口上需要带宽 值。因此,可以例如通过对连续段间隔FFT的少数点进行平均来估 计带宽值。有可能逐项或全局地实现一个或多个似然函数不同形式 的归一化和组合。实际实现基于逐项或全局地组合乘积并且再归一 化。该乘积基本上是从布尔集{0、1}扩展到连续间隔[0、1]的布尔 “与”。它确保良好的选择性。概括地说,某个时刻会同时软性地 加上了不同条件。这些条件不需要完全地实现,但必需实现它们的 大部分。相反,加法组合应是布尔“或”的一种扩展,它并不确保 足够的选择性。进一步的选择性和坚固性由对持续时间阈值似然性 的硬判定确保。似然性-噪声容限还由内部回填确保。 以下例示中考虑了36分钟的记录。该记录从电源的最后部分开 始。秒[646,866]包括广告片。在秒866开始TV演出。其它广告片 在间隔[1409,1735]秒。图4用圆圈画出在各个所检测无声期间计算 的局部信号功率。十字表示这些值的向后平均。显然,广告无声(间 隔[646,866]和[1409,1735]中)主要是较低功率的剪辑无声。可以 约略地注意到,无声在广告片中的不同分布。例如,它们之中的大 部分相距10-30秒。如图所示的那些统计详细内容被用于似然函数 估计中。图5画出所得到的似然函数。填充触发检测到[648,866]和 [1408,1735]。 可能的改动 1)可能缓冲更大部分的比例因子。也可能对它们作二次取样。 当前从96个左声道比例因子中选择32个被证明是有效的。 2)可能选择不同的音频特征组。当然在引入其它特征之前仔细 的调查研究是必需的。 3)如上所述,可能实现一个或几个似然函数不同形式的归一化 和组合。当前实现基于乘积组合并且再归一化。该乘积主要是从布 尔集{0,1}扩展到连续间隔[0,1]的布尔“与”。它确保了良好的选 择性。半和是布尔“或”的一种扩展,但它并不确保足够的选择性。 4)能够修改触发全局似然函数并回填的选择,例如如果利用了 不同的开窗形式和/或不同的音频特征。 5)也可以通过直接处理比例因子而获得特定音频序列的识别, 比如许多广播电台在广告块的开始和/或结束时有规律地放置的那 些。 在发射机侧,有可能通过使剪辑无声更好的被检测的方式,例 如通过降低它们的信号功率、通过修改无声持续时间、通过提高信 号功率下降速率、和/或通过降低无声期间的功率偏移,来调整该剪 辑无声,从而帮助似然函数。相反,也有可能通过增加它们的信号 功率,例如通过引入噪声、通过修改无声持续时间、通过降低信号 功率下降速率和/或通过提高无声期间的功率偏移,从而降低剪辑无 声的可检测性。另外,还有可能在信号中引入假剪辑无声。在实际 实施例中,具有与剪辑无声类似的低功率的0.15秒的假剪辑无声和 30秒的间距将可能破坏广告块检测。最好在已存在诸如语音无声的 无声中插入假剪辑无声。在那种情况下,一般用户很难注意到它们。 算法检测视听素材中的广告块并标记其边界。接下来,在任何 类型的处理,比如浏览、自动片尾创建、编辑或简单重放期间,能 够跳过广告决。这种功能能够被集成到多种类型的存储系统中,并 具有非常低的附加成本。能够在数据采集期间实时地或离线地将此 功能应用到存储素材中。 应该注意,上述实施例用于说明而非限制本发明,本领域的技 术人员将能够设计出许多备选实施例,而不背离所附权利要求的范 围。在权利要求书中,任何放置于括弧中的标号都不应被理解为限 制该权利要求。单词“包含”不排除权利要求中所列的那些以外的 部件或步骤的存在。本发明可以借助于包含一些分立部件的硬件、 以及一个合适程序设计的计算机来实现。在装置权利要求中列举了 一些装置,这些装置中的一些可以用同一个硬件实施。起码的事实 是在相互不同的从属权利要求中叙述的某些措施并不表示不能有利 地使用这些措施的组合。 |