声音处理设备 和声音处理方法
技术领域
[0001] 本
发明涉及声音处理设备、声音处理方法及声音处理程序,更具体地说,涉及一种能够高准确度地抑制啸声的声音处理设备、声音处理方法及声音处理程序。 背景技术
[0002] 当由麦克
风收集的声音经
放大器放大然后从诸如扬声器的扩音系统输出时,所输出的声音通过空气传播,并被反馈给麦克风以形成闭环。取决于诸如音量或每个部件的
位置的条件,音频
信号的特定
频率的振幅逐渐增大,导致称为啸声的振荡。 [0003] 自动抑制啸声的方法是,通过频率分析来检测发生啸声的频率(以下称为啸声频率),并通过建立多个与啸声频率相对应的陷波
滤波器来减小啸声频率的增益(例如,参见日本未经审查的
专利申请公报2009-49921号)。
发明内容
[0004] 然而,由于使用
阈值来检测啸声频率,因此如果阈值低,则对啸声的响应快,但是有可能发生对啸声频率的检测错误,并且声音
质量可能下降。
[0005] 如果阈值高,则啸声频率的检测错误减少并且声音质量改善,但是因为对啸声的响应慢,所以在啸声发生之后才将其抑制。
[0006] 对于误检测的啸声频率或不再发生啸声的啸声频率,可以释放陷波滤波器以抑制声音质量的下降,但是为此目的的控制是困难的。
[0007] 如上所述,
现有技术的方法难以高准确度地抑制啸声。
[0008] 期望高准确度地抑制啸声。
[0009] 根据本发明的
实施例,提供了一种声音处理设备,包括:
功率谱运算装置,用于获得
音频信号的功率谱;包络分量去除装置,用于去除所述功 率谱的包络分量并生成表示所述功率谱的峰的信号特征;滤波器特征计算装置,用于通过使用所述信号特征来计算抑制所述信号特征的滤波器特征;以及抑制滤波器,用于通过使用所述滤波器特征对所述音频信号进行滤波。
[0010] 根据本发明实施例的声音处理方法和声音处理程序与根据本发明实施例的声音处理设备相对应。
[0011] 在本发明的实施例中,获得音频信号的功率谱,去除功率谱的包络分量,生成表示功率谱的峰的信号特征,利用信号特征来计算用于抑制该信号特征的滤波器特征,并利用滤波器特征对声音特性进行滤波。
[0012] 根据本发明的实施例,可以高准确度地抑制啸声。
附图说明
[0013] 图1是示出根据本发明实施例的声音处理设备的结构示例的
框图。 [0014] 图2是示出图1中的特性计算单元的详细结构示例的框图。
[0015] 图3A至图3C示出了图2中的特性计算单元中的信号。
[0016] 图4A至图4C示出了图2中的特性计算单元中的信号。
[0017] 图5是示出由图2中的特性计算单元进行的滤波器特征计算的
流程图。 [0018] 图6是示出图1中的特性计算单元的另一个详细结构示例的框图。 [0019] 图7A至图7C示出了图6中的特性计算单元中的信号。
[0020] 图8是示出由图6中的特性计算单元进行的滤波器特征计算的流程图。 [0021] 图9是示出计算机的实施例的结构示例的框图。
具体实施方式
[0022] <实施例>
[0023] [声音处理设备的实施例的结构示例]
[0024] 图1是示出根据本发明实施例的声音处理设备的结构示例的框图。 [0025] 图1中的声音处理设备10包括麦克风11、
信号处理单元12、放大器13和扬声器14;输入到麦克风11的声音通过抑制啸声而被放大,然后从扬声器14输出。 [0026] 具体来说,声音处理设备10的麦克风11收集环境声音,并将该声音的音频信号提供给信号处理单元12。
[0027] 信号处理单元12包括抑制滤波器21和特性计算单元22。抑制滤波器21使用从特性计算单元22提供的滤波器特征对从麦克风11提供的音频信号进行滤波,并将该音频信号提供给放大器13。
[0028] 特性计算单元22使用从麦克风11提供的音频信号来计算抑制滤波器21的滤波器特征,并将该滤波器特征提供给抑制滤波器21。这更新抑制滤波器21。将参照后面示出的图2对特性计算单元22的细节进行描述。
[0029] 放大器13对从抑制滤波器21提供的音频信号进行放大,并将该音频信号提供给扬声器14。扬声器14输出与从放大器13提供的音频信号相对应的声音。 [0030] [特性计算单元的详细结构示例]
[0031] 图2是示出图1中的特性计算单元22的详细结构示例的框图。
[0032] 图2中的特性计算单元22包括FFT(快速傅里叶变换)运算单元31、功率谱运算单元32、包络分量去除单元33以及滤波器特征计算单元34。特性计算单元22逐
帧地处理从麦克风11提供的音频信号。
[0033] FFT运算单元31通过对从麦克风11提供的作为时域信号的音频信号进行FFT运算将该音频信号转换为频域信号。FFT运算单元31将该频域信号提供给功率谱运算单元32。
[0034] 功率谱运算单元32计算从FFT运算单元31提供的频域信号的绝对平方值以获得功率谱。功率谱运算单元32将该功率谱提供给包络分量去除单元33。
[0035] 包络分量去除单元33从由功率谱运算单元32提供的功率谱中去除包络分量以生成表示该功率谱的峰的信号特征。包络分量去除单元33将该信号特征提供给滤波器特征计算单元34。
[0036] 滤波器特征计算单元34通过使用从包络分量去除单元33提供的信号特征来计算用于抑制该信号特征的滤波器特征。具体来说,滤波器特征计算单元34使用以下公式(1)至(3)中的任一个来计算滤波器特征。
[0037] I(f)=-α·p(f) ...(1)
[0038]
[0039]
[0040] 在公式(1)至(3)中,p(f)表示信号特征,I(f)表示滤波器特征,α是确定抑制滤波器21的增益的系数。
[0041] [对特性计算单元中的信号的说明]
[0042] 图3A至图4C示出了图2中的特性计算单元22中的信号。
[0043] 在图3A至图4C中,横轴表示频率(f),纵轴表示音频信号的电平(dB)。 [0044] 在图2中的特性计算单元22的包络分量去除单元33中,从在图3A中用实线指示的功率谱中去除在图3A中用虚线指示的包络分量以生成图3B中的信号特征。 [0045] 然后,滤波器特征计算单元34例如使用图3B中的信号特征来进行公式(1)的运算(α=1),以计算图3C中的滤波器特征。
[0047] 在该方法中,首先对在图4A中用实线指示的功率谱S(f)的对数(logS(f))进行IFFT(快速傅里叶逆变换),并将该功率谱转换成图4B中的倒频谱。
[0048] 接下来,在图4B中的倒频谱中,虚线框内的低阶分量(包络分量)被设定为0dB,而实线框内的高阶分量不变。然后,对所得到的倒频谱进行FFT运算。这生成作为信号特征的功率谱,从该功率谱中去除了图4C中的包络分量。
[0049] [对由特性计算单元进行的处理的说明]
[0050] 图5是示出由图2中的特性计算单元22进行的滤波器特征计算的流程图。对例如从麦克风11提供的音频信号逐帧地进行滤波器特征计算。
[0051] 在图5中的步骤S11中,FFT运算单元31通过对从麦克风11提供的作为时域信号的音频信号进行FFT运算将该音频信号转换成频域信号。 FFT运算单元31将该频域信号提供给功率谱运算单元32。
[0052] 在步骤S12中,功率谱运算单元32计算从FFT运算单元31提供的频域信号的绝对平方值以获得功率谱。功率谱运算单元32将该功率谱提供给包络分量去除单元33。 [0053] 在步骤S13中,包络分量去除单元33从由功率谱运算单元32提供的功率谱中去除包络分量以生成信号特征。包络分量去除单元33将该信号特征提供给滤波器特征计算单元34。
[0054] 在步骤S14中,滤波器特征计算单元34通过利用从包络分量去除单元33提供的信号特征进行公式(1)至(3)中的任一个来计算滤波器特征。然后,处理结束。 [0055] 如上所述,声音处理单元10获得音频信号的功率谱,通过去除功率谱的包络分量来生成信号特征,通过使用信号特征来计算用于抑制和平坦化信号特征的滤波器特征,并使用滤波器特征对音频信号进行滤波。
[0056] 因此,可以在发生啸声之前响应于发生的征兆逐渐地防止啸声发生。另外,利用音频信号的信号特征自适应地更新抑制滤波器21,因此可以抑制必须抑制的频率的音频信号的增益。如上所述,可以高准确度地抑制啸声。
[0057] [特性计算单元的另一个详细结构示例]
[0058] 图6是示出图1中的特性计算单元22的另一个详细结构示例的框图。 [0059] 在图6中的结构中,与图2中相同的部件具有相同的附图标记。适当省略对其的赘述。
[0060] 与图2中的结构不同的是,图6中的特性计算单元22具有
音调检测单元51、谐波结构去除单元52和时间平均化单元53。图6中的特性计算单元22计算滤波器特征,用于对从中去除了频率是声音音调的正整数倍的分量的信号特征进行时间平均化,并用于抑制所得到的信号特征。
[0061] 音调检测单元51对从功率谱运算单元32输出的功率谱的对数进行IFFT运算,以将该功率谱转换成倒频谱。音调检测单元51在与倒频谱的声音音调可以存在的频率相对应的范围(例如,3.3ms至15ms)中检测最高峰,并采用该峰的频率作为声音音调的候选。音调检测单元51获得音调的候选与处理对象帧的零阶倒频谱之间的比率,并且如果该比率等于或大于阈值,则采用音调的候选作为音调。音调检测单元51将该音调提 供给谐波结构去除单元52。
[0062] 谐波结构去除单元52确定由包络分量去除单元33输出的信号特征是否具有这样的谐波结构,其中在是从音调检测单元51提供的音调的正整数倍的频率处存在峰。 [0063] 如果谐波结构去除单元52检测到信号特征具有该谐波结构,则谐波结构去除单元52将频率是信号特征音调的正整数倍的信号特征的分量确定为声音分量,并将该分量设定为0dB。即,信号特征的音调的分量和该音调的更高的谐波分量被设定为0dB。然后,谐波结构去除单元52将所得到的信号特征提供给时间平均化单元53。要被谐波结构去除单元52设定为0dB的分量除了音调的更高的谐波分量之外还可以包括边带频率的分量。 [0064] 时间平均化单元53保持从谐波结构去除单元52提供的信号特征。时间平均化单元53使用从谐波结构去除单元52提供的处理对象帧的信号特征以及先前帧的信号特征对信号特征进行时间平均化。
[0065] 例如,时间平均化单元53使用以下公式(4)连同处理对象帧的信号特征In(f)和处理对象帧的前一帧的信号特征In-1(f)一起对信号特征In(f)进行时间平均化。在公式(4)中,β表示系数。
[0066] In(f)=In-1(f)×β+In(f)×(1-β) ...(4)
[0067] 0≤β≤1
[0068] 根据公式(4),时间平均化之后的处理对象帧的信号特征In(f)由处理对象帧的信号特征In(f)与处理对象帧的前一帧的信号特征In-1(f)的加权和来表示。 [0069] 公式(4)用于低阶IIR型时间平均化,但是时间平均化单元53除了低阶IIR型时间平均化之外还可以进行高阶IIR或FIR型时间平均化或非线性时间平均化。 [0070] 时间平均化单元53将经时间平均化的信号特征提供给滤波器特征计算单元34。其计算滤波器特征,用于抑制经时间平均化的信号特征。
[0071] [对特性计算单元中的信号的说明]
[0072] 图7A至图7C示出了图6中的特性计算单元22中的信号。
[0073] 在图6中的特性计算单元22的音调检测单元51中,对功率谱的对数进行IFFT运算,以将该功率谱转换成图7A中的倒频谱。在倒频谱的声 音音调可以存在的
频率范围中检测最高峰P,在图7A中该范围由实线框指示,峰P的频率fP被用作声音音调的候选。然后,获得声音音调的候选与零阶倒频谱之间的比率。在图7A至图7C的示例中,该比率等于或大于阈值,从而作为音调的候选的频率fP被用作声音音调。
[0074] 谐波结构去除单元52检测图7B中的信号特征中频率是声音音调的正整数倍的分量fP、2fP、3fP、4fP......。当分量具有如图7B中所示的峰时,检测到信号特征具有音调谐波结构,并且所述分量被设定为0dB。结果,获得图7C中所示的信号特征。 [0075] [对特性计算单元中的处理的说明]
[0076] 图8是示出由图6中的特性计算单元22进行的滤波器特征计算的流程图。对例如从麦克风11提供的音频信号逐帧地进行该滤波器特征计算。
[0077] 在图8中的步骤S31中,FFT运算单元31通过对从麦克风11提供的作为时域信号的音频信号进行FFT运算将该音频信号转换成频域信号。然后,FFT运算单元31将该频域信号提供给功率谱运算单元32。
[0078] 在步骤S32中,功率谱运算单元32计算从FFT运算单元31提供的频域信号的绝对平方值以获得功率谱。功率谱运算单元32将该功率谱提供给包络分量去除单元33和音调检测单元51。
[0079] 在步骤S33中,音调检测单元51使用从功率谱运算单元32提供的功率谱来检测音调的候选。具体来说,音调检测单元51对功率谱的对数进行IFFT运算以将该功率谱转换成倒频谱。音调检测单元51在与倒频谱的声音音调可以存在的频率相对应的范围中检测最高峰,并采用峰的频率作为声音音调的候选。
[0080] 在步骤S34中,包络分量去除单元33从由功率谱运算单元32提供的功率谱中去除包络分量,以生成信号特征。包络分量去除单元33将该信号特征提供给滤波器特征计算单元34。
[0081] 在步骤S35中,音调检测单元51确定音调的候选与处理对象帧的零阶倒频谱之间的比率是否等于或大于阈值。在步骤S35中如果该比率等于或大于阈值,则音调检测单元51采用该候选作为音调并将其提供给谐波结构去除单元52。
[0082] 在步骤S36中,谐波结构去除单元52确定由包络分量去除单元33提供的信号特征是否具有这样的谐波结构,其中在是从音调检测单元51提供的音调的正整数倍的频率处存在峰。
[0083] 在步骤S36中如果确定信号特征具有音调的谐波结构,则在步骤S37中谐波结构去除单元52将信号特征中频率是音调的正整数倍的分量设定为0dB。然后,谐波结构去除单元52将所得到的信号特征提供给时间平均化单元53,并且处理进行到步骤S38。 [0084] 如果在步骤S35中确定音调的候选与处理对象帧的零阶倒频谱之间的比率小于阈值,或者如果在步骤S36中信号特征不具有音调的谐波结构,则谐波结构去除单元52将由包络分量去除单元33生成的信号特征照原样提供给时间平均化单元53。处理进行到步骤S38。
[0085] 在步骤S38中,时间平均化单元53使用以上公式(4)连同处理对象帧的信号特征和处理对象帧的前一帧的信号特征一起对从谐波结构去除单元52提供的处理对象帧的信号特征进行时间平均化。
[0086] 在步骤S39中,滤波器特征计算单元34使用从时间平均化单元53提供的经时间平均化的特性信号来计算滤波器特征,并将结果提供给抑制滤波器21(图1)。然后,处理结束。
[0087] 如上所述,在具有图6中的特性计算单元22的声音处理单元10中,抑制滤波器21使用与经时间平均化的信号特征相对应的滤波器特征来进行滤波,因此急剧地改变的其它信号及音频信号未被抑制,并且改善了从扬声器14输出的声音的质量。 [0088] 另外,具有图6中的特性计算单元22的声音处理单元10检测声音音调并通过使用其中频率是音调的正整数倍的分量被设定为0dB的信号特征来计算滤波器特征,因此在抑制滤波器21中,声音音调的谐波结构未丢失。结果,改善了从扬声器14输出的声音的质量。
[0089] [对根据本发明实施例的计算机的说明]
[0090] 可以通过
硬件或
软件来实现上述一系列处理。当通过软件来实现这一系列处理时,构成软件的程序安装在通用计算机等中。
[0091] 图9示出了其中安装有用于进行这一系列处理的程序的计算机的实施例的结构示例。
[0092] 程序可以预先存储在作为计算机中的内置存储介质的存储单元208或ROM(只读
存储器)202中。
[0093] 程序还可以存储(记录)在可移动介质211上。这种类型的可移动介质211可以被提供为所谓的套装软件。可移动介质211的示例是
软盘、 CD-ROM(只读光盘存储器)、MO(磁光)盘、DVD(数字多用途盘)、磁盘和
半导体存储器。
[0094] 可以通过
驱动器210从可移动介质211将程序安装在计算机中,或者可以通过通信网或广播网将程序下载到计算机来将程序安装在存储单元208中。即,可以将程序通过用于数字卫星广播的
人造卫星从下载
站点以无线方式传送到计算机,或者通过诸如LAN(局域网)或因特网的网络传送到计算机。
[0095] 计算机包括CPU(中央处理单元)201,输入/输出
接口205通过总线204连接到CPU 201。
[0096] 当用户通过操作输入单元206经由输入/输出接口205输入指令时,CPU 201根据该指令执行存储在ROM 202中的程序。可替选的是,CPU201通过将程序加载到RAM(
随机存取存储器)203来执行存储在存储单元208中的程序。
[0097] 这使得CPU 201执行根据以上流程图的处理或者由以上框图中的结构进行的处理。然后,如果需要的话,CPU 201通过输入/输出接口205将处理结果输出到输出单元207,从通信单元209发送处理结果,或者将处理结果存储在存储单元208中。 [0098] 输入单元206包括
键盘、
鼠标和麦克风。输出单元207包括LCD(
液晶显示器)和扬声器。
[0099] 在本
说明书中,计算机在根据程序的处理过程中不必在时间顺序上遵循流程图的顺序。即,计算机根据程序进行的处理包括并行地或单独地进行的处理(例如,并行处理或目标处理)。
[0100] 程序可以通过一个计算机(处理器)来处理,或者通过多个计算机分布式地处理。程序可以被传送到远程计算机来执行。
[0101] 本申请包含与2009年10月15日提交日本专利局的日本优先权专利申请JP2009-238366中所公开的主题相关的主题,通过引用将其全部内容合并于此。 [0102] 本领域技术人员应当理解,根据设计要求及其它因素可以想到各种
修改、组合、子组合和变更,只要它们在所附
权利要求书或其等同物的范围内即可。