首页 / 专利库 / 物理 / 频率 / 计算语音基音频率的方法及设备

计算语音基音频率的方法及设备

阅读:965发布:2021-06-15

专利汇可以提供计算语音基音频率的方法及设备专利检索,专利查询,专利分析的服务。并且本 发明 涉及 信号 处理领域,公开了一种计算语音基音 频率 的方法及设备,能够更为准确地估计基音频率。本发明中,在计算基音频率之前先对所用的频域信号进行重构,生成一个定义域连续的重构函数,该函数在各频域峰值附近的定义域中按相应的频域信号进行曲线拟合,在其它的定义域中对相应的频域信号进行有效抑制。在基音搜索时综合考虑候选基音频率及其多个倍频。,下面是计算语音基音频率的方法及设备专利的具体信息内容。

1.一种计算语音基音频率的方法,其特征在于,包括以下步骤:
将时域的语音信号变换为离散的频域信号Xi,其中i=1,2,...,N;
在|Xi|中找出各作为局部最大值的峰值Mj,其中j=1,2,...,L,L为峰值的数目,||表示取绝对值;
在所述离散的频域信号所涉及的定义域内,构造L个不重叠的区域Zj,每个Zj的大小是预定的,每个Zj覆盖一个Dj,其中Dj是Mj在定义域所对应的值;
以每个Zj为定义域分别构造连续函数Sj(ω),ω∈Zj,满足|Sj(ωi)-|Xi||<C1,其中ωi是Xi在定义域所对应的值,C1是一个正的常数;
在各Zj没有覆盖的定义域中,构造函数S0(ω), 且 其中Fs为采样率,满足S0(ωi)<|Xi|;
将由各Sj(ω)和S0(ω)组合成的S(ω)作为频谱计算基音频率。
2.根据权利要求1所述的计算语音基音频率的方法,其特征在于,所述将S(ω)作为频谱计算基音频率的步骤,通过以下子步骤实现:
在基音的可能存在范围进行搜索,搜索的准则是找到满足如下式子的频率:
其中,N(ω)是以ω为基音频率的谐波个数,ωp即为基音频率的计算结果。
3.根据权利要求2所述的计算语音基音频率的方法,其特征在于,在将时域的语音信号变换为离散的频域信号的步骤中,采用以下变换方式之一:
快速傅立叶变换、离散余弦变换、改进型离散余弦变换。
4.根据权利要求3所述的计算语音基音频率的方法,其特征在于,
所述在|Xi|中找出各作为局部最大值的峰值Mj的步骤包括以下子步骤:
计算Yi=|Xi|;
搜索所有满足YI>max(Yi+1,Yi-1)的Yi作为峰值Mj。
5.根据权利要求4所述的计算语音基音频率的方法,其特征在于,
在所述构造连续函数Sj(ω)的步骤中,采用以下方式之一实现Sj(ω)的构造:
用峰值对应的频域信号绝对值以及其前后两个频域信号绝对值进行二项式插值;或拟合成分段直线;或用三次多项式来拟合。
6.根据权利要求5所述的计算语音基音频率的方法,其特征在于,
所述S0(ω)=0。
7.一种计算语音基音频率的设备,其特征在于,包括:
变换单元,用于将时域的语音信号变换为离散的频域信号Xi,其中i=1,2,...,N;
峰值计算单元,用于在|Xi|中找出各作为局部最大值的峰值Mj,其中j=1,2,...,L,L为峰值的数目,||表示取绝对值;
重构单元,用于在所述离散的频域信号所涉及的定义域内,构造L个不重叠的区域Zj,每个Zj的大小是预定的,每个Zj覆盖一个Dj,其中Dj是Mj在定义域所对应的值;以每个Zj为定义域分别构造连续函数Sj(ω),ω∈Zj,满足|Sj(ωi)-|Xi||<C1,其中ωi是Xi在定义域所对应的值,C1是一个正的常数;在各Zj没有覆盖的定义域中,构造函数S0(ω),且 其中Fs为采样率,满足S0(ωi)<|Xi|;
基音计算单元,用于将由各Sj(ω)和S0(ω)组合成的S(ω)作为频谱计算基音频率。
8.根据权利要求7所述的计算语音基音频率的设备,其特征在于,
所述基音计算单元通过以下方式计算基音频率:
在基音的可能存在范围进行搜索,搜索的准则是找到满足如下式子的频率:
其中,N(ω)是以ω为基音频率的谐波个数,ωp即为基音频率的计算结果。
9.根据权利要求8所述的计算语音基音频率的设备,其特征在于,
所述变换单元采用以下变换方式之一实现将时域的语音信号变换为离散的频域信号:
快速傅立叶变换、离散余弦变换、改进型离散余弦变换。
10.根据权利要求9所述的计算语音基音频率的设备,其特征在于,
所述重构单元采用以下方式之一实现Sj(ω)的构造:
用峰值对应的频域信号绝对值以及其前后两个频域信号绝对值进行二项式插值;或拟合成分段直线;或用三次多项式来拟合。

说明书全文

计算语音基音频率的方法及设备

技术领域

[0001] 本发明涉及语音信号处理领域,特别涉及计算语音基音频率的技术。

背景技术

[0002] 随着网络和多媒体技术的快速发展,语音处理系统已经普及到广播、电视、通讯等各领域中,从广播、电视节目的制作设备到手持电话、便携式音频/视频播放设备都离不开语音处理系统。
[0003] 在语音信号处理和语音编解码领域,正确地估计基音频率是极其重要的。
[0004] 从语音产生原理的度来说,语音来源于声腔的振动,产生声波,再经过声道器官的调制得到语音信号。声腔的振动通常会决定产生的语音信号的类型,例如元音,辅音,摩擦音等等。在实际出现的语音中,元音是占有着很大比例的。一个英语单词通常包含着较大部分的元音。从信号分析的角度上来看,元音主要由谐波组成,即它的频率分量由一个基音频率(也可简称为基频)和若干个它的整数倍频率组成。
[0005] 在专利号为4,161,625的美国专利中,公开了一种从语音信号中获得基音频率的方法。在该专利中,通过对初始的语音信号进行处理,得到差异信号,再采用自相关算法根据差异信号得到基音频率。
[0006] 由于在实际语音编解码和语音信号处理的算法里(例如语音编解码标准G.729等),传统的计算基音频率算法主要是自相关算法,即通过计算语音信号的最大自相关系数来找到特定的值。因为语音信号中通常包含大量的噪声,所以使用以自相关算法为基础的基音频率的计算方法可能存在一定偏差。

发明内容

[0007] 本发明的目的在于提供一种计算语音基音频率的方法及设备,能够更为准确地估计基音频率。
[0008] 本发明公开了一种计算语音基音频率的方法,包括以下步骤:
[0009] 将时域的语音信号变换为离散的频域信号Xi,其中i=1,2,...,N;
[0010] 在|Xi|中找出各作为局部最大值的峰值Mj,其中j=1,2,...,L,L为峰值的数目,||表示取绝对值;
[0011] 在所述离散的频域信号所涉及的定义域内,构造L个不重叠的区域Zj,每个Zj的大小是预定的,每个Zj覆盖一个Dj,其中Dj是Mj在定义域所对应的值;
[0012] 以每个Zj为定义域分别构造连续函数Sj(ω),ω∈Zj,满足|Sj(ωi)-|Xi||<C1,其中ωi是Xi在定义域所对应的值,C1是一个正的常数;
[0013] 在各Zj没有覆盖的定义域中,构造函数S0(ω), 且 其中Fs为采样率,满足S0(ωi)<|Xi|;
[0014] 将由各Sj(ω)和S0(ω)组合成的S(ω)作为频谱计算基音频率。
[0015] 本发明还公开了一种计算语音基音频率的设备,包括:
[0016] 变换单元,用于将时域的语音信号变换为离散的频域信号Xi,其中i=1,2,...,N;
[0017] 峰值计算单元,用于在|Xi|中找出各作为局部最大值的峰值Mj,其中j=1,2,...,L,L为峰值的数目,||表示取绝对值;
[0018] 重构单元,用于在所述离散的频域信号所涉及的定义域内,构造L个不重叠的区域Zj,每个Zj的大小是预定的,每个Zj覆盖一个Dj,其中Dj是Mj在定义域所对应的值;以每个Zj为定义域分别构造连续函数Sj(ω),ω∈Zj,满足|Sj(ωi)-|Xi||<C1,其中ωi是Xi在定义域所对应的值,C1是一个正的常数;在各Zj没有覆盖的定义域中,构造函数S0(ω),且 其中Fs为采样率,满足S0(ωi)<|Xi|;
[0019] 基音计算单元,用于将由各Sj(ω)和S0(ω)组合成的S(ω)作为频谱计算基音频率。
[0020] 本发明实施方式与现有技术相比,主要区别及其效果在于:
[0021] 在计算基音频率之前先对所用的频域信号进行重构,生成一个定义域连续的重构函数,该函数在各频域峰值附近的定义域中按相应的频域信号进行曲线拟合,在其它的定义域中对相应的频域信号进行有效抑制。因为候选基音频率及其倍数频率通常表现为峰值,所以通过保留各峰值附近定义域中的频域信号、大幅削弱其它定义域中的频域信号,可以提高基音频率计算的准确性和抗干扰能。通过变换得到的频域信号是离散的,通过对定义域的连续化可以更为精确地进在重构函数所代表的频谱中搜索基音频率。
[0022] 进一步地,在基音搜索时综合考虑候选基音频率及其多个倍频,可以使搜索结果更为准确。
[0023] 更进一步地,可以通过将峰值附近定义域之外的其它定义域中的重构函数值设为0,从而最大限度削弱无关的频率分量,进一步提高基音频率计算的准确性和抗干扰能力。
附图说明
[0024] 图1是根据本发明第一实施方式的一种计算语音基音频率的方法流程图
[0025] 图2是根据本发明第三实施方式的一种计算语音基音频率的设备结构图。

具体实施方式

[0026] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
[0027] 本发明的第一实施方式涉及一种计算语音基音频率的方法,如图1所示。
[0028] 在步骤110中,将输入的语音信号从时域转化到频域。具体地说,假定输入的时域语音信号为xi,i=1,2,...,N,则可通过快速傅里叶变换(FastFourier Transform,简称“FFT”)将其转换为离散的频域信号Xi,其中i=1,2,...,N。
[0029] 需要说明的是,在本步骤中,从时域信号到频域信号的转换是以FFT实现为例进行说明的,但在实际应用中,也可以通过其他方式实现。比如说,可通过离散余弦变换(Discrete Cosine Transform,简称“DCT”)或改进型离散余弦变换等方式,将时域的语音信号变换为离散的频域信号。
[0030] 接着,在步骤120中,从各频域信号Xi的绝对值中,找出各作为局部最大值的峰值Mj,其中j=1,2,...,L,L为峰值的数目。比如说,先根据X1,X2,....,XN,得到各频域信号的绝对值Y1,Y2,....,YN,其中Yi=|Xi|,i=1,2,...,N。然后,再搜索局部最大值Yi,如搜索所有满足Yi>max(Yi+1,Yi-1)的Yi作为峰值Mj,这种局部最大值的选取方法,实际上是在三点之中选取最大值,当然,在实际应用中,也可以在更多的点中(如五点或六点之中)选取最大值。
[0031] 接着,在步骤130中,根据选出来的频域峰值重构出语音信号的连续频谱。由于经FFT变换后得到的各频域信号是离散的,即无法提供频谱的定义域连续的函数,这对基音的计算造成了困难,因此需要重构和连续化频谱。具体如下:
[0032] 首先,将整个频谱划分为两种类型。一种类型的频谱与基音频率或者其一定倍数的频率分量相对应,另一种类型的频谱则是与基音频率无关的频率分量所对应的频谱。由于基音频率以及其一定倍数的频率分量在频谱上通常都表现为一个局部最大值,因此可认为在步骤120中所选取的峰值代表了基音频率和其一定倍数的频率分量。在整个频率轴的其他部分则被认为是无关的频率分量。
[0033] 其次,分别对这两种类型的频谱进行函数重构。具体地说,在离散的频域信号所涉及的定义域内,构造L个分别与L个峰值相对应的不重叠的区域Zj,每个Zj的大小是预定的,每个Zj覆盖一个Dj,其中Dj是Mj在定义域所对应的值。以每个Zj为定义域分别构造连续函数Sj(ω),ω∈Zj,满足|Sj(ωi)-|Xi||<C1,其中ωi是Xi在定义域所对应的值,C1是一个正的常数。在各Zj没有覆盖的定义域中,构造函数S0(ω), 且 其中Fs为采样率,满足S0(ωi)<|Xi|。下面对连续函数Sj(ω)的构造方式做进一步说明。
[0034] 在本实施方式中,通过用峰值对应的频域信号绝对值以及其前后两个频域信号绝对值进行二项式插值,实现连续函数Sj(ω)的构造。比如说,第一个峰值M1对应的频域信号绝对值Yi在定义域所对应的值为ωi,则其前后两个频域信号绝对值(Yi-1,Yi+1)在定义域所对应的值为(ωi-1,ωi+1)。假设这个插值多项式由如下的二次三项式表示:2
[0035] f(x)=ax+bx+c
[0036] 则通过代入法可以解得对应的系数{a,b,c}:
[0037]
[0038] 因此,可以得到:S1(ω)=a1ω2+b1ω+c1
[0039] 同理,可通过二项式插值方式构造出各Sj(ω)函数,即Sj(ω)=ajω2+bjω+cj[0040] 需要说明的是,由于在本实施方式中,峰值Mj实际上是在三点之中选取的最大值,因此如果第一个峰值M1对应的频域信号绝对值为Yi,则区域Z1的起始位置为Yi-1在定义域所对应的值,结束位置为Yi+1在定义域所对应的值,即 同理,可得到各Zj的区域。每一个峰值对应的拟合曲线的定义域也可以采取其它任意合理的长度[0041] 对于各Zj没有覆盖的定义域而言,由于这些区域不含有基音信息,因此可以简单地将这些部分用任意函数S0(ω)代替, 且 函数S0(ω)只需满足S0(ωi)
<|Xi|这一条件即可。比如说,采用零函数,即:S0(ω)=0。
[0042] 由于在本步骤中,已分别对这两种类型的频谱进行了函数重构,因此整个频谱都被重构成为一个定义域连续的函数,即:
[0043]
[0044] 接着,进入步骤140,计算基音频率。具体地说,由于在步骤130中,已得出一个定义域连续的函数S(ω),根据此函数S(ω)的函数特点即可直接导出基音频率。比如说,在基音的可能存在范围(如从50赫兹到500赫兹)进行搜索,搜索的准则是找到满足如下式子的频率:
[0045]
[0046] 其中,N(ω)是以ω为基音频率的谐波个数,ωp即为基音频率。需要说明的是,上述公式只是一个作为搜索准则的具体例子,在实际应用中,也可以采用其他的公式,如将上述公式中的平方更改为4次方或1次方等。上述ωp相关公式的实质在于在基音搜索时综合考虑候选基音频率及其多个倍频,具体的公式形式可以有其它的变化,这样可以使搜索结果更为准确
[0047] 由于在本实施方式中,在计算基音频率之前先对所用的频域信号进行重构,生成一个定义域连续的重构函数,该函数在各频域峰值附近的定义域中按相应的频域信号进行曲线拟合,在其它的定义域中对相应的频域信号进行有效抑制。因为候选基音频率及其倍数频率通常表现为峰值,所以通过保留各峰值附近定义域中的频域信号、大幅削弱其它定义域中的频域信号,可以提高基音频率计算的准确性和抗干扰能力。通过变换得到的频域信号是离散的,通过对定义域的连续化可以更为精确地进在重构函数所代表的频谱中搜索基音频率。
[0048] 值得一提的是,在本实施方式中,对各Zj没有覆盖的定义域所构造的函数S0(ω)为:S0(ω)=0,从而最大限度削弱无关的频率分量,进一步提高基音频率计算的准确性和抗干扰能力。而在实际应用中,也可以将函数S0(ω)置为一个很小的值,同样可以较为准确地搜索到基音频率。
[0049] 本发明的第二实施方式涉及一种计算语音基音频率的方法,本实施方式与第一实施方式大致相同,其区别在于,在第一实施方式中,在构造连续函数Sj(ω)时,是通过用峰值对应的频域信号绝对值以及其前后两个频域信号绝对值进行二项式插值实现的;而在本实施方式中,可以通过拟合成分段直线,或用三次多项式来拟合,来实现连续函数Sj(ω)的构造。
[0050] 本发明的方法实施方式可以以软件硬件固件等等方式实现。不管本发明是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可是换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable Array Logic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
[0051] 本发明的第三实施方式涉及一种计算语音基音频率的设备,如图2所示,包括:变换单元,用于将时域的语音信号变换为离散的频域信号Xi,其中i=1,2,...,N;峰值计算单元,用于在|Xi|中找出各作为局部最大值的峰值Mj,其中j=1,2,...,L,L为峰值的数目,||表示取绝对值;重构单元,用于在离散的频域信号所涉及的定义域内,构造L个不重叠的区域Zj,每个Zj的大小是预定的,每个Zj覆盖一个Dj,其中Dj是Mj在定义域所对应的值;以每个Zj为定义域分别构造连续函数Sj(ω),ω∈Zj,满足|Sj(ωi)-|Xi||<C1,其中ωi是Xi在定义域所对应的值,C1是一个正的常数;在各Zj没有覆盖的定义域中,构造函数S0(ω), 且 其中Fs为采样率,满足s0(ωi)<|Xi|;基音计算单元,用于将由各Sj(ω)和S0(ω)组合成的S(ω)作为频谱计算基音频率。
[0052] 基音计算单元通过以下方式计算基音频率:在基音的可能存在范围进行搜索,搜索的准则是找到满足如下式子的频率:
[0053]
[0054] 其中,N(ω)是以ω为基音频率的谐波个数,ωp即为基音频率。
[0055] 变换单元可采用FFT、离散余弦变换、改进型离散余弦变换等方式,将时域的语音信号变换为离散的频域信号。
[0056] 重构单元可采用以下方式之一实现Sj(ω)的构造:用峰值对应的频域信号绝对值以及其前后两个频域信号绝对值进行二项式插值、或拟合成分段直线,或用三次多项式来拟合。
[0057] 需要说明的是,本实施方式中提到的各单元都是逻辑单元,在物理上,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现,这些逻辑单元本身的物理实现方式并不是最重要的,这些逻辑单元所实现的功能的组合是才解决本发明所提出的技术问题的关键。
[0058] 此外,为了突出本发明的创新部分,本实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,这并不表明本设备实施方式并不存在其它的单元。
[0059] 虽然通过参照本发明的某些优选实施例,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
相关专利内容
标题 发布/更新时间 阅读量
频率合成器 2020-05-11 432
频率合成器 2020-05-12 663
多频率天线 2020-05-12 151
频率合成器 2020-05-12 983
频率合成器 2020-05-12 846
频率计 2020-05-11 557
频率转换器 2020-05-13 748
多频率天线 2020-05-13 874
频率合成器 2020-05-13 397
频率估计 2020-05-11 993
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈