技术领域
[0001] 本
发明属于音乐
信息检索领域,涉及一种音乐主旋律提取方法。
背景技术
[0002]
音乐信息检索领域中的主旋律提取即从音乐
信号中估计出主旋律音高序列,其主要依据是音乐中主旋律成分的显著性和时序连续性。传统的主旋律提取方法大多把主旋律提取问题分解成多音高估计和旋律轮廓构建两个子问题,导致无法同时兼顾两个特性,在多音高估计阶段没有考虑到连续
帧音高的高度相关性。Jo等提出采用贝叶斯滤波
框架建模主旋律提取问题,并借助粒子滤波方法估计参数,但该方法在粒子滤波之前仍然需要进行多音高估计,且具有较多的参数需要估计(S.Jo,C.D.Yoo,and A.Doucet,Melody tracking based on sequential Bayesian model,IEEE Journal of Selected Topics in Signal Processing,2011,5(6):1216–1227.)。
[0003] 此外,音乐信号非常复杂,具有典型非平稳性的本质特点,即某些短时强伴奏音功率可能超过主旋律成分,且主旋律音高
频率分布较广,包含几个八度范围,导致现有方案在主旋律提取中来自于伴奏音的错误音高和八度误差广泛存在。
发明内容
[0004] 为了解决主旋律提取方法中提高音高估计准确性的问题,本发明提出如下方案:一种音乐主旋律提取方法,包括如下步骤:
[0005] S1.计算音乐信号的常Q变换;
[0006] S2.计算基于粒子滤波的主旋律音高序列的粗略估计;
[0007] S3.计算主旋律音高序列平滑估计序列;
[0008] S4.计算最终主旋律音高序列估计。
[0009] 作为技术方案的补充,步骤S1的具体方法是:对非平稳的音乐信号进行分帧,然后利用常Q变换计算按照对数分布的各频率点的幅度值,每八度范围具有36个按对数分布的频率点。
[0010] 作为技术方案的补充,步骤S2的具体方法是:
[0011] 初始化: 其中 表示第i个粒子的初始音高 服从[110Hz,1200Hz]范围内均匀分布,Np为粒子数, 表示第i个粒子权重;
[0013] (1)按转移概率,预测第t帧旋律音高频率:
[0014]
[0015] 根据实际音乐中音高转移概率统计分析结果,将音高转移概率建模为logistic分布,其概率
密度函数为:
[0016]
[0017] 其中x=f0,t/f0,t-1,f0,t为第t帧旋律音高频率,且μ=1.00003,s=0.0055045。
[0018] (2)计算粒子权重
[0019]
[0020] 其中P和S分别代表了第t帧第i个粒子的功率和谐波平滑性因子,分别定义为:
[0021]
[0022]
[0023] 其中Am,t为第t帧第i个粒子音高频率f0,t所对应的第m次谐波分量的幅度,H为最大谐波次数;
[0024] (3)归一化粒子权重
[0025]
[0026] (4)计算有效粒子数量
[0027]
[0028] 若 重新初始化粒子音高 跳到步骤(1);否则,跳到步骤(5),其中fmin和fmax分别是主旋律音高的频率下限和上限;
[0029] (5)计算当前旋律音高估计
[0030]
[0031] 其中 是权值最大的各粒子音高频率的平均值;
[0032] (6)对粒子按照归一化权重进行重
采样,并将所有重采样后的粒子权重都置为1/Np;
[0033] (7)令t=t+1,若t≤Nfrm(Nfrm为音频的总帧数),跳到步骤(1);否则,结束迭代过程;
[0034] 结束(1)-(7)的步骤后,由 构成主旋律音高序列粗略估计。
[0035] 作为技术方案的补充,Np=300。
[0036] 作为技术方案的补充,步骤S3的具体方法是:对前后100毫秒时间内的主旋律音高序列粗略估计结果取平均,作为当前帧的主旋律音高序列平滑估计值,各个帧的平滑估计值构成主旋律音高序列平滑估计序列。
[0037] 作为技术方案的补充,步骤S4的具体方法是:
[0038] (1)将每帧主旋律音高序列平滑估计值的上下八度范围作为该帧的主旋律音高的搜索范围;
[0039] (2)计算每帧主旋律音高搜索范围内每个频率点的显著度值St′(f):
[0040]
[0041] 其中Nh=10是最大谐波次数,|Xt(hf)|为频率f的第h次谐波幅度;
[0042] (3)对每帧的St′(f)进行归一化,得到St(f):
[0043]
[0044] (4)利用动态规划
算法得到最终的主旋律音高序列值,动态规划的初始条件为:
[0045] D(1,ft,j)=S1(fj) (11)
[0046] 其中D(t,ft,j)是第t帧取ft,j作为旋律音高的累积代价函数,S1(fj)由公式(10)得到,是第1帧的显著度函数在第j个频点的取值,则求解主旋律音高序列最优解的递归公式为:
[0047] D(t,ft,j)=St(fj)+max{D(t-1,ft-1,k)-λd(ft-1,k,ft,j)},t=1,...,Nfrm (12)[0048] 其中ft,j为第t帧主旋律音高的可能值,ft-1,k为第t-1帧主旋律音高估计值,d(ft-1,k,ft,j)为ft-1,k和ft,j的半音差,λ为惩罚因子;
[0049] 不断迭代公式(12)得到最终主旋律音高序列估计。
[0050] 作为技术方案的补充,λ=0.05。
[0051] 本发明将旋律的显著性和平滑性融合到粒子滤波框架中,显著性通过粒子滤波中似然函数的各次谐波幅度平方和方式体现,而平滑性则在粒子滤波中将转移概率拟合成logistic分布的方式实现,这样该框架同时完成多音高估计和旋律轮廓构建,实现了显著性和平滑性兼顾。
[0052] 本发明采用粒子滤波得到主旋律音高序列的粗略估计,然后将其作平滑处理,用以限定动态规划的主旋律音高搜索范围,再由动态规划在限定的范围内获得最终主旋律音高序列估计,降低了搜索范围外的强伴奏影响;本发明在动态规划阶段引入惩罚因子进一步减少了短时强伴奏的影响。
[0053] 本发明在粒子滤波的似然函数中,引入谐波平滑性因子降低了八度误差;本发明的动态规划阶段在主旋律音高搜索范围内将每个频率点的显著度值定义为各次谐波分量幅度的加权和,进一步降低了八度误差。
具体实施方式
[0054] 本公开涉及一种音乐主旋律提取方法,用于解决传统主旋律提取方法无法兼顾显著性和时序连续性的问题,同时用于降低音乐信号非平稳性导致的自于伴奏音的错误音高和八度误差。
[0055] 其方案如下:在粒子滤波框架下,随机掷粒子,将粒子滤波的似然函数建模为各次谐波幅度平方和与谐波平滑性因子的乘积,用logistic分布拟合转移概率函数,由粒子滤波的预测和更新方程逐帧递归完成主旋律音高序列粗略估计,然后对其进行平滑处理,取平滑处理后的每帧音高的上、下八度范围作为该帧的主旋律音高的搜索范围,并于被限定的范围内执行动态规划算法以得到最终主旋律音高序列估计。
[0056] 该方法将显著性和时序连续性融合到同一框架中;采用粒子滤波和动态规划相结合的两阶段方案,限定最终主旋律音高序列的可能范围,降低了主旋律音高估计中的短时强伴奏音影响;采用粒子滤波中的谐波平滑性因子和动态规划中加权求和的显著度函数,减少了主旋律音高估计中的八度误差。
[0057] 该方法具体包括如下步骤:
[0058] S1、计算音乐信号的常Q变换;
[0059] 计算音乐
音频信号的常Q变换方法:对非平稳的音乐信号进行分帧,然后利用常Q变换计算按照对数分布的各频率点的幅度值,每八度范围具有36个按对数分布的频率点。
[0060] S2、获得基于粒子滤波的主旋律音高序列的粗略估计;
[0061] 获得基于粒子滤波的主旋律音高序列粗略估计的方法:
[0062] 初始化: 其中 表示第i个粒子的初始音高 服从[110Hz,1200Hz]范围内均匀分布,Np=300为粒子数, 表示第i个粒子权重。
[0063] 迭代求解:
[0064] (1)按转移概率,预测第t帧旋律音高频率:
[0065]
[0066] 根据实际音乐中音高转移概率统计分析结果,将音高转移概率建模为logistic分布,其概率密度函数为:
[0067]
[0068] 其中x=f0,t/f0,t-1,f0,t为第t帧旋律音高频率,且μ=1.00003,s=0.0055045。
[0069] (2)计算粒子权重
[0070]
[0071] 其中P和S分别代表了第t帧中第i个粒子的功率和谐波平滑性因子,分别定义为:
[0072]
[0073]
[0074] 其中Am,t为第t帧第i个粒子音高频率f0,t所对应的第m次谐波分量的幅度,H为最大谐波次数。
[0075] (3)归一化粒子权重
[0076]
[0077] (4)计算有效粒子数量
[0078]
[0079] 若 重新初始化粒子音高 跳到步骤(1);否则,跳到步骤(5),其中fmin和fmax分别是主旋律音高的频率下限和上限。
[0080] (5)计算当前旋律音高估计
[0081]
[0082] 其中 是权值最大的各粒子音高频率的平均值。
[0083] (6)对粒子按照归一化权重进行重采样,并将所有重采样后的粒子权重都置为1/Np。
[0084] (7)令t=t+1,若t≤Nfrm(Nfrm为音频的总帧数),跳到步骤(1);否则,结束迭代过程。
[0085] 结束(1)-(7)的步骤后,由 构成主旋律音高序列粗略估计。
[0086] S3、获得主旋律音高序列平滑估计序列;
[0087] 获得主旋律音高序列平滑估计序列的方法:对前后100毫秒时间内的主旋律音高序列粗略估计结果取平均,作为当前帧的主旋律音高序列平滑估计值,各个帧的平滑估计值构成主旋律音高序列平滑估计序列。
[0088] S4、获得最终主旋律音高序列估计;
[0089] 获得最终主旋律音高序列估计的方法:
[0090] (1)将每帧主旋律音高序列平滑估计值的上下八度范围作为该帧的主旋律音高的搜索范围。
[0091] (2)计算每帧主旋律音高搜索范围内每个频率点的显著度值St′(f):
[0092]
[0093] 其中Nh=10是最大谐波次数,|Xt(hf)|为频率f的第h次谐波幅度。
[0094] (3)对每帧的St′(f)进行归一化,得到St(f):
[0095]
[0096] (4)利用动态规划算法得到最终的主旋律音高序列值,动态规划的初始条件为:
[0097] D(1,ft,j)=S1(fj) (11)
[0098] 其中D(t,ft,j)是第t帧取ft,j作为旋律音高的累积代价函数,S1(fj)由公式(10)得到,是第1帧的显著度函数在第j个频点的取值。则求解主旋律音高序列最优解的递归公式为:
[0099] D(t,ft,j)=St(fj)+max{D(t-1,ft-1,k)-λd(ft-1,k,ft,j)},t=1,...,Nfrm (12)[0100] 其中ft,j为第t帧主旋律音高的可能值,ft-1,k为第t-1帧主旋律音高估计值,d(ft-1,k,ft,j)为ft-1,k和ft,j的半音差,λ=0.05为惩罚因子。其中,ft,j、ft-1,k中的j、k使用不同的符号表示,是由于在迭代到第t帧时,第t-1帧主旋律音高估计值ft-1,k已经得到并为确定值,而第t帧主旋律音高的可能值ft,j还没确定,因而以示区别。
[0101] 不断迭代公式(12)得到最终主旋律音高序列估计。
[0102] 本发明将旋律的显著性和平滑性融合到粒子滤波框架中,显著性通过粒子滤波中似然函数的各次谐波幅度平方和方式体现,而平滑性则在粒子滤波中将转移概率拟合成logistic分布的方式实现,这样该框架同时完成多音高估计和旋律轮廓构建。为了减少短时强伴奏影响,本发明通过两个途径解决:(1)采用粒子滤波得到主旋律音高序列的粗略估计,然后将其作平滑处理,用以限定动态规划的主旋律音高搜索范围,再由动态规划在限定的范围内获得最终主旋律音高序列估计,降低了搜索范围外的强伴奏影响;(2)在动态规划阶段引入惩罚因子进一步减少短时强伴奏的影响。为了减少八度误差,本发明通过两个方式解决:(1)在粒子滤波的似然函数中,引入谐波平滑性因子降低八度误差;(2)动态规划阶段在主旋律音高搜索范围内将每个频率点的显著度值定义为各次谐波分量幅度的加权和,进一步降低八度误差。因此,本发明既将显著性和平滑性同时融合到了粒子滤波这一框架中,又降低了短时强伴奏的影响和八度误差。
[0103] 也即由上述方案,本
实施例所述方案具有如下有益效果:将显著性和平滑性融合到粒子滤波框架中,可同时完成多音高估计和旋律轮廓构建;通过粒子滤波和动态规划相结合的方案完成最终的主旋律音高序列估计,并在动态规划中限定主旋律音高搜索范围,还引入惩罚因子,降低了短时强伴奏的影响;通过在粒子滤波中引入谐波平滑性因子和动态规划中加权求和的显著度函数减少了主旋律音高估计中的八度误差。
[0104] 本实施例所述的音乐主旋律提取方法,其与本公开背景技术中述及的Jo等公开的方案相比较,区别如下:
[0105] 1.本发明方法和Jo等的方法的似然函数和转移概率密度都不一样,具有不同的音高显著度描述方法和转移概率密度表达式,尤其是概率密度,本发明的方法是在实际音乐音频的
基础上作统计分析,将音高转移概率拟合为logistic分布,而Jo等的方法是用常规的高斯密度拟合转移概率;本方法还在似然函数中引入了谐波平滑性因子用以减少八度误差;
[0106] 2.Jo等的方法先用多音高估计得到各帧的主旋律音高候选,然后采用粒子滤波的方法得到最终的主旋律音高序列。在某些主旋律音符结尾部分,功率可能小于某些强伴奏的场合,Jo等的方法仍无法排除这些错误音高,准确性较差;
[0107] 3.两个方法的流程不同,本发明的方法是先粒子滤波再动态规划,Jo等的方法是先多音高估计再粒子滤波;
[0108] 4.本方法具有较少的参数,参数调整容易;而Jo等的方法具有较多的参数,调整困难。
[0109] 由上述,音乐具有很强的非平稳特性,强伴奏音可能在某些短时间内超过主旋律功率,比如,在某些音符结尾部分,可能主旋律功率小于有些伴奏;此外,八度误差也经常存在,在某个音符演奏过程中,估计音高会因为各次谐波幅度比例的变化而在不同的八度之间切换。因此,若能事先确定主旋律的大致范围,将能滤除范围外的伴奏音高和八度误差。
[0110] Jo等的方法先用多音高估计得到各帧的旋律音高候选,然后采用粒子滤波的方法得到最终的主旋律音高序列。该方法仍不能解决上述问题。本发明提出的方法首先用粒子滤波估计出旋律音高,同样也具有上述问题,但是粒子滤波方法估计的结果大部分都是准的,因此对估计序列作平滑处理就削弱了错误估计的影响,仍能确定旋律音高的大致范围,在被限制的范围内再利用动态规划作处理,就能滤除范围外的短时强伴奏音高和八度误差。
[0111] 以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉
本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。