技术领域
[0001] 本
发明涉及音频质量客观评价领域,尤其涉及基于听觉关注度的音频质量客观评价系统及方法。
背景技术
[0002] 随着人们应用期望值的日渐提高,音频内容趋于多样化与复杂化。
心理学研究表明人们在复杂声场环境中具有选择性的听觉关注机制,即人可以根据自己的心理主观感受选择自己感兴趣的声音,使自己关注的声音在人类听觉系统当中成为主导音。听觉关注机制是自顶向下(基于场景信息)和自底向上(基于声音显著度)两种机制交互作用的过程,传统基于声学掩蔽模型和底层声学显著性特征的音频客观质量评价方法,由于并未考虑场景信息和底层声学特征参数
自上而下的关联问题,其评价结果与真实主观听觉感受存在较大差异。
发明内容
[0003] 本发明的目的是提供基于听觉关注度的音频质量客观评价技术方案,使得评价结果更符合人的听觉特性。
[0004] 为达到上述目的,本发明提供一种基于听觉关注度的音频质量客观评价系统,包括时频分析模
块1、听觉关注模块2、底层声学特征参数计算模块3、人
耳声学掩蔽模型模块4、听觉关注失真测度计算模块5及认知模型模块6,
[0005] 所述时频分析模块1,用于将输入的参考
信号的时域信号和待测信号的时域信号分别转换为频域信号,并将所获得的频域信号分两路输出,一路输出连接底层声学特征参数计算模块3,一路输出连接人耳声学掩蔽模型模块4;
[0006] 所述听觉关注模块2,用于存储预先建立的听觉关注度图,所述听觉关注度图根据先验知识预先建立,是场景要义与底层声学特征参数之间的映射关系总和;当选择听觉关注度图中的某项映射关系时,相应所选择的映射关系分两路输出,一路输出给底层声学特征参数计算模块3,一路输出给认知模型模块6;
[0007] 所述底层声学特征参数计算模块3,用于根据由听觉关注模块2输入的映射关系,从参考信号的时域信号、待测信号的时域信号以及由时频分析模块1输入的频域信号中,提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数,并输出至听觉关注失真测度计算模块5;
[0008] 所述人耳声学掩蔽模型模块4,用于根据时频分析模块1输入的频域信号,计算参考信号的总体噪掩比和待测信号的总体噪掩比,输出给认知模型模块6;
[0009] 所述听觉关注失真测度计算模块5,根据由底层声学特征参数计算模块3所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数,计算得到待测信号的一组底层声学特征参数失真测度值,输出给认知模型模块6;
[0010] 所述认知模型模块6,用于根据由听觉关注模块2输入的映射关系,将由听觉关注失真测度计算模块5输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块4输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合,得到最终单一的音频质量客观质量评价分数。
[0011] 本发明还提供了相应基于听觉关注度的音频质量客观评价方法,包括以下步骤:步骤1,将参考信号的时域信号s1通过短时傅里叶变换,得到参考信号的频域信号 将待测信号的时域信号s2通过短时傅里叶变换,得到待测信号的频域信号
[0012] 步骤2,从预先建立的听觉关注度图M中选择某项映射关系,所述听觉关注度图M是场景要义与底层声学特征参数之间的映射关系总和;
[0013] 步骤3,从参考信号的时域信号s1、待测信号的时域信号s2、参考信号的频域信号和待测信号的频域信 中,提取和计算出步骤2中所选择映射关系相应的底层声学特征参数,得到参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层声学特征参数(y1,y2,...ym),其中,m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数;
[0014] 步骤4,将步骤1所得参考信号的频域信号 和待测信号的频域信号 中建立从频域到Bark域的映射,分别计算得到频域信号 的总体噪掩比NMR1和频域信号 的总体噪掩比NMR2;
[0015] 步骤5,根据步骤3所得参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层特征参(y1,y2,...ym)计算失真测度,得到待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm);
[0016] 步骤6,根据步骤2所选映射关系,将步骤4所得总体噪掩比NMR1、NMR2和步骤5所得待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)进行融合,得到最终单一的音频质量客观质量评价分数。
[0017] 本发明的技术方案考虑了音频质量评价系统中听觉关注机制对评价结果的影响,能够使客观评价结果更符合人耳的听觉特性,主客观评价结果相关性更高。
附图说明
具体实施方式
[0020] 下面以具体实施例结合附图对本发明的技术方案作进一步说明:
[0021] 参见图1,本发明实施例提供的基于听觉关注度的音频质量客观评价系统,包括时频分析模块1、听觉关注模块2、底层声学特征参数计算模块3、人耳声学掩蔽模型模块4、听觉关注失真测度计算模块5及认知模型模块6,具体实施时可以采用
软件固化技术实现各模块。
[0022] 所述时频分析模块1,用于将输入的参考信号的时域信号和待测信号的时域信号分别转换为频域信号,并将所获得的频域信号分两路输出,一路输出连接底层声学特征参数计算模块3,一路输出连接人耳声学掩蔽模型模块4。
[0023] 所述听觉关注模块2,用于存储预先建立的听觉关注度图,所述听觉关注度图根据先验知识预先建立,是场景要义与底层声学特征参数(如带宽、谱包络、
信噪比、基音、谐波等)之间的映射关系总和;当选择听觉关注度图中的某项映射关系时,相应所选择的映射关系分两路输出,一路输出给底层声学特征参数计算模块3,一路输出给认知模型模块6。听觉关注度图用于关联场景要义对应的底层声学特征参数,具体实施时,可以由用户根据情况选择听觉关注度图中的某项映射关系。例如将听觉关注度图中的各项映射关系分别给一个序号,做一个对话框,让用户选择关注音和背景音的类型,然后就可以得到序号,从而确定选择听觉关注度图中的某项映射关系。
[0024] 所述底层声学特征参数计算模块3,用于根据由听觉关注模块2输入的映射关系,从参考信号的时域信号、待测信号的时域信号以及由时频分析模块1输入的频域信号中,提取并计算得到参考信号的底层声学特征参数和待测信号的底层声学特征参数,并将这两组底层声学特征参数输出至听觉关注失真测度计算模块5。
[0025] 所述人耳声学掩蔽模型模块4,用于根据时频分析模块1输入的频域信号,计算参考信号的总体噪掩比和待测信号的总体噪掩比,输出给认知模型模块6。实施例的计算过程为,根据人耳的听觉掩蔽效应,对参考信号和待测信号的频域信号划分Bark带,计算出各Bark带掩蔽
阈值和噪掩比,将总体噪掩比输出给认知模型模块6。
[0026] 所述听觉关注失真测度计算模块5,根据由底层声学特征参数计算模块3所输入参考信号的底层声学特征参数和待测信号的底层声学特征参数,计算得到待测信号的一组底层声学特征参数失真测度值,输出给认知模型模块6。
[0027] 所述认知模型模块6,用于根据由听觉关注模块2输入的映射关系,将由听觉关注失真测度计算模块5输入的待测信号的一组底层声学特征参数失真测度值与由人耳声学掩蔽模型模块4输入的参考信号的总体噪掩比和待测信号的总体噪掩比进行融合,得到最终单一的音频质量客观质量评价分数。本发明利用信息融合的思想生成单一的输出参数,得到最终的客观差异性得分,本领域称为ODG,Objective Difference Grade。具体融合实现可以采用
现有技术,例如
人工神经网络模型或者线性分析回归方法。实施例采用人工神经网络模型,预先根据场景要义建立相应的训练集序列,训练出一系列基于场景的加权值。通过根据听觉关注模块2输入的映射关系选择与场景对应的一组加权值,与计算得到的一组底层特征参数失真测度值和参考信号的总体噪掩比、待测信号的总体噪掩比经过映射融合,输出最终单一的音频质量客观评价得分。
[0028] 参见图2,本发明实施例提供的基于听觉关注度的音频质量客观评价方法,可以采用计算机软件技术手段自动进行流程,具体包括以下步骤:
[0029] 步骤1,将参考信号的时域信号s1通过短时傅里叶变换,得到参考信号的频域信号将待测信号的时域信号s2通过短时傅里叶变换,得到待测信号的频域信号 实施例中,输入的参考信号的时域信号s1和待测信号的时域信号s2
采样率为44.1kHz,通过短时傅里叶变换得到的频域信号 和
帧长为2048个点。
[0030] 步骤2,从预先建立的听觉关注度图M中选择某项映射关系,所述听觉关注度图M是场景要义与底层声学特征参数之间的映射关系总和。实施例建立的听觉关注度图M如下表所示:
[0031]
[0032]
[0033] 例如,序号00对应的是关注音为语音且环境背景为语音,序号01对应的是关注音为语音且环境背景为音乐,序号02对应的是关注音为语音且环境背景为直流噪声。根据场景要义,如果得到的关注音为语音,环境背景为音乐,那么选择到序号01的映射关系。依据先验知识建立的听觉关注度图M中,序号01的映射关系中所选取表征语音的底层声学特征参数为带宽(50-4000Hz)、谱包络(LP分析)等,选取表征音乐的底层声学特征参数为带宽(50-20000Hz)、基音(Pitch)、谐波(Harmonic)、谱包络(LP分析)、华丽音域(高音萨克管250-10000Hz)等。在时域信号中选取帧长为256点,采用LP分析方法就得到语音的谱包络信息。基音周期的提取可采用基于短时自相关的开环基音搜索
算法提取,谐波为基音倍频。
[0034] 步骤3,从参考信号的时域信号s1、待测信号的时域信号s2、参考信号的频域信号和待测信号的频域信 中,提取和计算出步骤2中所选择映射关系相应的底层声学特征参数,得到参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层声学特征参数(y1,y2,...ym),其中,m为步骤2中用户所选择映射关系相应的底层声学特征参数总个数。具体提取和计算各底层声学特征参数为现有技术,本发明不予赘述。
[0035] 步骤4,将步骤1所得参考信号的频域信号 和待测信号的频域信号 中建立从频域到Bark域的映射,分别计算得到频域信号 的总体噪掩比NMR1和频域信号 的总体噪掩比NMR2。实施例具体过程如下:
[0036] 首先将步骤1中所得参考信号的频域信号 和待测信号的频域信 建立从频域到Bark域的映射:
[0037]
[0038] 其中z为Bark带个数,f为人类听觉可闻范围:80Hz-18000Hz;arsinh()是公知函数。Zwicker and Feldtkeller在1967年根据人耳听觉特性提出可以将
频率划分为若干个临界频带,以及Bark域测度,规定了频率映射到Bark域的规则。具体实现从频域到Bark域的映射属于现有技术。
[0039] 根据现有的MPEG标准中心理
声学模型II,通过各个Bark域的频域信号,可计算出每帧参考信号中每一个Bark带的掩蔽阈值MASK1(k,n)和每帧待测信号中每一个Bark带的掩蔽阈值MASK2(k,n),其中k为Bark带数,n为帧数。在步骤1进行时频变换时,选取时域信号的帧长为2048个点,一共得到N帧信号,对每一帧信号变换到频域,再对该帧的频域信号划分Bark带,得到Z个Bark带,(k,n)表示第n帧的第k个Bark带,k取0~Z-1,n取0~N-1。
[0040] 根据上述得到的掩蔽阈值MASK1(k,n)和MASK2(k,n),计算频域信号 和 每一帧的噪掩比,计算公式如下
[0041]
[0042] 其中Z为Bark带个数,Pnoise(k,n)为噪声
能量功率,计算得到频域信号 每一帧的噪掩比NMR1(n)和频域信号 每一帧的噪掩比NMR2(n)。
[0043] 再将得到的噪掩比NMR1(n)和NMR2(n)分别求线性平均,公式如下[0044]
[0045] 从而得到频域信号 的总体噪掩比NMR1和频域信号 的总体噪掩比NMR2。
[0046] 步骤5,根据步骤3所得参考信号的底层声学特征参数(x1,x2,...xm)和待测信号的底层特征参(y1,y2,...ym)计算失真测度,得到待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)。
[0047] 具体实施时,从(x1,y1)得到D1,从(x2,y2)得到D2…从(xm,ym)得到Dm,可参考以下公式
[0048]
[0049] 其中,M取值1~m。
[0050] 步骤6,根据步骤2所选映射关系,将步骤4所得总体噪掩比NMR1、NMR2和步骤5所得待测信号的一组底层声学特征参数失真测度值(D1,D2,...Dm)进行融合,得到最终单一的音频质量客观质量评价分数。
[0051] 实施例通过运用人工神经网络模型实现融合,具体实施可参见相关现有技术,基本过程如下:
[0052] 建立人工神经网络模型,入口函数为
[0053] 其中e为数学常数,x为该函数的输入。
[0054] 该模型包含I个输入,并且神经网络模型的隐层中有J个
节点。预先建立基于场景要义的序列集,对模型映射过程中
输入层的两个限制因子amin[i]和amax[i]、输入层的加权系数wα[i]
输出层的加权系数wβ[j]以及输出层的两个限制因子bmin和bmax进行训练,得到一系列基于场景的系数集合。
[0055] 将总体噪掩比NMR1、NMR2和底层特征参数失真测度值(D1,D2,...Dm),共I(I=2+m)个参数作为神经网络模型的输入a[i]输入给神经网络模型,根据步骤2从听觉关注度图M所选映射关系指导神经网络选择与场景相对应的一组系数,映射到失真索引(Distortion Index,DI):
[0056]
[0057] 其中i取0~I-1,j取0~J-1。
[0058] 利用失真索引DI,最终计算出音频质量客观质量评价分数:
[0059] ODG=bmin+(bmax-bmin)·sig(DI)。
[0060] 该分数的高低客观表示音频质量的好坏。