首页 / 专利库 / 残疾人专用配件 / 听觉模型 / 2.3kb/s谐波激励线性预测语音编码方法

2.3kb/s谐波激励线性预测语音编码方法

阅读:793发布:2020-12-03

专利汇可以提供2.3kb/s谐波激励线性预测语音编码方法专利检索,专利查询,专利分析的服务。并且2.3kb/s谐波激励线性预测语音编码方法属于语音 信号 处理技术领域。本 发明 由语音采集系统将所需的 语音信号 输入计算机处理器中,完成对语音 信号处理 。该方法特征在于:使用基音检测方法和浊音度分析方法将LPC 激励信号 分裂为两个带,低带对应语音信号的浊音部分,而高带对应语音信号的清音部分,用统一的谐波模型来表达线性预测残差信号的谐波成分和类噪声成分,在统一的谐波激励模型中引入了一个来自男性讲话者浊音区的固定 相位 谱,并使用谐波激励模型参数内插方法,减少传统LPC声码器中的噪声后获取合成语音,最后使用一个短时后 滤波器 增强合成语音的 质量 。本方法使得语音编码方法对清/浊判决不敏感,使得合成的语音质量自然平滑,无变调现象发生。,下面是2.3kb/s谐波激励线性预测语音编码方法专利的具体信息内容。

1、2.3kb/s谐波激励线性预测语音编码方法,是由语音采 集系统将所需进行的语音信号输入计算机,在计算机处理 器中完成对语音信号的编码过程,该方法包括语音编码和 译码两部分,编码方法中基音周期检测采用了一种基于波 形相关法的语音信号基音周期检测方法,语音谱参数的量 化采用了线谱频率参数一步插值预测矢量量化方法,本发 明的特征在于:用基音检测方法和浊音度分析方法将LPC 激励信号分裂为两个带,低带对应于语音信号的浊音部分, 而高带对应于语音信号的清音部分,用统一的谐波模型来 表达线性预测残差信号的谐波成分和类噪声成分,即在该 谐波模型中引入了一个来自男性讲话者浊音区的固定相位 谱,并使用谐波激励模型参数内插方法,减少传统LPC声 码器中的噪声后获取合成语音,最后使用一个短时后滤波 器增强合成语音的质量
发明方法的编码部分主要包括预处理方法、线性预 测分析方法、线性预测逆滤波方法、基音检测与浊音度判 决方法、残差谐波幅度确定方法、线性预测系数到线谱频 率参数的转换方法和参数量化与编码方法;编码器的工作 程序如下:
第一步,输入语音经预处理模去除输入信号的直流 成分;
第二步,先对去除直流的语音信号加240点哈明窗, 然后对加窗的语音进行自相关估计,最后获取线性预测系 数;
第三步,将第二步得到的线性预测系数利用常规方法 转换成线谱频率参数;
第四步,用最新技术中的一步插值预测矢量量化方法量 化线谱频率参数;
第五步,当前和前一帧量化的线谱频率参数线性内 插到当前的4个子帧中,每子帧内插的线谱频率参数再变 回到线性预测系数,通过逆滤波器求得当前帧的线性预测 残差信号,另外,当前帧最后一个子帧内插的线性预测系 数用于计算将来帧的残差信号,这个未来帧的残差信号将 用于当前帧残差谐波幅度的提取;
第六步,利用基于波形相关法的语音信号基音周期检 测方法这一最新技术、在去除直流的输入信号上进行基音 周期检测和浊音度估计;该方法的应用中,在按上述预处 理、相关系数估计和后处理步骤求得三个窗内的最优延迟 后,再用下面的值和逻辑从三个窗获得的最优延迟中得 到当前帧的延迟估计;令(τ1,ρ1),  (τ2,ρ2)和  (τ3,ρ3)分别为对应 三个叠接窗的最优延迟和相关系数,则当前帧最终的基音 周期估计 按如下逻辑获得:
      t1=ρ2/ρ1,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2
 If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8) τ ^ opt = ( τ 1 + τ 3 ) / 2 , ρ = ( ρ 1 + ρ 3 ) / 2
   Else τ ^ opt = τ 2 , ρ = ρ 2 这里 的值为整数,用7比特量化;
在本发明的谐波激励线性预测语音编码法中,无论是 何种类型的语音帧都要给出确切的浊音度值pv,这个pv将 语音信号分为两个带,pv决定了这两个带的分界频率,在 分界频率以下的频谱看作是周期信号频谱,而在分界频率 以上的频谱看作是类噪声频谱;这里pv由预处理后的语音 信号能量Elpf和相关系数ρ共同确定;如果Elpf小于给定的阀 值,则直接令pv等于零,根据常规的听觉测定分析,设此 帧的基音频率为100Hz(80个样点);如果Elpf大于给定的阀 值,则pv由ρ确定;
第七步,根据上述步骤得到的预测残差信号和基音周 期,估计残差谐波;估计完谐波幅度后,对其进行归一化 处理,以便于分别量化;
第八步,将量化的基音周期、浊音度、残差谐波幅度、 归一化增益和线谱频率参数进行二进制编码,并将比特流 送入信道或存入媒质,供译码器用;
本发明方法的译码部分主要包括参数解码方法、参数内 插方法、残差信号重建方法、线谱频率参数到线性预测系 数的转换方法、语音合成方法、后滤波和自动增益控制方 法;参数内插模块完成基音周期、浊音度、残差谐波幅度、 归一化增益和线谱频率参数的内插工作;译码器的工作程 序如下:
第一步,参数解码模块根据接收到的比特流,在译码 器的5个码书中得到对应的基音周期、浊音度、残差谐波 幅度、归一化增益和线谱频率参数的实数值;
第二步,根据译码端恢复的谐波幅度和基音周期,用 如下的谐波模型重建线性预测残差信号: e ( n ) = Σ k = 1 L ( n ) A k ( n ) cos ( ( n ) + θ k ( n ) ) 其中 这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音 度和第k个去归一化的谐波幅度;D(k)是一个固定相位谱, 它来自于男性讲话者的某帧浊音语音信号,从而保证D(k)的 维数大于等于给定的最大谐波数,对于低于分带频率的谐 波,其谐波相位等于固定值,而对高于分带频率的谐波, 其谐波相位是均匀分布的随机数;
令样点n处的基音周期值为P(n),则每个样点处的相位 φ(n)可通过如下逐点迭代获得: φ ( n ) = φ ( n - 1 ) + 2 π P ( n )
为了重建残差信号e(n),需要知道每个样点处的谐波幅 度及其基音周期长度,本发明使用线性内插方法来增样谐 波幅度;
第三步,将线谱频率参数在四个子帧线性内插,再将 4个内插的线谱频率参数转换为线性预测系数,得到了4 个子帧的合成滤波器系数;
第四步,将重建的线性预测残差信号e(n)经过合成滤波 器,得到合成语音;
第五步,使用传统的短时后滤波器增强合成语音的质 量;
第六步,使用自动增益控制技术保证后滤波前后合成 语音信号的平均能量不变。
2、根据权利要求1所述的2.3kb/s谐波激励线性预测语 音编码(HE-LPC)方法,其特征在于,所述的编码器的工 作程序中:
第二步的具体步骤为:先对去除直流的语音信号加240 点哈明窗,窗的中心是位于当前帧的右边界,即窗覆盖了 前一帧的120个样点和当前帧的120个样点,然后对加窗 的语音进行自相关估计,并使用莱文逊-杜宾递归算法获取 10阶线性预测系数,最后用0.998k,k=1,…,10乘以线性预测系 数来获取30HZ共振峰带宽展宽的线性预测系数;
第五步中,当前帧最后一个子帧内插的线性预测系数 用于计算将来帧的40个样点的残差信号,这40个样点将 用于当前帧残差谐波幅度的提取;
第七步估计残差谐波的具体步骤为,首先,用256 点FFT将预测残差信号转换到频域以便求得谐波幅度;其 次,用类似于SEEVOC的方法估计残差谐波幅;
由于谐波个数随基音周期变化,本发明中利用了线性 预测残差谱趋于平坦的特性,通过对残差谐波幅度截断来 获取固定的10维矢量;在译码端,高于10维的谐波用译 码的10维矢量元素的均值统一表示;这个截断的10维矢 量码书用LBG方法训练获得,码书体积为512(9比特码 书);归一化增益用8比特在对数域标量量化。
3、根据权利要求1所述的2.3kb/s谐波激励线性预测语音 编码方法,其特征在于,所述的译码器工作程序中,本发 明使用简单的线性内插方法来增样谐波幅度,是指当在两 个等维的谐波幅度间完成增样时,可直接进行内插;然而, 当谐波幅度的长度不同和基音周期加倍/减半发生时,还需 要额外的处理,以便保证平滑内插;下面描述三种情况下 谐波幅度内插和基音周期内插的过程: (1)等维情况下谐波幅度和基音周期的内插
此时,当前帧和前一帧具有相同的基音周期P,如果 用n0和n1表示内插区间分界处的时刻,则可以确定时刻n处 的瞬时基音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为: P ( n , m ) = ( n 1 - n n 1 - n 0 ) P ( n 0 , m ) + ( n - n 0 n 1 - n 0 ) P ( n 1 , m ) n 0 n n 1 , 0 m < N 式中N为分析帧长,n1-n0=N;
由于边界点处的谐波幅度具有相同的长度,所以,它 们之间内插得到的谐波幅度也具有相同的长度,即基音轮 廓为一常数; (2)不等维情况下谐波幅度和基音周期的内插
在这种情况下,内插前要将短的谐波幅度维数调整到 与长的谐波幅度相同,这等价于对短的谐波幅度系数添零; 完成添零工作后,即可用等维情况下的内插公式获得瞬时 基音周期和瞬时谐波幅度;
为了避免这种过程得到的内插基音周期值可能和内插的 谐波幅度维数不同的情况,将内插的谐波幅度维数截断到 和内插的基音周期长度一致; (3)基音加倍/减半情况下谐波幅度和基音周期的内插
如果当前帧的谐波幅度维数比原来帧的谐波幅度维数 长或短很多,则很可能发生了基音加倍/减半,这时本发明 使用前后帧基音周期比值因子C作为基音加倍/减半判决 准则;如果在帧间基音确实发生了加倍/减半(C>1),则将 较短的谐波幅度和基音周期重复整数倍,使其最大可能地 与较长的谐波幅度和基音周期匹配;这等价于在原来的诣 波间插入零幅度谐波;插入零幅度谐波后,将谐波幅度和 基音周期按不等维情况进行内插即可;
另外,浊音度pv(n)的内插方法类似于等维情况下基音 周期的内插公式,谐波数L(n)由内插的后的基音周期得到, 即 ;为了增强相位轨迹的准确性,用于相位轨迹 φ(n)计算的瞬时基音周期不再取为整数;由于φ(n)是一个不 断增大的函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时, 就从φ(n)值中减去2π。

说明书全文

技术领域

2.3kb/s谐波激励线性预测语音编码方法的技术领域为 语音信号处理,其应用范围覆盖如下两个方面:第一,语音信 号的数字传输,如数字通信系统、移动无线电、蜂窝电话和保 密电话系统等;第二,语音信号的数字存贮,如数字录音电话、 语音邮件、语音信箱、电子留言簿、发声字典、多媒体查询系 统以及各类电子发声玩具等。

技术背景

随着信息社会和通信技术的高速发展,频率资源愈发显得 宝贵。因此,压缩语音信号的传输带宽或降低电话信道的传输 码率,一直是人们追求的目标,语音编码在实现这一目标中担 当着重要色。语音编码就是压缩语音信号的数字表示而使表 达这些信号所需的比特需求最小的算法

语音编码目前主要分为三类,即波形编码、参数编码和混 合编码。波形编码图使重建语音波形保持原语音信号的波形 形状,它通常将语音信号作为一般的波形信号来处理,它具有 适应能力强、话音质量高等优点,但所需要的比特率高,通常 能在64~16kb/s的速率上给出高的编码质量,当速率进一步 降低时,其性能会迅速下降。参数编码则通过对语音信号特征 参数的提取和编码,力图使重建语音信号具有尽可能高的可懂 性,即保持原语音的语意,而重建语音信号的波形同原始语音 信号的波形可能会有相当大的差别,但其编码速率很低,可低 至2.4kb/s以下。它的主要问题是合成语音质量差,自然度低。 混合编码克服了波形编码和参数编码的弱点,同时又结合了它 们各自的长处,在4~16kb/s速率上能够得到高质量的合成语 音,但当比特率低于4kb/s时很难得到高质量的合成语音。

近十年来,语音编码取得了突飞猛进的发展,在国际标准 化工作中堪称为最活跃的领域,就目前的语音编码现状而言, 5kb/s以上的技术已经标准化和产品化,已具备比较完善的理 论和技术体系,并进入实用阶段。今后重要的研究焦点将逐步 转向更低的码率。

目前,2.4kb/s及其以下速率的高质量语音编码是语音 编码研究领域最感兴趣的课题之一,这是因为在电信和保密通 信中的许多应用和服务迫切需要这些低比特率语音编码方法。 在过去的几年中,一些成功的语音编码方法,诸如,波形内插 (WI)、多带激励(MBE)、混合激励线性预测(MELP)、谐波+随 机激励(HSX)和分裂带LPC(SB-LPC)等方法均产生了具有较高 可懂度和自然度的合成语音,这些方法的共同特征是语音信号 或线性预测残差信号的谐波成分和类噪声成分的合成模型是 独立产生的,语音质量强烈地依赖于这两种成分的正确判别。 这对于有调汉语语音来说会产生较严重的变调失真,导致合成 语音的自然度下降。

发明内容

本发明使用了统一的谐波模型来表达线性预测残差信号 的谐波成分和类噪声成分,使得语音编码方法对清/浊判决不 敏感,使得最终的合成语音质量自然平滑,无变调现象发生。

本发明2.3kb/s谐波激励线性预测语音编码(HE-LPC) 方法,是由语音采集系统将所需进行的语音信号输入计算机, 在计算机处理器中完成对语音信号的编码过程,该方法包括语 音编码和译码两部分,编码方法中基音周期检测采用了一种 基于波形相关法的语音信号基音周期检测方法,语音谱参数的 量化采用了线谱频率参数一步插值预测矢量量化方法,本发明 的特征在于:使用基音检测方法和浊音度分析方法将LPC激励 信号分裂为两个带,低带对应于语音信号的浊音部分,而高带 对应于语音信号的清音部分,用统一的谐波模型来表达线性预 测残差信号的谐波成分和类噪声成分,在统一的谐波激励模型 中引入了一个来自男性讲话者浊音区的固定相位谱,并使用谐 波激励模型参数内插方法,得到了平滑自然的合成语音;减少 传统LPC声码器中的噪声后获取合成语音,最后使用一个短时 后滤波器增强合成语音的质量。

另外,本发明使用线谱频率参数一步插值预测矢量量化方 法减少声道参数的比特率,并在译码端使用一个短时后滤波器 增强合成语音的质量。

本发明的技术方案结合图1可见,本发明方法的编码部分 主要包括预处理方法、线性预测分析方法、线性预测逆滤波方 法、基音检测与浊音度判决方法、残差谐波幅度确定方法、线 性预测系数到线谱频率参数的转换方法和参数量化与编码方 法。编码器的工作程序如下:

第一步,输入语音经预处理模去除输入信号的直流成 分;

第二步,对去除直流的语音信号加240点哈明窗,窗的中 心位于当前的右边界,即窗覆盖了前一帧的120个样点和当 前帧的120个样点;然后对加窗的语音进行自相关估计,并使 用莱文逊-杜宾递归算法获取10阶线性预测系数;最后用0.998k, k=1,…,10乘以线性预测系数来获取30HZ共振峰带宽展宽的线性 预测系数;

第三步,将第二步得到的线性预测系数利用常规方法转换 成线谱频率参数;

第四步,用最新技术中的一步插值预测矢量量化方法量 化线谱频参数;

第五步,当前帧和前一帧量化的线谱频率参数线性内插到 当前的4个子帧中,保证线谱频率参数的平滑过渡,每子帧内 插的线谱频率参数再变回到线性预测系数,通过逆滤波器求得 当前帧的线性预测残差信号。另外,当前帧最后一个子帧内插 的线性预测系数用于计算将来帧的40个样点的残差信号,这 40个样点将用于当前帧残差谐波幅度的提取;

第六步,利用基于波形相关法的语音信号基音周期检测方 法这一最新技术、在去除直流的输入信号上进行基音周期检测 和浊音度估计。该方法主要包括四个步骤,第一步为预处理, 第二步为相关系数估计,第三步为后处理,第四步为浊音度判 决。预处理包括低通滤波和数值滤波二部分,主要是去除共振 峰对基音检测的影响。相关系数在三个叠接窗上独立计算,第 一个窗覆盖整个当前窗,第二个窗覆盖当前帧的一半样点和将 来帧的一半样点,第三个窗覆盖整个将来帧。后处理是为了避 免在每个窗内出现基音加倍而采取的措施。

在按上述预处理、相关系数估计和后处理步骤求得三个窗 内的最优延迟后,再用下面的值和逻辑从三个窗获得的最优 延迟中得到当前帧的延迟估计。令(τ1,ρ1),(τ2,ρ2)和(τ3,ρ3)分别 为对应三个叠接窗的最优延迟和相关系数,则当前帧最终的基 音周期估计 按如下逻辑获得:

      t1=ρ2/ρ3,t2=ρ2/ρ3,t3=ρ1/ρ2,t4=ρ3/ρ2

   If(t1>1.8 and t2>1.8或t3>1.8 and t4>1.8)

τ ^ opt = ( τ 1 + τ 2 ) / 2 , = ρ ( ρ 1 + ρ 3 ) / 2

      Else

τ ^ opt = τ 2 , ρ = ρ 2 这里 的值为整数,用7比特量化。在8kHz采样率,这 种具有1个样点解析的基音检测器已很好满足了本发明中的 谐波激励线性预测语音编码法的要求。

在本发明的谐波激励线性预测语音编码法中,无论是何种 类型的语音帧都要给出确切的浊音度值pv,这个pv将语音信 号分为两个带,pv决定了这两个带的分界频率,在分界频率以 下的频谱看作是周期信号频谱,而在分界频率以上的频谱看作 是类噪声频谱。这里pv由预处理后的语音信号能量Elpf和相关 系数ρ共同确定。如果Elpf小于给定的阀值,则直接令pv等于 零,根据听觉分析,设此帧的基音频率为100Hz(80个样点); 如果Elpf大于给定的阀值,则pv由ρ确定。为了节省比特数,ρ 根据主观听力测试用2比特量化。

第七步,根据上述步骤得到的预测残差信号和基音周期, 估计残差谐波。首先,用256点FFT将预测残差信号转换到频 域以便求得谐波幅度;其次,用类似于SEEVOC的方法估计残 差谐波幅。但这里我们使用的基音周期是第六步得到的基音周 期而不是SEEVOC方法中使用的平均基音周期,这为实际谐波 幅度的估计带来了极大的便利,并提高了谐波估计的准确度。 估计完谐波幅度后,要对其进行归一化处理,归一化的目的是 为了分离谐波幅度的功率和形状,以便于分别量化,提高量化 效率。

由于谐波个数随基音周期变化,所以,谐波幅度谱是变 维的。通常,人们使用变维矢量量化技术量化语音信号的谐波 幅度,但这将需要巨大的计算量和存贮空间。为此,我们充分 利用了线性预测残差谱趋于平坦的特性,通过对残差谐波幅度 截断来获取固定的10维矢量。在译码端,高于10维的谐波用 译码的10维矢量元素的均值统一表示。这个截断的10维矢量 码书用LBG方法训练获得,码书体积为512(9比特码书)。 归一化增益用8比特在对数域标量量化。

第八步,将量化的基音周期、浊音度、残差谐波幅度、归 一化增益和线谱频率参数进行二进制编码,并将比特流送入信 道或存入媒质,供译码器用。

本发明方法的译码部分主要包括参数解码方法、参数内插 方法、残差信号重建方法、线谱频率参数到线性预测系数的转 换方法、语音合成方法、后滤波和自动增益控制方法;参数内 插模块完成基音周期、浊音度、残差谐波幅度、归一化增益和 线谱频率参数的内插工作。译码器的工作程序如下:

第一步,参数解码模块根据接收到的比特流,在译码器的 5个码书中得到对应的基音周期、浊音度、残差谐波幅度、归 一化增益和线谱频率参数的实数值;

第二步,根据译码端恢复的谐波幅度和基音周期,用如下 的谐波模型重建线性预测残差信号: e ( n ) = Σ k = 1 L ( n ) A k ( n ) cos ( ( n ) + θ k ( n ) ) 其中 这里L(n),pv(n,k)和Ak(n)分别为在样点n处的谐波个数、浊音度 和第k个去归一化的谐波幅度。D(k)是一个固定相位谱,它来 自于男性讲话者的某帧浊音语音信号,选择男性讲话者是考虑 到男性发声具有高的基音周期,它能比女性发声提供更多的谐 波成分,从而保证D(k)的维数大于等于给定的最大谐波数。对 于低于分带频率的谐波,其谐波相位等于固定值,而对高于分 带频率的谐波,其谐波相位是均匀分布的随机数。

令样点n处的基音周期值为P(n),则每个样点处的相位φ(n) 可通过如下逐点迭代获得: φ ( n ) = φ ( n - 1 ) + 2 π P ( n )

为了得到平滑渐变的激励信号e(n),谐波激励模型中用到 的基音周期、去归一化谐波幅度和浊音度参数必须内插。即为 了重建残差信号e(n),需要知道每个样点处的谐波幅度及其基 音周期长度。本发明使用简单的线性内插方法来增样谐波幅 度。当在两个等维的谐波幅度间完成增样时,可直接进行内插。 然而,当谐波幅度的长度不同和基音周期加倍/减半发生时, 还需要额外的处理,以便保证平滑内插。下面描述三种情况下 谐波幅度内插和基音周期内插的过程。 (1)等维情况下谐波幅度和基音周期的内插

此时,当前帧和前一帧具有相同的基音周期P,如果用n0和 n1表示内插区间分界处的时刻,则可以确定时刻n处的瞬时基 音周期P(n,m)和瞬时谐波幅度Ak(n,m)分别为: P ( n , m ) = ( n 1 - n n 1 - n 0 ) P ( n 0 , m ) + ( n - n 0 n 1 - n 0 ) P ( n 1 , m ) n 0 n n 1 , 0 m < N 式中N为帧长。内插要在每帧上完成,所以,n1-n0=160。

由于边界点处的谐波幅度具有相同的长度,所以,它们 之间内插得到的谐波幅度也具有相同的长度,即基音轮廓为一 常数。 (2)不等维情况下谐波幅度和基音周期的内插

一般地,边界点处谐波幅度的长度不同({Ak}的个数不同), 基音周期在边界点之间的区间上要变化。在这种情况下,内插 前要将短的谐波幅度维数调整到与长的谐波幅度相同,这等价 于对短的谐波幅度系数添零。完成添零工作后,即可用等维情 况下的内插公式获得瞬时基音周期和瞬时谐波幅度。

由于添零的原因,这种过程得到的内插基音周期值可能和 内插的谐波幅度维数不同。为了避免这种不一致性,可将内插 的谐波幅度维数截断到和内插的基音周期长度一致。 (3)基音加倍/减半情况下谐波幅度和基音周期的内插

如果当前帧的谐波幅度维数比原来帧的谐波幅度维数长 或短很多,则很可能发生了基音加倍/减半,这时本发明使用 前后帧基音周期比值因子C作为基音加倍/减半判决准则。如 果在帧间基音确实发生了加倍/减半(C>1),则将较短的谐波 幅度和基音周期重复整数倍,使其最大可能地与较长的谐波幅 度和基音周期匹配。这等价于在原来的谐波间插入零幅度谐 波。插入零幅度谐波后,将谐波幅度和基音周期按不等维情况 进行内插即可。

另外,浊音度pv(n)的内插方法类似于等维情况下基音周期 的内插公式,谐波数L(n)由内插的后的基音周期得到,即 。为了增强相位轨迹的准确性,用于相位轨迹φ(n)计 算的瞬时基音周期不再取为整数。由于φ(n)是一个不断增大的 函数,为防止φ(n)的溢出,当φ(n)值增大到比2π大时,就从φ(n)值 中减去2π。根据余弦函数的性质,这不会影响激励信号e(n)的 计算。

第三步,将线谱频率参数在四个子帧线性内插,再将4 个内插的线谱频率参数转换为线性预测系数,得到了4个子帧 的合成滤波器系数。

第四步,将重建的线性预测残差信号e(n)经过全极点合成 滤波器,得到合成语音。

第五步,使用传统的短时后滤波器增强合成语音的质量。

第六步,使用自动增益控制技术保证后滤波前后合成语音 信号的平均能量不变。

本发明的汉语语音主观测试结果证明,2.3kb/s谐波 激励线性预测编码(HE-LPC-Harmonic Excited Linear Predictive Coding)方法产生的合成语音质量优于美国联邦 标准的2.4kb/s MELP编码器,并且延时小于MELP编码器, 可用于移动通信、短波通信、保密通信、大容量语音存贮设备、 多媒体查询系统、IP电话和因特网上的语音邮寄等,可带来 可观的经济效益和社会效益。

附图说明 图12.3kb/s谐波激励线性预测语音编码方法原理框图

具体实施方案

按图1给出的本发明技术方案的原理框图。输入语音 为8kHz采样的线性PCM信号。语音信号的分析帧长为 20ms,即帧速率为50Hz。另外,附加有一帧的额外延时 用于线性预测分析和基音周期检测。在本发明中,需要量 化和编码的参数一共有5个,它们是基音周期、浊音度、 前10个归一化的线性预测残差谐波幅度、归一化增益和 线谱频率参数。这些参数的量化比特数分配如表1所示。 采用前述的编码和译码方法完成本发明。

本发明的实验效果如下:

为了评价2.3kb/s HE-LPC语音编码方法的性能,我们 用汉语语音进行了主观A/B听力测试,11名听众比较了2.3 kb/s HE-LPC编码器和美国联邦标准2.4kb/s MELP声码器产 生的合成语音质量。汉语语音由16个句子组成,其中8句来 自男性讲话,另外8句来自女性讲话。测试结果如表2所示。 测试结果证明2.3kb/s HE-LPC编码器产生的合成语音质量 好于美国联邦标准的2.4kb/s MELP声码器,尤其是对女性讲 话者。

   表1    2.3kb/s HE-LPC比特分配方案     参数     比特/帧     比特率     线谱频率参数     20     1000     基音周期     7     350     归一化增益     8     400     浊音度     2     100     残差谐波幅度     9     450     总数     46     2300

      表2    主观A/B测试结果     偏爱2.3kb/s HE-LPC     偏爱2.4kb/s MELP   无偏爱   女性语音     42.05%     19.32%   38.64%   男性语音     27.27%     28.41%   44.32%   所有语音     34.66%     23.86%   41.48%

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈