首页 / 专利库 / 图形技术 / 递归噪声 / 一种人声分离方法及系统

一种人声分离方法及系统

阅读:354发布:2020-05-11

专利汇可以提供一种人声分离方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种人声分离方法及系统,属于语噪分离技术领域,方法包括:步骤S1,获取外部输入的需要进行分离的原始音频数据;步骤S2,采用一特征提取模型对原始音频数据进行特征提取;步骤S3,将特征系数导入 递归神经网络 模型进行处理,步骤S4,采用一特征还原模型分别对每个处理结果进行特征还原;系统包括:采集模 块 ,特征提取模块,神经网络模块,特征还原模块;有益效果是:不依赖于任何假设,抗干扰能 力 强,只需要事先准备需要分离的若干纯净的人声数据和噪声数据作为 训练数据 ,训练生成一递归神经网络模型,便可以实现人声分离,且该方法不仅可以分离出人声,还可以分离出人声中混合的噪声源。,下面是一种人声分离方法及系统专利的具体信息内容。

1.一种人声分离方法,其特征在于,预先将经过混合的混合语音数据作为训练数据训练生成一递归神经网络模型,所述混合语音数据中包括多路语音数据,所述语音数据中包括至少一路人声数据以及至少一路噪声数据,所述递归神经网络模型用于分别识别所述人声数据和所述噪声数据,还包括以下步骤:
步骤S1,获取外部输入的需要进行分离的原始音频数据,所述原始音频数据中混合有至少一路所述人声数据和至少一路所述噪声数据;
步骤S2,采用一特征提取模型对所述原始音频数据进行特征提取,得到特征系数,所述特征系数为22维的BFCC系数;
步骤S3,将所述特征系数导入所述递归神经网络模型进行处理,得到分别与所述人声数据和每一路所述噪声数据一一对应的多个处理结果;
步骤S4,采用一特征还原模型分别对每个所述处理结果进行特征还原,得到分离后的所述人声数据和每一路所述噪声数据。
2.根据权利要求1所述的人声分离方法,其特征在于,所述训练数据中的输入数据为所述混合语音数据的特征系数,所述训练数据中的预期输出数据为混合之前的纯净人声数据以及纯净噪声数据。
3.根据权利要求1所述的人声分离方法,其特征在于,所述步骤S2进一步包括:
步骤S21,将所述原始音频数据采用重叠窗的方式分割成多个短时音频;
步骤S22,对每个所述短时音频进行傅里叶变换和BARK频率的转换,得到所述特征系数。
4.根据权利要求1所述的人声分离方法,其特征在于,所述递归神经网络模型包括一第一控循环单元、多个第二门控循环单元以及多个全连接单元,所述第二门控循环单元和所述全连接单元一一对应,每个所述第二门控循环单元分别唯一对应于一路所述语音数据;
所述第一门控循环单元的输入端作为所述递归神经网络的输入端;
每个所述第二门控循环单元的输入端分别连接所述第一门控循环单元的输出端,每个所述第二门控循环单元的输出端分别连接对应的所述全连接单元的输入端,每个所述全连接单元的输出端作为所述递归神经网络模型的输出端;
则所述步骤S3进一步包括:
步骤S31,所述第一门控循环单元根据输入的所述原始音频数据的所述特征系数,处理得到22维的第一特征数据;
步骤S32,将所述第一门控循环单元输出的所述第一特征数据与所述特征系数进行特征拼接得到第二特征数据,随后将所述第二特征数据分别输入多个不同的第二门控循环单元进行处理;
步骤S33,每个所述第二门控循环单元对所述第二特征数据进行处理后分别向对应的所述全连接单元输出一44维的第三特征数据;
步骤S34,每个所述全连接单元根据所述第三特征数据处理得到一对应的处理结果并输出,随后转向所述步骤S4,所有所述处理结果均为22维。
5.根据权利要求1所述的人声分离方法,其特征在于,所述步骤S4进一步包括:
步骤S41,对每个所述处理结果进行逆傅里叶变换,得到对应的中间结果;
步骤S42,通过重叠加窗的方式对每个所述中间结果进行还原,分别还原得到每一路所述语音数据。
6.一种人声分离系统,其特征在于,预先将经过混合的混合语音数据作为训练数据训练生成一递归神经网络模型,所述混合语音数据中包括多路语音数据,所述语音数据中包括至少一路人声数据以及至少一路噪声数据,所述递归神经网络模型用于分别识别所述人声数据和所述噪声数据,所述人声分离系统具体包括:
采集模,用于采集需要进行分离的原始音频数据,所述原始音频数据中混合有至少一路所述人声数据和至少一路所述噪声数据;
特征提取模块,连接所述采集模块,用于对所述原始音频数据进行特征提取,得到特征系数,所述特征系数为22维的BFCC系数;
神经网络模块,连接所述特征提取模块,所述神经网络模块中预设所述递归神经网络模型,所述递归神经网络模型用于对所述特征系数进行处理,得到分别与所述人声数据和每一路所述噪声数据一一对应的多个处理结果;
特征还原模块,连接所述神经网络模块,用于分别对每个所述处理结果进行特征还原,得到分离后的所述人声数据和每一路所述噪声数据。
7.根据权利要求6所述的人声分离系统,其特征在于,所述训练数据中的输入数据为所述混合语音数据的特征系数,所述训练数据中的预期输出数据为混合之前的纯净人声数据以及纯净噪声数据。
8.根据权利要求6所述的人声分离系统,其特征在于,所述特征提取模块进一步包括:
分割单元,用于将所述原始音频数据采用重叠窗的方式分割成多个短时音频;
第一处理单元,连接所述分割单元,用于对每个所述短时音频进行傅里叶变换和BARK频率的转换,得到所述特征系数。
9.根据权利要求6所述的人声分离系统,其特征在于,所述神经网络模块进一步包括:
第一门控循环单元,用于对所述特征系数进行计算,得到22维的第一特征数据;
拼接单元,连接所述第一门控循环单元,用于将所述第一特征数据与所述特征系数进行特征拼接,得到第二特征数据;
多个第二门控循环单元,分别连接所述拼接单元,每个所述第二门控循环单元分别唯一对应于一路所述语音数据,用于分别对所述第二特征数据进行处理,每个所述第二门控循环单元分别输出一44维的第三特征数据;
多个全连接单元,与所述多个第二门控循环单元一一对应连接,用于对所述第三特征数据进行处理,得到一对应的处理结果并输出,其中每个所述处理结果均为22维。
10.根据权利要求6所述的人声分离系统,其特征在于,所述特征还原模块进一步包括:
第二处理单元,用于对每个所述计算结果进行逆傅里叶变换,得到对应中间结果;
还原单元,连接所述第二处理单元,用于通过重叠加窗的方式对每个所述中间结果进行还原,分别还原得到每一路所述语音数据。

说明书全文

一种人声分离方法及系统

技术领域

[0001] 本发明涉及语噪分离技术领域,尤其涉及一种人声分离方法及系统。

背景技术

[0002] 人声分离是指在复杂噪声环境中为分离出目标说话人的语音而对混合语音进行处理,传统的人声分离主要是基于传统人声分离算法,例如:最小均方误差(LMS)算法,最小二乘法(LS)等,这些算法依赖于很多假设,具有较大的局限性,例如源信号相互独立等。由于实际的应用场景比较复杂使得这些假设难以同时被满足,这将导致传统的人声分离算法可能只在某种特定的应用场景下才会有效果,传统算法在抗干扰能上表现的较差。

发明内容

[0003] 根据现有技术中存在的上述问题,现提供一种人声分离方法及系统,该方法基于人工智能深度学习,不依赖于任何假设,只需要事先准备需要分离的若干纯净的人声数据和噪声数据作为训练数据,训练生成一递归神经网络模型,便可以实现人声分离,且该方法不仅可以分离出人声,还可以分离出人声中混合的噪声源。
[0004] 上述技术方案具体包括:
[0005] 一种人声分离方法,其特征在于,预先将经过混合的混合语音数据作为训练数据训练生成一递归神经网络模型,所述混合语音数据中包括多路语音数据,所述语音数据中包括至少一路人声数据以及至少一路噪声数据,所述递归神经网络模型用于分别识别所述人声数据和所述噪声数据,还包括以下步骤:
[0006] 步骤S1,获取外部输入的需要进行分离的原始音频数据,所述原始音频数据中混合有至少一路所述人声数据和至少一路所述噪声数据;
[0007] 步骤S2,采用一特征提取模型对所述原始音频数据进行特征提取,得到特征系数,所述特征系数为22维的BFCC系数;
[0008] 步骤S3,将所述特征系数导入所述递归神经网络模型进行处理,得到分别与所述人声数据和每一路所述噪声数据一一对应的多个处理结果;
[0009] 步骤S4,采用一特征还原模型分别对每个所述处理结果进行特征还原,得到分离后的所述人声数据和每一路所述噪声数据。
[0010] 优选地,其中,所述训练数据中的输入数据为所述混合语音数据的特征系数,所述训练数据中的预期输出数据为混合之前的纯净人声数据以及纯净噪声数据。
[0011] 优选地,其中,所述步骤S2进一步包括:
[0012] 步骤S21,将所述原始音频数据采用重叠窗的方式分割成多个短时音频;
[0013] 步骤S22,对每个所述短时音频进行傅里叶变换和BARK频率的转换,得到所述特征系数。
[0014] 优选地,其中,所述递归神经网络模型包括一第一控循环单元、多个第二门控循环单元以及多个全连接单元,所述第二门控循环单元和所述全连接单元一一对应,每个所述第二门控循环单元分别唯一对应于一路所述语音数据;
[0015] 所述第一门控循环单元的输入端作为所述递归神经网络的输入端;
[0016] 每个所述第二门控循环单元的输入端分别连接所述第一门控循环单元的输出端,每个所述第二门控循环单元的输出端分别连接对应的所述全连接单元的输入端,每个所述全连接单元的输出端作为所述递归神经网络模型的输出端;
[0017] 则所述步骤S3进一步包括:
[0018] 步骤S31,所述第一门控循环单元根据输入的所述原始音频数据的所述特征系数,处理得到22维的第一特征数据;
[0019] 步骤S32,将所述第一门控循环单元输出的所述第一特征数据与所述特征系数进行特征拼接得到第二特征数据,随后将所述第二特征数据分别输入多个不同的第二门控循环单元进行处理;
[0020] 步骤S33,每个所述第二门控循环单元对所述第二特征数据进行处理后分别向对应的所述全连接单元输出一44维的第三特征数据;
[0021] 步骤S34,每个所述全连接单元根据所述第三特征数据处理得到一对应的处理结果并输出,随后转向所述步骤S4,所有所述处理结果均为22维。
[0022] 优选地,其中,所述步骤S4进一步包括:
[0023] 步骤S41,对每个所述处理结果进行逆傅里叶变换,得到对应的中间结果;
[0024] 步骤S42,通过重叠加窗的方式对每个所述中间结果进行还原,分别还原得到每一路所述语音数据。
[0025] 一种人声分离系统,其中,预先将经过混合的混合语音数据作为训练数据训练生成一递归神经网络模型,所述混合语音数据中包括多路语音数据,所述语音数据中包括至少一路人声数据以及至少一路噪声数据,所述递归神经网络模型用于分别识别所述人声数据和所述噪声数据,所述人声分离系统具体包括:
[0026] 采集模,用于采集需要进行分离的原始音频数据,所述原始音频数据中混合有至少一路所述人声数据和至少一路所述噪声数据;
[0027] 特征提取模块,连接所述采集模块,用于对所述原始音频数据进行特征提取,得到特征系数,所述特征系数为22维的BFCC系数;
[0028] 神经网络模块,连接所述特征提取模块,所述神经网络模块中预设所述递归神经网络模型,所述递归神经网络模型用于对所述特征系数进行处理,得到分别与所述人声数据和每一路所述噪声数据一一对应的多个处理结果;
[0029] 特征还原模块,连接所述神经网络模块,用于分别对每个所述处理结果进行特征还原,得到分离后的所述人声数据和每一路所述噪声数据。
[0030] 优选地,其中,所述训练数据中的输入数据为所述混合语音数据的特征系数,所述训练数据中的预期输出数据为混合之前的纯净人声数据以及纯净噪声数据。
[0031] 优选地,其中,所述特征提取模块进一步包括:
[0032] 分割单元,用于将所述原始音频数据采用重叠窗的方式分割成多个短时音频;
[0033] 第一处理单元,连接所述分割单元,用于对每个所述短时音频进行傅里叶变换和BARK频率的转换,得到所述特征系数。
[0034] 优选地,其中,所述神经网络模块进一步包括:
[0035] 第一门控循环单元,用于对所述特征系数进行计算,得到22维的第一特征数据;
[0036] 拼接单元,连接所述第一门控循环单元,用于将所述第一特征数据与所述特征系数进行特征拼接,得到第二特征数据;
[0037] 多个第二门控循环单元,分别连接所述拼接单元,每个所述第二门控循环单元分别唯一对应于一路所述语音数据,用于分别对所述第二特征数据进行处理,每个所述第二门控循环单元分别输出一44维的第三特征数据;
[0038] 多个全连接单元,与所述多个第二门控循环单元一一对应连接,用于对所述第三特征数据进行处理,得到一对应的处理结果并输出,其中每个所述处理结果均为22维。
[0039] 优选地,其中,所述特征还原模块进一步包括:
[0040] 第二处理单元,用于对每个所述计算结果进行逆傅里叶变换,得到对应中间结果;
[0041] 还原单元,连接所述第二处理单元,用于通过重叠加窗的方式对每个所述中间结果进行还原,分别还原得到每一路所述语音数据。
[0042] 上述技术方案的有益效果在于:
[0043] 提供一种人声分离方法及系统,该方法基于人工智能深度学习,不依赖于任何假设,抗干扰能力强,只需要事先准备需要分离的若干纯净的人声数据和噪声数据作为训练数据,训练生成一递归神经网络模型,便可以实现人声分离,且该方法不仅可以分离出人声,还可以分离出人声中混合的噪声源。附图说明
[0044] 图1是本发明的较佳实施例中,一种人声分离方法的步骤流程图
[0045] 图2是本发明的较佳实施例中,步骤S2的分步骤流程图;
[0046] 图3是本发明的较佳实施例中,步骤S3的分步骤流程图;
[0047] 图4是本发明的较佳实施例中,步骤S4的分步骤流程图;
[0048] 图5是本发明的较佳实施例中,一种人声分离系统的结构示意图;
[0049] 图6是本发明的较佳实施例中,特征提取模块的内部结构示意图;
[0050] 图7是本发明的较佳实施例中,神经网络模块的内部结构示意图;
[0051] 图8是本发明的较佳实施例中,特征还原模块的内部结构示意图。

具体实施方式

[0052] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053] 需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0054] 下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0055] 一种人声分离方法,其中,预先将经过混合的混合语音数据作为训练数据训练生成一递归神经网络模型,混合语音数据中包括多路语音数据,语音数据中包括至少一路人声数据以及至少一路噪声数据,递归神经网络模型用于分别识别人声数据和噪声数据,如图1所示,还包括以下步骤:
[0056] 步骤S1,获取外部输入的需要进行分离的原始音频数据,原始音频数据中混合有至少一路人声数据和至少一路噪声数据;
[0057] 步骤S2,采用一特征提取模型对原始音频数据进行特征提取,得到特征系数,特征系数为22维的BFCC系数;
[0058] 步骤S3,将特征系数导入递归神经网络模型进行处理,得到分别与人声数据和每一路噪声数据一一对应的多个处理结果;
[0059] 步骤S4,采用一特征还原模型分别对每个处理结果进行特征还原,得到分离后的人声数据和每一路噪声数据。
[0060] 作为优选的实施方式,在准备训练数据来训练递归神经网络模型时,训练数据分为人声数据和噪声数据,统一格式为8000hz采样率,16bit采样精度,其中人声数据和噪声数据可以为一路也可以为多路。在进行机器学习及模型训练的过程中,输入数据为将至少一路人声数据和至少一路噪声数据进行混合后的数据,每路数据的真实标签为混合之前的纯净数据,损失函数为差方和。这个过程中要明确的是想要分离音源的数量,假设想分离的是人声和一个噪音源则输入数据混合时同时将一个噪声数据混入人声数据,多路人声数据和多路噪声数据的分离过程以此类推。
[0061] 在本发明的较佳实施例中,训练数据中的输入数据为混合语音数据的特征系数,训练数据中的预期输出数据为混合之前的纯净人声数据以及纯净噪声数据。
[0062] 在本发明的较佳实施例中,如图2所示,步骤S2进一步包括:
[0063] 步骤S21,将原始音频数据采用重叠窗的方式分割成多个短时音频;
[0064] 步骤S22,对每个短时音频进行傅里叶变换和BARK频率的转换,得到特征系数。
[0065] 在本发明的较佳实施例中,递归神经网络模型包括一第一门控循环单元30、多个第二门控循环单元32以及多个全连接单元33,第二门控循环单元32和全连接单元33一一对应,每个第二门控循环单元32分别唯一对应于一路语音数据;
[0066] 第一门控循环单元30的输入端作为递归神经网络的输入端;
[0067] 每个第二门控循环单元32的输入端分别连接第一门控循环单元30的输出端,每个第二门控循环单元32的输出端分别连接对应的全连接单元33的输入端,每个全连接单元33的输出端作为递归神经网络模型的输出端;
[0068] 如图3所示,步骤S3进一步包括:
[0069] 步骤S31,第一门控循环单元30根据输入的原始音频数据的特征系数,处理得到22维的第一特征数据;
[0070] 步骤S32,将第一门控循环单元30输出的第一特征数据与特征系数进行特征拼接得到第二特征数据,随后将第二特征数据分别输入多个不同的第二门控循环单元32进行处理;
[0071] 步骤S33,每个第二门控循环单元32对第二特征数据进行处理后分别向对应的全连接单元33输出一44维的第三特征数据;
[0072] 步骤S34,每个全连接单元33根据第三特征数据处理得到一对应的处理结果并输出,随后转向步骤S4,所有处理结果均为22维。
[0073] 具体的,在本实施例中,对需要分离的原始噪声数据进行特征提取,首先通过重叠窗的方式得到20ms的短时音频,然后通过对音频数据进行傅里叶变换和Bark频率的转换得到22维的特征,随后将得到的22维特征传入递归神经网络进行处理计算,得到n个22维的计算结果,其中n指的是想要分离的音频个数,例如想分离人声和一个噪音源则x为2。
[0074] 在本发明的较佳实施例中,如图4所示,步骤S4进一步包括:
[0075] 步骤S41,对每个处理结果进行逆傅里叶变换,得到对应的中间结果;
[0076] 步骤S42,通过重叠加窗的方式对每个中间结果进行还原,分别还原得到每一路语音数据。
[0077] 具体的,在本实施例中,将上述实施例中得到的n个22维特征分别通过特征还原模型进行还原,首先对特征进行逆傅里叶变换(IFFT),然后通过重叠加窗的方式还原为20ms的音频。
[0078] 一种人声分离系统,如图5所示,其中,预先将经过混合的混合语音数据作为训练数据训练生成一递归神经网络模型,混合语音数据中包括多路语音数据,语音数据中包括至少一路人声数据以及至少一路噪声数据,递归神经网络模型用于分别识别人声数据和噪声数据,人声分离系统具体包括:
[0079] 采集模块1,用于采集需要进行分离的原始音频数据,原始音频数据中混合有至少一路人声数据和至少一路噪声数据;
[0080] 特征提取模块2,连接采集模块1,用于对原始音频数据进行特征提取,得到特征系数,特征系数为22维的BFCC系数;
[0081] 神经网络模块3,连接特征提取模块2,神经网络模块3中预设递归神经网络模型,递归神经网络模型用于对特征系数进行处理,得到分别与人声数据和每一路噪声数据一一对应的多个处理结果;
[0082] 特征还原模块4,连接神经网络模块3,用于分别对每个处理结果进行特征还原,得到分离后的人声数据和每一路噪声数据。
[0083] 在本发明的较佳实施例中,训练数据中的输入数据为混合语音数据的特征系数,训练数据中的预期输出数据为混合之前的纯净人声数据以及纯净噪声数据。
[0084] 在本发明的较佳实施例中,如图6所示,特征提取模块2进一步包括:
[0085] 分割单元20,用于将原始音频数据采用重叠窗的方式分割成多个短时音频;
[0086] 第一处理单元21,连接分割单元20,用于对每个短时音频进行傅里叶变换和BARK频率的转换,得到特征系数。
[0087] 在本发明的较佳实施例中,如图7所示,神经网络模块3进一步包括:
[0088] 第一门控循环单元30,用于对特征系数进行计算,得到22维的第一特征数据;
[0089] 拼接单元31,连接第一门控循环单元30,用于将第一特征数据与特征系数进行特征拼接,得到第二特征数据;
[0090] 多个第二门控循环单元32,分别连接拼接单元31,每个第二门控循环单元32分别唯一对应于一路语音数据,用于分别对第二特征数据进行处理,每个第二门控循环单元32分别输出一44维的第三特征数据;
[0091] 多个全连接单元33,与多个第二门控循环单元32一一对应连接,用于对第三特征数据进行处理,得到一对应的处理结果并输出,其中每个处理结果均为22维。
[0092] 具体的,在本实施例中,将22维的特征系数传入第一门控循环单元30(GRU)中进行处理,输出维度仍为22维,激活函数为Relu;随后根据想要分离音频的数量n,将第一门控循环单元30中输出的22维的第一特征数据中与初始输入的22维的特征系数进行拼接(concat)后分别传入n个不同的第二门控循环单元32中进行第二步处理,每一个第二门控循环单元32的输出维度为44维度,激活函数仍为Relu。之后分别将第二门控循环单元32输出的n个44维的第三特征数据传入一一对应的n个全连接单元33,每一个全连接单元33的输出维度为22维。
[0093] 在本发明的较佳实施例中,如图8所示,特征还原模块4进一步包括:
[0094] 第二处理单元40,用于对每个计算结果进行逆傅里叶变换,得到对应中间结果;
[0095] 还原单元41,连接第二处理单元40,用于通过重叠加窗的方式对每个中间结果进行还原,分别还原得到每一路语音数据。
[0096] 上述技术方案的有益效果在于:
[0097] 提供一种人声分离方法及系统,该方法基于人工智能深度学习,不依赖于任何假设,抗干扰能力强,只需要事先准备需要分离的若干纯净的人声数据和噪声数据作为训练数据,训练生成一递归神经网络模型,便可以实现人声分离,且该方法不仅可以分离出人声,还可以分离出人声中混合的噪声源。
[0098] 以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈