首页 / 专利库 / 信号处理 / 采样频率 / 一种基于集成学习的室内声源定位方法

一种基于集成学习的室内声源定位方法

阅读:0发布:2021-07-14

专利汇可以提供一种基于集成学习的室内声源定位方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 集成学习 的室内声源 定位 方法,特别是涉及声源定位识别方法所使用的特征。本发明使用 信号 的 相位 变换广义互相关函数作为 位置 特征,将声源信号数据转换成特征数据集,再使用集成学习技术(Bagging,AdaBoost等)对特征数据进行训练和定位测试,最终得到的集成学习分类器能很好地 鉴别 声源位置,克服了传统声源定位 算法 在恶劣环境下性能损失严重的不足。相比较传统的定位算法,本发明的优势在于能在室内环境下,有较强的噪声、混响的恶劣环境下,依旧能够获得鲁棒的声源定位性能。,下面是一种基于集成学习的室内声源定位方法专利的具体信息内容。

1. 一种基于集成学习的室内声源定位方法,其特征在于,包括如下步骤: 步骤1:设定声源的训练位置li(i = l,2· · ·η),使用若干个麦克阵列记录声源发出 的混响信号Xji(i = l,2. · ·η〇 = 1,2· · .m); 步骤2:利用记录下的混响信号^1,根据具体要求,加入一定信噪比的高斯白噪声,对混 响信号计算处理生成信号的相位变换广义互相关函数Ri; 步骤3:利用得到的相位变换广义互相关函数Ri产生对应声源位置li的特征向量Yi; 步骤4:处理特征向量Yi对应的特征数据集yi,将数据集划分为训练数据集和测试数据 集; 步骤5:对训练数据集使用集成学习方法,弱学习器选择常用的决策树,训练出集成学 习分类器; 步骤6:使用得到的集成学习分类器进行测试,识别出声源的位置。
2. 根据权利要求1所述的一种基于集成学习的室内声源定位方法,其特征在于,步骤2 中,所使用的特征为相位变换广义互相关函数,特征的计算过程包括如下步骤: 步骤2-1:设声源位置为li,则产生出混响时间为T的房间脉冲响应h(li,k)i,说话人语 音为S化),使用m个麦克风组成麦克风阵,则麦克风接受到的信号为Xn化)=h(li,k)*s化)(n =1,2, · · · m); 步骤2-2:对步骤2-1得到的信号xn化),分帖加汉宁窗采集数据,对每帖信号数据,可在 频域计算出它们之间的广义互相关函数
其中化n,2n (ω )为加权函数,此处使用相位变换加权函I
'能增强互 相关函数的抗混响能; 步骤2-3:将步骤2-2得到的所有的对应所有位置的广义互相关函数Ri(T)作预处理转化 为分类算法的训练数据和测试数据,巧
其中round是取整函数,D是麦 克风间距离,fs是采样频率,C是声速,因子α设为1.67,贝峨得的数据集为Y引i?(-r"J,R(- Tmax+l) ,R(-Tmax+2),…R(Tmax-2),… R( Tmax-l ),R( Tmax) ]Τ,按一定比例随机划分Υ就得到了训练数据集Ytrain和测试数据集 Ytest 〇
3. 根据权利要求2所述的一种基于集成学习的室内声源定位方法,其特征在于步骤2-2 中所述采集数据的方式为帖长512个采样点,帖移256个采样点,共使用200帖的数据。
4. 根据权利要求1所述的一种基于集成学习的室内声源定位方法,其特征在于步骤2-3 中所述按一定比例随机划分Y是指按6:4的比例随机划分Y。
5. 根据权利要求1所述的一种基于集成学习的室内声源定位方法,其特征在于步骤5中 数据的分类和最后的定位使用了集成学习方法集成了决策树算法。
6. 根据权利要求5所述的一种基于集成学习的室内声源定位方法,其特征在于,所述集 成学习方法包括AdaBoost和Bagging方法。

说明书全文

一种基于集成学习的室内声源定位方法

技术领域

[0001 ]本发明属于无线电波的反射或再辐射的定位或存在检测领域,涉及一种在混响和 噪声干扰环境下基于集成学习的室内声源定位方法,特别是涉及声源定位识别方法所使用 的特征。

背景技术

[0002] 基于麦克阵列的声源定位技术是近几年国内外的一项研究热点。它主要原理 是:通过具有一定几何拓扑结构的麦克风阵列采集声源信号,通过阵列信号处理技术对语 音信号进行处理和分析,从而确定声源位置
[0003] 目前,基于麦克风阵列的声源定位技术已广泛应用于许多领域,如视频会议、声音 检测、语音增强、语音识别、说话人识别、智能机器人、监控监听系统、助听装置等。传统的声 源定位算法主要有三类:
[0004] 第一类是基于高分辨率谱估计的方法。该方法源于一些现代高分辨率估计技术, 如自回归模型(AR,Auto Regressive)、最小方差谱估计(MV,Minimum Variance)、多重信号 分类(MUSIC,Multiple Signal Classification)等等,它们利用求解麦克风信号间的相关 矩阵来定出方向,从而进一步确定声源位置;这类方法有很强的分辨,但是运算量极 大,且不适用于近距离的定位。
[0005] 第二类是基于时延估计(TD0A,Time Difference of Arrival)的技术。该方法首 先求出声音到达不同位置麦克风的时间差,从而根据时间差用几何法来计算出声源位置; 这类时延估计算法主要有广义互相关函数(GCC,Generali zed cross correlation)时延估 计算法和自适应最小均方时延(LMS,Least Mean Square)估计算法。比如专利名称为"麦克 风间距测量方法和装置〃(申请人:华为终端有限公司,专利号:CN101685153B)就属于这类 技术。这类方法计算量小,实时性好,成本低易于实现,但是由于要先估计时延会造成二次 估计上的误差,时延精度也易受到混响和噪声干扰的影响,鲁棒性较差。
[0006] 第三类是基于最大输出功率可控的波束成型方法。该方法对麦克风阵列接受的语 音信号进行滤波、加权求和,然后直接控制麦克风指向波束有最大输出功率的方向即是声 源的位置;比如名称为"一种声源定位的方法及系统"(申请人:TCL集团股份有限公司,公开 号:CN105204001A)的发明专利属于这类技术。但是该方法需要声源和环境噪声的先验知 识,实际情况下先验知识较难获得,同时对外界环境以及声源频率反映比较敏感,从而限制 了应用场合。
[0007] 因此,目前大多数的基于麦克风阵列的定位技术中,特别是在室内环境,如小型会 场、教室、办公室等,当噪声大、有混响的情况下存在定位准确率不高,系统成本高、计算量 大等等问题。
[0008] 集成学习技术是一个迅速发展中的研究领域,它是机器学习领域中用来提升分类 算法准确率的技术。集成学习通过构建并合并多个弱学习器(分类器)来完成学习分类任 务,常常能获得比单一学习器显著优越的泛化性能。常用的集成学习算法有Bagging(装 袋)、Boosting(提升)、RandomForest(随机森林)等等。
[0009] 当前,集成学习技术正在众多领域获得日益广泛的应用,在其从出现到目前短短 的近二十年里,它已经广泛应用于语音识别、文本过滤、遥感信息处理、疾病诊断等领域。预 计将来会有越来越多的研究可由集成学习来解决。

发明内容

[0010] 本发明目的在于解决在有较强的噪声、混响的恶劣室内环境下鲁棒性较差的问 题。为解决上述问题,本发明提出的技术方案为一种基于集成学习的室内声源定位方法,包 括如下步骤:
[0011] 步骤1:设定声源的训练位置li(i = l,2· · ·η)(单位:角度),使用若干个麦克风 阵列记录声源发出的混响信号Xji(i = l,2· · ·η,」_ = 1,2· · ·πι);
[0012] 步骤2:利用记录下的混响信号)^,根据具体要求,加入一定信噪比的高斯白噪声, 对混响信号计算处理生成信号的相位变换广义互相关函数R 1;
[0013] 步骤3:利用得到的相位变换广义互相关函数心产生对应声源位置h的特征向量 Yi;
[0014] 步骤4:处理特征向量Yi对应的特征数据集yi,将数据集划分为训练数据集和测试 数据集;
[0015] 步骤5:对训练数据集使用集成学习方法,弱学习器选择常用的决策树,训练出集 成学习分类器;
[0016] 步骤6:使用得到的集成学习分类器进行测试,识别出声源的位置。
[0017]进一步,步骤2中,所使用的特征为相位变换广义互相关函数,特征的计算过程包 括如下步骤:
[0018] 步骤2-1:设声源位置为1 i,则产生出混响时间为T的房间脉冲响应h (1 i,k) i,说话 人语音为s(k),使用m个麦克风组成麦克风阵,则麦克风接受到的信号为Xn(k)=h(li,k)*s (k)(n = l,2,· · · m);
[0019] 步骤2-2:对步骤2-1得到的信号Xn(k),分加汉宁窗采集数据,对每帧信号数据,可在频域计算出它们之间的广义互相关函数 其中 > Φΐη,2η( ω )为加权函数,此处使用相位变换加权函数(PHAT)
能增 强互相关函数的抗混响能力;
[0020] 步骤2-3:将步骤2-2得到的所有的对应所有位置的广义互相关函数Μτ)作预处 理转化为分类算法的训练数据和测试数据。其中round是取整函 数,D是麦克风间距离,fs是采样频率,c是声速,因子α设为1.67,则取得的数据集为 γ全「4Ό i?(-rirax+l) i?(-rlmx+2)...及(^郷-2) 按一定比例 -*· L. J. > 3 5 随机划分Y就得到了训练数据集Ytrain和测试数据集Ytest。
[0021] 作为优选方案,步骤2-2中所述采集数据的方式为帧长512个采样点,帧移256个采 样点,共使用200帧的数据。
[0022]同样,作为优选方案,步骤2-3中所述按一定比例随机划分Y是指按6:4的比例随机 划分Y。
[0023]进一步,步骤5中数据的分类和最后的定位使用了集成学习方法集成了决策树算 法。
[0024] 具体而言,作为优选方案,上述集成学习方法包括AdaBoost和Bagging方法。
[0025]与现有技术相比,本发明的有益效果在于:
[0026] 1.本发明通过使用相位变换广义互相关函数作为识别特征,利用分类识别的方法 来进行声源定位,能够克服传统的三类声源定位算法在室内条件,噪声、混响较为恶劣的环 境下定位性能急剧恶化,甚至无法定位的弱点。
[0027] 2.随着环境温度、湿度等的变化,以及器件的老化,经过一段时间后麦克风的特性 将发生变化,使得传统的麦克风阵的定位性能下降,本发明不需要对麦克风进行校正。 [0028] 3.本发明使用了集成学习算法。在实际应用中,想要直接构造一个拥有很高性能 的学习器模型是很难的,而集成学习算法常常能通过增加数据扰动提升学习器的性能,同 时得到的集成学习器不需要提前知道弱学习器的先验知识,也不容易过拟合。因此,可以很 容易地在一定基础上对模型的性能不断处理、改进。附图说明
[0029] 图1为本发明的方法流程图
[0030] 图2为模拟出的房间、麦克风阵以及声源的示意图。[0031 ]图3为模拟的房间平面图,以及位于90°位置上的声源的示意图。
[0032]图4为声源位于10°、50°位置上所对应的相位变换广义互相关函数。
[0033]图5为声源位于9个位置、混响时间为0.3S时四种方法的准确率比较图。
[0034]图6为声源位于9个位置时、混响时间为0.6S时四种方法定位的准确率比较图。

具体实施方式

[0035]下面结合说明书附图对本发明创造作进一步的详细说明。本发明的工作原理是通 过使用信号的广义互相关函数作为位置特征,将声源信号数据转化成特征数据集,再使用 集成学习技术(Bagging(装袋),AdaBoost(自适应提升)等)对特征数据进行训练和定位测 试,最终得到的集成学习分类器能很好地鉴别声源位置,克服了传统声源定位算法在恶劣 环境下性能损失严重的不足。
[0036]基于上述原理,本发明所采取的技术方案主要包括如下步骤:
[0037] 步骤1:设定声源的训练位置1,(1 = 1,2-11)(单位:角度),使用若干个麦克风阵列 记录声源发出的混响信号Xji(i = l,2···]!,j = l,2···ηι);
[0038] 步骤2:利用记录下的混响信号)^,根据具体要求,加入一定信噪比的高斯白噪声, 对混响信号计算处理生成信号的相位变换广义互相关函数R 1;
[0039] 步骤3:利用得到的相位变换广义互相关函数心产生对应声源位置h的特征向量 Yi;
[0040] 步骤4:处理特征向量Yi对应的特征数据集yi,将数据集划分为训练数据集和测试 数据集;
[0041]步骤5:对训练数据集使用集成学习方法(AdaB〇〇st,Bagging),弱学习器选择常用 的决策树,训练出集成学习分类器。;
[0042]步骤6:使用得到的集成学习分类器进行测试,识别出声源的位置。
[0043]如图1所示,本发明是一种混响和噪声环境下基于集成学习的室内声源定位方法, 该方法包含训练和定位两个阶段,在训练阶段对每个位置由互相关函数训练出集成学习器 模型,然后在定位阶段通过使用上一阶段训练出的模型来测试数据的互相关函数从而确定 声源的位置。下面将具体描述每一步的细节。
[0044] 本发明具体实施步骤,包括如下:
[0045] 步骤1:图2所示为模拟出的房间,和房间中的麦克风阵,以及位于170°位置上的声 源。使用matlab工具包roomsim模拟出7mX6mX3m的房间,使用2个麦克风组成麦克风阵,对 于声源位置为li(设相对麦克风阵的平方向角为10°、30°、…150°、170°,共9个位置,距离 为2m,图3即为声源位置为90°时的情况),产生出混响时间为T的房间脉冲响应h(1 i,k)i;语 音信号采用麻省理工大学的ΊΊΜΙΤ语音库的语音s(k)。使用2个麦克风组成麦克风阵,麦克 间距离为〇.3111,贝11麦克风接受到的信号为1 11(1〇=11(]^,1〇*8(1〇(11=1,2)。
[0046] 步骤2:对步骤1得到的信号X1(k)和X2(k),分帧加汉宁窗,帧长512个采样点,帧移 256个采样点,共使用200帧的数据。对每帧信号数据,可在频域计算出它们之间的广义互相其中Φι,2( ω )为加权函数,此处使用相位变换 9
能增强互相关函数的抗混响能力。图4为声源位于 9 10°、50°位置上所对应的相位变换广义互相关函数,可见声源在不同位置(声源10°、50°)时 对应的广义互相关函数是有差异的。
[0047]步骤3:将步骤2得到的所有的对应所有位置的广义互相关函数Μτ)作预处理转 化为分类算法的训练数据和测试数据其中round是取整函数,D是 麦克风间距离,fs是采样频率,c是声速,因子α设为1 .67。则取得的数据集为
。按6: 4的比例随机 划分Υ就得到了训练数据集Ytrain和测试数据集Ytest。
[0048]步骤4:利用步骤3得到的训练数据Ytrain,使用决策树算法训练分类器模型modell, 同时,分别使用AbaBoost和Bagging方法集成决策树训练分类器模型model2和modle3。 [0049] 步骤5:使用步骤4得到的模型111〇(1161、1]1〇(1162和1]1〇(1163对测试数据集¥1^1;进行定 位。
[0050]步骤6:结果比较分析,参数调整。将定位结果与传统的声源定位算法的定位结果 作对比测试(这里选择SRP-PHAT(可控响应功率-相位加权)算法),不断调整信噪比(纯净语 音,25(^,20(^,15(^,10(^,5(^),选择不同长度的混响时间(0.63和0.33)。最终定位结果如 图5,图6所示。图5为声源位于9个位置时,混响时间为0.3S,SRP-PHAT算法、决策树算法, AdaBoost和Bagging决策树方法在信噪比由纯净语音,25dB,20dB,15dB,lOdB直到5dB变化 时,以上四种方法的准确率。图6为声源位于9个位置时,混响时间为0.6S,SRP-PHAT算法、决 策树算法,AdaBoost和Bagging决策树方法在信噪比由纯净语音,25dB,20dB,15dB,10dB直 至lj5dB变化时,以上四种方法定位的准确率。可以发现本发明随着噪声和混响的加强,定位 准确率和鲁棒性都要强于经典的SRP-PHAT算法。
[0051]对本领域技术人员而言,根据上述实施类型可以很容易联想其他变形,如弱分类 器的选择,声源位置的选择,麦克风数量等。因此,本发明不局限于以上实例,其仅仅作为例 子对本发明的一种形态进行详细、示范性的说明。在不背离本发明宗旨的范围内,本领域技 术人员根据上述具体实例,通过各种等同替换所得到的技术方案,均应包含在本发明的权 利要求范围及其等同范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈