首页 / 专利库 / 电脑编程 / 算法 / 期望最大化算法 / 一种基于场景建模的公共场所异常声音检测方法

一种基于场景建模的公共场所异常声音检测方法

阅读:1028发布:2020-05-30

专利汇可以提供一种基于场景建模的公共场所异常声音检测方法专利检索,专利查询,专利分析的服务。并且本 发明 是一种基于场景建模的公共场所异常声音检测方法,该方法根据公共场所场景声音相对异常声音平均幅值小, 波动 范围较窄的统计特性,首先计算各场景声音 信号 的平均幅值,并基于期望最大化 算法 建立不同场景的高斯混合模型;然后求取待测 声音信号 与场景模型的似然度,进行似然度匹配,再基于多数投票原则和最小连续 帧 数的 阈值 条件判定待测声音帧是否为异常声音,从而实现异常声音的检测。本发明相对现有的异常声音检测方法,场景适应性更强,检测的错误率更低,同时检测的实时性和效率也较高。,下面是一种基于场景建模的公共场所异常声音检测方法专利的具体信息内容。

1.一种基于场景建模的公共场所异常声音检测方法,其特征在于:首先对公共场所的声音信号进行分处理,计算每帧信号的平均幅值;然后根据场景声音帧相对异常声音帧平均幅值小,波动范围较窄的统计特性,用EM算法训练场景音信号,建立适应于该场景的高斯混合模型,形成该场景的场景模型;最后计算待测声音信号与场景模型的似然度,并进行似然度匹配得出检测结果,即先将所得似然度与场景模型的似然度阈值进行比较,再基于阈值条件判定待测声音帧是否为异常声音,实现异常声音的检测;
所述方法具体包括场景建模和异常声音检测两个部分:
(1)场景建模的过程为:
(1.1)对训练数据中的场景声音样本和异常声音样本进行分帧处理,计算每帧声音信号的平均幅值;
(1.2)将每帧声音信号的平均幅值作为输入数据,针对不同场景建立表征场景的高斯混合模型,并利用训练数据中已知类别信息的场景声音样本和异常声音样本对建立的场景模型进行评估,基于等错误率原则确定场景模型的似然度阈值;
(2)异常声音检测的步骤为:
(2.1)对待测声音信号进行分帧预处理,计算每帧声音信号的平均幅值;
(2.2)根据应用场景的不同选择不同的场景模型,计算每帧信号与场景模型的似然度;
(2.3)对每帧声音信号进行似然度匹配,再判定待测声音帧是否为异常声音,实现异常声音检测。
2.如权利要求1所述基于场景建模的公共场所异常声音检测方法,其特征在于,似然度的计算方法为:在已建立场景模型的基础上,将每帧声音信号的平均幅值作为其概率密度函数的输入,计算该帧声音信号与场景模型中每个单高斯模型的似然度,并进一步根据每个单高斯模型的权值计算其与整个场景模型的似然度,计算公式如下:
其中,αj,μj,Cj为场景模型中每个单高斯模型的权值、均值和协方差矩阵,M为场景模型中单高斯模型的个数,Pixj为该帧声音信号与场景模型中每个单高斯模型的似然度,P为该帧声音信号与该场景模型的似然度,xk第k帧声音信号xk(m)的平均幅值。
3.如权利要求1所述基于场景建模的公共场所异常声音检测方法,其特征在于,进行似然度匹配的过程为:首先,通过当前帧信号似然度与场景模型似然度阈值的比较,初步判定当前帧声音信号为异常声音信号的可能性,当似然度小于似然度阈值时则初步判定当前帧信号为异常声音信号,否则为场景声音信号;然后,结合前一帧信号、当前帧信号和后一帧信号的类型初步判定结果,采用多数投票原则确定当前帧信号的类型;最后,通过对异常声音片段长度的统计分析,设置最小连续帧数阈值条件,基于该阈值滤除部分类似于异常声音的较短场景声音片段,检测出待测声音信号中的异常声音信号。
4.如权利要求1所述基于场景建模的公共场所异常声音检测方法,其特征在于,所述异常声音的判定方法为:设前一帧信号、当前帧声音信号、后一帧信号的初始类型分别为其中 为0或1,根据以下公式判定当前帧的最后类型Tk:
当Tk为1时,判定该帧信号为异常声音,为0时判定为场景声音。
5.如权利要求1所述基于场景建模的公共场所异常声音检测方法,其特征在于,对于公共场所的不同场景,利用场景声音建立表征场景的高斯混合模型的过程为:将训练数据中每帧场景声音样本的平均幅值作为建模的输入,利用期望最大化迭代算法进行训练,确定高斯混合模型参数,从而生成适应该场景的高斯混合模型。
6.如权利要求1所述基于场景建模的公共场所异常声音检测方法,其特征在于,所述公共场所的声音信号包含公共场所的多个场景声音以及其中可能存在的多种偶发异常声音。

说明书全文

一种基于场景建模的公共场所异常声音检测方法

技术领域

[0001] 本发明涉及一种声音信号处理技术,具体涉及公共场所异常声音检测方法。

背景技术

[0002] 防止威胁公共安全事件的发生是公共场所安全防范的主要目标之一。由于公共安全事件的发生常常伴有爆炸声、尖叫声、枪声、玻璃破碎声等各种异常声音,因此检测并识别声音信号中的异常声音对公共场所安全智能监控具有重要作用。
[0003] 公共场所异常声音检测的目的是从声音信号中检测出公共安全事件发生时产生的爆炸声、尖叫声、枪声、玻璃破碎声等异常声音片段,是一个二分类问题。目前,常用的异常声音检测方法为先利用信号端点检测技术从输入声音信号中分离出声音信号片段,然后提取该片段的特征,最后利用模式分类方法对特征进行分类,实现异常声音的检测。这种方法存在的不足主要表现在:(1)分类模型是预先训练好的,训练模型时使用的场景声音样本数量有限,导致模型可能无法准确描述场景变化;(2)训练分类模型时场景声音样本数量远大于异常声音样本数量,这种样本的不平衡会造成分类模型决策边界的不准,导致异常声音检测的准确性降低;(3)对信号片段进行分类前利用端点检测技术分离声音信号片段,需要占用较多的存储空间且处理的实时性不高。

发明内容

[0004] 为了解决上述问题,本发明从背景建模的度出发,给出了一种基于场景建模的公共场所异常声音检测方法。
[0005] 本发明提出的公共场所异常声音检测方法是针对公共场所的声音信号,首先对信号进行分处理,计算每帧信号的平均幅值;然后根据场景声音帧相对异常声音帧平均幅值小,波动范围较窄的统计特性,针对不同场景建立高斯混合模型,形成各场景相应的场景模型;最后求取待测声音信号与场景模型的似然度,通过设置似然度阈值与场景模型进行似然度匹配,再基于多数投票原则和最小连续帧数的阈值条件判定待测声音帧是否为异常声音,实现异常声音的检测。
[0006] 本发明方案具体包括场景建模和异常声音检测两个部分。
[0007] (1)场景建模的过程为:
[0008] (1.1)对训练数据中的场景声音样本和异常声音样本进行分帧处理,计算每帧声音信号的平均幅值。
[0009] (1.2)建立表征场景的高斯混合模型。首先,将训练数据中每帧场景声音样本的平均幅值作为建模的输入,利用期望最大化迭代算法进行训练,确定高斯混合模型参数,生成适应该场景的高斯混合模型;然后,利用训练数据中已知类别信息的场景声音样本和异常声音样本对建立的场景模型进行评估,基于等错误率原则确定场景模型的似然度阈值。
[0010] 为了使异常声音检测对各类公共场所的场景具有适应性,本发明对不同的场景分别建立独立的高斯混合场景模型;在进行异常声音检测时,根据应用场景的不同选择不同的场景模型。
[0011] (2)对待测声音信号进行异常声音检测的过程包括以下步骤:
[0012] (2.1)对输入的待测声音信号进行分帧处理,计算每帧声音信号的平均幅值。
[0013] (2.2)根据应用场景的不同选择不同的场景模型,计算每帧声音信号与场景模型的似然度。
[0014] 似然度的计算方法为:在已建立场景模型的基础上,将每帧声音信号的平均幅值作为其概率密度函数的输入,计算该帧声音信号与场景模型中每个单高斯模型的似然度,并进一步根据每个单高斯模型的权值计算其与整个场景模型的似然度。
[0015] (2.3)对每帧声音信号进行似然度匹配,实现异常声音检测。
[0016] 似然度匹配的方法:首先,通过当前帧信号似然度与场景模型似然度阈值的比较,初步判定当前帧声音信号为异常声音信号的可能性,当似然度小于似然度阈值时则初步判定当前帧信号为异常声音信号,否则为场景声音信号;然后,结合前一帧信号、当前帧信号和后一帧信号的初步判定结果,采用多数投票原则确定当前帧信号的类型。最后,通过对异常声音片段长度的统计分析,设置最小连续帧数阈值条件,基于该阈值滤除部分类似于异常声音的较短场景声音片段,检测出待测声音信号中的异常声音信号。
[0017] 本发明的优点在于:(1)对不同的场景建立不同的场景模型,克服了现有方法场景适应性差的缺点;(2)仅对场景进行建模,可以避免由于场景声音样本与异常声音样本不平衡而导致的检测不准确问题;(3)不需要利用端点检测来获得声音事件,检测的实时性和效率较高,占用存储空间较少。附图说明
[0018] 图1本发明方案的整体框图
[0019] 图2本发明方案中的场景建模图;
[0020] 图3本发明方案中的异常声音检测过程图。

具体实施方式

[0021] 下面结合附图,对本发明的具体实施方式作进一步的阐述。
[0022] 图1为本发明方案的整体框图,具体涉及一种基于场景建模的公共场所异常声音检测方法。该方法针对公共场所的声音信号,首先对场景音信号和待测声音信号进行预处理,即对信号进行分帧处理,并计算每帧信号的平均幅值;然后根据场景声音帧相对异常声音帧平均幅值小,波动范围较窄的统计特性,用EM算法训练场景音信号,建立适应于该场景的高斯混合模型,形成该场景的场景模型;最后计算待测声音信号与场景模型的似然度,并进行似然度匹配得出检测结果,即先将所得似然度与场景模型的似然度阈值进行比较,再基于多数投票原则和最小连续帧数的阈值条件判定待测声音帧是否为异常声音,实现异常声音的检测。
[0023] 本发明方案使用的声音信号是采样频率为16kHz,采样位数为16bit的公共场所声音,其中包含公共场所的多个场景声音以及其中可能存在的多种偶发异常声音。公共场所的场景声音由于其分布范围广,随机性大,其声音信号服从正态分布,特点为能量较小,能量波动范围较窄。而异常声音的能量比场景声音大,且分布比较集中,通过对公共场所中的场景声音建立模型,将待测声音信号与场景模型进行匹配,能够根据异常声音与场景声音的差异检测出公共场所中偶发的异常声音。
[0024] 本发明方案主要包括场景建模和异常声音检测两个部分。
[0025] 图2为本发明方案中的场景建模图,具体步骤为:
[0026] (1)对训练数据中的场景声音样本和异常声音样本进行分帧处理,计算每帧声音信号的平均幅值。
[0027] (2)建立表征场景的高斯混合模型。
[0028] 在步骤(1)中,对声音信号分帧的帧长为8ms,帧移为8ms,相邻两帧之间不重叠。
[0029] 对于声音信号中的第i帧信号xi(m)平均幅值的计算公式为:
[0030]
[0031] 其中xi表示第i帧信号的平均幅值,N为一帧声音信号中的数据点个数。
[0032] 步骤(2)中,对于公共场所的某个场景,利用场景声音建立表征场景的高斯混合模型的过程为:将训练数据中每帧场景声音样本的平均幅值作为建模的输入,利用期望最大化迭代算法进行训练,确定高斯混合模型参数,从而生成适应该场景的高斯混合模型。
[0033] 在该模型中,设单高斯模型的个数为M,每个单高斯模型的均值、方差矩阵分别为μj,Cj,j=1,2,…M,输入数据为一帧场景声音的平均幅值xi,那么该高斯混合模型为:
[0034]
[0035] 其中,αj为每个高斯分量所占的权重系数,满足:
[0036]
[0037] Nj(xi;μj,Cj)为每个高斯分量的概率密度函数,表示一帧信号与每个单高斯的似然度,定义为:
[0038]
[0039] 为了确定该高斯混合模型,即要确定每个单高斯的权重系数、均值、方差矩阵,本发明采用期望最大化训练算法,通过计算高斯混合模型的对数似然函数的最大值,即可确定上述参数。
[0040] 高斯混合模型的对数似然函数为:
[0041]
[0042] 期望最大化(EM)算法的流程为:
[0043] 1)初始化
[0044] 由k均值聚类算法对样本进行聚类,初始化一组参数,利用每个高斯分量的均值和方差矩阵作为μj0,Cj0,αj0为每个高斯分量所占的权重系数;
[0045] 2)估计步骤
[0046] 在高斯混合模型中估计输入样本数据由各个单高斯模型生成的概率,即输入样本的后验概率为:
[0047]
[0048] 其中,βij为输入样本属于第j个高斯分量的后验概率,n为样本个数,M为单高斯分量个数,N为每个高斯分量的概率密度函数,α为每个高斯分量所占的权重系数,Φ表示高斯模型中的各个参数。
[0049] 3)最大化步骤
[0050] 最大化高斯混合模型的对数似然函数来更新权值、均值和方差矩阵,公式如下:
[0051] 更新权值:
[0052]
[0053] 其中,βij为输入样本属于第j个高斯分量的后验概率,N为每个高斯分量的概率密度函数。
[0054] 更新均值:
[0055]
[0056] 其中,xi为输入样本,βij为输入样本属于第j个高斯分量的后验概率。
[0057] 更新方差矩阵:
[0058]
[0059] 其中,βij为输入样本属于第j个高斯分量的后验概率,xi为输入样本,μj为每个高斯分量的均值。
[0060] 4)确定收敛条件
[0061] 不断地迭代E和M步骤,重复更新上面三个值,直到满足条件:
[0062] |P(X|Φ)-P(X|Φ)'|<ε
[0063] 即前后两次迭代得到的结果变化小于一定程度则终止迭代,其中P为输入样本在高斯混合模型中的似然度,Φ表示高斯模型中的各个参数,通常ε<10-5。
[0064] 通过上述期望最大化迭代算法确定高斯混合模型各个高斯分量的参数,从而完成该场景的高斯混合模型建立。
[0065] 然后对场景模型设置似然度阈值,该阈值用来初步判定该帧声音信号的类型为异常声音还是场景声音。满足阈值时初步判定该帧声音信号为异常声音信号,用1表示,否则为场景声音信号,用0表示。似然度阈值确定方法为:利用训练数据中已知类别信息的场景声音样本和异常声音样本对建立的场景模型进行评估,基于等错误率原则确定场景模型的似然度阈值。
[0066] 上述过程完成了公共场所中的某一个场景对应的场景模型的建立过程,为了使异常声音检测对各类公共场所的场景具有适应性,本发明对公共场所的不同场景分别建立独立的高斯混合场景模型;在进行异常声音检测时,根据应用场景的不同选择不同的场景模型。
[0067] 图3为本发明方案中的异常声音检测过程图,主要包括以下几个步骤:
[0068] (1)对待测声音信号进行分帧预处理,计算每帧声音信号的平均幅值;
[0069] (2)计算每帧信号与场景模型的似然度;
[0070] (3)对每帧声音信号进行似然度匹配,实现异常声音检测。
[0071] 在步骤(1)中,本发明设置一帧待测声音信号的帧长为8ms,帧移为8ms,相邻两帧之间不重叠,平均幅值计算方法与图2场景建模过程中的方法相同。
[0072] 在步骤(2)中,对于第k帧声音信号xk(m),设其平均幅值为xk,通过以下公式计算一帧声音信号与场景模型中每个单高斯模型的似然度以及与该场景模型的似然度:
[0073]
[0074]
[0075] 其中,αj,μj,Cj为场景模型中每个单高斯模型的权值、均值和协方差矩阵,M为场景模型中单高斯模型的个数,Pixj为该帧声音信号与场景模型中每个单高斯模型的似然度,P为该帧声音信号与该场景模型的似然度。
[0076] 在步骤(3)中,通过当前帧信号似然度与场景模型似然度阈值的比较,初步判定当前帧声音信号为异常声音信号的可能性,当似然度小于似然度阈值时则初步判定当前帧信号为异常声音信号,用1表示,否则为场景声音信号,用0表示。
[0077] 在步骤(3)中,在似然度阈值初步判定每帧信号类型的基础上,再采用连续帧数投票原则进一步来确定当前帧信号为场景声音还是异常声音。连续帧数投票原则的判定方法为:设前一帧信号、当前帧声音信号、后一帧信号的初始类型分别为 ( 为0或1),根据以下公式判定当前帧的最后类型Tk:
[0078]
[0079] 当Tk为1时,判定该帧信号为异常声音,为0时判定为场景声音。
[0080] 在步骤(3)中,确定每一帧信号的类型后,通过对异常声音片段长度的统计分析,设置最小连续帧数筛选阈值,基于该阈值滤除部分类似于异常声音的较短场景声音片段,检测出待测声音信号中完整的异常声音。
[0081] 本发明的优点在于:(1)对不同的场景建立不同的场景模型,克服了现有方法场景适应性差的缺点;(2)仅对场景进行建模,可以避免由于场景声音样本与异常声音样本不平衡而导致的检测不准确问题;(3)不需要利用端点检测来获得声音事件,检测的实时性和效率较高,占用存储空间较少。
[0082] 为了验证本发明所述异常声音检测方法的性能,在家庭,办公室,ATM,行,商店等5个场景下分别进行了实验。首先,选取每个场景下时长为一小时的场景声音数据训练并建立该场景的高斯混合模型;然后,选取每个场景下除训练数据外的时长为一小时的场景声音作为测试数据,在测试数据中随机叠加200个枪声、爆炸声、玻璃破碎声和尖叫声等异常声音,形成待测数据。通过对该待测数据进行测试,计算本发明所述异常声音检测方法的误检率和漏检率。表1所示为本发明方法的实验结果。
[0083] 表1本发明方案实验结果
[0084]场景类型 漏检率 误检率
家庭 0.50% 0
办公室 0.50% 0
ATM 8.00% 9.50%
银行 5.00% 5.00%
商店 6.50% 6.50%
[0085] 实验结果表明:本发明方法在不同场景下对异常声音检测的漏检率和误检率均低于10%,其中家庭、办公室等场景相对于银行、商店等场景具有更低的漏检率和误检率。与现有异常声音检测方法相比,本发明所述异常声音检测方法对公共场所异常声音检测具有更低的错误率和更好的场景适应性,能够适应不同场景的应用。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈