热词 | 鸟声 鸟类 驱鸟 超声 超声波 识别 声音 样本 mfcc 卷积 | ||
专利类型 | 发明公开 | 法律事件 | 公开; 实质审查; |
专利有效性 | 实质审查 | 当前状态 | 实质审查 |
申请号 | CN202410601611.5 | 申请日 | 2024-05-15 |
公开(公告)号 | CN118525835A | 公开(公告)日 | 2024-08-23 |
申请人 | 国网江苏省电力有限公司盐城供电分公司; 国网江苏省电力有限公司双创中心; 国网江苏省电力有限公司; | 申请人类型 | 企业 |
发明人 | 张浩; 王爱军; 周洪益; 房旭; 徐浩; 宋钰; | 第一发明人 | 张浩 |
权利人 | 国网江苏省电力有限公司盐城供电分公司,国网江苏省电力有限公司双创中心,国网江苏省电力有限公司 | 权利人类型 | 企业 |
当前权利人 | 国网江苏省电力有限公司盐城供电分公司,国网江苏省电力有限公司双创中心,国网江苏省电力有限公司 | 当前权利人类型 | 企业 |
省份 | 当前专利权人所在省份:江苏省 | 城市 | 当前专利权人所在城市:江苏省盐城市 |
具体地址 | 当前专利权人所在详细地址:江苏省盐城市解放南路189号 | 邮编 | 当前专利权人邮编:224000 |
主IPC国际分类 | A01M29/18 | 所有IPC国际分类 | A01M29/18 ; G10L17/26 ; G10L17/02 ; G10L17/18 ; G10L25/18 ; G10L25/24 |
专利引用数量 | 0 | 专利被引用数量 | 0 |
专利权利要求数量 | 10 | 专利文献类型 | A |
专利代理机构 | 南京德吉成专利代理事务所 | 专利代理人 | 马良涛; |
摘要 | 本 发明 公开了一种基于 深度学习 鸟 声识别的智能 超 声波 驱鸟装置及方法,属于输变电设备驱鸟技术领域。所述智能 超声波 驱鸟装置构建了鸟类声音样本采集系统,采集变电站鸟类声音样本;构建鸟声识别特征提取模型,包括研制基于Conv‑STFT和Conv‑iSTFT的鸟声 频谱 特征的卷积编 解码器 ,建立鸟声多窗谱估计的谱减法,梅尔 倒谱 系数(MFCC)特征提取,从原始鸟类声音样本中得到鸟声的声学特征;基于 卷积神经网络 CNN构建鸟声识别模型,将从大量的原始语音数据中提取的声学特征作为 训练数据 ,对鸟声识别模型进行训练,得到未知鸟声的分类结果;构建超声波智能变频驱鸟模 块 ,以鸟类分类结果为依据启动超声波发生器,并深度学习驱鸟 频率 。 | ||
权利要求 | 1.一种基于深度学习鸟声识别的智能超声波驱鸟装置,其特征在于,包括: |
||
说明书全文 | 一种基于深度学习鸟声识别的智能超声波驱鸟装置及方法技术领域背景技术[0002] 近年来,随着生态环境的改善,鸟类活动对输电线路的安全和平稳运行的危害性日益显著。近年来,电网大力推进可视化线路建设,以可视化、智能化手段提高输电线路的巡检效率,输电通道可视化技术在隐患的及时发现、及时预警方面起到了重要作用,对输电线路的安全性、可靠性保障以及智能化提升方面都做出了突出贡献。尽管近年来输电通道可视化技术及与之相关的人工智能技术都取得了一定进展,但仍处于起步阶段,距离满足输电运维需求还有很长的路要走。要满足安全性、可靠性、智能化输电线路的需求,不但需要研究视觉技术,还应广泛研究听觉、触觉、嗅觉相关技术。 [0003] 鸟类活动作为导致输电线路故障的一个重要因素,越来越多针对鸟害的防治措施不断被采取,例如加强巡视排查,使用防鸟驱鸟装置等。但是面对整体防鸟区域范围广、杆塔多、识鸟难度大等问题,一般的措施很难起到针对性的防治效果。鸟类的图像及声音分类的准确识别及图像音频检索是解决输电线路环境中防治鸟害的重要方法。 [0004] 在实际应用中鸣声物种识别必须以鸣声的特征随时间保持稳定为前提。与人类语音识别相比,鸟类的叫声更加复杂多变,物种或个体之间的差异更难理解;在实际环境中采集的音频信号是有噪声的,包括环境噪声、其他生物体和人类活动的声音,以及信号传输过程中的干扰噪声。这些困难使得鸟类自动识别成为一项具有挑战性的任务,迫切需要在基础理论和关键技术方面开发创新的研究成果,为实现高效、无损、低干扰、大范围的监测做出强有力的贡献。 [0005] 鉴于上述的传统驱鸟器技术存在的问题,需要一种更有效的鸟声识别和智能驱鸟装置,大幅度降低了巡检作的人力成本并且增强了智能驱鸟器的有效性。 发明内容[0006] 为了解决上述问题,本发明提供一种基于深度学习鸟声识别的智能超声波驱鸟装置及方法,能够有效地驱赶鸟类,保障输电线路的安全运行。 [0007] 为实现上述目的,本发明提供一种基于深度学习鸟声识别的智能超声波驱鸟装置,包括电源模块,为超声发生器提供电力;传感器模块,用于采集鸟类的声音并将信号传递给控制模块;控制模块,用于对声音预处理并通过MFCC得到鸟声的声学特征,对声学特征进行识别并深度学习;超声波发生器,用于产生超声信号;安装支架,用于将装置安装在输电线路上。 [0008] 进一步的,本发明提出一种基于深度学习鸟声识别的智能超声波驱鸟方法,具体实施步骤包括: [0009] 通过传感器模块构建鸟类声音样本采集系统; [0010] 通过控制模块构建鸟声识别特征提取模型; [0012] 通过超声波发生器构建超声波智能变频驱鸟模块。 [0013] 进一步的,所述传感器模块包括声音传感器、运算放大器、A/D转换电路。声音传感器将声音的变化波形转化成电平信号输入至运算放大器,经放大处理后得到0‑10V的模拟电压信号,送至A/D转换电路,经A/D转换电路将电压信号转换成0‑4096的数字量信号得到原始鸟类声音样本。 [0014] 进一步的,所述构建鸟声识别特征提取模型的具体步骤包括: [0016] 建立鸟声多窗谱估计的谱减法,对同一个鸟声数据序列经过STFT变化后进行分段处理,通过多个正交的数据窗分别求出各段的功率谱,然后以各段的平均值作为谱估计,这样便能得到较小的估计方差,最后通过ISTFT将频域还原到时域,得到增强后的鸟声数据。 [0017] 将增强后的鸟声数据采用梅尔倒谱系数(MFCC)特征提取,得到鸟声的声学特征。 [0018] 进一步的,所述卷积编解码器通过Conv‑STFT将其转换到频域,然后通过频谱压缩调整频段清晰度,再通过复编码器进一步提取特征;并且提取两个不同通道的相位差,输入到基于复卷积网络的角相位编码器中,进一步提取其相位等空间信息。在特征融合后进行滤波,并将滤波后的特征叠加到滤波前的特征上,达到增强有效特征的目的。最后将特征送入解码器,反变换回频域,并通过iSTFT变换到时域。 [0019] 进一步的,所述卷积神经网络CNN包括卷积层、循环层、前馈层和阈值化。 [0020] 进一步的,所述鸟声识别模型在训练过程中,随着学习次数的增加,网络中的误差逐步减小直至收敛。为防止多轮迭代造成鸟声识别模型过拟合,在训练过程中把一部分鸟声训练样本作为验证集,对每次迭代后的网络进行验证。训练过程结束后,将待测的鸟声的声学特征输入已训练好的网络模型,便可得到未知鸟声的分类结果。 [0021] 进一步的,所述构建超声波智能变频驱鸟模块的具体步骤包括: [0022] 1)通过鸟声识别模型中的分类结果为鸟类这一信号启动超声波发生器,开始以一定的频率工作。 [0023] 2)工作短暂时间,若分类结果信号未改变且仍然存在,改变超声波的频率;重复改变不同的频率,直至分类结果信号改变或消失。 [0024] 3)存储器存储驱赶该鸟类最佳频率区间,并反馈给鸟类识别模型,让其在识别出该鸟类时能使超声波工作在最佳频率区间,并自动在区间内改变频率,避免该鸟类的适应性。 [0025] 进一步的,所述控制模块还包括远程通信模块,能够将装置的工作状态传输到远程监控中心。 [0026] 进一步的,所述超声波发生器包括多个超声探头,能够向不同方向发射超声信号。 [0027] 进一步的,所述超声波发生器可发出多种不同频率和强度的超声信号,以适应不同种类的鸟类。 [0028] 进一步的,所述超声波发生器可深度学习驱赶不同鸟类的最佳频率区间,并自动在区间内改变频率,避免该鸟类的适应性。 [0029] 与现有技术相比,本发明的有益效果: [0030] 一种基于深度学习鸟声识别的智能超声波驱鸟装置,具有识别准确、智能化程度高等优点,一方面,使得变电站检测人员摆脱机械、繁琐的鸟类识别统计工作,减少人工检测的弊端,节省了人力资源和时间成本,提高了鸟类识别率,避免了防鸟区域范围广时识鸟难度大、针对性不高的问题;另一方面,也有利于生态环境的保护,增强了生态的可持续发展,为鸟害的防治提供了及时、有效的信息,拥有很大的实用价值。附图说明 [0031] 图1为本发明一种基于深度学习鸟声识别的智能超声波驱鸟方法实现流程图; [0032] 图2为本发明一种基于深度学习鸟声识别的智能超声波驱鸟方法中卷积编解码器结构图; [0033] 图3为本发明一种基于深度学习鸟声识别的智能超声波驱鸟方法中谱减法和梅尔倒谱系数特征提取过程; [0034] 图4为本发明一种基于深度学习鸟声识别的智能超声波驱鸟方法鸟声增强前后的频谱对照图; [0035] 图5为本发明一种基于深度学习鸟声识别的智能超声波驱鸟方法中多窗谱估计谱减法鸟声去噪前后的时域对比图。 具体实施方式[0036] 下面结合附图对本发明一种基于深度学习鸟声识别的智能超声波驱鸟装置及方法的具体实施方式做详细阐述。 [0037] 具体的,本发明提出一种基于深度学习鸟声识别的智能超声波驱鸟装置,其特征在于,包括: [0038] 电源模块、传感器模块、控制模块、超声波发生器、和安装支架, [0039] 所述电源模块为超声发生器提供电力; [0040] 所述传感器模块,用于采集鸟类的声音并将信号传递给控制模块; [0041] 所述控制模块,用于对声音预处理并通过MFCC得到鸟声的声学特征,对声学特征进行识别并深度学习; [0042] 所述超声波发生器,用于产生超声信号; [0043] 所述安装支架,用于将所述智能超声波驱鸟装置安装在输电线路上。 [0044] 所述控制模块还包括远程通信模块,能够将所述智能超声波驱鸟装置的工作状态传输到远程监控中心。 [0045] 所述超声波发生器包括多个超声探头,能够向不同方向发射超声信号; [0046] 所述超声波发生器能够发出多种不同频率和强度的超声信号,以适应不同种类的鸟类; [0047] 所述超声波发生器能够深度学习驱赶不同鸟类的最佳频率区间,并自动在区间内改变频率,避免该鸟类的适应性。 [0048] 所述传感器模块包括声音传感器、运算放大器、A/D转换电路;所述声音传感器将声音的变化波形转化成电平信号输入至所述运算放大器,经放大处理后得到0‑10V的模拟电压信号,送至所述A/D转换电路,经所述A/D转换电路将电压信号转换成0‑4096的数字量信号得到原始鸟类声音样本。 [0049] 具体的,如图1所示,本发明的基于深度学习鸟声识别的智能超声波驱鸟装置的智能超声波驱鸟方法,包括:构建鸟类声音样本采集系统,采集变电站鸟类声音样本;构建鸟声识别特征提取模型,通过基于Conv‑STFT和Conv‑iSTFT的鸟声频谱特征卷积编解码器和鸟声多窗谱估计的谱减法实现鸟声样本去噪增强,并利用梅尔倒谱系数(MFCC)对去噪样本进行特征提取,得到鸟声的声学特征;构建基于卷积神经网络CNN的鸟声识别模型,将从大量的原始语音数据中提取的声学特征作为训练数据,对鸟声识别模型进行训练,并利用训练好的鸟声识别模型对新监测的鸟类声音样本进行识别,得到未知鸟声的分类结果;构建超声波智能变频驱鸟模块,分类结果为鸟类启动超声波发生器,并深度学习驱鸟频率。 [0050] 具体的,图2详细描述了该发明的鸟声识别特征提取模型中去噪用的卷积编解码器结构。在输入音频后,首先通过Conv‑STFT将其转换到频域,然后通过频谱压缩调整频段清晰度,再通过复编码器进一步提取特征,然后提取两个不同通道的相位差,输入到基于复卷积网络的角相位编码器中,进一步提取其相位等空间信息。在特征融合后进行滤波,并将滤波后的特征叠加到滤波前的特征上,达到增强有效特征的目的。最后将特征送入解码器,反变换回频域,并通过iSTFT变换到时域,得到去噪增强后的鸟类声音样本。 [0051] 根据编解码器结构图设计量化编解码对抗训练损失函数,如下式所示: [0052] [0053] 其中重建损失用于衡量原始输入x和重建输出zq(x)的相似度,进而优化编解码器参数,第二项量化损失是最小化编码向量ze(x)和最近的码本向量ek之间的距离,但码本空间的梯度先停止,只更新编码器的参数。最后一项承诺损失只用于更新码本空间的参数,采用指数平均法,而不是梯度信息,避免了后验崩塌的问题。 [0054] 对齐损失函数如下式所示: [0055] [0056] 其中xt和xt+1为时序连续的两个输入的编码表示。 [0057] [0058] 其中θenc为损失函数样本集,θdis为损失函数训练样本, 为解码器损失函数训练样本,pdis为编码器损失函数训练样本,y为给定标签,z为码本表示。 [0059] 量化对抗训练的总损失函数为 [0060] L=lVQ+Lalign+Ldis [0061] 上述公式采用lVQ、Lalign、Ldis三个损失函数训练量,其中lVQ为基础损失函数,Lalign为对比损失函数,Ldis为鉴别损失函数。 [0062] 具体的,对比函数如下式所示: [0063] [0064] 其中, 和 为分别从两个不同的加噪样本中生成的原始数据,然后通过对比损失拉近 和 和x0的距离,确保重建的原始样本分布正确,并继续从该分布中采样、逆扩散、生成干净样本。 [0065] 重构逆扩散函数如下式所示: [0066] [0067] 其中xt‑1,xt为逆扩散过程中选取的样本, 为鉴别器。 [0068] 扩散生成器的目标损失函数如下式所示: [0069] [0070] 其中Lreconst为基础损失函数, 为扩散后所生成样本。 [0071] 具体的,图3详细描述了该发明的鸟声识别特征提取模型中谱减法和梅尔倒谱系数(MFCC)特征提取过程。A、B、C、D四条路径分别对应四种常用时频谱图的生成流程,路径A展示了线性灰度谱的生成流程,在简单的预处理后,音频数据变为格式固定的声音片段,随后进行离散与快速傅里叶变换(DFT),在对变换结果取模后,进行归一化处理,得到最终的线性灰度谱图。路径B是在对变换结果取模后又再次进行了对数变换,然后经过归一化处理得到了对数灰度谱。C路径和D路径分别代表了对数梅尔特征与梅尔频率倒谱系数的生成流程,MFCC的不同之处就在于在梅尔滤波器后接入了离散余弦变换(DCT)。 [0072] 在一个实施例中,所述鸟声识别特征提取模型包括多窗谱估计的谱减法; [0074] [0075] 以i为中心前后各取M帧,共有2M+1帧进行平均。 [0076] 把分帧后的信号Xi(m)进行多窗谱估计,得到多窗谱功率谱密度P(k,i)(i表示第i帧,k表示第k条谱线)。 [0077] P(k,i)=PMTM[Xi(m)] [0078] 式中,PMTM表示多窗谱功率谱密度估计。 [0079] 计算平滑功率谱密度Py(k,i)。 [0080] [0081] 前导无声段(噪声)对应的帧数为NIS,可以计算出噪声的平均功率谱密度值Pn(k)。 [0082] [0083] 利用谱减关系计算增益因子: [0084] [0085] 式中,a为过减因子;b为增益补偿因子。 [0086] 通过增益因子g(k,i)和平均幅度谱 可求得谱减后的幅度谱: [0087] [0088] 用谱减后的幅度谱X′i(k)结合步骤中的相位谱θi(k)进行iSTFT,将频域X′i(k)还原到时域,就得到减噪后的信号X′i(m)。 [0089] 具体的,图4给出了鸟声增强前后的频谱对照图,图(a)为干净语音频谱图,图(b)为含噪语音频谱图,图(c)为Conv‑STFT增强后的频谱图,图(d)为Conv‑iSTFT增强后的频谱图。 [0090] 具体的,图5给出了鸟声去噪前后的时间域对比图,谱减法去噪后纯净语音成分的时域波形更加突出,降低了波形失真程度,使得语音信号的增强效果更为明显。 [0091] 根据本公开的实施例,本公开提供的鸟类声音识别模型为N层级联结构的卷积神经网络CNN,N>1,其中每层级联结构中包括依次连接的特征提取层、双路径时频联合建模单元、跳跃连接层和辅助分支分类器,将预处理后的鸟类声音样本数据输入到N层级联结构的鸟类模型中进行训练,得到N个分类结果,然后再根据N个分类结果得到鸟类的分类结果,具体表现为:通过将预处理后的鸟类声音样本数据输入到特征提取层进行提取输出第一特征数据、将第一特征数据输入至双路径时频联合建模单元内,可以实现时间频率结构的局部特征的特征提取、同时还能够对时间依赖关系和频率依赖关系的全局依赖关系进行构建,得到第二特征数据。以及得到的将第二特征数据输入输入至跳跃连接层内,将跳跃连接层输出的第三特征数据分别输入到辅助分支分类器进行分类和下一层级联结构中进行特征提取、分类处理,以此充分考虑不同层级联结构中的不同层次的分类结果对最终鸟类的分类结果的影响,有效提升鸟类声音识别模型对目标鸟类声音识别的精度。 [0092] 具体的,本公开提供的特征提取层是由两层卷积核大小为3*3步长为1的卷积层、批归一化和激活函数层及平均池化层堆叠而成,其中,激活函数层为线性整流函数,平均池化层采用自适应平均池化层,特征提取层进行特征提取的过程可以表示如下式所示: [0093] y=Favg(F3*3(F3*3(x))) [0094] 其中,x为预处理后的鸟类声音样本数据或i‑1层级联结构中跳跃连接层的第三特征输出,i≤N,N>1;F3*3(x)表示经第一卷积层、批归一化、激活函数层处理后的输出;F3*3(F3*3(x))表示经第二卷积层、批归一化、激活函数层处理后的输出;Favg表示经平均池化层处理后的第一特征数据。 [0096] 具体的,标准的MFCC只反映了语音参数的静态特性,阶差分MFCC(△MFCC)是一种动态参数,反映了语音参数的动态特性,有较好的鲁棒性,在一阶差分MFCC的基础上,还可以进一步计算出二阶差分MFCC,信号参数化方法和先进的模式识别技术实现了对鸟类声音的自动鉴别,提出的自动鉴定方法用MFCC作为声音特征、GMM作为分类器,该方法在识别多类鸟声音时取得的平均识别率为98.95%,鉴别一个1s左右的声音样本所需要的时间为300ms左右,从识别正确率和识别时间上都表现出了良好的性能。 [0097] 具体的,所述鸟声识别模型包括: [0098] 卷积层:将提取的鸟声的声学特征输入到具有二维卷积滤波器的CNN层。对于每个CNN层,在通过激活函数ReLu传递特征图输出后,使用非重叠最大池化来降低数据的维数并提供更多的频率不变性。 [0099] 循环层:将卷积层的输出作为帧序列 馈送到循环层。循环层由Lr个堆叠递归层组成,每个层计算并输出每个帧的隐藏向量ht。 [0100] [0101] [0102] [0103] 式中:函数F可以表示长短时记忆单元,具有两个输入:前一循环层的当前帧的输出 和当前层的前一帧输出 [0105] [0106] 式中:G表示具有sigmoid激活的前馈层,前馈层对从每一帧提取的特征应用相同的权重集; 为循环层的输出; 为经过一层前馈层后的输出。 [0107] 阈值化:前馈层的输出 用来计算每个类的事件活动概率,当k=1,2,3,...,k的时候: [0108] 式中:k表示类的数量;θ代表网络组合的所有层的参数; 表示前馈层的输出。p(yt(k)|X0:t,θ)是帧t中事件k的活动概率。经过神经网络的一系列卷积和池化操作之后,最后输出对应鸟类声音的预测概率值。 [0109] 具体的,所述混合高斯模型的构建公式如下: [0110] [0111] 式中, 为一个D维的随机向量, 为各成分的密度,且每个成分密度上一个D度可变的高斯函数,i的取值为1,2,…,M,Pi为混合权值,λ为参数。 [0112] 所述各成分的密度计算公式如下: [0113] [0114] 式中, 为均值向量,|∑i|为协方差矩阵,且混合权值满足关系 D为可变的高斯函数,exp为指数函数。 [0115] 具体的,所述高斯混合模型的密度由所有成分的均值向量、协方差矩阵及混合权值参数化组成。 [0117] 计算平均混合权值,计算公式如下: [0118] [0119] 则声音类别的后验概率计算如下: [0120] [0121] 式中,λ为参数,Pi为混合权值, 为第i成分的密度,Pk为新的权值, 为第k成分的密度,i、k均为鸣声样本中的数值。 [0122] 具体的,超声波智能变频驱鸟模块包括: [0123] 通过鸟声识别模型中的分类结果为鸟类这一信号启动超声波发生器,开始以一定的频率工作。 [0124] 工作短暂时间,若分类结果信号未改变且仍然存在,改变超声波的频率;重复改变不同的频率,直至分类结果信号改变或消失。 [0125] 存储器存储驱赶该鸟类最佳频率区间,并反馈给鸟类识别模型,让其在识别出该鸟类时能使超声波工作在最佳频率区间,并自动在区间内改变频率,避免该鸟类的适应性。 [0126] 具体的,在基于学习器的预测情况排序样例时,可以将学习器预测的“最有可能”的驱鸟频率的样本排在前面,反之,把学习器预测的“最不可能”的驱鸟频率的样本排在后面,按这个次序逐一将样本视为正例进行预测,这样可以计算出当前的驱逐率和精确率。 |