专利汇可以提供人工智能CNN、LSTM神经网络语音识别系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种 人工智能 CNN、LSTM神经网络 语音识别 系统,包括麦克 风 (100)、 服务器 (200)、 卷积神经网络 (300)、长短时记忆神经网络(400)、人工智能预警 操作系统 (500)、 云 计算(600)、与云 数据库 语音黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模 块 (900)。本发明通过人工智能CNN、LSTM神经网络语音识别系统用麦克风采集的 音频流 进行分 帧 、 加窗 、降噪处理,生成短时单帧 信号 ,进而对短时单帧信号进行一系列与语音相关的技术处理,包括 关键词识别 、连续语音识别、语法分析、 情感分析 识别;实现麦克风周边监测范围内全天候24小时不间断监控,用户可实现信息共享,提高信息资源利用率,为维护社会治安稳定加大安全保障。,下面是人工智能CNN、LSTM神经网络语音识别系统专利的具体信息内容。
1.人工智能CNN、LSTM神经网络语音识别系统,其特征在于:包括:麦克风(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)、与云数据库语音黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)。
2.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述麦克风(100)用于采集到的声音信号转换为电信号,由音频电路模块接收再转换为音频数据,再将音频数据进行分帧、加窗、降噪处理,生成短时单帧信号,进而对短时单帧信号进行一系列与语音相关的技术处理,包括关键词识别、连续语音识别、语法分析、语义分析、情感分析识别。
3.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作系统(500)、云计算(600)模块、与云数据库人脸黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900),所述服务器(200)用于为网络系统中客户端提供各种高性能计算的服务,服务器在人工智能预警操作系统的控制下,将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云处理器、NPU神经网络云处理器、异构/可重构云处理器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接,为远程监控客户端提供集中计算、信息发布及数据管理的服务。
4.根据权利要求1所述种人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述卷积神经网络(300)包括输入层、卷积层C1、卷积层C2、最大值池化层S3、卷积层C4、卷积层C5、平均值池化层S6、Dropout层、输入长短时记忆神经网络,先创建一套处理数据的脚本:
第一,文字分词中文按照jieba原理分词,英语分词按照空格分词,第二,建立一个包含所有词的词典,每个词在词典里面对应一个的编号,任意一个词都可以用一个N维的向量来表示,N是词典中包含的词的个数,假设一个词在词典中的编号是i,v是表示这个词的向量,vj是向量的第j个元素,第三,把段落按字典翻译成数字,变成一个array(数组),再将音频信号进行分帧、加窗、降噪处理,生成短时单帧信号,进而对短时单帧信号进行反傅里叶变换得到时域数据,并去除直流分量,求时域数据的功率谱,采用sinc函数低通滤波器,获取该帧的频谱包络,将得到的频谱包络特征序列输入卷积神经网络进行训练,更新卷积神经网络各层权值,对卷积神经网络卷积层C1进行初始化操作,对卷积层和Dropout层的卷积核和权重进行高斯分布随机初始化,均值设为0,方差设为0.001,对偏置进行全0初始化,再对卷积神经网络进行训练,步骤如下:
a)输入层:将所有语音信号进行预处理,假设每条数据记录中包含有80个时间片(数据是以20Hz的采样频率进行记录的,每个时间间隔中就包含有4秒的加速度计数据),在每个时间间隔内,存储加速度计的x轴、y轴和z轴的三个数据。这样就得到了一个80×3的矩阵。
把数据平展成长度为240的向量后输入卷积神经网络中,网络的第一层再将其变形为原始的80×3的形状;
b)1D卷积层C1:假设卷积层C1定义卷积核大小为10的滤波器,卷积神经网络在卷积层C1中学习到一个单一的特征。然后定义100个滤波器,卷积神经网络的卷积层C1中训练得到
100个不同的特性,卷积层C1的输出是一个71×100的矩阵,输出矩阵的每一列都包含一个滤波器的权值,在定义内核大小并考虑输入矩阵长度的情况下,每个过滤器将包含71个权重值;
c)1D卷积层C2:卷积层C1的输出结果将被输入到卷积层C2中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为62×100;
d)最大值池化层S3:为了减少输出的复杂度和防止数据的过拟合,选择大小为3的池化层,这样输出矩阵的大小为20×100;
e)1D卷积层C4:池化层S3的输出结果将被输入到卷积层C4中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为11×160;
f)1D卷积层C5:卷积层C4的输出结果将被输入到卷积层C5中,在这个网络层上再次定义100个不同的滤波器进行训练,按照与卷积层C1相同的逻辑,输出矩阵的大小为2×160;
g)平均值池化层S6:为进一步避免过拟合的发生,这次的池化取神经网络中两个权重的平均值,输出矩阵的大小为1×160,每个特征检测器在神经网络的这一层中只剩下一个权重;
h)Dropout层:Dropout层会随机地为网络中的神经元赋值零权重,由于选择了0.5的比率,则50%的神经元将会是零权重,通过这种操作,网络对数据的微小变化的响应就不那么敏感了,因此,它能够进一步提高对不可见数据处理的准确性,Dropout层的输出仍然是一个1×160的矩阵,再将长度为160的向量输出值输入到长短时记忆神经网络(400)进行情感分析运算;
k)将卷积神经网络进行权值初始化,输入数据,重复步骤(a)~(h),前向传播得到输出值,求出卷积神经网络的输出值与目标值之间的误差,当误差大于期望值时,将误差传回卷积神经网络中,用BP反向传播算法进行监督训练,求出结果与期望值的误差,再将误差一层一层的返回,计算出每一层的误差,进行权值更新,依次为Dropout层、平均值池化层S6、卷积层C5、卷积层C4、最大值池化层S3、卷积层C2、卷积层C1的误差,以求得卷积神经网络的总误差,再将误差传入卷积神经网络中,求得该各层对于总的误差应该承担多少比重,在训练卷积神经网络时,通过不断改变卷积神经网络中所有参数,使损失函数不断减小,当误差等于或小于期望值时,证明已训练出高精度的卷积神经网络模型,结束训练;
l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试,通过步骤(a)~(h)得到分类结果标签向量,最大值元素所在标号表示该语音频谱为本次测试语音频谱的类别标签,实现语音识别。
5.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门,LSTM用两个门来控制单元状态c的内容,一个是遗忘门,它决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct,t-1时刻的输入ht-1和xt经过一个线性变换+sigmoid激活以后输出ft,ft再与ct-1进行相乘得到一个中间结果,另一个是输入门,它决定了当前时刻网络的输入xt有多少保存到单元状态ct,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出lt,同时ht-1和xt经过另一个线性变换+tanh激活以后,与lt相乘得到一个中间结果,这个中间结果和上一步的中间结果相加得到ct,所谓输出门,LSTM用输出门来控制单元状态ct有多少输出到LSTM的当前输出值ht,t-1时刻的输入ht-1和xt经过另外一个线性变换+sigmoid激活以后输出ot,ot与经过tanh的ct相乘得到ht,这里c、x、h都是向量,LSTM记忆单元时间序列数据包括语言模型、手写体识别、序列生成、机器翻译、语音分析、视频分析,这里的序列指的是时间向量序列,假设时间序列为:
X{x1,x2,...xN}
时间序列模型为:
将卷积神经网络Dropout层长度为160的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出,输出向量经过softmax函数进行转换,输出情感分类标签向量,看是消极情感还是积极情感;
对长短时记忆神经网络进行前向训练,步骤如下所示:
a)遗忘门的计算,公式如下所示:式1
ft=σ(wf·[ht-1,xt]+bf)
式1中wf表示遗忘门的权重矩阵,[ht-1,xt]表示把两个向量连接成一个更长的向量,bf表示遗忘门的偏置项,σ表示sigmoid函数,如果输入的维度式dx,隐藏层的维度是dh,单元状态的维度是dc(通常dc=dn),则遗忘门的权重矩阵wf维度是dc×(dh+dx),事实上,权重矩阵wf都是由两个矩阵拼接而成的,一个是wfh,它对应着输入项ht-1,其维度为dc×dh,一个是wfx,它对应着输入项xt,其维度为dc×dx,wf可以写为,公式如下所示:
b)输入门的计算,公式如下所示:
it=σ(wi·[ht-1,xt]+bi) 式2
式2中wi表示输入门的权重矩阵,bi表示输入门的偏置项,下面计算用于描述当前输入的单元状态 它是根据上一次的输出和本次输入来计算的,公式如下所示:
计算当前时刻的单元状态ct,它是由上一次的单元状态ct-1按元素乘以遗忘门ft,再用当前输入的单元状态 按元素乘以输入门it,再将两个积加和产生的,公式如下所示:
符号ο表示按元素乘,这样就把LSTM关于当前的记忆 和长期的记忆ct-1组合在一起,形成了新的单元状态ct,由于遗忘门的控制,它可以保存很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆;
c)输出门的计算,公式如下所示:
ot=σ(wo·[ht-1,xt]+bo) 式5
输出门它控制了长期记忆对当前输出的影响,LSTM最终的输出,是由输出门和单元状态共同确定的,公式如下所示:
d)对长短时记忆神经网络进行反向传播训练,LSTM反向传播计算每个神经元的误差项δ值,LSTM误差项的反向传播包括两个方向,一个是沿时间的反向传播,即从当前t时刻开始计算每个时刻的误差项,另一个是将误差项向上一层传播,步骤如下:
设定gate的激活函数为 函数,输出的激活函数为tanh函数,它们的导数分别为,公式如下所示:
σ′(z)=y(1-y)
tanh′(z)=1-y2
上式中sigmoid和tanh函数的导数都是原函数的函数,一旦计算原函数,就可以用它来计算出导数的值,LSTM需要学习的参数共有8组,分别是遗忘门的权重矩阵wf和偏置项bf、输入门的权重矩阵wi和偏置项bi、输出门的权重矩阵wo和偏置项bo、以及计算单元状态的权重矩阵wc和偏置项bc,权重矩阵的两部分在反向传播中使用不同的公式,在后续的推导中权重矩阵wf、wt、wo、wc都将被写为分开的两个矩阵:wfh、wfx、wih、wix、woh、wox、wch、wcx;
e)按元素乘ο符号,当ο作用于两个向量时,运算公式如下所示:
当ο作用于一个向量和一个矩阵时,运算公式如下所示:
当ο作用于两个矩阵时,两个矩阵对应位置的元素相乘,公式如下所示:
当一个行向量右乘一个对角矩阵时,相当于这个行向量按元素乘矩阵对角线组成的向量,公式如下所示:
在t时刻,LSTM的输出值为ht,定义t时刻的误差项δt为,公式如下所示:
假设误差项是损失函数对输出值的导数,需要定义四个加权输入对应的误差项,公式如下所示:
netf,t=wf[ht-1,xt]+bf
=wfhht-1+wfxxt+bf
neti,t=wi[ht-1,xt]+bi
=wihht-1+wixxt+bi
neto,t=wo[ht-1,xt]+bo
=wohht-1+woxxt+bo
f)沿时间反向传递误差项,计算出t-1时刻的误差项δt-1,公式如下所示:
利用全导数公式得出式七,公式如下所示:
求式七中每个偏导数,公式如下所示:
根据式六求出:
根据式四求出:
因如下运算:
ot=σ(neto,t)
neto,t=wohht-1+woxxt+boft=σ(netf,t)
netf,t=wfhht-1+wfxxt+bf
it=σ(neti,t)
neti,t=wihht-1+wixxt+bi
所得出偏导数,公式如下所示:
将上述偏导数带入到式七中得到式八,公式如下所示:
根据δo,t、δf,t、δt,t、 的定义,得到式九、式十、式十一、式十二,公式如下所示:
从式八到式十二是误差项沿时间反向传播的时刻公式,根据式八到式十二求得误差项向前传递到任意k时刻的十三公式,公式如下所示:
g)将误差项传递到上一层,假设当前为第I层,定义I-1层的误差项是误差函数对I-1层加权输入的导数,公式如下所示:
LSTM的输入xt,公式如下所示:
上式中,fl-1表示第I-1层的激活函数,求E对 的导数,用全导数公式将误差传递到上一层,公式如下所示:公式十四
h)权重梯度的计算,wfh、wih、wch、woh的权重梯度是各个时刻梯度之和,首先求出它们在t时刻的梯度,公式如下所示:
将各个时刻的梯度加在一起,得到最终的梯度,公式如下所示:
求bf、bi、bc、bo各个时刻的偏置项梯度,公式如下所示:
将各个时刻的偏置项梯度加在一起,公式如下所示:
根据误差项,求wfx、wix、wcx、wox的权重梯度,公式如下所示:
i)将长短时记忆神经网络每个输出值进行均值池化,输出向量经过softmax函数进行转换,输出情感分类标签向量,最大值元素所在标号表示该频谱属于该类别标签的语音,看是消极情感还是积极情感;
j)最后使用交叉熵误差函数作为优化目标对模型进行优化,公式如下所示:
上式中,N是训练样本的个数,向量yn是样本的标记,向量on是网络的输出,标记yn是一个one-hot向量;
k)跳转到第(a)步,输入数据,重复步骤(a)~(j),直至网络误差小于给定值,证明已训练出高精度的长短时记忆神经网络模型,结束训练;
l)采集预处理后的语音频谱序列中任意一张语音频谱进行测试,通过步骤(a)~(j)得到情感分类结果标签向量,最大值元素所在标号表示该语音频谱为本次测试语音频谱的情感类别标签,实现语音识别。
6.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述人工智能预警操作系统(500)基于Linux操作系统架构的基础上开发的AI人工智能预警操作系统,该系统包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化信息网络平台系统,用于管理和控制计算机硬件、软件及数据资源的计算机运行程序,用于各级人工智能预警系统与互联网+分布式预警警亭沟通的接口,用于云计算、云存储、云数据库和人工智能预警系统、互联网+分布式预警警亭及其他软件沟通的接口,用于多维人机物协同互操作系统与移动设备和智能电视的通讯接口,用于人机界面为其它应用软件提供支持,包括类脑神经网络系统、多维人机物协同互操作系统、公共安全智能化监测预警与防控系统、自主无人伺服系统、天地一体化网络信息平台系统、智能物联与风险因素数据采集系统、风险因素管理系统,人工智能预警操作系统(500)子系统包括语音识别系统、机器视觉系统、执行器系统、认知行为系统,文件系统、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。
7.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述云计算(600)基于开源Hadoop架构进行设计,利用集群优势进行高速运算和存储,云计算(600)包括基础设施即服务、平台即服务、软件即服务,用于计算分布式计算机上的风险因素识别模块、风险因素推理模块、风险因素评估模块、通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻与海量的数据信息进行对比分析,分级推理、预警值评估,之后再将处理结果回传给用户并进行云存储。
8.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述与云数据库语音黑名单对比分析(700)模块,所述云数据库包括原始语音信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集语音信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库,所述云数据库用于云计算(600)系统的集群应用,将分布式系统文件通过应用软件集合起来协同工作,为用户提供数据存储和业务访问的工作,通过设置在线数据存储模块,存储模块内储存有人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单,将采集的人脸图像、动态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比,如果相似度达到预设的预警值,则预警系统及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警系统进行风险管理评价。
9.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述确定目标人物身份(800)模块用于处理与云数据库语音黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警系统的信息,并根据云计算(600)通过与云数据库语音黑名单对比分析(700)传送的数据进行实时信息更新,用于存储所述人工智能预警系统(500)对云数据库信息查阅所生成的信息数据。
10.根据权利要求1所述的人工智能CNN、LSTM神经网络语音识别系统,其特征在于:所述本地数据库模块(900)用于存储本级人工智能预警操作系统所生成的预警信息,用于存储向上一级人工智能预警操作系统发送的信息及反馈信息,用于存储向云计算发送的信息及反馈信息。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
抗TREM2抗体和其使用方法 | 2020-05-13 | 936 |
医院导医人形机器人及其控制方法 | 2020-05-11 | 738 |
用于辅助英语记忆的装置 | 2020-05-14 | 338 |
一种基于深度神经网络的机器翻译方法及系统 | 2020-05-08 | 849 |
一种基于特征迁移学习的作物病害图像识别方法 | 2020-05-14 | 651 |
一种电力服务快速反馈处理平台 | 2020-05-16 | 167 |
一种基于深度学习的离散图片文件信息提取系统及方法 | 2020-05-15 | 240 |
一种燕窝胶原蛋白肽饮品 | 2020-05-14 | 335 |
采用隐树注意力的神经机器翻译 | 2020-05-14 | 589 |
英语单词记忆辅助装置 | 2020-05-15 | 820 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。