专利汇可以提供一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构专利检索,专利查询,专利分析的服务。并且本 发明 公布了一种面向语音情感分类的具有多输入多融合策略的双BiLSTM结构。首先,提取语音 信号 中的Mel谱特征和统计特征两种 帧 级特征,然后将两种特征同时输入两个双向LSTM网络进行学习,分别应用注意 力 机制和平均 池化 操作将两个双向LSTM的输出进行拼接得到基于各帧的注意加权和及平均的两种高级特征,最后,将这两种特征进行融合及批归一化处理后,使用softmax分类器进行语音 情感识别 。我们的DABL模型同时处理两种不同类型的特征,以便更好地了解情绪中的细微变化。在“EMO-DB”数据集上的实验结果表明了本文方法的优越性。,下面是一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构专利的具体信息内容。
1.本发明公布了一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构,其特征在于,包括以下步骤:
(1)语音预处理:将语料库中的语音数据按对应的情感分类并标记上数字标签,之后对其进行分帧及加窗,为下一步提取特征做准备;
(2)特征提取:对步骤(1)预处理完毕后的语音数据,提取出MFCC,过零率,基频等45维语音特征和64维log-Mel谱特征;
(3)双BiLSTM装置:将步骤(2)提取的两类特征输入改装置中,该装置由两个双向LSTM组成;LSTM是对递归神经网络(RNN)的改进,引入了三种控制门:输入门、输出门、遗忘门,对隐藏单元进行写、读和复位操作;传统LSTM存在的一个缺陷是它仅能够利用从正向序列中来的以前的内容;在语音情感识别中,从反向序列而来的未来的内容对情感极性的判断也起至关重要的作用;通过处理正向和反向的序列来抽取结构化知识,这样来自于过去和未来的互补信息可以整合到一起用于推理;双向LSTM网络是对标准正向LSTM模型的改进,该模型能够在正向和反向两个方向操作一系列特征;原始LSTM状态:
it=σ(wxixt+whiht-1+wcict-1+bi) (1)
ft=σ(wxfxt+whfht-1+wcfct-1+bf) (2)
ct=ftct-1+it tanh(wxcxt+whcht-1+bc) (3)
ot=σ(wxoxt+whoht-1+wcoct-1+bo) (4)
ht=ot tanh(ct) (5)
其中:σ为常用的sigmoid激活函数,i,f,o,c分别表示输入门、遗忘门、输出门和记忆细胞,它们与隐层向量h的维度大小相同;双向LSTM状态:
BiLSTM网络两个输出连接到同一个输出节点;输出层可以同时获得历史和未来的信息,因此,与普通的LSTM相比,BiLSTM不需要等到以后的时间节点才能获得未来的信息;
(4)多融合装置:将步骤(3)得到的两类高级特征采用平均池化和注意力机制两种方法进行融合;常用的LSTM网络对情感语音的标签学习方法有Frame-wise、Final-frame和时间上Mean-pool三种方式;Mean-pool相对于前两种方式能更加充分的学习到每一帧包含的情感,Mean-pool是对LSTM的输出o(t)随时间推移执行一个滑动平均,即求所有输出的平均值:
Oaverage=∑o(t)/T (7)
BiLSTM使用注意机制的标准方法是选择一个简单的、类似于逻辑回归的加权和作为池层;这个加权和是在BiLSTM、yt的帧向输出和权重u之间的内积,权重u是注意力模型中的参数向量;为了使重量和保持统一,我们对内积应用了softmax函数:
其中,αt是t次输出yt的权重,在时间维度上,所有时间的权系数都应用于输出ot,并在时间维度上作为输出求和;计算公式为:
z=∑αtot (9)
(5)将步骤(4)得到的两类高级特征再进行一次特征融合,经批归一化处理后,使用softmax分类器进行语音情感识别;
(6)重复步骤(2)、(3)、(4)、(5)采集语音的训练集数据,与标签作对比,对模型进行训练,得到训练后的模型;
(7)利用步骤(6)得到的模型结构,对语音的测试集数据进行特征提取和分类,最终识别语音情感。
结构
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
智能对话方法及相关设备 | 2020-05-11 | 321 |
多对一语音转换系统 | 2020-05-13 | 422 |
训练数据选择方法、装置、电子设备及计算机存储介质 | 2020-05-08 | 675 |
一种构建语料库的方法、设备、服务器和存储介质 | 2020-05-12 | 717 |
智能解答控制方法、装置、计算机设备及存储介质 | 2020-05-14 | 544 |
一种基于声门波信号特征提取的语音情感识别方法 | 2020-05-08 | 689 |
智能语音交互的方法、装置及计算机可读存储介质 | 2020-05-12 | 48 |
一种用于英语口语矫正的智能点评方法 | 2020-05-13 | 419 |
语音识别方法及智能设备 | 2020-05-16 | 60 |
车机语音测试系统及方法 | 2020-05-16 | 856 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。