专利汇可以提供一种基于神经网络和幽默特征的幽默识别方法专利检索,专利查询,专利分析的服务。并且一种基于神经网络和幽默特征的幽默识别方法,属于 数据挖掘 和 自然语言处理 领域,用以解决进行幽默识别的问题,要点是包括S1、幽默语料采集及预处理;S2、幽默特征提取;S3、文本的词向量表示;S4、神经网络模型构建;S5、幽默识别结果评价,效果是:对特定形式的幽默数据进行采集和预处理,根据相关成熟的幽默理论,充分考虑到幽默文本的语音特性,构造幽默的语音特征;利用幽默的模糊性特性,提取了句子中拥有同义词最多的词作为特征词并对其进行向量化;采用了 深度学习 方法,提取了幽默文本背后深层次的语义特征,并将幽默的语音特征和模糊性特征融合到神经网络当中,从而进行幽默识别,在数据集上的实验验证了本 发明 方法对幽默识别的有效性。,下面是一种基于神经网络和幽默特征的幽默识别方法专利的具体信息内容。
1.一种基于神经网络和幽默特征的幽默识别方法,其特征在于,包括以下步骤:
S1、幽默语料采集及预处理步骤:
a1、幽默语料采集:从网站上获取幽默的文本以及文本的评价信息;对文本ID进行编号作为文本的唯一标识;采集网站幽默的内容作为幽默文本候选集;从所述网站获取文本幽默的评价信息作为衡量文本幽默程度的标准;采集其他形式的文本作为非幽默文本的候选集,幽默语料为单句;
a2、预处理步骤:对幽默文本候选集和非幽默文本候选集进行数据清洗,删除文本中的特殊字符和不可识别字符;标注幽默文本;根据句子长度相近和正负例所用词典一致原则从非幽默文本候选集中选取非幽默文本;对幽默文本和非幽默文本进行分词处理;
S2、幽默特征提取步骤:
b1、幽默的语音特征提取:对步骤S1得到的句子的词语集合,利用发音词典,提取句子的幽默语音特征向量P;
b2、幽默的不一致性特征提取:对步骤S1得到的句子的词语集合,利用语义资源和词向量工具,提取幽默句子不一致性的特征向量Q;
S3、基于神经网络的文本的词向量表示步骤:
c1、词向量获取:获取语料,包括维基百科语料和笑话语料,作为训练词向量的语料集,使用词向量工具训练词向量,从而得到幽默文本和非幽默文本中每个词的低维稠密向量;
c2、文本的词向量表示:利用c1获取的词向量将步骤S1得到的幽默句子和非幽默句子表示为n×m×d的词嵌入式矩阵,n为样本的数量,m为每个样本包含的单词数量,d为词向量的维度;
c3、模糊性特征词抽取:对步骤S1得到的每个句子的词语集合,利用语义资源提取同义词集合Synseti={synset1,synset2,…,synsetj,…,synsetn},i为句子中的第i个单词,n为同义词集个数,synsetj为同义词语意单元;利用同义词语意资源由synsetj得到每个同义词集的意义相近的单词集合synWordsi={W11,W12,…,W1m,…,Wn1,…,Wnm},m为synsetj的同义词数量,去除synWordsi重复单词,计算句子中synWordsi最多的单词,句子中拥有近义词数量最多的单词作为幽默的模糊性特征词;
c4、模糊性特征词向量表示:每个句子可能抽取出一个或多个有关幽默的模糊性特征的单词,若句子只包含一个特征词,则利用有关词向量方法和c1获取的词向量将特征词表示为向量形式T;若句子中包含多个特征词,则使用它们的平均词向量作为模糊性特征词向量;
S4、神经网络模型构建步骤:
d1、模型的输入:根据步骤c4得到的幽默的模糊性特征词向量T,将其与句子中的每一个单词的词向量wt进行拼接,作为模型的输入词向量;
d2、构建幽默识别模型:利用循环神经网络提取d1中得到的输入的潜在语义特征,得到文本的隐层向量表示;
d3、注意力机制幽默识别:采用注意力机制进行幽默识别,加大模糊性特征词及其周围词的权重,提高幽默识别的性能;
d4、计算句子的平均词向量表示:根据步骤d3得到的幽默句子的隐层表示,计算句子的平均词向量表示;
d5、融合幽默特征:将步骤b1中提取的幽默的语音特征和步骤b2提取的幽默的不一致性特征与步骤d4得到的句子的平均词向量表示进行拼接,得到句子的向量表示;
d6、幽默识别:根据步骤d5得到的幽默句子的隐层表示s,计算句子是否是幽默语句的概率,从而最终判断给定的句子是幽默文本或非幽默文本;
S5、幽默识别结果评价步骤:根据评价指标对幽默识别的结果进行评价。
2.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤a2,所述的标注幽默文本为:根据幽默评价信息,将评价得分较高的文本自动标注为幽默文本,即正例,并对自动标注信息进行人工审核。
3.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤a2中分词处理采用了Python语言中的NLTK模块。
4.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤b1中,所述的发音词典为CMU发音词典,所述的幽默的语音特征提取是将英文单词表示成音素的形式;提取句子中单词头部发音相同的单词个数、句子中单词头部发音相同的音素的最大长度、句子中单词尾部发音相同的单词个数、句子中单词尾部发音相同的音素的最大长度,是提取压头韵的单词个数、头韵链的最大长度、压尾韵单词个数、尾韵链的最大长度作为幽默的语音特征,得到4维的特征向量P。
5.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤b2中所述的幽默的不一致性特征提取是对步骤S1得到的句子的词语集合,利用语义资源,判断句子中是否有反义词对;利用词向量工具,将词语表示成低维稠密向量,提取句子中单词对的最大和最小的语义距离,将以上是否有反义词对,最大语义距离,最小语义距离作为幽默句子不一致性的特征,得到3维特征向量Q。
6.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤b2中和步骤c3中,所述的语义资源为wordNet。
7.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤S4中,模型的输入向量Xt可以表示为:
所述的循环神经网络为双向长短期记忆网络Bi-LSTM,
其中每个细胞计算单元的计算公式如下:
ft=σ(Wf·X'+bf)
it=σ(Wi·X'+bi)
ot=σ(Wo·X'+bo)
ct=ft⊙ct-1+it⊙tanh(Wc·X'+bc)
ht=ot⊙tanh(ct)
X'为LSTM输入向量Xt和(t-1)时刻的隐层输出向量ht-1的拼接,ft,it,ot分别为LSTM的遗忘门、输入门和输出门,ct为LSTM的细胞单元,Wf,Wi,Wo分别为LSTM模型遗忘门、输入门和输出门的参数矩阵,bf,bi,bo分别为LSTM模型遗忘门、输入门和输出门的偏执量,以上参数由LSTM模型学习获得,σ为sigmoid函数,tanh为正切函数,Wc表示细胞单元的参数,bc为细胞单元的偏执量,⊙表示矩阵的按元素乘法,ht表示隐层输出;
所述的注意力机制幽默识别为:根据步骤d1中得到的基于特定模糊性特征词T的情况下句子的词嵌入式表示模型的输入向量Xt和步骤d2中得到的句子的隐层表示ht,计算注意力机制的句子中单词的权重向量αi和句子的隐层表示r,计算公式如下:
α’t=WαXt+bα
rt=htαt
其中Wα为注意力机制的权重,bα为注意力机制的偏执量,T为句子中单词数量。
8.根据权利要求1所述的一种基于神经网络和幽默特征的幽默识别方法,其特征在于,步骤S4中,所述的评价指标为精确率、准确率、召回率和F1值,精确率计算公式如下:
准确率计算公式如下:
召回率公式如下:
F1值公式如下:
其中TP表示分类器将正例判定为正例的样本数,TN表示分类器将负例判定为负例的样本数,FP表示分类器将负例判定为正例的样本数,FN表示分类器将正例判定为负例的样本数。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
能独立自主的基础英语实用多效教科书其写作方式和方法及教学与求学的方式和方法 | 2020-05-14 | 683 |
点播短信的方法及其装置 | 2020-05-24 | 935 |
一种剧本数据处理方法、装置及应用其的计算机设备 | 2020-05-15 | 455 |
链接关联分析系统和方法 | 2020-05-18 | 529 |
虚拟社交系统及终端 | 2020-05-11 | 911 |
一种基于多源异构数据分析的大屏广告定向投放系统及方法 | 2020-05-13 | 302 |
Method and system for selecting documents by measuring document quality | 2020-05-23 | 534 |
Novelty calculator system for amusement | 2020-06-03 | 934 |
Procédé d'évaluation dynamique de l'humeur d'un utilisateur de messagerie instantanée | 2020-05-21 | 592 |
터치 스크린을 이용한 실시간 온라인 미팅 시스템 및 그방법 | 2020-05-21 | 867 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。