首页 / 专利库 / 人工智能 / 情感极性 / 一种基于情感计算与多头注意力机制的负面新闻识别方法

一种基于情感计算与多头注意机制的负面新闻识别方法

阅读:267发布:2020-05-11

专利汇可以提供一种基于情感计算与多头注意机制的负面新闻识别方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 情感计算 与多头注意 力 机制的负面新闻识别方法,涉及网络舆情监测技术领域,解决的技术问题是如何解决客观性负面新闻难以识别的问题,包括如下具体步骤:(1)对网络新闻文本数据进行采集和预处理;(2)建立并扩充负向情感 种子 词库并进行感倾向度计算;(3)进行向量化表示,确定判别模型的输入;(4)建立负面新闻判别模型;(5)进行负面新闻识别。本发明有效地克服了对负面新闻难以识别的问题,在负面新闻文本的识别正确率及有效性上都取得了良好的效果。,下面是一种基于情感计算与多头注意机制的负面新闻识别方法专利的具体信息内容。

1.一种基于情感计算与多头注意机制的负面新闻识别方法,其特征在于,包括如下具体步骤:
(1)对网络新闻文本数据进行采集和预处理,包括如下具体分步骤:
1)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
2)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
3)统计文本的长度分布;
(2)建立并扩充负向情感种子词库并进行感倾向度计算,从预处理后的海量文本中提取新闻情感词,然后对提取到的新闻情感词语进行筛选得到负向情感种子词库,采用词语语义相似度计算方法对现有技术负向情感种子词库进行扩充,并计算词语的情感倾向度,包括如下具体分步骤:
1)进行负向情感词的遴选与现有技术情感本体库的扩充;
所述负向情感词的遴选过程如下:
a)将输入的网络新闻文本数据进行分词和停用词过滤预处理,生成处理后的词语集合;
b)计算预处理后的词语集合中每个词语的TFIDF,并按TFIDF值进行倒序排序;
c)选取TFIDF值的Top1000个词语进行人工筛选,筛选出带有负面情感的词语作为负向种子词集L1;
d)将词语集合中的每个词语以及负向种子词集L1中的每个词语分别采用预训练好的n维词向量进行表示,然后利用余弦相似度计算词语集合中每个词语与负向种子词集L1中每个词语的相似度,其相似度计算公式如下式所示:
其中A,B表示采用word2vec预训练好的n维词向量;
e)若相似度超过0.95,则将该词语加入构建负向情感词语库L2;
f)将负向情感词语库L2与现有技术的情感本体库进行融合,得到最终的情感词库;
2)进行词语情感极性倾向度的计算,具体过程如下:
利用现有技术情感本体库,将词语的情感强度分为1,3,5,7,9五个层级,9表示强度最大,1表示强度最小;同时,根据词语之间的相似度和情感度成正比的关系,计算每个词语的情感倾向度,如下式所示:
其中, 表示词语A的情感倾向度,N表示《情感本体库》中情感词的数量, 表示词语A的词向量, 表示词语i的词向量, 表示词语A与情感词典中词语i相
似度的最大值, 表示词语i的情感倾向度,负向情感词取值为负数,正向情感词取值为正数;
(3)进行向量化表示,确定判别模型的输入,将词语和词语的情感倾向度进行向量化表示作为负面新闻判别模型的输入;
(4)建立负面新闻判别模型,具体过程如下:
在层次化注意力模型(HAN)的基础上,引入了负向新闻情感知识库和现有技术的多头注意力机制,构建基于负向新闻情感计算和层次化多头注意力相结合的负面新闻识别模型,所述负面新闻识别模型包括自下而上的词向量表示层、词语序列编码层、词语注意力层、句子序列编码层、句子注意力层、新闻极性计算层;
(5)进行负面新闻识别,进行模型参数设置,前端采用keras深度学习框架进行搭建,后端采用tensorflow作为计算框架设定模型参数,采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
其中,TP表示真正属于负向的新闻数量,FP表示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN示将负向的新闻判定为正向的新闻数量。
2.根据权利要求1所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(2)中,现有技术情感本体库选用大连理工大学林鸿飞教授带领团队整理的《情感本体库》。
3.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述词向量表示层用于表示词语的语义信息,词向量表示层作为模型的输入,词向量表示的好坏直接影响文本的语义信息,考虑到词语情感倾向的强弱,将情感词的情感倾向度引入词向量表示层,其输入的词向量主要包括两部分:词语的向量和词语的情感倾向度,其计算公式如下式所示:
其中Wewit表示词语wit的词向量, 表示词语wit的情感倾向度,xit表示第i个句子的第t个词语的输入向量, 表示在行方向上进行拼接,T表示每个句子的长度,We是采用Word2Vec工具预训练得到的200维词向量。
4.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述词语序列编码层LSTM能够捕获文本中较长距离的语义信息,包含记忆单元、输入(it)、遗忘门(ft)和输出门(ot),用于记录和更新记忆单元的信息;其中,遗忘门(ft)决定记忆单元前一状态信息是否保留,输入门(it)控制记忆单元当前时刻信息的输入,记忆单元根据当前输入信息更新记忆状态,通过输出门判断记忆单元对下一状态的输出结果,采用BiLSTM对新闻词语信息进行编码捕获句子的正向词语关系信息及前后的词语关系信息;
对于词语序列编码层计算公式如下式所示:
其中 表示第i句第t个词语前向LSTM网络的输出值,表示第i句第t个词语后向词语序列编码层LSTM网络的输出值,hit表示第i句第t个词语BiLSTM网络的输出值。
5.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述词汇注意力层,是采用所述多头注意力机制计算词语编码序列的词语权重,其输入为词语编码层的输出hit,多头注意力计算后的结果通过Max pooling进行压缩变换,最终得到单个序列的表示Si,i∈[1,L],L表示句子的个数。
6.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述句子序列编码层,是指采用BiLSTM对整个句子进行编码,寻找句子中的隐性特征并进行表示;其计算公式如下式所示:
其中 表示第i句前向LSTM网络的输出值,表示第i句后向LSTM网络的输出值,hi表示第i句BiLSTM网络的输出值。
7.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述句子注意力层,是采用现有技术的多头注意力机制来衡量每个句子对文本的重要性,其输入为句子序列编码层的输出值hi,多头注意力计算后的结果采用max pooling进行压缩变换得到句子的表示v。
8.根据权利要求2所述的基于情感计算与多头注意力机制的负面新闻识别方法,其特征在于,步骤(4)中,所述情感判定层,是采用softmax分类器构建新闻文本情感标签的分类,计算公式如下式所示:
p=soft max(Wv+b);
其中,p表示每一个倾向类别的概率值,目标函数采用负对数似然函数作为训练的损失函数,其计算公式如下式所示:
L=-∑dlog pdj;
其中j表示文档d的标签。

说明书全文

一种基于情感计算与多头注意机制的负面新闻识别方法

技术领域

[0001] 本发明涉及网络舆情监测技术领域,尤其涉及一种基于情感计算与多头注意力机制的负面新闻识别方法。

背景技术

[0002] 随着自媒体时代的到来,网络新闻成为信息传递的一种重要载体,具有传播速度快、影响面广、渠道多等特点。网络新闻来源于多个网站,海内外每天产生的新闻量巨大。网络新闻犹如一把双刃剑,好的新闻能够使人们快速了解当前发生的热点事件,坏的新闻会直接影响国家的安全稳定。网络新闻平台是一个错综复杂的社会环境,不同的新闻工作者对于同一事件的报道有着自己独特的见解,很容易产生一些片面的理解,导致报道的内容出现危害国家和社会的行为。负面新闻是指报道的新闻内容违反社会公德、道德标准以及危害国家的不正当言论。此类负面新闻一旦进行传播,严重影响社会健康有序的发展。当前,负面新闻主要通过人工构建规则模板,采用匹配的方式进行筛选。由于新闻时效性强,这种方式不能满足业务系统的相关要求。因此,从海量网络新闻文本中识别出负面新闻,及时遏制负面新闻的传播具有较高的研究意义。
[0003] 负面新闻是一种具有情感倾向性的文本,是一种客观性的情感,与主观评价性的文本不同,不具备较强的情感倾向,因此新闻的倾向性判定问题难度较大,情感区分度不高。目前,对于网络新闻情感的分析研究较少,大多数的研究者都集中在主观评价的情感判别方面,其主要判别的方法有两种:基于情感词典与语义规则结合的方法及基于机器学习的判别方法。
[0004] 基于情感词典与语义规则结合的方法,该方法首先判断词语的情感倾向,再通过对篇章中极性词语或词组计数、或对其褒贬程度值求和或求均值、或结合句法分析等方法获得篇章的总体情感倾向;例如,Turney等提出了基于情感词组的SO-PMI的语义分类方法,提取符合规则的形容词或副词词组作为情感词词组,利用点互信息计算抽取的词语与情感词词组的语义相关性得到总体的情感极性;王兰成等提出了基于情感本体的主题网络舆情倾向性分析方法,利用情感本体抽取特征词并判断其情感倾向,结合句法规则判断网络文本的情感倾向;周文等提出了基于依存句法“动词配价”原理与组的概念,对句子进行句法分析,在句法树和依赖关系中按规则提取情感依存元组,建立简单句情感依存元组判别模型,来计算句子的情感倾向性;陈涛等提出了一种基于依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模,通过对输入句进行情感句模分类实现文本情感分类;周邦定等提出给单个倾向词分配倾向性、强度、极性和标志4个属性,通过依存句法找出倾向词之间的依存关系,再通过所提出的情感识别算法结合倾向词词典得出整个句子的情感值,最后将整篇新闻中关键句的情感值叠加,得到整篇新闻的情感值;曹欢欢等提出了一种融合依存语法和简化的格语法框架理论,结合情感词典对关键句子集进行主题相关的语义倾向性分析,进而判定负面新闻的方法。
[0005] 基于机器学习的方法,该方法通过统计正面或负面词语出现的频率或 TFIDF值作为特征,采用机器学习的算法进行文本分类;例如,Pang Bo等最早利用机器学习方法来解决基于情感的文本分类问题,应用朴素贝叶斯、最大熵、SVM对电影评论进行分类,然而,机器学习需要人工选择特征,特征选择的好坏直接影响分类结果的准确性;相比于传统机器学习方法,深层神经网络的表达能力有了质的飞跃,并摆脱了特征工程的束缚;利用语义合成性原理通过不同深度模型将低层词向量合成高层文本情感语义特征向量,从而得到文本的深层次情感语义表达;例如,Tang等采用3种神经网络来构建学习特殊情感词的嵌入方式(SSWE),将情感信息编码为词的连续表示,并实现了区分“好”和“坏”两个极性相反的情感在词向量空间中的表示;Ren等构建了两个神经网络模型分别处理当前Tweet的特征,用神经网络的池化方法自动抽取有效的特征以实现两种网络的非线性融合,从而获得最终的情感分类结果;
[0006] 以上方法都是用来解决带有主观性情感的分类问题,但对于新闻类的客观性情感判定则研究的较少。在客观性情感的识别方面,2007年徐军等提出了机器学习方法进行新闻的情感自动分类,选择具有语义倾向的词汇作为特征项,采用贝叶斯算法进行分类;何志勇提出了一种基于LSTM的新闻情感倾向性分析方法,该方法运用LSTM模型进行文本分类,判断新闻的情感倾向。但该方法主要针对暴恐事件相关的文本,泛化性不强,不适合处理海量新闻文本的情感极性判定问题。注意力机制的出现极大提高了传统编码方式捕获特征的能力,注意力机制更擅长捕获在语义表示中重要的部分;关鹏飞等提出了一种注意力增强的双向LSTM情感分析方法,该方法通过注意力机制从词向量层面学习词语对句子情感倾向的权重分布,从而提高了双向LSTM的分类效果;李丽双等提出了一种基于动态注意力GRU的特定目标情感分类方法,利用动态注意力机制提取上下文单词的重要程度,提高了识别不同实体情感类别的能力。
[0007] 上述基于情感词典与语义规则结合的方法及基于机器学习的判别方法,在针对客观性负面新闻时都存在难以识别的问题。

发明内容

[0008] 针对现有技术的不足,本发明所解决的技术问题是如何解决客观性负面新闻难以识别的问题。
[0009] 为解决上述技术问题,本发明采用的技术方案是一种基于情感计算与多头注意力机制的负面新闻识别方法,包括如下具体步骤:
[0010] (1)对网络新闻文本数据进行采集和预处理,包括如下具体分步骤:
[0011] 1)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
[0012] 2)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
[0013] 3)统计文本的长度分布。
[0014] (2)建立并扩充负向情感种子词库并进行感倾向度计算,从预处理后的海量文本中提取新闻情感词,然后对提取到的新闻情感词语进行筛选得到负向情感种子词库,采用词语语义相似度计算方法对现有技术负向情感种子词库进行扩充,并计算词语的情感倾向度,包括如下具体分步骤:
[0015] 1)进行负向情感词的遴选与现有技术情感本体库的扩充;
[0016] 所述负向情感词的遴选过程如下:
[0017] a)将输入的网络新闻文本数据进行分词和停用词过滤预处理,生成处理后的词语集合;
[0018] b)计算预处理后的词语集合中每个词语的TFIDF,并按TFIDF值进行倒序排序;
[0019] c)选取TFIDF值的Top1000个词语进行人工筛选,筛选出带有负面情感的词语作为负向种子词集L1;
[0020] d)将词语集合中的每个词语以及负向种子词集L1中的每个词语分别采用预训练好的n维词向量进行表示,然后利用余弦相似度计算词语集合中每个词语与负向种子词集L1中每个词语的相似度,其相似度计算公式如下式所示:
[0021]
[0022] 其中A,B表示采用word2vec预训练好的n维词向量;
[0023] e)若相似度超过0.95,则将该词语加入构建负向情感词语库L2;
[0024] f)将负向情感词语库L2与现有技术的情感本体库进行融合,得到最终的情感词库。
[0025] 2)进行词语情感极性倾向度的计算,具体过程如下:
[0026] 利用现有技术情感本体库,优选参考大连理工大学林鸿飞教授带领团队整理的《情感本体库》,将词语的情感强度分为1,3,5,7,9五个层级,9表示强度最大,1表示强度最小。同时,根据词语之间的相似度和情感度成正比的关系,计算每个词语的情感倾向度,如下式所示:
[0027]
[0028] 其中, 表示词语A的情感倾向度,N表示《情感本体库》中情感词的数量, 表示词语A的词向量, 表示词语i的词向量, 表示词语A与情感词典中词语i相似度的最大值, 表示词语i的情感倾向度,负向情感词取值为负数,正向情感词取值为正数;
[0029] (3)进行向量化表示,确定判别模型的输入,将词语和词语的情感倾向度进行向量化表示作为负面新闻判别模型的输入;
[0030] (4)建立负面新闻判别模型,具体过程如下:
[0031] 在层次化注意力模型(HAN)的基础上,引入了负向新闻情感知识库和现有技术的多头注意力机制,构建基于负向新闻情感计算和层次化多头注意力相结合的负面新闻识别模型,所述负面新闻识别模型包括自下而上的词向量表示层、词语序列编码层、词语注意力层、句子序列编码层、句子注意力层、新闻极性计算层;
[0032] 所述词向量表示层用于表示词语的语义信息,词向量表示层作为模型的输入,词向量表示的好坏直接影响文本的语义信息,考虑到词语情感倾向的强弱,将情感词的情感倾向度引入词向量表示层,其输入的词向量主要包括两部分:词语的向量和词语的情感倾向度,其计算公式如下式所示:
[0033]
[0034] 其中Wewit表示词语wit的词向量, 表示词语wit的情感倾向度,xit表示第i 个句子的第t个词语的输入向量, 表示在行方向上进行拼接,T表示每个句子的长度,We是采用Word2Vec工具预训练得到的200维词向量。
[0035] 所述词语序列编码层LSTM能够捕获文本中较长距离的语义信息,包含记忆单元、输入门(it)、遗忘门(ft)和输出门(ot),用于记录和更新记忆单元的信息;其中,遗忘门(ft)决定记忆单元前一状态信息是否保留,输入门(it) 控制记忆单元当前时刻信息的输入,记忆单元根据当前输入信息更新记忆状态,通过输出门判断记忆单元对下一状态的输出结果,采用BiLSTM对新闻词语信息进行编码捕获句子的正向词语关系信息及前后的词语关系信息;
[0036] 对于词语序列编码层计算公式如下式所示:
[0037]
[0038]
[0039]
[0040] 其中 表示第i句第t个词语前向LSTM网络的输出值,表示第i句第t 个词语后向词语序列编码层LSTM网络的输出值,hit表示第i句第t个词语 BiLSTM网络的输出值。
[0041] 所述词汇注意力层,是采用所述多头注意力机制计算词语编码序列的词语权重,其输入为词语编码层的输出hit,多头注意力计算后的结果通过Max pooling进行压缩变换,最终得到单个序列的表示Si,i∈[1,L],L表示句子的个数。
[0042] 所述句子序列编码层,是指采用BiLSTM对整个句子进行编码,寻找句子中的隐性特征并进行表示。其计算公式如下式所示:
[0043]
[0044]
[0045]
[0046] 其中 表示第i句前向LSTM网络的输出值,表示第i句后向LSTM网络的输出值,hi表示第i句BiLSTM网络的输出值。
[0047] 所述句子注意力层,是采用现有技术的多头注意力机制来衡量每个句子对文本的重要性,其输入为句子序列编码层的输出值hi,多头注意力计算后的结果采用max pooling进行压缩变换得到句子的表示v。
[0048] 所述情感判定层,是采用softmax分类器构建新闻文本情感标签的分类,计算公式如下式所示:p=softmax(Wv+b);
[0049] 其中,p表示每一个倾向类别的概率值,目标函数采用负对数似然函数作为训练的损失函数,其计算公式如下式所示:L=-∑dlog pdj;
[0050] 其中j表示文档d的标签。
[0051] (5)进行负面新闻识别,进行模型参数设置,前端采用keras深度学习框架进行搭建,后端采用tensorflow作为计算框架设定模型参数,采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
[0052]
[0053]
[0054]
[0055]
[0056] 其中,TP表示真正属于负向的新闻数量,FP示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN示将负向的新闻判定为正向的新闻数量。
[0057] 与现有技术相比,本发明有效地克服了对负面新闻难以识别的问题,在负面新闻文本的识别正确率及有效性上都取得了良好的效果。附图说明
[0058] 图1为本发明流程图
[0059] 图2为数据预处理的数据长度分布图;
[0060] 图3为负向情感词的遴选流程图;
[0061] 图4为现有技术多头注意力结构图;
[0062] 图5新闻情感判别模型;
[0063] 图6为BiLSTM结构图;
[0064] 图7为实验结果正确率对比图。

具体实施方式

[0065] 下面结合附图对本发明的具体实施方式作进一步的说明,但不是对本发明的限定。
[0066] 图1示出了一种基于情感计算与多头注意力机制的负面新闻识别方法,包括如下具体步骤:
[0067] (1)对网络新闻文本数据进行采集和预处理,包括如下具体分步骤:
[0068] 1)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
[0069] 2)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
[0070] 3)统计文本的长度分布,如图2所示。
[0071] 由图2可以看出,新闻文本的数据长度大多在1000字以内,本发明对长度超过1000字的部分内容进行截断,同时对长度小于50字的内容进行了过滤。
[0072] 本发明利用爬取的30万新闻语料和百度百科语料库构建了一个Word2Vec 词向量训练语料,采用Skip-gram模型进行词向量训练,训练参数为默认值,输出词向量维度为200维。经过训练,得到了包含2009501个词的词向量,该词向量包含所有常用词语与专业名词。
[0073] (2)建立并扩充负向情感种子词库并进行感倾向度计算,从预处理后的海量文本中提取新闻情感词,然后对提取到的新闻情感词语进行筛选得到负向情感种子词库,采用词语语义相似度计算方法对现有技术负向情感种子词库进行扩充,并计算词语的情感倾向度,包括如下具体分步骤:
[0074] 1)进行负向情感词的遴选与现有技术情感本体库的扩充;
[0075] 所述负向情感词的遴选过程如下,如图3所示:
[0076] a)将输入的网络新闻文本数据进行分词和停用词过滤预处理,生成处理后的词语集合;
[0077] b)计算预处理后的词语集合中每个词语的TFIDF,并按TFIDF值进行倒序排序;
[0078] c)选取TFIDF值的Top1000个词语进行人工筛选,筛选出带有负面情感的词语作为负向种子词集L1;
[0079] d)将词语集合中的每个词语以及负向种子词集L1中的每个词语分别采用预训练好的n维词向量进行表示,然后利用余弦相似度计算词语集合中每个词语与负向种子词集L1中每个词语的相似度,其相似度计算公式如下式所示:
[0080]
[0081] 其中A,B表示采用word2vec预训练好的n维词向量;
[0082] e)若相似度超过0.95,则将该词语加入构建负向情感词语库L2;
[0083] f)将负向情感词语库L2与现有技术的情感本体库进行融合,得到最终的情感词库。通过以上步骤,本发明构建的负向情感词语库如表1所示:
[0084] 表1负向情感库
[0085]
[0086]
[0087] 从表1中可以看出,大多数的新闻负向词语为动词或名词形式,成语、副词、习用语的数量偏少,这与实际用语的情况相符。可以证明本发明提出的基于语义相似度的情感库扩增方法能够筛选出负向情感词语,并且筛选的情感词语具有较强的政治性负向情感色彩。为避免本发明构建的情感词库出现局限性和词语覆盖程度过小等问题,选用大连理工大学的的《情感本体库》中的词语和本发明构建的新闻负向情感词库进行融合,得到最终的情感词库。
[0088] 2)进行词语情感极性倾向度的计算;
[0089] 情感倾向是主体对客体内在评价的倾向,在新闻文本的情感判定中,可以理解为新闻发布者对某一事件表达自身观点所持有的一种态度以及报道的事件是否会危害社会的安全与稳定。情感倾向度是指主体对客体持有正面情感或负面情感的强弱程度,强弱程度主要通过词语的情感程度和说话的语气所体现。
[0090] 词语情感倾向度的计算是对单个词语的情感极性、情感强度进行分析,目的是为文本情感倾向分析提供依据。常用的词语倾向性计算的方法主要基于SO-PMI,实验中发现SO-PMI算法受共现窗口大小和语料库的规模影响较大。
[0091] 本发明的词语情感极性倾向度的计算具体过程如下:
[0092] 参考大连理工大学林鸿飞教授带领团队整理的《情感本体库》,将词语的情感强度分为1,3,5,7,9五个层级,9表示强度最大,1表示强度最小。同时,根据词语之间的相似度和情感度成正比的关系,采用下式计算每个词语的情感倾向度:
[0093]
[0094] 其中, 表示词语A的情感倾向度,N表示《情感本体库》中情感词的数量, 表示词语A的词向量, 表示词语i的词向量, 表示词语A与情感词典中词语i相似度的最大值, 表示词语i的情感倾向度,负向情感词取值为负数,正向情感词取值为正数;
[0095] 通过以上方法对词语进行情感计算,构建了包含30737个情感词语库,其中正向情感词语12270个,负向情感词语12434个,其情感词倾向度如表2 所示。
[0096] 表格2情感词倾向度表
[0097] 序号  情感词  情感倾向度  最相似词 1  爆炸  -2.91  爆裂 
2  冲击  -0.96  冲撞 
3  制裁  -6.65  挟制 
4  造假  -2.91  作假 
5  撞伤  -4.85  撞车 
…  …  …  … 
[0098] 从表2中可以看出,采用式(2)计算的词语情感倾向度与种子《情感本体库》中的情感倾向度较为相近,同时能够明显区分出词语的情感倾向强弱程度,从而说明本发明提出的词语情感倾向度计算方法的合理性。
[0099] (3)进行向量化表示,确定判别模型的输入,将词语和词语的情感倾向度进行向量化表示作为负面新闻判别模型的输入;
[0100] (4)建立负面新闻判别模型;
[0101] 多头注意力模型是2017年google机器翻译团队提出了多头注意力模型 (Multi-Head Attention model),多头注意力模型是由多个放缩点积注意力 (Scaled Dot-Product Attention)的基础单元堆叠起来,其模型如图4所示。
[0102] 其中输入矩阵为Q∈Rn*d、K∈Rn*d、V∈Rn*d三个值,Scaled Dot-Product Attention 部分有h层,每一层的注意力计算如下式所示:
[0103]
[0104] 其中d为神经网络隐藏单元的个数,因为多头注意力采用的自注意力机制,所以输入的Q=K=V,Q、K、V代表编码后的词向量。在多头注意力模型中,首先将Q、K、V向量进行线性变换;其次Q和每个K采用点积相似度函数计算其权重,通过除以一个K的维度进行放缩,避免内积值太大,采用softmax 函数对这些权重进行归一化处理;最后将权重和相应的键值进行加权求和得到Attention。经过h次放缩注意力计算后,得到多个head,将每一次的head 进行拼接,经过线性变换得到最后的结果,计算公式如下式所示:
[0105] headi=Attention(QWiQ,KWiK,VWiV);
[0106] MultiHead(Q,K,V)=Concat(head1,...,headh)Wo;
[0107] 其中Wo表示线性变换的权重, 分别表示第i个head中Q、 K、V对应的初始化矩阵,Concat(head1,…,headh)表示将h个head进行连接,MultiHead(Q,K,V)表示最后计算的结果。通过多次Attention的计算,模型能够从不同空间中学习到更多的特征信息。
[0108] 本发明建立负面新闻判别模型,具体过程如下:在层次化注意力模型 (HAN)的基础上,引入了负向新闻情感知识库和现有技术的多头注意力机制,构建基于负向新闻情感计算和层次化多头注意力相结合的负面新闻识别模型,所述负面新闻识别模型包括自下而上的词向量表示层、词语序列编码层、词语注意力层、句子序列编码层、句子注意力层、新闻极性计算层,如图5 所示;
[0109] 所述词向量表示层用于表示词语的语义信息,词向量表示层作为模型的输入,词向量表示的好坏直接影响文本的语义信息。考虑到词语情感倾向的强弱,将情感词的情感倾向度引入词向量表示层,其输入的词向量主要包括两部分:词语的向量和词语的情感倾向度,如图5所示,图中○表示词语的向量,●表示词语的情感倾向度。其计算公式如下式所示:
[0110]
[0111] 其中Wewit表示词语wit的词向量, 表示词语wit的情感倾向度,xit表示第i 个句子的第t个词语的输入向量, 表示在行方向上进行拼接,T表示每个句子的长度,We是采用Word2Vec工具预训练得到的200维词向量。
[0112] 所述词语序列编码层LSTM能够捕获文本中较长距离的语义信息,包含记忆单元、输入门(it)、遗忘门(ft)和输出门(ot),用于记录和更新记忆单元的信息;其中,遗忘门(ft)决定记忆单元前一状态信息是否保留,输入门(it) 控制记忆单元当前时刻信息的输入,记忆单元根据当前输入信息更新记忆状态,通过输出门判断记忆单元对下一状态的输出结果。
[0113] 新闻文本词语之间具有前后的连续关系,除了正向要考虑词语的词义信息,还要考虑词语之间前后的依赖关系;因此,采用BiLSTM对新闻词语信息进行编码,够捕获句子的正向词语关系信息及前后的词语关系信息,其模型结构如图6所示;图中,x表示输入的词语,e表示对应输入词语的词向量,表示前向LSTM网络的输出值,表示后向LSTM网络的输出值,h表示BiLSTM 的输出值。对于词语序列编码层计算公式如下式所示:
[0114]
[0115]
[0116]
[0117] 其中 表示第i句第t个词语前向LSTM网络的输出值, 表示第i句第 t个词语后向词语序列编码层LSTM网络的输出值,hit表示第i句第t个词语 BiLSTM网络的输出值。
[0118] 所述词汇注意力层,新闻文本中不是每个词语都对句子有重要意义,一句话中往往只有少数的词语影响句子的含义,是将每个词语赋予不同的权重来表示对句子的贡献程度。注意力机制能够学习句子中词语的依赖关系,从而捕获句子的内部结构,找出对输入的文本句子含义价值最大的词语或字,采用所述多头注意力机制计算词语编码序列的词语权重,其输入为词语编码层的输出hit,多头注意力计算后的结果通过Max pooling进行压缩变换,最终得到单个序列的表示Si,i∈[1,L],L表示句子的个数。
[0119] 所述句子序列编码层,在新闻负面文本的判定中,每个句子的情感极性影响着整篇文章的情感极性,通过神经网络能够挖掘出句子隐含的信息,同时句子与句子之间又存在着前后依赖关系。因此,本发明是指采用BiLSTM对整个句子进行编码,寻找句子中的隐性特征并进行表示。其计算公式如下式所示:
[0120]
[0121]
[0122]
[0123] 其中 表示第i句前向LSTM网络的输出值,表示第i句后向LSTM网络的输出值,hi表示第i句BiLSTM网络的输出值。
[0124] 所述句子注意力层,新闻文本作为一种长文本,每句话对整个文本都有不同的影响程度,句子注意力层的目的是找出每句话对整篇文本情感分类的不同贡献程度。同样,本发明采用现有技术的多头注意力机制来衡量每个句子对文本的重要性,其输入为句子序列编码层的输出值hi,多头注意力计算后的结果采用max pooling进行压缩变换得到句子的表示v。
[0125] 所述情感判定层,情感判定层主要是构建新闻文本的情感二分类判定器,对深层学习的特征信息进行情感倾向判定,输出最终新闻文本的情感标签。本发明采用softmax分类器构建新闻文本情感标签的分类,计算公式如下式所示:
[0126] p=softmax(Wv+b);
[0127] 其中,p表示每一个倾向类别的概率值,目标函数采用负对数似然函数作为训练的损失函数,其计算公式如下式所示:
[0128] L=-∑dlog pdj;
[0129] 其中j表示文档d的标签。
[0130] (5)进行负面新闻识别,进行模型参数设置,前端采用keras深度学习框架进行搭建,后端采用tensorflow作为计算框架设定模型参数,采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
[0131]
[0132]
[0133]
[0134]
[0135] 其中,TP表示真正属于负向的新闻数量,FP表示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN表示将负向的新闻判定为正向的新闻数量。
[0136] 为验证本发明的有益效果,通过以下实施例来进行实验,过程如下:
[0137] (1)获取实验数据
[0138] 针对负面新闻倾向性分类没有公开的评测数据集,本发明采用分布式网络爬虫技术采集了多个App新闻数据源,包含:百度新闻、搜狐新闻、澎湃新闻等。为了保证实验数据与真实情况的吻合,从经济、政治、体育等多种类别爬取了30多万条新闻文本数据。采用人工筛选的方式构建了25000条正向新闻数据和25000条负向新闻数据,将数据按照训练集与验证集3:1的比例随机进行了10次划分,用于后续实验的验证,多次随机划分数据保证了本发明实验结果的稳定性
[0139] (2)数据预处理
[0140] 通过分析发现,新闻数据主要有以下特点:
[0141] 1)数据内容杂乱:网络新闻存在大量的图片信息,导致采集的数据存在大量URL;
[0142] 2)数据繁体字较多:尤其海外新闻存在大量的繁体字;
[0143] 3)数据较长:新闻主要倾向于注重对事件的描述,信息内容较长。
[0144] 本发明针对以上几种情况进行数据预处理,处理方法如下:
[0145] a)利用正则表达式识别数据中的URL脚本内容,并将其进行删除;
[0146] b)采用Hanlp工具包提供的繁简体转换功能,将繁体字转换成简体字;
[0147] 统计文本的长度分布,其结果如图2所示,由图2可以看出,新闻文本的数据长度大多在1000字以内,本发明对长度超过1000字的部分内容进行截断,同时对长度小于50字的内容进行了过滤。
[0148] 本发明利用爬取的30万新闻语料和百度百科语料库构建了一个Word2Vec 词向量训练语料,采用Skip-gram模型进行词向量训练,训练参数为默认值,输出词向量维度为200维。经过训练,得到了包含2009501个词的词向量,该词向量包含所有常用词语与专业名词。
[0149] (3)实验参数设置
[0150] 本发明实验中前端采用keras深度学习框架进行搭建,后端采用 tensorflow作为计算框架,模型参数设置如表3所示。
[0151] 表3参数设置表
[0152]
[0153] (4)实验评价指标
[0154] 本发明采用精准率P、召回率R、F1值以及正确率Accuracy作为模型的评价指标,其计算公式如下式所示:
[0155]
[0156]
[0157]
[0158]
[0159] 其中,TP表示真正属于负向的新闻数量,FP表示将正向的新闻判定为负向的新闻数量,TN表示真正属于正向的新闻数量,FN表示将负向的新闻判定为正向的新闻数量。
[0160] 实验使用的现有技术对比模型如下:
[0161] LSTM模型:现有技术采用LSTM模型对负面事件新闻情感倾向进行分析, 取得了不错的效果。
[0162] CNN模型:该模型自2013年kim提出以来,在多种数据集的分类任务上都取得了较好的效果。
[0163] RCNN模型:该模型首先使用循环神经网络捕获上下文信息,其次采用最大池化法判断哪些词语在文本分类中起关键作用,实现对文本的分类任务。
[0164] BiLSTM模型:该模型直接通过双向LSTM对文本进行建模,采用softmax 进行文本分类。
[0165] BiLSTM-Att模型:该模型在BiLSTM模型的基础上,采用自注意力机制学习词语的权重信息,实现文本分类。
[0166] Han模型:该模型采用层次化的注意力机制,分别从词语级到句子级对文本进行建模,保留了文本的原始结构信息,为本发明模型的基准模型。
[0167] EC-Han模型:该模型是在Han模型的基础上,引入情感计算的结果,实现对负面新闻的判别。
[0168] Hman模型:该模型是在Han模型的基础上,采用多头注意力模型实现对负面新闻的判别。
[0169] (5)实验结果与分析
[0170] 本发明在上述构建的新闻数据集上进行对比试验,来验证本发明提出方法的有效性。其实验结果表4所示。
[0171] 表4实验结果表
[0172] 模型  P  R  F1 LSTM  0.8082  0.8691  0.8373 
CNN  0.7629  0.9021  0.8260 
RCNN  0.8061  0.8938  0.8475 
BiLSTM  0.8118  0.8663  0.8378 
BiLSTM-Att  0.8238  0.8776  0.8498 
Han  0.8368  0.8650  0.8506 
[0173] 从表4中可以看出,CNN模型的召回率最高,然而精准率很低,说明CNN 模型能够筛选出更多的负面新闻,但是误将正面新闻识别为负面新闻的情况较多,其主要原因可与能CNN模型在卷积池化的过程中,更能识别出负面的词语有关。RCNN模型较CNN和LSTM模型在F1值方面提升1%左右,说明利用 RNN和CNN模型的叠加能够提升分类的效果。BiLSTM-Att模型在整体上比 BiLSTM和LSTM模型效果好,说明增加的注意力机制能够更好的捕获重要的信息。Han模型的F1值高于其他五种模型,说明Han模型通过层级注意力能够更好的识别新闻的情感倾向,同时也证明了本发明选取的基准模型具有较高的研究价值。
[0174] 表5模型实验结果对比表
[0175]
[0176] 从表5中可以看出,EC-Han模型较Han模型在P、R、F1三个评价指标上提高有所提高,说明词语情感度的引入能够提升模型的效果;Hman模型较Han 模型在召回率上提高较大,说明多头注意力模型在不同子空间中学习到的更多特征,能有效提升识别出负向的新闻文本的性能。EC-Hman在精准率、召回率以及F1值方面都高于Han模型,说明本发明提出的新闻情感词和层次化多头注意力能够提升Han模型的识别效果,所以能够验证本发明提出的方法合理性。实用结果正确率对比如图7所示;从图7中可以看出,Han模型作为本发明的基准模型,与其他模型相比有较高的正确率,说明Han模型保留的文本层级结构和注意力机制能够对文本有更好的分类效果。本发明提出的 EC-Hman模型在负面新闻文本的识别上取得了最好的效果,正确率达到 0.8402,相比Han模型和LSTM模型分别提升了0.67%和3.29%,能够验证本发明提出方法在网络负面新闻识别中的有效性。
[0177] 与现有技术相比,本发明有效地克服了对负面新闻难以识别的问题,在 负面新闻文本的识别正确率及有效性上都取得了良好的效果。
[0178] 以上结合附图对本发明的实施方式做出了详细说明,但本发明不局限于 所描述的实施方式。对于本领域技术人员而言,在不脱离本发明的原理和精 神的情况下,对这些实施方式进行各种变化、修改、替换和变型仍落入本发 明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈