首页 / 专利库 / 电脑图像 / 表情符号 / 一种基于用户情感倾向感知的微博文本情感极性分析方法

一种基于用户情感倾向感知的微博文本情感极性分析方法

阅读:1039发布:2020-06-13

专利汇可以提供一种基于用户情感倾向感知的微博文本情感极性分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于用户情感倾向 感知 的微博文本 情感极性 分析方法,包括如下步骤:获取目标用户的历史微博文本集合及目标文本,并预先统计获得目标用户的历史微博文本集合中包含的各文本的情感倾向;提取目标文本的情感词并生成目标文本的文本情感信息ht;基于历史微博文本判断目标用户的用户情感倾向得分Score(U);基于用户情感倾向得分Score(U)及文本情感信息ht判断目标文本的情感极性。本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结合,从而使得对于目标文本的情感倾向的判断更加准确。,下面是一种基于用户情感倾向感知的微博文本情感极性分析方法专利的具体信息内容。

1.一种基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,包括如下步骤:
S101:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;
S102:提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht;
S103:基于所述历史微博文本判断所述目标用户的用户情感倾向得分Score(U);
S104:基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性。
2.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,步骤S102包括:
S1021:基于情感词典在所述目标文本中获取t个情感词的情感倾向得分,所述情感词中任意一个情感词wj的情感倾向的分为score(wj);
S1022:基于词向量词典获取所述情感词的词向量,所述情感词中任意一个情感词wj的词向量为ej,其中,ej=Wevj,1≤j≤t,vj表示情感词wj在词向量词典中对应的词向量,We表示所述目标文本的词向量矩阵,We∈Rd×N,Rd×N表示词向量词典的表示矩阵,N表示词向量词典中情感词数目,d表示单个情感词的词向量维度;
S1023:基于所述情感词的词向量及情感倾向得分生成所述情感词的情感信息,任意一个情感词wj的情感信息为rj,其中, 为结合符号,结合的方式包括拼接
或相乘;
S1024:基于所述目标文本中t个情感词的情感信息生成所述目标文本的文本情感信息ht,ht={r1,r2,r3,…rt-2,rt-1,rt}。
3.如权利要求2所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,步骤S1021中提取目标文本中前t个情感词的情感倾向得分,当所述目标文本中情感词个数小于t时,以“0”填充缺少的情感词。
4.如权利要求3所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,t的取值为15。
5.如权利要求2所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述情感词典中的情感词包括网络情感词典内的情感词及人工标注的情感词,所述人工标注的情感词包括微博文本中存在的网络用词、情感符号及表情符,所述情感词典中的情感词标记有情感倾向。
6.如权利要求2或5所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述情感倾向包括积极倾向、消极倾向及中性倾向,所述情感词典中的情感词的情感倾向得分的计算方法包括:
获取词典数据集,词典数据集包括多个数据文档,每个数据文档标记有已知的情感倾向,数据文档的情感倾向包括积极倾向或消极倾向;
当所述情感词典中任意一个情感词wi为积极倾向或消极倾向时,所述情感词i的情感倾向得分为Score(wi),其中, Freq(wi)=|α·Pos(wi)-
β·Neg(wi)|,Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,[]表示取整,Freq(wi)表示情感词wi在数据文档中出现的频数,Freqmin代表情感词典中所有情感词在数据文档中出现的最小频数,Freqmax代表情感词典中所有情感词在数据文档中出现的最大频数,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数,γ为情感倾向得分阈值控制参数;
当所述情感词典中任意一个情感词wi为中性倾向时,所述情感词i的情感倾向得分为Score(wi),其中,Score(wi)=[α·Pos(wi)-β·Neg(wi)],Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数。
7.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,步骤S103包括:
S103 1 :计算 所述目标 用户的积极 倾向得分 Sco re(Up) ,其中 ,
Freq(p)表示目标用户的历史微博文本中的积
极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S103 2 :计算 所述目标 用户的 消极 倾向得分 Scor e(Un) ,其中 ,
Freq(p)表示目标用户的历史微博文本中
的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
S1033:计算所述目标用户的用户情感倾向得分Score(U),其中,
8.如权利要求1所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,步骤S104包括:
S1041:将所述目标文本的文本情感信息ht与所述目标用户的用户情感倾向得分Score(U)相结合生成用户文本情感信息H,
S1042:将所述用户文本情感信息H输入训练好的类别分类模型中,得到所述目标文本的情感极性信息。
9.如权利要求8所述的基于用户情感倾向感知的微博文本情感极性分析方法,其特征在于,所述类别分类模型为长短期记忆网络,训练的方法包括:
获取训练集,所述训练集包括m个训练样本,其中,每个训练样本为(x(i2),y(i2)),i2表示m个训练样本中的第i2个训练样本,x(i2)为长短期记忆网络的输入,y(i2)为第i2个训练样本的分类类别,则将第i2个训练样本分类为类别j2的概率为p(y(i2)=j2|x(i2);θ),k表示可分类的类别数, 表示将第i2个训练样本分类为
类别j2的模型参数,T为转置符号,e表示自然底数,通过训练长短期记忆网络的模型参数θ,使其能够最小化代价函数,代价函数为
通过添加参数正则化项 来修改代价函数,惩罚过大的参数值,使代
价函数变为 其中,λ为正则化项
系数,λ>0,n为类别j2的取值范围,n取值为0或1,θi2j2表示第i2个训练样本分类为类别j2类别的模型参数,i2表示表示m个训练样本中的第i2个训练样本,l模型参数的取值范围,然后代价函数loss求导,则 基于求
导后的代价函数loss使用梯度下降法来训练长短期记忆网络的模型参数θ。

说明书全文

一种基于用户情感倾向感知的微博文本情感极性分析方法

技术领域

[0001] 本发明涉及计算机领域,尤其涉及一种基于用户情感倾向感知的微博文本情感极性分析方法。

背景技术

[0002] 在以微博为代表的社会化媒体平台不断出现的今天,人们通过社交平台参与评论、分享见解和反馈信息的兴趣逐渐高涨,从海量的微博数据中获取用户的观点和情感态
度,对众多领域的发展都有着重要的意义,因此,对于微博文本情感极性分析方法的研究就格外显得重要。
[0003] 传统的情感分析方法研究的重点都是集中在句子词性、情感符号以及情感语料库等方面,这类通过获取句子显性特征、构建特征空间建立模型的情感分析方法,往往会忽略文本中所蕴含的隐性情感特征,不能够准确地获得用户的观点和情感态度。通过现有的技
术对基于词性的情感分析方法比较发现:具备乐观,积极向上生活态度的用户,其在社交媒体上更倾向于发表正能量或者是激励自己的积极言论,在这类用户所发表的言论中,即使
包含消极词语,其也不一定表达消极的情感,如果基于显性特征识别,将会错误判断用户情感态度;相反,具备悲观主义思想、自我压抑性人格的用户,观点态度相对极端,言论大多以消极为主,有时甚至会以反讽形式发表言论时,即使其言论包含多数显性特征的积极词语
也不一定表达的是积极言论。因此,现有的通过获取句子显性特征、构建特征空间建立模型的情感分析方法并不能够准确的判断微博文本的情感倾向。
[0004] 因此,如何提供一种新的技术方案,准确的判断微博文本的情感倾向,成为了本领域技术人员急需解决的问题。

发明内容

[0005] 针对现有技术中存在的上述不足,本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结
合,从而使得对于目标文本的情感倾向的判断更加准确。
[0006] 为解决上述技术问题,本发明采用了如下的技术方案:
[0007] 一种基于用户情感倾向感知的微博文本情感极性分析方法,包括如下步骤:
[0008] S101:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;
[0009] S102:提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht;
[0010] S103:基于所述历史微博文本判断所述目标用户的用户情感倾向得分 Score(U);
[0011] S104:基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性。
[0012] 优选地,步骤S102包括:
[0013] S1021:基于情感词典在所述目标文本中获取t个情感词的情感倾向得分,所述情感词中任意一个情感词wj的情感倾向的分为score(wj);
[0014] S1022:基于词向量词典获取所述情感词的词向量,所述情感词中任意一个情感词wj的词向量为ej,其中,ej=Wevj,1≤j≤t,vj表示情感词wj在词向量词典中对应的词向量,We表示所述目标文本的词向量矩阵,We∈Rd×N,Rd×N表示词向量词典的表示矩阵,N表示词向量词典中情感词数目,d表示单个情感词的词向量维度;
[0015] S1023:基于所述情感词的词向量及情感倾向得分生成所述情感词的情感信息,任意一个情感词wj的情感信息为rj,其中, 为结合符号,结合的方式包括
拼接或相乘;
[0016] S1024:基于所述目标文本中t个情感词的情感信息生成所述目标文本的文本情感信息ht,ht={r1,r2,r3,…rt-2,rt-1,rt}。
[0017] 优选地,步骤S1021中提取目标文本中前t个情感词的情感倾向得分,当所述目标文本中情感词个数小于t时,以“0”填充缺少的情感词。
[0018] 优选地,t的取值为15。
[0019] 优选地,所述情感词典中的情感词包括网络情感词典内的情感词及人工标注的情感词,所述人工标注的情感词包括微博文本中存在的网络用词、情感符号及表情符,所述情感词典中的情感词标记有情感倾向。
[0020] 优选地,所述情感倾向包括积极倾向、消极倾向及中性倾向,所述情感词典中的情感词的情感倾向得分的计算方法包括:
[0021] 获取词典数据集,词典数据集包括多个数据文档,每个数据文档标记有已知的情感倾向,数据文档的情感倾向包括积极倾向或消极倾向;
[0022] 当所述情感词典中任意一个情感词wi为积极倾向或消极倾向时,所述情感词i的情感倾向得分为Score(wi),其中,  Freq(wi)=|α·
Pos(wi)-β·Neg(wi)|,Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,[]表示取整,Freq
(wi)表示情感词wi在数据文档中出现的频数, Freqmin代表情感词典中所有情感词在数据文档中出现的最小频数,Freqmax代表情感词典中所有情感词在数据文档中出现的最大频数,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重
要程度参数,γ为情感倾向得分阈值控制参数;
[0023] 当所述情感词典中任意一个情感词wi为中性倾向时,所述情感词i的情感倾向得分为Score(wi),其中,Score(wi)=[α·Pos(wi)-β·Neg(wi)],Pos(wi)表示情感词 wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数。
[0024] 优选地,步骤S103包括:
[0025] S1031:计算所述目标用户的积极倾向得分Score(Up) ,其中,表示目标用户的历史微博文本中的
积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq
(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
[0026] S1032:计算所述目标用户的消极倾向得分Score(Un) ,其中,Freq(p)表示目标用户的历史微博文本中
的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
[0027] S1033:计算所述目标用户的用户情感倾向得分Score(U),其中,
[0028] 优选地,步骤S104包括:
[0029] S1041:将所述目标文本的文本情感信息ht与所述目标用户的用户情感倾向得分Score(U)相结合生成用户文本情感信息H,
[0030] S1042:将所述用户文本情感信息H输入训练好的类别分类模型中,得到所述目标文本的情感极性信息。
[0031] 优选地,所述类别分类模型为长短期记忆网络,训练的方法包括:
[0032] 获取训练集,所述训练集包括m个训练样本,其中,每个训练样本为 (x(i2),y(i2)),i2表示m个训练样本中的第i2个训练样本,x(i2)为长短期记忆网络的输入,y(i2)为第i2个训练样 本的 分 类 类别 ,则将 第i 2 个 训练 样本 分 类为 类 别j 2的 概 率 为k表示可分类的类别数, 表示将
第i2个训练样本分类为类别j2的模型参数,T为转置符号,e表示自然底数,通过训练长短期记忆网络的模型参数θ,使其能够最小化代价函数,代价函数为
通过添加参数正则化项
修改代价函数,惩罚过大的参数值,使代价函数变为
其中,λ为正则化项系数,λ>0,n
为类别j2的取值范围,n取值为0或1,θi2j2表示第i2个训练样本分类为类别j2类别的模型参数,i2表示表示m个训练样本中的第i2个训练样本,l模型参数的取值范围,然后代价函数
loss求导,则 基于求导后的代
价函数loss 使用梯度下降法来训练长短期记忆网络的模型参数θ。
[0033] 综上所述,本发明公开一种基于用户情感倾向感知的微博文本情感极性分析方法,包括如下步骤:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;提取所述目标文本的情感词并生
成所述目标文本的文本情感信息ht;基于所述历史微博文本判断所述目标用户的用户情感
倾向得分Score(U);基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述
目标文本的情感极性。本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析
方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结合,从而使得对于目
标文本的情感倾向的判断更加准确。
附图说明
[0034] 图1为本发明公开的一种基于用户情感倾向感知的微博文本情感极性分析方法的流程图
[0035] 图2为本发明具体实施例的实例中用户的情感得分从小到大排列示意图;
[0036] 图3为本发明具体实施例的用户情感特征在不同的权重下模型的分类性能示意图;
[0037] 图4为本发明具体实施例的不同训练次数的模型效果示意图。

具体实施方式

[0038] 下面结合附图对本发明作进一步的详细说明。
[0039] 如图1所示,本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,包括如下步骤:
[0040] S101:获取目标用户的历史微博文本集合及目标文本,并预先统计获得所述目标用户的历史微博文本集合中包含的各文本的情感倾向;
[0041] S102:提取所述目标文本的情感词并生成所述目标文本的文本情感信息ht;
[0042] S103:基于所述历史微博文本判断所述目标用户的用户情感倾向得分 Score(U);
[0043] S104:基于所述用户情感倾向得分Score(U)及所述文本情感信息ht判断所述目标文本的情感极性。
[0044] 现有的情感分类技术主要分为三类:基于情感词典的方法,基于人工提取特征分类的方法以及基于深度学习的方法。基于情感词典的方法是将句子看成词语的组合,通过
情感词典对文本中的词语进行一系列多粒度的组合计算,实现对文本的情感分析。这种方
法的不足之处在于过分依赖于情感词典,得到的分类效果并不是很理想。基于人工提取特
征分类的方法是一种有监督学习方法,其通过提取文本中所隐含的特征信息,构成特征向
量,然后采用支持向量机、逻辑回归、朴素贝叶斯等算法从训练集中学习分类模型,利用分类模型对未知类别的数据样本进行类别预测,以实现文本的自动分类,此方法对特征提取
的要求较高,提取的情感特征准确性将会直接影响分类结果。第三种就是基于深度学习的
方法,由于这种情感分类方式无需过分依赖于前期的特征提取,能够可以通过深度网络模
型充分挖掘文本的特征信息。近年来,越来越多的研究者利用深度神经网络技术进行情感
分析任务的研究。一种是融合显性与隐性特征的中文微博情感分析方法,提取了表情符情
感词汇等显性特征以及内容语义等隐性特征,给出了一种凝聚式的情感聚类算法,利用公
开语料NLPCC2013所提供的训练语料进行了分类实验。另一种是运用弱监督的数据预训练
深度模型的方法进行情感分类任务,结合了弱监督数据与监督数据的两种优势,取得了比
浅层模型更好的效果。但是,这类通过获取句子显性特征、构建特征空间建立模型的方法,忽略了文本所蕴含的隐性情感特征,并未建模用户的情感倾向对其所发表言论情感态度的
影响。我们通过研究发现:具备乐观,积极向上生活态度的用户,其在社交媒体上更倾向于发表正能量或者是激励自己的积极言论,在这类用户所发表的言论中,即使包含消极词语,其也不一定表达消极的情感,例如:“在心因绝望与羞愧而痛苦得碎裂成千千万万片时,就算颤抖着手,也必须自己一片片把他捡回来”,如果基于显性特征识别,当出现“绝望”“羞愧”“痛苦”“碎裂”等如此多消极的词语时,很可能会判定这句话是消极言论,但是如果在分类时,因为提前知道用户的情感倾向,例如积极的用户,那么这句话就很可能会被判定为积极言论。相反,具备悲观主义思想、自我压抑性人格的用户,观点态度相对极端,言论大多以消极为主,有时甚至会以反讽形式发表言论时,即使其言论包含积极的词语也不一定表达
积极含义,因此,单纯地提取显性情感特征并不能准确地分析微博语句的情感。
[0045] 本发明公开了一种基于用户情感倾向感知的微博文本情感极性分析方法,将目标文本中的情感词的情感倾向与用户自身的情感倾向相结合,从而使得对于目标文本的情感
倾向的判断更加准确。
[0046] 具体实施时,步骤S102包括:
[0047] S1021:基于情感词典在所述目标文本中获取t个情感词的情感倾向得分,所述情感词中任意一个情感词wj的情感倾向的分为score(wj);
[0048] S1022:基于词向量词典获取所述情感词的词向量,所述情感词中任意一个情感词wj的词向量为ej,其中,ej=Wevj,1≤j≤t,vj表示情感词wj在词向量词典中对应的词向量,We表示所述目标文本的词向量矩阵,We∈Rd×N,Rd×N表示词向量词典的表示矩阵,N表示词向量词典中情感词数目,d表示单个情感词的词向量维度;
[0049] S1023:基于所述情感词的词向量及情感倾向得分生成所述情感词的情感信息,任意一个情感词wj的情感信息为rj,其中, 为结合符号,结合的方式包括
拼接或相乘;
[0050] S1024:基于所述目标文本中t个情感词的情感信息生成所述目标文本的文本情感信息ht,ht={r1,r2,r3,…rt-2,rt-1,rt}。
[0051] 情感极性分析过程中,情感词表达的情感信息对于准确判断句子的情感极性极其重要,为了充分利用句子的情感信息,根据情感词在不同极性的文档中出现的频率计算情
感得分。
[0052] 为了获取词的情感得分,可采用Hownet情感词典作为本发明中的情感词典,为了对词典中各个词的情感倾向程度进行量化,我们计算情感词在不同极性文档中出现的频率
来获得各个词的情感得分。
[0053] 具体实施时,步骤S1021中提取目标文本中前t个情感词的情感倾向得分,当所述目标文本中情感词个数小于t时,以“0”填充缺少的情感词。
[0054] 为了得到每个词与上下文词的关联信息,采用gensim的word2Vec训练的维基百科词向量1作为基准词向量词典,在基准词向量词典中获取数据集中各个词语的词向量。对于不存在于基准词向量词典中的词语,我们将以基准词向量中的‘0’元素对应的词向量来代替该词典元素的词向量。
[0055] 具体实施时,t的取值为15。
[0056] 首先计算数据集中文本长度的分布,发现其中80%的文本长度小于15个词,因此我们设定最大文本长度t=15,对于长度大于t的微博,选取前t个词典元素作为文本表示;
对于长度小于t的微博,在其末端添加0的列向量,直到长度达到t为止。
[0057] 具体实施时,所述情感词典中的情感词包括网络情感词典内的情感词及人工标注的情感词,所述人工标注的情感词包括微博文本中存在的网络用词、情感符号及表情符,所述情感词典中的情感词标记有情感倾向。
[0058] 由于微博中存在大量的网络用语,可以对这些网络用语中常用的词语、情感符号和情感表情符进行人工情感标注,并将标注的结果与情感词典进行合并,形成最终的情感
词典。
[0059] 具体实施时,所述情感倾向包括积极倾向、消极倾向及中性倾向,所述情感词典中的情感词的情感倾向得分的计算方法包括:
[0060] 获取词典数据集,词典数据集包括多个数据文档,每个数据文档标记有已知的情感倾向,数据文档的情感倾向包括积极倾向或消极倾向;
[0061] 当所述情感词典中任意一个情感词wi为积极倾向或消极倾向时,所述情感词i的情感倾向得分为Score(wi),其中,  Freq(wi)=|α·
Pos(wi)-β·Neg(wi)|,Pos(wi)表示情感词wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,[]表示取整,Freq
(wi)表示情感词wi在数据文档中出现的频数, Freqmin代表情感词典中所有情感词在数据文档中出现的最小频数,Freqmax代表情感词典中所有情感词在数据文档中出现的最大频数,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重
要程度参数,γ为情感倾向得分阈值控制参数;
[0062] 当所述情感词典中任意一个情感词wi为中性倾向时,所述情感词i的情感倾向得分为Score(wi),其中,Score(wi)=[α·Pos(wi)-β·Neg(wi)],Pos(wi)表示情感词 wi在积极倾向的数据文档中出现的频率,Neg(wi)表示情感词wi在消极倾向的数据文档中出现的频率,||表示取绝对值,α表示积极倾向的数据文档的频数的重要程度参数,β表示消极倾向的数据文档的频数的重要程度参数。
[0063] 具体实施时,步骤S103包括:
[0064] S1031:计算所述目标用户的积极倾向得分Score(Up) ,其中,表示目标用户的历史微博文本中的
积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq
(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
[0065] S1032:计算所述目标用户的消极倾向得分Score(Un) ,其中,Freq(p)表示目标用户的历史微博文本中
的积极倾向的文本数,Freq(n)表示目标用户的历史微博文本中的消极倾向的文本数,Freq(nom)表示目标用户的历史微博文本中的中性倾向的文本数;
[0066] S1033:计算所述目标用户的用户情感倾向得分Score(U),其中,
[0067] 虽然考虑到了词语情感信息对微博文本情感分析的重要性,但是用户自身通常带有一定的情感倾向性,该信息同样对微博语句的情感倾向产生影响。经过实验分析发现:性格积极、乐观的用户,在社交平台上发表的言论通常明显倾向于正向;然而性格忧郁、悲观的用户,在社交平台上发表的言论明显偏于负向。受此启发,我们在判断用户言论的情感倾向时,除了对情感词语的判断,进一步考虑用户自身情感倾向性,从而更加准确地判断微博的情感倾向性。
[0068] 具体实施时,步骤S104包括:
[0069] S1041:将所述目标文本的文本情感信息ht与所述目标用户的用户情感倾向得分Score(U)相结合生成用户文本情感信息H,
[0070] S1042:将所述用户文本情感信息H输入训练好的类别分类模型中,得到所述目标文本的情感极性信息。
[0071] 具体实施时,所述类别分类模型为长短期记忆网络,训练的方法包括:
[0072] 获取训练集,所述训练集包括m个训练样本,其中,每个训练样本为 (x(i2),y(i2)),i2表示m个训练样本中的第i2个训练样本,x(i2)为长短期记忆网络的输入,y(i2)为第i2个训练样本的分类类别,则将第i2个训练样本分类为类别j2的概率为p(y(i2)=j2|x(i2);θ),k表示可分类的类别数, 表示将第i2个训练样本分类为类别j2的模型参数,T为转置符号,e表示自然底数,通过训练长短期记忆网络的模型参数θ,使其能够最小化代价函数,代价函数为
通过添加参数正则化项 来修改代价函数,惩罚过大的参数值,使代
价函数变为 其中,λ为正则化项
系数,λ>0,n为类别j2的取值范围,n取值为0或1,θi2j2表示第i2个训练样本分类为类别j2类别的模型参数,i2表示表示m个训练样本中的第i2个训练样本,l模型参数的取值范围,然后代价函数loss求导,则 基于求
导后的代价函数loss 使用梯度下降法来训练长短期记忆网络的模型参数θ。
[0073] 下面为采用本发明公开的方法进行实现并与现有方法进行效果对比的实例:
[0074] 由于现有的情感分析语料集缺乏用户信息,因此,我们基于微博构建了一个新的、带有用户信息的微博情感数据集MEDUI(Micro-blog emotional dataset with user info-rmation),为了保证选取的用户发表的言论能够更好得反映个人在一定时间内所处
的情感状态,我们随机挑选了200位粉丝量在 50-50000之间,发表的帖子数量在100篇以上
1000篇以下的用户,并且活跃度较高的微博用户,爬取了约10000多条微博语句,我们对数据集进行了人工情感标注,结果显式所有数据中,带有积极、消极情绪的微博语句接近3000 条。实验随机抽取80%的语句(共2193条)作为训练集,余下的20%(共528 条语句)作为测
试集。
[0075] 本发明的情感词典由两部分组成:一部分采用hownet的情感词典中的中文正、负情感词语集,另一部分是人工加入网络用语词典中的带有情感色彩的词语、微博常用情感
表情符以及情感符号。所使用的情感词典包含正负情感词分别为2000多个。
[0076] 在微博的处理过程中,使用gensim的word2vec训练的维基百科的词向量,其包含了575746个词语的200维向量表示。对于数据集中未在维基百科的向量集中体现的词语,我们以基准词向量词典中的‘0’元素对应的词向量来代替该词典元素的词向量。
[0077] 此外,为了避免停用词对微博分类的干扰,可采用哈工大的停用词表,其共包含1893个停用词和无用符号,例如:“,”,“。”,“···”,“我”,“你”,“的”,“在”等。为了分析不同用户情感得分情况,我们对所有100个用户的情感状态进行统计分析,并根据用户的情感得分从小到大排列,结果如图2所示。
[0078] 从图2中可以看出不同用户所处的情感状态是有显著差异,约40%的用户带有明显的消极情感倾向性,约45%的用户带有明显的积极情感倾向性。通过该实验分析表明,所考虑的嵌入用户情感倾向的情感分析方法是合理的。
[0079] 为了避免在计算情感词的情感得分时受文档极性分布不均的影响,即不同极性文档中出现频率对情感得分计算的影响,使得情感得分的计算不偏向于任何一个极性,考虑
到不同极性文本的训练数量的差异,控制文档频数重要程度的参数α、β取值分别为0.3和
0.4。
[0080] 由于词语的情感得分取值过大会导致词语映射的权重太大,过小则无法区分不同影响的词语,在平衡了不同极性词语得分的数量后,将控制情感得分的阈值γ的取值定
为0.1。
[0081] 此外,我们对用户情感特征在不同的权重下模型的分类性能进行了分析,结果如图3所示。
[0082] 由图3可以看出,随着用户特征权重μ的增加,召回率不断提升,当μ达到0.8时,召回率达到最大(0.91),随着μ的继续增加,召回率开始显著下降,因此中用户特征权重μ的取值为0.8。
[0083] 设定词向量维度为200维,为了保证权重系数在绝对值意义上足够小,使得噪声不会被过度地拟合,因此,在实验我们使用了dropout和权重正则化约束。将平均参数最优组合作为实验结果,网络详情参数表如表1所示。
[0084] 表1模型参数设置表
[0085]
[0086] 为了分析模型的训练次数对情感分类的影响,我们比较了不同训练次数,即epochs={5,10,15,20,25,30,35},下模型的效果,结果如图4所示。
[0087] 实验结果发现,训练迭代次数对结果存在显著影响,迭代次数越大,在训练集上的效果表现会越好。而在测试集上,随着迭代次数的增加,在测试集上的效果不断增加,当迭代次数达到20次时,测试数据集中的F1值能达到最优,当迭代次数进一步增加时,模型的效果开始下降。因此,在后续的实验中,我们设置的训练迭代次数为20次。
[0088] 为了验证模型的有效性和准确性,我们与以下6个方法进行了实验对比,对比结果如表2所示:
[0089] 表2不同模型在三个指标(准确率P、召回率R、F1)上的测试结果
[0090]
[0091] CDLS(Combination of dictionaries and regular sets,CDLS):是传统的基于词典和规律集的微博情感分析方法,该方法根据微博特性,定义了不同语言层次上的规则,
并结合情感词典对微博文本进行了从词语到句子的多粒度情感计算
[0092] LR(Linear regression):该方法首先将微博语句使用TF-IDF(term frequency–inverse document frequency)进行表示,然后使用语句传统的回归分析方法进行语句的
情感分类。这种方法中,在对语句的向量表示不考虑语句的情感信息。
[0093] SVM(Support Vector Machine):该方法同样使用TF-IDF(term frequency –inverse document frequency)来表示微博语句,然后使用SVM分类器进行情感分类。
[0094] W2V+CNN(Word2vec+Convolution Nerutal Networts):该方法是一种基于深度学习的模型,首先使用word2vec训练词向量,并将微博语句看成是一个词向量序列,然后利用卷积神经网络来学习情感分类模型。
[0095] Att-CTL:该方法在卷积神经网络模型的基础上,通过在输入端引入注意力机制,在模型输出端引入树型长短期记忆神经网络Tree-LSTM,通过建模句子结构特征来加强深
层语义学习,在微博情感分析任务上取得不错的效果。
[0096] MF-CNN(Multiple Features-Convolu-tion Neural Networks,MF-CNN):是一种结合语句多样化特征的卷积神经网络,通过将词语按不同的情感得分和权重得分映射到多
维连续值向量,实现对这两类信息的建模,并使用两种不同的卷积神经网络输入层计算方
法来挖掘更丰富的隐藏信息。
[0097] 对于上述实验结果进行分析:
[0098] 采用的评测指标是机器学习自然语言处理中常用的精准率(Precision)、召回率(Recall)、F1-measure作为评价模型的性能指标:
[0099]
[0100]
[0101]
[0102] 表2是不同方法在数据集MEDUI上的评测结果。实验结果显示基于情感词典的CDLS方法和LR方法的分类效果最差,其F1值只有0.70。SVM方法要显著胜过CDLS方法和LR方法,其F1值达到0.78,这主要是因为SVM模型能够建模非线性数据,在分类能力上要优于LR方法和CSLS方法。基于卷积神经网络模型的方法W2V+CNN在分类效果上比SVM方法提高了6.4%,这体现了深度学习模型良好的建模能力。Att-CTL在卷积神经网络模型的基础上,通过在输入端引入注意力机制,在模型输出端引入Tree-LSTM来建模语句结构特征,得到比 W2V+CNN更好的分类性能,F1值达到0.84。在所有的基准方法中,MF-CNN方法取得最好的分类效果,这是因为该方法对词语的情感得分和权重得分进行了建模,有效地利用情感信息来改善模
型的情感分类性能。我们的方法UA-LSTM在情感分类任务上的表现超过的所有的基准方法,并且比最优的基准方法MF-CNN 在F1值上提升了3.4%,达到0.91。
[0103] 综上所述,本发明具有以下技术效果:构造了包含用户信息的微博情感分析数据集MEDUI,为研究用户情感倾向信息对情感分类影响提供了新的数据资源;提出对用户情感倾向信息进行建模,并提出了一种基于用户情感倾向感知的微博文本情感极性分析方法;
实验结果证明,本文提出的方法能够显著提升微博情感分类的效果,并且比最优的基准方
法MF-CNN在F1值上提升了3.4%,达到0.91
[0104] 上述仅是本发明优选的实施方式,需指出是,对于本领域技术人员在不脱离本技术方案的前提下,还可以作出若干变形和改进,上述变形和改进的技术方案应同样视为落
入本发明要求保护的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈