首页 / 专利库 / 电脑图像 / 表情符号 / 一种微博情感分析方法

一种微博情感分析方法

阅读:735发布:2020-05-11

专利汇可以提供一种微博情感分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种微博 情感分析 方法,爬取微博数据,计算微博情感值;将与股市相关的微博进行标签分类;使用Smote的 随机森林 模型对获得的新微博数据进行类别预测;使用基于Smote的随机森林 算法 对每篇微博的情感分类。本发明对微博情绪进行分析时,当消极情绪相对较高时,恰逢大盘(上证指数)呈现出某种程度的下跌,微博情绪表现与大盘趋势是较一致的,大盘趋势也可以通过情绪 波动 来展现。微博看多看空,可以作为服务项目,提供给客户做决策参考。股市外围数据分析对研究媒体与 证券 市场之间的相互影响关系,帮助投资者去掉投机心理、树立投资理念都有着重要的作用。,下面是一种微博情感分析方法专利的具体信息内容。

1.一种微博情感分析方法,其特征在于,包括以下步骤:
(1)爬取微博数据,计算微博情感值;
(2)将与股市相关的微博进行标签分类;
(3)使用Smote的随机森林模型对获得的新微博数据进行类别预测;
(4)使用基于Smote的随机森林算法对每篇微博的情感分类具体如下:
(41)对于第j篇微博,假设其转发量为rj,评论量为cj,点赞量为zj,定义该篇微博的热度ωj计算公式为:
(42)若第i个大V在一段时期内发表与股市相关的微博共mi篇,则该大V在该时期通过发表微博传递的三种情感分别为:
消极情感、无情感、积极情感三种类别概率分别为p-1j、p0j、p1j;
(43)记第i个大V在该时期的关注人数为focusi,粉丝人数为fansi,发微博总数为weiboi,c1、c2为给定的常数,在评价大V影响 时,定义如下:
Fansi=fansi

(44)微博平台上n个大V的整体情感指标为:
消极情绪指标Qbad:
无情绪指标Qave:
积极情绪指标Qgood:
2.根据权利要求1所述的一种微博情感分析方法,其特征在于,所述步骤(1)包括以下步骤:
(11)建立情感字典,包括积极消极字典,程度词字典,否定词字典,以及表情词语字典;
(12)计算微博情感值:假设积极消极情感词S对应的权重Si,表情符号SS对应的权重为SSi,每篇微博经过切词、清洗等后获取到m1个积极消极情感词,m2种不同的表情词,且第i种表情词的个数为ni,
若有m(≤m1)个积极消极情感词之前仅出现权重为Wi的程度词修饰,则该篇微博的情感值Ok为:
若有m(≤m1)个积极消极情感词之前仅出现权重为Wino的否定词修饰,则该篇微博的情感值Ok为:
若有m(≤m1)个积极消极情感词之前既有权重为Wi的程度词修饰,又有权重为Wino的否定词修饰,则该篇微博的情感值Ok为:
3.根据权利要求2所述的一种微博情感分析方法,其特征在于,所述步骤(2)中,将与股市相关的微博人工划分为三大类:
第一类是表达对股市积极情绪的微博,情感标签设置为1,第二类是表达对股市消极情感的微博,情感标签设置为-1,第三类是未表达情感观点的微博,情感标签设置为0。
4.根据权利要求3所述的一种微博情感分析方法,其特征在于,选取基于Smote的随机森林算法对原始样本做分类,分类器中训练样本的自变量按照情感分析字典设计的权重程度,基于所述计算情感值的方法获取的,即:分别对不同类型、不同权重的词语计算得分。
5.根据权利要求4所述的一种微博情感分析方法,其特征在于,根据得分对每一篇微博提取出12维属性,其中积极情感分为3维度,消极情感分为3维度,程度词分为4维度,否定词为1维度,情感值为1维度。

说明书全文

一种微博情感分析方法

技术领域

[0001] 本发明涉及一种社交媒体对股市影响的分析方法,尤其涉及的是一种微博情感分析方法。

背景技术

[0002] 在Web2.0时代的主流网络社交平台中,微博已经成为广大互联网用户最为喜爱的社交工 具之一。在以速度和效率为标准的信息时代,微博不仅为网络用户提供了跨越时间和距离的即 时通讯互动平台:同时微博还为网络用户提供了表现自我、表达情感和展现个性的动态展示 平台。微博消息每时每刻都在不断更新,不计其数的带有情感信息的微博文本,使得针对微博 进行情感分析的研究成为可能。
[0003] 微博相比于博客,其内容只是由简单的只言片语组成,而且在语言的编排组织上没有博 客数据规范,字数限制在140以内,提取准确的信息则更为困难;微博最大特点是:发布信 息快速,信息传播速度快,存在关注和互相关注的行为,影响的评判是需要探究的;而且 微博内容具有一定的随意性,情感的表露是直接的,但并不是关注的大V发表的每一条微博 都与股市相关,需要按照关键字如“股市”、“股票”、“证券”、“阳线”等做出筛选。

发明内容

[0004] 本发明所要解决的技术问题在于:如何根据微博数据进行有效的投资指导,提供了一种 微博情感分析方法。
[0005] 本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
[0006] (1)爬取微博数据,计算微博情感值;
[0007] (2)将与股市相关的微博进行标签分类;
[0008] (3)使用Smote的随机森林模型对获得的新微博数据进行类别预测;
[0009] (4)使用基于Smote的随机森林算法对每篇微博的情感分类具体如下:
[0010] (41)对于第j篇微博,假设其转发量为rj,评论量为cj,点赞量为zj,定义该篇微 博的热度ωj计算公式为:
[0011]
[0012] (42)若第i个大V在一段时期内发表与股市相关的微博共mi篇,则该大V在该时期通 过发表微博传递的三种情感分别为:
[0013]
[0014]
[0015]
[0016] 消极情感、无情感、积极情感三种类别概率分别为p-1j、p0j、p1j;
[0017] (43)记第i个大V在该时期的关注人数为focusi,粉丝人数为fansi,发微博总数为weiboi, c1、c2为给定的常数,在评价大V影响力 时,定义如下:
[0018]
[0019]
[0020] Fansi=fansi
[0021] 则
[0022]
[0023] (44)微博平台上n个大V的整体情感指标为:
[0024] 消极情绪指标Qbad:
[0025] 无情绪指标Qave:
[0026] 积极情绪指标Qgood:
[0027] 所述步骤(1)包括以下步骤:
[0028] (11)建立情感字典,包括积极消极字典,程度词字典,否定词字典,以及表情词语字 典;
[0029] (12)计算微博情感值:假设积极消极情感词S对应的权重Si,表情符号SS对应的权重 为SSi,每篇微博经过切词、清洗等后获取到m1个积极消极情感词,m2种不同的表情词, 且第i种表情词的个数为ni,
[0030] 若有m(≤m1)个积极消极情感词之前仅出现权重为Wi的程度词修饰,则该篇微博的情感 值Ok为:
[0031]
[0032] 若有m(≤m1)个积极消极情感词之前仅出现权重为Wino的否定词修饰,则该篇微博的情感 值Ok为:
[0033]
[0034] 若有m(≤m1)个积极消极情感词之前既有权重为Wi的程度词修饰,又有权重为Wino的否定 词修饰,则该篇微博的情感值Ok为:
[0035]
[0036] 所述步骤(2)中,将与股市相关的微博人工划分为三大类:
[0037] 第一类是表达对股市积极情绪的微博,情感标签设置为1,第二类是表达对股市消极情 感的微博,情感标签设置为-1,第三类是未表达情感观点的微博,情感标签设置为0。
[0038] 选取基于Smote的随机森林算法对原始样本做分类,分类器中训练样本的自变量按照情 感分析字典设计的权重程度,基于所述计算情感值的方法获取的,即:分别对不同类型、不 同权重的词语计算得分。
[0039] 根据得分对每一篇微博提取出12维属性,其中积极情感分为3维度,消极情感分为3维 度,程度词分为4维度,否定词为1维度,情感值为1维度。
[0040] 本发明相比现有技术具有以下优点:本发明对微博情绪进行分析时,当消极情绪相对较 高时,恰逢大盘(上证指数)呈现出某种程度的下跌,微博情绪表现与大盘趋势是较一致的, 大盘趋势也可以通过情绪波动来展现。微博看多看空,可以作为服务项目,提供给客户做决 策参考。股市外围数据分析对研究媒体与证券市场之间的相互影响关系,帮助投资者去掉投 机心理、树立投资理念都有着重要的作用。附图说明
[0041] 图1是本发明的情感字典中部分带权重的词语;
[0042] 图2是部分微博数据的情感标签图;
[0043] 图3是基于Smote的随机森林模型训练结果;
[0044] 图4是微博整体各情感趋势图;图5是大盘(上证指数)行情K线图。

具体实施方式

[0045] 下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施, 给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0046] 本实施例首先爬取微博数据,主要可获取到的信息包括:发表时间、昵称、微博者id号、 转发数、评论数、点赞数、微博内容以及微博评论人的等级、认证情况、粉丝数、性别、住 址等数据。主要是通过设置是否关注知名评估大V数目、间隔时间来获取大量微博,关注的 大V主要按照粉丝量筛选。
[0047] 微博情感分析主要研究股票大V在一段时期内的积极或者消极情绪,在某种程度上可以 客观的反映出股票市场上投资者的投资信心。进行情感分析的必要环节是建立带权重的情感 字典,对每篇微博进行切词、清洗、匹配情感字典等,计算出一个情感值,以此来衡量微博 情感的重要指标。
[0048] 建立的情感字典只要包括:积极消极字典.txt,程度词字典.txt,否定词字典.txt,考 虑到表情符号的广泛使用,将表情词语也添加到字典情感字典里,并赋予其相应的权重,部 分带权重的词语如图1所示。
[0049] 微博情感值计算方法如下:假设积极消极情感词S对应的权重Si,表情符号SS对应的权 重为SSi,每篇微博经过切词、清洗等后获取到m1个积极消极情感词,m2种不同的表情词, 且第i种表情词的个数为ni。
[0050] 若有m(≤m1)个积极消极情感词之前仅出现权重为Wi的程度词修饰,则该篇微博的情感 值Ok为:
[0051]
[0052] 若有m(≤m1)个积极消极情感词之前仅出现权重为Wino的否定词修饰,则该篇微博的情感 值Ok为:
[0053]
[0054] 若有m(≤m1)个积极消极情感词之前既有权重为Wi的程度词修饰,又有权重为Wino的否定 词修饰,则该篇微博的情感值Ok为:
[0055]
[0056] 本实施例对837篇微博进行人工标记,初步统计,与股市相关的微博约占总微博数的1/2, 将其划分为三大类:第一类是表达对股市积极情绪的微博,情感标签设置为1,第二类是表 达对股市消极情感的微博,情感标签设置为-1,第三类是未表达情感观点的微博,情感标签 设置为0,图2是部分微博数据的情感标签图。
[0057] 通过上述微博情感值计算方法,计算出每篇与股市相关的微博的情感值,考虑到根据给 定的情感阈值进行微博分类可能存在一定的偏差性,将会直接影响到分类的正确率,尝试使 用logistic回归、随机森林、深度神经网络等做分类器对微博进行情感分析,由于原始样本 数据存在不均衡的现象,为了保证分类器的分类效果,本实施例使用Smote算法对原始样本 进行了均衡,对比各分类器的分类效果后最终选取基于Smote的随机森林算法做分类。
[0058] 分类器中训练样本的自变量是按照情感分析字典设计的权重程度,基于上述计算情感值 的规则获取的,即:分别对不同类型、不同权重的词语计算得分。根据得分对每一篇微博提 取出12维属性,其中积极情感分为3维度,消极情感分为3维度,程度词分为4维度,否定 词为1维度,情感值为1维度。
[0059] 对已有标签的微博数据,使用基于Smote的随机森林模型进行训练,4/5样本作训练, 1/5样本作测试,初步结果如图3所示。
[0060] 从整体正确率和各类别指标上来看,Smote的随机森林模型是可以直接用来对新微博数 据进行预测的,本实施例使用上述训练模型,对每日获取到的新微博数据进行类别预测。
[0061] 使用基于Smote的随机森林算法实现对每篇微博的情感分类,记对第j篇微博分类时, 获得的消极情感、无情感、积极情感三种类别概率分别为p-1j、p0j、p1j,据此判断微博平 台上整体的情感状况,不仅要考虑每篇微博的热度ωj,也需要考虑到不同大V的影响力下面详细给出整体情感指标Qbad、Qave、Qgood的计算步骤:
[0062] Step1:对于第j篇微博,假设其转发量为rj,评论量为cj,点赞量为zj,定义该篇微 博的“热度”计算公式为:
[0063]
[0064] 考虑到点赞量数值较大,一般情况下约为评论量、转发量的5-10倍,将其给与0.2倍惩 罚,使得三者几乎处于相同数量级范围内。
[0065] Step2:若第i个大V在一段时期内发表与股市相关的微博共mi篇,则该大V在该时期通 过发表微博传递的三种情感分别为:
[0066]
[0067] Step3:记第i个大V在该时期的关注人数为focusi,粉丝人数为fansi,发微博总数为 weiboi,c1、c2为给定的常数。考虑到微博中存在“互相关注”和“话痨”的现象,在评价大 V“影响力” 时,对关注人数和发微博总数给与一定程度的惩罚,具体定义为:
[0068]
[0069]
[0070] Fansi=fansi
[0071] 则
[0072]
[0073] Step4:微博平台上n个大V的整体情感指标为:
[0074] 消极情绪指标Qbad:
[0075] 无情绪指标Qave:
[0076] 积极情绪指标Qgood:
[0077] 使用上述指标计算方法,对2017年1月15日至2017年2月15日期间微博平台上96位 大V进行情感趋势探索,绘制趋势图如图4所示,对比图5的大盘(上证指数)行情K线图。
[0078] 可以看出:
[0079] 一般情况下,无情感指标所占的比例较大,从某种程度上反映出发表的微博中大部分没 有情感倾向。
[0080] 一般情况下,积极情感指标高于消极情感,两者在一定范围内正常波动,波动较大时可 能存在股市上较大的变化。
[0081] 对比图4和图5可以发现,虽然多数情况下情绪呈现出偏积极状态,但是,当消极情绪 相对较高时,恰逢大盘(上证指数)呈现出某种程度的下跌,微博情绪表现与大盘趋势是较 一致的,大盘趋势也可以通过情绪波动来展现。
[0082] 微博看多看空,可以作为服务项目,提供给客户做决策参考。客户可以正着看,也可以 反着看。结合客户自己的判断完成最后的投资操作。
[0083] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原 则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈