首页 / 专利库 / 人工智能 / 情感计算 / 一种多维度舆情危机预测方法、终端设备及存储介质

一种多维度舆情危机预测方法、终端设备及存储介质

阅读:688发布:2020-05-12

专利汇可以提供一种多维度舆情危机预测方法、终端设备及存储介质专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种多维度舆情危机预测方法、终端设备及存储介质,在该方法中包括:S1:采集一定时间内的舆情文本数据,并根据每个文本数据在不同维度的属性计算其负面情感热度总指数;S2:根据舆情危机 知识库 中存储的各类型舆情危机事件,通过聚类 算法 对文本数据进行分类,并计算每个文本数据与其聚类中心的相关度;S3:根据每个文本数据与其聚类中心的相关度和该文本数据的负面情感热度总指数计算每个文本数据的危机程度。本发明通过不同维度的属性计算负面情感热度总指数,并与历史的各类型舆情危机事件进行聚类,得到每个文本数据的危机程度,实现对重大负面舆情的预测,可以提高舆情预测的准确性和时效性。,下面是一种多维度舆情危机预测方法、终端设备及存储介质专利的具体信息内容。

1.一种多维度舆情危机预测方法,其特征在于:包括以下步骤:
S1:采集一定时间内的舆情文本数据,并根据每个文本数据在不同维度的属性计算其负面情感热度总指数;
S2:根据舆情危机知识库中存储的各类型舆情危机事件,通过聚类算法对文本数据进行分类,并计算每个文本数据与其聚类中心的相关度;
S3:根据每个文本数据与其聚类中心的相关度和该文本数据的负面情感热度总指数计算每个文本数据的危机程度。
2.根据权利要求1所述的多维度舆情危机预测方法,其特征在于:每个文本数据的负面情感热度总指数的计算过程包括以下步骤:
S11:设定文本数据的多个情感属性、每个情感属性对应的情感系数、多个热度属性和每个热度属性对应的热度系数;
S12:根据下式计算该文本数据的负面情感值和热度值;
Ai=f(si,ri)
Bj=h(1-ej,qj)
其中,Ai表示第i个热度属性的热度值,f表示热度值计算函数,si表示第i个热度属性,ri表示第i个热度属性对应的热度系数,Bj表示第j个情感属性的负面情感值,h表示负面情感值计算函数,ej表示第j个情感属性,qj表示第j个情感属性对应的情感系数;
S13:根据下式计算该文本数据的负面情感热度指数W:
W=A+B
其中,n表示热度属性的总数,i表示热度属性的序号,m表示情感属性的总数,j表示情感属性的序号;
S14:根据该文本数据命中的情感属性和热度属性,计算该文本数据的属性权重P:
其中,p和k分别表示命中的情感属性和热度属性的序号,N和M分别表示命中的情感属性和热度属性的总数;
S15:将该文本数据的负面情感热度指数W与属性权重P相加得到该文本数据的负面情感热度总指数WP。
3.根据权利要求2所述的多维度舆情危机预测方法,其特征在于:情感属性包括:极性情感属性;主题情感属性;意见持有人情感属性;观点情感属性;类型情感属性;级别情感属性;细粒度情感属性;样本机器学习匹配结果情感属性;情感词典匹配结果情感属性;情感知识图谱匹配结果情感属性。
4.根据权利要求2所述的多维度舆情危机预测方法,其特征在于:热度属性包括:所在网站热度属性;内容分类热度属性;内容涉事地热度属性;跟帖、转发和点赞数量热度属性;
单个关键词热度属性;关键词组合热度属性。
5.根据权利要求1所述的多维度舆情危机预测方法,其特征在于:步骤S1还包括:针对每个文本数据进行情感值计算,并通过统计学方法判定该文本数据是否符合要求,如果不符合,则剔除该文本数据。
6.根据权利要求5所述的多维度舆情危机预测方法,其特征在于:所述统计学方法为将文本数据分为多个子文本,计算每个子文本的情感值,并计算所有子文本的情感值的平均数和中位数,判断平均数和中位数的差值是否大于差值阈值,如果大于,则判定不符合要求。
7.一种多维度舆情危机预测终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~6中任一所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~6中任一所述方法的步骤。

说明书全文

一种多维度舆情危机预测方法、终端设备及存储介质

技术领域

[0001] 本发明涉及舆情分析领域,尤其涉及一种多维度舆情危机预测方法、终端设备及存储介质。

背景技术

[0002] 网络舆情是通过互联网传播的公众对现实生活中某些问题所持有的较强影响、倾向性的观点和言论,主要通过新闻评论、论坛贴文、博客、微博等媒体实现,集中反映了一个时间段内的网络舆论。
[0003] 在现有的情感分析算法中错误率还是较高的,较为常用的snowNLP算法也存在一定的误差,常见的方法有通过基于一组手动制定的规则执行情感分析计算,有通过依靠机器学习技术从数据中学习执行情感分析计算,但这些方法都存在一些弊端,由于缺乏背景知识,上下文联系,从而导致数据准确性不高,召回率低,情感分析指数在时间序列上无法直观体现。虽然在增加更多规则和样本库进行训练可以做一些改进以提高准确性和召回率,但往往还是无法两者兼顾。
[0004] 多维度舆情危机预测时效性敏感,随着时间的推移,舆情危机爆发的可能也随之增加,在时间维度上的特点往往也需要纳入情感分析范围,低维度的情感分析也导致多维度舆情危机预测难以成型,难以达到较理想的效果。

发明内容

[0005] 针对上述问题,本发明旨在提供一种多维度舆情危机预测方法、终端设备及存储介质。
[0006] 具体方案如下:
[0007] 一种多维度舆情危机预测方法,包括以下步骤:
[0008] S1:采集一定时间内的舆情文本数据,并根据每个文本数据在不同维度的属性计算其负面情感热度总指数;
[0009] S2:根据舆情危机知识库中存储的各类型舆情危机事件,通过聚类算法对文本数据进行分类,并计算每个文本数据与其聚类中心的相关度;
[0010] S3:根据每个文本数据与其聚类中心的相关度和该文本数据的负面情感热度总指数计算每个文本数据的危机程度。
[0011] 进一步的,每个文本数据的负面情感热度总指数的计算过程包括以下步骤:
[0012] S11:设定文本数据的多个情感属性、每个情感属性对应的情感系数、多个热度属性和每个热度属性对应的热度系数;
[0013] S12:根据下式计算该文本数据的负面情感值和热度值;
[0014] Ai=f(si,ri)
[0015] Bj=h(1-ej,qj)
[0016] 其中,Ai表示第i个热度属性的热度值,f表示热度值计算函数,si表示第i个热度属性,ri表示第i个热度属性对应的热度系数,Bj表示第j个情感属性的负面情感值,h表示负面情感值计算函数,ej表示第j个情感属性,qj表示第j个情感属性对应的情感系数;
[0017] S13:根据下式计算该文本数据的负面情感热度指数W:
[0018] W=A+B
[0019]
[0020]
[0021] 其中,n表示热度属性的总数,i表示热度属性的序号,m表示情感属性的总数,j表示情感属性的序号;
[0022] S14:根据该文本数据命中的情感属性和热度属性,计算该文本数据的属性权重P:
[0023]
[0024] 其中,p和k分别表示命中的情感属性和热度属性的序号,N和M分别表示命中的情感属性和热度属性的总数;
[0025] S15:将该文本数据的负面情感热度指数W与属性权重P相加得到该文本数据的负面情感热度总指数WP。
[0026] 进一步的,情感属性包括:极性情感属性;主题情感属性;意见持有人情感属性;观点情感属性;类型情感属性;级别情感属性;细粒度情感属性;样本机器学习匹配结果情感属性;情感词典匹配结果情感属性;情感知识图谱匹配结果情感属性。
[0027] 进一步的,热度属性包括:所在网站热度属性;内容分类热度属性;内容涉事地热度属性;跟帖、转发和点赞数量热度属性;单个关键词热度属性;关键词组合热度属性。
[0028] 进一步的,步骤S1还包括:针对每个文本数据进行情感值计算,并通过统计学方法判定该文本数据是否符合要求,如果不符合,则剔除该文本数据。
[0029] 进一步的,所述统计学方法为将文本数据分为多个子文本,计算每个子文本的情感值,并计算所有子文本的情感值的平均数和中位数,判断平均数和中位数的差值是否大于差值阈值,如果大于,则判定不符合要求。
[0030] 一种多维度舆情危机预测终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
[0031] 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
[0032] 本发明采用如上技术方案,通过不同维度的属性计算负面情感热度总指数,并与历史的各类型舆情危机事件进行聚类,得到每个文本数据的危机程度,实现对重大负面舆情的预测,可以极大的提高舆情预测的准确性和时效性,同时也能够保证数据的召回率,不会因为数据条件过滤导致数据丢失。附图说明
[0033] 图1所示为本发明实施例一的流程示意图。

具体实施方式

[0034] 为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
[0035] 现结合附图和具体实施方式对本发明进一步说明。
[0036] 实施例一:
[0037] 参考图1所示,本发明提供了一种多维度舆情危机预测方法,包括以下步骤:
[0038] S1:采集一定时间内的舆情文本数据,并根据每个文本数据在不同维度的属性计算其负面情感热度总指数。
[0039] 该实施例中所述文本数据为通过互联网爬虫等工具采集的网络上的评论/文章/帖子信息进行格式化处理得到的。
[0040] 每个文本数据的负面情感热度总指数的计算过程包括以下步骤:
[0041] S11:设定文本数据的多个情感属性、每个情感属性对应的情感系数、多个热度属性和每个热度属性对应的热度系数。
[0042] 该实施例中进行以下设定
[0043] (1)情感属性具体包括:
[0044] e1:极性情感属性,如发言者表达积极或者消极的意见;
[0045] e2:主题情感属性,如正在讨论的事情;
[0046] e3:意见持有人情感属性,如表达意见的个人或实体;
[0047] e4:观点情感属性,如主观(意见)或客观(事实);
[0048] e5:类型情感属性,如直接性和比较性、明确和含蓄;
[0049] e6:级别情感属性,如主贴,评论,点赞,转发分别对应不同的级别,另外,还对评论中的表情进行统计,纳入计算。
[0050] e7:细粒度情感属性:非常积极,积极,中性,消极,非常消极(5星评价)。
[0051] e8:样本机器学习匹配结果情感属性。
[0052] e9:情感词典匹配结果情感属性。
[0053] e10:情感知识图谱匹配结果情感属性。
[0054] (2)热度属性具体包括:
[0055] s1:文章所在网站热度属性。不同网站对应的热度属性不同。
[0056] s2:文章内容分类热度属性。不同内容主题类型的文章对应的热度属性不同。
[0057] s3:文章内容涉事地热度属性。不同地点发生的时间对应的热度属性不同,如一线城市发生的事件的热度属性大于三线城市的。
[0058] s4:文章跟帖、转发、点赞数量热度属性。跟帖、转发、点赞数量的不同表明受关注人数的不同。
[0059] 上述四个热度属性中每个属性对应的具体数值,本领域技术人员可以根据经验和历史数据设定。
[0060] 除以上四个热度属性外,该实施例中还包括两个与关键词相关的热度属性,分别为:
[0061] s5:单个关键词热度属性
[0062] s6:关键词组合热度属性
[0063] 上述两个热度属性需要判断文章中是否包含热度关键词词典中该文章所属的行业或场景对应的单个或多个关键词,那么,在热度的计算中,如果只包含单个关键词,则根据单个关键词对应的单个关键词热度属性计算,如果包含关键词组合,则即根据关键词组合中每个关键词对应的单个关键词热度属性计算,又根据关键词组合热度属性计算。
[0064] 所述热度关键词词典需要事先构建并经常更新维护,适当增减或调整里面的内容。
[0065] 上述情感属性和热度属性均为一种实施方式,在其他的实施例中,本领域技术人员可以根据实际情况对情感属性和热度属性进行增减和修改,在此不做限制。
[0066] 由于不同的情感属性和热度属性对于数据情感倾向影响和热度影响的力度不同,因此,需要设定每个情感属性和热度属性的情感系数qj和热度系数ri,该实施例中设定情感系数q和热度系数r的取值范围均为0~10,在具体应用中,本领域技术人员可以根据经验数据和实际情况进行调整。
[0067] S12:根据下式计算该文本数据的负面情感值和热度值;
[0068] Ai=f(si,ri)
[0069] Bj=h(1-ej,qj)
[0070] 其中,Ai表示第i个热度属性的热度值,f表示热度值计算函数,si表示第i个热度属性,ri表示第i个热度属性对应的热度系数,Bj表示第j个情感属性的负面情感值,h表示负面情感值计算函数,ej表示第j个情感属性,qj表示第j个情感属性对应的情感系数。
[0071] S13:根据下式计算该文本数据的负面情感热度指数W:
[0072] W=A+B
[0073]
[0074]
[0075] 其中,n表示热度属性的总数,i表示热度属性的序号,m表示情感属性的总数,j表示情感属性的序号。
[0076] S14:根据该文本数据命中的情感属性和热度属性,计算该文本数据的属性权重P:
[0077]
[0078] 其中,p和k分别表示命中的情感属性和热度属性的序号,N和M分别表示命中的情感属性和热度属性的总数。
[0079] 如文章匹配到重点网站s1,关键词组合s6,人工判定反馈情感细粒度e7,样本机器学习结果e8,情感词典e9,情感知识图谱e10,此时进行加权计算,加权值P的计算公式为:
[0080] P=k(s1r1)+k(s6r6)+m(1-e7q7)+m(1-e8q8)+m(1-e9q9)+m(1-e10q10)[0081] S15:将该文本数据的负面情感热度指数W与属性权重P相加得到该文本数据的负面情感热度总指数WP,即:
[0082] WP=W+P
[0083] 进一步的,为了剔除不符合要求的文本数据,该实施例中还包括:针对每个文本数据进行情感值计算,并通过统计学方法判定该文本数据是否符合要求,如果不符合,则剔除该文本数据。
[0084] 所述情感值得计算可以采用现有的情感值计算算法,如SnowNLP。
[0085] 所述统计学方法可以为根据平均数和中位数来得出每个文本数据的情感值的总体趋势,从而判定该文本数据是否符合要求。
[0086] 如一篇文章包含5条评论,具体内容如表1所示,分别通过SnowNLP算法计算每条评论的情感值后,计算所有情感值得平均数和中位数,如平均数和中位数的差值大于阈值,则表明该文章中有恶意评论或不符合本身情感的评论,则判定该文章不符合要求。
[0087] 如文本数据包含5条评论,
[0088] 表1
[0089] 序号 评论 日期 情感值1 这辈子最爱吃的火锅,一星期必吃一次... 2019-05-14 0.833198
2 第N次来了,还是喜欢... 2019-04-25 0.833289
3 大姨国生日,姐姐定的这加A餐厅的包间... 2019-05-01 1.000000
4 A餐厅的服务那家店都一样... 2019-05-10 0.756952
5 饭菜不好吃,差评... 2019-06-0.3 0.005536
[0090] 上述5条评论的平均数为0.61114,中位数为0.95662。两者差值为0.34548大于设定的阈值0.3。
[0091] S2:根据舆情危机知识库中存储的各类型舆情危机事件,通过聚类算法对文本数据进行分类,并计算每个文本数据与其聚类中心的相关度。
[0092] 舆情危机知识库中存储有分类好的各类型的高危机性的事件,通过聚类算法可以得到每个文本数据属于的类型,通过与聚类中心的相关度可以得到每个文本数据属于该舆情危机事件的可能程度。
[0093] S3:根据每个文本数据与其聚类中心的相关度和该文本数据的负面情感热度总指数计算每个文本数据的危机程度R。具体可以通过以下公式计算:
[0094] R=Z(S,WP)
[0095] 其中,S表示相关度,Z表示危机程度计算函数。
[0096] 当计算的文本数据的危机程度R高于危机阈值时,可以进行相应的预警处理。
[0097] 本发明实施例一通过不同维度的属性计算负面情感热度总指数,并与历史的各类型舆情危机事件进行聚类,得到每个文本数据的危机程度,实现对重大负面舆情的预测,可以极大的提高舆情预测的准确性和时效性,同时也能够保证数据的召回率,不会因为数据条件过滤导致数据丢失。
[0098] 本发明实施例一通过多维度的情感分析,将基于规则、表情库、词库、机器学习、情感词典、结合上下文的情感知识图谱等情感热度分析相关技术搭配用户人工判定反馈,最后进行相关事件碰撞相结合,实现舆情危机预测,并根据相关事件负面情感热度指数的递增而概率增大。
[0099] 实施例二:
[0100] 本发明还提供一种多维度舆情危机预测终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
[0101] 进一步地,作为一个可执行方案,所述多维度舆情危机预测终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述多维度舆情危机预测终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,上述多维度舆情危机预测终端设备的组成结构仅仅是多维度舆情危机预测终端设备的示例,并不构成对多维度舆情危机预测终端设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述多维度舆情危机预测终端设备还可以包括输入输出设备、网络接入设备、总线等,本发明实施例对此不做限定。
[0102] 进一步地,作为一个可执行方案,所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述多维度舆情危机预测终端设备的控制中心,利用各种接口和线路连接整个多维度舆情危机预测终端设备的各个部分。
[0103] 所述存储器可用于存储所述计算机程序和/或模,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述多维度舆情危机预测终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储程序的运行过程中所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0104] 本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
[0105] 所述多维度舆情危机预测终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)以及软件分发介质等。
[0106] 尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈