首页 / 专利库 / 人工智能 / 情感计算 / 基于情感词典的财经新闻中细粒度实体的情感分析方法

基于情感词典的财经新闻中细粒度实体的情感分析方法

阅读:543发布:2020-05-11

专利汇可以提供基于情感词典的财经新闻中细粒度实体的情感分析方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及情感词典分析技术领域,具体地说,涉及基于情感词典的财经新闻中细粒度实体的 情感分析 方法。其方法包括如下步骤:分析大量的财经新闻;对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;由S2中得到的上市公司句子集合;对S3中过滤到的分词后的情感句;对每个上市公司由S4中得到所有情感句的情感分数进行加权求和;对情感分数进行极性划分。该基于情感词典的财经新闻中细粒度实体的情感分析方法中,采用情感词典的方法对新闻中每个上市公司进行情感分析和计算,对财经新闻中涉及到的每个上市公司进行情感分析,能够得到每篇文章每个上市公司的 情感极性 。,下面是基于情感词典的财经新闻中细粒度实体的情感分析方法专利的具体信息内容。

1.基于情感词典的财经新闻中细粒度实体的情感分析方法,其方法包括如下步骤:
S1、分析大量的财经新闻,构建具有财经领域性的情感词典、否定词、程度副词;
S2、对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;
S3、由S2中得到的上市公司句子集合,对每句话分别进行如下操作来过滤出仅含有情感词的上市公司情感句集合;
S4、对S3中过滤到的分词后的情感句,遍历每个词,判断该词是否是情感词;
S5、对每个上市公司由S4中得到所有情感句的情感分数进行加权求和,得到该上市公司在整篇新闻中的情感总分数;
S6、对情感分数进行极性划分。
2.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S1中,情感词典的构建方法为:通过分析财经新闻,构建具有情感倾向的种子词集合;对大量财经新闻语料进行分词。
3.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S1中,所述否定词的构建方法为:通过分析中文句法中常用的否定形式构建。
4.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S1中,程度副词的构建方法为:通过分析中文句法中的程度词并根据其不同程度定义5档程度分。
5.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S2中,对待分析的财经新闻的方法为:利用LTP进行句子拆分,得到该篇新闻的每句话。
6.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S2中,情感句集合的构建方法为:对每句话进行遍历,用正则判断该句中是否含有上述提取的上市公司实体,最终得到上市公司的句子集合。
7.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述S4中,判断该词是否是情感词的方法为:若是则获取情感词及其在该句中的下标位置、若不是则继续判断其是否是否定词或程度副词,若是获取该词及其在该句中的下标位置。
8.根据权利要求1所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述情感分数进行极性划分的方法为:大于0的为正向,小于0的为负向,等于0的为中性。
9.根据权利要求2所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述构建具有情感倾向的种子词集合包括正向种子词、负向种子词。
10.根据权利要求9所述的基于情感词典的财经新闻中细粒度实体的情感分析方法,其特征在于:所述对大量财经新闻语料进行分词的方法为:采用结巴分词技术,分别计算与上述正向、负向种子词的互信息(PMI),并求得该词与正向、负向种子词互信息只之差。

说明书全文

基于情感词典的财经新闻中细粒度实体的情感分析方法

技术领域

[0001] 本发明涉及情感词典分析技术领域,具体地说,涉及基于情感词典的财经新闻中细粒度实体的情感分析方法。

背景技术

[0002] 现有基于情感词典的情感分析方法,主要解决新闻文本整体情感极性,其核心思想是通过对新闻文本进行分词,找出文本中的情感词、否定词以及程度副词,然后判断每个情感词之前是否有否定词和程度副词,将它之前的否定词和程度副词划分为一个组,最后将所有组的得分加起来,大于0的归于正向,小于0的归于负向。但现有的情感词典的情感分析方法未考虑情感词的实体归属问题,特别对于上市公司来说,当新闻中有多个实体且实体的情感倾向不一致时,无法对每个实体的情感极性有准确的分析和表述。

发明内容

[0003] 本发明的目的在于提供基于情感词典的财经新闻中细粒度实体的情感分析方法,以解决上述背景技术中提出的问题。
[0004] 为实现上述目的,本发明提供基于情感词典的财经新闻中细粒度实体的情感分析方法,其方法包括如下步骤:
[0005] S1、分析大量的财经新闻,构建具有财经领域性的情感词典、否定词、程度副词;
[0006] S2、对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;
[0007] S3、由S2中得到的上市公司句子集合,对每句话分别进行如下操作来过滤出仅含有情感词的上市公司情感句集合;
[0008] S4、对S3中过滤到的分词后的情感句,遍历每个词,判断该词是否是情感词;
[0009] S5、对每个上市公司由S4中得到所有情感句的情感分数进行加权求和,得到该上市公司在整篇新闻中的情感总分数;
[0010] S6、对情感分数进行极性划分。
[0011] 作为优选,所述S1中,情感词典的构建方法为:通过分析财经新闻,构建具有情感倾向的种子词集合;对大量财经新闻语料进行分词。
[0012] 作为优选,所述S1中,所述否定词的构建方法为:通过分析中文句法中常用的否定形式构建,如未能、而不是、决不等。
[0013] 作为优选,所述S1中,程度副词的构建方法为:通过分析中文句法中常用的程度词并根据其不同程度定义5档程度分,如极其、百分百等定义为5分,更加、进一步等定义为4分,格外、很等定义为3分,多多少少、略微等定义为2分,一丁点儿、稍微等定义为1分。
[0014] 作为优选,所述S2中,对待分析的财经新闻的方法为:利用LTP进行句子拆分,得到该篇新闻的每句话。
[0015] 作为优选,所述S2中,情感句集合的构建方法为:对每句话进行遍历,用正则判断该句中是否含有上述提取的上市公司实体,最终得到上市公司的句子集合。
[0016] 作为优选,所述S4中,判断该词是否是情感词的方法为:若是则获取情感词及其在该句中的下标位置、若不是则继续判断其是否是否定词或程度副词,若是获取该词及其在该句中的下标位置,最终分别得到3个map集合(情感map、否定map、程度词map)。在此过程中同时获取该句中上市公式实体及其所在的下标位置。根据情感词的位置分配该词属于距离其最近的上市公司实体,计算该实体在该句的情感分如下:sum(情感词分*否定词*程度副词)。
[0017] 作为优选,所述情感分数进行极性划分的方法为:大于0的为正向,小于0的为负向,等于0的为中性。
[0018] 作为优选,所述构建具有情感倾向的种子词集合包括正向种子词(如领涨、跑赢大盘、扭亏为盈等)、负向种子词(如暴雷、炒冷饭、跳、乌龙指等)。
[0019] 作为优选,所述对大量财经新闻语料进行分词的方法为:采用结巴分词技术,分别计算与上述正向、负向种子词的互信息(PMI),并求得该词与正向、负向种子词互信息只之差,若差为正则为正向,若差为负则为负向,重复语料库中词的互信息之差,最后选取分数高的分别组成相应的正向情感词典和负向情感词典。
[0020] 与现有技术相比,本发明的有益效果:该基于情感词典的财经新闻中细粒度实体的情感分析方法中,采用情感词典的方法对新闻中每个上市公司进行情感分析和计算,采用增量式工程量计算方法,建模的同时进行工程量的计算,对财经新闻中涉及到的每个上市公司进行情感分析,能够得到每篇文章每个上市公司的情感极性,对上市公司的舆情研究而言更具有实际参考意义。附图说明
[0021] 图1为本发明的传统财经新闻情感分析计算方法框图
[0022] 图2为本发明的财经新闻中细粒度实体情感分析计算方法框图。

具体实施方式

[0023] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0024] 请参阅图1和图2所示,本发明提供一种技术方案:
[0025] 本发明提供基于情感词典的财经新闻中细粒度实体的情感分析方法,其方法包括如下步骤:
[0026] S1、分析大量的财经新闻,构建具有财经领域性的情感词典、否定词、程度副词;
[0027] S2、对待分析的财经新闻,基于本公司已有的数据服务—实体识别及提取,获取到该篇新闻的所有上市公司实体集合;
[0028] S3、由S2中得到的上市公司句子集合,对每句话分别进行如下操作来过滤出仅含有情感词的上市公司情感句集合;
[0029] S4、对S3中过滤到的分词后的情感句,遍历每个词,判断该词是否是情感词;
[0030] S5、对每个上市公司由S4中得到所有情感句的情感分数进行加权求和,得到该上市公司在整篇新闻中的情感总分数;
[0031] S6、对情感分数进行极性划分。
[0032] S1中,情感词典的构建方法为:通过分析财经新闻,构建具有情感倾向的种子词集合;对大量财经新闻语料进行分词。
[0033] S1中,否定词的构建方法为:通过分析中文句法中常用的否定形式构建,如未能、而不是、决不等。
[0034] 本实施例中,S1中,程度副词的构建方法为:通过分析中文句法中常用的程度词并根据其不同程度定义5档程度分,如极其、百分百等定义为5分,更加、进一步等定义为4分,格外、很等定义为3分,多多少少、略微等定义为2分,一丁点儿、稍微等定义为1分。
[0035] 进一步的,S2中,对待分析的财经新闻的方法为:利用LTP进行句子拆分,得到该篇新闻的每句话。
[0036] 具体的,S2中,情感句集合的构建方法为:对每句话进行遍历,用正则判断该句中是否含有上述提取的上市公司实体,最终得到上市公司的句子集合。
[0037] 此外,S4中,判断该词是否是情感词的方法为:若是则获取情感词及其在该句中的下标位置、若不是则继续判断其是否是否定词或程度副词,若是获取该词及其在该句中的下标位置,最终分别得到3个map集合(情感map、否定map、程度词map)。在此过程中同时获取该句中上市公式实体及其所在的下标位置。根据情感词的位置分配该词属于距离其最近的上市公司实体,计算该实体在该句的情感分如下:sum(情感词分*否定词*程度副词)。
[0038] 除此之外,情感分数进行极性划分的方法为:大于0的为正向,小于0的为负向,等于0的为中性。
[0039] 值得说明的是,构建具有情感倾向的种子词集合包括正向种子词(如领涨、跑赢大盘、扭亏为盈等)、负向种子词(如暴雷、炒冷饭、跳水、乌龙指等)。
[0040] 再进一步的,对大量财经新闻语料进行分词的方法为:采用结巴分词技术,分别计算与上述正向、负向种子词的互信息(PMI),并求得该词与正向、负向种子词互信息只之差,若差为正则为正向,若差为负则为负向,重复语料库中词的互信息之差,最后选取分数高的分别组成相应的正向情感词典和负向情感词典。
[0041] 以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈