首页 / 专利库 / 人工智能 / 情感计算 / 一种情感分析系统及方法

一种情感分析系统及方法

阅读:377发布:2020-05-12

专利汇可以提供一种情感分析系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 情感分析 系统及方法。该方法包括:读取需要进行情感分析的文本数据文件,对文本数据文件进行预处理,文本 情感计算 分析,情感分析结果输出。本发明能够对给定的文本文件数据集合进行文本情感分类操作,并直接对 指定 文档生成指定类型的中立、 正面 、负面等三种情感标签,且支持中文及英文两种语言的文档。,下面是一种情感分析系统及方法专利的具体信息内容。

1.一种情感分析方法,其特征在于,包括以下步骤:
S1:文本数据输入:读取需要进行情感分析的文本数据文件;
S2:文本数据预处理,包括以下子步骤:
S21:如果文本数据是中文文档则对文本进行分词处理后进入步骤S22;如果文本是英文文档则直接进入步骤S22;
S22:去除停用词;
S3:文本情感计算分析;
步骤S3包括以下子步骤:
S31:句子表达,包括以下子步骤:
S311:将词进行嵌入,转成嵌入d维的词向量;
S312:使用宽度为1,2,3三种卷积核来挖掘句子中一元、二元和三元的特征;
S313:将线性层输出到均值池化层,将其转为长度固定的向量;
S314:增加一个tanh激活函数来引入非线性,然后整合三个卷积的结果,取平均值后输出;
S32:文本表达:GatedNN将最后一个隐藏层的输出向量作为用于情感分类的特征表达,Gated RNN计算方式如下:
it=sigmoid(Wi⋅[ht−1;st]+bi)
ft=sigmoid(Wf⋅[ht−1;st]+bf)
gt=tanh(Wr⋅[ht−1;st]+br)
ht=tanh(it⊙[ht−1;st]+bi);
S33:情感分类;
S4:情感分析结果输出。
2.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用word2vector向量方式进行词嵌入。
3.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S2所述文本数据预处理采用bert向量方式进行词嵌入。
4.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述文本情感计算分析采用Conv-GRNN算法
5.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S3所述文本情感计算分析采用LSTM-GRNN算法。
6.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S311所述d=200。
7.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S32还包括使用GatedNN的均值整合历史信息。
8.根据权利要求1所述的一种情感分析方法,其特征在于,步骤S33所述情感分类具体方式为:
S331:人工为每一个参加训练的文本样本标注“正面”、“中立”或“负面”的情感标签;
S332:将已经标注了情感标签的样本投入训练,在迭代一定轮次直到F1分类精度值达到80%,就停止训练;
S333:用事先准备好的测试样本对步骤S332训练得到的模型进行验证,如果在测试样本上F1分类精度值也达到80%,则表明训练得到的模型符合要求;
S334:使用步骤S333得到的模型对指定文本数据进行情感分类。
9.一种情感分析系统,其特征在于,包括文本数据输入模、文本数据预处理模块、文本情感算法模块和情感分析结果输出模块;
文本数据输入模块用于读取需要进行情感分析的文本数据文件;
文本数据预处理模块用于对加载的文本数据进行预处理;
文本情感算法模块用于计算并判断文本数据的情感类别;
情感分析结果输出模块用于情感分析结果输出。
10.根据权利要求9所述的一种情感分析系统,其特征在于,所述文本数据预处理模块包括word2vector处理模块。
11.根据权利要求9所述的一种情感分析系统,其特征在于,所述文本数据预处理模块包括Bert处理模块。
12.根据权利要求9所述的一种情感分析系统,其特征在于,所述文本情感算法模块包括Conv-GRNN算法模块。
13.根据权利要求9所述的一种情感分析系统,其特征在于,所述文本情感算法模块包括LSTM-GRNN算法模块。
14.根据权利要求9所述的一种情感分析系统,其特征在于,所述情感分析结果为EXCEL格式。
15.根据权利要求11所述的一种情感分析系统,其特征在于,还包括一个由DOCKER容器技术搭建的web服务系统;通过在DOCKER容器级别的WEB服务层,以HTTP形式提供基于Restful格的WEB服务。
16.根据权利要求9-15任一所述的一种情感分析系统,其特征在于,还包括出错处理模块,出错处理模块用于显示出错信息,并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。
17.根据权利要求16所述的一种情感分析系统,其特征在于,所述出错信息包括出错时间、出错等级、出错原因和出错地点。

说明书全文

一种情感分析系统及方法

技术领域

[0001] 本发明属于数据处理领域,尤其涉及一种情感分析系统及方法。

背景技术

[0002] 当今计算机技术和网络技术发展迅速,互联网在人们的日常生活中占据着重要的作用。互联网上有着许多的文本数据,例如微博的博文、各个新闻网站的文章等。这些文本数据带有正面、中立、负面的主观情感。通过对这些主观情感的分析,可以有效地进行舆情的监测与管理。主观情感的分析可以是人工进行的,但是一方面工作量过于庞大,另一方面无法实时处理新的文本数据。

发明内容

[0003] 本发明的目的在于,针对现有技术的不足,提出一种情感分析系统及方法,能够对给定的文本文件数据集合进行文本情感分类。
[0004] 一种情感分析方法,包括:文本数据输入:读取需要进行情感分析的文本数据文件。
[0005] 文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector或bert向量方式进行词嵌入。
[0006] 文本情感计算分析,采用Conv-GRNN算法或LSTM-GRNN算法,包括句子表达和文本表达;句子表达:将词进行嵌入,转成嵌入200维的词向量;使用宽度为1,2,3三种卷积核来挖掘句子中一元、二元和三元的特征;将线性层输出到均值池化层,将其转为长度固定的向量;增加一个tanh激活函数来引入非线性,然后整合三个卷积的结果,取平均值后输出;文本表达:GatedNN将最后一个隐藏层的输出向量作为用于情感分类的特征表达,Gated RNN计算方式如下:it=sigmoid(Wi⋅[ht−1;st]+bi)
ft=sigmoid(Wf⋅[ht−1;st]+bf)
gt=tanh(Wr⋅[ht−1;st]+br)
ht=tanh(it⊙[ht−1;st]+bi);
并且可以进一步使用GatedNN的均值来整合历史信息。
[0007] 情感分类,人工为每一个参加训练的文本样本标注“正面”、“中立”或“负面”的情感标签,然后将已经标注了情感标签的样本投入训练,在迭代一定轮次后,当F1分类精度值达到80%,就停止训练。然后用事先准备好的测试样本对训练得到的模型进行验证,如果在测试样本上F1分类精度值也达到80%,则表明训练得到的模型是符合要求的,使用该模型对指定文本数据进行情感分类。
[0008] 情感分析结果输出。
[0009] 一种情感分析系统,包括文本数据输入模、文本数据预处理模块、文本情感算法模块和情感分析结果输出模块;文本数据输入模块用于读取需要进行情感分析的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;文本情感算法模块用于计算并判断文本数据的情感类别;情感分析结果输出模块用于情感分析结果输出。
[0010] 文本数据预处理模块包括word2vector处理模块和Bert处理模块。
[0011] 文本情感算法模块包括Conv-GRNN算法模块和LSTM-GRNN算法模块。
[0012] 情感分析结果为EXCEL格式,每一篇对应的文本文档都有一个对应“中立”、“正面”、“负面”的情感标签。
[0013] 本发明的有益效果:能够对给定的中、英文文本文件数据集合进行文本情感分类操作,并直接对指定文档生成指定类型的中立、正面、负面等三种情感标签。附图说明
[0014] 图1是本发明方法流程图
[0015] 图2是web服务系统架构图。

具体实施方式

[0016] 为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
[0017] 实施例一:一种情感分析方法,包括:
文本数据输入:读取需要进行情感分析的文本数据文件。
[0018] 文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector向量方式进行词嵌入。直接计算去除停用词后的文档的向量,具体方式是文档的向量由句子向量叠加后求平均,句子向量由词向量叠加后求平均。
[0019] 文本情感计算分析,采用Conv-GRNN算法,包括句子表达和文本表达;句子表达:将词进行嵌入,转成嵌入200维的词向量;使用宽度为1,2,3三种卷积核来挖掘句子中一元、二元和三元的特征;将线性层输出到均值池化层,将其转为长度固定的向量;增加一个tanh激活函数来引入非线性,然后整合三个卷积的结果,取平均值后输出;文本表达:GatedNN将最后一个隐藏层的输出向量作为用于情感分类的特征表达,Gated RNN计算方式如下:it=sigmoid(Wi⋅[ht−1;st]+bi)
ft=sigmoid(Wf⋅[ht−1;st]+bf)
gt=tanh(Wr⋅[ht−1;st]+br)
ht=tanh(it⊙[ht−1;st]+bi);
并且可以进一步使用GatedNN的均值来整合历史信息。
[0020] 情感分类,人工为每一个参加训练的文本样本标注“正面”、“中立”或“负面”的情感标签,然后将已经标注了情感标签的样本投入训练,在迭代一定轮次后,当F1分类精度值达到80%,就停止训练。然后用事先准备好的测试样本对训练得到的模型进行验证,如果在测试样本上F1分类精度值也达到80%,则表明训练得到的模型是符合要求的,进而将该模型以文件形式导出。该模型文件就可直接在实际场景的应用中被其他业务程序或软件使用,对指定文本数据进行情感分类。
[0021] 情感分析结果输出,情感分析结果均采用map结构保存。
[0022] 一种情感分析系统,包括文本数据输入模块、文本数据预处理模块、文本情感算法模块和情感分析结果输出模块;文本数据输入模块用于读取需要进行情感分析的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;文本情感算法模块用于计算并判断文本数据的情感类别;情感分析结果输出模块用于情感分析结果输出。
[0023] 文本数据预处理模块采用word2vector处理模块。
[0024] 文本情感算法模块采用Conv-GRNN算法模块。
[0025] 情感分析结果为EXCEL格式,每一篇对应的文本文档都有一个对应“中立”、“正面”、“负面”的情感标签。
[0026] 本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。内部已经默认打开了日志功能,有日志模块管理日志,日志文件存放在与本工具相同的根目录下。
[0027] 实施例二:一种情感分析方法,包括:
文本数据输入:读取需要进行情感分析的文本数据文件。
[0028] 文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用bert向量方式进行词嵌入,直接使用注意机制和transform机制对特定语料训练后得到的每个单词或短语的向量表示。
[0029] 文本情感计算分析,采用LSTM-GRNN算法,包括句子表达和文本表达;句子表达:将词进行嵌入,转成嵌入200维的词向量;使用宽度为1,2,3三种卷积核来挖掘句子中一元、二元和三元的特征;将线性层输出到均值池化层,将其转为长度固定的向量;增加一个tanh激活函数来引入非线性,然后整合三个卷积的结果,取平均值后输出;文本表达:GatedNN将最后一个隐藏层的输出向量作为用于情感分类的特征表达,Gated RNN计算方式如下:it=sigmoid(Wi⋅[ht−1;st]+bi)
ft=sigmoid(Wf⋅[ht−1;st]+bf)
gt=tanh(Wr⋅[ht−1;st]+br)
ht=tanh(it⊙[ht−1;st]+bi);
并且可以进一步使用GatedNN的均值来整合历史信息。
[0030] 情感分类,人工为每一个参加训练的文本样本标注“正面”、“中立”或“负面”的情感标签,然后将已经标注了情感标签的样本投入训练,在迭代一定轮次后,当F1分类精度值达到80%,就停止训练。然后用事先准备好的测试样本对训练得到的模型进行验证,如果在测试样本上F1分类精度值也达到80%,则表明训练得到的模型是符合要求的,进而将该模型以文件形式导出。该模型文件就可直接在实际场景的应用中被其他业务程序或软件使用,对指定文本数据进行情感分类。
[0031] 情感分析结果输出,情感分析结果均采用map结构保存。
[0032] 一种情感分析系统,包括文本数据输入模块、文本数据预处理模块、文本情感算法模块和情感分析结果输出模块;文本数据输入模块用于读取需要进行情感分析的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;文本情感算法模块用于计算并判断文本数据的情感类别;情感分析结果输出模块用于情感分析结果输出。
[0033] 文本数据预处理模块采用Bert处理模块,同时在系统中嵌入一个小型WEB服务系统,因为BERT模型规模很大,运行时间相对较长,如果多个用户同时使用BERT模型,则可能会出现堵塞现象,因此利用DOCKER容器开发了一个小型的WEB服务系统嵌入到整个系统中,以供多用户并发使用BERT模型,通过在DOCKER容器级别的WEB服务层,以HTTP形式提供基于Restful格的WEB服务。
[0034] 文本情感算法模块采用LSTM-GRNN算法模块。
[0035] 情感分析结果为EXCEL格式,每一篇对应的文本文档都有一个对应“中立”、“正面”、“负面”的情感标签。
[0036] 本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。内部已经默认打开了日志功能,有日志模块管理日志,日志文件存放在与本工具相同的根目录下。
[0037] 本发明能够对给定的中、英文文本文件数据集合进行文本情感分类操作,并直接对指定文档生成指定类型的中立、正面、负面等三种情感标签。
[0038] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈