首页 / 专利库 / 人工智能 / 词性标注 / 一种基于主题下的情感分析方法

一种基于主题下的情感分析方法

阅读:360发布:2020-05-12

专利汇可以提供一种基于主题下的情感分析方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于主题下的 情感分析 方法,属于 人工智能 领域,生成相应主题下语义拓展数据;语义拓展数据和同义词表进行以词分解得到分词库,标注分词库中每个词语的意思表示;根据意思表示组合生成语义二类分词,收集到二类分词库,把二类分词库与语义拓展数据融合得到语义增广数据。通过根据不同的主题收取不同的语料,然后根据相应主题领域的语料进行增广 数据处理 ,得到更加丰富的语料,在后期的情感判断中更加精准,对每个的语料判断时考虑到前后的语料情感因数,更好的结合与人的感情情景模式相适应,更好的符合情感分析的情景结合,分析的情感更加的准确,解决现有情感分析方法不能够跨领域使用,同时判断的情感值不精准的技术问题。,下面是一种基于主题下的情感分析方法专利的具体信息内容。

1.一种基于主题下的情感分析方法,其特征在于,所述方法包括如下步骤:
步骤1:确定分析的主题,根据现有的互联网主题语料生成基于相应主题下的同义词表;
步骤2:生成相应主题下语义拓展数据;
步骤3:语义拓展数据和同义词表进行以词分解得到分词库,标注分词库中每个词语的意思表示;
步骤4:根据意思表示组合生成语义二类分词,收集得到二类分词库,把二类分词库与语义拓展数据融合得到语义增广数据;
步骤5:把语义增广数据输入神经网络模型进行训练得到词向量模型;
步骤6:给语义增广数据中的词赋予情感数值,并对每个词以字为单位分解,并被赋予每个字的多向感情数值,并汇集词的情感数值与字的单字的情感值得到情感判别库;
步骤7:把需要分析的语句文本输入到词向量模型得到词向量;
步骤8:把词向量输入到情感判别库得到以词向量为基础的第一情感值;
步骤9:把词向量进行以词分解得到单字集合,并输入情感判别库得到以字为基础的第二情感值;
步骤10:把第一情感值和第二情感值计算输入文本的情感值。
2.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤1中的具体过程为:
人工输入确定需要分析的文本多对应的主题领域,通过互联网获取公开的该主题领域下的基本文本语料集D;
使用分词工具对语料集D进行分词,全用尺寸为5,步长为2窗口获得二元语言学训练数据
将二元语言学训练数据进行Word2Vec模型训练得到词向量表示;
计算每两个词向量vi,vj间的夹余值作为两个词的相似度,获得相似度量矩阵;具体的计算公式是:
通过度量获取与词vi最邻近的3个词即vi的3个同义词得到警情领域的同义词表。
3.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤2的具体过程为:
随机选择一条语料输入,判断该类语料数量n是否大于等于1000条;
如果n小于1000,直接采样输出该语料,如果n大于等于1000执行下一步;
对输入的语料进行分词,获得该语料词的分词表;
等概率生成[A,B,C,D,E]中的一个随机变量N,如N=A采用同义词替换法该语料情的分词表中的3个单词生成新语料;如N=B在句子中找到一个随机词的随机同义词,将该同义词插入句子中的随机位置生成新语料;如N=C随机选择分词表里的两个单词交换位置生成新语料;如N=D随机删除分词表中的E个单词生成新语料;如N=4直接输出该语料。
4.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤3的具体过程为:
语义拓展数据和同义词表根据中文词典进行语义分词,并汇总所有分词,同时从中文词典中找出语义分词的具体的意思,并标注在每个语义分词的后面,形成一一映射关系。
5.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤4的具体过程为:
从原来语义分词的意思中搜索与该意思相近或者相同的词汇,然后汇总得等到二类分词库,二类分词库与语义拓展数据融合时,意思相同或者相近的词汇总一起,并根据情感程度进行排序,得到语义增广数据。
6.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤6中的具体过程为:
使用情感词典文本匹配算法对语义增广数据中的词赋予情感数值,然后把每个词汇进行分解,把所有词中具有相同的字进行汇总为一个字,则相同的字具有多向的情感值,多向的情感值与该字所在的词的情感值相同,然后对该字求均值得到单字的情感值。
7.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤8的具体过程为:
判断词的词性,如果为词的词性为积极词语时,检测前后词语,判断前一词语为程度副词时,词的感情数值乘以程度副词的权重,前一词为否定词或者消极词时,词的感情数值减一,后一词为消极词时,词的感情数值减一,前后词为其他词性时,词的感情数值加上前词的权重;
如果词性为消极词时,检测前一词,前一词为程度副词时,词的感情数值乘以程度副词的权重,前一次为否定词时,词的感情数值减加一,前一词为其他词性时,词的感情数值减去前词的权重,然后输出该词的第一情感值。
8.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤9的具体过程为:把词中的每个字的单字的情感值乘以字词权重得到每个字所在词的感情值,把每个字所在词的感情值相加得到第二情感值,其中字词权重的配比为,动作字与名次结合时的配比为7:3,程度字与动作字结合时的配比为2:8。
9.根据权利要求1所述的一种基于主题下的情感分析方法,其特征在于:所述步骤10计算的具体过程为:使用以下算式计算,
K=A*tanh((Q-B)*(Va-Vc))-A·tanh((H-B)*(Va-Vd))
其中,K表示第一情感值的权重,A=0.8,B=15,Q=A*23,H=A*40,Va=1.3,Vc=0.95,Vd=1.05;
Vfinal=(1-K)*Vd+K*Va;
Vfinal为情感值。

说明书全文

一种基于主题下的情感分析方法

技术领域

[0001] 本发明涉及人工智能领域,尤其涉及一种基于主题下的情感分析方法。

背景技术

[0002] 随着互联网的普及,人们的生活也发生了很大的变化。网络逐渐成为社会中各种信息的载体,特别是随着中国经济的不断发展,股票、国债等金融产品逐渐成为人们讨论的热点话题,越来越多的人通过网络获取金融、财经、其它经济新闻及相关信息。Web文本也已成为我们获取信息、发表观点和交流情感的重要来源。越来越多的人喜欢在网上交流他们的意见,因而网络上存在大量包含倾向性的文本信息。
[0003] 网络文本情感挖掘的算法大致可归纳为三类:有监督的情感挖掘、无监督的情感挖掘与半监督的情感挖掘。有(半)监督的情感挖掘方法一般具有较高的分类准确率,但是它们都需要人工标注的训练语料来训练生成文本情感分类器,而获得人工标注的训练语料是十分耗时耗的。传统的无监督情感挖掘方法是利用情感词典对文本进行情感分类,这种方法对情感词典具有极强的依赖性,而好的情感词典却很难获得。因此,以JST、S-LDA与DPLDA等为代表的无监督情感分类方法近年来备受青睐,此类方法不仅能有效地避免传统无监督情感分类方法具有的情感词典依赖性缺点,达到较好的情感分类效果,而且这类方法还可以很好的对文本进行主题挖掘。
[0004] 现有的情感分析方法都是传动确定情感词典,然后根据情感词典进行判断属于文本的情感值,这种判断方法比较单一,一般不能够多领域的通用,同时判断的语料不够完全,判断的数值不够准确等。

发明内容

[0005] 本发明的目的在于提供一种基于主题下的情感分析方法,解决现有情感分析方法不能够跨领域使用,同时判断的情感值不精准的技术问题。
[0006] 一种基于主题下的情感分析方法,所述方法包括如下步骤:
[0007] 步骤1:确定分析的主题,根据现有的互联网主题语料生成基于相应主题下的同义词表;
[0008] 步骤2:生成相应主题下语义拓展数据;
[0009] 步骤3:语义拓展数据和同义词表进行以词分解得到分词库,标注分词库中每个词语的意思表示;
[0010] 步骤4:根据意思表示组合生成语义二类分词,收集得到二类分词库,把二类分词库与语义拓展数据融合得到语义增广数据;
[0011] 步骤5:把语义增广数据输入神经网络模型进行训练得到词向量模型;
[0012] 步骤6:给语义增广数据中的词赋予情感数值,并对每个词以字为单位分解,并被赋予每个字的多向感情数值,并汇集词的情感数值与字的单字的情感值得到情感判别库;
[0013] 步骤7:把需要分析的语句文本输入到词向量模型得到词向量;
[0014] 步骤8:把词向量输入到情感判别库得到以词向量为基础的第一情感值;
[0015] 步骤9:把词向量进行以词分解得到单字集合,并输入情感判别库得到以字为基础的第二情感值;
[0016] 步骤10:把第一情感值和第二情感值计算输入文本的情感值。
[0017] 进一步地,所述步骤1中的具体过程为:
[0018] 人工输入确定需要分析的文本多对应的主题领域,通过互联网获取公开的该主题领域下的基本文本语料集D;
[0019] 使用分词工具对语料集D进行分词,全用尺寸为5,步长为2窗口获得二元语言学训练数据
[0020] 将二元语言学训练数据进行Word2Vec模型训练得到词向量表示;
[0021] 计算每两个词向量vi,vj间的夹余值作为两个词的相似度,获得相似度量矩阵;具体的计算公式是:
[0022] 通过度量获取与词vi最邻近的3个词即vi的3个同义词得到警情领域的同义词表。
[0023] 进一步地,所述步骤2的具体过程为:
[0024] 随机选择一条语料输入,判断该类语料数量n是否大于等于1000条;
[0025] 如果n小于1000,直接采样输出该语料,如果n大于等于1000执行下一步;
[0026] 对输入的语料进行分词,获得该语料词的分词表;
[0027] 等概率生成[A,B,C,D,E]中的一个随机变量N,如N=A采用同义词替换法该语料情的分词表中的3个单词生成新语料;如N=B在句子中找到一个随机词的随机同义词,将该同义词插入句子中的随机位置生成新语料;如N=C随机选择分词表里的两个单词交换位置生成新语料;如N=D随机删除分词表中的E个单词生成新语料;如N=4直接输出该语料。
[0028] 进一步地,所述步骤3的具体过程为:
[0029] 语义拓展数据和同义词表根据中文词典进行语义分词,并汇总所有分词,同时从中文词典中找出语义分词的具体的意思,并标注在每个语义分词的后面,形成一一映射关系。
[0030] 进一步地,所述步骤4的具体过程为:
[0031] 从原来语义分词的意思中搜索与该意思相近或者相同的词汇,然后汇总得等到二类分词库,二类分词库与语义拓展数据融合时,意思相同或者相近的词汇总一起,并根据情感程度进行排序,得到语义增广数据。
[0032] 进一步地,所述步骤6中的具体过程为:
[0033] 使用情感词典文本匹配算法对语义增广数据中的词赋予情感数值,然后把每个词汇进行分解,把所有词中具有相同的字进行汇总为一个字,则相同的字具有多向的情感值,多向的情感值与该字所在的词的情感值相同,然后对该字求均值得到单字的情感值。
[0034] 进一步地,所述步骤8的具体过程为:
[0035] 判断词的词性,如果为词的词性为积极词语时,检测前后词语,判断前一词语为程度副词时,词的感情数值乘以程度副词的权重,前一词为否定词或者消极词时,词的感情数值减一,后一词为消极词时,词的感情数值减一,前后词为其他词性时,词的感情数值加上前词的权重;
[0036] 如果词性为消极词时,检测前一词,前一词为程度副词时,词的感情数值乘以程度副词的权重,前一次为否定词时,词的感情数值减加一,前一词为其他词性时,词的感情数值减去前词的权重,然后输出该词的第一情感值。
[0037] 进一步地,所述步骤9的具体过程为:把词中的每个字的单字的情感值乘以字词权重得到每个字所在词的感情值,把每个字所在词的感情值相加得到第二情感值,其中字词权重的配比为,动作字与名次结合时的配比为7:3,程度字与动作字结合时的配比为2:8。
[0038] 进一步地,所述步骤10计算的具体过程为:使用以下算式计算,
[0039] K=A*tanh((Q-B)*(Va-Vc))-A·tanh((H-B)*(Va-Vd))
[0040] 其中,K表示第一情感值的权重,A=0.8,B=15,Q=A*23,H=A*40,Va=1.3,Vc=0.95,Vd=1.05;
[0041] Vfinal=(1-K)*Vd+K*Va;
[0042] Vfinal为情感值。
[0043] 本发明采用了上述技术方案,本发明具有以下技术效果:
[0044] 本发明通过根据不同的主题收取不同的语料,然后根据相应主题领域的语料进行增广数据处理,得到更加丰富的语料,使得在后期的情感判断中更加精准,对每个的语料判断时考虑到前后的语料情感因数,更好的结合与人的感情情景模式相适应,更好的符合情感分析的情景结合,分析的情感更加的准确,解决现有情感分析方法不能够跨领域使用,同时判断的情感值不精准的技术问题。附图说明
[0045] 图1是本发明方法流程图

具体实施方式

[0046] 为使本发明的目的、技术方案及优点更加清楚明白,举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
[0047] 如图1所示,本发明一种基于主题下的情感分析方法,所述方法包括如下步骤:
[0048] 步骤1:确定分析的主题,根据现有的互联网主题语料生成基于相应主题下的同义词表。
[0049] 在实际的应用中,一般是事先把各个领域的主题的语料生成相应主题下的同义词表,作为存储备用,同时每个固定时间进行更新,更新时间一般为3天。
[0050] 人工输入确定需要分析的文本多对应的主题领域,通过互联网获取公开的该主题领域下的基本文本语料集D。
[0051] 使用分词工具对语料集D进行分词,全用尺寸为5,步长为2窗口获得二元语言学训练数据。
[0052] 将二元语言学训练数据进行Word2Vec模型训练得到词向量表示;
[0053] 计算每两个词向量vi,vj间的夹角余值作为两个词的相似度,获得相似度量矩阵;具体的计算公式是:
[0054] 通过度量获取与词vi最邻近的3个词即vi的3个同义词得到警情领域的同义词表。
[0055] 步骤2:生成相应主题下语义拓展数据。随机选择一条语料输入,判断该类语料数量n是否大于等于1000条。根据语料的数量进行增加或者减少数量都可以,一般达到1000条时分析的答案更加的精准。
[0056] 如果n小于1000,直接采样输出该语料,如果n大于等于1000执行下一步。
[0057] 对输入的语料进行分词,获得该语料词的分词表。
[0058] 等概率生成[A,B,C,D,E]中的一个随机变量N,如N=A采用同义词替换法该语料情的分词表中的3个单词生成新语料;如N=B在句子中找到一个随机词的随机同义词,将该同义词插入句子中的随机位置生成新语料;如N=C随机选择分词表里的两个单词交换位置生成新语料;如N=D随机删除分词表中的E个单词生成新语料;如N=4直接输出该语料。
[0059] 步骤3:语义拓展数据和同义词表进行以词分解得到分词库,标注分词库中每个词语的意思表示。语义拓展数据和同义词表根据中文词典进行语义分词,并汇总所有分词,同时从中文词典中找出语义分词的具体的意思,并标注在每个语义分词的后面,形成一一映射关系。
[0060] 步骤4:根据意思表示组合生成语义二类分词,收集得到二类分词库,把二类分词库与语义拓展数据融合得到语义增广数据。从原来语义分词的意思中搜索与该意思相近或者相同的词汇,然后汇总得等到二类分词库,二类分词库与语义拓展数据融合时,意思相同或者相近的词汇总一起,并根据情感程度进行排序,得到语义增广数据。
[0061] 步骤5:把语义增广数据输入神经网络模型进行训练得到词向量模型。
[0062] 神经网络的基本组成单元是神经元,在数学上的神经元模型是和在生物学上的神经细胞对应的。或者说,人工神经网络理论是用神经元这种抽象的数学模型来描述客观世界的生物细胞的。
[0063] 很明显,生物的神经细胞是神经网络理论诞生和形成的物质基础和源泉。这样,神经元的数学描述就必须以生物神经细胞的客观行为特性为依据。因此,了解生物神经细胞的行为特性就是一件十分重要而必须的事了。
[0064] 神经网络的拓朴结构也是以生物学解剖中神经细胞互连的方式为依据的。对神经细胞相互作用情况的揭露也是十分重要的。
[0065] 神经元是神经网络基本元素。只有了解神经元才能认识神经网络的本质。在这一节介绍神经元的生物学解剖,信息的处理与传递方式,工作功能以及其数学模型。
[0066] 步骤6:给语义增广数据中的词赋予情感数值,并对每个词以字为单位分解,并被赋予每个字的多向感情数值,并汇集词的情感数值与字的单字的情感值得到情感判别库。
[0067] 使用情感词典文本匹配算法对语义增广数据中的词赋予情感数值,然后把每个词汇进行分解,把所有词中具有相同的字进行汇总为一个字,则相同的字具有多向的情感值,多向的情感值与该字所在的词的情感值相同,然后对该字求均值得到单字的情感值。
[0068] 步骤7:把需要分析的语句文本输入到词向量模型得到词向量。语句文本为使用计算机抓取技术直接从相应的评论平台进行抓取数据,然后把抓取的数据输入到词向量模型中,其中,一般在抓取什么主题时,由人工限定或者人工标注相应的平台属于什么样的主推领域。
[0069] 步骤8:把词向量输入到情感判别库得到以词向量为基础的第一情感值。
[0070] 判断词的词性,如果为词的词性为积极词语时,检测前后词语,判断前一词语为程度副词时,词的感情数值乘以程度副词的权重,前一词为否定词或者消极词时,词的感情数值减一,后一词为消极词时,词的感情数值减一,前后词为其他词性时,词的感情数值加上前词的权重。
[0071] 如果词性为消极词时,检测前一词,前一词为程度副词时,词的感情数值乘以程度副词的权重,前一次为否定词时,词的感情数值减加一,前一词为其他词性时,词的感情数值减去前词的权重,然后输出该词的第一情感值。
[0072] 步骤9:把词向量进行以词分解得到单字集合,并输入情感判别库得到以字为基础的第二情感值。把词中的每个字的单字的情感值乘以字词权重得到每个字所在词的感情值,把每个字所在词的感情值相加得到第二情感值,其中字词权重的配比为,动作字与名次结合时的配比为7:3,程度字与动作字结合时的配比为2:8。比如,“开心”这个词进行单字分解后,“开”字的情感数值占“开心”这个词情感数值的百分之七十,“心”占百分之三十。比如,“很好”这个词进行单字分解后,“很”字的情感数值占“很好”这个词情感数值的百分之二十,“好”占百分之八十。
[0073] 步骤10:把第一情感值和第二情感值计算输入文本的情感值。
[0074] 使用以下算式计算,
[0075] K=A*tanh((Q-B)*(Va-Vc))-A·tanh((H-B)*(Va-Vd))
[0076] 其中,K表示第一情感值的权重,A=0.8,B=15,Q=A*23,H=A*40,Va=1.3,Vc=0.95,Vd=1.05;
[0077] Vfinal=(1-K)*Vd+K*Va。
[0078] Vfinal为情感值,Vfinal即为所要分析的情感值,情感值为1时,为中性,即为不是很体现态度,是一个实时中等的评论。比如说明一个饭店的地址,即为一个中性的说明而已,不对其进行评论时,大于1的表示好,成正比,小于1为消极成反比。
[0079] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈