首页 / 专利库 / 电脑图像 / 表情符号 / 能同时过滤无关评论和对相关评论进行情感分类的方法

能同时过滤无关评论和对相关评论进行情感分类的方法

阅读:73发布:2020-05-13

专利汇可以提供能同时过滤无关评论和对相关评论进行情感分类的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种能同时过滤无关评论和对相关评论进行情感分类的方法,主要步骤:首先,对短文本进行预处理;其次,利用HSSWE模型训练词向量;再次,利用WMD模型获得文档之间的距离;最后,利用分类器对目标文档进行分类。利用短文本种类的判别和情感技术,可以精确的得出群众的满意度,对于后续政策的制定具有重要的意义。较现有的技术来说具有明显的优势,它能够在判断短文本情感的时候,自动的过滤掉无关的文本,提高了分类 算法 的 精度 。,下面是能同时过滤无关评论和对相关评论进行情感分类的方法专利的具体信息内容。

1.能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,该方法包括如下步骤:
1)对短文本进行预处理;
2)利用HSSWE模型训练词向量;
3)利用WMD模型获得文档之间的距离;
4)利用分类器对目标文档进行分类。
2.根据权利要求1所述的能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,所述步骤1)具体为:
(1)爬取目标网站的评论数据,组成实验中的语料库;
(2)去除语料库中无关的符号,标点符号包括。?!,、;:“”‘’()-……《》;
(3)使用分词工具对获取的评论数据进行分词处理;
(4)去除分词后语料库中无关的停用词;
(5)根据短文本中的表情符号对每个文本进行情感标注,对于没有情感符号的短文本,选择去除;
对于出现多个表情符号的短文本,选择最后一个表情符号作为短文本情感的极性;
(6)根据SO-PMI对每个词进行情感标注。
3.根据权利要求1所述的能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,所述步骤2)具体步骤如下:
(1)取一个短文本t1,t2,……tn-1,tn将它作为输入;
(2)将评论中的每一个词向量化,根据词向量矩阵En*m,将每一个词ti映射成它所对应的向量ei,其中En*m是随机初始化的一个词向量矩阵,在后续步骤中将使用BP算法更新该词向量矩阵;
(3)通过词向量ei得到短文本向量de,这里使用如下公式得到de,
de是一个1*m维的向量,d代表一个短文本中词的个数;
(4)根据短文本的词向量de和下面的公式,表示出该短文本分别是正向情感和负向情感的概率:
p(+|de)=softmax(θd·de+bd)
p(-|de)=1-softmax(θd·de+bd)
θd是Softmax函数的权重参数,bd是Softmax函数的偏置参数;
(5)根据步骤(4)得出来的概率,采用交叉熵函数定义文档级别的损失函数:
N表示的是短文本的个数;
(6)对于每一个词,分别算出其属于正向情感和负向情感的概率:
p(+|e)=softmax(θt·e+bt)
p(-|e)=1-softmax(θt·e+bt)
θt是Softmax函数的权重参数,bt是Softmax函数的偏置参数;
(7)根据步骤(4)得出来的概率,采用交叉熵函数定义词级别的损失函数:
T表示的是词的个数;
(8)最终联合步骤(5)和(7)中的损失函数,得到最终的损失函数f:
f=αfword+(1-α)fdoc
其中α权重参数,它在模型训练的过程中手动调节,其中0<α<1;
(9)最后根据神经网络的BackPropagation算法,即BP算法,更新上述参数,并最终可以得到词向量矩阵Em*n。
4.根据权利要求1所述的能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,所述步骤3)具体为:
(1)首先根据语料库中每个词的词频,得到每个词i出现的概率:
这里n是词的种类,c代表某种词的词频;
(2)对于两篇文档中的任意的两个词i,j,采用范数中的2范定义它们之间的距离是c(i,j):
c(i,j)=||ei-ej||2
这里ei和ej是词i和词j在En*m中所对应的词向量;
(3)最终在Matt J.Kusner的模型的基础上,计算文档D1与文档D2之间的距离:
其中上式满足于约束:
这里的pij标识的是词i和词j相似的概率;
(4)将得到的d(D1,D2)进行归一化处理,最终得到:
davg=d(D1,D2)/(count(D1)+count(D2))
Count(D1)是短文本D1中词的个数,count(D2)是短文本D2中词的数量。
5.根据权利要求1所述的能同时过滤无关评论和对相关评论进行情感分类的方法,其特征在于,所述步骤4)具体为:
davg<λ1两个短文本种类相同,情感一样;
λ1davg>λ2两个短文种类不同;
这里λ1、λ2是统计出来的两个阈值,其中λ1小于是短文本种类和情感相同,小于λ2大于λ1的短文本种类相同,情感相反,大于λ2短文本种类不同。

说明书全文

能同时过滤无关评论和对相关评论进行情感分类的方法

技术领域

[0001] 本发明属于计算机自然语言处理领域,具体涉及的是一种能同时过滤无关评论和对相关评论进行情感分类的方法。

背景技术

[0002] 随着社会和计算机技术的发展,人们更倾向于在网络上表达自己的看法。及时的获取和挖掘人们的观点,对于舆情的把控和商品的改进都具有重要的意义。在现有的技术中,在对文本情感分类时,大部分情况下对无关的评论是不做任何处理,这在统计的结果上会造成精度的损失。本发明是一种能够同时过滤无关评论和对相关评论进行情感分类的技术,主要涉及情感分类和短文本的种类划分两方面的技术,下面介绍目前这两种技术的发展。
[0003] 最近几年,在短文本情感分类方面有很多的研究。主要目标是将短文本的情感分成正性,负性,和中性。使用的方法主要有基于机器学习的方法和基于情感词典的方法。在[8]机器学习方面,Pang et al 通过手动的标注部分短文本的情感作为特征,然后使用SVM,Native Bayes, Maximum Entropy分类算法,实现了短文本的情感分类。在这个方向上,主要关注于设计有效的特征,进而获得更好的分类表现。虽然特征工程很重要,但是获取特征的任务量一般是很大的。为了摆脱特征工程,Bengio[1]利用神经网络模型提出了词向量的生成技术。通过将短文本表示成词向量,再借助神经网络,进而可以得到句子的情感极性
在基于情感词典来进行情感分类方面,主要的工作聚焦于获取一部完善的情感词典,例如Saif,H[9]的SentiCirle 技术,然后联合文本的情感词和句法信息,对短文本进行情感分类。
[0004] 在短文本的种类划分中,首先要获得两个短文本之间的距离。而要获得短文本的距离,就需要将文本进行量化。在短文本的向量表示方面,之前最常用的两种方法是BOW模型和 TF-IDF模型。但由于相似的词在两个文本中可能处于不同的位置,所以不能简单的借助两个短文本对应位置上词与词之间的距离表示文档的距离。为了能够刻画文档之间距离,大部分的研究聚焦于获得一个低维的文档向量表达。Mikolov,T[5]的Word2Vector是一个获得文本词向量的技术,Matt J.Kusner借助于Word2Vector词向量得到文本之间的距离,再通过KNN技术完成了文本的分类。
[0005] 参考文献:
[0006] [1]Bengio,Y.,Ducharme,R.,Vincent,P.,&Jauvin,C.(2003).A neural probabilistic language model.Journal of machine learning research,3(Feb),
1137-1155.
[0007] [2]Blei,D.M.,Ng,A.Y.,&Jordan,M.I.(2003).Latent  dirichlet allocation.Journal of machine Learning research,3(Jan),993-1022.
[0008] [3]Deerwester,S.,Dumais,S.T.,Furnas,G.W.,Landauer,T.K.,&Harshman,R.(1990). Indexing by latent semantic analysis.Journal of the American society for information science,41(6),391.
[0009] [4]Kusner,M.,Sun,Y.,Kolkin,N.,&Weinberger,K.(2015,June).From word embeddings to document distances.In International Conference on Machine Learning(pp.957-966).
[0010] [5]Mikolov,T.,Chen,K.,Corrado,G.,&Dean,J.(2013).Efficient estimation of word representations in vector space.arXiv preprint arXiv:1301.3781.[0011] [6]Mikolov,T.,Sutskever,I.,Chen,K.,Corrado,G.S.,&Dean,J.(2013).Distributed  representations  of  words  and  phrases  and  their 
compositionality.In Advances in neural information processing systems
(pp.3111-3119).
[0012] [7]Pak,A.,&Paroubek,P.(2010,May).Twitter as a corpus for sentiment analysis and opinion mining.In LREc(Vol.10,No.2010).
[0013] [8]Pang,B.,Lee,L.,&Vaithyanathan,S.(2002,July).Thumbs up?:sentiment classification using machine learning techniques.In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10(pp.79-86).
[0014] [9]Saif,H.,He,Y.,Fernandez,M.,&Alani,H.(2014,May).Adapting sentiment lexicons using contextual semantics for sentiment analysis of twitter.In European Semantic Web Conference(pp.54-63).Springer,Cham.
[0015] [10]Tang,D.,Wei,F.,Yang,N.,Zhou,M.,Liu,T.,&Qin,B.(2014).Learning sentiment-specific word embedding for twitter sentiment classification.In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers)(Vol.1,pp. 1555-1565).
[0016] [11]Wang,L.,&Xia,R.(2017).Sentiment Lexicon Construction with Representation Learning Based on Hierarchical Sentiment Supervision.In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing(pp.502-510).

发明内容

[0017] 本发明的目的在于克服现有技术的不足,提出一种能够同时过滤无关评论和对相关评论进行情感分类的方法。当今社会,越来越多的企业想要获得用户对于产品的观点。通过该方法不仅可以将和指定产品无关的评论去除掉,同时又可以获得相关评论的情感倾向。因为去除无关的评论和情感倾向判定是同时进行的,所以在挖掘用户观点方面具有准确和高效性。同时,该技术也可以用于政府获取舆情方面。
[0018] 本发明为解决技术背景中的提出的技术问题,采用如下技术方案:能同时过滤无关评论和对相关评论进行情感分类的方法,该方法包括如下步骤:
[0019] 1)对短文本进行预处理;
[0020] 2)利用HSSWE模型训练词向量;
[0021] 3)利用WMD模型获得文档之间的距离;
[0022] 4)利用分类器对目标文档进行分类。
[0023] 本发明所述步骤1)具体为:
[0024] (1)爬取目标网站的评论数据,组成实验中的语料库;
[0025] (2)去除语料库中无关的符号,标点符号包括。?!,、;:“”‘’()-……《》;
[0026] (3)使用分词工具对获取的评论数据进行分词处理;
[0027] (4)去除分词后语料库中无关的停用词;
[0028] (5)根据短文本中的表情符号对每个文本进行情感标注,对于没有情感符号的短文本,选择去除;
[0029] 对于出现多个表情符号的短文本,选择最后一个表情符号作为短文本情感的极性;
[0030] (6)根据SO-PMI对每个词进行情感标注,具体操作如下:
[0031] 首先,根据下面的公式分别计算每个词t分别属于正类和负类的PMI得分,其中‘+’代表正向情感,‘-’代表负向情感,P(+|t)和PMI(t,+)分别代表词t属于正向情感的概率和点互信息值,P(+|t)和PMI(t,+)分别代表词t属于负向情感的概率和点互信息值,p(+)和p(-)分别是正向词和负向词出现的概率,log为对数似然函数:
[0032]
[0033]
[0034] 然后,根据下面的公式计算出每个词t的SO值,SO(t)代表一个词属于正向情感的的倾向,:
[0035] SO(t)=PMI(t,+)-PMI(t,-)
[0036] 最终,采取下面公式定义一个词t的情感属于正向和负向的概率,δ为sigmod函数,其
[0037] 中 分别代表着词t属于负向和正向的统计频率,这里作为概率:
[0038]
[0039] 本发明所述步骤2)具体步骤如下:
[0040] (1)取一个短文本t1,t2,……tn-1,tn将它作为输入;
[0041] (2)将评论中的每一个词向量化,根据词向量矩阵En*m,将每一个词ti映射成它所对应的向量 ei,其中En*m是随机初始化的一个词向量矩阵,在后续步骤中将使用BP算法更新该词向量矩阵;
[0042] (3)通过词向量ei得到短文本向量de,这里使用如下公式得到de,
[0043]
[0044] de是一个1*m维的向量,d代表一个短文本中词的个数;
[0045] (4)根据短文本的词向量de和下面的公式,表示出该短文本分别是正向情感和负向情感的概率:
[0046] p(+|de)=softmax(θd·de+bd)
[0047] p(-|de)=1-softmax(θd·de+bd)
[0048] θd是Softmax函数的权重参数,bd是Softmax函数的偏置参数;
[0049] (5)根据步骤(4)得出来的概率,采用交叉熵函数定义文档级别的损失函数:
[0050]
[0051] N表示的是短文本的个数;
[0052] (6)对于每一个词,分别算出其属于正向情感和负向情感的概率:
[0053] p(+|e)=softmax(θt·e+bt)
[0054] p(-|e)=1-softmax(θt·e+bt)
[0055] θt是Softmax函数的权重参数,bt是Softmax函数的偏置参数;
[0056] (7)根据步骤(4)得出来的概率,采用交叉熵函数定义词级别的损失函数:
[0057]
[0058] T表示的是词的个数;
[0059] (8)最终联合步骤(5)和(7)中的损失函数,得到最终的损失函数f:
[0060] f=αfword+(1-α)fdoc
[0061] 其中α权重参数,它在模型训练的过程中手动调节,其中0<α<1;
[0062] (9)最后根据神经网络的BackPropagation算法,即BP算法,更新上述参数,并最终可以得到词向量矩阵Em*n。
[0063] 本发明所述步骤3)具体为:
[0064] (1)首先根据语料库中每个词的词频,得到每个词i出现的概率:
[0065]
[0066] 这里n是词的种类,c代表某种词的词频;
[0067] (2)对于两篇文档中的任意的两个词i,j,采用范数中的2范定义它们之间的距离是c(i,j):
[0068] c(i,j)=||ei-ej||2
[0069] 这里ei和ej是词i和词j在En*m中所对应的词向量;
[0070] (3)最终在Matt J.Kusner的模型的基础上,计算文档D1与文档D2之间的距离:
[0071]
[0072] 其中上式满足于约束:
[0073]
[0074]
[0075] 这里的pij标识的是词i和词j相似的概率。
[0076] 这里举例对上式做简要的说明:
[0077] 例如下面的两句话,要计算两句话之间的距离:如图3所示,以“首都”为例[0078] 小明在北京找到了份工作
[0079] 他就职于首都
[0080] 在进行分词,去除停用词之后:
[0081] 小明北京找到工作
[0082] 他就职首都
[0083] 显而易见,不能按照不能按照词与词之间的顺序进行一对一映射,然后计算两句话的距离。根据上述公式,词和词之间是按照一定概率进行映射的,每个词都以一定的概率和其它词相似,而所有的概率之和满足上述约束条件。
[0084] 这里p1,p2,p3,p4分别是“首都”和各个词相似的概率,且这几个概率满足:p1+p2+p3+ p4=p(首都),p(首都)为首都这个词在语料库中出现的频率。
[0085] (4)将得到的d(D1,D2)进行归一化处理,最终得到:
[0086] davg=d(D1,D2)/(count(D1)+count(D2))
[0087] Count(D1)是短文本D1中词的个数,count(D2)是短文本D2中词的数量。
[0088] 本发明所述步骤4)具体为:
[0089] davg<λ1两个短文本种类相同,情感一样;
[0090] λ1
[0091] davg>λ2两个短文种类不同;
[0092] 这里λ1、λ2是统计出来的两个阈值,其中λ1小于是短文本种类和情感相同,小于λ2大于λ1的短文本种类相同,情感相反,大于λ2短文本种类不同。
[0093] 有益效果
[0094] 1、短文本种类的判别和情感分类在现实生活中用处广泛。
[0095] 首先对于政府来说,及时的获得政策的实施效果以及群众对于政府的满意度都是非常重要的,利用短文本种类的判别和情感技术,可以精确的得出群众的满意度,对于后续政策的制定具有重要的意义。
[0096] 对于企业来说,需要及时的获得用户对产品的满意度。利用该技术,可以对用户的评论做满意度调查,可以快速的获取用户的满意度。同时该技术,较现有的技术来说具有明显的优势,它能够在判断短文本情感的时候,自动的过滤掉无关的文本,提高了分类算法的精度。
[0097] 2、本方法以Leyi Wang[11]理论为基础,参考了Matt J.Kusner[4]的模型,提出了一种能同时判别短文本种类和情感的技术。在Matt J.Kusner的模型中,通过将Word2Vector词向量与EMD 思想相结合,进而得到了两个文档的距离,在通过KNN技术实现对短文本种类的划分。但 Word2Vector词向量只考虑了词在句法上的信息,没有融合短文本的情感信息,所以不能实现短文本的情感分类。但是通过Leyi Wang理论中训练出来的词向量很好的融合了句法信息和短文本情感信息。本文通过在Matt J.Kusner模型中引入Leyi Wang理论中的词向量,同时对 Matt J.Kusner[4]的模型改进了模型,实现了一种能够同时过滤无关评论和对相关评论进行情感分类的技术。
[0098] 3、本发明的应用广泛,例如能够在某种商品的评论中过滤掉无关评论,同时对相关评论,区分出用户的正负情感,统计出用户对产品的满意度。附图说明
[0099] 图1为本发明方法流程图
[0100] 图2为HSSWE模型训练词向量的流程图;
[0101] 图3为对WMD模型进行举例分析的示意图。

具体实施方式

[0102] 下面结合附图和具体实施例来对本发明做进一步的说明。以分析用户对于商品的满意度为例,说明本发明的具体实施过程:
[0103] 能同时过滤无关评论和对相关评论进行情感分类的方法,该方法包括如下步骤:
[0104] 1)对短文本进行预处理;
[0105] 本发明所述步骤1)具体为:
[0106] (7)爬取目标网站的评论数据,组成实验中的语料库;
[0107] (8)去除语料库中无关的符号,标点符号。?!,、;:“”‘’()-……《》;
[0108] (9)使用分词工具对获取的评论数据进行分词处理;
[0109] (10)去除分词后语料库中无关的停用词;
[0110] (11)根据短文本中的表情符号对每个文本进行情感标注,对于没有情感符号的短文本,选择去除;对于出现多个表情符号的短文本,选择最后一个表情符号作为短文本情感的极性;
[0111] 我们把短文本中出现以下符号的文本定义成正向情感,如表1:
[0112] 表1
[0113]
[0114]
[0115] 把短文本中出现以下符号的文本定义成负向情感,如表2:
[0116] 表2
[0117]
[0118] (6)根据SO-PMI对每个词进行情感标注,具体操作如下:
[0119] 首先,根据下面的公式分别计算每个词t分别属于正类和负类的PMI得分,其中‘+’代表正向情感,‘-’代表负向情感,P(+|t)和PMI(t,+)分别代表词t属于正向情感的概率和点互信息值,P(+|t)和PMI(t,+)分别代表词t属于负向情感的概率和点互信息值,p(+)和p(-)分别是正向词和负向词出现的概率,log为对数似然函数:
[0120]
[0121]
[0122] 然后,根据下面的公式计算出每个词t的SO值,SO(t)代表一个词属于正向情感的的倾向,:
[0123] SO(t)=PMI(t,+)-PMI(t,-)
[0124] 最终,采取下面公式定义一个词t的情感属于正向和负向的概率,δ为sigmod函数,其
[0125] 中 分别代表着词t属于负向和正向的统计频率,这里作为概率:
[0126]
[0127] 2)利用HSSWE模型训练词向量;
[0128] 本发明所述步骤2)具体步骤如下:
[0129] (1)取一个短文本t1,t2,……tn-1,tn将它作为输入;
[0130] (2)将评论中的每一个词向量化,根据词向量矩阵En*m,将每一个词ti映射成它所对应的向量 ei,其中En*m是随机初始化的一个词向量矩阵,在后续步骤中将使用BP算法更新该词向量矩阵;
[0131] (3)通过词向量ei得到短文本向量de,这里使用如下公式得到de,
[0132]
[0133] de是一个1*m维的向量,d代表一个短文本中词的个数;
[0134] (4)根据短文本的词向量de和下面的公式,表示出该短文本分别是正向情感和负向情感的概率:
[0135] p(+|de)=softmax(θd·de+bd)
[0136] p(-|de)=1-softmax(θd·de+bd)
[0137] θd是Softmax函数的权重参数,bd是Softmax函数的偏置参数;
[0138] (5)根据步骤(4)得出来的概率,采用交叉熵函数定义文档级别的损失函数:
[0139]
[0140] N表示的是短文本的个数;
[0141] (6)对于每一个词,分别算出其属于正向情感和负向情感的概率:
[0142] p(+|e)=softmax(θt·e+bt)
[0143] p(-|e)=1-softmax(θt·e+bt)
[0144] θt是Softmax函数的权重参数,bt是Softmax函数的偏置参数;
[0145] (7)根据步骤(4)得出来的概率,采用交叉熵函数定义词级别的损失函数:
[0146]
[0147] T表示的是词的个数;
[0148] (8)最终联合步骤(5)和(7)中的损失函数,得到最终的损失函数f:
[0149] f=αfword+(1-α)fdoc
[0150] 其中α权重参数,它在模型训练的过程中手动调节,其中0<α<1;
[0151] (9)最后根据神经网络的BackPropagation算法,即BP算法,更新上述参数,并最终可以得到词向量矩阵Em*n。
[0152] 3)利用WMD模型获得文档之间的距离;
[0153] 本发明所述步骤3)具体为:
[0154] (1)首先根据语料库中每个词的词频,得到每个词i出现的概率:
[0155]
[0156] 这里n是词的种类,c代表某种词的词频;
[0157] (2)对于两篇文档中的任意的两个词i,j,采用范数中的2范定义它们之间的距离是c(i,j):
[0158] c(i,j)=||ei-ej||2
[0159] 这里ei和ej是词i和词j在En*m中所对应的词向量;
[0160] (3)最终在Matt J.Kusner的模型的基础上,计算文档D1与文档D2之间的距离:
[0161]
[0162] 其中上式满足于约束:
[0163]
[0164]
[0165] 这里的pij标识的是词i和词j相似的概率。
[0166] 这里举例对上式做简要的说明:
[0167] 例如下面的两句话,要计算两句话之间的距离:如图3所示,以“首都”为例[0168] 小明在北京找到了份工作
[0169] 他就职于首都
[0170] 在进行分词,去除停用词之后:
[0171] 小明北京找到工作
[0172] 他就职首都
[0173] 显而易见,不能按照不能按照词与词之间的顺序进行一对一映射,然后计算两句话的距离。根据上述公式,词和词之间是按照一定概率进行映射的,每个词都以一定的概率和其它词相似,而所有的概率之和满足上述约束条件。
[0174] 这里p1,p2,p3,p4分别是“首都”和各个词相似的概率,且这几个概率满足:p1+p2+p3+ p4=p(首都),p(首都)为首都这个词在语料库中出现的频率。
[0175] (4)将得到的d(D1,D2)进行归一化处理,最终得到:
[0176] davg=d(D1,D2)/(count(D1)+count(D2))
[0177] Count(D1)是短文本D1中词的个数,count(D2)是短文本D2中词的数量。
[0178] 4)利用分类器对目标文档进行分类。
[0179] 本发明所述步骤4)具体为:
[0180] davg<λ1两个短文本种类相同,情感一样;
[0181] λ1
[0182] davg>λ2两个短文种类不同;
[0183] 这里λ1λ2是统计出来的两个阈值,其中λ1小于是短文本种类和情感相同,小于λ2大于λ1的短文本种类相同,情感相反,大于λ2短文本种类不同。
[0184] 首先要获得用户的评论,如果是网站的拥有者,可以直接从数据库中获得数据;如果不是网站的拥有者,可以采用主流的爬取框架例如Webmagic爬取数据。下面是利用webmagic 爬取的天涯社区的主要代码:
[0185] ●Code1:主要负责调度,用于获取和存储需要爬取的url
[0186]
[0187]
[0188] ●Code2:主要用于获取评论的内容和评论人:
[0189]
[0190]
[0191] ●code3将code1和code2爬取到的结果存储到html文档中
[0192]
[0193] ●利用code1,code2,code3所述的爬虫程序可以获得分析所用的评论数据,并将数据保存成html文件,部分数据展示如下,其中文件总数是8956个:
[0194]
[0195] ●其中每个文件中的内容的格式,文件中每个字段的含义如下:
[0196] ■url是每条帖子的地址、posterTitle是帖子的标题、Poster是帖子的创建者、Time是发帖时间、hitsNumber是帖子的点击总数、posterContent是帖子的内容。
[0197] ■replyPosterIdn是帖子n楼的回复者的id、replyPosterPeoplen是n楼回复者在天涯论坛中的名字、replyPosterTime是n楼楼回帖的时间、replyPosterContentn:是n楼回复者的内容。(其中n=1,2,3……)
[0198] ■replyPosterIdn_m代表对m楼评论的第n个回复的id、replyPosterPeoplen_m代表对m 楼评论的第n个回复的内容、、replyPosterTimen_m代表对m楼评论的第n个回复的时间、replyPosterContentn_m代表对m楼评论的第n个回复的内容 (n=1,2,3……,m=1,2,3……)
[0199]
[0200]
[0201]
[0202]
[0203]
[0204]
[0205]
[0206]
[0207]
[0208]
[0209]
[0210]
[0211]
[0212]
[0213]
[0214] (1)对于获取到的数据,按照表1,和表2中的符号对评论数据进行初步的情感标注。标注完后的数据
[0215] (2)使用NLPIR分词系统或者Jieba分词工具,对获取到评论数据进行分词;
[0216] ●NLPIR分词的代码如下:
[0217]
[0218]
[0219] ·使用Jieba分词的代码如下:
[0220]
[0221] (3)去除语料库中无关的符号,其中这些标点符号包括。?!,、;:“”‘’()-……《》, 以及无关的停用词,停用词主要使用《哈工大停用词表》
[0222] (4)将分词后的语料作为HSSWE模型的输入,对于HSSWE模型中的En*m向量矩阵,一般将m设置为50.然后运行BP算法,获得情感词的向量表示。
[0223] (5)取正,负,无关评论各50条,然后依次的组合相同数量(一般取200条)的正正,负负,正负,正无关,负无关的评论组。
[0224] (6)使用WMD模型计算其davg,将所有获得的davg放在一起排序,选择能够将(正正、负负), (正负),(正无关、负无关)评论分开的λ1λ2作为我们的阈值。
[0225] (7)对于要分类的文本,计算其与之前50条正向文本或者负向文本的davg,根据50个davg多数所处的分布区间,确定要分类文本的正,负,无关性。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈