专利汇可以提供一种基于松散条件下协同学习的中文微博情感分析方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于松散条件下协同学习的中文微博 情感分析 方法,包括:(1)构建初始已标注微博数据集L和未标注微博数据集U;(2)对已标注数据集L和未标注数据集U进行特征提取;(3)构造SVM分类器C1和LSTM分类器C2,利用已标注数据集L对C1、C2分别进行训练;(4)利用训练好的两个分类模型对未标注数据集U进行预测;(5)选择未标注样本加入到训练集,以修正分类模型。本发明的优点在于充分考虑了文本中不确定性和 置信度 这些信息量,从而能选取对两个分类模型最有帮助的样本数据进行人工标注以减少噪声样本的引入;并且分别从词法信息要素的 角 度和文本上下文相关的语法角度来构造协同学习的 框架 ,提高分类的准确率。,下面是一种基于松散条件下协同学习的中文微博情感分析方法专利的具体信息内容。
1.一种基于松散条件下协同学习的中文微博情感分析方法,其特征在于,包括如下步骤:
步骤1、构建初始已标注微博数据集L和未标注微博数据集U,具体是:从NLP&CC提供的中文微博情感标注语料集得到L′+P2+Q2+W条已标注微博,并从已标注微博语料集中随机选取P1条积极微博和Q1条消极微博作为训练集,再选取P2条积极微博和Q2条消极微博作为测试集,剩下的W条已标注微博作为不确定性样本数据集;
步骤2、对已标注微博数据集L和未标注微博数据集U进行特征提取,特征提取包含:分词、去停用词、特征提取、特征加权,具体是从文本的向量空间模型VSM表示和词向量的分布式特征两个视图进行提取,特征提取基于CHI特征选择,CHI特征选择通过度量特征项t和情感类别c之间的关联度,具体计算公式如下:
其中,公式中各个参数的含义,说明如下:M表示已标注微博数据集L中微博的总数;A表示属于类别c,且包含特征项t的微博的数量;B表示不属于类别c,且包含特征项t的微博的数量;C表示属于类别c,但不包含特征项t的微博的数量;D表示不属于类别c,且不包含特征项t的微博的数量;特征加权基于TF-IDF权重计算方法,TF表示某一个特征项在该微博中出现的频率,特征项t的TF值具体计算公式如下:
其中,nt,j表示特征项t在微博j中出现的次数,∑knk,j表示微博j中所有特征项出现的次数之和;
IDF表示的是反文档频率,是指如果包含某个特征项的微博越少,IDF越大,说明该特征项具有很好的类别区分能力,特征项t的IDF值具体计算公式如下:
其中,N表示所有微博总数,Nt表示包含特征项t的微博总数;TF-IDF的计算公式如下:
TF-IDF=TF*IDF
步骤3、构造SVM分类器C1和LSTM分类器C2,利用已标注微博数据集L对C1、C2分别进行训练,具体是:SVM分类器采用LibSVM工具包实现,LSTM分类模型中,采用word2vec模型训练得到的词向量作为输入,设置词向量的维数,输出包含整个微博文本词序列信息的实值向量,最后利用Softmax函数来得到文本的情感极性;
步骤4、利用训练好的分类模型对未标注微博数据集U进行预测,具体方法是:利用训练好的两个分类模型分别对未标注微博数据集U进行预测,预测值的范围控制在[-1,1]区间,越接近-1说明微博的消极程度越高,越接近1说明微博的积极程度越高,将预测后得到的两个预测置信度进行取平均值得到整体预测置信度;
步骤5、选择未标注样本加入到训练集,以修正分类模型;其中,未标注样本是根据不确定性最高策略和置信度最高策略相结合进行选择,具体包括:首先根据步骤4中的整体预测置信度大小,将样本进行降序排列,选取前m个样本,即为置信度最高的m个样本加入到已标注微博数据集L中;然后选取不确定性最高的n个样本,交由人工标注后,加入到已标注微博数据集L中;其中,不确定性权值的计算公式为:
其中,Uncertain(d)表示样本d的不确定性权值,pos表示情感极性为积极的微博样本,neg表示情感极性为消极的微博样本,neu表示情感极性为中性的微博样本,p(yi|d)表示样本d属于类别yi的分类置信度。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种代言人商业价值评估方法、存储介质和装置 | 2020-05-08 | 487 |
一种基于文档向量的电影评论情感分析方法 | 2020-05-11 | 457 |
一种面向电网电磁环境的网络舆情及风险信息监测系统、电子设备 | 2020-05-12 | 696 |
文本的情感识别方法、装置、服务器以及存储介质 | 2020-05-12 | 81 |
评价数据处理方法、装置、介质和计算机设备 | 2020-05-11 | 780 |
一种用电客户情感指数的量化评估方法 | 2020-05-08 | 160 |
商品推荐方法、装置、计算机设备和存储介质 | 2020-05-08 | 405 |
一种虚拟物品的显示方法、装置、计算机设备和存储介质 | 2020-05-12 | 856 |
语音合成方法、装置、计算机设备及计算机可读存储介质 | 2020-05-08 | 755 |
一种基于神经网络的智能窗户调节方法及装置 | 2020-05-11 | 888 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。