专利汇可以提供特征扩展卷积神经网络的案件微博观点句识别构建方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及特征扩展 卷积神经网络 的案件微博观点句识别构建方法,属 自然语言处理 领域。本发明包括:构建案件微博 数据库 ;对案件微博数据库中的评论进行标注,形成案件微博评论的训练集和测试集;对案件的多个微博原文进行关键词的 抽取 ;从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量;将关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。本发明实现了从案件微博原文中获取关键词作为特征扩展,从获取的舆情数据中识别出所需观点句,为后续对观点句进行情感倾向性分析提供了 支撑 。,下面是特征扩展卷积神经网络的案件微博观点句识别构建方法专利的具体信息内容。
1.特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:
所述方法的具体步骤如下:
Step1、构建案件微博数据库;
Step2、对案件微博数据库中的评论进行标注,形成案件微博评论的训练集和测试集;
Step3、利用textRank算法对案件的多个微博原文进行关键词的抽取;
Step4、从案件原文中提取出的关键词作为特征扩展和训练集案件微博评论向量化后进行拼接得到新的向量;
Step5、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量作为输入来训练卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
2.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、采用基于Scrapy框架的爬虫从新浪微博上爬取相关案件微博原文及评论;
Step1.2、再对案件微博原文及评论进行过滤筛选,从而构建案件微博数据集,最终得到案件微博的数据库;
过滤筛选的方式如下所示:
Step1.2.1、对微博博文按照转发关系“//”进行划分,用于保证转发微博下面的评论是基于原始微博进行分析的;
Step1.2.2、删除微博评论里“@+用户名+回复”这样的结构,且删除无关超链接广告;
Step1.2.3、对连续出现多个标点符号情况,采用首位标点符号进行替换,并去除微博评论内容中的表情符号;
Step1.2.4、对小于七个字符的评论数据进行过滤筛除,用于保证评论内容的完整和可用性。
3.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step2中:
案件微博数据库的评论数据采用人工标注,以一条微博原文为单位对包含的评论数据进行标注工作;
其中,一句微博评论中既包含观点又包含案件相关要素,标注为0;其他视为非观点句,标注为1;三人盲判取交集,最终获得观点句的标注结果。
4.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step3的具体步骤如下:
Step3.1、把案件微博原文文本分割成若干个完整的句子,每个句子需要过滤掉停用词,并只保留指定的词性的词,即名词、动词,形成句子和词的集合;
Step3.2、基于句子和词的集合构建候选关键词图G=(V,E),其中V为节点集,由生成的候选关键词组成;
Step3.3、然后采用共现关系构造任两点之间的边计算出每个词节点的权重,每个节点的权重如式(1)所示:
其中,D为阻尼系数,Wji为词Vj与词Vi的连接权重,Wjl为词Vj与词Vl之间的连接权重,T代表一个词的textRank值;
Step3.4、对节点的权重进行倒序排序,指定需要的关键词个数,最后得到案件微博原文的关键词。
5.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step4的具体步骤如下:
Step4.1、把整个评论句和获取的关键词组输入到嵌入层中;其中每个评论句子由n个词组成,关键词组由s个词组成;
Step4.2、将评论句和关键词经过word2vec词向量模型处理得到d维特征的词向量,然后将评论句中的每一个词的词向量后面依次拼接上关键词组的词向量,形成一个具有案件(s+1)d
评论和关键词特征的新的词向量xi;xi表示拼接操作后第i个词的词向量,xi∈R ,其中i=1,2,…n;评论句表示为xi,xi+1,…,xi+n-1;
Step4.3、循环执行步骤Step4.2,使得每一个评论句都对关键词组进行拼接操作后形成卷积层的输入。
6.根据权利要求1所述的特征扩展卷积神经网络的案件微博观点句识别构建方法,其特征在于:所述步骤Step5的具体步骤如下:
Step5.1、将从案件原文中提取出的关键词作为特征扩展和案件微博评论向量化后进行拼接得到新的向量输入到卷积层,卷积层的核心是滤波器,由不同大小的卷积核在不同范围内抽取评论的局部信息,从而组合出案件微博评论中不同的特征;
每个卷积层都有固定大小的滑动窗口,每次只处理窗口内的信息;窗口的大小定义为k,在卷积操作中有连续k个词向量获得新的特征值ci,xi:i+k-1表示输入评论句中第i个词到i+k-1个词的卷积的操作过程用式(2)表示为:
ci=f1(w·xi:i+k-1+b) (2)
其中,滤波器的权重矩阵定义为w∈Rk×d,b为偏置项,f1为激活函数;抽取出的特征向量C用式(3)表示为:
C=[c1,c2,…,cn-k+1] (3)
其中,C∈Rn-k+1;i=1,2,…n,n是每个评论句子中词的个数;
Step5.2、经过了卷积层的操作后,案件微博评论中的观点和案件的相关特征表现明显,在此基础上,池化层从不同窗口的特征集合中筛选出微博评论中包含的相关特征;对于得到的案件微博评论特征向量C进行max-pooling生成最大的特征值 用式(4)表示为:
Step5.3、在池化层的特征值 通过多个不同大小的滤波器生成的特征值进行组合获得情感分类特征v;经过全连接层的操作将特征进一步量化,从而抽取到更深层的语义特征v′,量化的过程用式(5)表示为:
v′=w′·v+b (5)
其中,w′为全连接层训练的权重矩阵,b为偏置项;
Step5.4、v′经过全连接层,获得了多个特征类别范围内的估计值,需要做归一化的处理,采用softmax分类函数决策出最大概率的类别,用式(6)表示为:
p=softmax(v′) (6)
其中,softmax为分类器,p表示评论句最终特征所属的概率大小为0或1,如果是1,则表示该评论句不是观点句,如果是0,则该评论句是观点句,从而能判别出案件微博评论句属于观点句还是非观点句;
Step5.5、通过步骤Step5.1-Step5.4训练出卷积神经网络,再把测试集输入到训练好的卷积神经网络进行观点句的识别分类。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
基于语音信息的教学方法、装置、电子设备及存储介质 | 2020-05-12 | 353 |
即时通信应用中表情自适应调整的方法、装置及移动终端 | 2020-05-14 | 29 |
短信文本模版的识别方法 | 2020-05-16 | 720 |
一种基于深度学习的校园心理辅导的方法及装置 | 2020-05-11 | 590 |
一种自动分类社交网络用户评论数据的方法 | 2020-05-08 | 856 |
一种微博情感分析方法 | 2020-05-11 | 735 |
紧凑的无语言面部表情嵌入和新颖三元组的训练方案 | 2020-05-14 | 462 |
一种事件抽取方法、装置及电子设备 | 2020-05-08 | 708 |
地理位置定位方法、系统、计算机设备和存储介质 | 2020-05-12 | 638 |
账号类型的识别方法和装置 | 2020-05-14 | 506 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。