专利汇可以提供一种基于层次attention的微博谣言立场检测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于层次attention的微博谣言立场检测方法,包括以下步骤:步骤一、对微博谣言数据进行预处理;步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;步骤三、从树结构对话中 抽取 根 节点 到 父节点 的文本序列作为目标文本的上下文;步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类;本发明通过引入上下文以及原始谣言的信息,构建基于层次attention的谣言立场检测模型,利用双向LSTM对文本进行编码表示,抽取对话序列,在序列上利用句子级attention学习上下文信息,最终达到分类目的,克服了传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的 缺陷 。,下面是一种基于层次attention的微博谣言立场检测方法专利的具体信息内容。
1.一种基于层次attention的微博谣言立场检测方法,其特征在于,包括以下步骤:
步骤一、对微博谣言数据进行预处理;
步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;
步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;
步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类。
2.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法,其特征在于:所述微博谣言数据为中文文本或者英文文本。
3.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,所述微博谣言数据为中文文本时,依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。
4.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,所述微博谣言数据为英文文本时,对文本进行预处理的依次为:将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。
5.根据权利要求4所述的一种基于层次attention的微博谣言立场检测方法,其特征在于:英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示。
6.根据权利要求3或4所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,预处理步骤还包括:从三个角度挖掘社交媒体的特征,与词嵌入进行拼接,三个角度分别为内容、用户和传播。
7.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,所述步骤四中,构建基于层次attention的LSTM模型的具体内容为:
A、利用单词级别的attention机制作用于文本的编码表示,通过双向LSTM模型实现;
B、利用句子级别的attention机制作用于文本序列编码表示上,通过双向LSTM模型实现;
C、将基于序列上attention的文本表示,经过softmax分类,得到类别概率;
D、将步骤三构造的序列送入步骤四的模型当中,得到目标文本的立场概率分布。
8.根据权利要求7所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,对于步骤A,设定文本t由单词组成,用{w1,w2,...,wT}来表示,将向量表示的文本初始化,初始为0向量,送入双向LSTM,通过正向层获取隐藏状态 通过反向层获取隐藏状态 拼接得到编码后的隐藏状态 通过以下公式:
ut=tanh(W·ht+b);
得到相应的权重αt与获得的每个文本x,其中,u表示上下文向量,ut表示每个t时刻的词隐层,将步骤三挖掘的特征做向量特征化处理之后与文本表示x进行拼接。
9.根据权利要求7所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,对于步骤C,设定文本Tn,{T1,T2,...,Tn-1}为Tn的对话序列,对每条文本进行文本编码表示之后,在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用,得到带有谣言上下文信息的目标文本表示rt,最后送入全连接层进行分类,得到立场分布
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种学术影响力预测方法 | 2020-05-17 | 265 |
一种面向社交媒体的实体集合扩展方法及系统 | 2020-05-08 | 364 |
一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法 | 2020-05-21 | 249 |
基于位置实体的跨媒体用户身份匹配方法 | 2020-05-23 | 806 |
一种人类活动信息挖掘方法 | 2020-05-25 | 286 |
网络水军的识别方法及装置、存储介质和处理器 | 2020-05-12 | 373 |
一种公司形象提升系统的数据监测分析系统 | 2020-05-08 | 495 |
一个基于多源异构数据的房地产信息可视化系统 | 2020-05-22 | 732 |
一种基于社交网络的数据采集与分析方法 | 2020-05-17 | 120 |
一种基于区块链的广告平台 | 2020-05-20 | 103 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。