首页 / 专利库 / 专利权 / 第I章 / 一种基于LSTM的社交网络评论生成方法

一种基于LSTM的社交网络评论生成方法

阅读:1020发布:2020-11-22

专利汇可以提供一种基于LSTM的社交网络评论生成方法专利检索,专利查询,专利分析的服务。并且一种基于LSTM的社交网络评论生成方法,属于社交网络评论生成技术领域。本 发明 为了解现有的社交网络评论生成技术所应用的场景过于狭窄单一、无法对舆情引提供素材库的问题。本发明使用基于LSTM学习的NLG技术,通过学习获得的每个字符之间的概率关系来对句子结构的视觉语义、字符的种类以及每一个字符进行编码。对想要表达的评论信息进行了语义和句法方面的融合,并后期通过特定词替换等方法,生成与社交网络几乎一致的生动、通顺、富于变化的高 质量 评论文本。本发明为舆情引导提供有利的素材语料库,通过传播更多的真实、值得信赖的言论,还原出正 能量 的网络环境。本发明可作为素材语料库输入到现有的舆情引导的系统中,用于社交网络特定领域评论生成。,下面是一种基于LSTM的社交网络评论生成方法专利的具体信息内容。

1.一种基于LSTM的社交网络评论生成方法,其特征在于,所述方法包括:
对评论文本进行分类,将评论文本分成七种类别:主系表结构,比较级结构,疑问句结构,感叹句结构,主谓宾结构,主谓宾宾补结构,祈使句结构;针对不同的类别,设计不同的LSTM模型,通过对每个LSTM模型的学习得到概率结构,生成不同类别的初始评论IRi,下标i表示七种类别,i等于1,2,3…7;
根据不同类别的自身的特点,制定相应的文本处理策略来修正对应的LSTM模型,进而生成与社交网络真实评论一致的高质量评论文本FRi;
社交网络W下给定一个特定领域D,该领域包含的热点话题集合为T={T1,T2,…,Tn},选定某一话题Ti,针对话题Ti选定某一特定主贴P,爬取主贴P下的评论文本集,表示为RR={RR1,RR2,…,RRn},经过分类处理,筛选出不同类别的数据,将其表示为FlR={FlR1,FlR2,…,FlRn},分别输入到不同参数的LSTM模型中,生成相应类别的初始评论集,表示为IR={IR1,IR2,…,IRn};针对不同类别的特点分别对IRi制定不同的策略来进行偏差修正,生成最终评论集表示为FR={FR1,FR2,…,FRn},如公式(1)到(3)所示;其中i∈{1,2,3,…,n},n等于7,其中C函数代表基于随机森林模型的文本分类过程,函数h代表基于LSTM的文本生成过程,函数zj代表偏差修正过程;偏差修正包括文本替换、文本复述和模板定制三种策略;
C(RR)→FlRi  (1)
h(W,D,T,P,FlRi)→IRi  (2)
zj(IRi)→FRi j∈{1,2,3}  (3)。
2.根据权利要求1所述的一种基于LSTM的社交网络评论生成方法,其特征在于,基于随机森林模型对评论文本进行分类的过程为:
首先通过爬虫创建数据集,进行分词、词性标注、句子分割处理,
其次对文本进行特征提取与抽取的操作,得到用于表示文本的特征向量,输入随机森林模型中,通过随机森林训练得到了文本分类的输出,最终将评论文本分为以下七类:主系表结构,比较级结构,疑问句结构,感叹句结构,主谓宾结构,主谓宾宾补结构,祈使句结构;
在述特征提取中使用特征选择和特征抽取来进行特征降维,将选取的特征用标识符表示,提取的具体特征为:
(1)Word embedding+tf-idf特征
通过选用CBOW模型训练而得的word embedding向量来对每一个单词进行向量化;CBOW的目标函数如公式(4)所示;对于单词wt,其单词上下文为Context(wt)={wt-b,...,wt-1,wt+1,...,wt+b};其中,b常量用于确定单词的上下文窗口大小,窗口大小b=4,最终向量化的单词维度确定为120;同时引入tf-idf特征选择方法对每一个word embedding向量进行考量,得到word embedding+tf-idf特征,命名为Wetfidf;
(2)WfreMatrix(word frequency matrix)特征
WfreMatrix特征用来表示词频矩阵,其行表示文章的编号,列表示评论文本中所有出现过的单词,矩阵中的元素为单词出现的频数;词频统计通过sklearn提供的接口计算完成;
(3)Pos(Part of speech)特征
使用NLTK工具中pos_tag_sents函数对评论文本进行词性标注;
(4)Key特征
Key特征用来表示关键词特征,关键词是指能够代表一个分类的词,Key计算如公式(5),
(5)Index特征
Index特征用来表示单词位序的特征;
(6)Punc特征
Punc特征用来表示标点符号特征,通过对固定标点符号序列的位序进行统计来抽取punc特征。
3.根据权利要求2所述的一种基于LSTM的社交网络评论生成方法,其特征在于,针对不同的类别,设计不同的LSTM模型,通过对每个LSTM模型的学习得到概率结构,生成不同类别的初始评论IRi,其过程为:
构建基于LSTM编码-解码结构的文本生成模型,给定一个Twitter评论短文本,首先对输入的文本进行编码,在解码阶段,使用LSTM一一生成的不同时刻的候选字符的概率分布,再通过一种合理的抽样技术来选择并确定下一个出现的字符,组成的字符序列构成了对输入语义项的自然语言描述;编码端与解码端均由单层LSTM组成;在编码阶段生成一个上下文向量C,此向量作为解码阶段的输入,在解码端输出最终的序列数据。
4.根据权利要求3所述的一种基于LSTM的社交网络评论生成方法,其特征在于,根据不同类别的自身的特点,制定相应的文本处理策略来修正对应的LSTM模型,进而生成与社交网络真实评论一致的高质量评论文本FRi,其过程为:
对于一个话题Ti本身搜集相对全面的先验知识,即领域知识,针对与主题无关或者相关性低的评论,以及与事实相悖的评论进行偏差修正处理,偏差修正处理包括文本替换、文本复述以及基于模板定制三种偏差修正处理,称之为基于领域知识的文本偏差修正。
5.根据权利要求4所述的一种基于LSTM的社交网络评论生成方法,其特征在于,文本替换算法的过程描述:
(1)给定主题词C,通过主题词C选取相应的参考数据集F;
(2)在参考数据集F里面找出所有跟主题词C相关,且主题相关性大于阈值的单词,组成一个集合P;集合P的确定方法通过词库wordNet进行,通过选取主题词的从属关系、成员关系、蕴含关系抽取出候选集,通过比较主题词C与P中的各个单词p的相似性sim和阈值k,得到最终的候选集P;
(3)在生成的初始评论集IR里面同第二步找出与C相似的名词,组成一个集合Q;对于Q中一个词,根据相关度分数,用P中的词来随机替换;
文本复述算法的过程描述:
对于任意句子s∈IR,对其中的word token进行词性判断,对判断出的形容词、副词、动词结构token,若词语属于同义词词库Syn,则该token记性translate和retranslate的过程,从而获得token的转述用词,通过进行余弦相似性的判断,将与原token距离最近的词进行替换,从而得到基于文本复述算法的复述文本FRpa;
基于模板定制算法的过程描述:
利用type()函数将FR评论集中文本对应类型进行提取,对评论集中疑问句和感叹句类型,将模板库TR中对应模板类型集合T进行抽取;通过判断句子sent的模板类型t',可以得到t'模板槽及对应词性序列,与模板t进行对应,使用translate函数进行模板槽位置的调换,实现基于模板的定制文本sent'的生成。

说明书全文

一种基于LSTM的社交网络评论生成方法

技术领域

[0001] 本发明涉及一种基于LSTM的社交网络评论生成方法,属于社交网络评论生成技术领域。

背景技术

[0002] 如今,在线社交网络平台极大地促进了网民的生活与交流,世界各地的人事物因为网络而紧密联系,人们对网络事件的参与度越来越高,由此而产生众多的社交网络评论。评论代表一种话语,一种声音,是意识形态的反映,其文本语句简明、意图明确、结构多样、是测试文本自动生成技术的理想场所。某些用户针对某一热点事件会通过发布帖子来表达自己的看法与立场,或赞同,或中立,或否定,或为一种利益驱动下的网络谣言。本专利将社交网络定于Twitter平台,搜集此平台上政治、健康、教育、娱乐、科技五个领域的用户生成内容(User Generated Content,UGC),主要完成Twitter中的评论文本的自动生成工作。
文本自动生成技术属于人工智能的研究领域之一,它的主要思想是根据将输入计算机内部的信息,根据计算机内部的文本规划器规划出所要生成信息的深层含义,再由文本实现器将此含义转化成合乎语法的语言结构,以评论文本的形式输出。人工智能是当今科学发展的热点,文本生成技术逐步得到了人们的关注,同时文本生成技术在现实生活中的应用十分广泛,对人类工作和生活带来了极大的影响。现有文献CN108256968A公开一种电商平台商品专家评论生成方法,该文献提出一种基于序列到序列生成模型的专家评论总结生成技术,提取某商品所有用户评论中的重要信息,生成一段总结性的话语来描述商品的特性。消费者可以根据生成的专家评论来了解商品的优缺点,考虑是否购买;商家可以根据生成的专家评论来改进自己的商品。本发明可以抽取出具有代表商品特性的重要评论,能够为商家改进商品提供很好的参考,让商家提升产品的用户体验,提高销量,增加收益。同时它能够为消费者提供购买参考,提升消费者的购物体验;还可以帮助电商平台吸引更多的粘性用户,扩大自身的影响。该文献没有提出通过深度学习来生成评论。
[0003] 从国内外自然语言文本生成的发展概况来看,现有的自然语言生成技术,在社交网络特定领域的评论生成方面,存在以下问题。
[0004] (1)自然语言生成研究方面已经有非常多的比较成熟的模型。自然语言文本生成多集中在人机对话系统机器翻译信息检索文本分类,自动文摘,研究的目标文本多是规范的文本集合,或为发表的文章,或为公开的规范的数据集,涉及社交网络评论文本生成方面的研究很少。
[0005] (2)网络评论的产生途径多种多样,社交网络(如Facebook,Twitter,Weibo,RenRen)、电子商务(如Amazon、阿里巴巴、当当网)、邮件服务(如Gmail,Yahoo,E-mail)、网络论坛(如天涯、网易、豆瓣)。目前涉及电子商务与邮件服务平台的评论文本生成的较多,而并没有一种普适的方法实现社交网络评论文本的生成。
[0006] (3)现有的针对评论文本生成的模型,研究的语言模式固定单一。Twitter平台上的评论针对不同领域的热点事件,其事件多具有突发性,有感即发,多以第一印象为主导,评论多具有随意性,多元性,规律难以捕捉。尽管在Yelp社交网站上的评论生成取得了丰硕的成果,但是其仅涉及用户在大众点评的评论模式,遵循一个相当标准的结构,其以经验为主导,开见山,紧扣主题,评在实处,多以喜恶为主导,模式固定单一,总体来说应用场景过于稳定,规律易于捕捉。而并不适应于Twitter平台上的评论。

发明内容

[0007] 本发明要解决的技术问题:
[0008] 本发明为了解现有的社交网络评论生成技术所应用的场景过于狭窄单一、无法对舆情引提供素材库的问题,进而提出一种基于LSTM的社交网络评论生成方法。
[0009] 本发明解决上述技术问题采用的技术方案是:
[0010] 一种基于LSTM的社交网络评论生成方法,所述方法包括:
[0011] 对评论文本进行分类,将评论文本分成七种类别:主系表结构,比较级结构,疑问句结构,感叹句结构,主谓宾结构,主谓宾宾补结构,祈使句结构;针对不同的类别,设计不同的LSTM模型,通过对每个LSTM模型的学习得到概率结构,生成不同类别的初始评论IRi,下标i表示七种类别,i等于1,2,3…7;
[0012] 根据不同类别的自身的特点,制定相应的文本处理策略来修正对应的LSTM模型,进而生成与社交网络真实评论一致的高质量评论文本FRi;
[0013] 社交网络W下给定一个特定领域D,该领域包含的热点话题集合为T={T1,T2,…,Tn},选定某一话题Ti,针对话题Ti选定某一特定主贴P,爬取主贴P下的评论文本集,表示为RR={RR1,RR2,…,RRn},经过分类处理,筛选出不同类别的数据,将其表示为FlR={FlR1,FlR2,…,FlRn},分别输入到不同参数的LSTM模型中,生成相应类别的初始评论集,表示为IR={IR1,IR2,…,IRn};针对不同类别的特点分别对IRi制定不同的策略来进行偏差修正,生成最终评论集表示为FR={FR1,FR2,…,FRn},如公式(1)到(3)所示;其中i∈{1,2,3,…,n},n等于7,其中C函数代表基于随机森林模型的文本分类过程,函数h代表基于LSTM的文本生成过程,函数zj代表偏差修正过程;偏差修正包括文本替换、文本复述和模板定制三种策略;
[0014] C(RR)→FlRi  (1)
[0015] h(W,D,T,P,FlRi)→IRi  (2)
[0016] zj(IRi)→FRi j∈{1,2,3}  (3)。
[0017] 进一步地,基于随机森林模型对评论文本进行分类的过程为(即基于随机森林模型的句式结构分类):
[0018] 首先通过爬虫创建数据集,进行分词、词性标注、句子分割处理,[0019] 其次对文本进行特征提取与抽取的操作,得到用于表示文本的特征向量,输入随机森林模型中,通过随机森林训练得到了文本分类的输出,最终将评论文本分为以下七类:主系表结构,比较级结构,疑问句结构,感叹句结构,主谓宾结构,主谓宾宾补结构,祈使句结构;
[0020] 在述特征提取中使用特征选择和特征抽取来进行特征降维,将选取的特征用标识符表示,提取的具体特征为:
[0021] (1)Word embedding+tf-idf特征
[0022] 通过选用CBOW模型训练而得的word embedding向量来对每一个单词进行向量化;CBOW的目标函数如公式(4)所示;对于单词wt,其单词上下文为Context(wt)={wt-b,...,wt-1,wt+1,...,wt+b};其中,b常量用于确定单词的上下文窗口大小,窗口大小b=4,最终向量化的单词维度确定为120;同时引入tf-idf特征选择方法对每一个word embedding向量进行考量,得到word embedding+tf-idf特征,命名为Wetfidf;
[0023]
[0024] (2)WfreMatrix(word frequency matrix)特征
[0025] WfreMatrix特征用来表示词频矩阵,其行表示文章的编号,列表示评论文本中所有出现过的单词,矩阵中的元素为单词出现的频数;词频统计通过sklearn提供的接口计算完成;
[0026] (3)Pos(Part of speech)特征
[0027] 使用NLTK工具中pos_tag_sents函数对评论文本进行词性标注;
[0028] (4)Key特征
[0029] Key特征用来表示关键词特征,关键词是指能够代表一个分类的词,Key计算如公式(5),
[0030]
[0031] (5)Index特征
[0032] Index特征用来表示单词位序的特征;
[0033] (6)Punc特征
[0034] Punc特征用来表示标点符号特征,通过对固定标点符号序列的位序进行统计来抽取punc特征。
[0035] 上述这个过程是说明公式(1)是如何实现的。
[0036] 进一步地,针对不同的类别,设计不同的LSTM模型,通过对每个LSTM模型的学习得到概率结构,生成不同类别的初始评论IRi(基于LSTM的评论文本自动生成),其过程为:
[0037] 构建基于LSTM编码-解码结构的文本生成模型,给定一个Twitter评论短文本,首先对输入的文本进行编码,在解码阶段,使用LSTM一一生成的不同时刻的候选字符的概率分布,再通过一种合理的抽样技术(如贪婪抽样、随机抽样、Beam搜索等)来选择并确定下一个出现的字符,组成的字符序列构成了对输入语义项的自然语言描述;编码端与解码端均由单层LSTM组成;在编码阶段生成一个上下文向量C,此向量作为解码阶段的输入,在解码端输出最终的序列数据。上述这个过程是说明公式(2)是如何实现的。
[0038] 下面这个权4对应的技术方案和权5对应的技术方案一起来具体说明公式(3)是如何实现的。
[0039] 进一步地,根据不同类别的自身的特点,制定相应的文本处理策略来修正对应的LSTM模型,进而生成与社交网络真实评论一致的高质量评论文本FRi(基于领域知识的文本偏差修正技术),其过程为:
[0040] 对于一个话题(事件)Ti本身搜集相对全面的先验知识,即领域知识,针对与主题无关或者相关性低的评论,以及与事实相悖的评论进行偏差修正处理,偏差修正处理包括文本替换、文本复述以及基于模板定制三种偏差修正处理,称之为基于领域知识的文本偏差修正技术;
[0041] 进一步地,文本替换算法的过程描述:
[0042] (1)给定主题词C,通过主题词C选取相应的参考数据集F;
[0043] (2)在参考数据集F里面找出所有跟主题词C相关,且主题相关性大于阈值的单词,组成一个集合P;集合P的确定方法通过词库wordNet进行,通过选取主题词的从属关系、成员关系、蕴含关系抽取出候选集,通过比较主题词C与P中的各个单词p的相似性sim和阈值k,得到最终的候选集P;
[0044] (3)在生成的初始评论集IR里面同第二步找出与C相似的名词,组成一个集合Q;对于Q中一个词,根据相关度分数,用P中的词来随机替换;
[0045] 文本复述算法的过程描述:
[0046] 对于任意句子s∈IR,对其中的word token进行词性判断,对判断出的形容词、副词、动词结构token,若词语属于同义词词库Syn,则该token记性translate和retranslate的过程,从而获得token的转述用词,通过进行余弦相似性的判断,将与原token距离最近的词进行替换,从而得到基于文本复述算法的复述文本FRpa;
[0047] 基于模板定制算法的过程描述:
[0048] 利用type()函数将FR评论集中文本对应类型进行提取,对评论集中疑问句和感叹句类型,将模板库TR中对应模板类型集合T进行抽取;通过判断句子sent的模板类型t',可以得到t'模板槽及对应词性序列,与模板t进行对应,使用translate函数进行模板槽位置的调换,实现基于模板的定制文本sent'的生成。
[0049] 本发明具有以下有益效果:
[0050] 现有的文本生成的研究已经很成熟,但是设计Twitter平台的研究还比较少,针对上一节提出的问题,本发明面向Twitter评论文本的多元性、随意性、休闲性,将评论文本按照语言模式分成不同类别,针对不同类别,有针对性地生成相应类别的文本。使用基于LSTM学习的NLG技术,通过学习获得的每个字符之间的概率关系来对句子结构的视觉语义、字符的种类以及每一个字符进行编码。对想要表达的评论信息进行了语义和句法方面的融合,并后期通过特定词替换等方法,生成与社交网络几乎一致的生动、通顺、富于变化的高质量评论文本。
[0051] 本发明主要研究的社交网络特定领域评论生成技术,为舆情引导提供有利的素材语料库,通过传播更多的真实、值得信赖的言论,为网民提供一个可靠的、积极、健康、向上的主流舆论环境,还原出正能量的网络环境。本发明可以作为素材语料库输入到现有的舆情引导的系统中,及时反制某些大量的反动言论。对净化网络环境,保障国家和人民的舆论氛围,减弱敌对势力,构建和谐社会保障国家安全稳定全面发展具有重要意义。附图说明
[0052] 图1为基于LSTM的评论文本生成模型的框图,图2为偏差修正示例的示意图,图3为增加分类与否的对比实验结果图(Fig 3Add  the results of  the comparative experiment of classification or not);图4为IR与FR文本F1值比较图(Fig 4Compare the text F1 values of IR and FR);
[0053] 图5为模型训练Twitter数据与Yelp数据的结果对比图(Fig 5The model trains Twitter data to be compared with Yelp data);
[0054] 图6为各样本值下的重复率变化图(Fig 6The variation diagram of the repetition rate under each sample value)。

具体实施方式

[0055] 结合附图对本发明整体方案的实现进行如下阐述:
[0056] 1、由于Twitter评论文本具有多元性、随意性、休闲性,针对政治、健康、教育、娱乐、科技五个领域评论的特点,同时兼顾语言的结构特性对评论文本进行分类。针对不同的类别,设计不同的LSTM模型,通过学习得到的概率结构对词语结构的视觉语义、词的种类以及个别的词语进行编码。对想要表达的评论信息进行了语义和句法方面的融合,生成不同类别的初始评论。根据不同类别的自身的特点,制定相应的文本处理策略来修正模型。生成与社交网络真实评论几乎一致的高质量评论文本。社交网络W下给定一个特定领域D,该领域包含的热点话题集合为T={T1,T2,…,Tn},选定某一话题Ti,针对话题Ti选定某一特定主贴P,爬取主贴P下的评论文本集,表示为RR={RR1,RR2,…,RRn},经过分类处理,我们筛选出不同类别的数据,将其表示为FlR={FlR1,FlR2,…,FlRn},分别输入到不同参数的LSTM模型中,生成相应类别的初始评论集,表示为IR={IR1,IR2,…,IRn}。针对不同类别的特点,分别对IRi制定不同的策略来进行偏差修正,生成最终评论集表示为FR={FR1,FR2,…,FRn},如公式(1)到(3)所示。其中i∈{1,2,3,…,n},其中c函数代表基于随机森林模型的文本分类过程,h函数代表基于LSTM的文本生成过程,zj函数代表由文本替换、文本复述、模板定制组成的偏差修正过程。
[0057] C(RR)→FlRi  (1)
[0058] h(W,D,T,P,FlRi)→IRi  (2)
[0059] zj(IRi)→FRi j∈{1,2,3}  (3)
[0060] 2、基于随机森林模型的句式结构分类
[0061] 用户对突然爆发的社会事件的参与度越来越高,从而产生大规模的评论文本。Twitter评论写作格复杂多变,辨识度低,直接将大量的文本输入机器学习模型进行文本生成,风格很难学到,并不能得到预期的良好结果。所以,本专利先将评论文本从句子的句式结构的角度进行分类,得到发言具有辨识度高的单一风格评论。首先通过爬虫创建数据集,进行分词、词性标注、句子分割等处理,由于文本的特征过多会造成特征灾难从而形成过拟合等问题,因此对文本进行了特征提取与抽取的操作,得到用于表示文本的特征向量,输入随机森林模型中,通过随机森林训练得到了文本分类的输出,最终将评论文本分为以下七类:主系表结构,比较级结构,疑问句结构,感叹句结构,主谓宾结构,主谓宾宾补结构,祈使句结构。
[0062] 特征提取是文本分类最关键的一步,所提取的特征的有用性直接影响着分类结果的好坏。在分类过程中,特征如果维度过高,会发生维度灾难,产生过拟合,噪声数据过多等现象。因此需要使用特征选择和特征抽取来进行特征降维。将选取的特征用标识符表示,下面将一一介绍这些特征。
[0063] (1)Word embedding+tf-idf特征
[0064] 通过选用CBOW模型训练而得的word embedding向量来对每一个单词进行向量化。CBOW的目标函数如公式(4)所示。对于单词wt,其单词上下文为Context(wt)={wt-b,...,wt-1,wt+1,...,wt+b}。其中,b常量用于确定单词的上下文窗口大小。模型准确性与单词的窗口大小b呈正相关。在本章的研究中,窗口大小b=4,最终向量化的单词维度确定为120。同时引入tf-idf这种特征选择方法对文本中的每一个word embedding向量进行考量,得到word embedding+tf-idf特征,命名为Wetfidf。
[0065]
[0066] (2)WfreMatrix(word frequency matrix)特征
[0067] WfreMatrix特征用来表示词频矩阵,它的行表示文章的编号,列表示文章中所有出现过的单词,矩阵中的元素为单词出现的频数。词频的统计通过sklearn提供的接口计算完成。
[0068] (3)Pos(Part of speech)特征
[0069] 英文的句式结构遵循着一定的规则,有着明显的模板,与文本中每个单词的词性有很大的关系,单词之间的相对顺序,依赖关系决定着句式的走向。评论多口语化,句式简短,多为简单句,经统计词性一共包括10种。使用NLTK工具中pos_tag_sents函数对文本进行词性标注。
[0070] (4)Key特征
[0071] Key特征用来表示关键词特征。关键词是指一些很多情况下能够代表一个分类的词。比如,比较级结构可以通过单词“than”进行基本的判断;对于感叹句结构How/What与叹号的组合,可以很好地被锁定。而主系表结构中的系动词是一个明显的标志。Key计算如公式(5)。
[0072]
[0073] (5)Index特征
[0074] Index特征用来表示单词位序的特征。对于祈使句结构,大多数是动词开头,即动词的位序是一,是一个很好的特征。对于主谓宾结构,主语、谓语、宾语的相对顺序,是一个重要的识别标准。
[0075] (6)Punc特征
[0076] Punc特征用来表示标点符号特征。标点符号的种类对不同句式来说是大不相同的,对于疑问句结构,问号的存在是一个很大的特征;叹号用来表示感叹句或者祈使句。对于文本的标点符号特征,通过对固定标点符号序列的位序进行统计来抽取punc特征。
[0077] 3、基于LSTM的评论文本自动生成
[0078] 构建基于LSTM编码-解码结构的文本生成模型,其基本结构如图1所示。给定一个Twitter评论短文本,首先对输入的文本进行编码,在解码阶段,使用LSTM一一生成的不同时刻的候选字符的概率分布,再通过一种合理的抽样技术(如贪婪抽样、随机抽样、Beam搜索等)来选择并确定下一个出现的字符,组成的字符序列构成了对输入语义项的自然语言描述。编码端与解码端均由单层LSTM组成。在编码阶段生成一个上下文向量C,此向量作为解码阶段的输入,在解码端输出最终的序列数据。如图1所示。
[0079] 4、基于领域知识的文本偏差修正
[0080] 为使生成的评论紧贴帖子主题,即具有更高的主题相关性,以及以与事实相符为原则,对于一个事件本身搜集了相对全面的先验知识,即领域知识,针对与主题无关或者相关性低的评论,以及与事实相悖的评论进行偏差修正处理,包括文本替换、文本复述以及基于模板定制三种处理,称之为基于领域知识的文本偏差修正技术。以名词性文本替换为例子进行说明,在某国家领导人大选这一热点主题下,RR1(It is a great book)此条评论明显是一条与主题无关的评论,对其进行文本替换操作,如图2所示,在初始评论中与主题无关的需要替换的词标用绿色标注,Twitter平台上的原生评论集里面用来替换的候选词用红色标注,替换完毕后的词用黄色标记。
[0081] 5、算法描述
[0082] 为使最终生成的评论与目标热点下帖子的主题具有更高的主题相关性,提出基于名词的文本替换的方法。集合P的确定方法通过wordNet进行,通过选取主题词的从属关系,成员关系,蕴含关系抽取出候选集P′,通过比较主题词C与P中的各个单词p的相似性sim和阈值k,得到最终的候选集P。在生成的初始评论集R里面同第二步找出与C相似的一些名词,组成一个集合Q。对于Q中一个词,根据相关度分数,用P中的词来随机替换。
[0083] 基于名词的文本替换算法表述如下:
[0084] 算法1:Text Replacement Method
[0085] 输入:初始评论集IR,分类评论集FiLR,主题词C,相似度阈值MINsim
[0086] 输出:最终评论集FRnoun
[0087] 第一步:在分类评论集中寻找与C接近的词集组成P集合
[0088] For t∈FilR
[0089] For n∈Nouns(t)
[0090] a)初始化集合
[0091] b)在参考数据集F里面找出所有跟主题词C相关的词
[0092] c)筛选出主题相关性大于阈值的单词,组成一个集合P
[0093] END For
[0094] END For
[0095] 第二步:在初始评论集中寻找与C接近的词集组成集合Q
[0096] For n∈Nouns(R)
[0097] 在生成的初始评论集R里找出与C相似的一些名词,组成一个集合Q
[0098] For p∈P do
[0099] 对于Q中一个词,根据相关度分数,用P中的词来随机替换
[0100] END For
[0101] END For
[0102] 复述即对同一种语义的多种表达方式。在文本生成的研究中,复述可被应用于LSTM模型生成的句子的自动改写中,可帮助生成更加流畅生动的文本。特别是在“词汇选择”这一环节,在表达一个特定语义时,可以根据不同的上下文语境灵活多变地选择所使用的词汇,丰富最终生成的语料库。文本复述算法具体表现如下:
[0103] 算法2:Text Paraphrases Method
[0104] 输入:初始评论集-IR,形容词-ADJ,副词-ADV
[0105] 输出:复述文本FRPa
[0106] For each node e in s
[0107] (1)对其中的word token进行词性判断,对判断出的形容词、副词、动词结构token[0108] (2)若词语属于同义词词库Syn,则该token标记translate和retranslate的过程[0109] (3)获取token的转述用词
[0110] (4)通过进行余弦相似性的判断,将与原token距离最近的词进行替换[0111] END For
[0112] “模板”是指从短语、句子这些自然语言中泛化而来的抽象表达。正因为模板与相应的实例相比有较强的代表性,因此被广泛使用于自然语言生成的研究工作中。一个模板由模板词(pattern words)和模板槽(pattern slots)两部分组成,其中模板词可视为模板的常量部分,模板槽则视为模板的变量部分。从大量搜集的语法规范的语料集中统计归纳出形式固定的模板,依据输入项与模板的匹配度,来决定生成的不同实例。同一个模板可以被实例化为很多种的实例,从而更加丰富语料库。基于模板定制的算法具体表述如下[0113] 算法3:Template-based Text Customization Method
[0114] 输入:分类完成的评论集FR,模板库TR
[0115] 输出:添加定制文本的评论及FRim
[0116] For sent in FR:
[0117] type()函数用于将FR评论集中文本对应类型进行提取
[0118] 将模板库TR中对应模板类型集合T进行抽取
[0119] 通过判断句子sent的模板类型t'
[0120] (4)得到t'模板槽及对应词性序列,
[0121] (5)与模板t进行对应,使用translate函数进行模板槽位置的置换
[0122] END For
[0123] 针对本发明的技术效果进行如下验证:
[0124] 使用准确率(Precision)与召回率(Recall)来对模型进行质量评估。在此种情况下,准确率则指算法检测出来的机器产生的评论条数与检测出来的所有评论条数的比率,是衡量实验结果的查准率。召回率则是算法检测出来的机器产生的评论条数与所有机器产生的评论条数的比率,衡量实验结果的查全率。准确率用来评估算法检测出来的评论有多少是机器产生的虚假评论,召回率用来评估所有机器产生的虚假评论有多少被检索出来。F1值表示准确率与召回率的调和均值,由于准确率与召回率越低意味着机器所产生的评论越难以被检测出来。因此,为了评估所生成的虚假评论的真实性,因此准确率、召回率、与F1值越低越好。
[0125] 本发明跟以往文本生成的研究不同,在文本生成之前进行了英语句式结构方面的分类的环节,为了证明添加文本分类这一环节的有效性,设置两种模式来进行对比实验,即在控制其他变量均相同的情况下,模型一为在评论文本生成实验之前不进行文本分类操作,模型二为在评论文本生成实验之前进行文本分类操作,图3中展示出了两种模式下的F1值,从结果可以看出,加入文本分类操作后的模型的F1值明显低于未事先进行分类的模型,从而说明了分类环节的不可或缺性。将各领域未经文本替换处理的IR与经文本替换处理之后的FR进行比较,如图4所示,可以发现经过文本处理以后F1值大幅降低,可见文本处理对所生成文本的性能起着巨大的改善作用。
[0126] 使用公开的实验数据集(Yelp网站上的餐馆点评集)与本研究的实验数据集(Twitter平台上的评论)作为对比,图5表示的是本模型分别学习Yelp平台和Twitter平台上的评论的准确率结果显示,从图中明显看出,两条图几乎没有差别,且准确率都偏低,从而更说明本模型有更强的跨平台适应性。
[0127] 网站上的很多评论是简单的复制成千上百条来带动舆论朝向,或者对部分复制的评论加以修改形成一条新的评论。这些评论很容易一眼看出来是团队作案,苦心经营,来带动舆论。这些大量复制的评论很容易被定义成不被信赖的评论。为此通过基于K-gram的Winnowing剽窃查重技术,将本专利的FR与数据库中Twitter平台中的部分真实评论进行比较,用两者与数据库中的真实评论进行查重检测,最终得到不同样本下的重复率,如图6所示。真实评论由于不存在剽窃抄袭的现象,而稳定在0.08左右,不会随着样本的增加或者减少而大幅波动,本研究的FR随着样本的增加重复率起初增加,样本率为0.5时重复率下降,当样本率为0.8时,低于0.08,由此可见本研究的FR重复率低于真实评论。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈