首页 / 专利库 / 人工智能 / 深层模型 / 基于遗传算法的网络文本分割方法

基于遗传算法的网络文本分割方法

阅读:335发布:2021-06-18

专利汇可以提供基于遗传算法的网络文本分割方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于遗传 算法 的网络文本分割方法,用于对网络短篇幅文本的分割,所述方法利用Gibbs 采样 方法估计语料库对应的潜在狄利克雷分配(Latent Dirichlet allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行 遗传算法 ,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传 迭代 ,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,提高了网络短篇幅文本分割准确率。,下面是基于遗传算法的网络文本分割方法专利的具体信息内容。

1.一种基于遗传算法的网络文本分割方法,其特征在于包括以下步骤:
(a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库;
(b)采用层次聚类方法对扩展语料库进行聚类,确定的子主题的数目,采用Gibbs方法估计语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100;
(c)对待分割文本进行分词、词性标注命名实体识别、词义消歧的文本预处理,统计文本中名词、动词的频率,选择高频词汇作为文本的特征词汇;再根据HowNet,计算文本的特征词汇与扩展语料库的特征词汇之间的相似度,选取相似度最大值对应的语料库为文本分割的外部语料库;最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割单元中的概率;词汇所属子主题的类型用于待分割文本的表示,以句子为单位统计每个词汇所属的子主题类型,句子表示为子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sjj表示句子j中词汇属于子主题j的频率;
(d)利用并行遗传算法进行文本分割,算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体;根据公式
计算语义段落内的凝聚性;式中, ,|bn|表示第n个语义段落中包含的句
子数,an表示语义段落对应的平均向量,ant是该向量的第t个分量;
根据公式
计算语义段落间的发散性;式中,
根据语义段落内的凝聚性和语义段落间发散性计算遗传迭代中每个个体的适应度函数值,计算公式如下:
式中,Pt表示扩展种群,用于存储迭代中的最优解;
种群选择过程中,首先采用精英保留策略,保留种群及扩展种群中的精英个体,直接进入下一代进化;然后采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适应度值,选择适应度小的个体进行交叉和变异操作;
交叉过程采用单点交叉方法,为了防止近亲繁殖,当个体间汉明距离超过阈值时,才允许在种群和扩展种群之间进行交叉操作,阈值通常设置为个体间平均汉明距离的20%;根据种群的相似度自适应调节变异算子;种群的相似度计算公式如下:
当相似度超过阈值且持续50轮,则结束迭代过程,选取扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。

说明书全文

基于遗传算法的网络文本分割方法

技术领域

[0001] 本发明涉及一种网络文本分割方法,特别是基于遗传算法的网络文本分割方法,适用于对网络短篇幅文本的分割。

背景技术

[0002] 网络文本分割技术是网络舆情监控、网络文本情感分析的重要技术手段,有助于发现网络文本中深层次语义信息。
[0003] 文献“基于多元判别分析的文本分割模型,软件学报,2007,18(3),P 555-564”公开了一种利用词频信息进行文本分割的方法。该方法采用多元判别分析方法,利用词频信息以向量空间模型表示文本,考虑分割单元内部距离、分割单元间距离、分割单元长度等3个因素定义了4个全局评价函数,实现对文本分割模式的全局评价。但是,针对网络文本中的短篇幅文本,由于文本中存在数据稀疏现象,无法提供足够的词频信息;同时,由于词频信息是浅层语义信息,仅依据词频计算分割单元之间的相似度,影响相似度计算的准确性,进而影响文本分割结果的准确性。

发明内容

[0004] 针对现有技术方法网络短篇幅文本分割准确率较低的缺陷,本发明提出一种基于遗传算法的网络文本分割方法,利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LatentDirichlet allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,可以提高网络短篇幅文本分割准确率。
[0005] 本发明的技术方案是:一种基于遗传算法的网络文本分割方法,其特点是包括以下步骤:
[0006] (a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库;
[0007] (b)采用层次聚类方法对扩展语料库进行聚类,确定的子主题的数目,采用Gibbs方法估计语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100;
[0008] (c)对待分割文本进行分词、词性标注命名实体识别、词义消歧的文本预处理,统计文本中名词、动词的频率,选择高频词汇作为文本的特征词汇;再根据HowNet,计算文本的特征词汇与扩展语料库的特征词汇之间的相似度,选取相似度最大值对应的语料库为文本分割的外部语料库;最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割单元中的概率;词汇所属子主题的类型用于待分割文本的表示,以句子为单位统计每个词汇所属的子主题类型,句子表示为子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sjj表示句子j中词汇属于子主题j的频率;
[0009] (d)利用并行遗传算法进行文本分割,算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体;根据公式
[0010]
[0011] 计算语义段落内的凝聚性;式中, |bn|表示第n个语义段落中包含的句子数,an表示语义段落对应的平均向量,ant是该向量的第t个分量;
[0012] 根据公式
[0013]
[0014] 计算语义段落间的发散性;式中,
[0015] 根据语义段落内的凝聚性和语义段落间发散性计算遗传迭代中每个个体的适应度函数值,计算公式如下:
[0016]
[0017] 式中,Pt表示扩展种群,用于存储迭代中的最优解;
[0018] 种群选择过程中,首先采用精英保留策略,保留种群及扩展种群中的精英个体,直接进入下一代进化;然后采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适应度值,选择适应度小的个体进行交叉和变异操作;
[0019] 交叉过程采用单点交叉方法,为了防止近亲繁殖,当个体间汉明距离超过阈值时,才允许在种群和扩展种群之间进行交叉操作,阈值通常设置为个体间平均汉明距离的20%;根据种群的相似度自适应调节变异算子;种群的相似度计算公式如下:
[0020]
[0021] 当相似度超过阈值且持续50轮,则结束迭代过程,选取扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。
[0022] 本发明的有益效果是:由于利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(Latent Dirichlet allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,提高了网络短篇幅文本分割准确率。
[0023] 文本分割的准确率通常由正确率和召回率来衡量,背景技术除采用以上衡量属性,还利用Pμ值作为衡量标准,通过在上述环境中对50个待分割文本进行测试,本发明涉及方法在3个衡量属性上都优于背景技术,尤其在Pμ值方面高出15%。
[0024] 下面结合附图实施例对本发明作详细说明。

附图说明

[0025] 附图是本发明基于遗传算法的网络文本分割方法流程图

具体实施方式

[0026] 参照附图,本实施例针对主题为“北京奥运”的目标文本,语言使用规范,文本篇幅较短,文本分割的具体步骤如下:
[0027] 第一步,设置网络蜘蛛的搜索主题为与奥运相关的词汇,利用网络蜘蛛在网络上收集网页。奥运主题词汇的确定包括以下三步,1)人工确定能够代表搜索主题的文本多篇,通常为10~20篇;2)统计文中名词、动词的词频,选取词频高的词汇作为待定主题词汇集,词频阈值设置为30;3)从待定主题词汇集中,人工选取10~15个词汇作为主题词汇。
[0028] 网页都是HTML文档,需要对收集的网页进行文本预处理,提取文本信息时需要对HTML标示符进行过滤;除了标题和正文外,网页中还包含许多链接,这些链接和文本正文不相关,在提取网页内容的时候,也需要过滤这些无用的链接。
[0029] 采用朴素贝叶斯的文本二元分类方法,对去除噪声后的文本进行分类,按照分类结果去除与主题不相关的网页,构建主题语料库,特征选取可采用信息增益IG、互信息MI等的特征选取方法。主题语料库最少包含1000篇文本。
[0030] 第二步,采用Gibbs采样方法估计语料库的LDA模型。Gibbs采样迭代过程依据以下公式进行:
[0031]*
[0032] 其中, 表示wi对应词汇被分配给主题j的次数,n-ij表示被分配给主题j的总词汇数, 表示文本di中被分配给主题j的词汇数, 表示文本di中的词汇总数,以上信息均都可从文本中统计获得,统计过程不考虑当前词项wi。
[0033] Gibbs抽样的过程包括三步:
[0034] 1)迭代初始,zi被赋值为1到T任意值;
[0035] 2)根据公式,分别计算wi被分配给主题1到T的概率,取最大值更新词汇wi的主题分配状态,得到markov链的下一个状态;
[0036] 3)根据前后markov链的相似度和burn-in间距判断迭代是否结束,相似度超过阈值或达到burn-in间距时则迭代结束。
[0037] Gibbs采样中,采用层次聚类方法确定子主题的数目,其他参数采用经验值α=0.01,β=0.01,burn-in间距以及thinning间距分别取值为2000和100,迭代过程采用GibbsLDA++工具;
[0038] 第三步,对待分割文本进行分词、词性标注、命名实体识别、词义消歧等文本预处理,统计文本中名词、动词的频率,选择高频词汇作为文本的特征词汇。根据HowNet,利用义元间上下文关系计算文本的特征词汇与各个语料库的特征词汇之间的相似度,由于待分割文本与步骤一生成的“北京奥运”扩展语料库相似度最大,因此选取该语料库为文本分割的外部语料库。
[0039] 采用Gibbs采样方法以及步骤二估计的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型。语言结构信息推断过程依然使用第二步中的公式,其中,di在第三步中表示句子i,即词汇统计以句子为单位。
[0040] 统计句子中每个词汇所属的子主题类型,构造子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sij表示句子j中词汇属于子主题j的频率。
[0041] 第四步,利用并行遗传算法进行文本分割。算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体,段落最小长度不少于3,段落数不少于5。根据公式[0042]
[0043] 计算语义段落内的凝聚性。式中, |bn|表示第n个语义段落中包含的句子数,an表示语义段落对应的平均向量,ant是该向量的第t个分量。
[0044] 根据公式
[0045]
[0046] 计算语义段落间的发散性。式中,
[0047] 根据语义段落内的凝聚性和语义段落间发散性计算遗传算法的适应度函数值,计算公式如下:
[0048]
[0049] 种群选择过程中,首先采用精英保留策略,分别选取种群和扩展种群中自适应函数值最小的个体作为精英,精英个体直接进入下一代进化。其次,采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适应度,选择适应度小的个体进行交叉和变异操作。
[0050] 采用单点交叉完成交叉过程,为了防止近亲繁殖,参与交叉的个体必须属于不同的种群,并且只有当个体间汉明距离超过阈值时,才允许在二者之间进行交叉操作,阈值通常设置为个体间平均汉明距离的20%。
[0051] 根据种群的相似度自适应的调整变异算子,种群的相似度计算公式如下:
[0052]
[0053] 其中, xi、xj表示种群中的两个个体。种群变异考虑变异结果是否满足分割结果的要求,分割结果要求与种群初始化过滤要求相同,若不满足,则生成新的个体替换变异后个体。
[0054] 根据公式 计算不同迭代轮次扩展种群中最优个体的相似度,当相似度超过阈值且持续50轮,则迭代结束。选取扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。
[0055] 文本分割的准确率通常由正确率和召回率来衡量,背景技术除采用以上衡量属性,还利用Pμ值作为衡量标准,通过在上述环境中对50个待分割文本进行测试,本发明涉及方法在3个衡量属性上都优于背景技术,尤其在Pμ值方面高出15%。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈