首页 / 专利库 / 数学与统计 / 解析法 / 文本分析 / 一种基于建构的概念词义发展脉络的提取方法

一种基于建构的概念词义发展脉络的提取方法

阅读:0发布:2020-06-21

专利汇可以提供一种基于建构的概念词义发展脉络的提取方法专利检索,专利查询,专利分析的服务。并且本 发明 属于计算机技术领域,涉及一种基于建构的概念词义发展脉络的提取方法。本发明首先将领域知识以建构知识网络形式表征,分析知识间的具有解释性的认知语义关系,生成知识建构关系,获取知识的解释 支撑 集。然后在不同 时空 域下,挖掘知识对之间演化关系,基于建构知识网络,对不同时间域内的知识采用聚类 算法 进行演变融合,最终 抽取 出知识的演化脉络,帮助用户准确理解知识间关系,弥补知识 缺陷 。本发明所述方法能够作为领域知识系统的一个重要服务内容,智能高效地帮助用户梳理知识的演化过程,获取知识之间的关系,分析领域知识发展的关键知识 节点 ,使用户更容易发现优质知识资源。,下面是一种基于建构的概念词义发展脉络的提取方法专利的具体信息内容。

1.一种基于建构的概念词义发展脉络的提取方法,其特征在于,包括以下步骤:
第一步,领域知识抽取
1.1批量爬取不同领域的知识数据:按照不同领域的划分,爬取不同领域知识,按适当时间段先后顺序整理合成一个时空域知识文档;
1.2知识数据去噪:去除时空域知识文档内获取到的结构化/非结构化知识数据的噪声,包括符号、链接和乱码;
1.3分词:采用分词算法将经过去噪处理的时空域知识文档进行分词处理;
1.4分词结果去噪:去除分词结果中的噪声;
1.5关键词分析:运用TF-IDF算法计算关键词的权重,引入关键词出现的位置、关键词所在句子长度、关键词词向量、知识网络中关键词节点的建构渗透深度和广度,最终得出一组带有权重的候选关键词;
1.6关键词抽取:按候选关键词的权重大小给关键词排序,取权重大的top-k个关键词,表示不同时空内的关键领域知识;
1.7关键词近邻关系抽取:使用词向量工具,将关键词映射到高维空间向量,计算词向量之间余弦距离,选取与目标知识距离最近的top-n个词作为其近邻词,余弦距离作为边权重,形成初始近邻知识网络,网络节点代表知识,节点间的边权重表征为语义距离;
第二步,知识建构关系生成
在初始近邻知识网络中,定义其他知识到目标知识的联想语义支撑度来解释建构关系,基于初始近邻知识网络,引入网络节点间的随机游走思想,基于主题模型原理的扩展,定义并描述联想语义生成模型,对基于联想随机游走机制的语料文本知识有序词序列的语义生成过程进行建模,并对联想语义生成模型进行模型训练和参数估计,从而学习出概念词分布和实现建构语义关系的抽取;
第三步,建构知识网络
第一步和第二步骤实现了建构知识网络的构建,将知识的解释知识标记在建构知识网络中;
第四步,知识对演化关系挖掘
4.1分词:对文档提取的关键词导入NLPIR分词工具,作为用户自定义词典,使分词工具能够实现粒度较大的分词;对单篇文档进行分词,筛选分词结果中的用户自定义词,初步得到文档关键词序列S;
4.2合并重复词:合并序列中相邻重复出现的关键词,得到相邻关键词不重复的新序列S';
4.3统计序列S'中两两关键词对的关系,按{sij,dij,nij}的格式进行存储;
其中,sij表示该关系,dij表示关系在文档中的语义距离,nij表示关系出现的次数;
统计所有文档中出现的关系,重复出现的关系,dij值累加,nij值累加;最终得到每一对关系的平均语义距离及出现的次数;计算每一对关系的演化距离,作为知识网络边的权重;
以知识作为网络节点,以演化距离作为网络边的权重,逐年构建知识网络,并根据相邻年份重复节点自动形成时空域联合知识网络;
第五步,知识流融合聚类
时空域联合知识网络中,针对不同知识流的渗入,采用骨架聚类方法进行局部聚合,将不同时空域中的知识网络进行聚类划分,相邻节点簇以骨架节点为聚类中心构成一个知识主题;聚类系数值最小的节点是主题聚类中心骨架;节点分布在不同的知识主题中;
5.1骨架节点聚类:相邻节点簇以骨架节点为聚类中心构成一个知识主题,计算节点聚类系数,聚类系数值最小,则节点s是主题聚类中心,即骨架节点;
5.2整条骨架主题聚类:计算整条骨架的主题聚类系数,根据骨架节点聚类系数平均值来选取最优的骨架,骨架的聚类系数平均值最小,则认为该最短路径对应的骨架是一条理想演化路径;
第六步,知识演化脉络抽取
将所有的骨架节点进行连接,整合成一条完整的骨架,整条骨架全面覆盖知识网络;通过计算整条骨架的主题聚类系数,当骨架的聚类系数平均值最小,则认为该路径对应的骨架是一条理想演化路径;其中采用最短路径作为知识间的最优的演化路径,选取不同的演化起点和演化终点对应不同的最短路径,通过骨架聚类来分析不同最短路径对整个网络结构的演化重要性;使用不同时空域中知识网络之间存在重叠的知识来连接知识网络;
第七步,演化知识库:将抽取的知识演化路径作为知识的词义发展脉络进行保存,不同的知识词义发展脉络存在交叉,交织成词义发展脉络时空图。
2.如权利要求1所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的第二步具体步骤如下:
2.1联想随机游走计算:将语料文本的句子关键词映射到近邻知识网络中,句子便表征为一条网络路径,即词序列;计算词序列相邻节点间的跳转次数和跳转距离,跳转距离取最短路径的距离值;
2.2联想语义生成模型描述:
2.2.1对每篇文档d,在主题分布中抽取一个主题θd;
2.2.2对抽到的主题所对应的主题分布 中随机抽取一个单词w;
2.2.3根据参数τ的取值,主题词z由主题分布θ生成或者由2.1步结果z′生成,其中由
2.1步结果z′生成时,基于步骤2.1的跳转概率;
2.2.4重复2.2.1~2.2.3直至遍历整篇文档中的每个单词;
2.3联想语义生成模型训练和参数估计:通过与观测到的语料库文本进行最优耦合,使用吉布斯采样算法迭代训练出所有联想语义生成模型的未知的隐变量,并习得概念词分布关系,根据词分布获得主题概念与主题描述词之间的建构联想权重,从而得到知识间的建构关系,并将主题描述词在建构知识网络中加以标注;
2.3.1对指示器变量τ抽样;
2.3.2对主题z抽样;
2.3.3估算词分布
3.如权利要求1或2所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的第六步具体步骤如下:
6.1构建知识网络:根据每一年的文本语料生成该年的知识网络G,获取相邻年份知识交集 作为相邻年份演化路径的衔接知识,使得上一年演化路径的终点为下一年演化路径的起点;
6.2确立时空域演化起始点:演化第一年以当前年份知识网络G中任意节点为演化起点,以相邻年份知识网络交集 中的节点为演化终点,提取所有最短路径集合S'作为该年候选的演化路径;演化第二年开始,上一年所提取top-k条最优演化路径的演化终点VT作为下一年演化起点;演化最后一年,不存在与下一年知识网络知识交集,故演化终点即为该年知识网络中的任意节点;
6.3骨架聚类抽取演化路径:对于S'中的任何一条最短路径,以该路径上的节点作为网络的聚类中心,路径包含的节点数作为聚类数,计算每一条最短路径的聚类系数Cv,根据Cv值对S'中的所有路径进行排序,选择聚类系数最小的k条路径作为该年演化路径;完整的演化路径则将连续年份的演化路径进行连接,形成一条覆盖领域发展所有年份的演化脉络。
4.如权利要求1或2所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的步骤1.5关键词分析,步骤如下:
计算每一个关键词的权重,对文档中的第i个关键词权重Wi计算公式如下式:
其中,tfi表示文档中第i个关键词出现的词频,max tfi表示文档中重复出现最多的关键词,N表示语料库的文档总数,ni表示语料库中包含该关键词的文档数,D表示整篇文档的长度,di表示第i个关键词首次出现的位置距离文档开头的长度;
利用最大熵模型训练出一组带有不同特征权重的候选关键词,其概率公式如下:
其中, λk为不同特征函数上的影响权重;λk的求解可通过GIS
算法实现;相应的迭代求解公式为
5.如权利要求3所述的基于建构的概念词义发展脉络的提取方法,其特征在于,所述的步骤1.5关键词分析,步骤如下:
计算每一个关键词的权重,对文档中的第i个关键词权重Wi计算公式如下式:
其中,tfi表示文档中第i个关键词出现的词频,max tfi表示文档中重复出现最多的关键词,N表示语料库的文档总数,ni表示语料库中包含该关键词的文档数,D表示整篇文档的长度,di表示第i个关键词首次出现的位置距离文档开头的长度;
利用最大熵模型训练出一组带有不同特征权重的候选关键词,其概率公式如下:
其中, λk为不同特征函数上的影响权重;λk的求解可通过GIS
算法实现;相应的迭代求解公式为

说明书全文

一种基于建构的概念词义发展脉络的提取方法

技术领域

[0001] 本发明属于计算机技术领域,涉及一种基于建构的概念词义发展脉络的提取方法。

背景技术

[0002] 领域知识是一个随时间扩展的体系,那些重要的理论定律不断被引用,新颖的思想和观点不断产生,新旧知识之间始终保持动态的知识增长。在这个过程中,学科领域逐步细化,知识框架也将发生改变,但科学知识始终保持一个整体,这其中体现了知识的演化。
[0003] 知识之间存在一种建构的关系,任何新知识不可能凭空产生,必然基于现有的知识经验,可以说新知识是现有知识的演化和创新。知识演化体现了知识之间传承和发展的关系,提取知识间的这种演化关系具有十分重要的意义:一方面,科学知识的增长,知识数量的膨胀,给用户准确有效地获取所需知识带来了巨大的挑战,知识演化分析能够帮助用户有效地梳理复杂的知识关系,获悉领域研究热点及发展动向。另一方面,目前网络个性化知识服务已相当成熟,然而能体现时空上演化的知识服务却少有研究。

发明内容

[0004] 本发明旨在弥补上述知识演化脉络提取方法的不足,提供了一种基于建构的概念词义发展脉络的提取方法,通过基于建构解释关系的知识网络来抽取不同时空域内联合知识网络间的词义发展脉络。
[0005] 本发明提供的一种基于建构的概念词义发展脉络的提取方法,是从网上抓取领域知识,构建建构知识网络,抽取知识间贴合认知智能的语义关系。针对不同时空域知识,构建时空域联合知识网络,再利用骨架聚类抽取知识的词义发展演化脉络。
[0006] 本发明的技术方案如下:
[0007] 一种基于建构的概念词义发展脉络的提取方法,包括以下步骤:
[0008] 第一步,领域知识抽取:爬取不同领域知识数据,进行数据清洗,去重去噪,分词,基于tfidf、loc、wordvec等特征抽取关键知识,按适当时间段先后顺序整理合成一个时空域知识文档。使用词向量工具,将关键词映射到高维空间,计算关键词词向量之间余弦距离,利用近邻距离定义知识间语义关系,形成初始近邻知识网络,网络节点代表知识,节点间的边权重表征为语义距离。
[0009] 1.1批量爬取不同领域的知识数据:按照不同领域的划分,爬取不同领域知识,按适当时间段先后顺序整理合成一个时空域知识文档;
[0010] 1.2知识数据去噪:去除当前获取到的结构化/非结构化知识数据的噪声,包括符号、链接、乱码等;
[0011] 1.3分词:采用分词算法将经过去噪处理的时空域知识文档进行分词处理;
[0012] 1.4分词结果去噪:去除分词结果中的噪声;
[0013] 1.5关键词分析:运用TF-IDF算法计算关键词的权重,在此基础上引入关键词出现的位置、关键词所在句子长度、关键词词向量、知识网络中关键词节点的建构渗透深度和广度,最终得出一组带有权重的候选关键词。
[0014] 1.6关键词抽取:按候选关键词的权重大小给关键词排序,取权重大的top-k个关键词,表示不同时空内的关键领域知识。
[0015] 1.7关键词近邻关系抽取:使用词向量工具,将关键词映射到高维空间向量,计算词向量之间余弦距离,选取与目标知识距离最近的top-n个词作为其近邻词,余弦距离作为边权重,形成初始近邻知识网络。
[0016] 第二步,知识建构关系生成:在初始近邻知识网络中,定义其他知识到目标知识的联想语义支撑度来解释建构关系,联想语义支撑度反映了一个知识是如何被其他知识界定的。基于初始近邻知识网络,引入网络节点间的随机游走思想,基于主题模型原理的扩展,定义并描述联想语义生成模型,对基于联想随机游走机制的语料文本知识有序词序列的语义生成过程进行建模,并对联想语义生成模型进行模型训练和参数估计,从而学习出概念词分布和实现建构语义关系的抽取。
[0017] 2.1联想随机游走计算:将语料文本的句子关键词映射到近邻知识网络中,句子便表征为一条网络路径,即词序列。计算词序列相邻节点间的跳转次数和跳转距离,跳转距离取最短路径的距离值。
[0018] 2.2联想语义生成模型描述:
[0019] 2.2.1对每篇文档d,在主题分布中抽取一个主题θd;
[0020] 2.2.2对抽到的主题所对应的主题分布 中随机抽取一个单词w;
[0021] 2.2.3根据参数τ的取值,主题词z由主题分布θ生成或者由2.1步结果z′生成,其中由2.1步结果z′生成时,基于步骤2.1的跳转概率;
[0022] 2.2.4重复2.2.1~2.2.3直至遍历整篇文档中的每个单词。
[0023] 2.3联想语义生成模型训练和参数估计:通过与观测到的语料库文本进行最优耦合,使用吉布斯采样算法迭代训练出所有联想语义生成模型的未知的隐变量,并习得概念词分布关系,根据词分布获得主题概念与主题描述词之间的建构联想权重,从而得到知识间的建构关系,并将主题描述词在建构知识网络中加以标注。
[0024] 2.3.1对指示器变量τ抽样;
[0025] 2.3.2对主题z抽样;
[0026] 2.3.3估算词分布
[0027] 第三步,建构知识网络:第一步和第二步骤实现了建构知识网络的构建,将知识的解释知识标记在建构知识网络中,从中发现目标知识词义发展密切相关的其它知识,即为知识演化可能需要的知识。
[0028] 第四步,知识对演化关系挖掘:先对文档进行分词、合并重复词等预处理,基于文档中的一对关键词的语义距离和共现频率来定义建构知识网络中的两个知识的演化距离,距离越小频率越高则演化强度越大。设定语义距离阈值ε,当知识对在共现序列中位置差小于给定阈值时认为两个知识存在演化关系,否则认为没有关系。在建构知识网络中这种演化关系体现为两个节点之间的一条关联路径。以知识作为网络节点,以演化距离作为网络边的权重,逐年构建知识网络,并根据相邻年份重复节点自动形成时空域联合知识网络。
[0029] 4.1分词:提取的关键词导入NLPIR分词工具,作为用户自定义词典,使分词工具能够实现粒度较大的分词。对单篇文档进行分词,筛选分词结果中的用户自定义词,初步得到文档关键词序列S。
[0030] 4.2合并重复词:合并序列中相邻重复出现的关键词,得到相邻关键词不重复的新序列S'。
[0031] 4.3统计序列S'中两两关键词对的关系:按{sij,dij,nij}的格式进行存储;
[0032] 其中,sij表示该关系,dij表示关系在文档中的语义距离,nij表示关系出现的次数。
[0033] 统计所有文档中出现的关系,重复出现的关系,dij值累加,nij值累加。最终得到每一对关系的平均语义距离及出现的次数。计算每一对关系的演化距离,作为知识网络边的权重。
[0034] 第五步,知识流融合聚类:时空域联合知识网络中,针对不同知识流的渗入,采用骨架聚类方法进行局部聚合,将不同时空域中的知识网络进行聚类划分,相邻节点簇以骨架节点为聚类中心构成一个知识主题。聚类系数值最小的节点是主题聚类中心骨架。节点尽可能的分布在不同的知识主题中。
[0035] 5.1骨架节点聚类:相邻节点簇以骨架节点为聚类中心构成一个知识主题,计算节点聚类系数,聚类系数值最小,则节点s是主题聚类中心,即骨架节点。
[0036] 5.2整条骨架主题聚类:计算整条骨架的主题聚类系数,根据骨架节点聚类系数平均值来选取最优的骨架,骨架的聚类系数平均值最小,则认为该最短路径对应的骨架是一条理想演化路径。
[0037] 第六步,知识演化脉络抽取:将所有的骨架节点进行连接,整合成一条完整的骨架,整条骨架尽可能全面的覆盖知识网络。通过计算整条骨架的主题聚类系数,如果骨架的聚类系数平均值最小,则认为该路径对应的骨架是一条理想演化路径。其中采用最短路径作为知识间的最优的演化路径,选取不同的演化起点和演化终点对应不同的最短路径,通过骨架聚类来分析不同最短路径对整个网络结构的演化重要性。使用不同时空域中知识网络之间存在重叠的知识来连接知识网络。
[0038] 6.1构建知识网络:根据每一年的文本语料生成该年的知识网络G,获取相邻年份知识交集 作为相邻年份演化路径的衔接知识,使得上一年演化路径的终点为下一年演化路径的起点。
[0039] 6.2确立时空域演化起始点:演化第一年以当前年份知识网络G中任意节点为演化起点,以相邻年份知识网络交集 中的节点为演化终点,提取所有可能的最短路径集合S'作为该年候选的演化路径。演化第二年开始,上一年所提取top-k条最优演化路径的演化终点VT作为下一年演化起点。演化最后一年,不存在与下一年知识网络知识交集,故演化终点即为该年知识网络中的任意节点。
[0040] 6.3骨架聚类抽取演化路径:对于S'中的任何一条最短路径,以该路径上的节点作为网络的聚类中心,路径包含的节点数作为聚类数,计算每一条最短路径的聚类系数Cv,根据Cv值对S'中的所有路径进行排序,选择聚类系数最小的k条路径作为该年演化路径。完整的演化路径则将连续年份的演化路径进行连接,形成一条覆盖领域发展所有年份的演化脉络。
[0041] 第七步,演化知识库:将抽取的知识演化路径作为知识的词义发展脉络进行保存,不同的知识词义发展脉络存在交叉,交织成词义发展脉络时空图。
[0042] 本发明的效果和益处:
[0043] 本发明中所描述的方法能够作为互联网中认知智能的一个功能模,也能作为以文本为主的学习网站的核心实现方法,旨在给用户生成具有时间上连续的演化知识序列,辅助用户进行领域知识的理解与学习,对个性化知识推荐具有显著的价值意义。附图说明
[0044] 图1本发明所述方法流程图
[0045] 图2领域知识获取流程图。
[0046] 图3近邻约束生成知识网络图。
[0047] 图4联想随机游走机制图。
[0048] 图5联想语义生成模型图。
[0049] 图6演化关系抽取流程图。
[0050] 图7词义发展脉络时空图。
[0051] 图8语料分类关系图。
[0052] 图9建构关系图。

具体实施方式

[0053] 以下结合技术方案和附图详细叙述本发明的具体实施方式。
[0054] 如图1所示,一种基于建构的概念词义发展脉络的提取方法,包括如下步骤:
[0055] 领域知识抽取:爬取不同领域知识,进行数据清洗,去重去噪,分词,基于tfidf、loc、wordvec等特征抽取关键知识,按适当时间段先后顺序整理合成一个时空域知识文档。使用词向量工具,将关键词映射到高维空间,计算关键词词向量之间的余弦距离,利用近邻距离定义知识间语义关系,形成初步近邻知识网络,如图2所示,领域知识获取步骤包括:
[0056] (1)批量爬取不同领域的知识数据:利用爬虫从网络上抓取大量的语料,将语料按所属的知识领域分成几类。如图8所示,图中每一个虚线圆圈代表一个知识领域。按照不同领域的划分,按适当时间段先后顺序整理合成一个时空域知识文档;
[0057] (2)知识数据去噪:去除当前获取到的结构化/非结构化知识数据的噪声,包括符号、链接、乱码等;
[0058] (3)分词:采用Ansj分词算法将经过去噪处理的文档进行分词处理;
[0059] (4)分词结果去噪:去除分词结果中的形容词,副词,停用词等无效信息,获得一组有效的关键词(每一个有效的关键词对应一个相关知识点)
[0060] (5)关键词分析:运用TF-IDF算法计算每一个关键词的权重,对文档中的第i个关键词权重Wi计算公式如下式:
[0061]
[0062] 其中,tfi表示文档中第i个关键词出现的词频,maxtfi表示文档中重复出现最多的关键词,N表示语料库的文档总数,ni表示语料库中包含该关键词的文档数,D表示整篇文档的长度,di表示第i个关键词首次出现的位置距离文档开头的长度。
[0063] TF-IDF算法的思想包括两点:第一点,关键词出现的词频越高,其权重越大;第二点,关键词越常见,其权重越小。如果一个关键词很少在其他文档中出现,而在该文档中频繁出现,则代表这个关键词很能反映该文档的特征。
[0064] 在此基础上,本发明结合引入关键词出现的位置、关键词所在句子长度、关键词词向量、知识网络中关键词节点的建构渗透深度和广度,利用最大熵模型训练出一组带有不同特征权重的候选关键词,其概率公式如下:
[0065]
[0066] 其中, λk为不同特征函数上的影响权重,也可理解为不同特征量对关键词的驱动强度。λk的求解可通过(Generalized Iterative Scaling)GIS算法实现。相应的迭代求解公式为
[0067]
[0068] (6)关键词抽取:通过以上步骤最终获得一组带权重的关键词,通过不同特征权重调整关键词权重,按综合权重大小给关键词排序,取权重大的top-k个关键词,表示不同时空内的关键领域知识。
[0069] (7)关键词近邻关系抽取:使用词向量Word2vec工具,将关键词映射到高维空间向量,计算向量之间余弦距离,然后如图3所示,选取与目标知识距离最近的top-n个词作为其近邻词,余弦距离作为边权重,形成初始近邻知识网络。
[0070] 建构关系生成:在知识网络中,定义其他知识到目标知识的联想语义支撑度来解释建构关系,基于初始近邻知识网络,引入网络节点间的随机游走思想,定义联想语义生成模型,对基于联想随机游走机制的语料文本知识有序词序列的语义生成过程进行建模,进行模型训练和参数估计,学习出概念词分布和实现建构语义关系的抽取,其主要步骤如下:
[0071] (1)联想随机游走计算:将语料文本的句子关键词映射到近邻知识网络中,句子便表征为一条网络路径,即词序列。计算词序列相邻节点间的跳转次数和跳转距离,跳转距离取最短路径的距离值。如图4原理图所示,这里,假定有一个主题概念序列,所有细线条灰色指向箭头表示从源节点到目标节点的正向联想关系。所有粗线条实线和粗线条虚线箭头分别表示两个连续主题概念节点之间的直接跳转和间接跳转。
[0072] 其中,直接相连表示在CKN中连续两个主题概念间有直接的正向联想关系,像从Nod1跳转到Nod2,从Nod3跳转到Nod4,从Nod4跳转到Nod5。间接相连表示连续两个主题概念可以通过一些中间节点建立一条游走路径,就像从Nod2到Nod3,还有从Nod5到Nod6。这里,从Nod2回溯至Nod1便是反向向联想关系。
[0073] (2)定义联想语义生成模型,原理图如图5所示:
[0074] a.对每篇文档d而言,该模型可以生成一个在一些先验主题上的分布,这些主题分布服从θ~Dir(α);
[0075] b.对文档d中第n个有序文档词语wd,n而言,根据相应的主题概念分布 wd,n由它的主题概念zd,l←n生成;
[0076]
[0077] c.如果τ=0,zd,l由相应文档主题分布θd生成,如果τ=1,zd,l由其前一步结果zd,l-1生成。
[0078]
[0079] p(zl|θ)=Mult(θl)
[0080]
[0081] 其中,J是归一化因子。Hop(zl,zl-1)表示在CKN中从zl-1到zl的最佳游走路径的跳转次数。
[0082] d.重复上述过程直至遍历整篇文档中的每个单词;
[0083] (3)联想语义生成模型训练和参数估计:通过与观测到的语料库文本进行最优耦合,使用吉布斯采样算法迭代训练出所有联想语义生成模型的未知的隐变量,并习得概念词分布关系,根据词分布获得主题概念与主题描述词之间的建构联想权重,从而得到知识间的建构关系,并将主题描述词在建构知识网络中加以标注。
[0084] a.对指示器变量{τd,n}抽样。
[0085]
[0086] b.根据下面概率公式对潜在的主题概念分配{zd,n}进行抽样。
[0087]
[0088]
[0089] c.使用下面和标准LDA一样的公式估算词分布
[0090]
[0091] 是概念词t在主题k中出现次数。在指示器变量τ=j的情况下,Cd,j表示文档d中的概念词的全部词频。Nd,k是主题k的所有概念词的词频,即分配给节点k的词数。需要补充说明的是,先初始化变量zd,n决定尔科夫链的初始状态,接着进行迭代马尔科夫链,每次迭代都由指定公式的分布进行抽样得到zd,n,在得到每个概念词的主题赋值z之后,就能够估计主题的多项式分布和每个文档的主题分布。
[0092] 建构知识网络:以上2个步骤实现了建构知识网络的构建,在此基础上将知识的解释知识标记在建构知识网络中并加以存储,以便从中发现目标知识词义发展密切相关的其它知识,即为知识演化可能需要的知识。步骤如下:
[0093] (1)标记不同领域习得的建构知识和建构关系:如图8所示,蓝色的虚线代表建构解释关系分层,从图中可以看出外层的知识是从内层的知识建构生成的。图中每一个黑色的小圆圈都表示一个知识点,小圆圈之间的连线表示知识点之间存在的建构关系。
[0094] (2)存储习得的建构关系:如图9所示,将每一个知识领域的关键词以树形结构的形式展现。不同的关键词覆盖的知识面范围不同。根结点(第一层)的关键词覆盖了整个知识领域的知识面;由根结点继承的子结点(第二层)的关键词,其作为父节点的建构解释词语,将该知识领域概念具象成几个知识块;同理,从不同的知识块继承的子结点(关键词)将每一个知识块划分成一系列更详细的知识点(第三层);依次按层往下细分,直到知识点不能再细分,由此得到一个有层级方向的能表示某一知识领域的树形结构的关键词组。
[0095] 知识对演化关系挖掘:基于文档中的一对关键词的语义距离和共现频率来定义建构知识网络中的两个知识的演化距离,距离越小频率越高则演化强度越大。设定语义距离阈值ε,当知识对在共现序列中位置差小于给定阈值时认为两个知识存在演化关系,其步骤如图6所示:
[0096] (1)分词:提取的关键词导入NLPIR分词工具,作为用户自定义词典,使分词工具能够实现粒度较大的分词。对单篇文档进行分词,筛选分词结果中的用户自定义词,初步得到文档关键词序列S。
[0097] (2)合并重复词:合并序列中相邻重复出现的关键词,得到相邻关键词不重复的新序列S'。
[0098] (3)统计序列S'中两两关键词对的关系:按{sij,dij,nij}的格式进行存储,sij表示该关系,dij表示关系在文档中的语义距离,nij表示关系出现的次数。进一步,统计所有文档中出现的关系,重复出现的关系,dij值累加,nij值累加。最终得到每一对关系的平均语义距离及出现的次数。计算每一对关系的演化距离,作为知识网络边的权重。语义距离和演化距离计算公式分别为:
[0099]
[0100]
[0101] 知识流融合聚类:时空域联合知识网络中,针对不同知识流的渗入,采用骨架聚类方法进行局部聚合,将不同时空域中的知识网络进行聚类划分,相邻节点簇以骨架节点为聚类中心构成一个知识主题。聚类系数值最小的节点是主题聚类中心骨架。节点尽可能的分布在不同的知识主题中,其步骤如下。
[0102] (1)骨架节点聚类:相邻节点簇以骨架节点为聚类中心构成一个知识主题,计算节点聚类系数,聚类系数值最小,则节点s是主题聚类中心,即骨架节点。
[0103] (2)整条骨架主题聚类:计算整条骨架的主题聚类系数,根据骨架节点聚类系数平均值来选取最优的骨架,骨架的聚类系数平均值最小,则认为该最短路径对应的骨架是一条理想演化路径。
[0104] 知识演化脉络抽取:将所有的骨架节点进行连接,整合成一条完整的骨架,通过计算整条骨架的主题聚类系数,聚类系数平均值最小的骨架则为一条理想演化路径。其中采用最短路径作为知识间的最优的演化路径,使用不同时空域中知识网络之间存在重叠的知识来连接知识网络,步骤如下:
[0105] (1)构建知识网络:根据每一年的文本语料生成该年的知识网络G,获取相邻年份知识交集 作为相邻年份演化路径的衔接知识,使得上一年演化路径的终点为下一年演化路径的起点。
[0106] (2)确立时空域演化起始点:演化第一年以当前年份知识网络G中任意节点为演化起点,以相邻年份知识网络交集 中的节点为演化终点,提取所有可能的最短路径集合S'作为该年候选的演化路径。演化第二年开始,上一年所提取top-k条最优演化路径的演化终点VT作为下一年演化起点。演化最后一年,不存在与下一年知识网络知识交集,故演化终点即为该年知识网络中的任意节点。
[0107] (3)骨架聚类抽取演化路径:对于S'中的任何一条最短路径,以该路径上的节点作为网络的聚类中心,路径包含的节点数作为聚类数,计算每一条最短路径的聚类系数Cv,根据Cv值对S'中的所有路径进行排序,选择聚类系数最小的k条路径作为该年演化路径。完整的演化路径则将连续年份的演化路径进行连接,形成一条覆盖领域发展所有年份的演化脉络。其中节点的聚类系数和整条骨架的主题聚类系数计算公式分别如下:
[0108]
[0109]
[0110] 演化知识库:如图7所示,将抽取的知识演化路径作为知识的词义发展脉络进行保存,不同的知识词义发展脉络或交叉或重叠,交织成词义发展脉络时空图。
[0111] 本发明提出一种基于建构的概念词义发展脉络的提取方法,从不同时空域的领域知识中,通过建构联想关系抽取确立建构知识网络,利用骨架聚类发现不同时空域的知识网络间知识的演化路径,最终生成知识词义发展脉络时空图,为用户生成具有时间上连续的演化知识序列,对个性化知识服务的改进具有一定的价值现。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈