首页 / 专利库 / 电脑零配件 / 固件 / 软件 / 软件包 / 软件组件 / 规则引擎 / 面向海量非结构化文本的知识图谱自动构建方法及系统

面向海量非结构化文本的知识图谱自动构建方法及系统

阅读:397发布:2020-05-11

专利汇可以提供面向海量非结构化文本的知识图谱自动构建方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 属于计算机 软件 技术领域,公开了一种面向海量非结构化文本的知识图谱自动构建方法及系统,将 命名实体 识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;根据 训练数据 设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放 网站 、相关 知识库 或 搜索引擎 日志中抓取实体信息并进行整合。本发明能够大幅提高知识图谱的构建速度,提高时间效率,降低人 力 资源成本30%以上。同时,本发明具有较好的领域移植性,在构建知识图谱时,仅需对本发明中的实体和关系 抽取 算法 进行优化,即可迅速实现。,下面是面向海量非结构化文本的知识图谱自动构建方法及系统专利的具体信息内容。

1.一种面向海量非结构化文本的知识图谱自动构建方法,其特征在于,所述面向海量非结构化文本的知识图谱自动构建方法将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库搜索引擎日志中抓取实体信息并进行整合;
所述将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注具体包括:将命名实体识别问题视为一个序列标注问题,使用序列标注问题中通用的BIO标注集,B-PER、I-PER分别代表人名首字、人名非首字,B-LOC、I-LOC分别代表地名首字、地名非首字,B-ORG、I-ORG分别代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。
2.如权利要求1所述的面向海量非结构化文本的知识图谱自动构建方法,其特征在于,进一步包括:
(1)利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量xi∈Rd,d是embedding的维度,在输入下一层之前,设置dropout以缓解过拟合;
(2)自动提取句子特征,将一个句子的各个字的char embedding序列(x1,x2,...,xn)作为双向LSTM的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM的(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列:
(h1,h2,...,hn)∈Rn×m;
(3)将隐状态向量从m维映射到k维,k是标注集的标签数,得到自动提取的句子特征,记作矩阵=(p1,p2,...,pn)∈Rn×k;把pi∈Rk的每一维pij都视作将字xi分类到第j个标签的打分值,再对P进行Softmax,相当于对各个位置独立进行k类分类;
(4)进行句子级的序列标注,CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,在为一个位置进行标注的时候可以利用此前已经标注过的标签;一个长度等于句子长度的标签序列y=(y1,y2,...,yn),模型对于句子x的标签等于y的打分为:
score(x,y)=∑i=1nPi,yi+∑i=1n+1Ayi-1,yi;
利用Softmax得到归一化后的概率:
P(y|x)=exp(score(x,y))∑y′exp(score(x,y′));
模型在预测过程时使用动态规划的Viterbi算法来求解最优路径:
y*=argmaxy′score(x,y′)。
3.如权利要求1所述的面向海量非结构化文本的知识图谱自动构建方法,其特征在于,所述根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系进一步包括:找到具有确定关系的实体对,再去获取该实体对共同出现的语句作为正样本;负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。
4.如权利要求1所述的面向海量非结构化文本的知识图谱自动构建方法,其特征在于,所述链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合进一步包括:
(1)根据字典选择k个两两不指向同一物理对象的实体作为初始簇中心;
(2)计算图谱内各实体与簇中心之间的距离;
(3)将各实体划分到与它们距离最近的实体;
(4)比较聚类前各个簇与聚类后簇内情况,若各个簇发生变化,重复步骤(2)-步骤(4);
(5)设置阈值t,计算簇内各个实体与簇中心的距离,若距离小于阈值,将实体从簇内排除;簇内剩余实体为对齐至同一物理对象的实体,算法结束。
5.一种应用权利要求1所述面向海量非结构化文本的知识图谱自动构建方法的面向海量非结构化文本的知识图谱自动构建系统,其特征在于,所述面向海量非结构化文本的知识图谱自动构建系统包括:数据源模、知识抽取模块、知识融合模块、知识存储模块、知识图谱模块。
6.如权利要求5所述的面向海量非结构化文本的知识图谱自动构建系统,其特征在于,所述数据源模块还包括:大数据平台新闻文本单元、用户上传新闻文本单元;
所述知识抽取模块还包括:实体抽取单元、属性抽取单元、关系抽取单元、知识规则表示、抽取与发现单元;
所述知识融合模块还包括:知识更新单元、实体对齐单元、知识加工单元;
所述知识存储模块还包括:知识链接单元、RDF存储单元、关系/图数据库存储单元;
所述知识图谱模块还包括:新闻知识图谱构建单元。
7.一种实现权利要求1~4任意一项所述面向海量非结构化文本的知识图谱自动构建方法的计算机程序
8.一种实现权利要求1~4任意一项所述面向海量非结构化文本的知识图谱自动构建方法的信息数据处理终端。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-4任意一项所述的面向海量非结构化文本的知识图谱自动构建方法。

说明书全文

面向海量非结构化文本的知识图谱自动构建方法及系统

技术领域

[0001] 本发明属于计算机软件技术领域,尤其涉及一种面向海量非结构化文本的知识图谱自动构建方法及系统。

背景技术

[0002] 目前,业内常用的现有技术是这样的:知识图谱(Knowledge Graph)旨在描述客观世界的实体及其之间的关系,是图状具有关联性的知识集合,由一些相互连接的实体和他们的属性构成。2012年,谷歌公司首先推出了知识图谱,并利用其在搜索引擎中增强搜索结果,也标志着大规模知识图谱在互联网语义搜索中的成功应用。换言之,知识图谱是由海量的知识组成,每条知识用一个三元组来表示,例如:(中国,首都,北京)。目前,知识图谱大都从百科类结构化数据中抽取和构建;知识图谱可以服务不同行业和应用场景的客户,如金融、公共安全、法律、企业、出版、医疗等,每个领域都对知识图谱有巨大的需求,都需要从开放的指定领域的新闻文本提取知识实体、属性和关系等,利用实体识别、关系抽取和实体链接的智能处理技术,构建知识图谱。
[0003] 综上所述,现有技术存在的问题是:目前,面向海量非结构化文本的知识图谱自动构建方法较少,技术难度较大。现有方法主要以人工方式为主,自动化程度较低,需要繁重的人工劳动对图谱进行构造、修剪、去重、加工和对齐,整个过程专业程度高,工作量大,不易维护。
[0004] 解决上述技术问题的难度和意义:本发明提出的面向海量非结构化文本的知识图谱自动构建方法较少,能够借助知识图谱技术在互联网基础上构建起深层概念知识网络,将海量信息以更接近人类认知的形式有效组织、呈现和可视化分析。通过知识图谱计算推理预测实体之间的隐含关系,获得更丰富的信息。

发明内容

[0005] 针对现有技术存在的问题,本发明提供了一种面向海量非结构化文本的知识图谱自动构建方法及系统。
[0006] 本发明是这样实现的,一种面向海量非结构化文本的知识图谱自动构建方法,所述面向海量非结构化文本的知识图谱自动构建方法将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合。
[0007] 所述将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注具体包括:将命名实体识别问题视为一个序列标注问题,使用序列标注问题中通用的BIO标注集,B-PER、I-PER分别代表人名首字、人名非首字,B-LOC、I-LOC分别代表地名首字、地名非首字,B-ORG、I-ORG分别代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。
[0008] 进一步包括:
[0009] (1)利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量xi∈Rd,d是embedding的维度,在输入下一层之前,设置dropout以缓解过拟合;
[0010] (2)自动提取句子特征,将一个句子的各个字的char embedding序列(x1,x2......xn)作为双向LSTM的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM的(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列:
[0011] (h1,h2......hn)∈Rn×m;
[0012] (3)将隐状态向量从m维映射到k维,k是标注集的标签数,得到自动提取的句子特征,记作矩阵=(p1,p2......pn)∈Rn×k;把pi∈Rk的每一维pij都视作将字xi分类到第j个标签的打分值,再对P进行Softmax,相当于对各个位置独立进行k类分类;
[0013] (4)进行句子级的序列标注,CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,在为一个位置进行标注的时候可以利用此前已经标注过的标签;一个长度等于句子长度的标签序列y=(y1,y2......yn),模型对于句子x的标签等于y的打分为:
[0014]
[0015] 其中, 表示将yi分类到第i个标签的打分值, 表示从第yi-1个标签到第yi个标签的转移得分;
[0016] 利用Softmax得到归一化后的概率:
[0017] P(y|x)=exp(score(x,y))∑y′exp(score(x,y′));
[0018] 模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
[0019] y*=argmaxy′score(x,y′)。
[0020] 所述根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系进一步包括:找到具有确定关系的实体对,再去获取该实体对共同出现的语句作为正样本;负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。
[0021] 所述链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合进一步包括:
[0022] (1)根据字典选择k个两两不指向同一物理对象的实体作为初始簇中心;
[0023] (2)计算图谱内各实体与簇中心之间的距离;
[0024] (3)将各实体划分到与它们距离最近的实体;
[0025] (4)比较聚类前各个簇与聚类后簇内情况,若各个簇发生变化,重复步骤(2)-步骤(4);
[0026] (5)设置阈值t,计算簇内各个实体与簇中心的距离,若距离小于阈值,将实体从簇内排除。簇内剩余实体为对齐至同一物理对象的实体,算法结束。
[0027] 本发明的另一目的在于提供一种应用所述面向海量非结构化文本的知识图谱自动构建方法的面向海量非结构化文本的知识图谱自动构建系统,所述面向海量非结构化文本的知识图谱自动构建系统包括:数据源模、知识抽取模块、知识融合模块、知识存储模块、知识图谱模块。
[0028] 进一步,所述数据源模块还包括:大数据平台新闻文本单元、用户上传新闻文本单元;
[0029] 所述知识抽取模块还包括:实体抽取单元、属性抽取单元、关系抽取单元、知识规则表示、抽取与发现单元;
[0030] 所述知识融合模块还包括:知识更新单元、实体对齐单元、知识加工单元;
[0031] 所述知识存储模块还包括:知识链接单元、RDF存储单元、关系/图数据库存储单元;
[0032] 所述知识图谱模块还包括:新闻知识图谱构建单元。
[0033] 本发明的另一目的在于提供一种实现所述面向海量非结构化文本的知识图谱自动构建方法的计算机程序
[0034] 本发明的另一目的在于提供一种实现所述面向海量非结构化文本的知识图谱自动构建方法的信息数据处理终端。
[0035] 本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的面向海量非结构化文本的知识图谱自动构建方法。
[0036] 综上所述,本发明的优点及积极效果为:通过实体识别、关系抽取和实体链接方法快速、准确自动提取实体关系三元组,实现知识图谱的自动构建,支持对知识图谱的可视化查询和溯源查看能。本发明解决了知识图谱构建过程中需要繁重的人工劳动对图谱进行构造、修剪、去重、加工和对齐,整个过程专业程度高,工作量大,不易维护等问题;能够大幅提高知识图谱的构建速度,提高时间效率,降低人力资源成本30%以上。同时,本发明具有较好的领域移植性,在构建金融、法律、企业、军事和医疗等垂直领域知识图谱时,仅需对本发明中的实体和关系抽取算法进行优化,即可迅速实现。
[0037] 本发明功能主要包括数据源引接、实体抽取、关系抽取、实体对齐、实体链接、跨语言链接、RDF存储;能够从海量非结构化的互联网语料中,完成命名实体提取和识别,包括组织名、人名、地名等实体类型的抽取,并建立实体之间的关系,形成完整的新闻知识图谱平台。附图说明
[0038] 图1是本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法流程图
[0039] 图2是本发明实施例提供的面向海量非结构化文本的知识图谱自动构建系统结构示意图;
[0040] 图中:1、数据源模块;2、知识抽取模块;3、知识融合模块;4、知识存储模块;5、知识图谱模块。
[0041] 图3是本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法实现流程图。
[0042] 图4是本发明实施例提供的基于biLSTM的命名实体识别结构示意图。
[0043] 图5是本发明实施例提供的双向GRU加字级别注意力模型示意图。
[0044] 图6是本发明实施例提供的双向GRU加Dual Attention模型示意图。

具体实施方式

[0045] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0046] 本发明提供的面向非结构化的互联网文本的知识图谱自动构建方法,更加具有普适性,可以迅速构建起规模较大的知识图谱。
[0047] 下面结合附图对本发明的应用原理作详细的描述。
[0048] 如图1所示,本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法包括以下步骤:
[0049] S101:将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注;
[0050] S102:根据训练数据设计有效的特征,学习各类分类模型,使用训练好的分类器预测关系;
[0051] S103:链接多个现有知识,从顶层创建一个大规模的统一的知识网络;从三大在线百科、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合。
[0052] 如图2所示,本发明实施例提供的面向海量非结构化文本的知识图谱自动构建系统包括:数据源模块1、知识抽取模块2、知识融合模块3、知识存储模块4、知识图谱模块5。
[0053] 数据源模块1还包括:大数据平台新闻文本单元、用户上传新闻文本单元。
[0054] 知识抽取模块2还包括:实体抽取单元、属性抽取单元、关系抽取单元、知识规则表示、抽取与发现单元。
[0055] 知识融合模块3还包括:知识更新单元、实体对齐单元、知识加工单元。
[0056] 知识存储模块4还包括:知识链接单元、RDF存储单元、关系/图数据库存储单元。
[0057] 知识图谱模块5还包括:新闻知识图谱构建单元。
[0058] 下面结合附图对本发明的应用原理作进一步的描述。
[0059] 如图3所示,本发明实施例提供的面向海量非结构化文本的知识图谱自动构建方法包括以下步骤:
[0060] 步骤一,实体抽取是指识别文本中具有特定意义的命名实体,命名实体是文本中承载信息的重要语言单位,具有数量众多、构成规律复杂以及组合嵌套等特点,主要包括人名、地名、机构名、专有名词等。通常来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。本发明中将命名实体识别问题抽象为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注。同时,命名实体存在一些歧义,需要将不同的待消歧命名实体指称区分开,显示出待消歧命名实体指称的确切含义。
[0061] 本发明采用一种双向长短期记忆(Bidirectional Long Short-Term Memory,简称BiLSTM)网络与条件随机场(Conditional Random Field,简称CRF)模型相结合的方法,简称BiLSTM-CRF方法。将命名实体识别问题视为一个序列标注问题。使用序列标注问题中通用的BIO标注集,B-PER、I-PER分别代表人名首字、人名非首字,B-LOC、I-LOC分别代表地名首字、地名非首字,B-ORG、I-ORG分别代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。例如:
[0062] 阿里巴巴董事局主席到访泰国。
[0063] B-ORG I-ORG I-ORG I-ORG O O O O O B-PER I-PER O O B-LOC I-LOC O。
[0064] 模型结构如图4所示,模型第一层是embedding层,利用预训练或随机初始化的embedding矩阵将句子中的每个字xi由one-hot向量映射为低维稠密的字向量(character embedding)xi∈Rd,d是embedding的维度。在输入下一层之前,设置dropout以缓解过拟合。
[0065] 模型的第二层是BiLSTM层,自动提取句子特征。将一个句子的各个字的char embedding序列(x1,x2......xn)作为双向LSTM的输入,再将正向LSTM输出的隐状态序列(h1→,h2→,...,hn→)与反向LSTM的(h1←,h2←,...,hn←)在各个位置输出的隐状态进行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隐状态序列:
[0066] (h1,h2......hn)∈Rn×m;
[0067] 在设置dropout后,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵=(p1,p2,...,pn)∈Rn×k。可以把pi∈Rk的每一维pij都视作将字xi分类到第j个标签的打分值,如果再对P进行Softmax的话,就相当于对各个位置独立进行k类分类。但是这样对各个位置进行标注时无法利用已经标注过的信息,所以接下来将接入一个CRF层来进行标注。
[0068] 模型的第三层是CRF层,进行句子级的序列标注。CRF层的参数是一个(k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,在为一个位置进行标注的时候可以利用此前已经标注过的标签;一个长度等于句子长度的标签序列y=(y1,y2......yn),模型对于句子x的标签等于y的打分为:
[0069]
[0070] 其中, 表示将yi分类到第i个标签的打分值, 表示从第yi-1个标签到第yi个标签的转移得分;
[0071] 可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率:
[0072] P(y|x)=exp(score(x,y))∑y′exp(score(x,y′));
[0073] 模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径:
[0074] y*=argmaxy′score(x,y′);
[0075] 关系抽取从文本中识别实体并抽取实体之间的语义关系,有监督的学习方法:将关系抽取任务当做分类问题。根据训练数据设计有效的特征,从而学习各类分类模型,然后使用训练好的分类器预测关系。关系抽取主要关注实体之间的关系,实体关系可以是多元的,也可以二元的。其中最常见也最普遍的关系就是二元关系,二元关系指的是两个实体之间的关系。关系抽取是给定两个实体以及对应的上下文语料,判定其关系类别。属性抽取是给定一个实体和几种属性,通过一个由非结构化文本组成的文本集合,抽取出该实体的这几种属性的值。两种方法机制都是在于填补缺失三元组信息,即关系类别或者属性值。与实体抽取类似,关系(属性)抽取主要有基于规则的方法,基于机器学习的方法及目前相对流行的基于深度学习的方法。面向于从开放域新闻文本中实现关系(属性)抽取,本发明主要采用深度学习方法,从而综合利用提取的特征。系统平台具备从非结构化文本中抽取给定实体的属性及属性值,得到(实体,属性,属性值)三元组,同时判定实体对之间的关联关系,计算高层的语义信息,得到(实体,关系,实体)三元组,从而形成网状的知识结构。
[0076] 本发明使用卷积神经网络或者双向循环神经网络加注意力(Attention)的深度学习方法被认为是现在关系抽取较为成熟的解决方案。已有的模型大都是针对英文语料,使用词向量作为输入进行训练。但是面向于中文语料,考虑到分词的效果,准确率仍然需要大幅度提升。本发明实现用双向GRU、字与句子的双重注意力模型,以天然适配中文特性的字向量(character embedding)作为输入,网络爬取数据作为训练语料构建的中文关系抽取模型。
[0077] 如图5所示,面向于双向GRU加字级别注意力的模型,本发明对句子中的每一个中文字符输入进行字向量嵌入表示,并对每一个句子输入做训练,加入对应字级别的注意力。
[0078] 进一步,如图6所示,面向于双向GRU加句级别注意力的模型,对每一种类别的句子输入做共同训练,加入句子级别的注意力。
[0079] 步骤二,中文关系抽取的公开语料比较少。本发明基于远程监督算法,首先找到具有确定关系的实体对,然后再去获取该实体对共同出现的语句作为正样本。负样本则从实体库中随机产生没有关系的实体对,再去获取这样实体对共同出现的语句。远程监督方法基于这样的假设:任何包含已知的外部知识库中的关系涉及的两个实体的句子,都可能表达了这种关系。这里,本发明把关系中涉及的两个实体称为关系实例。远程监督需要借助于外部知识库,但是外部知识库中的关系与目标关系可能不一致,因此获取知识库有映射成目标关系的过程。此外,还需要包含句子的文本。由此可这个因素为出发点,从互联网上捜集相关文本。由于实体的描述不止一种,为了获得更多的样本应该尽量扩展实体的描述。获得比较丰富的实体描述后,由于文本数量非常大,需要建立快速而有效的索引,用来检索包含实体的句子。初步获得样本后,进行样本的过滤和采样,获得训练语料。同理,本发明可以采用类似的深度学习模型结构,利用远程监督方法收集训练语料,从而得到属性抽取器,从多个句子中判定出最有可能的实体属性值,得到(实体,属性,属性值)三元组。
[0080] 步骤三,实体对齐的目标是能够高质量链接多个现有知识,并从顶层创建一个大规模的统一的知识网络,从而帮助机器理解底层数据。实体对齐主要是从三大在线百科(维基百度互动)、开放网站、相关知识库或搜索引擎日志中抓取实体信息并进行整合的过程。
[0081] (1)实体对齐旨在发现具有不同ID但却代表真实世界中同一对象的那些实体,并将这些实体归并为一个具有全局唯一标识的实体对象添加到知识图谱中。
[0082] (2)虽然实体对齐在数据库领域被广泛研究,但面对如此多异构数据源上的Web规模的实体对齐,这还是第一次尝试。参照各大搜索引擎公司,本发明采用的方法是相似度计算和聚类。本发明采用k-均值聚类算法实现图谱内海量数据的批量对齐。算法的关键在于定义合适的相似度度量。本发明相似度度量遵循如下观察:具有相同描述的实体可能代表同一实体(字符相似);具有相同属性-值的实体可能代表相同对象(属性相似);具有相同邻居的实体可能指向同一个对象(结构相似)。
[0083] (3)算法实现
[0084] 实体对齐聚类算法步骤如下:
[0085] 1)根据字典选择k个两两不指向同一物理对象的实体作为初始簇中心;
[0086] 2)计算图谱内各实体与簇中心之间的距离;
[0087] 3)将各实体划分到与它们距离最近的实体;
[0088] 4)比较聚类前各个簇与聚类后簇内情况,若各个簇发生变化,重复步骤2)-4);
[0089] 5)设置阈值t,计算簇内各个实体与簇中心的距离,若距离小于阈值,将实体从簇内排除。簇内剩余实体为对齐至同一物理对象的实体,算法结束。
[0090] 在上述实施例中,可以全部或部分地通过软件、硬件固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
[0091] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈