首页 / 专利库 / 电脑编程 / 别名 / 一种基于知识驱动的查询的实体链接方法

一种基于知识驱动的查询的实体链接方法

阅读:585发布:2020-05-13

专利汇可以提供一种基于知识驱动的查询的实体链接方法专利检索,专利查询,专利分析的服务。并且本 发明 属于实体链接的技术领域,具体涉及一种基于知识驱动的查询的实体链接方法,包括如下步骤,步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地 知识库 进行信息扩展;步骤三、采用推理链接 算法 ,对所述实体指称项进行链接处理。本发明能够解决用户查询语句的语境缺乏和描述不规范等问题,并降低对本地知识库的依赖性,还准确实现候选实体的产生和判别,从而提高实体链接的性能。,下面是一种基于知识驱动的查询的实体链接方法专利的具体信息内容。

1.一种基于知识驱动的查询的实体链接方法,其特征在于,包括如下步骤:
步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;
步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;
步骤三、采用推理链接算法,对所述实体指称项进行链接处理。
2.如权利要求1所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤三中,所述推理链接算法包括:产生候选实体;对所述候选实体进行排序;预测空链接指称项。
3.如权利要求1所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤三中,所述推理链接算法包括:
通过实体的名称相似度、类别一致性、语境相似度及所述实体之间的语义相关性确定所述实体指称项的目标链接实体。
4.如权利要求3所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤三中,所述推理链接算法包括:
从所述实体指称项的语境信息中获取所述实体指称项;
获取所述实体指称项的目标链接实体,然后根据所述本地知识库中实体之间的关联结构,获取所述目标链接实体的关联实体;
综合利用名称、语境相似度及类别一致性,度量所述实体指称项和所述关联实体之间的相关性。
5.如权利要求4所述的一种基于知识驱动的查询的实体链接方法,其特征在于,度量所述实体指称项和所述关联实体之间的相关性,包括:
若总体相似度分数超过阈值,则所述关联实体为所述目标链接实体,否则,所述实体指称项为空链接实体指称项。
6.如权利要求1所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤一中,识别所述实体指称项,包括:
使用HanLP自然语言处理工具,对输入文本d进行分词、词性标注和依存关系解析,获取一个带有词性标签和依存关系标签的词语集合 其中,wi代表所述词
语,pi代表所述词性标签,di代表所述依存关系标签。
7.如权利要求1所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤二中,所述增量证据挖掘包括:
利用实体名称、上下文和流行度,将所述实体指称项和所述本地知识库中所述实体,与所述外部知识源词条关联。
8.如权利要求7所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤二中,还包括:
若所述实体指称项没有关联外部知识源词条,则将所述用户查询语句放入搜索引擎中,然后,从搜索结果的标题和摘要中获取名词性词语作为所述实体指称项的语境。
9.如权利要求1所述的一种基于知识驱动的查询的实体链接方法,其特征在于,所述步骤二中,对所述实体指称项和所述本地知识库进行信息扩展,包括
通过外部知识源,对所述实体指称项的别名、类别、语境进行扩展;
获取实体别名、丰富类别、扩展描述信息,对所述本地知识库进行优化。

说明书全文

一种基于知识驱动的查询的实体链接方法

技术领域

[0001] 本发明属于实体链接的技术领域,具体涉及一种基于知识驱动的查询的实体链接方法。

背景技术

[0002] 随着web应用程序中对话界面越来越流行,交互越来越类似于自然语言对话,使得自然语言理解变成了一个关键问题。深层次的语义理解对于通过自然语言在普适计算设备中提高信息交换的精度,上下文和个性化是十分必要的。对于用户查询数据进行实体消歧研究,有助于准确理解用户真正的搜索意图,为实现语义搜索打下基础。此外,用户查询数据中包含类别丰富的实体指称项,为知识图谱的构建和更新提供强大的实体支撑
[0003] 然而,和新闻、博客等文本数据相比,用户查询语句的构建者是广大群众,由于学识、习惯等问题,质量参差不齐。用户查询语句书写随意,容易出现词序颠倒、拼写错误、多种语言融合、名称变形等多种问题。此外,由于搜索引擎对查询的字数限制,导致查询语句描述简洁,缺乏语境信息。这些特点使得适用于长文本的实体链接方法无法直接应用到用户查询语句中。实体链接系统中必不可少的一个模是搜索知识库中实体,为实体指称项产生候选实体列表,采用的方法主要是名称匹配,然而名称不规范问题会降低实体指称项和知识库中实体的名称相似度,从而导致遗漏真正的目标链接实体。此外,候选实体排序模块需要利用语境信息来度量实体指称项和候选实体的相关性,而用户查询的语境缺乏问题,会降低实体指称项与目标链接实体的语境相似度,从而无法实现对候选实体的精准判别。比如,给定一条用户查询语句“大衣哥最新视频”,其中实体指称项“大衣哥”指代的真实世界中的实体是农民歌手“朱之文”,很明显它们的名称完全不同,且查询语句中没有提供有效的辨别信息,仅根据该条用户查询语句,无法完成“大衣哥”和“朱之文”之间的链接。
[0004] 发明人发现现有的面向用户查询的实体链接方法存在以下缺陷:用户查询语句的语境缺乏和存在描述不规范等问题。

发明内容

[0005] 本发明的目的在于:针对现有技术的不足,提供一种基于知识驱动的查询的实体链接方法,能够解决用户查询语句的语境缺乏和描述不规范等问题,并降低对本地知识库的依赖性,还准确实现候选实体的产生和判别,从而提高实体链接的性能。
[0006] 为了实现上述目的,本发明采用如下技术方案:
[0007] 一种基于知识驱动的查询的实体链接方法,包括如下步骤:
[0008] 步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;
[0009] 步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;
[0010] 步骤三、采用推理链接算法,对所述实体指称项进行链接处理。
[0011] 需要说明的是,本发明的实体链接方法中,首先,基于句法分析制定启发式方法,识别用户查询语句中的命名性实体指称项,这样融入了少量的深层和浅层的句法知识,减缓了分词错误造成的影响,有助于提高实体指称项识别的准确性和完整性;其次,针对用户查询语句语境缺乏、实体指称项描述不规范,以及本地知识库实体知识不完善等问题,基于增量证据挖掘的思想,借助百度搜索和百度百科等外部知识源,对实体指称项和本地知识库进行信息扩展,有助于更准确地产生和判别候选实体;最后,通过推理链接算法,该算法通过综合考虑并逐步利用实体多方面的知识,实现了不以牺牲计算成本为代价来提高实体链接性能的目标。
[0012] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤三中,所述推理链接算法包括:产生候选实体;对所述候选实体进行排序;预测空链接指称项。
[0013] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤三中,所述推理链接算法包括:
[0014] 通过实体的名称相似度、类别一致性、语境相似度及所述实体之间的语义相关性确定所述实体指称项的目标链接实体。
[0015] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤三中,所述推理链接算法包括:
[0016] 从所述实体指称项的语境信息中获取所述实体指称项;
[0017] 获取所述实体指称项的目标链接实体,然后根据所述本地知识库中实体之间的关联结构,获取所述目标链接实体的关联实体;
[0018] 综合利用名称、语境相似度及类别一致性,度量所述实体指称项和所述关联实体之间的相关性。
[0019] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,度量所述实体指称项和所述关联实体之间的相关性,包括:
[0020] 若总体相似度分数超过阈值,则所述关联实体为所述目标链接实体,否则,所述实体指称项为空链接实体指称项。
[0021] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤一中,识别所述实体指称项,包括:
[0022] 使用HanLP自然语言处理工具,对输入文本d进行分词、词性标注和依存关系解析,获取一个带有词性标签和依存关系标签的词语集合 其中,wi代表所述词语,pi代表所述词性标签,di代表所述依存关系标签。
[0023] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤二中,所述增量证据挖掘包括:
[0024] 利用实体名称、上下文和流行度,将所述实体指称项和所述本地知识库中所述实体,与所述外部知识源词条关联。
[0025] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤二中,还包括:
[0026] 若所述实体指称项没有关联外部知识源词条,则将所述用户查询语句放入搜索引擎中,然后,从搜索结果的标题和摘要中获取名词性词语作为所述实体指称项的语境。
[0027] 作为本发明所述的一种基于知识驱动的查询的实体链接方法的一种改进,所述步骤二中,对所述实体指称项和所述本地知识库进行信息扩展,包括
[0028] 通过外部知识源,对所述实体指称项的别名、类别、语境进行扩展;
[0029] 获取实体别名、丰富类别、扩展描述信息,对所述本地知识库进行优化。
[0030] 本发明的有益效果在于,本发明包括如下步骤,步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;步骤二、基于增量证据挖掘,通过外部知识源,对所述实体指称项和本地知识库进行信息扩展;步骤三、采用推理链接算法,对所述实体指称项进行链接处理。本发明的实体链接方法中,首先,基于句法分析制定启发式方法,识别用户查询语句中的命名性实体指称项,这样融入了少量的深层和浅层的句法知识,减缓了分词错误造成的影响,有助于提高实体指称项识别的准确性和完整性;其次,针对用户查询语句语境缺乏、实体指称项描述不规范,以及本地知识库实体知识不完善等问题,基于增量证据挖掘的思想,借助百度搜索和百度百科等外部知识源,对实体指称项和本地知识库进行信息扩展,有助于更准确地产生和判别候选实体;最后,通过推理链接算法,该算法通过综合考虑并逐步利用实体多方面的知识,实现了不以牺牲计算成本为代价来提高实体链接性能的目标。本发明能够解决用户查询语句的语境缺乏和描述不规范等问题,并降低对本地知识库的依赖性,还准确实现候选实体的产生和判别,从而提高实体链接的性能。附图说明
[0031] 图1为本发明中用户查询实体链接示意图。
[0032] 图2为本发明中用户查询语句依存解析示意图。

具体实施方式

[0033] 如在说明书权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内,本领域技术人员能够在一定误差范围内解决技术问题,基本达到技术效果。
[0034] 在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0035] 在发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0036] 以下结合附图1~2对本发明作进一步详细说明,但不作为对本发明的限定。
[0037] 一种基于知识驱动的查询的实体链接方法,包括如下步骤:
[0038] 步骤一、基于句法分析,识别用户查询语句中的命名性实体指称项;
[0039] 步骤二、基于增量证据挖掘,通过外部知识源,对实体指称项和本地知识库进行信息扩展;
[0040] 步骤三、采用推理链接算法,对实体指称项进行链接处理。
[0041] 需要说明的是,本发明的实体链接方法中,首先,基于句法分析制定启发式方法,识别用户查询语句中的命名性实体指称项,这样融入了少量的深层和浅层的句法知识,减缓了分词错误造成的影响,有助于提高实体指称项识别的准确性和完整性;其次,针对用户查询语句语境缺乏、实体指称项描述不规范,以及本地知识库实体知识不完善等问题,基于增量证据挖掘的思想,借助百度搜索和百度百科等外部知识源,对实体指称项和本地知识库进行信息扩展,有助于更准确地产生和判别候选实体;最后,通过推理链接算法,该算法通过综合考虑并逐步利用实体多方面的知识,实现了不以牺牲计算成本为代价来提高实体链接性能的目标。
[0042] 优选的,步骤三中,推理链接算法包括:产生候选实体;对候选实体进行排序;预测空链接指称项。
[0043] 优选的,步骤三中,推理链接算法包括:产生候选实体;对候选实体进行排序;预测空链接指称项。推理链接算法,综合考虑并逐步利用实体的名称相似度、类别一致性、语境相似度,以及实体之间的语义相关性来明确实体指称项的目标链接实体,根据实体链接的处理流程,将推理链接算法分割为产生候选实体、对候选实体进行排序、预测空链接指称项三个部分。
[0044] 优选的,步骤三中,推理链接算法包括:
[0045] 通过实体的名称相似度、类别一致性、语境相似度及实体之间的语义相关性确定实体指称项的目标链接实体。
[0046] 需要说明的是:给定实体指称项mi∈M,和本地知识库中的实体ej∈E,通过度量mi和ej的相关性,来产生mi的候选实体列表Ci。为了提高候选实体列表中包含目标链接实体的概率,以及控制列表规模,采用了名称模糊匹配和类别一致性约束,将名称相似度超过阈值,且类别与mi一致的ej作为候选实体。其中,名称相似度采用公式进行计算,有助于处理简称、缩写、词序颠倒等变形的名称,提高和目标链接实体匹配成功的概率。类别一致性约束用于去除类别不同的候选实体,来缩减候选列表的规模,降低后续计算的噪音,并提高处理效率。通过以上计算,如果候选实体列表只包含一个候选实体,则认为其为mi的目标链接实体,若候选实体列表为空,则认为mi为空链接指称项。
[0047] 优选的,步骤三中,推理链接算法包括:
[0048] 从实体指称项的语境信息中获取实体指称项;
[0049] 获取实体指称项的目标链接实体,然后根据本地知识库中实体之间的关联结构,获取目标链接实体的关联实体;
[0050] 综合利用名称、语境相似度及类别一致性,度量实体指称项和关联实体之间的相关性。
[0051] 优选的,度量实体指称项和关联实体之间的相关性,包括:
[0052] 若总体相似度分数超过阈值,则关联实体为目标链接实体,否则,实体指称项为空链接实体指称项。
[0053] 需要说明的是:规模大于1的候选实体列表C,通过度量实体指称项mi和其候选实体eij的相关性分数,选择分数最高的eij作为链接目标实体。为了降低计算开销,采用了一种逐步使用名称相似度和语境相似度的度量策略,其中名称相似度采用公式若与eij的名称相似度最大且超过阈值ω,则认为eij为目标链接
实体,如果以上条件不满足,则采用公式 计算mi和eij之间的语境相似度,若
相似度分数超过阈值,则认为eij为目标链接实体,若存在mi不满足以上两个条件,则认为它是空链接指称项。
[0054] 然而仅根据名称和语境相似度,以及类别一致性判定mi为空链接指称项,太片面化了,由于实体名称多样性,类别描述文本不相似,以及语境缺乏等问题,以上策略无法处理名称和语境不相似但指向同一实体的指称项,为了提高实体链接的准确性和召回率,基于“同现实体具有关联关系”的思想,使用实体之间的语义相关性,对输出的空链接实体指称项集合F进行进一步链接处理,处理流程如下:首先,从mi的语境信息中获取实体指称项tij,其次,获取tij的目标链接实体eij,然后,根据本地知识库中实体之间的关联结构,获取eij的关联实体ek,最后,综合利用名称和语境相似度,以及类别一致性,度量mi和ek之间的相关性,若总体相似度分数超过阈值,则认为ek为目标链接实体,否则mi为空链接实体指称项,其中c表示mi和ek的类别相似度,是一个常量,若两者的类别描述一致,则c=0.1,否则c=0,c的取值是在不影响名称和语境度量标准的情况下设置的。
[0055] 优选的,步骤一中,识别实体指称项,包括:
[0056] 使用HanLP自然语言处理工具,对输入文本d进行分词、词性标注和依存关系解析,获取一个带有词性标签和依存关系标签的词语集合 其中,wi代表词语,pi代表词性标签,di代表依存关系标签。
[0057] 需要说明的是:然后,基于“实体指称项是名词词语”的假设,我们利用句子成分之间的依存关系和词性等信息,制定如下识别方法。
[0058] (1)实体指称项必须是名词词语,且必须包含一个或多个专有名词词语,即pi=n*。其中,n*为专有名词的词性统称,表示词性标签以n开始,而不以n结束,比如ns。
[0059] (2)若实体指称项包含普通名词词语,即pi=n,其与专有名词词语之间必须存在“定中关系”的依存关系,且两者之间不能存在“的”等助词。
[0060] 通过限定实体指称项的识别范围,来提高名词词语是实体指称项的概率,缓解了分词错误将一个实体指称项分割为多个部分的影响,并降低了将多个实体指称项识别为一个实体指称项的概率,给定输入语句“2014年NBA总决赛的冠军是?”,词性标注和依存关系解析结果如图2所示。根据我们制定的识别方法,获取的实体指称项为“2014年NBA总决赛”、“NBA”和“冠军”。
[0061] 优选的,步骤二中,增量证据挖掘包括:
[0062] 利用实体名称、上下文和流行度,将实体指称项和本地知识库中实体,与外部知识源词条关联。
[0063] 优选的,步骤二中,还包括:
[0064] 若实体指称项没有关联外部知识源词条,则将用户查询语句放入搜索引擎中,然后,从搜索结果的标题和摘要中获取名词性词语作为实体指称项的语境。
[0065] 优选的,步骤二中,对实体指称项和本地知识库进行信息扩展,包括
[0066] 通过外部知识源,对实体指称项的别名、类别、语境进行扩展;
[0067] 获取实体别名、丰富类别、扩展描述信息,对本地知识库进行优化。
[0068] 需要说明的是:为了解决用户查询语句中语境缺乏、实体名称不规范等问题,本发明基于增量证据挖掘的思想,借助百度搜索引擎和百度百科等外部知识源,对实体指称项的别名、类别、语境等信息进行扩展。此外,考虑到本地知识库存在很多噪音,比如实体名称不准确,以及部分实体描述信息缺乏等问题。为了提高实体链接的准确性,本发明借助百度百科对本地知识库进行优化,包括获取实体别名、丰富类别、扩展描述信息等。为了正确将实体指称项m和本地知识库中实体e,与百度百科词条t正确关联,我们综合利用实体名称、上下文和流行度等知识,计算方法如公式P(a,b)=pn(a,b)+α(pc(a,b)+pp(b))所示。其中,符号a表示实体指称项m和本地知识库中实体e,符号b表示百度百科词条t。为了处理名称不规范的实体指称项,包括缩写、简称、词序颠倒等形式,以及实体指称项识别方法不完善导致名称不完整或融入其他词语等问题,对于名称相似度pn(a,b),通过计算两个名称字符串之间最多公共字符数的概率来缓解以上问题带来的影响,如公式 所示,其中,MCC函数用于计算两个字符串之间最多公共字符数,min函数表示取最小值,Len函数表示计算字符串的长度。若pn(a,b)大于相似度阈值ω.,则认为m与t相关联。加入语境相似度pc(a,b)和实体流行度pp(b),是为了处理百度百科中一词多义的词条。比如,人名“胡歌”对应三个真实世界中的对象,一是中国内地男演员;二是岑参诗作;三是二胡民乐。α是一个判别因子,若百科词条存在同义词,则α=1,否则α=0。为了降低计算开销,语境相似度pc(a,b),通过度量两个语境词语集合|A|和|B|之间相似的词语个数来实现,如公式
所示,实体流行度pp(b)度量,采用“访问越频繁,词条的流行度就越高”的思
想,采用了百度百科中对于一个词条t的访问次数v。由于v是一个很大的正整数,而pc(a,b)是一个小于1的小数,为了不影响语境相似度的度量,我们将其进行转化,如公式
所示。其中,|v|表示访问次数的位数。比如给定某一词条的访问次数v=
54896,则|v|=5,词条t的流行度pp(b)=0.554896。
[0069] 采用以上方法获取百科词条后,我们从词条的描述页面获取名称和别名、类别标签、以及从正文中获取名词词语作为语境信息。因为相比其他词性的词语来说,名词词语的描述能更强,更具有说明性。一方面降低了后续处理中的计算开销,另一方面去除了语境相似度计算过程中的噪音信息。
[0070] 根据上述说明书的揭示和教导,本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此,本发明并不局限于上述的具体实施方式,凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈