首页 / 专利库 / 人工智能 / 因果图 / 一种本体构建方法及装置

一种本体构建方法及装置

阅读:140发布:2020-05-16

专利汇可以提供一种本体构建方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供了一种本体构建方法,该方法包括:获取待处理文本数据;从所述待处理文本数据中 抽取 实体数据和事件数据;基于所述待处理文本数据,预测所述实体数据之间的实体关系;对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。,下面是一种本体构建方法及装置专利的具体信息内容。

1.一种本体构建方法,其特征在于,所述方法包括:
获取待处理文本数据;
从所述待处理文本数据中抽取实体数据和事件数据;
基于所述待处理文本数据,预测所述实体数据之间的实体关系;
对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。
2.根据权利要求1所述的方法,其特征在于,所述从所述待处理文本数据中抽取实体数据,包括:
针对所述待处理文本数据中的每个词语,通过对该词语进行语料标注,确定该词语的词性;
筛选出词性为名词、且具有语义信息的词语,作为待处理词语;
从所述待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据;
根据预设的实体抽取规则,对所述候选实体数据进行抽取,得到实体数据。
3.根据权利要求2所述的方法,其特征在于,所述针对每个词语,通过对该词语进行语料标注,确定该词语的词性,包括:
针对每个词语,从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重;根据所述转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性。
4.根据权利要求1所述的方法,其特征在于,所述从所述待处理文本数据中抽取事件数据,包括:
从所述待处理文本数据中识别出候选事件数据;其中,所述候选事件数据包括以下一项或多项:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件;
根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。
5.根据权利要求1所述的方法,其特征在于,所述基于所述待处理文本数据,预测所述实体数据之间的实体关系,包括:
利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分;
根据所标注的每个词语的句法成分,利用预先训练得到的语义色标注模型,预测所述每个词语的语义角色;
根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析所述实体数据之间的实体关系。
6.根据权利要求5所述的方法,其特征在于,采用如下步骤,训练得到所述句法结构模型:
获取第一样本数据;
将所述第一样本数据输入预设的第一训练模型,得到的输出结果中包括所述第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵;
判断输出结果是否满足预设条件,如果不满足,对所述预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,得到所述句法结构模型;
所述利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分,包括:
将所述待处理文本数据输入所述句法结构模型,得到每个词语的初始概率向量、转移矩阵和状态矩阵;
根据每个词语的初始概率向量、转移矩阵和状态矩阵,标注每个词语在所述待处理文本数据中的句法成分。
7.根据权利要求5所述的方法,其特征在于,在根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色之前,所述方法还包括:
消除所标注的每个词语的句法成分在所述待处理文本数据中的歧义,得到每个词语的校正句法成分;
所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:
根据所述每个实体数据的校正句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色。
8.根据权利要求5所述的方法,其特征在于,所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:
将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率;将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色。
9.根据权利要求5所述的方法,其特征在于,采用如下步骤,训练得到所述语义角色标注模型:
获取第二样本数据;
对所获取的第二样本数据进行分析处理;其中,所述分析处理包括以下一项或多项:分词处理、词性标注处理和句法分析处理;
根据预设的删除规则,删除经过分析处理的第二样本数据中不会作为语义角色的数据,得到训练数据
利用所述训练数据,对预设的第二训练模型进行训练,得到语义角色标注模型。
10.根据权利要求1所述的方法,其特征在于,所述对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:
对所述事件数据进行语义分析,基于分析结果,构建事件发生序列;
基于所述事件发生序列,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络;其中,所述事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。
11.根据权利要求10所述的方法,其特征在于,所述对所述事件数据进行语义分析,基于分析结果,构建事件发生序列,包括:
针对每个事件数据,对该事件数据进行语义指代消解,确定该事件数据的语义;
根据每个事件数据的语义,确定每个事件数据的发生顺序,根据所述发生顺序,构建事件发生序列。
12.根据权利要求10所述的方法,其特征在于,所述基于所述事件发生序列,确定各个事件数据之间的语义关系,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:
根据所述事件发生序列,构建有向无环图;
基于所述有向无环图,计算得到各个事件数据之间的事件转移概率;
根据所述各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络。
13.根据权利要1所述的方法,其特征在于,所述方法还包括:
利用预先设定的评价规则,对所述本体进行评价,得到评价结果;
根据所述评价结果,判断所述本体是否满足预设期望条件;
若满足所述期望条件,则对所述本体进行展示。
14.根据权利要求1所述的方法,其特征在于,所述得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体,包括:
获取本体模板;
将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述本体模板中,得到本体。
15.根据权利要求14所述的方法,其特征在于,在所述将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至原始本体模板中,得到本体之后,所述方法还包括:
对所述本体模板进行更新,得到新的本体模板;
将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述新的本体模板中,得到新的本体。
16.一种本体构建装置,其特征在于,所述装置包括:
数据获取装置,用于获取待处理文本数据;
信息抽取模,用于从所述待处理文本数据中抽取实体数据和事件数据;
实体关系抽取模块,用于基于所述待处理文本数据,预测所述实体数据之间的实体关系;
事件关系抽取模块,用于对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。
17.根据权利要求16所述的装置,其特征在于,所述信息抽取模块,具体用于:
针对所述待处理文本数据中的每个词语,通过对该词语进行语料标注,确定该词语的词性;
筛选出词性为名词、且具有语义信息的词语,作为待处理词语;
从所述待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据;
根据预设的实体抽取规则,对所述候选实体数据进行抽取,得到实体数据。
18.根据权利要求17所述的装置,其特征在于,所述信息抽取模块,具体用于:
针对每个词语,从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重;根据所述转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性。
19.根据权利要求16所述的装置,其特征在于,所述信息抽取模块,具体用于:
从所述待处理文本数据中识别出候选事件数据;其中,所述候选事件数据包括以下一项或多项:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件;
根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。
20.根据权利要求16所述的装置,其特征在于,所述实体关系抽取模块,具体用于:
利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分;
根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色;
根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析所述实体数据之间的实体关系。
21.根据权利要求20所述的装置,其特征在于,采用如下步骤,训练得到所述句法结构模型:
获取第一样本数据;
将所述第一样本数据输入预设的第一训练模型,得到的输出结果中包括所述第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵;
判断输出结果是否满足预设条件,如果不满足,对所述预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,得到所述句法结构模型;
所述实体关系抽取模块,具体用于:
将所述待处理文本数据输入所述句法结构模型,得到每个词语的初始概率向量、转移矩阵和状态矩阵;根据每个词语的初始概率向量、转移矩阵和状态矩阵,标注每个词语在所述待处理文本数据中的句法成分。
22.根据权利要求20所述的装置,其特征在于,所述实体关系抽取模块,还用于:
消除所标注的每个词语的句法成分在所述待处理文本数据中的歧义,得到每个词语的校正句法成分;
所述实体关系抽取模块,具体用于:
根据所述每个实体数据的校正句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色。
23.根据权利要求20所述的装置,其特征在于,所述实体关系抽取模块,具体用于:
将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率;将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色。
24.根据权利要求20所述的装置,其特征在于,采用如下步骤,训练得到所述语义角色标注模型:
获取第二样本数据;
对所获取的第二样本数据进行分析处理;其中,所述分析处理包括以下一项或多项:分词处理、词性标注处理和句法分析处理;
根据预设的删除规则,删除经过分析处理的第二样本数据中不会作为语义角色的数据,得到训练数据;
利用所述训练数据,对预设的第二训练模型进行训练,得到语义角色标注模型。
25.根据权利要求16所述的装置,其特征在于,所述事件关系抽取模块,具体用于:
对所述事件数据进行语义分析,基于分析结果,构建事件发生序列;
基于所述事件发生序列,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络;其中,所述事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。
26.根据权利要求25所述的装置,其特征在于,所述事件关系抽取模块,具体用于:
针对每个事件数据,对该事件数据进行语义指代消解,确定该事件数据的语义;
根据每个事件数据的语义,确定每个事件数据的发生顺序,根据所述发生顺序,构建事件发生序列。
27.根据权利要求25所述的装置,其特征在于,所述事件关系抽取模块,具体用于:
根据所述事件发生序列,构建有向无环图;
基于所述有向无环图,计算得到各个事件数据之间的事件转移概率;
根据所述各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络。
28.根据权利要16所述的装置,其特征在于,所述装置还包括:
本体评价模块,用于利用预先设定的评价规则,对所述本体进行评价,得到评价结果;
根据所述评价结果,判断所述本体是否满足预设期望条件;若满足所述期望条件,则对所述本体进行展示。
29.根据权利要求16所述的装置,其特征在于,所述装置还包括:
模板映射模块,用于获取本体模板;将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述本体模板中,得到本体。
30.根据权利要求29所述的装置,其特征在于,所述模板映射模块,还用于:
对所述本体模板进行更新,得到新的本体模板;
将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述新的本体模板中,得到新的本体。
31.一种电子设备,其特征在于,包括处理器、通信接口存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序
处理器,用于执行存储器上所存放的程序时,实现权利要求1~15任一所述的方法步骤。

说明书全文

一种本体构建方法及装置

技术领域

[0001] 本发明涉及计算机应用技术领域,特别是涉及一种本体构建方法及装置。

背景技术

[0002] 在数据处理领域中,为了把现实世界中的具体事物抽象并组织为某一数据库支持的数据模型,通常需要把现实世界中的客观对象抽象为某一种信息结构,这种信息结构并不依赖于具体的计算机系统,不是某一个数据库支持的数据模型,而是概念级的模型,称为概念模型。被用户之间共同认可的概念模型则被称为共享概念模型。
[0003] 本体是共享概念模型的明确形式化规范说明,简单来说,本体是对某些概念模型的一种精确的数学描述,而这种描述可以作为用户之间的共识,从而为用户提供更智能化的知识图谱。
[0004] 本体中可以包括实体、事件和关系,其中,实体是指一些具备公认意义的概念,比如人名、地名等;事件通常包括事件参与对象、发生时间、发生手段、发生地点等;关系是指实体与实体之间的关联,比如说人与人之间的雇佣关系。
[0005] 现有方案构建的本体包括实体、事件、实体与实体之间的关系。

发明内容

[0006] 本发明实施例的目的在于提供一种本体构建方法,使得构建得到的本体更加完善。具体技术方案如下:
[0007] 本发明实施例提供了一种本体构建方法,所述方法包括:
[0008] 获取待处理文本数据;
[0009] 从所述待处理文本数据中抽取实体数据和事件数据;
[0010] 基于所述待处理文本数据,预测所述实体数据之间的实体关系;
[0011] 对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。
[0012] 可选的,所述从所述待处理文本数据中抽取实体数据,包括:
[0013] 针对所述待处理文本数据中的每个词语,通过对该词语进行语料标注,确定该词语的词性;
[0014] 筛选出词性为名词、且具有语义信息的词语,作为待处理词语;
[0015] 从所述待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据;
[0016] 根据预设的实体抽取规则,对所述候选实体数据进行抽取,得到实体数据。
[0017] 可选的,所述针对每个词语,通过对该词语进行语料标注,确定该词语的词性,包括:
[0018] 针对每个词语,从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重;根据所述转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性。
[0019] 可选的,所述从所述待处理文本数据中抽取事件数据,包括:
[0020] 从所述待处理文本数据中识别出候选事件数据;其中,所述候选事件数据包括以下一项或多项:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件;
[0021] 根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。
[0022] 可选的,所述基于所述待处理文本数据,预测所述实体数据之间的实体关系,包括:
[0023] 利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分;
[0024] 根据所标注的每个词语的句法成分,利用预先训练得到的语义色标注模型,预测所述每个词语的语义角色;
[0025] 根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析所述实体数据之间的实体关系。
[0026] 可选的,采用如下步骤,训练得到所述句法结构模型:
[0027] 获取第一样本数据;
[0028] 将所述第一样本数据输入预设的第一训练模型,得到的输出结果中包括所述第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵;
[0029] 判断输出结果是否满足预设条件,如果不满足,对所述预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,得到所述句法结构模型;
[0030] 所述利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分,包括:
[0031] 将所述待处理文本数据输入所述句法结构模型,得到每个词语的初始概率向量、转移矩阵和状态矩阵;
[0032] 根据每个词语的初始概率向量、转移矩阵和状态矩阵,标注每个词语在所述待处理文本数据中的句法成分。
[0033] 可选的,在根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色之前,所述方法还包括:
[0034] 消除所标注的每个词语的句法成分在所述待处理文本数据中的歧义,得到每个词语的校正句法成分;
[0035] 所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:
[0036] 根据所述每个实体数据的校正句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色。
[0037] 可选的,所述根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色,包括:
[0038] 将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率;将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色。
[0039] 可选的,采用如下步骤,训练得到所述语义角色标注模型:
[0040] 获取第二样本数据;
[0041] 对所获取的第二样本数据进行分析处理;其中,所述分析处理包括以下一项或多项:分词处理、词性标注处理和句法分析处理;
[0042] 根据预设的删除规则,删除经过分析处理的第二样本数据中不会作为语义角色的数据,得到训练数据
[0043] 利用所述训练数据,对预设的第二训练模型进行训练,得到语义角色标注模型。
[0044] 可选的,所述对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:
[0045] 对所述事件数据进行语义分析,基于分析结果,构建事件发生序列;
[0046] 基于所述事件发生序列,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络;其中,所述事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。
[0047] 可选的,所述对所述事件数据进行语义分析,基于分析结果,构建事件发生序列,包括:
[0048] 针对每个事件数据,对该事件数据进行语义指代消解,确定该事件数据的语义;
[0049] 根据每个事件数据的语义,确定每个事件数据的发生顺序,根据所述发生顺序,构建事件发生序列。
[0050] 可选的,所述基于所述事件发生序列,确定各个事件数据之间的语义关系,生成由所述事件数据之间的事件关系组成的事件体系网络,包括:
[0051] 根据所述事件发生序列,构建有向无环图;
[0052] 基于所述有向无环图,计算得到各个事件数据之间的事件转移概率;
[0053] 根据所述各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络。
[0054] 可选的,所述方法还包括:
[0055] 利用预先设定的评价规则,对所述本体进行评价,得到评价结果;
[0056] 根据所述评价结果,判断所述本体是否满足预设期望条件;
[0057] 若满足所述期望条件,则对所述本体进行展示。
[0058] 可选的,所述得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体,包括:
[0059] 获取本体模板;
[0060] 将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述本体模板中,得到本体。
[0061] 可选的,在所述将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至原始本体模板中,得到本体之后,所述方法还包括:
[0062] 对所述本体模板进行更新,得到新的本体模板;
[0063] 将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述新的本体模板中,得到新的本体。
[0064] 本发明实施例还提供了一种本体构建装置,所述装置包括:
[0065] 数据获取装置,用于获取待处理文本数据;
[0066] 信息抽取模,用于从所述待处理文本数据中抽取实体数据和事件数据;
[0067] 实体关系抽取模块,用于基于所述待处理文本数据,预测所述实体数据之间的实体关系;
[0068] 事件关系抽取模块,用于对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。
[0069] 可选的,所述信息抽取模块,具体用于:
[0070] 针对所述待处理文本数据中的每个词语,通过对该词语进行语料标注,确定该词语的词性;
[0071] 筛选出词性为名词、且具有语义信息的词语,作为待处理词语;
[0072] 从所述待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据;
[0073] 根据预设的实体抽取规则,对所述候选实体数据进行抽取,得到实体数据。
[0074] 可选的,所述信息抽取模块,具体用于:
[0075] 针对每个词语,从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重;根据所述转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性。
[0076] 可选的,所述信息抽取模块,具体用于:
[0077] 从所述待处理文本数据中识别出候选事件数据;其中,所述候选事件数据包括以下一项或多项:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件;
[0078] 根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。
[0079] 可选的,所述实体关系抽取模块,具体用于:
[0080] 利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分;
[0081] 根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色;
[0082] 根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析所述实体数据之间的实体关系。
[0083] 可选的,采用如下步骤,训练得到所述句法结构模型:
[0084] 获取第一样本数据;
[0085] 将所述第一样本数据输入预设的第一训练模型,得到的输出结果中包括所述第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵;
[0086] 判断输出结果是否满足预设条件,如果不满足,对所述预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,得到所述句法结构模型;
[0087] 所述实体关系抽取模块,具体用于:
[0088] 将所述待处理文本数据输入所述句法结构模型,得到每个词语的初始概率向量、转移矩阵和状态矩阵;根据每个词语的初始概率向量、转移矩阵和状态矩阵,标注每个词语在所述待处理文本数据中的句法成分。
[0089] 可选的,所述实体关系抽取模块,还用于:
[0090] 消除所标注的每个词语的句法成分在所述待处理文本数据中的歧义,得到每个词语的校正句法成分;
[0091] 所述实体关系抽取模块,具体用于:
[0092] 根据所述每个实体数据的校正句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色。
[0093] 可选的,所述实体关系抽取模块,具体用于:
[0094] 将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率;将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色。
[0095] 可选的,采用如下步骤,训练得到所述语义角色标注模型:
[0096] 获取第二样本数据;
[0097] 对所获取的第二样本数据进行分析处理;其中,所述分析处理包括以下一项或多项:分词处理、词性标注处理和句法分析处理;
[0098] 根据预设的删除规则,删除经过分析处理的第二样本数据中不会作为语义角色的数据,得到训练数据;
[0099] 利用所述训练数据,对预设的第二训练模型进行训练,得到语义角色标注模型。
[0100] 可选的,所述事件关系抽取模块,具体用于:
[0101] 对所述事件数据进行语义分析,基于分析结果,构建事件发生序列;
[0102] 基于所述事件发生序列,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络;其中,所述事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。
[0103] 可选的,所述事件关系抽取模块,具体用于:
[0104] 针对每个事件数据,对该事件数据进行语义指代消解,确定该事件数据的语义;
[0105] 根据每个事件数据的语义,确定每个事件数据的发生顺序,根据所述发生顺序,构建事件发生序列。
[0106] 可选的,所述事件关系抽取模块,具体用于:
[0107] 根据所述事件发生序列,构建有向无环图;
[0108] 基于所述有向无环图,计算得到各个事件数据之间的事件转移概率;
[0109] 根据所述各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络。
[0110] 可选的,所述装置还包括:
[0111] 本体评价模块,用于利用预先设定的评价规则,对所述本体进行评价,得到评价结果;根据所述评价结果,判断所述本体是否满足预设期望条件;若满足所述期望条件,则对所述本体进行展示。
[0112] 可选的,所述装置还包括:
[0113] 模板映射模块,用于获取本体模板;将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述本体模板中,得到本体。
[0114] 可选的,所述模板映射模块,还用于:
[0115] 对所述本体模板进行更新,得到新的本体模板;
[0116] 将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述新的本体模板中,得到新的本体。
[0117] 本发明实施例还提供了一种电子设备,包括处理器、通信接口存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
[0118] 存储器,用于存放计算机程序
[0119] 处理器,用于执行存储器上所存放的程序时,实现上述任一所述的本体构建方法。
[0120] 本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的本体构建方法。
[0121] 本发明实施例提供的本体构建方法及装置,通过从待处理文本数据中抽取实体数据和事件数据,预测所获取的实体数据之间的实体关系,以及对所获取的事件数据进行语义分析,基于分析结果,生成由事件数据之间的事件关系组成的事件体系网络,得到包括实体数据、事件数据、实体关系及事件体系网络的本体。可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明
[0122] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0123] 图1为本发明实施例提供的一种本体构建方法的流程示意图;
[0124] 图2为本发明实施例提供的一种本体构建方法的另一种流程示意图;
[0125] 图3为本发明实施例提供的一种本体构建装置的结构示意图;
[0126] 图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

[0127] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0128] 现有技术中,构建的本体中包括:实体、事件、实体与实体之间的关系。其中,实体是指一些具备公认意义的概念,比如人名、地名等;事件通常包括事件参与对象、发生时间、发生手段、发生地点等;实体与实体之间的关系是指实体与实体之间的关联,比如说人与人之间的雇佣关系等。
[0129] 相比于现有技术,本发明实施例提供了一种本体构建方法,计算机、服务器或其他电子设备可以利用该方法构建得到本体。
[0130] 利用该方法构建的本体中,除了实体数据、事件数据、实体与实体之间的关系,还包括事件体系网络,其中,事件体系网络可以体现事件之间的关系,例如,事件A与事件B之间可能为因果关系,或者说,因为事件A的发生,才可能导致事件B的发生。
[0131] 下面从总体上对本发明实施例提供的本体构建方法进行说明。
[0132] 获取待处理文本数据;
[0133] 从所述待处理文本数据中抽取实体数据和事件数据;
[0134] 基于所述待处理文本数据,预测所述实体数据之间的实体关系;
[0135] 对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。
[0136] 由以上可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。
[0137] 下面将通过具体的实施例,对本发明实施例提供的本体构建方法进行详细描述。
[0138] 如图1所示,为本发明实施例提供的一种本体构建方法的流程示意图,包括如下步骤:
[0139] S101:获取待处理文本数据。
[0140] 有时,用户需要对某一领域内的各种信息进行组织概括或对某一领域内的某种信息进行查询,例如,在人际交往领域,用户可能需要了解人与人之间的关系网络,或者需要了解与某人有交往的人群。领域内的各种信息通常来源于大量的原始文本数据,如果借助人工处理大量的方式来处理这些原始文本数据,会耗费大量的时间和精
[0141] 在这种情况下,可以构建该领域的本体,通过该领域的本体,可以方便的实现对该领域内各种信息的组织和分析,同时能为用户提供信息查询等功能。
[0142] 在构建本体时,可以先获取待处理文本数据,其中,待处理文本数据是一些经过分词处理后的文本数据,在待处理文本数据中,包括大量的词语。在本发明实施例中,可以直接获取待处理文本数据,也可以先获取原始文本数据,通过对所获取的原始文本数据进行预处理、分词处理等自然语言处理方法,从而得到待处理文本数据,本发明实施例对此不做限定。
[0143] 在一种实现方式中,可以通过如下方式获取待处理文本数据:
[0144] 首先,获取原始文本数据,原始文本数据中包括搜索到的各种平面文件中的数据、利用网络爬虫技术采集到的各种网络数据以及用户提供的数据等等。然后,可以对这些原始文本数据进行清洗和融合,剔除其中包含的大量垃圾数据,对筛选出的有用的数据进行整合,对各个渠道得到的原始文本数据进行规范化处理,消除不同格式的异构数据文件之间的差异,将原始文本数据转化为可处理的结构化数据或非结构化文本数据,得到数据资产池。
[0145] 进而,可以对数据资产池中的文本数据进行分词处理,识别出这些文本数据中的词语,也就得到了待处理文本数据。其中,对数据资产池中的文本数据进行分词处理,识别出这些文本数据中的词语的过程,可以采用最短路算法
[0146] 对所获取的原始文本数据进行切分处理,将原始文本数据切分为多个词串数据,根据词串数据之间的关联关系,构建词串数据之间的关联图。然后,利用预设的词频概率算法,对关联图进行计算,得到词串数据的每个关联词的词频概率。针对每个词串数据,根据该词串数据的每个关联词的词频概率,消除在对原始文本数据进行切分时产生的歧义,例如,假设原始文本数据为“我的确切地址在这里”,对该原始文本数据进行切分时,可能会切分为“我\的确\切\地址\在\这里”,切分过程中产生了歧义,因此需要进行歧义消除,从而更准确的识别出原始文本数据中的词语。
[0147] 或者,也可以采用n元语法模型方法、最大匹配算法、交叉歧义算法等方式,本发明实施例对此不作限定。
[0148] S102:从待处理文本数据中抽取实体数据和事件数据。
[0149] 获取到待处理文本数据之后,进一步的,可以对待处理文本数据进行实体抽取和事件抽取,从待处理文本数据中获取实体数据和事件数据。其中,对待处理文本数据进行实体抽取和事件抽取可以同时进行,也可以按照一定的顺序先后进行,本发明实施例对此不作限定。
[0150] 在本发明实施例中,实体数据是指一些具备公认意义的概念,比如人名、地名等,事件数据则是指一个具有多种事件要素的事情。
[0151] 举例而言,如果要构建一个人际关系领域的本体,那么,在该本体中,实体数据可以为某个人,例如“张三”、“李四”等,也可以为某个地点,例如“北京市”、“某某酒店”等,同时,每个实体数据还有其对应的属性,例如“张三”的性别、年龄等,或者“北京市”的面积、时区等;事件数据可以为人与人之间发生的事情,例如“张三在九月十三号攻击李四”,在该事件数据中包括以下几种事件要素:主体对象“张三”、客体对象“李四”、事件手段“攻击”以及事件时间“九月十三号”,事件数据也可以为人与地点之间发生的事情,例如“张三在九月十三号入住了某某酒店”,在该事件数据中包括以下几种事件要素:主体对象“张三”、客体对象“某某酒店”、事件手段“入住”以及事件时间“九月十三号”。
[0152] 具体的,在一种实现方式中,可以通过如下方式从待处理文本数据中抽取实体数据:
[0153] 首先,对待处理文本数据中的每个词语进行语料标注,确定每个词语的词性,其中,每个词语的词性可以为名词、动词、形容词等等。具体的,在进行语料标注时,可以先针对每个词语,利用条件随机场模型从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重,然后根据转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性,通常,第一概率条件是指概率最大。
[0154] 其中,词语的转移概率是指在待处理文本数据中,每个词语的下一个词语为不同词性所对应的的概率,例如,假设当前词语为动词,那么,就可以计算下一个词语为名词的概率为x1,为动词的概率为x2,等等。状态概率是第i个位置标记为某个词性的概率,例如,每个句子的第一个词语为名词的概率为y1,每个句子的第二个词语为动词的概率为y2,等等。权重主要体现该词语为不同词性所对应的的概率,例如,当前词语为名词的概率为m1,为动词的概率为m2,等等。利用维特比算法,可以通过每个词语的转移概率、状态概率和特征权重,计算该词语为不同词性的概率。
[0155] 然后,筛选出词性为名词的词语,识别这些词语的语义信息,比如,可以识别出“张三”是人名,“北京市”是地名,而“非常”没有语义信息,等等,其中,识别出的具有语义信息的词语,就可以作为待处理词语。
[0156] 进一步的,可以从待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据,其中,预设词典是指自然语言处理技术中预置的默认词典,在预设词典中包括的词语,都可以认为是已知的词语,而不能作为候选实体数据。
[0157] 最后,可以根据预设的实体抽取规则,对候选实体数据进行抽取,得到实体数据,这一过程也就是建立实体的各个属性与实体之间的对应关系的过程。其中,实体抽取规则可以根据用户的需求自行设定,例如,如果要构建一个关于人际关系的本体,那么,在该本体中,可以只要“人”这一类实体,而不要“地点”这一类实体;或者,可以对实体的模板进行设定,例如,对每一个“人”来说,可以只要他的年龄和性别属性,而不需要他的籍贯、星座等其他属性,如果某人只有年龄属性,没有性别属性,那么,可以将这个人的性别属性标记为空,这样,得到的是用户所需要的、而且具有统一的格式的实体数据。一方面减少了本体构建过程中的计算量,另一方面也便于对实体数据的存储和查询。
[0158] 在本发明实施例中,从待处理文本数据中抽取事件数据可以直接通过对待处理文本数据进行文本抽取来实现。
[0159] 首先,可以直接从待处理文本数据中识别出候选事件数据,其中,每个候选事件数据由一项或多项事件要素组成,例如:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件等。
[0160] 然后,可以根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据,类似的,事件抽取规则也可以根据用户的需求自行设定,例如,如果要构建一个关于人际关系的本体,那么,在该本体中,可以只要参与方为“人”的这一类事件,而不要参与方为“机器”的这一类事件;或者,可以对事件数据的模板进行设定,例如,对每一个事件来说,可以只要它的参与方、事件演变状态,而不需要他的事件的发生时间、事件发生环境和事件发生条件等其他要素,这样,得到的是用户所需要的、而且具有统一的格式的事件数据,进一步的减少了本体构建过程中的计算量。而且,根据事件数据的不同的要素,可以对事件数据进行分类存储,进一步便于后续对事件数据的查询。
[0161] S103:基于待处理文本数据,预测实体数据之间的实体关系。
[0162] 得到实体数据之后,就可以结合实体数据在待处理文本数据中的上下文,对实体数据之间的关系进行预测,得到实体关系。
[0163] 延续上述例子,假设所构建的本体是关于人际关系领域的,那么,实体数据之间的实体关系可以为人与人之间的关系,例如,“张三”与“李四”之间的实体关系为“雇佣关系”,“张三”与“王五”之间的实体关系是同事关系等等;或者,实体数据之间的实体关系可以为人与地点之间的关系,例如,“张三”与“学校A”之间的实体关系为“母校与学生”,“李四”与“学校A”之间的实体关系也为“母校与学生”,那么,可以推断出张三”与“李四”之间的实体关系为“校友”,等等。
[0164] 在一种实现方式中,可以采用如下方式对实体数据之间的关系进行预测:
[0165] 第一步,利用预先训练得到的句法结构模型,标注每个词语在待处理文本数据中的句法成分。每个词语的句法成分是指该词语在其所属的句子中的组成成分,包括主语、谓语、宾语、状语等等。其中,句法结构模型是通过第一样本数据对预设的第一训练模型进行训练得到的,第一训练模型可以为尔科夫模型、神经网络模型或其他用于进行机器学习的模型,本发明实施例对此不做限定。
[0166] 第二步,根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测每个词语的语义角色。语义角色主要是指句法成分被标注为谓语的词语与其他词语之间的语义角色关系,主要包括施事者、受事者、客体、经验者、受益者、工具、处所、目标和来源等。
[0167] 举例而言,假设待处理文本数据为:“张三/攻击/李四”,经过句法成分标注,待处理文本数据中,“张三”为主语,“攻击”为谓语,“李四”为宾语,则根据“张三”和“李四”与谓语“攻击”之间的关系,可以将“张三”的语义角色标注为施事者,也就是某一动作的主动方,将“李四”的语义角色标注为受事者,也就是某一动作的被动方。
[0168] 其中,语义角色标注模型是通过第二样本数据对预设的第二训练模型进行训练得到的,第二训练模型可以为支持向量机模型、KNN(K-Nearest Neighbour,最邻近规则分类)模型或其他用于进行机器学习的模型,本发明实施例对此不做限定。
[0169] 在本发明实施例中,第一样本数据和第二样本数据通常是不同的数据,为了便于描述,将用于训练句法结构模型的数据称为第一样本数据,将用于训练语义角色标注模型的数据称为第二样本数据。
[0170] 第三步,根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析实体数据之间的实体关系。在上一步骤中,已经得到了每个词语的语义角色,在此之后,可以根据待处理文本数据中的每个词语的语义角色,与抽取出的实体数据之间进行匹配,从而确定每个实体数据的语义角色。进一步的,可以对实体数据的语义角色进行分析,从而得到实体数据之间的实体关系。
[0171] 例如,延续上述例子,在确定“张三”和“李四”两个词语的语义角色之后,可以将“张三”和“李四”两个词语与之前的步骤中抽取出的实体数据进行匹配,将“张三”和“李四”两个词语的语义角色转换为“张三”和“李四”两个实体数据的语义角色。然后,可以结合预设的实体关系抽取规则,对这两个实体数据的语义角色进行分析,比如,根据“张三”和“李四”的语义角色以及事件手段本身,也就是施事者、受事者以及谓语“攻击”,可以确定出“张三”和“李四”之间的实体关系为加害者与受害者。
[0172] 或者,还可以采用其他的方式进行实体关系抽取,例如基于核函数的实体关系抽取方法,该方法直接使用字符串的原始形式作为处理对象,通过计算任何两个处理对象之间的核函数来实现实体关系抽取;再比如基于深度学习的实体关系抽取方法,该方法提出使用递归神经网络来实现实体关系抽取,首先对待处理文本数据进行句法解析,然后为句法树上的每个节点学习向量表示,再通过递归神经网络,从句法树最低端的词向量开始,按照待处理文本数据的句法结构迭代合并,最终得到待处理文本数据中每个句子的向量表示,进一步进行实体关系分类;本发明实施例对此不做限定。
[0173] S104:对事件数据进行语义分析,基于分析结果,生成由事件数据之间的事件关系组成的事件体系网络,得到包括实体数据、事件数据、实体关系及事件体系网络的本体。
[0174] 进一步的,可以对提取出的事件数据进行语义分析,基于事件数据的语义,可以提取出事件数据之间的语义关系,从而生成由事件数据之间的事件关系组成的事件体系网络。
[0175] 具体的,第一步,可以对提取出的事件数据进行语义分析,基于分析结果,构建事件发生序列。
[0176] 其中,在进行语义分析时,可以对每个事件数据进行语义指代消解,明确事件数据中的“你”、“我”、“他”等代词所指代的含义,这样,可以提高语义分析的准确性。得到每个事件数据的语义后,可以利用自然语言推理算法,进一步确定每个事件数据的发生顺序,然后根据事件数据的发生顺序,就可以构建事件发生序列,事件发生序列是指将每个事件数据按照发生顺序连接的事件序列。
[0177] 举例而言,“张三在九月十三号入住了某某酒店”和“他在九月十四号从这里离开”为两个事件数据,根据待处理文本中的上下文关系,首先进行语义指代消解,“他”和“这里”分别指代的是“张三”和“某某酒店”,也就是说,“他在九月十四号从这里离开”的语义为“张三在九月十四号从某某酒店离开”,进一步的,从这两个事件数据中可以推理出事件的发生顺序,张三一定是先入住某某酒店,才能从某某酒店离开,即事件发生序列为从“张三在九月十三号入住了某某酒店”到“他在九月十四号从这里离开”。
[0178] 第二步,可以基于所构建的事件发生序列,确定各个事件数据之间的事件关系,生成由事件数据之间的事件关系组成的事件体系网络,其中,事件关系包括因果关系、伴随关系和顺承关系等等。
[0179] 其中,得到事件发生序列后,可以以此为依据,构建有向无环图,进一步的,可以利用贝叶斯网络模型等算法对得到的有向无环图进行计算,得到各个事件数据之间的事件转移概率,也就是针对某一个事件数据而言,可能从该事件数据进一步发展为其他事件数据的概率。然后,就可以根据各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由事件数据之间的事件关系组成的事件体系网络。
[0180] 举例而言,对于每一种事件关系,其所对应的事件转移概率都是不同的,比如,如果事件数据A和事件数据B之间是因果关系,那么事件数据A和事件数据B之间的事件转移概率可能为50%,如果是伴随关系,那么事件数据A和事件数据B之间的事件转移概率可能为20%,等等,具体的每种事件关系所对应的事件转移概率可以根据对大量数据的实验得到,本发明实施例对此不做限定。
[0181] 通过以上步骤,对待处理文本数据进行分析,得到了实体数据、事件数据、实体关系及事件体系网络,换句话说,也就得到了本体。由于本体中包括了事件体系网络,因此得到的本体是网络结构,相比于现有技术中的层级结构,更能体现出实体数据和事件数据之间的关系。
[0182] 在一种实现方式中,可以预设本体模板,与事件数据的模板和事件数据的模板类似,本体模板中设定了本体所需要的数据的格式,比如每个实体数据所具备的具体的属性有哪些、每个事件数据所具备的具体的要素有哪些、实体数据之间的实体关系可能有哪些、事件数据之间的事件关系可能有哪些,等等。然后,可以将得到的实体数据、事件数据、实体关系及事件体系网络映射至预设的本体模板中,这样,得到的本体中的数据更规范,进一步方便用户的查询。
[0183] 而且,上述预设的本体模板还可以随时根据用户的需求进行更新,对所需要的实体数据、事件数据、实体关系及事件体系网的格式进行增加或删除,得到新的本体模板,然后可以将实体数据、事件数据、实体关系及事件体系网络映射至新的本体模板中,得到新的本体,从而实现了对本体的更新和升级,减少由于本体模板固化导致的信息丢失。
[0184] 进一步的,在得到本体后,可以利用预先设定的评价规则,对本体进行评价。比如,可以利用一些专家知识,对本体中的实体数据、事件数据、实体关系及事件体系网络的准确度进行评价,判断本体从待处理文本数据中抽取的这些数据是否符合常理,等等。
[0185] 根据评价结果,可以判断出得到的本体是否满足预设期望条件,若满足期望条件,则对本体进行展示。在展示时,可以将本体中的实体数据、事件数据、实体关系及事件体系网络绘制为关系图,可视化的向用户展示本体中的知识图谱,便于用户浏览。
[0186] 由以上可见,本发明实施例提供的本体构建方法,通过从待处理文本数据中抽取实体数据和事件数据,预测所获取的语义元数据中的实体数据之间的实体关系,以及对所获取的语义元数据中的事件数据进行语义分析,基于分析结果,生成由事件数据之间的事件关系组成的事件体系网络,得到包括实体数据、事件数据、实体关系及事件体系网络的本体。可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。
[0187] 如图2所示,为本发明实施例提供的一种本体构建方法的另一种流程示意图,包括如下步骤:
[0188] S201:获取待处理文本数据。
[0189] 有时,用户需要对某一领域内的各种信息进行组织概括或对某一领域内的某种信息进行查询,例如,在人际交往领域,用户可能需要了解人与人之间的关系网络,或者需要了解与某人有交往的人群。领域内的各种信息通常来源于大量的原始文本数据,如果借助人工处理大量的方式来处理这些原始文本数据,会耗费大量的时间和精力。
[0190] 在这种情况下,可以构建该领域的本体,通过该领域的本体,可以方便的实现对该领域内各种信息的组织和分析,同时能为用户提供信息查询等功能。
[0191] 在构建本体时,可以先获取待处理文本数据,其中,待处理文本数据是一些经过分词处理后的文本数据,在待处理文本数据中,包括大量的词语。在本发明实施例中,可以直接获取待处理文本数据,也可以先获取原始文本数据,通过对所获取的原始文本数据进行预处理、分词处理等自然语言处理方法,从而得到待处理文本数据,本发明实施例对此不做限定。
[0192] S202:从待处理文本数据中抽取实体数据和事件数据。
[0193] 获取到待处理文本数据之后,进一步的,可以对待处理文本数据进行实体抽取和事件抽取,从待处理文本数据中获取实体数据和事件数据。其中,对待处理文本数据进行实体抽取和事件抽取可以同时进行,也可以按照一定的顺序先后进行,本发明实施例对此不作限定。
[0194] 在本发明实施例中,实体数据是指一些具备公认意义的概念,比如人名、地名等,事件数据则是指一个具有多种事件要素的事情。
[0195] 举例而言,如果要构建一个人际关系领域的本体,那么,在该本体中,实体数据可以为某个人,例如“张三”、“李四”等,也可以为某个地点,例如“北京市”、“某某酒店”等,同时,每个实体数据还有其对应的属性,例如“张三”的性别、年龄等,或者“北京市”的面积、时区等;事件数据可以为人与人之间发生的事情,例如“张三在九月十三号攻击李四”,在该事件数据中包括以下几种事件要素:主体对象“张三”、客体对象“李四”、事件手段“攻击”以及事件时间“九月十三号”,事件数据也可以为人与地点之间发生的事情,例如“张三在九月十三号入住了某某酒店”,在该事件数据中包括以下几种事件要素:主体对象“张三”、客体对象“某某酒店”、事件手段“入住”以及事件时间“九月十三号”。
[0196] 在一种实现方式中,可以通过如下方式从待处理文本数据中抽取实体数据:
[0197] 首先,对待处理文本数据中的每个词语进行语料标注,确定每个词语的词性,然后,筛选出词性为名词的词语,识别这些词语的语义信息,进一步的,可以从待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据,最后,可以根据预设的实体抽取规则,对候选实体数据进行抽取,得到实体数据,也就是建立实体的各个属性与实体之间的对应关系。
[0198] 在本发明实施例中,从待处理文本数据中抽取事件数据可以直接通过对待处理文本数据进行文本抽取来实现。
[0199] 首先,可以直接从待处理文本数据中识别出候选事件数据,其中,每个候选事件数据由一项或多项事件要素组成,例如:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件等。然后,可以根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。
[0200] S203:利用预先训练得到的句法结构模型,标注每个词语在待处理文本数据中的句法成分。
[0201] 其中,每个词语的句法成分是指该词语在其所属的句子中的组成成分,包括主语、谓语、宾语、状语等等。
[0202] 在一种实现方式中,句法结构模型是通过第一样本数据对预设的第一训练模型进行训练得到的,第一训练模型可以为马尔科夫模型、神经网络模型或其他用于进行机器学习的模型,本发明实施例对此不做限定。
[0203] 将所获取的第一样本数据输入预设的第一训练模型,得到的输出结果中包括第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵,其中,初始概率向量指的是当前状态下,第一样本数据中每个词语在其所属的句子中对应不同句法成分的概率,转移矩阵是指第一样本数据中每个词语从某一句法成分转化为另一句法成分的概率,状态矩阵是指该词语对应的所有可能的句法成分。
[0204] 同时,判断输出结果是否满足预设条件,如果不满足,则对预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,这样,就得到了句法结构模型。其中,预设条件可以是指对模型训练过程中的迭代次数限制,例如,当迭代次数达到500次,则可以认为句法结构模型已经训练完成;或者,预设条件还可以是指对训练得到的模型的准确度的限制,例如,将第一样本数据分为训练数据和测试数据两部分,利用测试数据判断训练得到的模型输出的句法成分结果是否准确,如果准确率达到预设的阈值,则可以认为句法结构模型已经训练完成。
[0205] 将待处理文本数据输入至句法结构模型中,可以得到待处理文本数据中每个词语的初始概率向量、转移矩阵和状态矩阵,进而可以根据模型的输出结果,利用相应的算法,比如维特比算法,计算出待处理文本数据中每个词语的句法成分的概率,将概率最大的作为词语的句法成分,对词语进行标注。
[0206] S204:根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测每个词语的语义角色。
[0207] 其中,语义角色主要是指句法成分被标注为谓语的词语与其他词语之间的语义角色关系,主要包括施事者、受事者、客体、经验者、受益者、工具、处所、目标和来源等。
[0208] 在一种实现方式中,可以将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率,将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色,通常,第二概率条件是指概率最大。
[0209] 举例而言,假设待处理文本数据为:“张三/攻击/李四”,经过句法成分标注,待处理文本数据中,“张三”为主语,“攻击”为谓语,“李四”为宾语,将上述句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,可以计算出“攻击”与“张三”和“李四”之间为各种语义角色的概率,比如,“张三”的语义角色标注为施事者的概率为90%,被标注为工具的概率为5%,则选择满足预设第二概率条件的语义角色,比如选择概率最大的语义角色,也就说,将“张三”的语义角色标注为施事者,类似的,将“李四”的语义角色标注为受事者。
[0210] 其中,语义角色标注模型是通过第二样本数据对预设的第二训练模型进行训练得到的,其中,第二训练模型可以为支持向量机模型、KNN(K-Nearest Neighbour,最邻近规则分类)模型或其他用于进行机器学习的模型,本发明实施例对此不做限定。具体的,可以采用如下步骤,训练得到语义角色标注模型:
[0211] 先获取第二样本数据,然后对所获取的第二样本数据进行分词处理、词性标注处理和句法分析处理等操作,再根据预设的删除规则,删除经过上述处理的第二样本数据中不会作为语义角色的数据,得到训练数据,利用训练数据,对预设的第二训练模型进行训练,就可以得到语义角色标注模型。由于训练数据经过了上述处理过程,因此村联的道德语义角色标注模型的识别性能也会有所提高。
[0212] 在本发明实施例中,第一样本数据和第二样本数据通常是不同的数据,为了便于描述,将用于训练句法结构模型的数据称为第一样本数据,将用于训练语义角色标注模型的数据称为第二样本数据。
[0213] 在步骤S203中,利用句法结构模型计算出的每个词语在待处理文本数据中的句法成分不是唯一的,可能存在计算错误,而且,每个词语的句法成分会对与其相关的其他词语的句法成分产生影响,比如,如果词语A为谓语,那么A的下一个词语为宾语的可能性将为50%,而如果A为状语,那么A的下一个词语为宾语的可能性为10%,这样,会对后续的计算结果产生较大的影响。
[0214] 在一种实现方式中,可以在利用所标注的每个词语的句法成分进行下一步计算之前,对句法成分标注结果进行歧义消除,得到每个词语的校正句法成分,根据所标注的每个词语的校正句法成分,利用预先训练得到的语义角色标注模型,预测每个词语的语义角色,从而提高所预测的语义角色的准确性。
[0215] 其中,在进行歧义消除时,可以先获取每个词语被标注为不同句法成分的概率,可以将各个词语的概率相乘,将整个句子中各个概率的乘积为最大的情况下的每个词语的句法成分作为每个词语的校正句法成分;或者,也可以由用户进行人工评审,判断句法成分标注结果是否准确,等等。
[0216] S205:根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析实体数据之间的实体关系。
[0217] 在S204中,已经得到了每个词语的语义角色,在此之后,可以根据待处理文本数据中的每个词语的语义角色,与抽取出的实体数据之间进行匹配,从而确定每个实体数据的语义角色。进一步的,可以对实体数据的语义角色进行分析,从而得到实体数据之间的实体关系。
[0218] 例如,延续上述例子,在确定“张三”和“李四”两个词语的语义角色之后,可以将“张三”和“李四”两个词语与之前的步骤中抽取出的实体数据进行匹配,将“张三”和“李四”两个词语的语义角色转换为“张三”和“李四”两个实体数据的语义角色。然后,可以结合预设的实体关系抽取规则,对这两个实体数据的语义角色进行分析,比如,根据“张三”和“李四”的语义角色以及事件手段本身,也就是施事者、受事者以及谓语“攻击”,可以确定出“张三”和“李四”之间的实体关系为加害者与受害者。
[0219] S206:对事件数据进行语义分析,基于分析结果,构建事件发生序列。
[0220] 提取出待处理文本数据中的事件数据之后,可以进一步对事件数据进行语义分析,基于分析结果,构建事件发生序列。
[0221] 其中,在进行语义分析时,可以对每个事件数据进行语义指代消解,明确事件数据中的“你”、“我”、“他”等代词所指代的含义,这样,可以提高语义分析的准确性。得到每个事件数据的语义后,可以利用自然语言推理算法,进一步确定每个事件数据的发生顺序,然后根据事件数据的发生顺序,就可以构建事件发生序列,事件发生序列是指将每个事件数据按照发生顺序连接的事件序列。
[0222] 举例而言,“张三在九月十三号入住了某某酒店”和“他在九月十四号从这里离开”为两个事件数据,根据待处理文本中的上下文关系,首先进行语义指代消解,“他”和“这里”分别指代的是“张三”和“某某酒店”,也就是说,“他在九月十四号从这里离开”的语义为“张三在九月十四号从某某酒店离开”,进一步的,从这两个事件数据中可以推理出事件的发生顺序,张三一定是先入住某某酒店,才能从某某酒店离开,即事件发生序列为从“张三在九月十三号入住了某某酒店”到“他在九月十四号从这里离开”。
[0223] S207:基于事件发生序列,确定各个事件数据之间的事件关系,生成由事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体;其中,事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。
[0224] 得到事件发生序列后,可以以此为依据,构建有向无环图,进一步的,可以利用贝叶斯网络模型等算法对得到的有向无环图即行计算,得到各个事件数据之间的事件转移概率,也就是针对某一个事件数据而言,可能从该事件数据进一步发展为其他事件数据的概率。然后,就可以根据各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由事件数据之间的事件关系组成的事件体系网络。
[0225] 举例而言,对于每一种事件关系,其所对应的事件转移概率都是不同的,比如,如果事件数据A和事件数据B之间是因果关系,那么事件数据A和事件数据B之间的事件转移概率可能为50%,如果是伴随关系,那么事件数据A和事件数据B之间的事件转移概率可能为20%,等等,具体的每种事件关系所对应的事件转移概率可以根据对大量数据的实验得到,本发明实施例对此不做限定。
[0226] 通过以上步骤,对待处理文本数据进行分析,得到了实体数据、事件数据、实体关系及事件体系网络,换句话说,也就得到了本体。由于本体中包括了事件体系网络,因此得到的本体是网络结构,相比于现有技术中的层级结构,更能体现出实体数据和事件数据之间的关系。
[0227] 在一种实现方式中,可以预设本体模板,与事件数据的模板和事件数据的模板类似,本体模板中设定了本体所需要的数据的格式,比如每个实体数据所具备的具体的属性有哪些、每个事件数据所具备的具体的要素有哪些、实体数据之间的实体关系可能有哪些、事件数据之间的事件关系可能有哪些,等等。然后,可以将得到的实体数据、事件数据、实体关系及事件体系网络映射至预设的本体模板中,这样,得到的本体中的数据更规范,进一步方便用户的查询。
[0228] 而且,上述预设的本体模板还可以随时根据用户的需求进行更新,对所需要的实体数据、事件数据、实体关系及事件体系网的格式进行增加或删除,得到新的本体模板,然后可以将实体数据、事件数据、实体关系及事件体系网络映射至新的本体模板中,得到新的本体,从而实现了对本体的更新和升级,减少由于本体模板固化导致的信息丢失。
[0229] 进一步的,在得到本体后,可以利用预先设定的评价规则,对本体进行评价。比如,可以利用一些专家知识,对本体中的实体数据、事件数据、实体关系及事件体系网络的准确度进行评价,判断本体从待处理文本数据中抽取的这些数据是否符合常理,等等。
[0230] 根据评价结果,可以判断出得到的本体是否满足预设期望条件,若满足期望条件,则对本体进行展示。在展示时,可以将本体中的实体数据、事件数据、实体关系及事件体系网络绘制为关系图,可视化的向用户展示本体中的知识图谱,便于用户浏览。
[0231] 由以上可见,本发明实施例提供的本体构建方法,通过从待处理文本数据中抽取实体数据和事件数据,预测所获取的语义元数据中的实体数据之间的实体关系,以及对所获取的语义元数据中的事件数据进行语义分析,基于分析结果,生成由事件数据之间的事件关系组成的事件体系网络,得到包括实体数据、事件数据、实体关系及事件体系网络的本体。可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。
[0232] 与上述本体构建方法相对应,本发明实施例还提供了一种本体构建装置。
[0233] 如图3所示,为本发明实施例提供的一种本体构建装置的结构示意图,该装置包括:
[0234] 数据获取装置310,用于获取待处理文本数据;
[0235] 信息抽取模块320,用于从所述待处理文本数据中抽取实体数据和事件数据;
[0236] 实体关系抽取模块330,用于基于所述待处理文本数据,预测所述实体数据之间的实体关系;
[0237] 事件关系抽取模块340,用于对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。
[0238] 在一种实现方式中,信息抽取模块320,具体用于:
[0239] 针对所述待处理文本数据中的每个词语,通过对该词语进行语料标注,确定该词语的词性;
[0240] 筛选出词性为名词、且具有语义信息的词语,作为待处理词语;
[0241] 从所述待处理词语中,筛选出不存在于预设词典中的词语,作为候选实体数据;
[0242] 根据预设的实体抽取规则,对所述候选实体数据进行抽取,得到实体数据。
[0243] 在一种实现方式中,信息抽取模块320,具体用于:
[0244] 针对每个词语,从预先获取的特征模板库中,获取该词语的转移概率、状态概率和特征权重;根据所述转移概率、状态概率和特征权重,分别计算该词语为不同词性的概率;将满足预设第一概率条件的词性作为该词语的词性。
[0245] 在一种实现方式中,信息抽取模块320,具体用于:
[0246] 从所述待处理文本数据中识别出候选事件数据;其中,所述候选事件数据包括以下一项或多项:事件的发生时间、参与方、事件演变状态、事件发生环境和事件发生条件;
[0247] 根据预设的事件抽取规则,对识别出的候选事件数据进行筛选,将筛选出的候选事件数据作为事件数据。
[0248] 在一种实现方式中,实体关系抽取模块330,具体用于:
[0249] 利用预先训练得到的句法结构模型,标注每个词语在所述待处理文本数据中的句法成分;
[0250] 根据所标注的每个词语的句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色;
[0251] 根据所预测的每个词语的语义角色,确定所抽取的实体数据的语义角色,分析所述实体数据之间的实体关系。
[0252] 在一种实现方式中,可以采用如下步骤,训练得到所述句法结构模型:
[0253] 获取第一样本数据;
[0254] 将所述第一样本数据输入预设的第一训练模型,得到的输出结果中包括所述第一样本数据中每个词语的句法成分的初始概率向量、转移矩阵和状态矩阵;
[0255] 判断输出结果是否满足预设条件,如果不满足,对所述预设的第一训练模型进行迭代调整,直至输出结果满足预设条件,得到所述句法结构模型;
[0256] 所述实体关系抽取模块,具体用于:
[0257] 将所述待处理文本数据输入所述句法结构模型,得到每个词语的初始概率向量、转移矩阵和状态矩阵;根据每个词语的初始概率向量、转移矩阵和状态矩阵,标注每个词语在所述待处理文本数据中的句法成分。
[0258] 在一种实现方式中,实体关系抽取模块330,还用于:
[0259] 消除所标注的每个词语的句法成分在所述待处理文本数据中的歧义,得到每个词语的校正句法成分;
[0260] 所述实体关系抽取模块,具体用于:
[0261] 根据所述每个实体数据的校正句法成分,利用预先训练得到的语义角色标注模型,预测所述每个词语的语义角色。
[0262] 在一种实现方式中,实体关系抽取模块330,具体用于:
[0263] 将句法成分标注后的待处理文本数据输入预先训练得到的语义角色标注模型,计算每个句法成分被标注为谓语的词语与其它词语之间存在的多种语义角色的概率;将满足预设第二概率条件的语义角色作为该句法成分被标注为谓语的词语与其它词语之间的语义角色。
[0264] 在一种实现方式中,可以采用如下步骤,训练得到所述语义角色标注模型:
[0265] 获取第二样本数据;
[0266] 对所获取的第二样本数据进行分析处理;其中,所述分析处理包括以下一项或多项:分词处理、词性标注处理和句法分析处理;
[0267] 根据预设的删除规则,删除经过分析处理的第二样本数据中不会作为语义角色的数据,得到训练数据;
[0268] 利用所述训练数据,对预设的第二训练模型进行训练,得到语义角色标注模型。
[0269] 在一种实现方式中,事件关系抽取模块340,具体用于:
[0270] 对所述事件数据进行语义分析,基于分析结果,构建事件发生序列;
[0271] 基于所述事件发生序列,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络;其中,所述事件关系包括以下一项或多项:因果关系、伴随关系和顺承关系。
[0272] 在一种实现方式中,事件关系抽取模块340,具体用于:
[0273] 针对每个事件数据,对该事件数据进行语义指代消解,确定该事件数据的语义;
[0274] 根据每个事件数据的语义,确定每个事件数据的发生顺序,根据所述发生顺序,构建事件发生序列。
[0275] 在一种实现方式中,事件关系抽取模块340,具体用于:
[0276] 根据所述事件发生序列,构建有向无环图;
[0277] 基于所述有向无环图,计算得到各个事件数据之间的事件转移概率;
[0278] 根据所述各个事件数据之间的事件转移概率,确定各个事件数据之间的事件关系,生成由所述事件数据之间的事件关系组成的事件体系网络。
[0279] 在一种实现方式中,所述装置还包括:
[0280] 模板映射模块350,用于获取本体模板;将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述本体模板中,得到本体。
[0281] 在一种实现方式中,模块映射模块350还用于:
[0282] 对所述本体模板进行更新,得到新的本体模板;
[0283] 将所述实体数据、所述事件数据、所述实体关系及所述事件体系网络映射至所述新的本体模板中,得到新的本体。
[0284] 在一种实现方式中,所述装置还包括:
[0285] 本体评价模块360,用于利用预先设定的评价规则,对所述本体进行评价,得到评价结果;根据所述评价结果,判断所述本体是否满足预设期望条件;若满足所述期望条件,则对所述本体进行展示。
[0286] 由以上可见,本发明实施例提供的本体构建装置,通过从待处理文本数据中抽取实体数据和事件数据,预测所获取的语义元数据中的实体数据之间的实体关系,以及对所获取的语义元数据中的事件数据进行语义分析,基于分析结果,生成由事件数据之间的事件关系组成的事件体系网络,得到包括实体数据、事件数据、实体关系及事件体系网络的本体。可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。
[0287] 本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
[0288] 存储器403,用于存放计算机程序;
[0289] 处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:
[0290] 获取待处理文本数据;
[0291] 从所述待处理文本数据中抽取实体数据和事件数据;
[0292] 基于所述待处理文本数据,预测所述实体数据之间的实体关系;
[0293] 对所述事件数据进行语义分析,基于分析结果,生成由所述事件数据之间的事件关系组成的事件体系网络,得到包括所述实体数据、所述事件数据、所述实体关系及所述事件体系网络的本体。
[0294] 上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry  Standard Architecture,EISA)总线等。该通信总线可以分为地址总线数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0295] 通信接口用于上述电子设备与其他设备之间的通信。
[0296] 存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0297] 上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0298] 由以上可见,本发明实施例提供的本体构建方法,通过从待处理文本数据中抽取实体数据和事件数据,预测所获取的语义元数据中的实体数据之间的实体关系,以及对所获取的语义元数据中的事件数据进行语义分析,基于分析结果,生成由事件数据之间的事件关系组成的事件体系网络,得到包括实体数据、事件数据、实体关系及事件体系网络的本体。可见,本方案中构建的本体包括实体数据、事件数据、实体关系及事件体系网络,相比于现有方案构建的本体更加完善。
[0299] 需要说明的是,在文本中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0300] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例、电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0301] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈