首页 / 专利库 / 人工智能 / 人工智能 / 自然语言处理 / 共指消解 / 一种文本解析方法及装置

一种文本解析方法及装置

阅读:1010发布:2020-05-18

专利汇可以提供一种文本解析方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种文本解析方法及装置,其中,文本解析方法包括:获取第一文本,第一文本为 指定 领域的指定文档中的一个句子;采用预设的解析规则解析第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述;若第一文本解析失败,则对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;对第二文本按预设的解析规则进行解析。本申请提供的文本解析方法及装置不但可将待解析文本解析为计算机可理解的结构化描述,而且,具有较高的解析成功率。,下面是一种文本解析方法及装置专利的具体信息内容。

1.一种文本解析方法,其特征在于,包括:
获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
若所述第一文本解析失败,则对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
对所述第二文本按所述预设的解析规则进行解析。
2.根据权利要求1所述的文本解析方法,其特征在于,所述解析规则包括至少一种,每种解析规则对应一种文本类型;
所述采用预设的解析规则解析所述第一文本,包括:
采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能够成功解析所述第一文本,则确定所述第一文本解析成功,若所述至少一种解析规则中的每种解析规则均无法成功解析所述第一文本,则确定所述第一文本解析失败。
3.根据权利要求1所述的文本解析方法,其特征在于,所述对所述第一文本进行指代消解,包括:
采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文本处理成规范的表达;
从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
将所述目标文本中的指代词替换为所述目标名词实体。
4.根据权利要求3所述的文本解析方法,其特征在于,所述文本归一化模型包括编码模和解码模块;
所述采用预先建立的文本归一化模型对所述第一文本进行归一化,包括:
获取所述第一文本对应的空间位置向量,其中,所述第一文本对应的空间位置向量能够表征所述第一文本中各实体的空间位置关系;
通过所述文本归一化模型的编码模块,将所述第一文本编码为上下文向量,作为所述第一文本对应的句向量;
通过所述文本归一化模型的解码模块,根据所述第一文本对应的空间位置向量和所述第一文本对应的句向量,确定所述第一文本规范的表达。
5.根据权利要求3所述的文本解析方法,其特征在于,所述从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述指代词与名词实体关系图包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,所述预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定;
根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
6.根据权利要求5所述的文本解析方法,其特征在于,所述预设的节点连接规则为:
指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;
对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;
任意两个属性节点之间相互指向;
任意两个名词实体节点之间相互指向;
指代词节点分别指向各名词实体节点;
各名词实体节点的属性值节点均指向指代词的属性值节点。
7.根据权利要求5所述的文本解析方法,其特征在于,所述根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
确定所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率;
根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
8.根据权利要求7所述文本解析方法,其特征在于,确定两个实体节点之间的转移概率包括:根据两个名词实体节点所代表的两个名词实体之间的关系确定所述两个名词实体节点之间的转移概率;
确定指代词节点与名词实体节点之间的转移概率包括:确定指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率,作为所述指代词节点与名词实体节点之间的转移概率;
确定两个属性节点之间的转移概率包括:通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个属性的相似度,确定所述两个属性节点之间的转移概率;
确定两个属性值节点之间的转移概率包括:根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
9.根据权利要求7所述的文本解析方法,其特征在于,所述根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
遍历所述指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概率,对于当前遍历到的节点所指向的每个节点,若当前遍历到的节点与该节点之间的转移概率大于所述参考概率,则根据当前遍历到的节点的当前权重和当前遍历到的节点与该节点之间的转移概率更新该节点的当前权重,若当前遍历到的节点与该节点之间的转移概率小于或等于所述参考概率,则维持该节点的当前权重不变;
若遍历次数达到预设次数,或者,所述指代词与名词实体关系图中各名词实体节点的权重趋于稳定,则根据所述指代词与名词实体关系图中各名词实体节点的当前权重,确定所述目标文本中的指代词所指代的名词实体;否则,返回所述遍历所述指代词与名词实体关系图中的节点。
10.根据权利要求1~9中任意一项所述的文本解析方法,其特征在于,还包括:
若所述第二文本解析失败,则确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
判别所述第二文本是否合规。
11.根据权利要求10所述的文本解析方法,其特征在于,所述判别所述第二文本是否合规,包括:
获取指定领域的对象的模型;
将所述模型转换为文本化描述,获得所述模型对应的文档;
根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。
12.根据权利要求11所述的文本解析方法,其特征在于,所述根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规,包括:
获取所述第二文本分别与所述模型对应的文档中各个句子的相似度中的最大相似度;
若所述最大相似度大于预设的相似度阈值,则确定所述第二文本合规,否则,确定所述第二文本不合规。
13.一种文本解析装置,其特征在于,包括:文本获取模块、第一文本解析模块、指代消解模块和第二文本解析模块;
所述文本获取模块,用于获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
所述第一文本解析模块,用于采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
所述指代消解模块,用于当所述第一文本解析失败时,对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
所述第二文本解析模块,用于对所述第二文本按所述预设的解析规则进行解析。
14.根据权利要求13所述的文本解析装置,其特征在于,所述指代消解模块包括文本归一化模块、指代对象确定模块和指代词替换模块;
所述文本归一化模块,用于采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文本处理成规范的表达;
所述指代对象确定模块,用于从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
所述指代词替换模块,用于将所述目标文本中的指代词替换为所述目标名词实体。
15.根据权利要求14所述的文本解析装置,其特征在于,所述指代对象确定模块包括:
指代词与名词实体关系图生成子模块和指代对象确定子模块;
所述指代词与名词实体关系图生成子模块,用于根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述指代词与名词实体关系图包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,所述预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定;
所述指代对象确定子模块,用于根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
16.根据权利要求13~15中任意一项所述的文本解析装置,其特征在于,还包括:文本确定模块和文本判别模块;
所述文本确定模块,用于当所述第二文本解析失败时,确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
所述文本判别模块,用于判别所述第二文本是否合规。
17.根据权利要求16所述的文本解析装置,其特征在于,所述文本判别模块包括:模型获取子模块、模型转换子模块和文本判别子模块;
所述模型获取子模块,用于获取指定领域的对象的模型;
所述模型转换子模块,用于将所述模型转换为文本化描述,获得所述模型对应的文档;
所述文本判别子模块,用于根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。

说明书全文

一种文本解析方法及装置

技术领域

[0001] 本申请涉及文本处理技术领域,尤其涉及一种文本解析方法及装置。

背景技术

[0002] 近年来,随着人工智能大数据技术的发展,使用计算机来辅助人工工作已成为各行各业的发展方向。
[0003] 在某些应用场景下,人们希望用计算机来自动处理文本,比如,对文本进行自动审核、自动评估等。可以理解的是,使用计算机处理文本,首先需要针对待处理文本获得计算
机能够理解的结构化表达。
[0004] 然而,在某些领域并不存在文本的结构化表达,比如,工程建筑领域是信息化程度低的领域,该领域的一些文档比如标准规范、图集、技术文件、政策法规等均不存在结构化
表达,为了能够使用计算机来辅助人工处理文本,亟需一种能够将用自然语言描述的文本
转换为计算机可理解的结构化表达的方案。
发明内容
[0005] 有鉴于此,本申请提供了一种文本解析方法及装置,用以将用自然语言描述的文本解析为计算机可理解的结构化表达,其技术方案如下:
[0006] 一种文本解析方法,包括:
[0007] 获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
[0008] 采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
[0009] 若所述第一文本解析失败,则对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
[0010] 对所述第二文本按所述预设的解析规则进行解析。
[0011] 可选的,所述解析规则包括至少一种,每种解析规则对应一种文本类型;
[0012] 所述采用预设的解析规则解析所述第一文本,包括:
[0013] 采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能够成功解析所述第一文本,则确定所述第一文本解析成功,若所述至少
一种解析规则中的每种解析规则均无法成功解析所述第一文本,则确定所述第一文本解析
失败。
[0014] 可选的,所述对所述第一文本进行指代消解,包括:
[0015] 采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文本处理成规范的表达;
[0016] 从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
[0017] 将所述目标文本中的指代词替换为所述目标名词实体。
[0018] 可选的,所述文本归一化模型包括编码模和解码模块;
[0019] 所述采用预先建立的文本归一化模型对所述第一文本进行归一化,包括:
[0020] 获取所述第一文本对应的空间位置向量,其中,所述第一文本对应的空间位置向量能够表征所述第一文本中各实体的空间位置关系;
[0021] 通过所述文本归一化模型的编码模块,将所述第一文本编码为上下文向量,作为所述第一文本对应的句向量;
[0022] 通过所述文本归一化模型的解码模块,根据所述第一文本对应的空间位置向量和所述第一文本对应的句向量,确定所述第一文本规范的表达。
[0023] 可选的,所述从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
[0024] 根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述指代词与名词实体关系图包括名词实体节点、指
代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,所述预设的节点连接规
则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属
性值的关系设定;
[0025] 根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
[0026] 可选的,所述预设的节点连接规则为:
[0027] 指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;
[0028] 对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;
[0029] 任意两个属性节点之间相互指向;
[0030] 任意两个名词实体节点之间相互指向;
[0031] 指代词节点分别指向各名词实体节点;
[0032] 各名词实体节点的属性值节点均指向指代词的属性值节点。
[0033] 可选的,所述根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,包括:
[0034] 确定所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率;
[0035] 根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述目标文本中的
指代词所指代的名词实体。
[0036] 可选的,确定两个实体节点之间的转移概率包括:根据两个名词实体节点所代表的两个名词实体之间的关系确定所述两个名词实体节点之间的转移概率;
[0037] 确定指代词节点与名词实体节点之间的转移概率包括:确定指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率,作为所述指代词节点
与名词实体节点之间的转移概率;
[0038] 确定两个属性节点之间的转移概率包括:通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个属性的相似度,确定所述两个
属性节点之间的转移概率;
[0039] 确定两个属性值节点之间的转移概率包括:根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
[0040] 可选的,所述根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词实体中,确定所述
目标文本中的指代词所指代的名词实体,包括:
[0041] 遍历所述指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概率,对于当前遍历到的节点所指向的每个节点,若当前遍历到
的节点与该节点之间的转移概率大于所述参考概率,则根据当前遍历到的节点的当前权重
和当前遍历到的节点与该节点之间的转移概率更新该节点的当前权重,若当前遍历到的节
点与该节点之间的转移概率小于或等于所述参考概率,则维持该节点的当前权重不变;
[0042] 若遍历次数达到预设次数,或者,所述指代词与名词实体关系图中各名词实体节点的权重趋于稳定,则根据所述指代词与名词实体关系图中各名词实体节点的当前权重,
确定所述目标文本中的指代词所指代的名词实体;否则,返回所述遍历所述指代词与名词
实体关系图中的节点。
[0043] 可选的,所述文本解析方法还包括:
[0044] 若所述第二文本解析失败,则确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
[0045] 判别所述第二文本是否合规。
[0046] 可选的,所述判别所述第二文本是否合规,包括:
[0047] 获取指定领域的对象的模型;
[0048] 将所述模型转换为文本化描述,获得所述模型对应的文档;
[0049] 根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。
[0050] 可选的,所述根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规,包括:
[0051] 获取所述第二文本分别与所述模型对应的文档中各个句子的相似度中的最大相似度;
[0052] 若所述最大相似度大于预设的相似度阈值,则确定所述第二文本合规,否则,确定所述第二文本不合规。
[0053] 一种文本解析装置,包括:文本获取模块、第一文本解析模块、指代消解模块和第二文本解析模块;
[0054] 所述文本获取模块,用于获取第一文本,所述第一文本为指定领域的指定文档中的一个句子;
[0055] 所述第一文本解析模块,用于采用预设的解析规则解析所述第一文本,其中,所述解析规则用于将所述第一文本解析为计算机可理解的结构化描述;
[0056] 所述指代消解模块,用于当所述第一文本解析失败时,对所述第一文本进行指代消解,以将所述第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
[0057] 所述第二文本解析模块,用于对所述第二文本按所述预设的解析规则进行解析。
[0058] 可选的,所述解析规则包括至少一种,每种解析规则对应一种文本类型;
[0059] 所述述第一文本解析模块,具体用于采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能够成功解析所述第一文本,则确定
所述第一文本解析成功,若所述至少一种解析规则中的每种解析规则均无法成功解析所述
第一文本,则确定所述第一文本解析失败。
[0060] 可选的,所述指代消解模块包括文本归一化模块、指代对象确定模块和指代词替换模块;
[0061] 所述文本归一化模块,用于采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,所述文本归一化模型用于将所述第一文
本处理成规范的表达;
[0062] 所述指代对象确定模块,用于从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体,作为目标名词实体;
[0063] 所述指代词替换模块,用于将所述目标文本中的指代词替换为所述目标名词实体。
[0064] 可选的,所述文本归一化模型包括编码模块和解码模块;
[0065] 所述述文本归一化模块,具体用于获取所述第一文本对应的空间位置向量,通过所述文本归一化模型的编码模块,将所述第一文本编码为上下文向量,作为所述第一文本
对应的句向量,通过所述文本归一化模型的解码模块,根据所述第一文本对应的空间位置
向量和所述第一文本对应的句向量,确定所述第一文本规范的表达。
[0066] 可选的,所述名词实体确定模块包括:指代词与名词实体关系图生成子模块和指代对象确定子模块;
[0067] 所述指代词与名词实体关系图生成子模块,用于根据所述目标文本的内容、所述指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图,其中,所述
指代词与名词实体关系图包括名词实体节点、指代词节点、属性节点和属性值节点,节点之
间通过有向连接线连接,所述预设的节点连接规则根据指代词、名词实体、指代词的属性、
指代词的属性值、名词实体的属性、名词实体的属性值的关系设定;
[0068] 所述指代对象确定子模块,用于根据所述指代词与名词实体关系图,从所述目标文本中所包含的名词实体中,确定所述目标文本中的指代词所指代的名词实体。
[0069] 可选的,所述预设的节点连接规则为:
[0070] 指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;
[0071] 对于任一名词实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点;
[0072] 任意两个属性节点之间相互指向;
[0073] 任意两个名词实体节点之间相互指向;
[0074] 指代词节点分别指向各名词实体节点;
[0075] 各名词实体节点的属性值节点均指向指代词的属性值节点。
[0076] 可选的,所述指代对象确定子模块包括:初始权重确定子模块、转移概率确定子模块和名词实体确定子模块;
[0077] 所述初始权重确定子模块,用于确定所述指代词与名词实体关系图中各个节点的初始权重;
[0078] 所述转移概率确定子模块,用于确定具有直接连接关系的节点间的转移概率;
[0079] 所述名词实体确定子模块,用于根据所述指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从所述目标文本中所包含的名词
实体中,确定所述目标文本中的指代词所指代的名词实体。
[0080] 可选的,所述名词实体确定子模块,具体用于遍历所述指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概率,对于当前遍历
到的节点所指向的每个节点,若当前遍历到的节点与该节点之间的转移概率大于所述参考
概率,则根据当前遍历到的节点的当前权重和当前遍历到的节点与该节点之间的转移概率
更新该节点的当前权重,若当前遍历到的节点与该节点之间的转移概率小于或等于所述参
考概率,则维持该节点的当前权重不变;若遍历次数达到预设次数,或者,所述指代词与名
词实体关系图中各名词实体节点的权重趋于稳定,则根据所述指代词与名词实体关系图中
各名词实体节点的当前权重,确定所述目标文本中的指代词所指代的名词实体;否则,返回
所述遍历所述指代词与名词实体关系图中的节点。
[0081] 可选的,所述文本解析装置还包括:文本确定模块和文本判别模块;
[0082] 所述文本确定模块,用于当所述第二文本解析失败时,确定所述第二文本为描述类文本,其中,所述描述类文本用于描述所述指定领域的对象应符合的特征;
[0083] 所述文本判别模块,用于判别所述第二文本是否合规。
[0084] 可选的,所述文本判别模块包括:模型获取子模块、模型转换子模块和文本判别子模块;
[0085] 所述模型获取子模块,用于获取指定领域的对象的模型;
[0086] 所述模型转换子模块,用于将所述模型转换为文本化描述,获得所述模型对应的文档;
[0087] 所述文本判别子模块,用于根据所述第二文本分别与所述模型对应的文档中各个句子的相似度,确定所述第二文本是否合规。
[0088] 经由上述方案可知,本申请提供的文本解析方法及装置,在获得待解析的第一文本后,首先按预设的解析规则对第一文本进行解析,若解析成功,则解析结果即为计算机可
理解的结构化描述,若解析失败,则表明第一文本无法直接解析,此时,对第一文本进行指
代消解,对指代消解后的文本再次进行解析。由此可见,本申请提供的文本解析方法能够将
待解析文本解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文
本处理(比如,文本检查),另外,本申请在待解析文本首次解析失败时,可通过对待解析文
本进行指代消解来提高解析成功率,即,本申请实施例提供的文本解析方法不但可将待解
析文本解析为计算机可理解的结构化描述,而且,具有较高的解析成功率。
附图说明
[0089] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据
提供的附图获得其他的附图。
[0090] 图1为本申请实施例提供的文本解析方法的流程示意图;
[0091] 图2为本申请实施例提供的对第一文本进行指代消解的流程示意图;
[0092] 图3为本申请实施例提供的采用预先建立的文本归一化模型对第一文本进行归一化的流程示意图;
[0093] 图4为本申请实施例提供的文本归一化模型的拓扑结构一示例的示意图;
[0094] 图5为本申请实施例提供的从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体的流程示意图;
[0095] 图6为本申请实施例提供的指代词与名词实体关系图的一示例;
[0096] 图7为本申请实施例提供的判别第二文本是否合规的流程示意图;
[0097] 图8为本申请实施例提供的文本解析装置的结构示意图;
[0098] 图9为本申请实施例提供的文本解析设备的结构示意图。

具体实施方式

[0099] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于
本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他
实施例,都属于本发明保护的范围。
[0100] 为了将文本转换为计算机可理解的结构化表达,本案发明人进行了深入研究,最终提出了一种文本解析方法,该文本解析方法适用于需要将文本解析为计算机可理解的结
构化表达的应用场景,该文本解析方法可应用于具有数据处理的终端,也可应用于服
务器。接下来通过下述实施例对本申请提供的文本解析方法进行介绍。
[0101] 请参阅图1,示出了本申请实施例提供的文本解析方法的流程示意图,该方法可以包括:
[0102] 步骤S101:获取第一文本。
[0103] 其中,第一文本为指定领域的指定文档中的一个待解析的句子。
[0104] 作为发展中国家,我国工程建设量大,凡涉及新、扩、改建工程,都必须对设计成果进行检查,尤其对涉及公众安全、公众利益、强制性标准条文方面的审查尤为重要,目前的
检查方式为人工检查方式,然而,人工检查方式对人员专业能力要求极高,且存在成果检查
不全面、质量低、数据统计难等一系列问题。若要解决这些问题,就需要将待检查文档转换
为计算机可理解的结构化表达,进而利用计算机辅助人工进行文档检查,然而,建筑行业是
信息化程度低的行业,建筑领域的标准规范、图集、技术文件和政策法规主要介质是纸质文
档,也有部分数字文档,这些文档目前没有结构化的表达,导致计算机无法理解和利用,因
此,对文档的结构化表达一直以来是亟待解决的问题。
[0105] 有鉴于此,本实施例中指定领域的指定文档可以但不限定为工程建筑领域的标准规范、图集、技术文件、政策法规等。
[0106] 步骤S102:采用预设的解析规则解析第一文本。
[0107] 其中,解析规则用于将第一文本解析为计算机可理解的结构化描述。
[0108] 可选的,预设的解析规则可以为基于ABNF文法的解析规则,ABNF文法是一种基于巴科斯-瑙尔范式的、有自己的语法和派生规则的元语言,其能够定义推导规则,从而将输
入的文本解析为计算机可理解的结构化描述。优选的,可采用加通配符的ABNF文法进行解
析,加通配符的目的是为了提高解析成功率。
[0109] ABNF文法定义了句子的各个语法成分,包括句子的主体词、副词、助词、动词、数词等,示例性的,待解析文本为“窗台的高度不应小于2m”,其中,主体词为“窗台”和“高度”,助词是“的”,副词是“应”,动词是“小于”,数词是2,单位是“m”,采用基于ABNF文法的解析规则对“窗台的高度不应小于2m”进行解析可得到如下所示的解析结果,该解析结果即为计算机
可理解的结构化描述:
[0110]
[0111] 需要说明的是,本实施例中的解析规则包括至少一种,优选为多种,每种解析规则对应一种文本类型,文本类型可以包括数值类型、比较类型、成分类型、要求类型、条件类
型、复合类型中的一种或多种。
[0112] 其中,数值类型的文本描述一类元素的具体尺寸或某一方面具体的数值化要求,比如,“窗台的高度不应小于2米”;比较类型的文本描述两类元素组间的相对大小关系的约
束,比如,“局部净高的室内面积不应大于室内使用面积的1/3”;成分类型描述一类元素包
含某一或某些元素,比如,“每套住宅宜设阳台或平台”;要求类型的文本描述一类元素所满
足的必要条件,比如,“住宅地下室应采取有效防措施”;条件类型的文本描述一类元素在
满足一条件时应该满足的必要条件,比如,“楼梯井净宽大于0.11m时,楼梯井必须采取防止
儿童攀滑的措施”;复合类型为上述五种类型中至少两种类型的组合。
[0113] 本实施例采用至少一种解析规则(优选为多种)对第一文本进行解析,若至少一种解析规则中的任一种解析规则能够成功解析第一文本,则确定第一文本解析成功,若至少
一种解析规则中的每种解析规则均无法成功解析第一文本,则确定第一文本解析失败。
[0114] 示例性的,解析规则包括数值类型对应的解析规则、比较类型对应的解析规则、成分类型对应的解析规则、要求类型对应的解析规则以及条件类型对应的解析规则,在获得
第一文本后,若上述任一种解析规则能够成功解析第一文本,即确定第一文本解析成功,假
设数值类型对应的解析规则成功解析第一文本,则采用数值类型对应的解析规则对第一文
本进行解析得到的解析结果即为第一文本对应的结构化描述,同时说明第一文本为数值类
型的文本,若上述五种解析规则均无法成功解析第一文本,则确定第一文本解析失败,第一
文本解析失败表明第一文本无法直接解析。
[0115] 步骤S103:若第一文本解析失败,则对第一文本进行指代消解,指代消解后的文本作为第二文本。
[0116] 其中,指代消解指的是将将第一文本中的指代词转换为名词实体。
[0117] 步骤S104:对第二文本按预设的解析规则进行解析。
[0118] 本申请实施例提供的文本解析方法,在获得待解析的第一文本后,首先按预设的解析规则对第一文本进行解析,若解析成功,则解析结果即为计算机可理解的结构化描述,
若解析失败,则表明第一文本无法直接解析,此时,对第一文本进行指代消解,对指代消解
后的文本再次进行解析。由此可见,本申请实施例提供的文本解析方法能够将待解析文本
解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文本处理(比
如,文本检查),另外,本申请在待解析文本首次解析失败时,可通过对待解析文本进行指代
消解来提高解析成功率,即,本申请实施例提供的文本解析方法不但可将待解析文本解析
为计算机可理解的结构化描述,而且,具有较高的解析成功率。
[0119] 接下来对上述实施例中的步骤S103中的“对第一文本进行指代消解”进行介绍。
[0120] 请参阅图2,示出了对第一文本进行指代消解的流程示意图,可以包括:
[0121] 步骤S201:采用预先建立的文本归一化模型对第一文本进行归一化,归一化后得到的文本作为目标文本。
[0122] 其中,归一化模型用于将第一文本处理成规范的表达。
[0123] 可以理解的是,含义相同的句子可能具有多种不同的表达方式,比如,“如果窗户在卧室,那么它的长度不应低于1m”和“如果卧室有窗户,那么它的长度不应低于1m”具有相
同的含义,但表达方式不同,本步骤的目的在于将文本处理成规范的表达,比如,上述的两
个句子的规范表达为“卧室的窗户长度不应低于1m”。
[0124] 步骤S202:从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体,作为目标名词实体。
[0125] 示例性的,目标文本为“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”,其中,“卫生间”、“便器”和“洗浴器”为名词实体,“其”为指代词,步骤S202的目的在从“卫生间”、“便器”和“洗浴器”中确定“其”所指代的名词实体。
[0126] 步骤S203:将目标文本中的指代词替换为目标名词实体。
[0127] 假设上述示例“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”中“其”指代的是“卫生间”,则将“其”替换为“卫生间”,可得到指代消解后的文本,即第二文本“当
2
卫生间设置便器、洗浴器时,卫生间使用面积不小于2.00m”。
[0128] 以下对上述实施例中的“步骤S201:采用预先建立的文本归一化模型对第一文本进行归一化,归一化后得到的文本作为目标文本”进行介绍。
[0129] 在一种可能的实现方式中,本实施例中的文本归一化模型可以包括编码模块和解码模块,请参阅图3,示出了采用预先建立的文本归一化模型对第一文本进行归一化的流程
示意,可以包括:
[0130] 步骤S301:获取第一文本对应的空间位置向量。
[0131] 其中,第一文本对应的空间位置向量能够表征第一文本中各实体的空间位置关系。
[0132] 在本实施例中,可根据指定领域中对象的空间结构确定第一文本对应的空间位置向量。
[0133] 示例性的,第一文本为工程建筑领域的文本,则可根据工程领域中建筑的空间结构确定第一文本对应的空间位置向量,进一步的,可根据建筑的空间结构的空间层级确定
第一文本对应的空间位置向量。可以理解的是,建筑包含楼层、楼层包含房间、房间包含地
板,建筑、楼层、房间、地板均为空间结构,可根据这些空间结构的关系设定各个空间结构的
空间层级,比如,建筑的空间层级用10表示,楼层的空间层级用9表示,房间的空间层级用8
表示,地板的空间层级用7表示,其它非空间结构的空间层级均用0表示。
[0134] 需要说明是,建筑的空间结构不是无穷无尽的,可预先定义各个空间结构的空间层级(相当于预先设定了一个字典),当文本中出现空间结构的词语时,可根据预先定义的
各个空间结构的空间层级确定其空间层级,比如,文本中出现“房间”时,根据预先定义的各
个空间结构的空间层级可确定“房间”的空间层级是8。
[0135] 示例的是,第一文本为“房间的地板应具有防滑设置”,根据预先定义的各个空间结构的层级可确定“房间”的空间层级为8,“地板”的空间层级为7,则将“房”和“间”均用8表示,“地”和“板”均用7表示,“的”、“应”、“具”、“有”、“防”、“滑”、“设”、“施”均用“0”表示,“房间的地板应具有防滑设置”对应的空间位置向量为[8,8,0,7,7,0,0,0,0,0,0,0]。
[0136] 步骤S302:通过文本归一化模型的编码模块,将第一文本编码为上下文向量,作为第一文本对应的句向量。
[0137] 步骤S303:通过文本归一化模型的解码模块,根据第一文本对应的空间位置向量和第一文本对应的句向量,确定第一文本规范的表达。
[0138] 具体的,可先将第一文本对应的空间位置向量归一化(比如,空间位置向量中的元素归一化为0-1之间的值),然后将归一化后的空间位置向量与第一文本对应的句向量拼
接,拼接后的向量输入解码模块进行解码,从而获得第一文本规范的表达。
[0139] 需要说明的是,在对文本进行规范化时,引入空间位置向量的目的是,保证归一化后的文本中各实体(比如建筑的空间结构)所属关系的逻辑正确性,比如,卧室的层级大于
窗户的层级,最后解码模块输出的一定是“卧室的窗户”或“窗户在卧室”。
[0140] 可选的,本实施例中的文本归一化模型可以但不限定为Seq2Seq模型,请参阅图4,示出了本实施例提供的文本归一化模型的拓扑结构的一示例的示意图,如图4所示,401为
编码模块,402为解码模块,编码模块401的输入为第一文本,图4中的i1~in为第一文本的
各个字符,编码模块401的输出为第一文本对应的句向量,第一文本对应的空间位置向量S
归一化后与第一文本对应的句向量进行拼接,拼接后的向量输入解码模块402,解码模块
402对拼接后的向量进行解码,输出第一文本的规范化表达,图4中的O1~Om为第一文本的
规范化表达的各个字符。
[0141] 接下来对上述实施例中的“步骤S302:从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体,作为目标名词实体”的实现过程进行介绍。
[0142] 请参阅图5,示出了从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体的流程示意图,可以包括:
[0143] 步骤S501:根据目标文本的内容、指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图。
[0144] 其中,指代词与名词实体关系图中包括名词实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接。
[0145] 示例性的,目标文本为“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”,其中,“卫生间”、“便器”、“洗浴器”为名词实体,“其”为指代词,“使用面积”为指代词“其”的属性,“不小于2.00m2”为属性“使用面积”的属性值。
[0146] 其中,预设的节点连接规则根据指代词、名词实体、指代词的属性、指代词的属性值、名词实体的属性、名词实体的属性值的关系设定。
[0147] 具体的,预设的节点连接规则可以为:指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;对于任一名词实体节点,该名词实体
节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的
属性值节点;任意两个属性节点相互指向;任意两个名词实体节点之间相互指向;指代词节
点分别指向各个名词实体节点;各名词实体节点的属性值节点均指向指代词的属性值节
点。
[0148] 示例性的,目标文本为工程建筑领域的一文本“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”,则根据目标文本的内容、工程领域的知识图谱以及预设的节点连
接规则生成的指代词与名词实体关系图如图6所示,图6中包括3个名词实体节点、1个指代
词节点、4个属性节点和4个属性值节点,其中,3个名词实体节点分别为“洗浴器”节点、“卫
生间”节点、“便器”节点,1个指代词节点为“其”节点,4个属性节点分别为“面积”节点、“面积”节点、“使用面积”节点和“有效面积”节点、4个属性值节点分别为“<1.5m2”节点、“<1m2”节点、“>2m2”节点、“>1m2”节点,需要说明的是,“洗浴器”节点、“卫生间”节点、“便器”节点、“其”节点、“使用面积”节点、和“>2m2”节点根据目标文本的内容生成,其它节点根据名词实
体“卫生间”、“便器”和“洗浴器”以及知识图谱生成,比如,根据知识图谱可获知“卫生间”的有效面积大于1m2,基于此,可生成“有效面积”节点和“>1m2”节点,其它类似。
[0149] 需要说明的是,图6中最上方的“面积”节点和“<1.5m2”节点为“洗浴器”节点的属性节点和属性值节点,中间位置的“面积”节点和“<1m2”节点分别为“便器”节点的属性节点
和属性值节点,“有效面积”节点和“>1m2”节点为“卫生间”节点的属性节点和属性值节点,
2
“使用面积”节点和“>2m”节点为“其”节点的属性节点和属性值节点,图6中各节点之间根
据上述的连接规则进行连接,具体的:
[0150] a、指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点:“>2m2”节点指向“使用面积”节点,“使用面积”节点指向“其”节点;
[0151] b、名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点指向该名词实体节点的属性值节点:“洗浴器”节点指向图上方的“面积”节点,图上方的“面
积”节点指向“<1.5m2”节点,“卫生间”节点指向“有效面积”节点,“有效面积”节点指向“>
1m2”节点,“便器”节点指向图中部的“面积”节点,图中部的“面积”节点指向“<1m2”节点;
[0152] c、属性节点与属性节点之间相互指向:“有效面积”节点与图上方的“面积”节点之间相互指向,“有效面积”节点与图中部的“面积”节点之间相互指向,“有效面积”节点与“使
用面积”节点相互指向,两个“面积”节点之间相互指向,“使用面积”节点与图上方的“面积”
节点之间相互指向,“使用面积”节点与图中部的“面积”节点之间相互指向;
[0153] d、任意两个名词实体节点之间相互指向:“洗浴器”节点与“卫生间”节点之间相互指向,“洗浴器”节点与“便器”节点之间相互指向,“卫生间”与“便器”节点之间相互指向;
[0154] e、指代词节点分别指向各个名词实体节点:“其”节点分别指向“洗浴器”节点、“卫生间”节点、“便器”节点;
[0155] f、各名词实体节点的属性值节点均指向指代词的属性值节点:“<1.5m2”节点、“>1m2”节点、“<1m2”节点分别指向“>2m2”节点。
[0156] 步骤S502:根据指代词与名词实体关系图,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体。
[0157] 具体的,根据指代词与名词实体关系图,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体的过程可以包括:
[0158] 步骤S502-1、确定指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率。
[0159] 首先对确定指代词与名词实体关系图中各个节点的初始权重进行介绍。
[0160] 确定任一名词实体节点的初始权重的过程包括:计算指代词与该名词实体节点所代表的名词实体的距离;计算该名词实体节点所代表的名词实体与指代词的句子距离;将
上述两个距离求和,求和得到的值作为该名词实体节点的初始权重。需要说明的是,也可将
上述两个距离中的任一距离作为该名词实体节点的初始权重。
[0161] 具体的,指代词R与一名词实体节点所代表的名词实体Ei的距离可通过下式计算:
[0162]
[0163] 其中,y1(R,Ei)为指代词的第一个字符与名词实体Ei的第一个字符的字符串距离,N为名词实体节点的个数。
[0164] 具体的,名词实体节点所代表的名词实体Ei与指代词R的句子距离可通过下式计算:
[0165]
[0166] 其中,y2(R,Ei)为指代词的第一个字符与名词实体Ei的第一个字符的句子数距离,N为名词实体节点的个数。
[0167] 在本实施例中,可将指代词节点的初始权重设定为1,各个属性节点和属性值节点的初始权重均设置为0。
[0168] 接下对确定指代词与名词实体关系图中具有直接连接关系的节点间的转移概率进行介绍。
[0169] a、两个名词实体节点之间的转移概率
[0170] 确定两个名词实体节点之间的转移概率的过程包括:根据两个名词实体节点所代表的两个名词实体之间的关系,确定两个名词实体节点之间的转移概率。
[0171] 具体的,具有直接连接关系的两个名词实体节点之间的转移概率可通过下式确定:
[0172]
[0173] 其中,E1和E2为两个名词实体节点所代表的两个名词实体,initE1-E2为E1和E2关系的平滑因子,其可以为预先设定的一较小值,比如0.001。
[0174] 需要说明的是,若E1属于E2,或者,E1和E2是并列关系,则,两个名词实体节点之间的转移概率为initE1-E2加1;若E1包含E2,并且,E1与E2在分句中是主宾关系,或者在分句中
E2修饰E1,则两个名词实体节点之间的转移概率为initE1-E2加0.1;若E2包含E1,并且,E2与
E1在分句中是主宾关系,或者在分句中E1修饰E2,则两个名词实体节点之间的转移概率为
initE1-E2加0.9;若为其它情况,则两个名词实体节点之间的转移概率为initE1-E2加0.5。
[0175] b、指代词节点与名词实体节点之间的转移概率
[0176] 确定指代词节点与名词实体节点之间的转移概率包括:确定指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率,作为指代词节点与名
词实体节点之间的转移概率。
[0177] 具体的,指代词节点的属性节点所代表的属性与名词实体节点所代表的名词实体共同出现的概率可通过下式计算:
[0178]
[0179] 其中,式(4)中的分子为名词实体节点所代表的名词实体E1与指代词节点的属性节点所代表的属性AR共同出现的次数,分母为所有名词实体节点分别代表的名词实体与指
代词节点的属性节点所代表的属性AR共同出现的次数之和。
[0180] c、属性节点与属性节点之间的转移概率
[0181] 确定两个属性节点之间的转移概率包括:通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个属性的相似度,确定两个属性
节点之间的转移概率。
[0182] 具体的,两个属性节点所代表的两个属性分别对应的词向量的相似度可通过下式确定:
[0183]
[0184] 其中,式(5)中的fword2vec为两个属性节点所代表的两个属性A1和A2基于词向量的余弦相似度,fdice为A1和A2的dice系数。
[0185] 进一步,fword2vec可通过下式计算:
[0186]
[0187] 其中,式(6)的分子为A1的词向量与A2的词向量的点乘结果,分母为A1的模值与A2的模值的乘积。
[0188] fdice可通过下式计算:
[0189]
[0190] 其中,式(7)的分子为A1与A2的字符串交集,分母为A1的字符串长度与A2的字符串长度之和。
[0191] d、属性值节点与属性值节点之间的转移概率
[0192] 确定两个属性值节点之间的转移概率包括:根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
[0193] 具体的,两个属性值节点之间的转移概率通过下式计算:
[0194]
[0195] 其中,initV1-V2为两个属性值节点分别代表的两个属性值V1与V2关系的平滑因子,其可以为预先设定的一较小值,比如0.001。
[0196] 上式(8)中的fp根据V1和V2的类型确定,具体的:
[0197] d1、V1和V2均为文本
[0198] fp为V1与V2基于词向量的余弦相似度与A1和A2的dice系数之和。V1与V2基于词向量的余弦相似度可根据上式(6)计算得到(将上式(6)中的A1和A2替换为V1和V2),A1和A2的
dice系数可根据上式(7)计算得到(将上式(7)中的A1和A2替换为V1和V2)。
[0199] d2、V1和V2中一个为文本,另一个为数值或数值范围
[0200] fp的值为0。
[0201] d3、V1和V2均为数值
[0202] 若V1和V2单位不同,则fp的值为0;若V1和V2单位相同,则fp的值为V1和V2中的最小值与V1和V2中的最大值的商,即:
[0203]
[0204] d4、V1和V2均为数值范围
[0205] 若V1和V2单位不同,则fp的值为0;若V1和V2单位相同,假设数值符合高斯分布且以数值范围中点为均值,数值范围为0.95置信度的范围区间,则fp可以为两个高斯分布(即
两个数值范围)的KL散度,其中,高斯分布为:
[0206]
[0207] 两个数值范围的KL散度通过下式确定:
[0208]
[0209] 其中,p(x)和q(x)为两个数值范围,D(p∥q)即为fp。
[0210] d5、V1和V2中一个为数值,另一个为数值范围
[0211] 如果数值属于数值范围,则fp的值为1,否则,fp的值为0,即:
[0212]
[0213] e、名词实体节点与该名词实体节点的属性节点之间的转移概率
[0214] 名词实体节点与该名词实体节点的属性节点之间的转移概率设定为1。
[0215] f、指代词节点与指代词节点的属性节点之间的转移概率
[0216] 指代词节点与指代词节点的属性节点之间的转移概率设定为1。
[0217] g、属性节点与属性值节点之间的转移概率
[0218] 属性节点与该属性节点的属性值节点之间的转移概率设定为1。
[0219] h、指代词节点的属性节点与指代词节点的属性值节点之间的转移概率
[0220] 指代词节点的属性节点与指代词节点的属性值节点之间的转移概率设定为1。
[0221] 获得具有直接连接关系的节点间的转移概率后,需要将各转移概率进行归一化(归一化为0-1之间的值)。另外,不具有直接连接关系的节点间的转移概率为0。
[0222] 步骤S502-2、根据指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从目标文本中所包含的名词实体中,确定目标文本中的
指代词所指代的名词实体。
[0223] 具体的,步骤S502-2的实现过程可以包括:遍历指代词与名词实体关系图中的节点:针对当前遍历到的节点n,选取一预设范围内的概率(0-1之间的概率)作为参考概率p′,
对于当前遍历到的节点n所指向的每个节点mk,若当前遍历到的节点n与该节点mk之间的转
移概率pk大于参考概率p′,则根据当前遍历到的节点n的当前权重ω和当前遍历到的节点n
与该节点mk之间的转移概率pk更新该节点mk的当前权重,若当前遍历到的节点n与该节点mk
之间的转移概率pk小于或等于参考概率p′,则维持该节点mk的当前权重不变;若遍历次数达
到预设次数,或者,指代词与名词实体关系图中各实体节点的权重趋于稳定,则结束遍历,
根据指代词与名词实体关系图中各名词实体节点的当前权重确定目标文本中的指代词所
指代的名词实体,否则,返回“遍历指代词与名词实体关系图中的节点”。
[0224] 其中,根据当前遍历到的节点n的当前权重ω和当前遍历到的节点n与该节点mk之间的转移概率pk更新该节点mk的当前权重的过程包括:在节点mk的当前权重ω上加上权重
ω′,ω′为当前遍历到的节点n的当前权重与pk(即当前遍历到的节点n与节点mk之间的转移
概率)的乘积。
[0225] 其中,根据指代词与名词实体关系图中各名词实体节点的当前权重确定目标文本中的指代词所指代的名词实体的过程包括:将当前权重最大的名词实体节点所代表的名词
实体确定为目标文本中的指代词所指代的名词实体。
[0226] 下面以图6示出的指代词与名词实体关系图为例,对步骤S502-2的具体实现过程进行说明。
[0227] 下表1和下表2分别示出了图6中各节点的初始权重以及节点间的转移概率(表中的面积-1指的是便器的面积,面积-2指的是洗浴器的面积):
[0228] 表1各节点的初始权重
[0229]节点 节点的权重
其 0.54
卫生间 0.22
便器 0.10
洗浴器 0.14
使用面积 0.00
有效面积 0.00
面积-1 0.00
面积-2 0.00
>2m2 0.00
>1m2 0.00
<1m2 0.00
<1.5m2 0.00
[0230] 表2节点间的转移概率
[0231]
[0232] 遍历图6示出的指代词与名词实体关系图中的各个节点:
[0233] 假设遍历到的第一个节点为“便器”节点,针对“便器”节点设定一参考概率,比如0.3,从图6中可以看出,“便器”节点分别指向“洗浴器”节点、“卫生间”节点和“面积”节点,由表2可获得“便器”节点与“卫生间”节点之间的转移概率为0.25,由于0.25小于参考概率
0.3,则不对“卫生间”节点的当前权重进行更新,“便器”节点与“洗浴器”节点之间的转移概
率为0.4,由于0.4大于参考概率0.3,因此,需要对“洗浴器”节点的当前权重进行更新,更新
方式为,在“洗浴器”节点的当前权重上加上(“便器”节点的当前权重0.1*转移概率0.4),
“便器”节点与“面积”节点之间的转移概率为0.35,由于0.35大于参考概率0.3,因此,需要
对“面积”节点的当前权重进行更新,即,在“洗浴器”节点的当前权重上加上(“便器”节点的
当前权重0.1*转移概率0.35),至此,针对“便器”节点完成了其指向的各个节点的权重的更
新;接着遍历下一个节点,采用上述的方式对下一个节点指向的各个节点的权重进行更新,
以此类推,直至遍历完所有的节点,如此,完成一次遍历。
[0234] 按上述的遍历过程进行多次遍历,在一种可能的实现方式中,结束遍历的条件为,遍历次数达到预设的遍历次数,比如,预设遍历次数为300,则遍历300次后,结束遍历,在另
一种可能的实现方式中,结束遍历的条件为,各名词实体节点的权重趋于稳定,各实体节点
的权重趋于稳定的体现可以为,连续N个权重的变化小于预设值(比如,0.001),其中,连续N
个权重的变化小于预设值指的是N个权重中的最大值与最小值的差值小于预设值,N可根据
指代词与名词实体关系图中节点的总数量确定,比如,N可以为节点的总数量加上一设定值
(比如节点的总数量加4)。
[0235] 下表3示出了结束遍历后,图6中各节点的最终权重:
[0236] 表3各节点的最终权重
[0237]节点 节点的权重
其 0.05
卫生间 0.24
便器 0.11
洗浴器 0.10
使用面积 0.04
有效面积 0.03
面积(便器) 0.07
面积(洗浴器) 0.12
>2m2 0.07
>1m2 0.06
2
<1m 0.07
<1.5m2 0.02
[0238] 遍历结束后,根据各个名词实体节点的当前权重,确定目标文本中的指代词所指代的名词实体,具体的,将当前权重最大的名词实体节点所代表的名词实体确定为目标文
本中指代词所指代的实体。由表3可知,权重最大的名词实体节点为“卫生间”节点,则目标
文本“当卫生间设置便器、洗浴器时,其使用面积不小于2.00m2”中的指代词“其”所指代的
是“卫生间”。
[0239] 在确定出目标文本中指代词所指代的名词实体后,将指代词替换为确定出的名词实体,替换后得到的文本即为第二文本,接下来便可利用预设的解析规则对第二文本进行
解析。
[0240] 需要说明的是,对第二文本按预设的解析规则进行解析,可能存在两种情况,其一,解析成功,此时,解析结果即为计算机可理解的结构化表达,其二,解析失败,若解析失
败,可确定第二文本为描述类文本,需要说明的是,描述类文本用于描述指定领域的对象应
符合的特征,比如,描述工程领域的一类建筑应符合某些特征(如,“住宅结构在规定的设计
使用年限内必须具有足够的可靠性”)。
[0241] 优选的,在确定第二文本为描述类文本后,上述实施例提供的文本解析方法还可以包括:判别第二文本是否合规。
[0242] 请参阅图7,示出了判别第二文本是否合规的流程示意图,可以包括:
[0243] 步骤S701:获取指定领域的对象的模型。
[0244] 其中,指定领域的对象的模型可以为工程建筑领域的BIM模型,BIM模型为三维建筑模型,该模型包含了建筑的所有信息,比如,卫生间的面积、窗台的高度等信息。
[0245] 步骤S702:将指定领域的对象的模型转换为文本化描述,获得模型对应的文档。
[0246] 步骤S703:根据第一文本分别与模型对应的文档中各个句子的相似度,确定第一文本是否合规。
[0247] 具体的,分别计算第一文本与模型对应的文档中各个句子的相似度,从计算得到的相似度中获取最大相似度,若最大相似度大于预设的相似度阈值,则确定第一文本合规,
否则,确定第一文本不合规。第一文本合规,则保留第一文本,第一文本不合规,可将第一文
本删除。
[0248] 本申请实施例提供的文本解析方法,对于可解析的非描述类文本,可将其解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文本处理(比如,文本
检查),对于不可解析的描述类文本,可自动对其进行合规性检查,从而节省了人力。
[0249] 本申请实施例还提供了一种文本解析装置,下面对本申请实施例提供的文本解析装置进行描述,下文描述的文本解析装置与上文描述的文本解析方法可相互对应参照。
[0250] 请参阅图8,示出了本申请实施例提供的一种文本解析装置的结构示意图,该装置可以包括:文本获取模块801、第一文本解析模块802、指代消解模块803和第二文本解析模
块804。
[0251] 文本获取模块801,用于获取第一文本,第一文本为指定领域的指定文档中的一个句子。
[0252] 第一文本解析模块802,用于采用预设的解析规则解析第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述。
[0253] 指代消解模块803,用于当第一文本解析失败时,对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本。
[0254] 第二文本解析模块804,用于对第二文本按预设的解析规则进行解析。
[0255] 本申请实施例提供的文本解析装置能够将待解析文本解析为计算机可理解的结构化描述,这使得后续可利用计算机辅助人工进行文本处理(比如,文本检查),另外,本申
请实施例在待解析文本首次解析失败时,可通过对待解析文本进行指代消解来提高解析成
功率,即,本申请实施例提供的文本解析方法不但可将待解析文本解析为计算机可理解的
结构化描述,而且,具有较高的解析成功率。
[0256] 在一种可能的实现方式中,解析规则包括至少一种,每种解析规则对应一种文本类型。
[0257] 上述实施例提供的文本解析装置中的第一文本解析模块802,具体用于采用至少一种解析规则对所述第一文本进行解析,若所述至少一种解析规则中的任一种解析规则能
够成功解析所述第一文本,则确定所述第一文本解析成功,若所述至少一种解析规则中的
每种解析规则均无法成功解析所述第一文本,则确定所述第一文本解析失败。
[0258] 在一种可能的实现方式中,上述实施例提供的文本解析装置中的指代消解模块803包括:文本归一化模块、指代对象确定模块和指代词替换模块。
[0259] 文本归一化模块,用于采用预先建立的文本归一化模型对所述第一文本进行归一化,归一化后得到的文本作为目标文本,其中,文本归一化模型用于将第一文本处理成规范
的表达。
[0260] 指代对象确定模块,用于从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体,作为目标名词实体。
[0261] 指代词替换模块,用于将目标文本中的指代词替换为目标名词实体。
[0262] 在一种可能的实现方式中,上述的文本归一化模型包括编码模块和解码模块。
[0263] 文本归一化模块,具体用于获取第一文本对应的空间位置向量,通过所述文本归一化模型的编码模块,将第一文本编码为上下文向量,作为第一文本对应的句向量,通过文
本归一化模型的解码模块,根据第一文本对应的空间位置向量和第一文本对应的句向量,
确定所述第一文本规范的表达。
[0264] 在一种可能的实现方式中,上述的指代对象确定模块包括:指代词与名词实体关系图生成子模块和指代对象确定子模块。
[0265] 指代词与名词实体关系图生成子模块,用于根据目标文本的内容、指定领域的知识图谱以及预设的节点连接规则,生成指代词与名词实体关系图。
[0266] 其中,指代词与名词实体关系图包括实体节点、指代词节点、属性节点和属性值节点,节点之间通过有向连接线连接,预设的节点连接规则根据指代词、实体、指代词的属性、
指代词的属性值、实体的属性、实体的属性值的关系设定。
[0267] 指代对象确定子模块,用于根据指代词与名词实体关系图,从目标文本中所包含的名词实体中,确定目标文本中的指代词所指代的名词实体。
[0268] 在一种可能的实现方式中,上述的预设的节点连接规则为:指代词节点的属性值节点指向指代词节点的属性节点,指代词节点的属性节点指向指代词节点;对于任一名词
实体节点,该名词实体节点指向该名词实体节点的属性节点,该名词实体节点的属性节点
指向该名词实体节点的属性值节点;任意两个属性节点之间相互指向;任意两个名词实体
节点之间相互指向;指代词节点分别指向各个名词实体节点;各名词实体节点的属性值节
点均指向指代词的属性值节点。
[0269] 在一种可能的实现方式中,上述的指代对象确定子模块可以包括:初始权重确定子模块、转移概率确定子模块和名词实体确定子模块。
[0270] 初始权重确定子模块,用于确定指代词与名词实体关系图中各个节点的初始权重。
[0271] 转移概率确定子模块,用于确定具有直接连接关系的节点间的转移概率。
[0272] 名词实体确定子模块,用于根据指代词与名词实体关系图中各个节点的初始权重,以及具有直接连接关系的节点间的转移概率,从目标文本中所包含的名词实体中,确定
目标文本中的指代词所指代的名词实体。
[0273] 在一种可能的实现方式中,上述的转移概率确定子模块在确定指代词节点与名词实体节点之间的转移概率时,具体用于确定指代词节点的属性节点所代表的属性与名词实
体节点所代表的名词实体共同出现的概率,作为指代词节点与名词实体节点之间的转移概
率。
[0274] 转移概率确定子模块在确定两个属性节点之间的转移概率时,具体用于通过两个属性节点所代表的两个属性分别对应的词向量的相似度,以及两个属性节点所代表的两个
属性的相似度,确定两个属性节点之间的转移概率。
[0275] 转移概率确定子模块在确定两个属性值节点之间的转移概率时,具体用于根据两个属性值节点所代表的两个属性值的类型,确定两个属性值节点之间的转移概率。
[0276] 在一种可能的实现方式中,上述的名词实体确定子模块,具体用于遍历指代词与名词实体关系图中的节点:针对当前遍历到的节点,选取一预设范围内的概率作为参考概
率,对于当前遍历到的节点所指向的每个节点,若当前遍历到的节点与该节点之间的转移
概率大于所述参考概率,则根据当前遍历到的节点的当前权重和当前遍历到的节点与该节
点之间的转移概率更新该节点的当前权重,若当前遍历到的节点与该节点之间的转移概率
小于或等于所述参考概率,则维持该节点的当前权重不变;若遍历次数达到预设次数,或
者,指代词与名词实体关系图中各实体节点的权重趋于稳定,则根据指代词与名词实体关
系图中各实体节点的当前权重确定目标文本中的指代词所指代的名词实体;否则,返回所
述遍历指代词与名词实体关系图中的节点。
[0277] 在一种可能的实现方式中,上述实施例提供的文本解析装置还可以包括:文本确定模块和文本判别模块。
[0278] 文本确定模块,用于当第二文本解析失败时,确定第二文本为描述类文本,其中,描述类文本用于描述所述指定领域的对象应符合的特征。
[0279] 文本判别模块,用于判别第二文本是否合规。
[0280] 在一种可能的实现方式中,上述的文本判别模块可以包括:模型获取子模块、模型转换子模块和文本判别子模块。
[0281] 模型获取子模块,用于获取指定领域的对象的模型。
[0282] 模型转换子模块,用于将指定领域的对象的模型转换为文本化描述,获得模型对应的文档。
[0283] 文本判别子模块,用于根据第二文本分别与模型对应的文档中各个句子的相似度,确定第二文本是否合规。
[0284] 在一种可能的实现方式中,文本判别子模块,具体用于获取第二文本分别与模型对应的文档中各个句子的相似度中的最大相似度;若最大相似度大于预设的相似度阈值,
则确定第二文本合规,否则,确定第二文本不合规。
[0285] 本申请实施例还提供了一种文本解析设备,请参阅图9,示出了该文本解析设备的结构示意图,该文本解析设备可以包括:至少一个处理器901,至少一个通信接口902,至少
一个存储器903和至少一个通信总线904;
[0286] 在本申请实施例中,处理器901、通信接口902、存储器903、通信总线904的数量为至少一个,且处理器901、通信接口902、存储器903通过通信总线904完成相互间的通信;
[0287] 处理器901可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电
路等;
[0288] 存储器903可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
[0289] 其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0290] 获取第一文本,第一文本为指定领域的指定文档中的一个句子;
[0291] 采用预设的解析规则解析所述第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述;
[0292] 若第一文本解析失败,则对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
[0293] 对第二文本按预设的解析规则进行解析。
[0294] 可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0295] 本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0296] 获取第一文本,第一文本为指定领域的指定文档中的一个句子;
[0297] 采用预设的解析规则解析所述第一文本,其中,解析规则用于将第一文本解析为计算机可理解的结构化描述;
[0298] 若第一文本解析失败,则对第一文本进行指代消解,以将第一文本中的指代词转换为名词实体,指代消解后的文本作为第二文本;
[0299] 对第二文本按预设的解析规则进行解析。
[0300] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作
之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意
在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者
设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排
除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0301] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0302] 对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的
一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明
将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一
致的最宽的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈