首页 / 专利库 / 资料储存系统 / 大数据 / 一种文献处理方法及装置

一种文献处理方法及装置

阅读:452发布:2021-05-17

专利汇可以提供一种文献处理方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种文献处理方法,属于文献处理领域,解决了 现有技术 中文献 数据处理 效率低下的问题。所述方法包括:获取用于表达目标文献的体例特征的特征 模版 ;根据特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值;根据确定的业务特征的特征值和特征模版,输出目标文献的预设格式文献信息。本申请 实施例 公开的文献处理方法,基于特征模版进行文献数据提取,不需要进行 大数据 量的语义识别,有效降低了运算量,有助于提升文献数据提取的效率。,下面是一种文献处理方法及装置专利的具体信息内容。

1.一种文献处理方法,其特征在于,包括:
获取用于表达目标文献的体例特征的特征模版,所述特征模版包括:业务特征;
根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值;
根据确定的所述业务特征的特征值和所述特征模版,输出所述目标文献的预设格式文献信息。
2.根据权利要求1所述的方法,其特征在于,所述获取用于表达目标文献的体例特征的特征模版的步骤之前,还包括:
根据所述目标文献的业务特征和所述业务特征在所述目标文献中出现的先后顺序及重复规律,构建具有体例层级关系的特征模版。
3.根据权利要求2所述的方法,其特征在于,所述特征模版包括每个体例层级的格式特征和业务特征,所述根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值的步骤,包括:
按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本;
根据识别得到的文本,确定所述目标文献的各体例层级的业务特征的特征值。
4.根据权利要求3所述的方法,其特征在于,所述文本文件中依次记录所述目标文献中的文本,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本的步骤,包括:
起始条件确定子步骤,用于确定所述特征模版中的最高体例层级为指定体例层级,以及,确定所述文本文件的首个文本块为指定文本块;
逐层匹配子步骤,用于按照体例层级关系由高到低的顺序,依次将所述特征模版中所述指定体例层级以下各体例层级的格式特征和业务特征确定为当前格式特征和当前业务特征,并在每次确定所述当前格式特征和当前业务特征之后,分别执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作,直至所述文本文件遍历完成,或者,直至首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功;
其中,再次执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作时,所述指定文本块为前一次确定的首个与所述当前格式特征和当前业务特征匹配的文本块的后一个文本块。
5.根据权利要求4所述的方法,其特征在于,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本的步骤,还包括:
在首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功之后,执行以下操作:
确定首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块的后一个文本块为指定文本块;
确定与所述指定文本块格式匹配的所述格式特征;
判断确定与所述指定文本块格式匹配的所述格式特征是否成功;
若成功,则确定与所述指定文本块格式匹配的所述格式特征所属体例层级为指定体例层级,跳转至所述逐层匹配子步骤;
否则,确定所述指定文本块的后一个文本块为指定文本块,跳转至确定与所述指定文本块格式匹配的所述格式特征的子步骤。
6.根据权利要求5所述的方法,其特征在于,所述确定与所述指定文本块格式匹配的所述格式特征的步骤,包括:
根据所述指定文本块的格式或所述指定文本块及其上下文文本块的格式,确定与所述指定文本块格式匹配的所述格式特征。
7.根据权利要求4或5所述的方法,其特征在于,所述从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的步骤,包括:
从所述描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块;
判断当前业务特征是否配置有对应的业务特征字典;
若是,则通过所述对应的业务特征字典,对确定的首个与所述当前格式特征匹配的文本块的文本内容进行验证;
若验证成功,则确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块为首个与所述当前格式特征和当前业务特征匹配的文本块;
若验证失败,且所述首个与所述当前格式特征匹配的文本块非所述文本文件中的最后一个文本块,则确定所述首个与所述当前格式特征匹配的文本块的后一个文本块为指定文本块,并跳转至从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块的步骤,重新确定首个与所述当前格式特征匹配的文本块。
8.一种文献处理装置,其特征在于,包括:
特征模版获取模块,用于获取用于表达目标文献的体例特征的特征模版,所述特征模版包括:业务特征;
文本识别模块,用于根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值;
文件信息输出模块,用于根据确定的所述业务特征的特征值和所述特征模版,输出所述目标文献的预设格式文献信息。
9.根据权利要求8所述的装置,其特征在于,在获取用于表达目标文献的体例特征的特征模版之前,所述装置还包括:
特征模版构建模块,用于根据所述目标文献的业务特征和所述业务特征在所述目标文献中出现的先后顺序及重复规律,构建具有体例层级关系的特征模版。
10.根据权利要求9所述的装置,其特征在于,所述特征模版包括每个体例层级的格式特征和业务特征,在根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值时,所述文本识别模块进一步用于:
按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本;
根据识别得到的文本,确定所述目标文献的各体例层级的业务特征的特征值。
11.根据权利要求10所述的装置,其特征在于,所述文本文件中依次记录所述目标文献中的文本块,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本,包括:
起始条件确定子步骤,用于确定所述特征模版中的最高体例层级为指定体例层级,以及,确定所述文本文件的首个文本块为指定文本块;
逐层匹配子步骤,用于按照体例层级关系由高到低的顺序,依次将所述特征模版中所述指定体例层级以下各体例层级的格式特征和业务特征确定为当前格式特征和当前业务特征,并在每次确定所述当前格式特征和当前业务特征之后,分别执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作,直至所述文本文件遍历完成,或者直至首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功;
其中,再次执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作时,所述指定文本块为前一次确定的首个与所述当前格式特征和当前业务特征匹配的文本块的后一个文本块。
12.根据权利要求11所述的装置,其特征在于,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本,还包括:
在首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功之后,执行以下操作:
确定首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块的后一个文本块为指定文本块;
确定与所述指定文本块格式匹配的所述格式特征;
判断确定与所述指定文本块格式匹配的所述格式特征是否成功;
若成功,则确定与所述指定文本块格式匹配的所述格式特征所属体例层级为指定体例层级,跳转至所述逐层匹配子步骤;
否则,确定所述指定文本块的后一个文本块为指定文本块,跳转至确定与所述指定文本块格式匹配的所述格式特征的子步骤。
13.根据权利要求12所述的装置,其特征在于,所述确定与所述指定文本块格式匹配的所述格式特征的步骤,包括:
根据所述指定文本块的格式或所述指定文本块及其上下文文本块的格式,确定与所述指定文本块格式匹配的所述格式特征。
14.根据权利要求11或12所述的装置,其特征在于,所述从所述描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块,包括:
从所述描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块;
判断当前业务特征是否配置有对应的业务特征字典;
若是,则通过所述对应的业务特征字典,对确定的首个与所述当前格式特征匹配的文本块的文本内容进行验证;
若验证成功,则确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块为首个与所述当前格式特征和当前业务特征匹配的文本块;
若验证失败,且所述首个与所述当前格式特征匹配的文本块非所述文本文件中的最后一个文本块,则确定所述首个与所述当前格式特征匹配的文本块的后一个文本块为指定文本块,并跳转至从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块的步骤,重新确定首个与所述当前格式特征匹配的文本块。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的文献处理方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任意一项所述的文献处理方法的步骤。

说明书全文

一种文献处理方法及装置

技术领域

[0001] 本申请涉及文献处理领域,尤其涉及一种文献处理方法及装置。

背景技术

[0002] 古籍文献是研究某一时期和/或某一地域的自然、社会、政治、经济、文化等方面情况的重要依据。如地方志就是全面记载某一时期某一地域的自然、社会、政治、经济、文化等方面情况的一种文献。为了便于开展研究,以及便于文献信息的查阅,古籍文献的结构化显得尤为重要。在古籍文献的结构化过程中,通常做法是首先通过扫描识别,得到碎片化文献中的词语;然后,再通过对文献中的词语进行语义识别,从而对碎片化的文献内容进行归类整理或索引。
[0003] 现有技术中的文献处理方法需要进行大数据量的语义识别,存在文献处理效率低下的问题。发明内容
[0004] 本申请实施例提供一种文献处理方法及装置,通过特征模板对文献数据进行识别匹配,以解决文献数据处理效率低下的问题。
[0005] 第一方面,本申请实施例提供了一种文献处理方法,包括:
[0006] 获取用于表达目标文献的体例特征的特征模版,所述特征模版包括:业务特征;
[0007] 根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值;
[0008] 根据确定的所述业务特征的特征值和所述特征模版,输出所述目标文献的预设格式文献信息。
[0009] 可选的,所述获取用于表达目标文献的体例特征的特征模版的步骤之前,还包括:
[0010] 根据所述目标文献的业务特征和所述业务特征在所述目标文献中出现的先后顺序及重复规律,构建具有体例层级关系的特征模版。
[0011] 可选的,所述特征模版包括每个体例层级的格式特征和业务特征,所述根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值的步骤,包括:
[0012] 按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本;
[0013] 根据识别得到的文本,确定所述目标文献的各体例层级的业务特征的特征值。
[0014] 可选的,所述文本文件中依次记录所述目标文献中的文本,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本的步骤,包括:
[0015] 起始条件确定子步骤,用于确定所述特征模版中的最高体例层级为指定体例层级,以及,确定所述文本文件的首个文本块为指定文本块;
[0016] 逐层匹配子步骤,用于按照体例层级关系由高到低的顺序,依次将所述特征模版中所述指定体例层级以下各体例层级的格式特征和业务特征确定为当前格式特征和当前业务特征,并在每次确定所述当前格式特征和当前业务特征之后,分别执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作,直至所述文本文件遍历完成,或者直至首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功;
[0017] 其中,再次执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作时,所述指定文本块为前一次确定的首个与所述当前格式特征和当前业务特征匹配的文本块的后一个文本块。
[0018] 可选的,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本的步骤,还包括:
[0019] 在首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功之后,执行以下操作:
[0020] 确定首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块的后一个文本块为指定文本块;
[0021] 确定与所述指定文本块格式匹配的所述格式特征;
[0022] 判断确定与所述指定文本块格式匹配的所述格式特征是否成功;
[0023] 若成功,则确定与所述指定文本块格式匹配的所述格式特征所属体例层级为指定体例层级,跳转至所述逐层匹配子步骤;否则,确定所述指定文本块的后一个文本块为指定文本块,跳转至确定与所述指定文本块格式匹配的所述格式特征的子步骤。
[0024] 可选的,所述确定与所述指定文本块格式匹配的所述格式特征的步骤,包括:
[0025] 根据所述指定文本块的格式或所述指定文本块及其上下文文本块的格式,确定与所述指定文本块格式匹配的所述格式特征。
[0026] 可选的,所述从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的步骤,包括:
[0027] 从所述描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块;
[0028] 判断当前业务特征是否配置有对应的业务特征字典;
[0029] 若是,则通过所述对应的业务特征字典,对确定的首个与所述当前格式特征匹配的文本块的文本内容进行验证;
[0030] 若验证成功,则确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块为首个与所述当前格式特征和当前业务特征匹配的文本块;
[0031] 若验证失败,且所述首个与所述当前格式特征匹配的文本块非所述文本文件中的最后一个文本块,则确定所述首个与所述当前格式特征匹配的文本块的后一个文本块为指定文本块,并跳转至从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块的步骤,重新确定首个与所述当前格式特征匹配的文本块。
[0032] 第二方面,本申请实施例还提供了一种文献处理装置,包括:
[0033] 特征模版获取模块,用于获取用于表达目标文献的体例特征的特征模版,所述特征模版包括:业务特征;
[0034] 文本识别模块,用于根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值;
[0035] 文件信息输出模块,用于根据确定的所述业务特征的特征值和所述特征模版,输出所述目标文献的预设格式文献信息。
[0036] 可选的,在获取用于表达目标文献的体例特征的特征模版之前,所述装置还包括:
[0037] 特征模版构建模块,用于根据所述目标文献的业务特征和所述业务特征在所述目标文献中出现的先后顺序及重复规律,构建具有体例层级关系的特征模版。
[0038] 可选的,所述特征模版包括每个体例层级的格式特征和业务特征,在根据所述特征模版对描述所述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值时,所述文本识别模块进一步用于:
[0039] 按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本;
[0040] 根据识别得到的文本,确定所述目标文献的各体例层级的业务特征的特征值。
[0041] 可选的,所述文本文件中依次记录所述目标文献中的文本块,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本,包括:
[0042] 起始条件确定子步骤,用于确定所述特征模版中的最高体例层级为指定体例层级,以及,确定所述文本文件的首个文本块为指定文本块;
[0043] 逐层匹配子步骤,用于按照体例层级关系由高到低的顺序,依次将所述特征模版中所述指定体例层级以下各体例层级的格式特征和业务特征确定为当前格式特征和当前业务特征,并在每次确定所述当前格式特征和当前业务特征之后,分别执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作,直至所述文本文件遍历完成,或者直至首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功;
[0044] 其中,再次执行从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块的操作时,所述指定文本块为前一次确定的首个与所述当前格式特征和当前业务特征匹配的文本块的后一个文本块。
[0045] 可选的,所述按照体例层级关系由高到低的顺序,在所述描述所述目标文献的文本文件中从前向后依次识别与所述特征模版中各体例层级的格式特征和业务特征匹配的文本,还包括:
[0046] 在首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功之后,执行以下操作:
[0047] 确定首个与所述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块的后一个文本块为指定文本块;
[0048] 确定与所述指定文本块格式匹配的所述格式特征;
[0049] 判断确定与所述指定文本块格式匹配的所述格式特征是否成功;
[0050] 若成功,则确定与所述指定文本块格式匹配的所述格式特征所属体例层级为指定体例层级,跳转至所述逐层匹配子步骤;否则,确定所述指定文本块的后一个文本块为指定文本块,跳转至确定与所述指定文本块格式匹配的所述格式特征的子步骤。
[0051] 可选的,所述确定与所述指定文本块格式匹配的所述格式特征的步骤,包括:
[0052] 根据所述指定文本块的格式或所述指定文本块及其上下文文本块的格式,确定与所述指定文本块格式匹配的所述格式特征。
[0053] 可选的,所述从所述描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征和当前业务特征匹配的文本块,包括:
[0054] 从所述描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块;
[0055] 判断当前业务特征是否配置有对应的业务特征字典;
[0056] 若是,则通过所述对应的业务特征字典,对确定的首个与所述当前格式特征匹配的文本块的文本内容进行验证;
[0057] 若验证成功,则确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块为首个与所述当前格式特征和当前业务特征匹配的文本块;
[0058] 若验证失败,且所述首个与所述当前格式特征匹配的文本块非所述文本文件中的最后一个文本块,则确定所述首个与所述当前格式特征匹配的文本块的后一个文本块为指定文本块,并跳转至从描述所述目标文献的文本文件中指定文本块起从前向后遍历所述文本文件,确定所述文本文件中所述指定文本块之后首个与所述当前格式特征匹配的文本块的步骤,重新确定首个与所述当前格式特征匹配的文本块。
[0059] 第三方面,本申请实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的文献处理方法。
[0060] 第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例公开的文献处理方法的步骤。
[0061] 这样,本申请实施例公开的文献处理方法,通过获取用于表达目标文献的体例特征的特征模版,然后,根据特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值,最后,根据确定的业务特征的特征值和特征模版,输出目标文献的预设格式文献信息,解决了现有技术中存在的文献处理效率低下的问题。本申请实施例公开的文献处理方法,基于特征模版进行文献数据提取,不需要进行大数据量的语义识别,有效降低了运算量,有助于提升文献数据提取的效率。附图说明
[0062] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0063] 图1是本申请实施例一的文献处理方法流程图
[0064] 图2是本申请实施例一的文献处理方法处理的文献示意图;
[0065] 图3是本申请实施例一的文献处理方法输出的文献数据示意图之一;
[0066] 图4是本申请实施例一的文献处理方法输出的文献数据示意图之二;
[0067] 图5是本申请实施例一的文献处理方法中匹配步骤的流程示意图;
[0068] 图6是本申请实施例一的文献处理方法中匹配子步骤的流程示意图;
[0069] 图7是本申请实施例二的文献处理装置结构示意图;
[0070] 图8是本申请实施例二的文献处理装置另一结构示意图。

具体实施方式

[0071] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0072] 实施例一:
[0073] 本实施例提供了一种文献处理方法,如图1所示,所述方法包括:步骤100至步骤120。
[0074] 步骤100,获取用于表达目标文献的体例特征的特征模版。
[0075] 其中,上述特征模版至少包括:业务特征。
[0076] 本申请处理的文献数据为地方志、古籍等具有明确体例特征的文件,经过扫描、识别后生成的文献数据。所述文献数据中通常按照文本块在文献中出现的位置顺序,从前向后记录文本块对应的文本块,以及各文本块的格式。
[0077] 本申请实施例中所述的体例特征指文献的编写格式,包括:格式特征和业务特征两部分。其中,格式特征如顶格大字、反白大字、带框大字等;业务特征如朝代、类目、人名、地名、描述等。两部分共同组成一个完整的特征。如图2所示的文献中“金”的格式特征为“顶格大字”。
[0078] 本申请实施例中,首先通过分析文献的格式和文献内容中的业务信息,确定文献中包括的文本块的体例特征。其中,文本块可以为某一列的文本,也可以为某几列的文本,也可以为几页的文本。使用确定的文本块的体例特征,构建用于表达文献的体例特征的特征模版。
[0079] 以分析图2所示的地方志为例,经过分析,图2中的地方志主要描述人物相关信息,待提取的业务特征包括主类目(例如图2中的210所示的“仕籍”)、子类目(例如图2中的220所示的“文仕籍”)、朝代(例如图2中的230所示的“金”)、姓名(例如图2中的240所示的“白偉”)、描述(例如图2中的250所示的“由進士厯官中大夫前交城令輕騎都尉南陽郡開國子食邑七百戶賜紫金魚袋”)。
[0080] 进一步的,确定上述业务特征的格式特征。
[0081] 例如:图2中的210所示的“仕籍”,即主类目的格式特征为低两格大字;图2中的220所示的“文仕籍”,即子类目的格式特征为低两格大字;图2中的230所示的“金”,即朝代的格式特征为顶格大字;图2中的240所示的“白偉”,即人名的格式特征为低一格大字;图2中的250所示的“由進士厯官中大夫前交城令輕騎都尉南陽郡開國子食邑七百戶賜紫金魚袋”,即描述的格式特征为小字。
[0082] 通过将文献中的业务特征和该业务特征对应的格式特征结合,即可得到相应文本块的体例特征。文献中各文本块的体例特征组合为该文献的体例特征。具体实施时,体例特征可以表示为“格式特征+业务特征”的形式。例如,图2所示的文献的体例特征包括:“低两格大字+主类目”、“低两格大字+子类目”、“顶格大字+朝代”、“低一格大字+人名”、“小字+描述”。
[0083] 在文献中,不同的文本块描述的内容不同,因此,体例特征中的业务特征的取值可能包括多个。具体实施时,可以通过对文献进行分析,确定各业务特征的取值范围。例如,业务特征“朝代”的特征值的取值范围可以为:金、宋、汉、清等。
[0084] 在本申请的一些实施例中,首先,根据所述目标文献的业务特征和所述业务特征在所述目标文献中出现的先后顺序及重复规律,构建具有体例层级关系的特征模版。例如根据文献的各文本块中出现的业务特征在文献中出现的先后顺序和重复规律确定特征模板的层次,然后,根据确定的特征模板的层次、所述业务特征及所述业务特征对应的格式特征,构建具有体例层级关系的特征模版,以便对文献数据进行相应的业务特征数据提取。
[0085] 仍以图2所示的文献为例,由于文献的阅读书顺序是从右到左,由上至下,因此,业务特征在图2所示的文献中出现的先后顺序为:主类目210、子类目220、朝代230、人名240、描述250、人名240、描述250、……从人名240、描述250两个业务特征开始,业务特征出现重复,则根据业务特征的重复规律可以确定特征模板的层次中最底层为业务特征“描述”对应的层级。由此可以确定图2所示的文献的特征模版包括5个体例层级。按照上述业务特征在文献中出现的先后顺序,确定业务特征对应的体例层级,先出现的业务特征体例层级最高,最后出现的业务特征体例层级最低。则图2所示的文献的特征模版可以表示为:“低两格大字+主类目”→“低两格大字+子类目”→“顶格大字+朝代”→“低一格大字+人名”→“小字+描述”。
[0086] 此特征模版不仅可以表达本页的文献数据的特征,也可以表达该本地方志中这一类别所有页面的文献数据的特征。
[0087] 步骤110,根据特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值。
[0088] 本申请实施例中,以文献数据为脚本语言记录的文本文件举例说明文献数据处理的具体技术方案。所述文本文件的数据中通常按照文本块在文献中出现的位置顺序,从前向后记录文本块对应的文本块,以及各文本块的格式。在文本文件中,文献中文字的格式信息是通过不同的格式属性来表示的。例如大小字的信息使用font_type属性来表示,font_type="0"表示小字,font_type="1"表示大字;空几格使用space_count属性的整数值来表示;是否顶格用head属性来表示,head="0"表示非顶格,head="1"表示顶格。而特征模版中包括一个或多个格式组合而成的格式特征,因此可以通过判断文本的格式属性来判断文本是否符合格式特征。
[0089] 为了进行自动识别,首先将特征模版中的格式特征进行编码,例如将“低两格大字”用编码“0,1,2”表示,其中,0代表非顶格,1代表字体,即font_type="1",2代表位置,即space_count="2"。其格式特征的编码规则与目标文献的文本文件中文本块的格式编码规则相同。例如,判定“低两格大字”可通过head="0",spaceCount="2",font_type="1"对格式进行匹配识别。
[0090] 本实施例中,假设文本文件为脚本语言生成的XML格式的文本文件,文本文件的数据如下:
[0091]
[0092]
[0093] 在以上文本文件中,某一文本块的内容和格式通过预设符号标识,例如,之间的标记一个文本块的数据,在一个文本的数据中,字符串font_type用于指示该文本块的字号,字符串head用于指示该文本块的顶格信息,字号和顶格信息组成文本块的格式。通过所述预设符号可以确定文本文件中的文本块和该文本块的格式。
[0094] 具体实施时,特征模版包括每个体例层级的格式特征和业务特征,根据特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值的步骤,包括:按照体例层级关系由高到低的顺序,在描述目标文献的文本文件中从前向后依次识别与该特征模版中各体例层级的格式特征和业务特征匹配的文本;根据识别得到的文本,确定该目标文献的各体例层级的业务特征的特征值。
[0095] 进一步的,如图5所示,文本文件中依次记录目标文献中的文本块,按照体例层级关系由高到低的顺序,在描述目标文献的文本文件中从前向后依次识别与该特征模版中各体例层级的格式特征和业务特征匹配的文本的步骤进一步包括:子步骤510至子步骤530。
[0096] 起始条件确定子步骤510,用于确定特征模版中的最高体例层级为指定体例层级,以及,确定文本文件的首个文本块为指定文本块;
[0097] 逐层匹配子步骤520,用于按照体例层级关系由高到低的顺序,依次将特征模版中该指定体例层级以下各体例层级的格式特征和业务特征确定为当前格式特征和当前业务特征,并在每次确定当前格式特征和当前业务特征之后,分别执行从描述目标文献的文本文件中指定文本块起从前向后遍历该文本文件,确定该文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块的操作,直至该文本文件遍历完成,跳转至子步骤530,或者直至首个与该特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功。其中,首次执行从描述目标文献的文本文件中指定文本块起从前向后遍历该文本文件,确定该文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块的操作时,指定文本块为文本文件的首个文本块;再次执行从描述目标文献的文本文件中指定文本块起从前向后遍历该文本文件,确定该文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块的操作时,指定文本块为前一次确定的首个与当前格式特征和当前业务特征匹配的文本块的后一个文本块。
[0098] 子步骤530,文本文件匹配结束。
[0099] 具体到本实施例中,对于前述文本文件的识别过程如下。
[0100] 首先,确定特征模版中最高体例层级为指定体例层级。即将最高体例层级的格式特征为当前格式特征,确定最高层级的业务特征为当前业务特征,以及,确定文本文件中首个文本块为指定文本块。
[0101] 以前述特征模版为例,最高层级的格式特征“低两格大字”作为当前格式特征,最高层级的业务特征“主类目”作为当前业务特征,确定文本文件中首个文本块“太谷縣志卷四”为指定文本块。
[0102] 具体实施时,逐层匹配子步骤520进一步包括:子步骤5201至子步骤5205。
[0103] 子步骤5201,将特征模版中该指定体例层级的格式特征和业务特征确定为当前格式特征和当前业务特征。
[0104] 如果首次执行文本块匹配识别,则指定体例层级为特征模型的最高体例层级,如果非首次执行文本块匹配识别,则指定体例层级根据对文本块的格式匹配结果确定。
[0105] 接下来,执行子步骤5202,从描述目标文献的文本文件中指定文本块起从前向后遍历该文本文件,确定该文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块。
[0106] 具体实施时,特征模版中每个层级的业务特征可能对应预先建立的业务特征字典,便于识别和校验文献数据中的业务特征。例如,业务特征“朝代”对应的业务特征字典包括:金、宋、汉、清等特征值。
[0107] 然后,在上述文本文件中,从指定文本块“太谷縣志卷四”开始向后遍历文本文件中的文本块,确定首个与当前格式特征和当前业务特征均匹配的文本块。例如,依次遍历文本块“太谷縣志卷四”、“仕籍”、“文仕籍”……,直到确定第一个与当前层级的体例特征“低两格大字+主类目”匹配的文本块。本实施例中,业务特征“主类目”取值范围包括“仕籍”,并且,“主类目”的格式特征“低两格大字”与文本文件中文本块“仕籍”对应的格式——font_type="1"space_count="2"相同,因此,首个与当前格式特征和当前业务特征均匹配的文本块为第2个文本块。
[0108] 子步骤5203,判断是否成功确定首个与当前格式特征和当前业务特征匹配的文本块,若是,则执行子步骤5204,否则,结束遍历。
[0109] 在子步骤5202执行结束后,判断确定该文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块是否成功,如果成功,并且文本文件未遍历完成,则进一步识别符合更低层级体例特征的文本块。如果未成功,说明文本文件已经遍历完成,则结束遍历操作。
[0110] 子步骤5204,判断是否已经识别到特征模版中最低层的业务特征,若是,则结束遍历,否则,执行子步骤5205。
[0111] 子步骤5205,将确定的首个与当前格式特征和当前业务特征匹配的文本块的后一个文本块确定为指定文本块,将当前指定体例层级的低一个体例层级作为指定体例层级,跳转至子步骤5201,继续执行文本块的匹配识别。
[0112] 接下来判断是否已经识别到特征模版中最低层的业务特征或者目标文件的文本文件是否已经遍历完该文本文件。具体到本实施例而言,判断是否已经识别到特征模版中的最低层体例层级的格式特征和业务特征“小字+描述”。如果未识别到特征模版中最低层体例层级的格式特征和业务特征,并且,未遍历完该文本文件,则跳转至子步骤5201,继续识别低一个体例层级的业务特征。如果已经识别到特征模版中最低层的业务特征,并且,未遍历完该文本文件,则继续识别文本文件中的后一个文本块的格式特征和业务特征。
[0113] 在继续识别低一个体例层级的格式特征和业务特征时,将前一次确定的首个与当前格式特征和当前业务特征匹配的文本块的后一个文本块确定为指定文本块。
[0114] 例如,在继续识别次高体例层级的格式特征和业务特征,即“低两格大字+子类目”时,将文本文件中文本块“仕籍”的后一个文本块“文仕籍”确定为指定文本块,然后,执行从描述目标文献的文本文件中指定文本块起从前向后遍历该文本文件,确定该文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块的操作。此时,当前格式特征为“低两格大字”,当前业务特征为“子类目”。
[0115] 具体实施时,在前述子步骤5202中确定首个与当前格式特征和当前业务特征匹配的文本块时,如图6所示,从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块的步骤进一步包括:子步骤610至子步骤670。
[0116] 子步骤610,从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征匹配的文本块。
[0117] 子步骤620,判断当前业务特征是否配置有对应的业务特征字典,若是,则执行子步骤630,否则,确定指定文本块匹配成功,结束当前指定文本块匹配,跳转至子步骤670。
[0118] 子步骤630,通过该对应的业务特征字典,对确定的首个与当前格式特征匹配的文本块的文本内容进行验证。
[0119] 子步骤640,判断对内容进行验证是否成功,若验证成功,则确定文本文件中指定文本块之后首个与当前格式特征匹配的文本块为首个与当前格式特征和当前业务特征匹配的文本块,跳转至子步骤670;若验证失败,进一步执行子步骤650。
[0120] 子步骤650,判断文本文件是否遍历完,若文本文件未遍历完,即首个与当前格式特征匹配的文本块非文本文件中的最后一个文本块,则执行子步骤660。
[0121] 子步骤660,确定首个与当前格式特征匹配的文本块的后一个文本块为指定文本块,跳转至子步骤610。从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征匹配的文本块的步骤,重新确定首个与当前格式特征匹配的文本块。否则,若文本文件遍历完,则跳转至子步骤670。
[0122] 子步骤670,结束当前指定文本块匹配。
[0123] 在已经遍历完文本文件,即首个与当前格式特征匹配的文本块为文本文件中的最后一个文本块,或,当前指定文本块匹配成功,则结束当前指定文本块匹配。
[0124] 在识别符合当前格式特征和当前业务特征的文本块时,首先进行当前格式特征的匹配。当文本块的格式与当前格式特征匹配时,进一步通过当前业务特征对应的预设业务特征字典,对该文本块的文本内容进行验证。具体实施时,有些业务特征需要验证,有些业务特征不需要验证。对于需要验证的业务特征,需要预先设置与该业务特征对应的业务特征字典,且只有当文本块的格式与当前格式特征匹配,该文本块的文本内容与当前业务特征对应的预设业务特征字典匹配时,才确定该文本块为首个与当前格式特征和当前业务特征匹配的文本块。否则,继续遍历该文本块之后的文本块,以识别格式和文本内容当前格式特征和当前业务特征均匹配的文本块。对于不需要验证的业务特征,则只要格式特征匹配,即确定文本块体例特征匹配成功。
[0125] 在本申请的一些实施例中,处理的目标文献的文本文件中可能包括符合特征模版的第X层体例特征文本块重复出现,需要全部提取出来。其中,X为小于或等于特征模版的层级数量的自然数。
[0126] 具体实施时,如图5所示,按照体例层级关系由高到低的顺序,在描述所述目标文献的文本文件中从前向后依次识别与特征模版中各体例层级的格式特征和业务特征匹配的文本的步骤,还包括:在首个与特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功之后,执行以下操作:
[0127] 子步骤540,确定首个与该特征模版的最低体例层级中的格式特征和业务特征匹配的文本块的后一个文本块为指定文本块;
[0128] 子步骤550,确定与该指定文本块格式匹配的该特征模板中的格式特征;
[0129] 子步骤560,判断确定与该指定文本块格式匹配的该特征模板中的格式特征是否成功;若成功,则执行子步骤570;否则,执行子步骤580;
[0130] 子步骤570,确定与该指定文本块格式匹配的该特征模板中的格式特征所属体例层级为指定体例层级,跳转至逐层匹配子步骤520;
[0131] 子步骤580,确定该指定文本块的后一个文本块为指定文本块,跳转至子步骤550。
[0132] 具体实施时,前述子步骤550中,确定与指定文本块格式匹配的格式特征的步骤,包括:根据指定文本块的格式,或指定文本块及其上下文文本块的格式,确定与该指定文本块格式匹配的格式特征。
[0133] 例如,图2所示的文献中,“低一格大字+人名”、“小字+描述”特征的文本块连续重复出现,在确定首个与该特征模版的最低体例层级中的格式特征和业务特征匹配的文本块“由進士厯官中大夫前交城令輕騎都尉南陽郡開國子食邑七百戶賜紫金魚袋”之后,将后一个文本块“font_type="1"head="0"space_count="1">趙文彬<”确定为指定文本块;然后,确定与该指定文本块的格式(即上述文本文件中的“font_type="1"head="0"space_count="1"”)匹配的该特征模板中的格式特征为“低一格大字”。由于该格式特征“低一格大字”所属体例层级为次低体例层级,则将次低体例层级作为指定体例层级。之后,从文本块“趙文彬”开始,对次低体例层级和最低体例层级进行逐层匹配,依次确定这两个体例层级的业务特征的特征值“趙文彬”和“朝略大夫行貴德州奉集縣令騎都尉天縣開國男食邑三百戶賜紫金魚袋”。
[0134] 在本申请的一些实施例中,文本文件中对应的特征模板中各体例层级的格式特征可能相同,如前述特征模板中的最高体例层级和次高体例层级的格式特征均为“低两格大字”,进一步的,可以根据指定文本块的格式及其上下文文本块的格式,确定与该指定文本块格式匹配的格式特征。
[0135] 例如,在指定文本块的格式为“低两格大字”之后,因为,与“低两格大字”匹配的格式特征属于两个体例层级,无法确定该指定文本块具体对应哪个体例层级,则可以结合该指定文本块的上下文文本块的格式确定该指定文本块格式匹配的是哪个体例层级的格式特征。
[0136] 以前述特征模板为例,如果该指定文本块的前一个文本块的格式为“低两格大字”,则可以确定该指定文本块的格式匹配次高体例层级的格式特征。
[0137] 或者,如果该指定文本块的后一个文本块的格式为“低两格大字”,则可以确定该指定文本块的格式匹配最高体例层级的格式特征;如果该指定文本块的后一个文本块的格式为“顶格大字”,则可以确定该指定文本块的格式匹配次高体例层级的格式特征。具体实施时,该指定文本块的上下文文本块为前M个文本块和后N个文本块,其中,M和N为大于等于0的整数,且M和N均小于或等于特征模板的层级数量。
[0138] 特征模版的层级是根据业务特征的显示顺序和重复规律确定的,具备任何一个层级的体例特征的文本块都可以在文献中重复出现,因此,在识别到首个与特征模版的最低层级体例特征匹配的文本块之后,需要继续识别该文本块之后的与各层级体例特征匹配的其他文本块,直至遍历完该目标文献的文本文件。
[0139] 仍以图2所示的文献为例,该文献得到的文本文件中会包括连续重复出现的多个体例分别为“低一格大字+人名”、“小字+描述”的文本块。在确定文本文件中第一个符合“小字+描述”体例特征的文本块之后,通过继续识别后续的符合“低一格大字+人名”和“小字+描述”体例特征的文本块,可以更加全面的提取出目标文献的符合特征模版的文本信息。
[0140] 按照上述方法,依次在目标文献的文本文件中识别特征模版中各体例层级的格式特征和业务特征,直至确定完特征模版中每个体例层级的格式特征和业务特征,或者遍历完目标文献的文本文件。
[0141] 具体实施时,如果遍历完目标文献的文本文件时,仍然没有识别到特征模版中某个体例层级的体例特征,则无法输出目标文献的预设格式文献信息。如在识别特征模版中次高的体例层级的格式特征和业务特征,即“低两格大字+子类目”时,如果遍历完目标文献的文本文件后,仍然没有识别到格式为“低两格大字”、文本内容与业务特征“子类目”对应的业务特征字典中的特征值匹配的文本块,则说明文献数据处理失败,无法输出目标文献的预设格式文献信息。
[0142] 然后,将识别得到的与各个体例层级的格式特征和业务特征配的文本块的业务特征,作为该目标文献的相应体例层级的业务特征的特征值。
[0143] 步骤120,根据确定的业务特征的特征值和特征模版,输出目标文献的预设格式文献信息。
[0144] 在识别出符合特征模版的文本块之后,根据识别结果确定相应的体例层级的业务特征的特征值。然后,按照预设格式组织各业务特征的特征值,并输出该格式的文献数据。
[0145] 具体实施时,在识别与最高体例层级对应的格式特征和业务特征匹配的文本时,同时建立与该最高体例层级对应的根节点,该根节点用于存储识别得到的匹配该最高体例层级的格式特征和业务特征的文本。
[0146] 相应的,在识别与次高体例层级对应的格式特征和业务特征匹配的文本时,建立上述根节点的子节点,该子节点与次高体例层级对应,该子节点用于存储识别得到的匹配该次高体例层级的格式特征和业务特征的文本。
[0147] 以此类推,再按照体例层级由高到低的顺序识别目标文献的文本文件中的文本块时,将逐级建立当前体例层级对应的节点,当前体例层级对应的节点是高一体例层级对应的节点的子节点,当特征模版匹配完成,最终形成一个树形结构。如图3所示。
[0148] 如果重复识别与某一体例层级格式特征和业务特征匹配的文本多次,则在该体例层级的高一层体例层级对应的节点下,将建立多个子节点,用于记录每一次识别到的匹配该体例层级的格式特征和业务特征的文本。
[0149] 当预设格式为树形结构时,可以直接输出如图3所示的文献信息。
[0150] 当预设格式为表格时,表格的各个条目与特征模版的各个体例层级的业务特征对应。具体实施时,可以通过遍历该树形结构的每个分枝,依次确定表格每一行中各列的数据,得出如图4所示的文献数据。
[0151] 本申请实施例公开的文献处理方法,通过获取用于表达目标文献的体例特征的特征模版,然后,根据特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值,最后,根据确定的业务特征的特征值和特征模版,输出目标文献的预设格式文献信息,解决了现有技术中存在的文献处理效率低下的问题。
[0152] 本申请实施例公开的文献处理方法,基于特征模版进行文献数据提取,不需要进行大数据量的语义识别,有效降低了运算量,有助于提升文献数据提取的效率。进一步的,基于具有层级关系的特征模版进行文献数据提取时,由于层级关系表达了文献中文本的出现顺序,从而使得处理后得到的文献数据结构更清晰、更合理,具有层次性。
[0153] 本申请实施例公开的文献处理方法通过基于格式特征和业务特征进行文本识别,通过格式特征进行初步判断,然后再通过业务特征对文本数据进行校验,可以提升文献数据处理的准确性。
[0154] 实施例二:
[0155] 相应的,本申请还公开了一种文献处理装置,如图7所示,所述装置包括:
[0156] 特征模版获取模块710,用于获取用于表达目标文献的体例特征的特征模版,上述特征模版包括:业务特征;
[0157] 文本识别模块720,用于根据上述特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值;
[0158] 文件信息输出模块730,用于根据确定的业务特征的特征值和上述特征模版,输出目标文献的预设格式文献信息。
[0159] 可选的,如图8所示,在获取用于表达目标文献的体例特征的特征模版之前,该装置还包括:
[0160] 特征模版构建模块700,用于根据目标文献的业务特征和业务特征在目标文献中出现的先后顺序及重复规律,构建具有体例层级关系的特征模版。
[0161] 可选的,上述特征模版包括每个体例层级的格式特征和业务特征,在根据上述特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值时,上述文本识别模块720进一步用于:
[0162] 按照体例层级关系由高到低的顺序,在所述描述目标文献的文本文件中从前向后依次识别与上述特征模版中各体例层级的格式特征和业务特征匹配的文本;
[0163] 根据识别得到的文本,确定目标文献的各体例层级的业务特征的特征值。
[0164] 可选的,文本文件中依次记录所述目标文献中的文本块,按照体例层级关系由高到低的顺序,在描述目标文献的文本文件中从前向后依次识别与上述特征模版中各体例层级的格式特征和业务特征匹配的文本,包括:
[0165] 起始条件确定子步骤,用于确定特征模版中的最高体例层级为指定体例层级,以及,确定文本文件的首个文本块为指定文本块;
[0166] 逐层匹配子步骤,用于按照体例层级关系由高到低的顺序,依次将特征模版中该指定体例层级以下各体例层级的格式特征和业务特征确定为当前格式特征和当前业务特征,并在每次确定当前格式特征和当前业务特征之后,分别执行从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块的操作,直至文本文件遍历完成,或者直至首个与上述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功;
[0167] 其中,再次执行从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块的操作时,上述指定文本块为前一次确定的首个与当前格式特征和当前业务特征匹配的文本块的后一个文本块。
[0168] 可选的,按照体例层级关系由高到低的顺序,在描述目标文献的文本文件中从前向后依次识别与上述特征模版中各体例层级的格式特征和业务特征匹配的文本,还包括:
[0169] 在首个与上述特征模版的最低体例层级中的格式特征和业务特征匹配的文本块确定成功之后,执行以下操作:确定首个与该特征模版的最低体例层级中的格式特征和业务特征匹配的文本块的后一个文本块为指定文本块;确定与该指定文本块格式匹配的该特征模板中的格式特征;判断确定与该指定文本块格式匹配的该特征模版中的格式特征是否成功;若成功,则确定与该指定文本块格式匹配的格式特征所属体例层级为指定体例层级,跳转至逐层匹配子步骤,并重复执行逐层匹配子步骤;否则,确定该指定文本块的后一个文本块为指定文本块,跳转至确定与所述指定文本块格式匹配的所述格式特征的子步骤,并重复执行该子步骤。
[0170] 具体实施时,确定与指定文本块格式匹配的格式特征所属体例层级为指定体例层级的步骤,包括:根据指定文本块的格式或指定文本块及其上下文文本块的格式,确定与该指定文本块格式匹配的格式特征;将与该指定文本块格式匹配的格式特征所属体例层级确定为指定体例层级。
[0171] 可选的,从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征和当前业务特征匹配的文本块,包括:
[0172] 从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征匹配的文本块;
[0173] 判断当前业务特征是否配置有对应的业务特征字典;
[0174] 若是,则通过该对应的业务特征字典,对确定的首个与当前格式特征匹配的文本块的文本内容进行验证;
[0175] 若验证成功,则确定文本文件中指定文本块之后首个与当前格式特征匹配的文本块为首个与当前格式特征和当前业务特征匹配的文本块;
[0176] 若验证失败,且首个与当前格式特征匹配的文本块非文本文件中的最后一个文本块,则确定首个与当前格式特征匹配的文本块的后一个文本块为指定文本块,跳转至从描述目标文献的文本文件中指定文本块起从前向后遍历文本文件,确定文本文件中指定文本块之后首个与当前格式特征匹配的文本块的步骤,重新确定首个与当前格式特征匹配的文本块。
[0177] 本申请实施例公开的文献处理装置,通过获取用于表达目标文献的体例特征的特征模版,然后,根据特征模版对描述目标文献的文本文件进行文本识别,确定目标文献的业务特征的特征值,最后,根据确定的业务特征的特征值和特征模版,输出目标文献的预设格式文献信息,解决了现有技术中存在的文献处理效率低下的问题。本申请实施例公开的文献处理方法,基于特征模版进行文献数据提取,不需要进行大数据量的语义识别,有效降低了运算量,有助于提升文献数据提取的效率。进一步的,基于具有层级关系的特征模版进行文献数据提取时,由于层级关系表达了文献中文本的出现顺序,从而使得处理后得到的文献数据结构更清晰、更合理,具有层次性。
[0178] 本申请实施例公开的文献处理装置,通过基于格式特征和业务特征进行文本识别,通过格式特征进行初步判断,然后再通过业务特征对文本数据进行校验,可以提升文献数据处理的准确性。
[0179] 相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一所述的文献处理方法。所述电子设备可以为PC机、移动终端、个人数字助理平板电脑等。
[0180] 本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本申请实施例一所述的文献处理方法的步骤。
[0181] 本申请的装置实施例、与电子设备实施例、存储介质实施例与方法相对应,装置实施例中各模块和各单元的具体实现方式参见方法是实施例,此处不再赘述。
[0182] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0183] 本领域普通技术人员可以理解,在本申请所提供的实施例中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0184] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0185] 以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,不经过创造性劳动想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈