首页 / 专利库 / 资料储存系统 / 大数据 / 指标提取的校验方法及装置

指标提取的校验方法及装置

阅读:926发布:2024-01-10

专利汇可以提供指标提取的校验方法及装置专利检索,专利查询,专利分析的服务。并且本公开涉及一种指标提取的校验方法及装置,包括针对每个 电子 文本进行指标提取,得到该电子文本的第一指标和对应的第一指标值; 抽取 作为样本的电子文本;针对每个样本,采集该样本的第二指标和对应的第二指标值;以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果;基于所述校验结果评估所述指标提取的准确性,根据本公开 实施例 的指标提取的校验方法及装置能够对提取的指标的准确性进行校验和可靠的评估。,下面是指标提取的校验方法及装置专利的具体信息内容。

1.一种指标提取的校验方法,其特征在于,包括:
针对每个电子文本进行指标提取,得到该电子文本的第一指标和对应的第一指标值;
抽取作为样本的电子文本;
针对每个样本,采集该样本的第二指标和对应的第二指标值;
以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果;
基于所述校验结果评估所述指标提取的准确性。
2.根据权利要求1所述的方法,其特征在于,所述抽取作为样本的电子文本,包括:
每次抽取M个电子文件作为样本,抽取N次,得到N个样本集合,每个样本集合包括M个样本。
3.根据权利要求2所述的方法,其特征在于,以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果,包括:
对于样本的任一第一指标,若存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值相同,则记录该第一指标的校验结果,该校验结果的类型为指标提取正确;
对于样本的任一第一指标,若存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值不同,则记录该第一指标的校验结果,该校验结果的类型为指标值提取错误;
对于样本的任一第一指标,若不存在与该第一指标相同的第二指标,则记录该第一指标的校验结果,该校验结果的类型为指标误提;
对于样本的任一第二指标,若不存在与该第二指标相同的第一指标,则记录该第二指标的校验结果,该校验结果的类型为指标缺失。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定相同的第一指标和第二指标分别对应的第一指标值和第二指标值的类型;
第一指标值和第二指标值的类型均为数值类型时,若第一指标值与第二指标值相等,则确定第一指标值和第二指标值相同,否则,确定第一指标值和第二指标值不同;
第一指标值和第二指标值中至少一个的类型为字符类型时,若第二指标值与第一指标值均包含指定关键字或者第一指标值与第二指标值包含的字符完全相同,则确定第一指标值和第二指标值相同,若第二指标值与第一指标值中至少一个不包含指定关键字或者第一指标值与第二指标值存在不同的字符,则确定第一指标值和第二指标值不同。
5.根据权利要求3所述的方法,其特征在于,基于所述校验结果评估所述指标提取的准确性,包括:
针对任一样本集合的M个样本,统计相同指标的校验结果,确定该指标对应的各类型的校验结果的比例;其中,该指标对应的任一类型的校验结果的比例为该类型的校验结果的次数与该指标的所有校验结果次数的比值。
6.根据权利要求3所述的方法,其特征在于,该方法还包括:
记录第一指标或第二指标的校验结果时,记录第一指标或第二指标对应的电子文本的标识。
7.根据权利要求6所述的方法,其特征在于,基于所述校验结果评估提取的准确性,包括:
针对N个样本集合,依据所述校验结果中记录的电子文本的标识,统计相同的电子文本的校验结果,确定该电子文本对应的各类型校验结果的比例;其中,该电子文本对应的任一类型的校验结果的比例为该类型的校验结果的次数与该电子文本的所有校验结果次数的比值。
8.一种指标提取的校验装置,其特征在于,包括:
提取模,用于针对每个电子文本进行指标提取,得到该电子文本的第一指标和对应的第一指标值;
抽取模块,用于抽取作为样本的电子文本;
采集模块,用于针对每个样本,采集该样本的第二指标和对应的第二指标值;
校验模块,用于以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果;
评估模块,用于基于所述校验结果评估所述指标提取的准确性。
9.根据权利要求8所述的装置,其特征在于,所述抽取模块包括:
抽取单元,用于每次抽取M个电子文件作为样本,抽取N次,得到N个样本集合,每个样本集合包括M个样本。
10.根据权利要求9所述的装置,其特征在于,所述校验模块包括:
第一记录单元,用于对于样本的任一第一指标,当存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值相同时,记录该第一指标的校验结果,该校验结果的类型为指标提取正确;
第二记录单元,用于对于样本的任一第一指标,当存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值不同时,记录该第一指标的校验结果,该校验结果的类型为指标值提取错误;
第三记录单元,用于对于样本的任一第一指标,当不存在与该第一指标相同的第二指标时,记录该第一指标的校验结果,该校验结果的类型为指标误提;
第四记录单元,用于对于样本的任一第二指标,当不存在与该第二指标相同的第一指标时,记录该第二指标的校验结果,该校验结果的类型为指标缺失。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
类型确定模块,用于确定相同的第一指标和第二指标分别对应的第一指标值和第二指标值的类型;
第一确定模块,用于在第一指标值和第二指标值的类型均为数值类型的情况下,当第一指标值与第二指标值相等时,确定第一指标值和第二指标值相同,否则,确定第一指标值和第二指标值不同;
第二确定模块,用于在第一指标值和第二指标值中至少一个的类型为字符类型的情况下,当第二指标值与第一指标值均包含指定关键字或者第一指标值与第二指标值包含的字符完全相同时,确定第一指标值和第二指标值相同,当第二指标值与第一指标值中至少一个不包含指定关键字或者第一指标值与第二指标值包含的字符存在不同的字符,则确定第一指标值和第二指标值不同。
12.根据权利要求10所述的装置,其特征在于,所述评估模块包括:
第一统计单元,用于针对任一样本集合的M个样本,统计相同指标的校验结果,确定该指标对应的各类型的校验结果的比例;其中,该指标对应的任一类型的校验结果的比例为该类型的校验结果的次数与该指标的所有校验结果次数的比值。
13.根据权利要求10所述的装置,其特征在于,该装置还包括:
记录模块,用于在记录第一指标或第二指标的校验结果时,记录第一指标或第二指标对应的电子文本的标识。
14.根据权利要求13所述的装置,其特征在于,所述评估模块还包括:
第二统计单元,用于针对N个样本集合,依据所述校验结果中记录的电子文本的标识,统计相同的电子文本的校验结果,确定该电子文本对应的各类型校验结果的比例;其中,该电子文本对应的任一类型的校验结果的比例为该类型的校验结果的次数与该电子文本的所有校验结果次数的比值。

说明书全文

指标提取的校验方法及装置

技术领域

[0001] 本公开涉及数据处理领域,尤其涉及一种指标提取的校验方法及装置。

背景技术

[0002] 非结构化文本的数据提取是一个广泛研究的问题。举例来说,医疗大数据中,需要从医疗非结构化自由文本(例如医生书写的病例)中提取医学指标,用于数据挖掘和分析。医生书写随意,非结构化电子病历提取解析的过程复杂,提取后的指标可能出现值遗漏、值错误、数据总数不对等问题。提取的指标质量决定了上层分析质量。实际项目中,可以在每次提取后对提取的指标进行准确性校验,用校验后的结果优化提取方法。
[0003] 相关技术中可以通过数据条数对比,进行指标提取的准确性校验,但无法验证提取出的指标的准确性,例如指标提取是否有遗漏,提取的指标值与原数据是否一致等。发明内容
[0004] 有鉴于此,本公开提出了一种指标提取的校验方法及装置,能够对从电子文本中对提取的指标的准确性进行校验和可靠的评估。
[0005] 根据本公开的一方面,提供了一种指标提取的校验方法,该方法包括:针对每个电子文本进行指标提取,得到该电子文本的第一指标和对应的第一指标值;抽取作为样本的电子文本;针对每个样本,采集该样本的第二指标和对应的第二指标值;以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果;基于所述校验结果评估所述指标提取的准确性。
[0006] 根据本公开的另一方面,提供了一种指标提取的校验装置,该装置包括:提取模,用于针对每个电子文本进行指标提取,得到该电子文本的第一指标和对应的第一指标值;抽取模块,用于抽取作为样本的电子文本;采集模块,用于针对每个样本,采集该样本的第二指标和对应的第二指标值;校验模块,用于以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果;评估模块,用于基于所述校验结果评估所述指标提取的准确性。
[0007] 通过提取每个电子文本的第一指标和对应的第一指标值;抽取作为样本的电子文本,并采集每个样本的第二指标和对应的第二指标值;以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,基于校验结果评估提取的准确性,根据本公开的各方面的指标提取的校验方法及装置能够对提取的指标的准确性进行校验和可靠的评估,同时,通过样本的校验结果评估指标提取的准确性,可以减少校验时间和校验的工作量。
[0008] 根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

附图说明

[0009] 包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
[0010] 图1示出根据本公开一实施例的指标提取的校验方法的流程图
[0011] 图2示出根据本公开一实施例的指标提取的校验方法的流程图;
[0012] 图3示出根据本公开一实施例的指标提取的校验方法的流程图;
[0013] 图4a示出根据本公开一个示例的各类型问题数量的柱状图;
[0014] 图4b示出根据本公开一个示例的各类型问题数量的柱状图;
[0015] 图4c示出根据本公开一个示例的各类型问题数量的柱状图;
[0016] 图5示出根据本公开一实施例的指标提取的校验方法的流程图;
[0017] 图6示出根据本公开一实施例的指标提取的校验装置的框图
[0018] 图7示出根据本公开一实施例的指标提取的校验装置的框图;
[0019] 图8示出根据本公开一实施例的指标提取的校验装置的框图。

具体实施方式

[0020] 以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
[0021] 在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
[0022] 另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
[0023] 图1示出根据本公开一实施例的指标提取的校验方法的流程图。该方法可以应用于终端设备中,例如,手机、平板电脑等移动终端、计算机等,如图1所示,该指标提取的校验方法包括:
[0024] 步骤S11,针对每个电子文本进行指标提取,得到该电子文本的第一指标和对应的第一指标值。
[0025] 电子文本可以是以自然语言等非结构化形式描述的文本,其内容可能书写随意,信息杂乱。可以通过相关技术中的信息提取技术自动提取出电子文本中的信息,并可对电子文本里包含的信息进行结构化处理,变成例如表格一样的组织形式。信息提取系统输入的是电子文本,输出的结果为拥有特定结构格式的结构化数据,以统一的格式将信息集成在一起可以更方便的管理和挖掘信息间的关系。结构化数据又称为行数据,可存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
[0026] 电子文本的第一指标和对应的第一指标值可以表示通过信息提取技术从该电子文本中提取的指标和指标值。
[0027] 以电子文本为电子病历为例,表1示出了终端设备针对病人ID为0001和病人ID为0003的两个电子病历分别进行指标提取,得到的第一指标和对应的第一指标值。如表1所示,针对病人ID为0001的电子病历进行指标提取,得到该电子文本的腹和分化两个第一指标,与腹水对应的第一指标值为100,与分化对应的第一指标值为高;针对病人ID为0003的电子病历进行指标提取,得到该电子文本的腹水、分期和分化三个第一指标,与腹水对应的第一指标值为156,与分期对应的第一指标值为III,与分化对应的第一指标值为低。
[0028] 表1第一指标和对应的第一指标值
[0029]病人ID 腹水 分期 分化
0001 100   高
0003 156 III 低
……      
[0030] 步骤S12,抽取作为样本的电子文本。
[0031] 考虑到对所有的电子文本进行校验的成本较高,因此,可以采用抽样的方式,抽取部分电子文本作为样本进行校验,使用作为样本的电子文本的指标提取的情况近似地反映所有电子文本的指标提取的情况。样本可以随机抽取。终端设备可以利用相关技术中的数据库技术抽取作为样本的电子文本。
[0032] 校验部分电子文本,有时并不能完全代表所有的电子文本,得出的结果可能会有误差,这个误差叫做估计误差。一次抽取的作为样本的电子文本的数量称为样本量,样本量越大估计误差越小,样本越能反映总体的情况,但校验的成本越高。在一种可能的实现方式中,可以采用以下公式确定样本量:
[0033]
[0034] 其中,置信水平临界值表示置信水平对应的标准误差。置信水平是指当以样本估计总体时,能够正确估计的概率的大小。例如,当置信水平为95%时,表示正确估计的概率是95%,对应的置信水平临界值即标准误差为1.96。预期准确率可能无法估计,但是可以选为0.5,此时预期准确率*(1-预期准确率)的值最大,可以得到一个比较保守的样本量。在一个示例中,按照置信水平95%(对应的置信水平临界值为1.96),预期准确率0.5,估计误差0.1的条件计算,样本量为96。样本量可以根据精度要求确定,本公开对此不做限定。
[0035] 步骤S13,针对每个样本,采集该样本的第二指标和对应的第二指标值。
[0036] 其中,第二指标是指样本中真实存在的指标。第二指标值是指样本中真实存在的指标对应的指标值。由于第二指标和第二指标值是样本中真实存在的,因此第二指标和第二指标值可以用于校验第一指标和对应的第一指标值。
[0037] 在一种可能的实现方式中,终端设备可以提供一个用于采集第二指标和对应的第二指标值的输入接口。在一个示例中,终端设备可以生成一张数据表作为输入接口。输入接口(例如数据表)的结构格式可与步骤S11中提取的结构格式相同,以便于后续的校验。
[0038] 在一种可能的实现方式中,终端设备可以依次显示抽取的样本,并基于指标关键字标记所显示的样本。例如,终端设备可以高亮显示样本中匹配到的指标关键字,从而方便校验人员快速定位指标的位置。校验人员可以根据高亮显示的指标关键字确定与该指标关键字对应的指标值,并在数据表等输入接口中输入指标关键字作为第二指标,输入与指标关键字对应的指标值作为第二指标值。其中,指标关键字可以预先设置,也可以根据用户的输入获得。
[0039] 以样本为电子病历为例,表2示出了终端设备针对病人ID为0001和病人ID为0003的两个样本分别采集的第二指标和对应的第二指标值。如表2所示,针对病人ID为0001的样本,采集到腹水、分期和分化三个第二指标,与腹水对应的第二指标值为90,与分期对应的第二指标值为I,与分化对应的第二指标值为高;针对病人ID为0003的样本,采集到腹水和分期两个第二指标,与腹水对应的第二指标值为155,与分期对应的指标值为II。
[0040] 表2第二指标和对应的第二指标值
[0041]病人ID 腹水 分期 分化
0001 90 I 高
0003 155 II  
……      
[0042] 步骤S14,以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果。
[0043] 一个样本可以有一个或多个第一指标和一个或多个第二指标,且各第一指标不相同,各第二指标也不相同。以表1所示的第一指标和对应的第一指标值,以及表2所示的第二指标和对应的第二指标值为例。如表1所示,病人ID为0001的样本有两个第一指标,分别为腹水和分化;病人ID为0003的样本有三个第一指标,分别为腹水、分期和分化。如表2所述,病人ID为0001的样本有三个第一标,分别为腹水、分期和分化;病人ID为0003的样本有两个第二指标,分别为腹水和分期。在一个示例中,终端设备可以使用表2所示的一个样本的第二指标和第二指标值,对表1所示的对应的样本的第一指标和第一指标值进行校验。例如,使用表2所示的病人ID为0001的样本的腹水和90、分期和I、分化和高,对表1所示的病人ID为0001的腹水和100、分化和高进行校验。
[0044] 校验结果可以用于表示样本的第二指标和第二指标值,和样本的第一指标和第一指标值的差异。在一种可能的实现方式中,终端设备可以比较样本的第二指标和第一指标是否相同,对应的第二指标值和第一指标值是否相同,将比较结果(相同或不相同)作为样本的第一指标和第一指标值的校验结果。终端设备还可以通过其他方式对样本的第一指标和第一指标值进行校验,相应的可以将其他的内容作为校验结果,例如正确、错误等,本公开对于校验方法以及校验结果的内容不做限定。
[0045] 步骤S15,基于所述校验结果评估所述指标提取的准确性。
[0046] 在一种可能的实现方式中,终端设备可以从合格率、完整性等方面评估指标提取的准确性。在一种可能的实现方式中,终端设备在抽取作为样本的电子文本时,可以每次抽取M个电子文本作为样本,抽取N次,得到N个样本集合,每个样本集合包括M个样本,其中,N和M均为正整数。在一个示例中,M可以取96,N可以根据电子文本的总数确定。这样,根据N个样本集合的指标提取情况近似的反应所有电子文本的指标提取情况,可以减小单个样本集合带来的评价偏差,提高评估的准确性。
[0047] 通过提取每个电子文本的第一指标和对应的第一指标值;抽取作为样本的电子文本,并采集每个样本的第二指标和对应的第二指标值;以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,基于校验结果评估提取的准确性,根据本公开实施例的指标提取的校验方法能够对提取的指标的准确性进行校验和可靠的评估,同时,通过样本的校验结果评估指标提取的准确性,可以减少校验时间和校验的工作量。
[0048] 图2示出根据本公开一实施例的指标提取的校验方法的流程图。如图2所示,步骤S14以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果可以实现为:
[0049] 步骤S141,对于样本的任一第一指标,若存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值相同,则记录该第一指标的校验结果,该校验结果的类型为指标提取正确。
[0050] 在一种可能的实现方式中,终端设备可以将样本中的任一第一指标,与该样本的一个或多个第二指标依次对比,若存在与该第一指标相同的第二指标,则判断对应的第一指标值和第二指标值是否相同。若对应的第一指标值和第二指标值相同,表明该第一指标提取正确,终端设备可以记录该第一指标的校验结果的类型为指标提取正确。
[0051] 在一个示例中,以表1所示的第一指标和对应的第一指标值,以及表2所示的第二指标和对应的第二指标值为例。对于病人ID为0001的样本的第一指标分化(如表1所示),表2中病人ID为0001的样本存在第二指标也为分化(如表2所示),且对应的第一指标值为高、第二指标值为高,第一指标值和第二指标值相同。终端设备可以记录病人ID为0001的样本的分化的校验结果的类型为指标提取正确,如表3所示。
[0052] 表3指标的校验结果类型
[0053]病人ID 腹水 分期 分化
0001 指标值提取错误 指标缺失 指标提取正确
0003 指标值提取错误 指标值提取错误 指标误提
……      
[0054] 步骤S142,对于样本的任一第一指标,若存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值不同,则记录该第一指标的校验结果,该校验结果的类型为指标值提取错误。
[0055] 在一种可能的实现方式中,终端设备可以将样本中的任一第一指标,与该样本的一个或多个第二指标依次对比,若存在与该第一指标相同的第二指标,则判断对应的第一指标值和第二指标值是否相同。若对应的第一指标值和第二指标值不同,表明该第一指标对应的第一指标值提取错,终端设备可以记录该第一指标的校验结果的类型为指标值提取错误。
[0056] 在一个示例中,以表1所示的第一指标和对应的第一指标值,以及表2所示的第二指标和对应的第二指标值为例。对于病人ID为0001的样本的第一指标腹水(如表1所示),表2中病人ID为0001的样本存在第二指标也为腹水(如表2所示),且对应的第一指标值为100、第二指标值为90,第一指标值和第二指标值不同。终端设备可以记录病人ID为0001的样本的腹水的校验结果的类型为指标值提取错误,如表3所示。
[0057] 步骤S143,对于样本的任一第一指标,若不存在与该第一指标相同的第二指标,则记录该第一指标的校验结果,该校验结果的类型为指标误提。
[0058] 在一种可能的实现方式中,终端设备可以将样本中的任一第一指标,与该样本的一个或多个第二指标依次对比,若不存在与该第一指标相同的第二指标,表明该第一指标不应该被提取,但实际却被提取出来了,终端设备可以记录该第一指标的校验结果的类型为指标误提。
[0059] 在一个示例中,以表1所示的第一指标和对应的第一指标值,以及表2所示的第二指标和对应的第二指标值为例。对于病人ID为0003的样本的第一指标分化(如表1所示),表2中病人ID为0003的样本第二指标都不是分化(如表2所示)。终端设备可以记录病人ID为
0003的样本的分化的校验结果的类型为指标误提,如表3所示。
[0060] 步骤S144,对于样本的任一第二指标,若不存在与该第二指标相同的第一指标,则记录该第二指标的校验结果,该校验结果的类型为指标缺失。
[0061] 在一种可能的实现方式中,终端设备可以将样本中的任一第二指标,与该样本的一个或多个第一指标依次对比,若不存在与该第二指标相同的第一指标,表明该第二指标应该被提取,但实际却未提取出来了,终端设备可以记录该第二指标的校验结果的类型为指标缺失。
[0062] 在一个示例中,以表1所示的第一指标和对应的第一指标值,以及表2所示的第二指标和对应的第二指标值为例。对于病人ID为0001的样本存在第二指标分期(如表2所示),表1中病人ID为0001的样本的第一指标都不是分期(如表1所示),终端设备可以记录病人ID为0001的样本的分期的校验结果的类型为指标缺失,如表3所示。
[0063] 在一种可能的实现方式中,在存在与一个第一指标相同的第二指标的情况下,终端设备可以先确定相同的第一指标和第二指标分别对应的第一指标值和第二指标值的类型,基于第一指标值和第二指标值的类型确定第二指标值和第一指标值是否相同。
[0064] 在一种可能的实现方式中,第一指标值和第二指标值的类型均为数值类型时,若第一指标值与第二指标值相等,则终端设备可以确定第一指标值和第二指标值相同,否则,终端设备可以确定第一指标值和第二指标值不同。例如,表1中病人ID为0001的样本的腹水对应的第一指标值为90,表2中病人ID为0001的样本的腹水对应的第二指标值为100,第一指标值和第二指标值不相等,此时终端设备可以记录病人ID为0001的样本的腹水的校验结果的类型为指标值提取错误。
[0065] 在一种可能的实现方式中,第一指标值和第二指标值中至少一个的类型为字符类型时,若第二指标值与第一指标值均包含指定关键字或者第一指标值与第二指标值包含的字符完全相同,则终端设备可以确定第一指标值和第二指标值相同,若第二指标值与第一指标值中至少一个不包含指定关键字或者第一指标值与第二指标值存在不同的字符,则终端设备可以确定第一指标值和第二指标值不同。
[0066] 在一个示例中,样本的第一指标和第二指标均为病理类型,对应的第一指标值为“卵巢浆液性癌”,对应的第二指标值为“左卵巢浆液性乳头状腺癌”。
[0067] 在选择的规则是:若第一指标值与第二指标值包含的字符完全相同,则确定第一指标值和第二指标值相同;若第一指标值与第二指标值存在不同的字符,则确定第一指标值和第二指标值不同的情况下,终端设备可以确定第一指标值和第二指标值不同,终端设备可以记录样本的病理类型的校验结果的类型为指标值提取错误。
[0068] 在选择的规则是:若第二指标值与第一指标值均包含指定关键字,则确定第一指标值和第二指标值相同;若第二指标值与第一指标值中至少一个不包含指定关键字,则确定第一指标值和第二指标值不同,且指定关键字为“卵巢”的情况下,终端设备可以确定第一指标值和第二指标值相同,终端设备可以记录样本的病例类型的校验结果的类型为指标提取正确。
[0069] 以上仅为判断第一指标值和第二指标值是否相同的方法的一个示例,本公开不限于以上判断方法,本公开对于如何判断第一指标值和第二指标值是否相同不做限定。
[0070] 图3示出根据本公开一实施例的指标提取的校验方法的流程图。如3所示,步骤S15基于所述校验结果评估所述指标提取的准确性可以实现为:
[0071] 步骤S151,针对任一样本集合的M个样本,统计相同指标的校验结果,确定该指标对应的各类型的校验结果的比例;其中,该指标对应的任一类型的校验结果的比例为该类型的校验结果的次数与该指标的所有校验结果次数的比值。
[0072] 根据步骤S141至步骤S144,可以记录一个样本的所有指标和每个指标的校验结果的类型。其中,样本的所有指标为样本的所有第一指标和所有第二指标的并集。例如,样本的所有第一指标包括A和C,样本的所有第二指标包括B、C和D,则样本的所有指标包括A、B、C和D。校验结果的类型包括指标提取正确、指标值提取错误、指标误提和指标缺失四个类型。在一个示例中,如表3所示,病人ID为0001的样本有腹水、分期和分化三个指标,腹水的校验结果类型为指标提取错误,分期的校验结果类型为指标缺失,分化的校验结果类型为指标提取正确。
[0073] 在一个示例中,如表3所示,一个样本集合包括病人ID为0001的样本、病人ID为0003的样本等M个样本,统计该样本集合中所有样本的腹水对应的校验结果。分别确定腹水对应的指标提取正确、指标值提取错误、指标误提和指标缺失类型的校验结果的次数,以及腹水对应的所有类型的校验结果的次数。分别将腹水对应的指标提取正确、指标值提取错误、指标误提和指标缺失类型的校验结果的次数与腹水对应的所有类型的校验结果的次数的比值,确定为腹水的指标提取正确、指标值提取错误、指标误提和指标缺失类型的校验结果的比例。通过同样的方法,可以确定出分期的指标提取正确、指标值提取错误、指标误提和指标缺失类型的校验结果的比例,以及分化的指标提取正确、指标值提取错误、指标误提和指标缺失类型的校验结果的比例。
[0074] 在一种可能的实现方式中,可以比较指标对应的指标值提取错误、指标误提和指标缺失类型的校验结果的比例的大小,确定该指标在提取时的主要问题。这样,可以有针对性的优化该指标的提取方法。
[0075] 在一种可能的实现方式中,可以将指标对应的指标提取正确类型的校验结果的比例确定为该指标的合格率。根据指标的合格率,可以确定该指标的可靠性。指标的合格率高,表明该指标的可靠性较高,可以用于进一步的分析处理;指标的合格率低,表明该指标的可靠性低,不能用于进一步的分析处理,可以考虑重新提取。
[0076] 在一个示例中,样本集合中有96个样本,有3个样本的腹水对应指标缺失,有5个样本的腹水对应指标值提取错误,其他样本的腹水对应指标提取正确无问题。终端设备确定腹水对应的指标缺失的比例为3.1%,腹水对应的指标值提取错误的比例为5.2%,腹水对应的指标误提的比例为0。其中,腹水对应的指标值提取错误的比例较大,终端设备可以确定腹水在提取时的主要问题是指标值提取错误。这样,针对腹水可以主要进行指标值提取错误方面的优化。腹水对应的指标提取正确的比例为91.7%,可以确定腹水的合格率为91.7%。
[0077] 在一种可能的实现方式中,可以将N个样本集合的指标对应的各类型的校验结果的比例的均值,分别确定为该指标的对应的各类型的校验结果的最终比例。这样,可以减小单个样本集合带来的评价偏差,提高评估的准确性。例如,抽取两个样本集合,指标的一个样本集合的合格率为A%,另一个样本集合的合格率为B%,则该指标的最终合格率为(A%+B%)/2。
[0078] 在一种可能的实现方式中,可以柱状图等直观的方式,显示指标的合格率及各种中间数据。
[0079] 例如,图4a中示出了根据一个示例的样本集合的各指标(腹水、分期和分化)对应的每个问题类型(指标值提取错误、指标误提和指标缺失)的数量的柱状图。根据图4a所示的柱状图,可以直观的发现各指标提取时的主要问题,从而可以针对各指标的提取时的主要问题进行提取方法的优化。
[0080] 图4b示出了根据一个示例的样本集合的所有指标对应各问题类型和每个问题类型对应的数量的柱状图。根据图4b所示的柱状图,可以直观的发现指标提取时哪种问题类型较多,从而针对出现较多的问题类型进行提取方法的优化。
[0081] 图4c示出了根据一个示例的从不同阶段的电子病历中抽取的样本的各指标对应的问题类型的数量的柱状图。根据图4c所示的柱状图,可以直观的发现各个阶段主要出现的问题类型,从而根据所处阶段将电子病历进行分类,针对各个类别的电子病历进行不同的方面的提取方法的优化。
[0082] 通过确定样本集合中各指标对应的各类型的校验结果的比例,根据本公开指标提取的校验方法,可以确定各指标提取时的主要问题,从而能够有针对性的优化指标的提取方法,还可以根据各指标的合格率,指标的可靠性。
[0083] 图5示出根据本公开一实施例的指标提取的校验方法的流程图。如图5所示,所述方法还包括步骤S16,步骤S15基于所述校验结果评估提取的准确性可以实现为步骤S152。
[0084] 步骤S16,记录第一指标或第二指标的校验结果时,记录第一指标或第二指标对应的电子文本的标识。
[0085] 电子文本标识可以用于区分不同的一个电子文本。电子文本标识可以为ID、编号和名称等。本公开对电子文本标识不做限制。
[0086] 一个第一指标或第二指标对应一个样本,一个样本对应一个电子文本。电子文本标识可以用于识别唯一的电子文本。在记录第一指标或第二指标的校验结果时,记录第一指标或第二指标对应的电子文本标识,可以使指标的校验结果中记录指标,指标的校验结果类型,指标对应的电子文本标识。
[0087] 步骤S152,针对N个样本集合,依据所述校验结果中记录的电子文本的标识,统计相同的电子文本的校验结果,确定该电子文本对应的各类型校验结果的比例;其中,该电子文本对应的任一类型的校验结果的比例为该类型的校验结果的次数与该电子文本的所有校验结果次数的比值。
[0088] 根据步骤S141至步骤S144及步骤S16,可以记录任一样本集合的所有指标和每个指标的校验结果类型,和每个指标对应的电子文本标识。
[0089] 在一个示例中,统计N个样本集合中每个电子文本标识对应的电子文本的腹水对应的校验结果、分期对应的校验结果、分化对应的校验结果。分别确定每个电子文本对应的指标提取正确、指标值提取错误、指标错误和指标缺失类型的校验结果的次数,以及该电子文本的所有类型的校验结果的次数。分别将每个电子文本对应的指标提取正确、指标值提取错误、指标错误和指标缺失类型的校验结果的次数与该电子文本的所有类型的校验结果的次数的比值,确定为该电子文本对应的指标提取正确、指标值提取错误、指标误提和指标缺失类型的校验结果的比例。
[0090] 在一种可能的实现方式中,可以将电子文本对应的指标提取正确类型的校验结果的比例,确定为该电子文本的指标完整度。
[0091] 通过不同电子文本的指标完整度,可以确定各电子文本的提取是否有效。例如,当一个电子文本的指标完整度较低时,可以认为针对该电子文本提取的第一指标和对应的第一指标值的可靠性较低,需要重新从该电子文本中提取第一指标和对应的第一指标值。当电子文本的指标完整度较高时,可以认为该针对电子文本的提取的第一指标和对应的第一指标值可靠性较高,可以用于后续的数据分析和处理。
[0092] 在一种可能的实现方式中,可以将各电子文本的指标完整度的均值,确定为第一整体指标完整度。
[0093] 通过第一整体指标完整度,可以评估提取方法是否需要优化。例如,若第一整体指标完整度较低,则可以确定第一指标和第一指标值的准确性较低,之前所采用的提取方法的可靠性较低,可能需要优化才能使用。若第一整体指标完整度较高,则可以确定第一指标和第一指标值的准确性较高,之前所采用的提取方法的可靠性较高,可以不进行优化直接适用。
[0094] 在一种可能的实现方式中,可以将电子文本对应的指标提取正确类型的校验结果的比例为1的电子文本的数量,占电子文本的总数的比例,确定为第二整体指标完整度。
[0095] 当电子文本的指标完整度为1时,表示该电子文本的每个指标均没有出现问题,每个指标和对应的指标值都被准确无误的提取出来,该电子文本的指标的提取是完整无误的。
[0096] 通过第二整体指标完整度,可以评估提取方法的适用范围。例如,若第二整体指标完整度较低,则可以确定之前所采用的提取方法对小部分电子文本的提取效果较好,对大部分电子文本的提取效果较差,适用范围较窄。第二整体指标完整度较低的提取方法可以用于特定类型的电子文本的指标提取。若第二整体指标完整度较高,则可以确定之前所采用的提取方法可以正确提取大部分电子文本中的指标,适用范围较广。
[0097] 图6示出根据本公开一实施例的指标提取的校验装置的框图。如图6所示,该指标提取的校验装置70包括:
[0098] 提取模块71,用于针对每个电子文本进行指标提取,得到该电子文本的第一指标和对应的第一指标值。
[0099] 抽取模块72,用于抽取作为样本的电子文本。
[0100] 采集模块73,用于针对每个样本,采集该样本的第二指标和对应的第二指标值。
[0101] 校验模块74,用于以样本的第二指标和第二指标值对样本的第一指标和第一指标值进行校验,得到校验结果。
[0102] 评估模块75,用于基于所述校验结果评估所述指标提取的准确性。
[0103] 图7示出根据本公开一实施例的指标提取的校验装置的框图。如图7所示,在一种可能的实现方式中,抽取模块72包括:
[0104] 抽取单元721,用于每次抽取M个电子文件作为样本,抽取N次,得到N个样本集合,每个样本集合包括M个样本。
[0105] 在一种可能的实现方式中,所述校验模块74包括:
[0106] 第一记录单元741,用于对于样本的任一第一指标,当存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值相同时,记录该第一指标的校验结果,该校验结果的类型为指标提取正确。
[0107] 第二记录单元742,用于对于样本的任一第一指标,当存在与该第一指标相同的第二指标,且对应的第一指标值和第二指标值不同时,记录该第一指标的校验结果,该校验结果的类型为指标值提取错误。
[0108] 第三记录单元743,用于对于样本的任一第一指标,当不存在与该第一指标相同的第二指标时,记录该第一指标的校验结果,该校验结果的类型为指标误提。
[0109] 第四记录单元744,用于对于样本的任一第二指标,当不存在与该第二指标相同的第一指标时,记录该第二指标的校验结果,该校验结果的类型为指标缺失。
[0110] 在一种可能的实现方式中,所述装置70还包括:
[0111] 类型确定模块76,用于确定相同的第一指标和第二指标分别对应的第一指标值和第二指标值的类型。
[0112] 第一确定模块77,用于在第一指标值和第二指标值的类型均为数值类型的情况下,当第一指标值与第二指标值相等时,确定第一指标值和第二指标值相同,否则,确定第一指标值和第二指标值不同。
[0113] 第二确定模块78,用于在第一指标值和第二指标值中至少一个的类型为字符类型的情况下,当第二指标值与第一指标值均包含指定关键字或者第一指标值与第二指标值包含的字符完全相同时,确定第一指标值和第二指标值相同,当第二指标值与第一指标值中至少一个不包含指定关键字或者第一指标值与第二指标值包含的字符存在不同的字符,则确定第一指标值和第二指标值不同。
[0114] 在一种可能的实现方式中,所述评估模块75包括:
[0115] 第一统计单元751,用于针对任一样本集合的M个样本,统计相同指标的校验结果,确定该指标对应的各类型的校验结果的比例;其中,该指标对应的任一类型的校验结果的比例为该类型的校验结果的次数与该指标的所有校验结果次数的比值。
[0116] 在一种可能的实现方式中,所述装置70还包括:
[0117] 记录模块79,用于在记录第一指标或第二指标的校验结果时,记录第一指标或第二指标对应的电子文本的标识。
[0118] 在一种可能的实现方式中,所述评估模块75包括:
[0119] 第二统计单元752,用于针对N个样本集合,依据所述校验结果中记录的电子文本的标识,统计相同的电子文本的校验结果,确定该电子文本对应的各类型校验结果的比例;其中,该电子文本对应的任一类型的校验结果的比例为该类型的校验结果的次数与该电子文本的所有校验结果次数的比值。
[0120] 图8是根据一示例性实施例示出的一种用于指标提取的校验的装置900的框图。参照图8,该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且,处理器901通过读取机器可读存储介质902中与指标提取的校验逻辑对应的机器可执行指令以执行上文所述的指标提取的校验方法。
[0121] 本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
[0122] 以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈