首页 / 专利库 / 电脑编程 / 别名 / 电子病历数字对象分类器生成方法以及最终分类器系统

电子病历数字对象分类器生成方法以及最终分类器系统

阅读:1085发布:2020-05-20

专利汇可以提供电子病历数字对象分类器生成方法以及最终分类器系统专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种 电子 病历数字对象分类方法和系统。所述方法包括:获取电子病历数字对象的聚类方法;生成聚类后集合的粗略分类方法,包括对分类参数进行估计的方法,形成初步的分类器;用聚类结果对初步分类器进行参数调整,结合逻辑化推理方法确定最终分类器。在一个 实施例 中,初步分类结果根据伪似然估计方法确定参数,进一步借助概率推理的后验估计方法进行修正并确定最终分类器,从而有效的避免了干扰信息的影响,弥补了数字知识对象中不明确语义信息引起的歧义 缺陷 。利用本发明的分类方法和系统,可以提高数字知识对象分类的精确性和可扩展性。,下面是电子病历数字对象分类器生成方法以及最终分类器系统专利的具体信息内容。

1.一种电子病历数字对象分类器生成方法,其特征在于,具体步骤包括:
(1)获取电子病历数字对象的聚类结果;(2)生成聚类后结果的粗略分类方法,并形成初步分类器;
(3)用聚类结果对初步分类器进行参数调整,并形成最终分类器。
2.如权利要求1所述的电子病历数字对象分类器生成方法,其特征在于,所述步骤(3)中参数调整步骤包括:
a、计算对应于所述粗略分类结果的初步分类器的参数估计值;
b、利用聚类结果和最大伪似然估计方法对初步分类器参数进行修正,以生成对应于相应结果的后验概率;
c、根据所述后验概率生成所述最终分类器。
3.如权利要求2所述的电子病历数字对象分类器生成方法,其特征在于,所述步骤b中利用最大伪似然估计方法中,利用最大伪似然估计值代替一般最大似然估计值,并结合一阶逻辑谓词的方法进行参数值的修正。
4.如权利要求2所述的电子病历数字对象分类器生成方法,其特征在于,所述步骤a中的参数估计值是利用训练集获得,训练集是通过如下过程自动生成的:
1)获取与所述对象集合相关分类的类别名
2)基于所述的类别名生成相关的关键值;
3)利用所述关键值分类所述对象集合以得到中间分类结果;
4)从所述中间分类结果获得所述训练集。
5.如权利要求4所述的电子病历数字对象分类器生成方法,其特征在于,所述步骤2)中生成所述关键值的步骤还包括:
参考外部知识源对获取的所述类别名进行重新分类;
以及基于经过重新分类的类别名生成所述关键值。
6.如权利要求4所述的电子病历数字对象分类器生成方法,其特征在于,其中所述步骤
3)中述得到中间分类结果的步骤包括:
利用所述关键值作为查询项搜索所述对象集合;
将作为搜索结果的命中列表中的对象标注到相应类别中。
7.如权利要求4所述的电子病历数字对象分类器生成方法,其特征在于,所述步骤4)中获得所述训练集的步骤包括:
用所述聚类结果调整所述中间分类结果以生成中间分类器;
从所述中间分类器对应的调整后的分类结果中选择生成所述训练集。
8.如权利要求7所述的方法,其特征在于,用所述聚类结果调整所述初步分类结果以生成最终分类器的步骤中,是以所述训练集作为初始训练集进行迭代分类器学习,从而学习一组中间分类器,并从所述一组中间分类器中选择一个最有分类器作为所述最终分类器。
9.一种权利要求1-8所述的电子病历数字对象最终分类器系统,包括:
获取器,用于获取对象集合的聚类结果;
粗略分类装置,用于生成所述对象集合的粗略分类结果以得到粗略分类器;
以及调整装置,用于用所述聚类结果调整所述粗略分类结果以生成最终分类器。
10.如权利要求9所述的电子病历数字对象最终分类器系统,其中所述调整装置包括:
先验概率计算单元,用于计算对应于所述粗略分类结果的先验概率;以及对准单元,利用最大伪似然估计方法和一阶逻辑谓词方法使得所述粗略分类结果与所述聚类结果对准以生成对应于所述对准结果的后验概率,并且根据所述后验概率生成所述最终分类器。

说明书全文

电子病历数字对象分类器生成方法以及最终分类器系统

技术领域

[0001] 本发明属于电子病历管理与分析挖掘领域,具体涉及一种电子病历数字对象分类器生成方法以及最终分类系统。

背景技术

[0002] 目前,可获得的以计算机可以处理的电子病历数字对象为表象的知识快速增长,使得人们无法透彻了解并有效利用这大量的信息。如何帮助用户以高效的方式组织这些知识并找到所需的重点知识是一项富有挑战性的任务,也是电子病历管理与分析挖掘领域的核心目的。
[0003] 对知识统计关系的学习已成为电子病历管理与分析挖掘领域的一个重要研究热点,它在生物信息学、系统生物学、互联网搜索、社会网、似然模型获取与利用、地理信息系统和自然语言理解等领域,都获得了极高的重视。它是将关系/逻辑表示、概率推理机制(不确定性处理)、机器学习数据挖掘集成在一起,以获取数据中的似然模型为目的的电子病历管理与分析挖掘方法。统计关系学习中的统计指采用基于概率论的概率表示和推理机制,关系是指一阶逻辑表示和关系表示;学习等同于数据挖掘,是指从数据中学得统计关系模型。目前统计关系学习方法主要有基于Bayesian网的方法、基于(隐)Markov模型的方法、基于随机文法的方法和基于Markov网的方法等。
[0004] 本发明的研究利用统计关系学习的方法,实现电子病历管理与分析挖掘中的知识获取、分类组织、挖掘与特征标注过程。在这些方面现有技术中存在很多研究成果,大致可以分为监督型、半监督型和无监督型三类。各自都存在一定程度缺陷:监督型方法为了获得统计关系的参数估计需要大量的训练数据集,这在实用环境中特别是某些固定行业应用中难以获得,适用性差;半监督型方法会受局部数据特征分布的影响,导致整体参数估计的偏差,虽然有研究用似然估计的方法进行改进,但在计算机自动处理该过程时效果仍不明显;无监督型方法需要严格预定义先验知识列表,如关键字列表等,可扩展性差。因此需要新的对电子病历数字对象知识进行分类组织管理的方法,用以提高电子病历管理与分析挖掘过程中,对电子病历数字对象的分类统计关系进行学习和生成的方法,用以实现计算机可处理的,高效的,可扩展的电子病历管理与分析挖掘过程。

发明内容

[0005] 针对上述问题,提出一种电子病历数字对象分类方法和系统,针对计算机可处理的电子病历数字对象知识,进行自动化的分类组织,通过对电子病历数字对象分类特征的统计关系学习,实现对分类过程适用性和可扩展性的提升。
[0006] 本发明的技术方案为:一种电子病历数字对象分类器生成方法,具体步骤包括:
[0007] (1)获取电子病历数字对象的聚类结果;
[0008] (2)生成聚类后结果的粗略分类方法,并形成初步分类器;
[0009] (3)用聚类结果对初步分类器进行参数调整,并形成最终分类器
[0010] 作为优选,所述步骤(3)中参数调整步骤包括:
[0011] a、计算对应于所述粗略分类结果的初步分类器的参数估计值;
[0012] b、利用聚类结果和最大伪似然估计方法对初步分类器参数进行修正,以生成对应于相应结果的后验概率;
[0013] c、根据所述后验概率生成所述最终分类器。
[0014] 进一步地,所述步骤b中利用最大伪似然估计方法中,利用最大伪似然估计值代替一般最大似然估计值,并结合一阶逻辑谓词的方法进行参数值的修正。
[0015] 进一步地,所述步骤a中的参数估计值是利用训练集获得,训练集是通过如下过程自动生成的:
[0016] 1)获取与所述对象集合相关分类的类别名
[0017] 2)基于所述的类别名生成相关的关键值;
[0018] 3)利用所述关键值分类所述对象集合以得到中间分类结果;
[0019] 4)从所述中间分类结果获得所述训练集。
[0020] 更进一步地,所述步骤2)中生成所述关键值的步骤还包括:
[0021] 参考外部知识源对获取的所述类别名进行重新分类;
[0022] 以及基于经过重新分类的类别名生成所述关键值。
[0023] 进一步地,所述步骤3)中述得到中间分类结果的步骤包括:
[0024] 利用所述关键值作为查询项搜索所述对象集合;
[0025] 将作为搜索结果的命中列表中的对象标注到相应类别中。
[0026] 进一步地,所述步骤4)中获得所述训练集的步骤包括:
[0027] 用所述聚类结果调整所述中间分类结果以生成中间分类器;
[0028] 从所述中间分类器对应的调整后的分类结果中选择生成所述训练集。
[0029] 进一步地,用所述聚类结果调整所述初步分类结果以生成最终分类器的步骤中,是以所述训练集作为初始训练集进行迭代分类器学习,从而学习一组中间分类器,并从所述一组中间分类器中选择一个最有分类器作为所述最终分类器。
[0030] 本发明还包括另一种技术方案:电子病历数字对象最终分类器系统,包括:获取器,用于获取对象集合的聚类结果;
[0031] 粗略分类装置,用于生成所述对象集合的粗略分类结果以得到粗略分类器;
[0032] 以及调整装置,用于用所述聚类结果调整所述粗略分类结果以生成最终分类器。
[0033] 进一步地,所述调整装置包括:
[0034] 先验概率计算单元,用于计算对应于所述粗略分类结果的先验概率;以及对准单元,利用最大伪似然估计方法和一阶逻辑谓词方法使得所述粗略分类结果与所述聚类结果对准以生成对应于所述对准结果的后验概率,并且根据所述后验概率生成所述最终分类器。
[0035] 本发明的优点为:1、电子病历数字对象的聚类结果和分类结果之间的对准分析被执行,并被集成到训练集合建立以及迭代分类器学习的过程中,这样一来,来源于类别名和相应语义分析的可能偏见和歧义得到控制,确保了所产生的训练数据以及最终分类结果的精确性得以提高;
[0036] 2、本发明所采用的方法不需要初始训练数据或者初始约定的固定的关键字列表来进行分类。相反,本发明采用在现有知识源的支持下对类别名进行语义分析来建立初始训练集合。由于已有的外部知识源可以覆盖多个领域,因此当领域集改变时,本方面的方法仍可容易的应用到多个不同的领域集中,从而减少额外的人工干预工作,提高计算机自动化处理的程度;
[0037] 3、本发明所提供的最终分类器建立的机制可以降低分类器由于迭代分类器学习过程中的噪声数据的存在而引起的过大偏差。从而提高最终分类的精确性。附图说明
[0038] 附图1是电子病历数字对象分类系统S100的整体框图
[0039] 附图2是图1所示电子病历数字对象分类系统S100的工作过程的流程图
[0040] 附图3是图1所示的分类系统中的调整生成装置S103的一个实例的结构框图;
[0041] 附图4是图1所示的分类系统中的粗略分类器S102的结构框图;
[0042] 附图5是根据本发明实施例,图1所示分类系统中的调整生成装置103采取迭代分类器学习的工作过程流程图;
[0043] 附图6是被用于实现本发明的计算机系统的示意性框图。

具体实施方式

[0044] 本发明所提出的分类器生成方法和系统可应用于一般电子病历管理与分析挖掘过程中的知识获取与过滤,知识分类组织,知识搜索,和数据挖掘等等。从以下实施例的描述中,可以看出本发明的具体特征和优点。本发明并不限于以下实施例中的描述或其他具体的实施例。
[0045] 图1所示分类系统S100的整体框图。如果所示,来自知识库S105的电子病历数字对象集合通过聚类装置S107被预先聚类成多个组,并将聚类结果存储在聚类结果库S104中。聚类结果库S104中所存储的关于文档集合的聚类结果将用于实际的具体电子病历管理与分析挖掘应用中。关于聚类的方法属于本领域的公共知识技术,不作为本发明的研究重点,不做详细描述。图1所示根据本发明实施例的分类器系统包括获取装置S101,粗略分类装置S102以及调整生成装置S103。
[0046] 图2所示为图1中分类系统S100的工作过程的流程图。
[0047] 首先,在步骤201处,先对待处理的数据进行预处理工作,对与应用无关的原始内容进行过滤与清洗。
[0048] 其次,在步骤202处,将经过清洗的原始电子病历数字对象进行向量化的规范化处理,形成适用于应用程序的计算机可处理的电子病历数字对象表达形式。
[0049] 第三,规范化处理后的电子病历数字对象首先被粗略分类装置S102处理以进行粗略分类,从而得到粗略分类结果,如步骤203所示。例如,在本说明书背景技术中描述的本领域公共知识技术的监督型分类、半监督型分类或无监督型分类方法均可用于实现粗略分类目的。在某些特定的实施例中,可以采用外部输入的训练集,也可以通过参考来自外部知识源的关于类名的语义信息自动生成训练集,以达到自适应的效果。
[0050] 同时,在步骤204处,获取装置S101从聚类结果库S104处获取预先存储的关于该集合的聚类结果。此时,来自粗略分类装置S102的粗略分类结果和来自获取装置S101的聚类结果都被提供到调整生成装置S103处。
[0051] 在步骤205处,利用聚类结果对来自粗略分类装置的粗略分类结果进行调整,从而生成最终分类器S106。
[0052] 在步骤206处,已经在步骤202处获得的集合被提供到所生成的最终分类器S106,最终分类器S106将集合中的每个分类指定到一个类别,并将分类结果存储到文档分类结果库S108中。过程结束。
[0053] 图3所示为分类系统的调整生成装置框图。其中包括概率计算单元S301和对准单元S302.
[0054] 首先,在概率计算单元S301处,计算对应于粗略分类结果的先验概率。如前所述,先验概率的计算问题可以转化为对粗略分类器中各种分类公司的权值wi(i=1,Λm)进行估计。因此参数学习任务就是估计出知识库中所有公式的权值。一个原始数据对象库就是一个向量x=(x1,Λ,xl,Λ,xn)。给定一个数据对象库,分类器的权值原则上可以通过最大似然估计的方法学习到。即参数wi看作固定值,并假设所有数据满足参数wi,通过计算使X=x的似然概率Pw(X=x)取最大值的wi(i=1,Λ,m)来获取参数值。
[0055]
[0056] 其中,一般方法中,ni(x)与ni(x′)都可以从数据对象库中计算得到,但计算效率低,因此用最大伪似然概率估计来替代,即:
[0057]
[0058] 其中:Pw(X=x)为伪似然概率,MBx(Xl)表示Xl的Markov概率覆盖。使参数学习问题转化为非线性优化问题。
[0059] 在对准单元S302中,计算对准模型。一般的,当一个聚类结果形成后,对准结果可以表示为后验概率:
[0060]
[0061] 其中,先验概率Pw(X=x)来自粗分类结果,因此,最终的对准模型可以表示为:
[0062]
[0063] 其中,C为电子病历数字对象库经过聚类后形成的聚类集合。
[0064] 根据公式(4)所示的概率模型,即实现经过聚类结果调整的最终分类器,该最终分类器相对于粗略分类器,由于经过了对准处理,分类精度更高,并可以功过聚类结果的引入,使分类偏差得到了控制。
[0065] 图4是粗略分类装置根据外部知识源自动生成训练集的示意图。包括训练集发生单元S401和学习单元S402。训练集发生单元S401参考可能的外部知识源的输入自动随机抽取数据并筛选生成训练集。然后自动生成的训练即被提供到学习单元S402以学习分类器,并完成分类器的参数估计。
[0066] 图5是分类系统中的调整生成装置103采取迭代分类器学习的工作过程流程图。其工作流程如下:
[0067] 首先,在步骤501处,在粗略分类结果生成过程中产生的训练集作为初始训练集。在每次迭代期间,在步骤502处可以使用某种已知的分类器学习方法利用训练集生成中间分类器。在步骤503处,新的分类器被用于对文档库S105中的文档进行分类,以得到新的中间分类结果。在步骤504处,判断是否满足迭代终止条件。该迭代终止条件由用户自己确定。
如果迭代终止条件没有被满足,过程则前进到步骤505,利用本轮迭代的中间分类结果生成用于下次迭代的新训练集。如果终止条件满足,则过程前进到步骤506,在迭代过程中所产生的一系列中间分类器被保留。然后在步骤507处,从在迭代过程中所产生的一系列中间分类器中,选出最校准代价最小的一个作为最终分类器,最终该迭代流程结束。
[0068] 图6是用于实现本发明的计算机系统的示意性框图。包括应用服务器S601,用于处理预定义的公式计算并进行系统整体应用服务;用户接口S602,用于实现对外部知识库系统和存储系统的对接;预处理中间件S603,用于对外部数据的预处理过程;数据对象规范化中间件模块S604,用于实现对预处理后的数据对象向量化以便后续计算处理;聚类分析中间件模块S605,用于实现聚类计算;自动分类中间件模块S606,用于执行自动分类的迭代计算。
[0069] 以上描述了根据本发明实施例的文档分类方法和系统,并重点描述了分类器自动生成,根据上述描述可以看出,本发明具有以下效果:利用聚类结果和多次迭代的方式改进对电子病历数字对象的分类过程,削减可能的误差,确保了最终分类结果的精确性;此外,本发明中,外部输入的训练数据集不是必要条件,系统可以根据外部知识源自动生成训练集,并通过迭代过程不断优化,扩展了系统的适用性。
[0070] 以上所述仅为本发明的实施例,本发明还可以以其他具体形式实现,凡在本发明的精神和原则之内所做的任何修改、等同替换等,军营包含在本发明的范围之中。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈