首页 / 专利库 / 人工智能 / 数据库知识发现 / 一种基于知识图谱的医疗保障骗保行为发现方法

一种基于知识图谱的医疗保障骗保行为发现方法

阅读:166发布:2020-05-12

专利汇可以提供一种基于知识图谱的医疗保障骗保行为发现方法专利检索,专利查询,专利分析的服务。并且本 发明 提供一种基于知识图谱的医疗保障骗保行为发现方法,所述方法步骤具体如下:针对不同领域构建对应的领域本体库,通过映射构建全局本体库,完成知识图谱模式层构建;对知识图谱模式层进行信息 抽取 ;根据实体类型及本体构建知识图谱实体关系,完成知识图谱构建;根据上述获得的知识图谱,以人物为中心,将时间和空间融入图谱,构建以空间、时间和人物立体关系为一体的就医行为轨迹知识图谱;根据生产的就医行为轨迹知识图谱,聚类相似人员、推荐疑似骗保参保人员、挖掘出潜在骗保人员。本发明提供的基于知识图谱的医疗保障骗保行为发现方法,解决了传统医疗保障无法有效挖掘潜在骗保行为的问题,提供了一条疑似骗保行为发现的新途径。,下面是一种基于知识图谱的医疗保障骗保行为发现方法专利的具体信息内容。

1.一种基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述方法步骤具体如下:
S10、针对不同领域构建对应的领域本体库,通过映射构建全局本体库,完成知识图谱模式层构建;
S20、对所述知识图谱模式层进行信息抽取
S30、根据实体类型及本体构建知识图谱实体关系,完成知识图谱构建;
S40、根据步骤S30获得的知识图谱,以人物为中心,将时间和空间融入图谱,构建以空间、时间和人物立体关系为一体的就医行为轨迹知识图谱;
S50、根据生产的就医行为轨迹知识图谱,聚类相似人员、推荐疑似骗保参保人员、挖掘出潜在骗保人员。
2.根据权利要求1所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述步骤S10中的本体包括:知识图谱实体类型、实体关系类型,其中实体类型有参保人、参保单位、就诊时间、接诊医生、就诊医院、户籍地及药品等;实体关系类型有所属参保单位、家庭成员关系、所去就诊医院、所属看病医生、所在户籍地、就诊时间。
3.根据权利要求1所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述步骤S20中的信息抽取包括实体抽取、关系抽取和属性抽取等内容,即从医疗保障数据库、公安户籍信息库中抽取出参保人基本信息、户籍信息、就诊信息。
4.根据权利要求1所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述S30中还包括:
S31、通过知识合并、实体对齐和实体消歧,消除概念歧义、剔除冗余和错误概念,确保知识图谱的质量
5.根据权利要求1所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述步骤S40包括:
S41、构建同时就医关系,从参保人维度梳理就诊医院、就诊时间关系,挖掘出参保人与参保人之间的就医行为关系;
S42、构建同时间并且同一个医生的就诊关系图谱,从参保人维度梳理就诊时间、就诊医生关系,挖掘出参保人与参保人之间的就医行为关系;
S43、在关系空间中找出参保人与参保人之间的关系并给两者关系设置权重;
S44、根据上述步骤S41、S42、S43遍历所有参保人,构建出以参保人为实体及带有权重的就医行为新关系的图谱;
S45、根据上述步骤S44中构建出的就医行为新关系的图谱,删除多余的实体及实体关系。
6.根据权利要求5所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述S43中通过A*算法实现在关系空间中找出参保人与参保人之间的关系并给两者关系设置权重;所述A*算法公式表示如下:
f(n)=g(n)+h(n);
其中,f(n)是从初始参保人经由参保人n到目标参保人的距离估计即权重,g(n)是在关系空间中从初始参保人到参保人n的实际距离;h(n)是从参保人到目标参保人的最佳路径的估计距离。
7.根据权利要求4或5所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述步骤S50中聚类相似人员包括根据关系权重的强弱分析找出属于相同社区的人,形成聚类人群图谱;通过聚类算法实现,聚类算法如下:
根据每个参保人实体生成关系向量x(i),所有参保人的关系向量可表示为{x(1),…,x(m)},将这些参保人聚类成k个簇(cluster),具体算法描述如下:
随机选取k个聚类质心点(clustercentroids)为μ1,μ2,…μk∈Rn;
重复如下过程直到收敛或者经过N次迭代{
对于每一个样例i,计算其应该属于的类;
对于每一个类j,重新计算该类的质心;
8.根据权利要求7所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述推荐疑似骗保参保人员具体如下:
根据知识图谱中已经确认的骗保人员进行行为轨迹相似人群推荐;通过余弦相似度用向量空间中两个向量夹的余弦值作为衡量两个个体间差异的大小;
通过计算两个向量的夹角的余弦值来衡量向量之间的相似度值;余弦相似性推导公式如下;
其中:A,B为参保人在关系空间中的关系向量。
9.根据权利要求8所述的基于知识图谱的医疗保障骗保行为发现方法,其特征在于:所述挖掘出潜在骗保人员具体如下:
通过TransE算法推理出新的关系,TransE基于实体和关系式向量表示,将每个三元组实例参保人h、行为关系r、参保人t中的行为关系r为从疑似骗保人h推理出参保人t是否存在骗保行为,通过调整h,r使得(h+r)尽可能与t相等。

说明书全文

一种基于知识图谱的医疗保障骗保行为发现方法

技术领域

[0001] 本发明涉及医疗保障领域,特别涉及一种基于知识图谱的医疗保障骗保行为发现方法。

背景技术

[0002] 医疗保障基金是关乎人民群众生命健康的重要资金,随着我国医疗保障制度的不断完善,持卡就医、即时结算和移动支付等管理服务方式的与时俱进,参保群众的获得感不断增强。但是,在医疗保障制度改革不断深入的过程中,参保覆盖面逐步扩大,基金监管难度也逐步增加,其中一个主要问题是医保欺诈案件频频发生,呈现大案化、团伙化、隐蔽化的特点,严重危害医疗保障基金的安全。
[0003] 传统的基于医学知识规则库的医疗保障基金检查方法已经很难有效找出骗取医疗保障基金的参保人员,例如,部分骗保人员与医生勾结,其就诊处方单笔记录都是合理的,可以有效通过医疗保障系统的医学规则检验,但整体就医行为却是虚假伪造的,则很难找出这部分骗保人员。

发明内容

[0004] 为解决上述背景技术中提到的问题,本发明提供一种基于知识图谱的医疗保障骗保行为发现方法,所述方法步骤具体如下:
[0005] S10、针对不同领域构建对应的领域本体库,通过映射构建全局本体库,完成知识图谱模式层构建;
[0006] S20、对所述知识图谱模式层进行信息抽取
[0007] S30、根据实体类型及本体构建知识图谱实体关系,完成知识图谱构建;
[0008] S40、根据步骤S30获得的知识图谱,以人物为中心,将时间和空间融入图谱,构建以空间、时间和人物立体关系为一体的就医行为轨迹知识图谱;
[0009] S50、根据生产的就医行为轨迹知识图谱,聚类相似人员、推荐疑似骗保参保人员、挖掘出潜在骗保人员。
[0010] 进一步地,所述步骤S10中的本体包括:知识图谱实体类型、实体关系类型,其中实体类型有参保人、参保单位、就诊时间、接诊医生、就诊医院、户籍地及药品等;实体关系类型有所属参保单位、家庭成员关系、所去就诊医院、所属看病医生、所在户籍地、就诊时间。
[0011] 进一步地,所述步骤S20中的信息抽取包括实体抽取、关系抽取和属性抽取等内容,即从医疗保障数据库、公安户籍信息库中抽取出参保人基本信息、户籍信息、就诊信息。
[0012] 进一步地,所述S30中还包括:
[0013] S31、通过知识合并、实体对齐和实体消歧,消除概念歧义、剔除冗余和错误概念,确保知识图谱的质量
[0014] 进一步地,所述步骤S40包括:
[0015] S41、构建同时就医关系,从参保人维度梳理就诊医院、就诊时间关系,挖掘出参保人与参保人之间的就医行为关系;
[0016] S42、构建同时间并且同一个医生的就诊关系图谱,从参保人维度梳理就诊时间、就诊医生关系,挖掘出参保人与参保人之间的就医行为关系;
[0017] S43、在关系空间中找出参保人与参保人之间的关系并给两者关系设置权重;
[0018] S44、根据上述步骤S41、S42、S43遍历所有参保人,构建出以参保人为实体及带有权重的就医行为新关系的图谱;
[0019] S45、根据上述步骤S44中构建出的就医行为新关系的图谱,删除多余的实体及实体关系。
[0020] 进一步地,所述S43中通过A*算法实现在关系空间中找出参保人与参保人之间的关系并给两者关系设置权重;所述A*算法公式表示如下:
[0021] f(n)=g(n)+h(n);
[0022] 其中,f(n)是从初始参保人经由参保人n到目标参保人的距离估计即权重,g(n)是在关系空间中从初始参保人到参保人n的实际距离;h(n)是从参保人到目标参保人的最佳路径的估计距离。
[0023] 进一步地,所述步骤S50中聚类相似人员包括根据关系权重的强弱分析找出属于相同社区的人,形成聚类人群图谱;通过聚类算法实现,聚类算法如下:
[0024] 根据每个参保人实体生成关系向量x(i),所有参保人的关系向量可表示为{x(1),…,x(m)},将这些参保人聚类成k个簇(c l uster),具体算法描述如下:
[0025] 随机选取k个聚类质心点(clustercentroids)为μ1,μ2,…μk∈Rn;
[0026] 重复如下过程直到收敛或者经过N次迭代{
[0027] 对于每一个样例i,计算其应该属于的类;
[0028]
[0029] 对于每一个类j,重新计算该类的质心;
[0030]
[0031] 进一步地,所述推荐疑似骗保参保人员具体如下:
[0032] 根据知识图谱中已经确认的骗保人员进行行为轨迹相似人群推荐;通过余弦相似度用向量空间中两个向量夹的余弦值作为衡量两个个体间差异的大小;
[0033] 通过计算两个向量的夹角的余弦值来衡量向量之间的相似度值;余弦相似性推导公式如下;
[0034]
[0035] 其中:A,B为参保人在关系空间中的关系向量。
[0036] 进一步地,所述挖掘出潜在骗保人员具体如下:
[0037] 通过TransE算法推理出新的关系,TransE基于实体和关系式向量表示,将每个三元组实例参保人h、行为关系r、参保人t中的行为关系r为从疑似骗保人h推理出参保人t是否存在骗保行为,通过调整h,r使得(h+r)尽可能与t相等。
[0038] 本发明提供的基于知识图谱的医疗保障骗保行为发现方法,将知识图谱引入医疗保障领域,通过对参保人员的社会关系、家庭关系及就诊行为关系进行知识抽取,从而构建出具有可疑骗保行为的关系图谱,并用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。从而找出疑似骗保行为的参保人名单并提供给医疗保障管理机构,为医疗保障管理机构提供一条有别于传统方法的疑似骗保行为发现新途径。附图说明
[0039] 为了更清楚地说明本发明实施例现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040] 图1为本发明提供的基于知识图谱的医疗保障骗保行为发现方法流程框图

具体实施方式

[0041] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042] 本发明实施例提供一种基于知识图谱的医疗保障骗保行为发现方法,所述方法具体如下:
[0043] S10、针对不同领域构建对应的领域本体库,通过映射构建全局本体库,完成知识图谱模式层构建;该步骤中,知识图谱模式层构建,由于医疗保障知识图谱内容覆盖面广,包含多个跨领域信息,而不同领域的本体构建方法有所不同,首先针对不同领域构建对应的领域本体库,然后通过映射构建全局本体库。本体包含知识图谱实体类型、实体关系类型,其中实体类型有参保人、参保单位、就诊时间、接诊医生、就诊医院、户籍地及药品等;实体关系类型有所属参保单位、家庭成员关系、所去就诊医院、所属看病医生、所在户籍地、就诊时间等;
[0044] S20、信息抽取,包含实体抽取、关系抽取和属性抽取等内容,即从医疗保障数据库、公安户籍信息库中抽取出参保人基本信息、户籍信息、就诊信息等跟知识图谱本体中对应的相关数据;
[0045] S30、构建知识图谱;该步骤中包括:
[0046] S31、按S10中是本体构建知识图谱实体;
[0047] S32、根据实体类型及本体构建知识图谱实体关系;实体关系补齐处理,由于关系中存在两两对应关系,如张三与李四是同事关系,那么李四与张三也是同事关系,在建立知识图谱关系时,同时建立两条有方向的关系,减少图的复杂度,提高建立关系效率。
[0048] S33、知识图谱构建结果中可能包含较多冗余和少量错误信息,通过知识合并、实体对齐和实体消歧等过程,消除概念歧义、剔除冗余和错误概念,从而确保知识图谱的质量;
[0049] S40、根据前面步骤得到的知识图谱,进一步构建以空间、时间和人物立体关系为一体的就医行为轨迹知识图谱。以人物为中心,将时间和空间融入图谱,从而形成以人为核心的关系网络;
[0050] S41、构建同时就医关系;从参保人维度梳理就诊医院(空间)、就诊时间(时间)关系,挖掘出参保人与参保人之间的就医行为关系。根据相同时空的人的关系进行合并,并为关系赋予权重;
[0051] S42、构建同时间并且同一个医生的就诊关系图谱。从参保人维度梳理就诊时间(时间)、就诊医生(医生执业点在医院即含空间关系)关系,挖掘出参保人与参保人之间的就医行为关系。根据相同时空的人的关系进行合并,并为关系赋予权重;
[0052] S43、通过A*算法在关系空间中找出参保人与参保人之间的关系并给两者关系设置权重;A*算法是一种求解最短路径的有效搜索方法,其公式表示为:
[0053] f(n)=g(n)+h(n);
[0054] 其中,f(n)是从初始参保人经由参保人n到目标参保人的距离估计即权重,g(n)是在关系空间中从初始参保人到参保人n的实际距离,
[0055] h(n)是从参保人到目标参保人的最佳路径的估计距离。
[0056] h(n)的选取是保证找到最短路径(最优解的)条件,关键在于函数f(n)的选取;我们以d(n)表达参保人到目标参保人的距离,那么h(n)的选取大致有如下三种情况:
[0057] 1、如果h(n)
[0058] 2、如果h(n)=d(n),即距离估计h(n)等于最短距离,那么搜索将严格沿着最短路径进行,此时的搜索效率是最高的;
[0059] 3、如果h(n)>d(n),搜索的人数少,关系范围小,效率高,但不一定能得到最优解。
[0060] S44、根据前面算法遍历所有参保人,构建出以参保人为实体及带有权重的就医行为新关系的图谱。
[0061] S45、删除多余的实体及实体关系。删除的实体类型有:就诊时间、就诊医生和就诊医院;删除的实体关系类型有:所去就诊医院、所属看病医生和就诊时间。通过本步骤,图谱中的实体进一步减少,只剩下参保人、参保单位和户籍地,实体关系新增了就医行为关系即同时就医和同时同医生就医,参保人之间的社会关系、就医行为关系更加清晰。
[0062] S50、根据前面步骤生成的关系空间图谱,聚类相似人员、推荐疑似骗保参保人员、挖掘出潜在骗保人员。
[0063] S51、聚类相似人员。根据关系权重的强弱分析找出属于相同社区的人,形成聚类人群图谱。聚类算法实现如下:根据每个参保人实体生成关系向量x(i),所有参保人的关系(1) (m)向量可表示为{x ,…,x },将这些参保人聚类成k个簇(cluster),具体算法描述如下:
[0064] 随机选取k个聚类质心点(clustercentroids)为μ1,μ2,…μk∈Rn;
[0065] 重复下面过程直到收敛或者经过N次迭代{
[0066] 对于每一个样例i,计算其应该属于的类
[0067]
[0068] 对于每一个类j,重新计算该类的质心;
[0069]
[0070] S52、推荐疑似骗保参保人员。根据知识图谱中已经确认的骗保人员进行行为轨迹相似人群推荐;通过余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。
[0071] 对于两个向量,如果他们之间的夹角越小,那么我们认为这两个向量是越相似的。通过计算两个向量的夹角的余弦值来衡量向量之间的相似度值;余弦相似性推导公式如下:
[0072]
[0073] A,B为参保人在关系空间中的关系向量。
[0074] S53、推理出新关系,挖掘潜在骗保族群。通过TransE算法推理出新的关系,TransE基于实体和关系式向量表示,将每个三元组实例(参保人h,行为关系r,参保人t)中的行为关系r可以看做从疑似骗保人h推理出参保人t是否存在骗保行为,通过随机挑选h,r使得(h+r)尽可能与t相等。在本例中由于已经将参保人两两之间的就医行为进行清洗梳理,形成了同时就医关系和同时间并且同一个医生的就诊关系,在特定的行为关系下,该算法实际转化成了疑似骗保人h和参保人t之间,如果存在一条路径,该路径经过特定行为关系r1,r2…rn,rn∈集合,如果 则疑似骗保人h和参保人t之间存在新关系,否则,则不存在新关系。
[0075] 假设存在如下实体及关系:实体有疑似骗保人甲、疑似骗保人乙,参保人丙;关系有同时找同一个医生看病表示为(关系r:出现频率),他们的三元组有:(疑似骗保人甲,r1:90,疑似骗保人乙),(疑似骗保人乙,r2:80,参保人丙),其中r1:90包含关系有:同时找医生甲看病50次(r11:50),同时找医生乙看病40次(r12:40);r2:80包括关系有:同时找医生乙看病45次(r21:45),同时找医生丙看病次数35次(r22:35)。现在要推理出疑似骗保人甲与参保人丙之间是否存在行为上的关系。
[0076] 通过不断调整关系r,r11,r12,r21,r22,最终找出路径,疑似骗保人甲→r12:40→疑似骗保人乙→r21:45→参保人丙,对r12与r21进行集合相减,结果为n(≤n≤40),如果n=0,则疑似骗保人甲与参保人丙没有新关系;如果n>0,则可形成一个新的关系;
[0077] 即形成了一个新的关系r3:n,(疑似骗保人甲,r3:n,参保人丙),这样参保人丙不仅与疑似骗保人乙存在就医行为相似性,也跟疑似骗保人甲也存在就医行为相似性,随着有更多的疑似骗保参保人与参保人丙产生就诊行为相似性,他的骗保行为可疑度就越来越高了。
[0078] 本发明实施例提供一种基于知识图谱的医疗保障骗保行为发现方法有别于传统的技术架构,首先,它将多种不同结构和来源的数据以知识抽取的方式重构成结构化数据,这样在处理各种复杂关系时降低的代码实现的复杂性,同时也提高了检索效率;其次,通过参保人的就诊行为来作为骗保行为的突破点,打破了传统以医学知识规则来发现骗保行为方式,更深入的在每笔处方都合理的情况下挖掘出可能骗保的参保人,同时将分析结果以可视化形式将参保人就医行为展现给医疗保障管理机构。
[0079] 经过测试发现,通过将知识图谱引入医疗保障领域,解决传统医疗保障采用医学规则无法有效挖掘潜在骗保行为的问题,随着知识图谱的推理不断完善补充参保人之间的潜在的就医行为关系,使得参保人越来越呈现出就医行为族群化,即呈现出成群结队就有相同就医行为的人,基于人的常识就可以直接判断出如果在一年的时间范围内,5个人及其以上更多人同时找同一个医生看病次数在50次以上的概率基本上很小,唯一有可能的是有人拿着5张或者更多社保卡在进行套刷。同时使用知识图谱可视化展示参保人就医轨迹和行为,可视化展现参保人与参保人之间关系,方便医疗保障机构人员直观发现疑似骗保人群,提高医疗保障管理部工作效率。
[0080] 以某市为例,使用传统的基于医学知识规则库的医疗保障基金检查系统发现的疑似骗保参保人约20万人,通过知识图谱推理挖掘出来的疑似骗保参保人员约1.1万人,其中约92%在传统系统中,剩下约8%的参保人在传统系统中未被发现,经客户确认,也将剩下的8%人员纳入疑似骗保人员,同时对这1.1万人进行重点监控。
[0081] 本发明实施例提供一种基于知识图谱的医疗保障骗保行为发现方法,将知识图谱引入医疗保障领域,通过对参保人员的社会关系、家庭关系及就诊行为关系进行知识抽取,从而构建出具有可疑骗保行为的关系图谱,并用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。从而找出疑似骗保行为的参保人名单并提供给医疗保障管理机构,为医疗保障管理机构提供一条有别于传统方法的疑似骗保行为发现新途径。
[0082] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈