医学数据的处理方法、装置及存储介质

申请号 CN202011605891.5 申请日 2020-12-30 公开(公告)号 CN112700825B 公开(公告)日 2024-03-05
申请人 杭州依图医疗技术有限公司; 发明人 郑永升; 梁平;
摘要 本公开涉及医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,处理方法包括获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;生成具有手术排序特征的目标医学数据。通过本公开的各 实施例 能够准确高效地标准化处理完整的医学数据, 整理 出有序的手术信息。
权利要求

1.医学数据的处理方法,包括:
获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;
所述原始医学数据中手术信息的编码的确定方式,包括:
将原始手术信息与标准手术信息表的标准词匹配,获得匹配关系:将所述原始手术信息与标准手术信息表的每个标准词两两组合,分别计算匹配度;
基于匹配关系,筛选出分别包含原始手术信息和标准词的待处理手术信息:在匹配度满足预设条件的情况下,将所述原始手术信息与标准手术信息表的标准词作为待处理手术信息;
通过分类算法,对所述待处理手术信息进行归一化处理,得到手术信息的标准编码:将所述待处理手术信息输入神经网络分类模型;分析待处理手术信息中原始手术信息和标准词是否对应;根据分析结果,将对应的原始手术信息和标准词进行归一化处理;输出与原始手术信息对应且包含有标准编码的标准手术信息;
所述神经网络分类模型,基于预训练得到,所述预训练的方式,包括:采集包含原始手术信息的医学数据;提取原始手术信息中的手术名称信息和手术经过信息;将所述手术经过信息与手术名称库中的标准词组合,所述手术名称库基于所述手术名称信息构建,包含原始手术信息的原始手术名称和标准手术名称;将组合后的所述手术经过信息与手术名称库中的标准词,作为训练数据训练预训练模型;基于所述预训练模型得到所述神经网络分类模型;
基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;
基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;
基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;
生成具有手术排序特征的目标医学数据。
2.根据权利要求1所述的方法,其中,所述第一排序规则、第二排序规则、第三排序规则配置于手术信息排序表,其中,所述手术信息排序表包括:
标准手术信息、标准编码,以及对应于不同排序规则的属性信息
3.根据权利要求2所述的方法,其中,所述属性信息,包括:
对应于第一排序规则的手术类型信息;
对应于第二排序规则的手术等级信息;
对应于第三排序规则的手术费用信息。
4.根据权利要求3所述的方法,其中,
所述手术等级信息的生成方式,包括:根据标准手术等级分类,确定出手术信息排序表中每一条手术信息的等级参数;
所述手术费用信息的生成方式,包括:将涉及收费项目的手术进行归一编码,确定出相对应的费用。
5.根据权利要求3所述的方法,其中,所述根据第一排序规则,对多个手术信息进行第一排序,包括:
以手术类型信息为介入治疗、治疗性操作、诊断性操作为顺位排序。
6.根据权利要求1至5中任一项所述的方法,其中,所述原始医学数据包括病历数据,所述病历数据包含:
病历文本信息;和/或
病历首页信息。
7.医学数据的处理装置,包括:
获取单元,其配置为用于获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;
所述原始医学数据中手术信息的编码的确定方式,包括:
将原始手术信息与标准手术信息表的标准词匹配,获得匹配关系:将所述原始手术信息与标准手术信息表的每个标准词两两组合,分别计算匹配度;
基于匹配关系,筛选出分别包含原始手术信息和标准词的待处理手术信息:在匹配度满足预设条件的情况下,将所述原始手术信息与标准手术信息表的标准词作为待处理手术信息;
通过分类算法,对所述待处理手术信息进行归一化处理,得到手术信息的标准编码:将所述待处理手术信息输入神经网络分类模型;分析待处理手术信息中原始手术信息和标准词是否对应;根据分析结果,将对应的原始手术信息和标准词进行归一化处理;输出与原始手术信息对应且包含有标准编码的标准手术信息;
所述神经网络分类模型,基于预训练得到,所述预训练的方式,包括:采集包含原始手术信息的医学数据;提取原始手术信息中的手术名称信息和手术经过信息;将所述手术经过信息与手术名称库中的标准词组合,所述手术名称库基于所述手术名称信息构建,包含原始手术信息的原始手术名称和标准手术名称;将组合后的所述手术经过信息与手术名称库中的标准词,作为训练数据训练预训练模型;基于所述预训练模型得到所述神经网络分类模型;
排序模,其配置为用于基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;
生成模块,其配置为用于生成具有手术排序特征的目标医学数据。
8.一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,实现:
根据权利要求1至6任一项所述的医学数据的处理方法。

说明书全文

医学数据的处理方法、装置及存储介质

技术领域

[0001] 本公开涉及医学数据智能处理技术领域,具体涉及一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质。

背景技术

[0002] 在针对医学数据处理过程中,对涉及到手术信息的整理,手术的编码的顺序是有要求的,尤其是第一手术信息的确定,直接关系到DRG分组的结果。一般临床医生在书写手术的时候是没注意手术顺序的,或者手术编码的顺序是错误的。发明内容
[0003] 本公开意图提供一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,能够准确高效地标准化处理完整的医学数据,整理出有序的手术信息。
[0004] 根据本公开的方案之一,提供一种医学数据的处理方法,包括:
[0005] 获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;
[0006] 基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;
[0007] 基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;
[0008] 基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;
[0009] 生成具有手术排序特征的目标医学数据。
[0010] 在一些实施例中,其中,所述第一排序规则、第二排序规则、第三排序规则配置于手术信息排序表,其中,所述手术信息排序表包括:
[0011] 标准手术信息、标准编码,以及对应于不同排序规则的属性信息
[0012] 在一些实施例中,其中,所述属性信息,包括:
[0013] 对应于第一排序规则的手术类型信息;
[0014] 对应于第二排序规则的手术等级信息;
[0015] 对应于第三排序规则的手术费用信息。
[0016] 在一些实施例中,其中,
[0017] 所述手术等级信息的生成方式,包括:根据标准手术等级分类,确定出手术信息排序表中每一条手术信息的等级参数;
[0018] 所述手术费用信息的生成方式,包括:将涉及收费项目的手术进行归一编码,确定出相对应的费用。
[0019] 在一些实施例中,其中,所述根据第一排序规则,对多个手术信息进行第一排序,包括:
[0020] 以手术类型信息为介入治疗、治疗性操作、诊断性操作为顺位排序。
[0021] 在一些实施例中,其中,所述原始医学数据中手术信息的编码的确定方式,包括:
[0022] 将原始手术信息与标准手术信息表的标准词匹配,获得匹配关系;
[0023] 基于匹配关系,筛选出分别包含原始手术信息和标准词的待处理手术信息;
[0024] 通过分类算法,对所述待处理手术信息进行归一化处理,得到手术信息的标准编码。
[0025] 在一些实施例中,其中,所述通过分类算法,对所述待处理手术信息进行归一化处理,包括:
[0026] 将所述待处理手术信息输入神经网络分类模型;
[0027] 分析待处理手术信息中原始手术信息和标准词是否对应;
[0028] 根据分析结果,将对应的原始手术信息和标准词进行归一化处理;
[0029] 输出与原始手术信息对应且包含有标准编码的标准手术信息。
[0030] 在一些实施例中,其中,所述原始医学数据包括病历数据,所述病历数据包含:
[0031] 病历文本信息;和/或
[0032] 病历首页信息。
[0033] 根据本公开的方案之一,提供医学数据的处理装置,包括:
[0034] 获取单元,其配置为用于获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;
[0035] 排序模,其配置为用于基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;
[0036] 生成模块,其配置为用于生成具有手术排序特征的目标医学数据。
[0037] 根据本公开的方案之一,提供计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,实现:
[0038] 根据上述的医学数据的处理方法。
[0039] 本公开的各种实施例的医学数据的处理方法、医学数据的处理装置及计算机可读存储介质,通过获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;生成具有手术排序特征的目标医学数据,从而能够在提取医学数据中的多个手术信息的基础上,对完整医学数据进行处理,通过信息整合得到有序的手术信息。本公开通过上述处理方法,不仅仅实现把临床医生写出来的临床诊断和手术名称编码到标准的术语上,针对临床医生写的手术名称不够详细,以及数据中没有手术顺序的,或者手术编码的顺序是错误的,还能够智能地结合病历文书进行细化和完善,按手术类型、手术等级、费用联合排序的方法输出有序的主要手术,完整、准确、高效地表达各种医学信息,从而提升医学研究、医疗诊治的精确性和效率。
[0040] 应当理解,前面的大体描述以及后续的详细描述只是示例性的和说明性的,并非对所要求保护的本公开的限制。附图说明
[0041] 在未必按照比例绘制的附图中,不同视图中相似的附图标记可以表示相似的构件。具有字母后缀的相似附图标记或具有不同字母后缀的相似附图标记可以表示相似构件的不同实例。附图通常作为示例而非限制地图示各种实施例,并且与说明书权利要求书一起用于解释所公开的实施例。
[0042] 图1示出本公开实施例涉及的医学数据的处理方法的一种流程图
[0043] 图2示出本公开实施例涉及的医学数据的处理装置的一种架构图;
[0044] 图3示出本公开各种实施例涉及的手术信息排序表。

具体实施方式

[0045] 为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0046] 除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
[0047] 为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。
[0048] 本公开涉及医学数据的处理,用于针对医学信息的解析,以及手术信息的排序整理。在针对医学数据处理过程中,对涉及到手术信息的整理,手术的编码的顺序是有要求的,尤其是第一手术信息的确定,直接关系到DRG分组的结果。一般临床医生在书写手术的时候是没注意手术顺序的,或者手术编码的顺序是错误的。需要考虑针对临床医生写的手术名称不够详细,以及数据中没有手术顺序的,或者手术编码的顺序是错误的各种情形,按一些预设的排序规则进行排序。
[0049] 作为方案之一,如图1所示,结合图3,本公开的实施例提供了一种医学数据的处理方法,包括:
[0050] S101:获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;
[0051] S102:基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;
[0052] S103:基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;
[0053] S104:基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;
[0054] S105:生成具有手术排序特征的目标医学数据。
[0055] 本公开的发明构思之一,旨在能够在提取医学数据中的多个手术信息的基础上,对完整医学数据进行处理,通过信息整合得到有序的手术信息。本公开通过上述处理方法,不仅仅实现把临床医生写出来的临床诊断和手术名称编码到标准的术语上,针对临床医生写的手术名称不够详细,以及数据中没有手术顺序的,或者手术编码的顺序是错误的,还能够智能地结合病历文书进行细化和完善,按预设规则分级别地联合排序的方法输出有序的主要手术。
[0056] 本公开各实施例中的医学数据,其所属的数据源并不需要特别加以限定,可以是历史数据,也可以是当前实时的数据。从数据格式上,可以是病历文本数据、视频数据、音频数据等等,只要能够通过识别手段,例如文本识别(例如,NLP识别,OCR识别等方式)识别其中能够包含的手术信息,语音识别、视频图像识别等方式识别其中记载的多个或者多种手术信息,以及原始病历首页信息等一些医学信息,抑或是通过字符拆分、词句拆分等方式识别的医学信息内容等。本公开所涉及的原始医学数据包含多个或者多种手术,分别具有编码,具体编码可以参考于ICD9‑CM‑3标准信息表。在一些实施例中,本公开的医学数据也可以是包含于病历、诊断书,本公开实施例中的医学数据可以是用户通过交互界面、输入设备输入的医学数据的医学文本,可以用于人工、机器等通过标注或者解析方式进行相关医学信息的判读。
[0057] 在各实施例中,本公开在实现过程中,可以通过神经网络模型提取本实施例的原始手术信息、原始病历首页信息。在实现过程中,具体的神经网络模型不做特别限定,可以采用符合要求且架构匹配的神经网络模型实现。更优选的方案,可以进一步基于在预训练模型的基础上,通过适配的神经网络模型优化各种信息的提取精度。针对提取医学实体内容,可以基于文本识别的方式,例如NLP(自然语言处理)等文本识别方式进行实体提取,并结合医学概念对实体进行分句、分类。更优选的,可以结合标准医学信息表,例如ICD各类信息表对实体进行解析,并结合合适的医学规则解析结果的基础上进行提取。
[0058] 在一些实施例中,本公开的所述第一排序规则、第二排序规则、第三排序规则配置于手术信息排序表,其中,所述手术信息排序表包括:
[0059] 标准手术信息、标准编码,以及对应于不同排序规则的属性信息。
[0060] 具体的,本实施例中标准手术信息、标准编码,可以采用ICD9‑CM‑3标准信息表中的标准词。排序规则可以根据不同的临床要求设定排序项目,在每个排序项目下设定级别信息,可以是定性的级别信息,也可以是定量的级别信息。例如,根据手术的属性设定级别信息,手术的复杂程度设定级别信息,手术涉及的科室设定级别信息,手术涉及的会诊情况设定级别信息等。
[0061] 在一些实施例中,本公开的所述属性信息,包括:
[0062] 对应于第一排序规则的手术类型信息;
[0063] 对应于第二排序规则的手术等级信息;
[0064] 对应于第三排序规则的手术费用信息。
[0065] 具体的,本实施例可以设定三类排序项目来进行联合排序。由于本实施例借助了ICD9‑CM‑3标准信息表,在ICD9‑CM‑3标准信息表中包含有标准的手术名称、标准的手术编码、标准的手术类型这些项目,本实施例可以通过手术编码作为索引号来进行相应的排序操作。
[0066] 在一些实施例中,本公开的所述根据第一排序规则,对多个手术信息进行第一排序,包括:
[0067] 以手术类型信息为介入治疗、治疗性操作、诊断性操作为顺位排序。手术类型可以分为“手术、介入治疗、诊断性操作”,可以结合临床操作经验和医学知识,以“介入治疗、治疗性操作、诊断性操作”为代表,构建手术类型的排序特征。
[0068] 手术等级可以采用统一制定的四级手术分类标准,以“1、2、3、4”来量化手术等级这一排序项目。手术费用可以根据涉及到收费项目的每个手术进行归一编码,通过相应的费用金额作为排序特征值。
[0069] 本公开主要关注于针对具有编码的手术信息的排序方案,手术信息编码的提取和解析过程,可以通过人工实现,也可以通过AI智能处理。
[0070] 在一些实施例中,本公开的所述原始医学数据中手术信息的编码的确定方式,包括:
[0071] 将原始手术信息与标准手术信息表的标准词匹配,获得匹配关系;
[0072] 基于匹配关系,筛选出分别包含原始手术信息和标准词的待处理手术信息;
[0073] 通过分类算法,对所述待处理手术信息进行归一化处理,得到手术信息的标准编码。
[0074] 在一些实施例中,本公开的所述获得匹配关系,包括:将所述原始手术信息与标准手术信息表的每个标准词两两组合,分别计算匹配度;
[0075] 所述基于匹配关系,筛选出分别包含原始手术信息和标准词的待处理手术信息,包括:在匹配度满足预设条件的情况下,将所述原始手术信息与标准手术信息表的标准词作为待处理手术信息。
[0076] 具体的,本实施例的标准手术信息表可以通过ICD‑9‑CM‑3标准表得到,通过ICD‑9‑CM‑3标准表能够详细标定手术信息以及给出了相应的手术编码。
[0077] 针对原始手术信息,和ICD‑9‑CM‑3标准表中标准医学信息,或者称为标准词进行两两组合。例如,本实施例中的输入为手术医学数据,其中原文中记录手术信息为[0078] “手术名称:冠脉造影+PCI术
[0079] 手术经过:术区常规消毒,铺无菌洞巾,右桡动脉穿刺成功,造影示:左主干正常,前降支7‑8段80﹪狭窄,回旋支11段80﹪狭窄,右冠2‑3段40﹪狭窄,PDA开口70﹪狭窄。PCI术:更换AL1guiding6F至左冠口,送BMW导丝至前降支远端,另一BMW至D2远端,送Tazuna2.0×15mm球囊于7‑8段病变处以12‑13atm扩张7‑8秒,后于该处植入Firenbird3.0×20mm支架以14atm扩张8秒释放,3.5×18mm支架于7段12atm8秒释放,3.0×10mm后扩球囊扩张支架18atm7‑8秒,BMW导丝至回旋支远端2.0×15mm球囊扩张回旋支病变16atm8秒,3.5×15mm支架于回旋支病变12atm8秒释放,重复造影示支架扩张良好,无残余狭窄,血流TIMI3级,撤除导管及鞘管,局部压迫止血,术毕”,
[0080] 手术名称中只写了“PCT术”,但根据手术经过的记载内容结合医学知识可以明确这是什么类型的支架,实际植入了几根支架,以及患者还做了经皮冠状动脉球囊扩张成形术。那么,就可以基于本公开的数据处理方法,针对该输入至少实现根据手术经过对手术名称进行纠错。
[0081] 本实施例的标准手术信息表包括多行数据条目,包含主要编码、附加编码、手术名称、类别等信息。将上述输入的文本原文与标准手术信息表中的每条标准词两两组合,形成格式为“原文,标准词”的数据条目。例如形成
[0082] “1.(原文,非‑药物洗脱冠状动脉支架置入)
[0083] 2.(原文,冠状动脉药物涂层支架置入术)
[0084] 3.(原文,药物洗脱冠状动脉支架置入)
[0085] ……”这样的信息对(pair对)。
[0086] 由于手术经过信息通过文本描述,其本身就是手术名称的细化内容,两者存在对应关系。基于这种对应关系,每个组合后的pair对就可以作为本实施例的一条训练数据
[0087] 对每一个这样形式的pair对组合计算匹配度,对匹配度低于预先设定阈值的组合,将其舍弃,不作为数据归一化对象。对匹配度满足预先设定阈值的组合,将其作为待选的归一化对象。
[0088] 具体的,本实施例中匹配度的确定方式,可以基于原文和标准词各自所包含的字数进行计算,例如通过两者之间交集的字数以及两者并集的字数来计算匹配度,或者称为两者的相似度。以简单的文字数量举例说明,原文中包含“双侧甲状腺部分切除”,经过两两组合后的一个标准词为“甲状腺切开探查术”,两者的交集是“甲状腺切”,其字数是4个字,两者的并集为两个字符串的长度求和减去交集字数:9+8‑4=13,因此这一两两组合对的相似度为“4/13”。本实施例可以针对长文本手术经过,例如上千字的手术描述文字进行相似度判断。
[0089] 在一些实施例中,本公开的所述通过分类算法,对所述待处理手术信息进行归一化处理,包括:
[0090] 将所述待处理手术信息输入神经网络分类模型;
[0091] 分析待处理手术信息中原始手术信息和标准词是否对应;
[0092] 根据分析结果,将对应的原始手术信息和标准词进行归一化处理;
[0093] 输出用于生成目标医学数据的与原始手术信息对应的标准手术信息。
[0094] 具体的,继续结合上述示例说明,假设以上述pair对作为待处理手术信息,本实施例可以将
[0095] “1.(原文,非‑药物洗脱冠状动脉支架置入)
[0096] 2.(原文,冠状动脉药物涂层支架置入术)
[0097] 3.(原文,药物洗脱冠状动脉支架置入)
[0098] ”
[0099] ……
[0100] 输入神经网络分类模型。本公开可以构建适配的神经网络分类模型,同时适应性的配置相应的架构以及神经元个数等方式,对待处理手术信息进行解析以及归一化处理。
[0101] 例如,对其中每一组信息进行分类,判断来自于医学数据的手术信息和从标准信息表中筛选出来的标准词是否具有相关或者相近的医学概念,例如两者是否存在包含关系。如果神经网络分类模型认为两者属于存在包含关系的情形,则神经网络分类模型输出相应的结果,例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形,则神经网络分类模型输出相应的结果,例如输出“0”以表征否定结论。
[0102] 为了优化神经网络分类模型的性能,在本公开的多种实施例中,可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的,可以采集大规模的医疗预料数据,数据来源以手术信息为目标,包括但不限于:各医疗结构的医学数据、各医学研究机构的医学数据、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中,可以构建预训练模型对采集的大规模医疗预料数据进行预训练,从而让模型从大规模的数据中学习各种医学知识,在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于:BERT模型、XLNET模型、roBERTa等模型。
[0103] 基于上述本实施例的神经网络分类模型,针对前述输入神经网络分类模型的“1.(原文,非‑药物洗脱冠状动脉支架置入)
[0104] 2.(原文,冠状动脉药物涂层支架置入术)
[0105] 3.(原文,药物洗脱冠状动脉支架置入)
[0106] ……”,可以输出与原文对应的标准手术信息。由于本公开能够借助ICD‑9‑CM‑3表,这些标准手术信息可以包括标准手术名称,标准手术名称编码等信息,例如输出:
[0107] “1.36.0700|药物洗脱冠状动脉支架置入
[0108] 2.00.6600×004|经皮冠状动脉球囊扩张成形术
[0109] 3.00.4700|置入三根血管的支架
[0110] 4.88.5700|其他和未特指的冠状动脉造影术”
[0111] 直观地能够理解,通过本实施例神经网络分类模型输出的上述结果,就能够得到本次手术的准确信息描述,包含了关于是什么类型的支架,实际植入了几根支架,以及患者还做了经皮冠状动脉球囊扩张成形术等这些详细内容。
[0112] 在一些实施例中,本公开的所述神经网络分类模型,基于预训练得到,所述预训练的方式,包括:
[0113] 采集包含原始手术信息的医学数据;
[0114] 提取原始手术信息中的手术名称信息和手术经过信息;
[0115] 将所述手术经过信息与手术名称库中的标准词组合,所述手术名称库基于所述手术名称信息构建,包含原始手术信息的原始手术名称和标准手术名称;
[0116] 将组合后的所述手术经过信息与手术名称库中的标准词,作为训练数据训练预训练模型;
[0117] 基于所述预训练模型得到所述神经网络分类模型。
[0118] 具体的,本公开的实施例可以基于满足训练的足够数据量,例如一次或多次批量性、批次性或者是海量的采集包含原始手术信息的医学数据,来构建以及迭代训练本公开所涉及的训练模型。
[0119] 在一些实施方案中,本公开的所述手术名称库的构建方式,包括:
[0120] 将所述手术名称信息输入编码手术名称的神经网络模型,以从手术名称信息中提取标准的手术名称编码;
[0121] 基于所述手术名称信息和标准的手术名称编码,构建包含原始手术名称和编码后的标准手术名称的手术名称库。
[0122] 具体的,以手术名称为“冠脉造影+PCI术”,可以优选地通过编码手术名称的神经网络模型,从医学数据中的手术名称文本中提取ICD标准的手术名称编码,结合手术名称“冠脉造影+PCI术”,根据原始手术名称文本编码的结果
[0123] “1.其他和未特指的冠状动脉造影术
[0124] 2.非‑药物洗脱冠状动脉支架置入”
[0125] 构建本实施例的手术名称库,其中包含原始手术名称,以及编码后的标准手术名称。
[0126] 本实施例的神经网络分类模型则可以使用任何其他的分类模型,包括但不限于:CNN、LSTM、transformer等模型。在一些实施例中基于预训练模型finetune,模型收敛更快,性能有2%的提升。
[0127] 在一些实施例中,本公开的所述标准手术信息表的构建方式,包括:基于对ICD标准表的标注构建,标注的结果包括根据手术名称和经过编码的结果。结合前述内容,本实施例可以基于标注结果构建标准信息表,包含主要编码、附加编码、手术名称、类别等信息。
[0128] 在一些方面,本公开各实施例针对病历首页信息中针对手术内容描述的手术信息,可以在基于深度学习训练的分句模型处理的情况下,以标准医学信息为指引,能够从M个原始手术信息中解析出N个第一手术信息。本公开更关注于针对原始医学数据包含多个原始医学信息的情况,即至少针对M≥2的场景,从M个原始医学信息中解析出N个第一手术信息,解析出来的第一手术信息的数量N,从理论上可以等于M,可以小于M,当然在一些方面可以大于M,只要符合医学概念以及临床诊断意义即可。
[0129] 在一些实施例中,本公开的所述深度学习训练的分句模型的构建方式,包括:
[0130] 提取医学数据;
[0131] 对这些医学数据分别进行分句,得到包含原始文本和分句后文本的二元组;
[0132] 迭代训练模型。
[0133] 具体的,本实施例的医学数据以记录手术内容、手术名称等针对手术操作的手术数据为例,手术数据无法通过规则方式完成分句,只存在特定场景下适用的规则,而场景的区分需要医学判断。因此,本实施例中可以采用分句模型进行分句操作。分句模型可以基于深度学习训练构建,具体可以通过由专业人工以手术金标准为基础标注一批数据,将原始的包含手术名称的数据进行分句,得到数据二元组实例,二元组可以包括原始文本和分句后文本,例如形成“原始文本,一段或多段分句后的文本”数据格式的二元组。基于满足训练的足够数据量,例如一次或多次批量性、批次性或者是海量标注的二元组,即可训练本实施例的分句模型。
[0134] 在一些实施例中,本公开的所述对这些医学数据进行分句,包括:
[0135] 根据医学数据所包含的特定标识进行分句。
[0136] 针对输入为“手术名称:双侧甲状腺部分切除+左上甲状旁腺腺瘤切除+右乳腺体区段切除”,在标注分句过程中,认为这一段手术数据中,以“+”号作为这一段手术数据中的特定标识对手术信息进行了分隔,其中体现出来的手术信息有“手术名称:双侧甲状腺部分切除、左上甲状旁腺腺瘤切除、右乳腺体区段切除”。在这段输入的手术数据中,没有需要跨加号“+”延续的信息,从医学诊断度分析,每个加号前后都是独立、完整的手术名称,可以通过分句缩短句子的长度。因此,分句结果可以认为是分成三个分句对象“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”。
[0137] 在一些实施例中,本公开的所述对这些医学数据进行分句,包括:
[0138] 解析医学数据包含的医学信息;
[0139] 根据医学信息的语义,确定出存在关联关系的医学信息;
[0140] 基于存在关联关系的医学信息,确定分句对象。
[0141] 具体的,由于手术数据录入或者记载过程中会出现习惯性书写或者简写的情况,导致数据中包含的手术信息前后存在关联,但是从字面上又显现为存在分隔形式,由此难以判断其中包含的准确手术信息。本实施例通过解析出医学信息中各部分的医学信息的语义,提取这些医学信息在医学概念上的表征内容,根据所有表征内容判断其中是否存在关联关系,例如手术信息1和手术信息2是否存在相互包含的关系,又如手术信息1至手术信息n之间是否存在共用信息,再如手术信息1至手术信息x之间是否存在相悖信息等。
[0142] 举例来说,输入的医学数据包括“腹腔镜下全子宫+双侧附件切除术”,如果采用规则分句,那么其中包含了“+”这一标识,则通过分句解析出的分句结果即为“腹腔镜下全子宫”和“双侧附件切除术”。结合医学概念,可以确定的是“腹腔镜下全子宫”这一手术信息只能够表述“腹腔镜和部位”,而无法明确具体的术式。另外,“双侧附件切除术”这一手术信息则缺失了手术操作信息,比如“腹腔镜”这一信息。在这种情况下,如果按特征标识以分隔形式来分句,虽然输入的医学数据“腹腔镜下全子宫+双侧附件切除术”中完整地包含了各种手术能够涉及到的信息,但按照规则分句的分句结果是错误的,会使得最终手术标准名称转换错误,无法准确、详尽并且智能地表达手术过程的准确信息,也就无法符合实际的语义。如果采用本实施例的分句模型,针对“腹腔镜下全子宫+双侧附件切除术”按实际语义进行分句,分句模型在训练阶段学习到了相关知识,在此就能够判断这里的“+”并不是分句标志,从而不会按照“+”分句。
[0143] 又比如,输入的医学数据包含“VATS右上叶切除+右肺中叶和右肺下叶楔形切除+胸膜粘连烙断术+胸导管结扎术”,分句模型在训练阶段学习到了相关知识,在此就能够判断句首的“VATS”胸腔镜这一信息需要向后延续,在此就能够判断这里的“+”并不是分句标志,从而不会按照“+”分句。
[0144] 作为优选的方案,本公开的所述根据所述第一手术信息与标准医学信息的匹配结果,得到第二医学数据,包括:将每个第一手术信息与每个标准医学信息两两组合;分别计算匹配度,匹配度的确定方式,可以基于分句和标准词各自所包含的字数进行计算,例如通过两者之间交集的字数以及两者并集的字数来计算匹配度,或者称为两者的相似度。
[0145] 在此基础上,构建出例如“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5……”的数据,本公开的解析所述这些数据,通过归一化处理得到关于手术信息的标准化信息,具体为通过神经网络分类模型实现,包括:
[0146] 解析所述第二医学数据包含的每一组第一手术信息与标准医学信息;
[0147] 基于神经网络分析每一组第一手术信息与标准医学信息是否对应;
[0148] 输出分析结果,将对应的第一手术信息与标准医学信息作为归一化结果。
[0149] 具体的,继续结合上述示例,本公开可以构建神经网络分类模型,配置相应的架构以及神经元个数等方式,对第二医学数据进行解析以及归一化处理。针对例如形式为“1.(双侧甲状腺部分切除,甲状腺切开探查术)/2.(双侧甲状腺部分切除,单侧甲状腺部分切除术/3.(双侧甲状腺部分切除,双侧甲状腺部分切除术)/4.(双侧甲状腺部分切除术,甲状腺大部切除术)/5……”的第二医学数据,对其中每一组信息进行分类,判断来自于原始的第一医学数据和从标准信息表中筛选出来的标准词是否具有相关或者相近的医学概念,例如两者是否存在包含关系。如果神经网络分类模型认为两者属于存在包含关系的情形,则神经网络分类模型输出相应的结果,例如输出“1”以表征肯定结论。如果神经网络分类模型认为两者不属于存在包含关系的情形,则神经网络分类模型输出相应的结果,例如输出“0”以表征否定结论。
[0150] 在本公开的多种实施例中,可以通过优选预训练模型这一环节增加神经网络分类模型的性能。具体的,可以采集大规模的医疗预料数据,数据来源包括但不限于:各医疗结构的病历数据、各医学研究机构的医学数据、各医疗信息系统中医疗数据、各种语言的医学教科书、医典、医疗论文、线上数据库中医疗数据、百科库、网站网页数据、论坛数据等。本公开的实施例中,可以构建预训练模型对采集的大规模医疗预料数据进行预训练,从而让模型从大规模的数据中学习各种医学知识,在此基础上能够应用到具体的任务重提升本公开的神经网络模型的性能。预训练模型包括但是不限于:BERT模型、XLNET模型、roBERTa等模型。
[0151] 再具体到本公开各实施例的神经网络分类模型,结合前述内容实现完成最终的分类,判断原始医学数据和待选标准词是不是表征同一个医学信息概念,例如手术信息之间是否存在重叠描述、相悖描述、缺失描述等。如果采用本公开实施例的预训练模型,那么本实施例中的神经网络分类模型基本上和预训练模型可以是一致的,需要用预训练的模型来初始化本实施例的神经网络分类模型。如果在不采用预训练模型的情况下,本实施例的神经网络分类模型则可以使用任何其他的分类模型,包括但不限于:CNN、LSTM、transformer等模型。
[0152] 进一步的,本公开的所述输出分析结果,将对应的第一手术信息与标准医学信息作为归一化结果,包括:以标准医学信息的格式,表征第一手术信息;输出本公开各实施例的手术编码。
[0153] 具体的,继续结合上述内容,在本实施例的神经网络分类模型输出相应的结果基础上,针对输出结果为肯定结论的组合,本实施例可以提取ICD‑9‑CM‑3标准表中的手术名称以及手术编码,对原始输入的手术数据进行统一化表达处理。针对上述原始输入的“双侧甲状腺部分切除”、“左上甲状旁腺腺瘤切除”、“右乳腺体区段切除”,本实施例从ICD‑9‑CM‑3标准表中提取“手术编码手术名称”对这些信息分别进行更新,表现为输出目标医学数据:
[0154] “1.06.3900×012|双侧甲状腺部分切除术
[0155] 2.06.8903|甲状旁腺病损切除术
[0156] 3.85.2100×019|乳房腺体区段切除术”
[0157] 对照于原始输入的手术数据,可以看到,通过本实施例输出的目标医学数据,完整、详细地依照统一化表达方式,得到了本公开病历首页信息中手术信息的编码。
[0158] 作为本公开的方案之一,如图2所示,结合图3,本公开还提供了一种医学数据的处理装置,包括:
[0159] 获取单元,其配置为用于获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;
[0160] 排序模块,其配置为用于基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;
[0161] 生成模块,其配置为用于生成具有手术排序特征的目标医学数据。
[0162] 结合前文所述示例:
[0163] 在一些实施例中,本公开的获取单元,可以为输入设备、屏幕截取装置、文本识别装置等,旨在实现能够获取包含有多个具有编码的手术信息的医学数据,可以包括病历数据,所述病历数据包含:病历文本信息;和/或病历首页信息。
[0164] 在一些实施例中,本公开的排序模块,可以进一步配置为:
[0165] 基于配置有所述第一排序规则、第二排序规则、第三排序规则的手术信息排序表进行排序。
[0166] 进一步的,所述手术信息排序表包括:
[0167] 标准手术信息、标准编码,以及对应于不同排序规则的属性信息;
[0168] 属性信息包括:
[0169] 对应于第一排序规则的手术类型信息;
[0170] 对应于第二排序规则的手术等级信息;
[0171] 对应于第三排序规则的手术费用信息。
[0172] 具体来说,本公开的发明构思之一,旨在通过获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;生成具有手术排序特征的目标医学数据,从而能够在提取医学数据中的多个手术信息的基础上,对完整医学数据进行处理,通过信息整合得到有序的手术信息。本公开通过上述处理方法,不仅仅实现把临床医生写出来的临床诊断和手术名称编码到标准的术语上,针对临床医生写的手术名称不够详细,以及数据中没有手术顺序的,或者手术编码的顺序是错误的,还能够智能地结合病历文书进行细化和完善,按手术类型、手术等级、费用联合排序的方法输出有序的主要手术,完整、准确、高效地表达各种医学信息,从而提升医学研究、医疗诊治的精确性和效率。
[0173] 作为本公开的方案之一,本公开还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令由处理器执行时,主要实现根据上述的医学数据的处理方法,至少包括:
[0174] 获取原始医学数据,所述原始医学数据包含分别具有编码的多个手术信息;
[0175] 基于所述编码,根据第一排序规则,对多个手术信息进行第一排序;
[0176] 基于所述编码,根据第二排序规则,对经第一排序的手术信息进行第二排序;
[0177] 基于所述编码,根据第三排序规则,对经第二排序的手术信息进行第三排序;
[0178] 生成具有手术排序特征的目标医学数据。
[0179] 在一些实施例中,执行算机可执行指令处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。
[0180] 在一些实施例中,计算机可读存储介质可以为存储器,诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD‑ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备,或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。
[0181] 在一些实施例中,计算机可执行指令可以实现为多个程序模块,多个程序模块共同实现根据本公开中任何一项所述的医学影像的显示方法。
[0182] 本公开描述了各种操作或功能,其可以实现为软件代码或指令或者定义为软件代码或指令。显示单元可以实现为在存储器上存储的软件代码或指令模块,其由处理器执行时可以实现相应的步骤和方法。
[0183] 这样的内容可以是可以直接执行(“对象”或“可执行”形式)的源代码或差分代码(“delta”或“patch”代码)。这里描述的实施例的软件实现可以通过其上存储有代码或指令的制品提供,或者通过操作通信接口以通过通信接口发送数据的方法提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作,并且包括以可由机器(例如,计算显示设备、电子系统等)访问的形式存储信息的任何机制,例如可记录/不可记录介质(例如,只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存显示设备等)。通信接口包括与硬连线、无线、光学等介质中的任何一种接口以与其他显示设备通信的任何机制,例如存储器总线接口、处理器总线接口、因特网连接、磁盘控制器等。通信接口可以通过提供配置参数和/或发送信号来配置以准备通信接口,以提供描述软件内容的数据信号。可以通过向通信接口发送一个或多个命令或信号来访问通信接口。
[0184] 本公开的实施例的计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。可以用这类组件或模块的任何数量和组合来实现本公开的各方面。例如,本公开的各方面不限于附图中示出的和本文描述的特定的计算机可执行指令或特定组件或模块。其他实施例可以包括具有比本文所示出和描述的更多或更少功能的不同的计算机可执行指令或组件。
[0185] 以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本公开的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本公开的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
[0186] 以上实施例仅为本公开的示例性实施例,不用于限制本公开,本公开的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内,对本公开做出各种修改或等同替换,这种修改或等同替换也应视为落在本公开的保护范围内。
QQ群二维码
意见反馈