专利汇可以提供一种将病历文本从自然语言转换为结构化元数据的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种将病历文本从自然语言转换为结构化元数据的方法,包括以下步骤:步骤一:从历史病例报告中提取该文本格式中具体器官、部位和术式的特征值文本,并对其进行特征值分析,得出特征字典;步骤二:从医院导出需要分析的历史检测报告,合并成为一个待处理数据集;步骤三:遍历该数据集患者病例,并根据特征值字典分词,截取该器官、部位或术式的说明;步骤四:将该部位截取的数据内容持久化至结构化的 数据库 中。本发明利用历史病例,使用遍历 算法 ,降低了使用成本,免去了训练集的生成步骤,转换后的结构化病例可以方便的对不同器官和部位的病变进行统计、分析和查找,方便医生进行医学研究、编写论文和教学。,下面是一种将病历文本从自然语言转换为结构化元数据的方法专利的具体信息内容。
1.一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于,包括以下步骤:
步骤一:从历史检测报告中提取该文本格式中具体器官、部位和术式的特征值文本,并对其进行特征值分析,得出特征值字典;
步骤二:从医院导出需要分析的历史检测报告,合并成为一个待处理数据集;
步骤三:遍历该数据集患者病例,并根据特征值字典分词,截取该器官、部位或术式的说明;
所述步骤三包括以下子步骤:
7)生成检测报告“内容”的结构化数据内容:遍历数据集每位患者的检测报告,在遍历的每行数据中,取每条的 “住院号”、“内容”和“检查项目”所在列的数据,根据“检测项目”,选择对应的特征值字典,根据特征值字典截取对应部位的说明;
8)生成检测报告“病症”和“治疗方法”的结构化数据内容:遍历数据集每位患者的检测报告,在遍历的每行数据中,取每条的 “住院号”、“病症”和“治疗方法”所在列的数据,如果出现了“术”字,且没有出现“术后”,则选择“病症”的特征值字典,如果出现了“术”字,则选择“治疗方法”的特征值字典,根据特征值字典截取对应部位的说明;
所述子步骤7)包括以下步骤:
7.1)对“内容”文本进行分段:如果报告中出现了逗号、句号、分号和冒号,则将文本按这些标点符号进行分段,生成一个以分段后独立语句为元素的一维矩阵;
7.2)根据特征值生成二维矩阵:遍历一维矩阵,将其中内容数据段与特征值字典进行比较,如果该数据段包括了特征值字典中的特征,则将该部分及该部分后没有见到下一个特征值前的元素放入矩阵数据格式的“列”,特征值作为该 “行”第一列;
7.3)二维矩阵行拆分:对二维矩阵的“行”进行遍历,得到每列数据,遍历“列”数据,如果该行除了第一“列”还有其他的文本在特征值字典中,则复制该“行”的所有“列”到新的“行”,并将该特征值作为新 “行”第一列;
7.4)二维矩阵行合并:对二维矩阵的“行”进行遍历,得到每列数据,遍历“列”数据,如果有多“行”第一列的特征值有相同的内容,这对这些“行”进行合并;
7.5)每个二维矩阵都是一个患者病例内“内容”的结构化内容,“住院号”是这个矩阵的唯一标志,将他们作为一个“键值对”数据结构进行存储,其“键”是“住院号”,“值”是结构化的“内容”;
步骤四:将该部位截取的数据内容持久化至结构化的数据库中。
2.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤一特征值提取包括如下子步骤:
1)导出历史检测报告,将检测报告合并后生成一个大的报告表格,表格内容中需要包括:“内容”,“检查项目”,“病症”,“治疗方法”;
2)将每个检查项目对应的“内容”,进行中文分词处理,并将每个不重复的词语列出,并在其后对其统计出现次数后排序;
3)将排序后得到的分词,经医生的删除和补充,得到该医院检查项目对应的内容的特征值字典;
4)重复步骤2)和3)可以生成每一个检查项目对应的病症和治疗方法的特征值字典。
3.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤二包括以下子步骤:
5)导出历史数据,以合并的方式准备数据集;
6)遍历数据集,并将导出的数据表合并,得到“住院号”、“患者姓名”、“患者年龄”、“就诊时间” 、“内容”、“病症”、“检查项目”和“治疗方法”,其中“住院号”是患者本次检查的唯一标志,如果报告中的病症和治疗方法是写在一起的, “治疗方法”为空。
4.根据权利要求1所述的一种将病历文本从自然语言转换为结构化元数据的方法,其特征在于:所述步骤四包括以下子步骤:
9)将“检查项目”对应的“内容”特征值字典中的值取出,转换为医学英文,并将其作为数据库的列字段,其中“主键”字段就是“住院号”,建立“检查项目”的“内容”表;
10)遍历“检查项目”的“内容”分析后的“键值对”数据结构,将“住院号”放入数据库主键字段,得到每个患者的“内容”结构化矩阵,遍历矩阵,将每“行”第一列和数据库列名进行比较,如果同属一类,则将本行内容放入该数据库字段;
11)“检查项目”的“病症”和“治疗方法” 如步骤9)至步骤10)的方法进行持久化,“肠镜”的“镜下诊断”和“镜下治疗”除特征值字典外,过程如步骤9)至步骤10)的方法一致。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4任意一项所述方法的步骤。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种在统一识别框架下小型化手写体文本识别器的方法 | 2020-05-08 | 205 |
一种基于人工智能的合同自动分类的方法及系统 | 2020-05-11 | 686 |
一种融合先验信息的命名实体链接方法 | 2020-05-12 | 964 |
一种短文本主题确定方法 | 2020-05-08 | 602 |
一种基于跨领域推荐思想的声音直播主播价值评定方法 | 2020-05-11 | 177 |
用于移动设备的基于自然对话方式的翻译装置和方法 | 2020-05-12 | 1029 |
一种基于双向长短期记忆网络的实体属性值的抽取方法 | 2020-05-12 | 572 |
同义词挖掘方法、同义词挖掘装置及存储介质 | 2020-05-14 | 50 |
自然语言时间词的解析方法、装置和计算机设备 | 2020-05-12 | 601 |
留学文书智能自动创作系统 | 2020-05-14 | 31 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。