首页 / 专利库 / 人工智能 / 目标语言 / 一种基于医疗系统爬虫提取数据的方法

一种基于医疗系统爬虫提取数据的方法

阅读:299发布:2020-05-08

专利汇可以提供一种基于医疗系统爬虫提取数据的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于医疗系统爬虫提取数据的方法,属于医学图像文字识别技术领域。本发明首先对医疗系统中的URL进行初始化;再分析URL队列,利用正则表达式用来解析html数据,然后利用json模 块 来解析json数据;再对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗 数据库 中;对爬取的病人数据进行判断,对是PDF的文档利用百度文字识别API进行文字识别;再对经过百度文字识别API处理后的PDF文档语料进行分词、文本去噪、关键信息提取再存入到医疗数据库中。本发明解决了医疗数据难提取、提取费时繁琐的问题。,下面是一种基于医疗系统爬虫提取数据的方法专利的具体信息内容。

1.一种基于医疗系统爬虫提取数据的方法,其特征在于:首先对医疗系统中的URL进行初始化;再分析URL队列,利用正则表达式用来解析html数据,然后利用json模来解析json数据;再对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;对爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中;再对经过百度文字识别API处理后的PDF文档语料进行分词、文本去噪、关键信息提取再存入到医疗数据库中。
2.根据权利要求1所述的基于医疗系统爬虫提取数据的方法,其特征在于:所述基于医疗系统爬虫提取数据的方法的具体步骤如下:
Step 1:初始化URL:使用医疗系统中的医院网页的http库向医疗数据爬取的目标医疗数据站点发送请求,如果服务器能响应的话能得到医院网页的一个响应Response,其中包含医院网页的超文本标记语言html的数据,医院网页的轻量级的数据交换格式json的数据;
Step2:分析URL队列:利用正则表达式用来解析html数据,然后利用json模块来解析json数据;
Step3:病人数据爬取:对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;
Step4:PDF文档文字识别:对Step3爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中,其中,百度文字识别API是能对各类通用场景、文件进行识别后按行返回结果的一个平台;
Step5:利用jieba分词算法把经过百度文字识别API处理后的PDF文档语料进行分词;
Step6:文本去噪:经过百度文字识别API处理后的PDF文档语料经上述分词后包括很多符号、标点、停用词信息,这些信息影响医疗数据的质量且不利于医疗报告单的关键词提取,因此考虑去除这些无关的文本内容;那么建立一个中文停用词词表stopwords.txt,对文本中的每个词进行遍历,出现在停用词词表中的词语将其删除;
Step7:关键信息提取:经过文本去噪后的PDF文档语料无法得出关键词对应的关键信息,利用正则表达式对其处理,提取相应输入的关键词下的关键信息,并存入医疗数据库。
3.根据权利要求1所述的基于医疗系统爬虫提取数据的方法,其特征在于:还包括步骤Step8:新增数据处理:针对每天医疗系统更新的数据按照Step1-7进行处理;根据姓名、年龄、住址、身份证对医疗数据库中新增的数据提取后的信息进行查找,看是否存在姓名、年龄、住址、身份证等多个属性对应相同的病人,如果存在判断为再入院病人,并存入再入院医疗数据库,否则存入再入院病人信息库。

说明书全文

一种基于医疗系统爬虫提取数据的方法

技术领域

[0001] 本发明涉及一种基于医疗系统爬虫提取数据的方法,属于医学图像文字识别技术领域。

背景技术

[0002] 随着我国医疗卫生事业的发展,国内医院都陆续建立了(医院信息系统)、PACS(医学影像传输和归档系统)、LIS(检验信息系统)等系统,伴随着这些信息系统的应用,一个长期被忽视的问题逐渐浮出面,这就是数据提取的问题。现今,数据提取问题已成为限制各种信息系统效能发挥的瓶颈和短板,数据提取的重要性已经成为人们关注的重点;数据挖掘是从数据库中提出隐含的、有潜在价值的和最终可以理解的模式的非平方过程,是知识发现的关键步骤。医疗数据库中的信息内容异常丰富,可能含有病人的医学影像、有关病理参数、化验与测量结果、诊断记录以及相关的参数依据(年龄、性别、病史、出入院时间)等。医疗数据一般存储于医疗系统,并未有相对应的接口来进行提取,因此对医疗数据的整理是非常复杂且繁琐,需要人工进行手动整理,耗费大量的人物力资源。但是随着互联网的发展,在庞大的网络信息中,全部用户均可以通过一定的手段来获取想要获取的知识。众所周知,对于不同的数据个体而言,需要摄取的知识是不相同的,该类现象很大程度上增加了目标信息获取的难度,因此网络爬虫这个概念就被提出来,网络爬虫具有较强的专业性,能对众多的Web页面实现有效的查询。网络爬虫执行的起点是简单的Web页面,随后要实现对其他页面进行访问主要依据超链接完成,重复以上的操作,能够对全部的页面进行检索和扫描,从而获取所需信息。爬虫程序能够对网页实现自动获取,该程序采取的实现策略以及运行的效率如何,对搜索结果产生的影响都是显著的,如果选择的爬虫程序是优秀且高效,那么搜索信息能够做到及时和准确。最早的爬虫是Goole爬虫,实现的功能是针对各爬虫组建能够完成各异进程;紧接着百度、搜狐等搜索引擎也应运开始研究爬虫程序,但是这些引擎的爬虫技术都是保密的。爬虫可以根据网站有效的结合计算机提供的算法以及人工完成的辅助进行编辑,可以获得较为完整的相关信息,这是医疗信息库搭建所迫切需要的。随着时代的发展,医疗系统的更新速度很快,针对医疗系统接口的搭建可能需要较长的一个过程且未必对所有的医疗科室适用,但是进行人工整理和收集医疗数据信息是非常繁琐且耗费精力的,本发明正是为了解决这些问题提出了一种基于医疗系统爬虫提取数据的方法。

发明内容

[0003] 本发明提供了一种基于医疗系统爬虫提取数据的方法,以用于解决医疗数据难提取、提取费时繁琐的问题。
[0004] 本发明的技术方案是:一种基于医疗系统爬虫提取数据的方法,首先对医疗系统中的URL进行初始化;再分析URL队列,利用正则表达式用来解析html数据,然后利用json模来解析json数据;再对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;对爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中;再对经过百度文字识别API处理后的PDF文档语料进行分词、文本去噪、关键信息提取再存入到医疗数据库中。
[0005] 进一步地,所述基于医疗系统爬虫提取数据的方法的具体步骤如下:Step 1:初始化URL:使用医疗系统中的医院网页的http库向医疗数据爬取的目标医疗数据站点发送请求,如果服务器能响应的话能得到医院网页的一个响应Response,其中包含医院网页的超文本标记语言html的数据,医院网页的轻量级的数据交换格式json的数据;
Step2:分析URL队列:利用正则表达式用来解析html数据,然后利用json模块来解析json数据;
Step3:病人数据爬取:对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;
Step4:PDF文档文字识别:对Step3爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中,其中,百度文字识别API是能对各类通用场景、文件进行识别后按行返回结果的一个平台;
Step5:利用jieba分词算法把经过百度文字识别API处理后的PDF文档语料进行分词;
Step6:文本去噪:经过百度文字识别API处理后的PDF文档语料经上述分词后包括很多符号、标点、停用词信息,这些信息影响医疗数据的质量且不利于医疗报告单的关键词提取,因此考虑去除这些无关的文本内容;那么建立一个中文停用词词表stopwords.txt,对文本中的每个词进行遍历,出现在停用词词表中的词语将其删除;
Step7:关键信息提取:经过文本去噪后的PDF文档语料无法得出关键词对应的关键信息,利用正则表达式对其处理,提取相应输入的关键词下的关键信息,并存入医疗数据库。
[0006] 进一步地,还包括步骤Step8:新增数据处理:针对每天医疗系统更新的数据按照Step1-7进行处理;根据姓名、年龄、住址、身份证对医疗数据库中新增的数据提取后的信息进行查找,看是否存在姓名、年龄、住址、身份证等多个属性对应相同的病人,如果存在判断为再入院病人,并存入再入院医疗数据库,否则存入再入院病人信息库。
[0007] 本发明的有益效果是:1、采用本发明提供的方法能够对医疗数据进行整理,解决医疗文档提取关进信息难的问题,对新增数据提供一个监测功能,能判断是30天再入院还是新病人,可以为后续的医疗数据进一步挖掘分析提供技术支撑
2、实现医疗数据处理保存的自动化过程,节省大量的人力物力资源,将医疗数据的非格式化数据转化为格式化数据;
3、在一定程度上能够取得较为完善且对医疗卫生事业有发展的数据库;
4、本发明在取代人工手动提取的基础上,对目标医疗数据进行全部提取,且对医嘱文档、CT诊断单等PDF文档利用百度文字识别API进行文字识别,并在去噪后进行关键信息提取,对每日新增数据添加一个查找和判断过程,增加再入院的一个数据库,最终构成完整的医疗数据库,充分且高效的将目标医疗数据进行提取和整理,节约了大量的人力物力资源。
附图说明
[0008] 图1为本发明中的流程图;图2为本发明中爬取目标医疗数据的网络架构流程图;
图3为本发明中正则表达式匹配关键信息的匹配图。

具体实施方式

[0009] 实施例1:如图1-3所示,一种基于医疗系统爬虫提取数据的方法,所述基于医疗系统爬虫提取数据的方法的具体步骤如下:Step 1:初始化URL:使用医疗系统中的医院网页的http库向医疗数据爬取的目标医疗数据站点发送请求,如果服务器能响应的话能得到医院网页的一个响应Response,其中包含医院网页的超文本标记语言html的数据,医院网页的轻量级的数据交换格式json的数据;
Step2:分析URL队列:利用正则表达式用来解析html数据,然后利用json模块来解析json数据;
Step3:病人数据爬取:对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;如图2所示为本发明爬取目标医疗数据的网络架构流程图;
Step4:PDF文档文字识别:对Step3爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中,其中,百度文字识别API是能对各类通用场景、文件进行识别后按行返回结果的一个平台;
Step5:利用jieba分词算法把经过百度文字识别API处理后的PDF文档语料进行分词;
Step6:文本去噪:经过百度文字识别API处理后的PDF文档语料经上述分词后包括很多符号、标点、停用词信息,这些信息影响医疗数据的质量且不利于医疗报告单的关键词提取,因此考虑去除这些无关的文本内容;那么建立一个中文停用词词表stopwords.txt,对文本中的每个词进行遍历,出现在停用词词表中的词语将其删除;
Step7:关键信息提取:经过文本去噪后的PDF文档语料无法得出关键词对应的关键信息,利用正则表达式对其处理,提取相应输入的关键词下的关键信息,并存入医疗数据库。
例如关键词为“肿瘤大小“,“结节”其后面的数据就进行提取来获取此两关键词后面的关键信息;包括肿瘤大小尺寸是多少、结节可能是良性结节还是恶性结节等;如图3所示,为本发明中正则表达式匹配关键信息的匹配图;
进一步地,还包括步骤Step8:新增数据处理:针对每天医疗系统更新的数据按照Step1-7进行处理;根据姓名、年龄、住址、身份证对医疗数据库中新增的数据提取后的信息进行查找,看是否存在姓名、年龄、住址、身份证等多个属性对应相同的病人,如果存在判断为再入院病人,并存入再入院医疗数据库,否则存入再入院病人信息库。
[0010] 本发明中对医疗数据的网页结构进行分析,对系统的医疗数据进行爬取,针对系统登陆界面提取麻烦的问题,将其病人就诊的ID、医嘱ID等作为标识符进行匹配来对每一个病人的医疗数据进行爬取;本发明能有效的对病人以往医疗信息、现阶段基本信息等进行存储于数据库,对于病人的PDF医嘱文档、腹部切片、CT增强重建文档等医疗数据的提取,利用百度文字识别API进行文字识别,并对关键信息进行抽取后存入数据库,能对医疗数据挖掘难做一个突破点,且节省了大量人力资源的浪费;
本发明利用正则表达式对文本去噪后的PDF文档语料进行处理,提取相应输入的关键词下的关键信息,并存入医疗数据库;本发明将非格式化数据转化为格式化数据,存储于相应构建的数据库中,且对每日新增数据进行提取和判断,获得一个再入院病人信息,最终形成完整的数据库。本实验在某大学第二附属医院的泌尿科进行实验,最终提取完整的泌尿科数据库,同人工提取方法对比,以及后续储存上相比都获得了较好的结果。
[0011] 为了测试本发明提出的方法的性能,采用人工统计的数据库,和本发明统计的数据库进行对比;表1为人工提取数据和本发明提取数据的时间和准确率对比,可以看出本发明的方法准确率高,所需时间短效率高;表1
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈