专利汇可以提供一种基于医疗系统爬虫提取数据的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于医疗系统爬虫提取数据的方法,属于医学图像文字识别技术领域。本发明首先对医疗系统中的URL进行初始化;再分析URL队列,利用正则表达式用来解析html数据,然后利用json模 块 来解析json数据;再对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗 数据库 中;对爬取的病人数据进行判断,对是PDF的文档利用百度文字识别API进行文字识别;再对经过百度文字识别API处理后的PDF文档语料进行分词、文本去噪、关键信息提取再存入到医疗数据库中。本发明解决了医疗数据难提取、提取费时繁琐的问题。,下面是一种基于医疗系统爬虫提取数据的方法专利的具体信息内容。
1.一种基于医疗系统爬虫提取数据的方法,其特征在于:首先对医疗系统中的URL进行初始化;再分析URL队列,利用正则表达式用来解析html数据,然后利用json模块来解析json数据;再对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;对爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中;再对经过百度文字识别API处理后的PDF文档语料进行分词、文本去噪、关键信息提取再存入到医疗数据库中。
2.根据权利要求1所述的基于医疗系统爬虫提取数据的方法,其特征在于:所述基于医疗系统爬虫提取数据的方法的具体步骤如下:
Step 1:初始化URL:使用医疗系统中的医院网页的http库向医疗数据爬取的目标医疗数据站点发送请求,如果服务器能响应的话能得到医院网页的一个响应Response,其中包含医院网页的超文本标记语言html的数据,医院网页的轻量级的数据交换格式json的数据;
Step2:分析URL队列:利用正则表达式用来解析html数据,然后利用json模块来解析json数据;
Step3:病人数据爬取:对所需的每一医疗数据的URL进行HTTP协议传输,通过病人就诊的ID、医嘱ID来匹配爬取目标医疗数据;将爬虫爬取到的数据存入医疗数据库中;
Step4:PDF文档文字识别:对Step3爬取的病人数据进行判断,分析是不是PDF文档,如果是PDF文档,然后利用百度文字识别API进行文字识别,百度文字识别API识别后能将图片数据转化为文字数据;如果不是的话,就把爬取到的数据存储到医疗数据库中,其中,百度文字识别API是能对各类通用场景、文件进行识别后按行返回结果的一个平台;
Step5:利用jieba分词算法把经过百度文字识别API处理后的PDF文档语料进行分词;
Step6:文本去噪:经过百度文字识别API处理后的PDF文档语料经上述分词后包括很多符号、标点、停用词信息,这些信息影响医疗数据的质量且不利于医疗报告单的关键词提取,因此考虑去除这些无关的文本内容;那么建立一个中文停用词词表stopwords.txt,对文本中的每个词进行遍历,出现在停用词词表中的词语将其删除;
Step7:关键信息提取:经过文本去噪后的PDF文档语料无法得出关键词对应的关键信息,利用正则表达式对其处理,提取相应输入的关键词下的关键信息,并存入医疗数据库。
3.根据权利要求1所述的基于医疗系统爬虫提取数据的方法,其特征在于:还包括步骤Step8:新增数据处理:针对每天医疗系统更新的数据按照Step1-7进行处理;根据姓名、年龄、住址、身份证对医疗数据库中新增的数据提取后的信息进行查找,看是否存在姓名、年龄、住址、身份证等多个属性对应相同的病人,如果存在判断为再入院病人,并存入再入院医疗数据库,否则存入再入院病人信息库。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
在物联网平台中的数据处理方法、装置及物联网平台 | 2020-05-08 | 562 |
基于3D卷积长短期记忆网络的儿童运动姿态自动识别技术 | 2020-05-08 | 393 |
基于顺句驱动的语言转换方法和装置 | 2020-05-08 | 974 |
一种基于人工智能的合同自动分类的方法及系统 | 2020-05-08 | 204 |
一种基于数据接口标准配置的数据查询方法及装置 | 2020-05-08 | 853 |
路段混行条件下的智能车辆协同换道决策模型 | 2020-05-08 | 248 |
一种关键内容定位方法 | 2020-05-08 | 371 |
文本要素提取方法、装置及电子设备 | 2020-05-11 | 639 |
分布式性能测试方法、装置、电子设备 | 2020-05-11 | 373 |
一种地址信息文本的提取方法及相关设备 | 2020-05-08 | 525 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。