首页 / 专利库 / 软件 / 建模语言 / 一种区域卫生平台质控方法和系统

一种区域卫生平台质控方法和系统

阅读:55发布:2020-05-08

专利汇可以提供一种区域卫生平台质控方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种区域卫生平台质控方法和系统,所述方法包括如下步骤:从各医疗系统获取医疗数据;对所述医疗数据进行清洗和 抽取 以获取相关性数据;对所述相关性数据进行分析计算处理以获取计算处理结果;显示所述计算处理结果。本发明实现了区域卫生平台数据 质量 控制分级管理系统,实现了数据的监测层处理、考核层处理、以及前台显示等模 块 ,同时加入了LSTM模型进行统计分析,从而实现了大健康互联网项目的共享效果。,下面是一种区域卫生平台质控方法和系统专利的具体信息内容。

1.一种区域卫生平台质控方法,其特征在于,包括如下步骤:
从各医疗系统获取医疗数据;
对所述医疗数据进行清洗和抽取以获取相关性数据;
对所述相关性数据进行分析计算处理以获取计算处理结果;
显示所述计算处理结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述医疗数据进行清洗和抽取以获取相关性数据,是指:
根据不同的用户需求,通过使用UML建模语言和标准化建模图形对所述医疗数据进行清洗和抽取以获取相关性数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述相关性数据进行分析计算处理以获取计算处理结果,包括:
将所述相关性数据划分为HIS部分、LIS部分、CIS部分及RIS部分;
所述HIS部分包括患者信息表(TB_YL_Patient_Information)、诊就诊记录表(TB_YL_MZ_Medical_Record)、门诊处方明细表(TB_CIS_Prescription_Detail)、门诊收费明细表(TB_HIS_MZ_Fee_Detail)、住院就诊记录表(TB_YL_ZY_Medical_Record)、住院医嘱明细表(TB_CIS_DrAdvice_Detail)、住院收费明细表(TB_HIS_ZY_Fee_Detail)及诊断明细表(TB_IH_Diagnosis_Detail)
所述LIS部分包括实验室检验报告表头(TB_LIS_Report)、检验结果指标表(TB_LIS_Indicators)、细菌结果(TB_LIS_Bacteria_Result)及药敏结果(TB_LIS_Allergy_Result);
所述CIS部分包括住院病案首页主体表(TB_CIS_Main)、出院小结表(TB_CIS_LeaveHospital_Summary)、手术明细表(TB_Operation_Detail);
所述RIS部分包括医学影像检查报告表(TB_RIS_Report)。
4.根据权利要求1所述的方法,其特征在于,所对所述医疗数据进行清洗和抽取以获取相关性数据之前,还包括:
监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;
完整性得分包括表单上传率和数据量约束性的情况;
稳定性得分是指医疗机构连续上传数据的情况;
准确性得分是指医疗机构上传的表单之间的业务逻辑勾连的情况;
关联性得分是指医疗机构上传的表单中的数据字段准确情况;
及时性得分是指医疗机构上传的表单中业务发生的时间和上传时间之间差距的情况。
5.根据权利要求1所述的方法,其特征在于,所述对所述相关性数据进行分析计算处理以获取计算处理结果,还包括:
使用时间序列分析方法中的LSTM模型对相关数据进行趋势预测的建模和分析。
6.根据权利要求1所述的方法,其特征在于,所述监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;
通过数据监测中间件系统监测医疗数据的完整性和及时性。
7.根据权利要求1所述的方法,其特征在于,所述对所述医疗数据进行清洗和抽取以获取相关性数据,是指:
在数据缓冲池对所述医疗数据进行清洗和抽取以获取相关性数据。
8.根据权利要求1所述的方法,其特征在于,所述显示所述计算处理结果,包括:
至少通过模型、视图、控制器组件显示所述计算处理结果。
9.根据权利要求1所述的方法,其特征在于,所述显示所述计算处理结果之后,还包括:
获取改变所述计算处理结果的指令;
显示与所述改变所述计算处理结果的指令的显示结果。
10.一种区域卫生平台质控系统,其特征在于,包括:
获取模,用于从各医疗系统获取医疗数据;
清洗抽取模块,用于对所述医疗数据进行清洗和抽取以获取相关性数据;
分析计算处理模块,用于对所述相关性数据进行分析计算处理以获取计算处理结果;
显示模块,用于显示所述计算处理结果。

说明书全文

一种区域卫生平台质控方法和系统

技术领域

[0001] 本发明涉及医疗信息技术领域,尤其涉及一种区域卫生平台质控方法和系统。

背景技术

[0002] 医疗改革的工作有很多,其中基于市民相关健康档案的医疗卫生信息化项目可以看作是基础性工作之一。以市民健康管理为核心的基础上能够实现人人享有电子健康档案,使得不同区域的各家卫生医疗机构都可以合理共享市民基本医疗信息,这都是建设该工程的目的。但是由于各家机构的系统建设状况以及医疗服务的不同,他们所接入数据质量就参差不齐,数据质量不高就会严重影响到大健康互联网项目的共享效果。基于目前数据质量现状,各区县、各医院的建设平各异,有些机构,如社区卫生院,可能医疗系统还不完善,导致数据上传质量也差异较大。

发明内容

[0003] 本发明针对现有方式的缺点,提出一种区域卫生平台质控方法和系统,用以解决现有技术存在的上述问题。
[0004] 根据本发明的第一个方面,提供了一种区域卫生平台质控方法,包括如下步骤:
[0005] 从各医疗系统获取医疗数据;
[0006] 对所述医疗数据进行清洗和抽取以获取相关性数据;
[0007] 对所述相关性数据进行分析计算处理以获取计算处理结果;
[0008] 显示所述计算处理结果。
[0009] 进一步地,所述对所述医疗数据进行清洗和抽取以获取相关性数据,是指:
[0010] 根据不同的用户需求,通过使用UML建模语言和标准化建模图形对所述医疗数据进行清洗和抽取以获取相关性数据。
[0011] 进一步地,所述对所述相关性数据进行分析计算处理以获取计算处理结果,包括:
[0012] 将所述相关性数据划分为HIS部分、LIS部分、CIS部分及RIS部分;
[0013] 所述HIS部分包括患者信息表(TB_YL_Patient_Information)、诊就诊记录表(TB_YL_MZ_Medical_Record)、门诊处方明细表(TB_CIS_Prescription_Detail)、门诊收费明细表(TB_HIS_MZ_Fee_Detail)、住院就诊记录表(TB_YL_ZY_Medical_Record)、住院医嘱明细表(TB_CIS_DrAdvice_Detail)、住院收费明细表(TB_HIS_ZY_Fee_Detail)及诊断明细表(TB_IH_Diagnosis_Detail)
[0014] 所述LIS部分包括实验室检验报告表头(TB_LIS_Report)、检验结果指标表(TB_LIS_Indicators)、细菌结果(TB_LIS_Bacteria_Result)及药敏结果(TB_LIS_Allergy_Result);
[0015] 所述CIS部分包括住院病案首页主体表(TB_CIS_Main)、出院小结表(TB_CIS_LeaveHospital_Summary)、手术明细表(TB_Operation_Detail);
[0016] 所述RIS部分包括医学影像检查报告表(TB_RIS_Report)。
[0017] 进一步地,所对所述医疗数据进行清洗和抽取以获取相关性数据之前,还包括:
[0018] 监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;
[0019] 完整性得分包括表单上传率和数据量约束性的情况;
[0020] 稳定性得分是指医疗机构连续上传数据的情况;
[0021] 准确性得分是指医疗机构上传的表单之间的业务逻辑勾连的情况;
[0022] 关联性得分是指医疗机构上传的表单中的数据字段准确情况;
[0023] 及时性得分是指医疗机构上传的表单中业务发生的时间和上传时间之间差距的情况。
[0024] 进一步地,所述对所述相关性数据进行分析计算处理以获取计算处理结果,还包括:
[0025] 使用时间序列分析方法中的LSTM模型对相关数据进行趋势预测的建模和分析[0026] 进一步地,所述监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;
[0027] 通过数据监测中间件系统监测医疗数据的完整性和及时性。
[0028] 进一步地,所述对所述医疗数据进行清洗和抽取以获取相关性数据,是指:
[0029] 在数据缓冲池对所述医疗数据进行清洗和抽取以获取相关性数据。
[0030] 进一步地,所述显示所述计算处理结果,包括:
[0031] 至少通过模型、视图、控制器组件显示所述计算处理结果。
[0032] 进一步地,所述显示所述计算处理结果之后,还包括:
[0033] 获取改变所述计算处理结果的指令;
[0034] 显示与所述改变所述计算处理结果的指令的显示结果。另一方面,本发明提供了一种区域卫生平台质控系统,包括:
[0035] 获取模,用于从各医疗系统获取医疗数据;
[0036] 清洗抽取模块,用于对所述医疗数据进行清洗和抽取以获取相关性数据;
[0037] 分析计算处理模块,用于对所述相关性数据进行分析计算处理以获取计算处理结果;
[0038] 显示模块,用于显示所述计算处理结果。
[0039] 与现有技术相比,本发明的有益效果是:
[0040] 本发明实现了区域卫生平台数据质量控制分级管理系统,实现了数据的监测层处理、考核层处理、以及前台显示等模块,同时加入了LSTM模型进行统计分析,从而实现了大健康互联网项目的共享效果。
[0041] 本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明
[0042] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0043] 图1为本发明实施例一中的一种区域卫生平台质控方法的流程示意图;
[0044] 图2为本发明实施例中的LSTM模型预测的流程示意图;
[0045] 图3为本发明实施例中的相关项得分的计算示意图;
[0046] 图4为本发明实施例二中的一种区域卫生平台质控系统的结构示意图。

具体实施方式

[0047] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0048] 在本发明的说明书权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
[0049] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分例,实施而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0050] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
[0051] 随着医疗信息化建设的不断深入,信息处理技术和计算机网络的不断发展,各行各业已建立了很多计算机信息系统,当然医疗系统更是如此。数据是信息的载体,好的数据质量是各种数据分析如OLAP分析、数据挖掘等能够得到有意义结果的基本条件。为了使数据能够有效地支持各个医疗机构的日常运作和决策,要求数据可靠无误,因此对医疗机构上传数据的考核测评以及考核结果的预测是本系统主要的设计方向。根据各家医疗机构以及卫计委的需求,研究、实现了区域卫生平台数据质量控制分级管理系统,实现了数据的监测层处理、考核层处理、以及前台显示等模块,同时加入了LSTM模型进行统计分析。
[0052] 实施例一
[0053] 如图1所示,提供了本发明一个实施例的一种区域卫生平台质控方法,包括如下步骤S101-S104。
[0054] S101从各医疗系统获取医疗数据;
[0055] 各医疗系统,即各医疗机构(数据系统);各医疗机构都根据自身的建设情况上报自己所能进行参评的表单,然后各医疗机构均进行汇总,将所有参评的医疗机构以及其参评表单都上报给数据中心,经过审核可以进行参评。
[0056] 各医疗机构通过使用UML建模语言,利用一些标准化的图形对系统进行更深层次的需求分析,借此来准确的识别出系统的参与者和不同的用例
[0057] 数据中心可以查看各医疗机构配置的结果,可以看到各医疗机构配置的参评医疗机构以及各医疗机构参评的表单。还可以查看数据质量的详细考核得分结果,这些结果包括了总体概况、准确性评估结果、关联性评估结果、完整性评估结果、稳定性评估结果、及时性评估结果;还可以对评估结果进行下载。
[0058] S102对医疗数据进行清洗和抽取以获取相关性数据;
[0059] 该步骤主要是从数据中心中抽取需要监测的基础业务表,根据需要进行监测、评估和考核,将复杂的数据转化成分值的形式最后显示出来。
[0060] 对医疗数据进行清洗和抽取以获取相关性数据之前,还包括:
[0061] 监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;
[0062] 完整性得分包括表单上传率和数据量约束性的情况;
[0063] 稳定性得分是指医疗机构连续上传数据的情况;
[0064] 准确性得分是指医疗机构上传的表单之间的业务逻辑勾连的情况;
[0065] 关联性得分是指医疗机构上传的表单中的数据字段准确情况;
[0066] 及时性得分是指医疗机构上传的表单中业务发生的时间和上传时间之间差距的情况。
[0067] 获得监测数据之后,再根据制定的评估考核标准和得分计算公式,对医疗机构所上传的数据各方面的约束性进行打分。
[0068] 对医疗数据进行清洗和抽取以获取相关性数据,是指:
[0069] 根据不同的用户需求,通过使用UML建模语言和标准化建模图形对医疗数据进行清洗和抽取以获取相关性数据。
[0070] 对相关性数据进行分析计算处理以获取计算处理结果,还包括:
[0071] 使用时间序列分析方法中的LSTM模型对相关数据进行趋势预测的建模和分析。
[0072] 这步骤主要是对趋势预测算法中时序预测LSTM模型的研究学习,并且能够根据计算出的相应得分做短期内的趋势预测。通过查询某段时间内的得分数据,进行分析建模,从而根据所建立的模型来预测该机构短期内的得分趋势。
[0073] LSTM模型的基本思想是:用一个指定的数学模型,来描述我们需要预测的数据,这组数据可以看作是一组随机的时间序列。如果我们对这个指定的数学模型进行了充分的分析和研究,就可以本质上的认识所要进行预测的该组时间序列的发展趋势和特征。那么如果这个建好的数学模型所预测出来的结果通过了适用性的检验,就可以认为该模型可以对该时间序列进行预测。在某种程度上,现代统计法和计量经济模型已经能够帮助企业或者政府部门对未来的事件趋势进行预测,并且也可以发展应用到其他行业和领域中,本系统主要与医疗系统合作,因此了解很多该模型在医疗行业中的应用。如医院预测某疾病发生的趋势,某门诊每日门诊人次数量的趋势等等。运用LSTM模型进行预测的流程如图2所示。
[0074] 如图2所示,如果要对一组数据形成的序列用LSTM模型进行趋势预测的时候,首先要判断该序列是否平稳,如果是非平稳序列,则组要先将该序列转化成平稳序列,可以通过差分的方法进行转换,在这里进行差分的次数,就可以看作是模型参数中d的值;如果是平稳序列就可以直接对该序列进行建模工作,通过观察自相关和偏相关函数相关的指标来确定模型中p,q的值;对于确定的参数进行该模型的有效性检验,若该模型通过了相关约束条件的检验,则模型可以用来进行趋势预测,若该模型没有通过相关约束条件的检验,那么要重复进行模型的识别,来重新确定模型中的参数。
[0075] 监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分举例性计算如图3所示。
[0076] 目前完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分被设定的各项权重值依次为40%,15%,15%,15%,15%。
[0077] 通过数据监测中间件系统(SQL Server)监测医疗数据的完整性和及时性。
[0078] 对医疗数据进行清洗和抽取以获取相关性数据,是指:
[0079] 在数据缓冲池(Oracle)对医疗数据进行清洗和抽取以获取相关性数据。
[0080] S103对相关性数据进行分析计算处理以获取计算处理结果;
[0081] 对相关性数据进行分析计算处理以获取计算处理结果,包括:
[0082] 将相关性数据划分为HIS部分、LIS部分、CIS部分及RIS部分;
[0083] HIS部分包括患者信息表(TB_YL_Patient_Information)、门诊就诊记录表(TB_YL_MZ_Medical_Record)、门诊处方明细表(TB_CIS_Prescription_Detail)、门诊收费明细表(TB_HIS_MZ_Fee_Detail)、住院就诊记录表(TB_YL_ZY_Medical_Record)、住院医嘱明细表(TB_CIS_DrAdvice_Detail)、住院收费明细表(TB_HIS_ZY_Fee_Detail)及诊断明细表(TB_IH_Diagnosis_Detail)
[0084] LIS部分包括实验室检验报告表头(TB_LIS_Report)、检验结果指标表(TB_LIS_Indicators)、细菌结果(TB_LIS_Bacteria_Result)及药敏结果(TB_LIS_Allergy_Result);
[0085] CIS部分包括住院病案首页主体表(TB_CIS_Main)、出院小结表(TB_CIS_LeaveHospital_Summary)、手术明细表(TB_Operation_Detail);
[0086] RIS部分包括医学影像检查报告表(TB_RIS_Report)。
[0087] S104显示计算处理结果。
[0088] 显示计算处理结果,包括:
[0089] 至少通过模型、视图、控制器组件显示计算处理结果。
[0090] 不同的得分情况用排序列表来展示,同时总体的得分概况可以通过雷达图、趋势图和柱状图来进行可视化的展示,友好而简洁的页面适合各级领导的使用,系统的这种设计满足了各级用户的需求。
[0091] 显示计算处理结果之后,还包括:
[0092] 获取改变计算处理结果的指令;
[0093] 显示与改变计算处理结果的指令的显示结果。
[0094] 实施例二
[0095] 如图4所示,提供了本发明另一个实施例的一种区域卫生平台质控系统,包括:
[0096] 获取模块A201,用于从各医疗系统获取医疗数据;
[0097] 清洗抽取模块A202,用于对医疗数据进行清洗和抽取以获取相关性数据;
[0098] 所对医疗数据进行清洗和抽取以获取相关性数据之前,还包括:
[0099] 监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;
[0100] 完整性得分包括表单上传率和数据量约束性的情况;
[0101] 稳定性得分是指医疗机构连续上传数据的情况;
[0102] 准确性得分是指医疗机构上传的表单之间的业务逻辑勾连的情况;
[0103] 关联性得分是指医疗机构上传的表单中的数据字段准确情况;
[0104] 及时性得分是指医疗机构上传的表单中业务发生的时间和上传时间之间差距的情况。
[0105] 对医疗数据进行清洗和抽取以获取相关性数据,是指:
[0106] 根据不同的用户需求,通过使用UML建模语言和标准化建模图形对医疗数据进行清洗和抽取以获取相关性数据。
[0107] 对相关性数据进行分析计算处理以获取计算处理结果,还包括:
[0108] 使用时间序列分析方法中的LSTM模型对相关数据进行趋势预测的建模和分析[0109] 监测医疗数据的完整性、稳定性、及时性、关联性以及准确性,并对这五方面进行约束性打分以分别获取完整性得分、稳定性得分、准确性得分、关联性得分和及时性得分;
[0110] 通过SQL Server监测医疗数据的完整性和及时性。
[0111] 对医疗数据进行清洗和抽取以获取相关性数据,是指:
[0112] 在数据缓冲池(Oracle)对医疗数据进行清洗和抽取以获取相关性数据。
[0113] 分析计算处理模块A203,用于对相关性数据进行分析计算处理以获取计算处理结果;
[0114] 对相关性数据进行分析计算处理以获取计算处理结果,包括:
[0115] 将相关性数据划分为HIS部分、LIS部分、CIS部分及RIS部分;
[0116] HIS部分包括患者信息表(TB_YL_Patient_Information)、门诊就诊记录表(TB_YL_MZ_Medical_Record)、门诊处方明细表(TB_CIS_Prescription_Detail)、门诊收费明细表(TB_HIS_MZ_Fee_Detail)、住院就诊记录表(TB_YL_ZY_Medical_Record)、住院医嘱明细表(TB_CIS_DrAdvice_Detail)、住院收费明细表(TB_HIS_ZY_Fee_Detail)及诊断明细表(TB_IH_Diagnosis_Detail)
[0117] LIS部分包括实验室检验报告表头(TB_LIS_Report)、检验结果指标表(TB_LIS_Indicators)、细菌结果(TB_LIS_Bacteria_Result)及药敏结果(TB_LIS_Allergy_Result);
[0118] CIS部分包括住院病案首页主体表(TB_CIS_Main)、出院小结表(TB_CIS_LeaveHospital_Summary)、手术明细表(TB_Operation_Detail);
[0119] RIS部分包括医学影像检查报告表(TB_RIS_Report)。
[0120] 显示模块A204,用于显示计算处理结果。
[0121] 显示计算处理结果,包括:
[0122] 至少通过模型、视图、控制器组件显示计算处理结果。
[0123] 显示计算处理结果之后,还包括:
[0124] 获取改变计算处理结果的指令;
[0125] 显示与改变计算处理结果的指令的显示结果。
[0126] 在通过对系统整体架构的分层机构的确立之后,以及和用户的合理沟通后,决定采用如下技术架构:
[0127] 采用Linux Virtual Server服务器集群,IPVS软件实现三种IP负载均衡技术和八种连接调度算法。在IPVS内部,采用高效的Hash函数和垃圾回收机制,正确处理所调度报文相关的ICMP消息。支持持久的虚拟服务,并提供详尽的统计数据。
[0128] 采用数据微服务中间件整合各区域数据中心输出的数据分析计算结果,为后面的数据应用微服务提供统一的数据接口
[0129] 采用大数据Hadoop主流分布式存储和计算框架,分布式、可靠、弹性可伸缩。采用Flume服务,用于收集、聚合和移动大量日志数据,提高系统健壮性和容错性,具有可调的可靠性机制和许多故障转移和恢复机制。ZooKeeper是Hadoop和Hbase的重要组件,它为分布式应用提供一致性服务,提供的功能包括:配置维护、分布式同步、组服务等。
[0130] Hadoop由许多元素构成。其最底部是Hadoop Distributed File System(HDFS),它存储Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎,该引擎由JobTrackers和TaskTrackers组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。
[0131] Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
[0132] Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理
[0133] Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
[0134] Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
[0135] Hadoop还是可伸缩的,能够处理PB级数据。
[0136] 此外,Hadoop依赖于社区服务,因此它的成本比较低,任何人都可以使用。
[0137] Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
[0138] 1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
[0139] 2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
[0140] 3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
[0141] 4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
[0142] 5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
[0143] Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。
[0144] hadoop大数据处理的意义:Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。
[0145] ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
[0146] ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
[0147] ZooKeeper包含一个简单的原语集,[1]提供Java和C的接口。
[0148] ZooKeeper代码版本中,提供了分布式独享、选举、队列的接口
[0149] ZooKeeper是以Fast Paxos算法为基础的,Paxos算法存在活锁的问题,即当有多个proposer交错提交时,有可能互相排斥导致没有一个proposer能提交成功,而Fast Paxos作了一些优化,通过选举产生一个leader(领导者),只有leader才能提交proposer,具体算法可见Fast Paxos。因此,要想弄懂ZooKeeper首先得对Fast Paxos有所了解。[3][0150] ZooKeeper的基本运转流程:
[0151] 1、选举Leader。
[0152] 2、同步数据。
[0153] 3、选举Leader过程中算法有很多,但要达到的选举标准是一致的。
[0154] 4、Leader要具有最高的执行ID,类似root权限。
[0155] 5、集群中大多数的机器得到响应并接受选出的Leader。
[0156] HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。经过多次针对不同数据建模的过程以及结果显示,运用LSTM模型进行预测分析,在短时间内的预测误差都很合理,但是随着时间段的扩大,误差会随着增大。而且在对于非平稳序列进行预测的时候,具有不稳定性,所以对于非平稳序列的预测意义不大。并且在进行预测的时候,真实数据应该至少大于50条,一般保证在100条以上,这样能更好的分析序列的发展趋势。
[0157] 在本申请所提供的2个实施例中,应该理解到,所揭露的方法、系统、装置、模块和/或单元,可以通过其它的方式实现。例如,以上所描述的方法实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0158] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈