首页 / 专利库 / 人工智能 / 社交媒体挖掘 / 一种云环境下的分布式空间大数据管理方法

一种环境下的分布式空间大数据管理方法

阅读:751发布:2020-05-25

专利汇可以提供一种环境下的分布式空间大数据管理方法专利检索,专利查询,专利分析的服务。并且本 发明 属于数据管理技术领域,尤其涉及利用空间 大数据 进行分析、处理的一种 云 环境下的分布式空间大数据管理方法,包括以下步骤:建立IT 基础 设施层、建立空间大数据的资源层、建立空间大数据的服务层、建立空间大数据的应用层。本发明提供的一种云环境下的分布式空间大数据管理方法具有 可视化 效果好,数据一体化,应用互联、协同共享,数据分析准确、效率高的优点。,下面是一种环境下的分布式空间大数据管理方法专利的具体信息内容。

1.一种环境下的分布式空间大数据管理方法,其特征在于,包括以下步骤:
步骤1)、建立IT基础设施层:以VDC服务和计算服务为基础设施,以Hadoop+Spark为空间大数据框架,以云盘、对象存储、存储方式为主的云存储,对云环境下的以非结构化数据为主的空间大数据进行分布式快速的存储和计算;
步骤2)、建立空间大数据的资源层:包括空间大数据的来源和分类及空间大数据的管理两方面,所述空间大数据包括来源于国土、农业、交通行业的专题图,地理国情数据、档案资料数据,自然资源数据、人口与经济的政务数据,影像数据,以及通过互联网与社交媒体获取的其他数据,并将以上数据依次进行分类管理;空间大数据的管理流程为:采集、预处理、存储、分析、可视化;所述采集的方式包括移动端和PC端的在线提交及离线拷贝;
步骤3)、建立空间大数据的服务层:针对矢量大数据采用基于空间数据仓库、分布式列数据库、非结构化散列文件、ArcSDE并行抽取与分析的ArcGIS大数据方案和基于GeoAnalytics的地理大数据一体化方案;针对影像大数据采用基于ArcGIS镶嵌数据集的影像大数据解决方案;针对实时大数据采用基于GeoEvent的实时大数据快速处理与分析方案;并提供多终端的访问接口
步骤4)、建立空间大数据的应用层:将空间大数据通过包括有线和无线传输的连接方式,提供给国土、测绘、交通、环保、利、农业等政府机构与农业保险、地信行业、电信行业等企业使用。
2.根据权利要求1所述的云环境下的分布式空间大数据管理方法,其特征在于:所述步骤1)中的IT基础设施层,为物理层或云环境,该层部署于私有云或政务云上,提供一种在云环境中,依赖搭建好的大数据框架,在云端进行相关数据的存储与计算的功能;其中存储方式包括云存储、块存储、对象存储,计算依赖VDC服务或计算服务等基础设施,大数据框架搭建利用HDFS、Hive、Hbase技术。
3.根据权利要求1所述的云环境下的分布式空间大数据管理方法,其特征在于:所述步骤2)中空间大数据的资源层包括大数据的来源分类,以及针对大数据资源进行的相关管理;其中,大数据来源分为行业专题、基础测绘、政务数据及其他数据;针对以上数据,该层设计了采集/汇聚区、清洗/预处理区、管理区进行相关管理。
4.根据权利要求1所述的云环境下的分布式空间大数据管理方法,其特征在于:所述步骤3)中空间大数据的服务层是根据所提供的空间大数据服务接口,依赖ArcGIS平台所拥有的矢量大数据分析引擎GeoAnalytics Server、影像大数据分析引擎Image Analytics Server、实时大数据分析引擎GeoEvent Server,为客户提供数据服务。
5.根据权利要求1所述的云环境下的分布式空间大数据管理方法,其特征在于:所述步骤2)中采集的方式包括移动端和PC端的在线提交及离线拷贝,预处理的方式包括根据ETL数据整合模型对相关数据进行清洗、转化与加载;存储的方式包括Hadoop实时多数据格式分布式存储;分析的方式包括基于最新数据做复杂空间分析、空间运算和挖掘;可视化的方式包括基于Hadoop+Spark+NoSQL+Geometry API等通过Portal、pro、insight直接访问大数据分析功能。
6.根据权利要求1所述的云环境下的分布式空间大数据管理方法,其特征在于:所述步骤3)中空间数据仓库中数据存储方式为 ArcSDE 空间数据库,采用Hive、Sqoop、ArcSDE空间SQL、SparK SQL、Hadoop技术;分布式列数据库中数据存储方式为 ArcSDE 空间数据库,采用Hbase、Sqoop、ArcSDE空间SQL、SparK SQL、Esri Geometry API for Java技术;非结构化散列文件采用Geoprocessing Tools for Hadoop、Esri Geometry API for Java、Spark技术;ArcSDE并行抽取与分析的ArcGIS大数据方案采用Spark SQL、ArcSDE 空间 SQL、Esri Geometry API for Java技术;基于GeoAnalytics的地理大数据一体化方案为并行处理架构,支持多种数据源、多终端访问;基于ArcGIS镶嵌数据集的影像大数据解决方案支持多种数据访问,根据卫星等技术获取数据并实时处理,快速高效的管理数据,可实时获取结果,并动态镶嵌数据集,提供灵活多端的应用模式、完善的影像服务发布机制;基于GeoEvent的实时大数据快速处理与分析方案使用多类传感器、流数据集成、大数据、内置处理、地图围栏,可拓展性强,应用场景为动态目标跟踪、实时态势感知、决策分析支持、网络舆情分析。

说明书全文

一种环境下的分布式空间大数据管理方法

技术领域

[0001] 本发明属于数据管理技术领域,尤其涉及利用空间大数据进行分析、处理的一种云环境下的分布式空间大数据管理方法。

背景技术

[0002] 随着云计算、大数据、数据挖掘、ArcGIS等技术的发展,使得针对政府、企业等社会各界提出的越来越全面、精准、及时的信息需求成为了可能。
[0003] 随着信息技术的飞速发展和社会各界新需求的不断提出,以面向事务处理为主的空间数据管理系统已不能满足需要,传统的地理信息开始从管理转向决策处理,而本发明就是为满足这种新的需求而提出的空间大数据的管理办法。

发明内容

[0004] 本发明的目的就是为解决社会各界对空间地理信息方面日益全面、精准、及时的信息需求同落后的空间大数据管理服务之间的矛盾,而提供一种云环境下的分布式空间大数据管理方法。
[0005] 本发明采用的技术方案是:一种云环境下的分布式空间大数据管理方法,其特征在于,包括以下步骤:
步骤1)、建立IT基础设施层:以VDC服务和计算服务为基础设施,以Hadoop+Spark为空间大数据框架,以云盘、对象存储、存储方式为主的云存储,对云环境下的以非结构化数据为主的空间大数据进行分布式快速的存储和计算;
步骤2)、建立空间大数据的资源层:包括空间大数据的来源和分类及空间大数据的管理两方面,所述空间大数据包括来源于国土、农业、交通行业的专题图,地理国情数据、档案资料数据,自然资源数据、人口与经济的政务数据,影像数据,以及通过互联网与社交媒体获取的其他数据,并将以上数据依次进行分类管理;空间大数据的管理流程为:采集、预处理、存储、分析、可视化;所述采集的方式包括移动端和PC端的在线提交及离线拷贝;
步骤3)、建立空间大数据的服务层:针对矢量大数据采用基于空间数据仓库、分布式列数据库、非结构化散列文件、ArcSDE并行抽取与分析的ArcGIS大数据方案和基于GeoAnalytics的地理大数据一体化方案;针对影像大数据采用基于ArcGIS镶嵌数据集的影像大数据解决方案;针对实时大数据采用基于GeoEvent的实时大数据快速处理与分析方案;并提供多终端的访问接口
步骤4)、建立空间大数据的应用层:将空间大数据通过包括有线和无线传输的连接方式,提供给国土、测绘、交通、环保、利、农业等政府机构与农业保险、地信行业、电信行业等企业使用。
[0006] 进一步的,所述步骤1)中的IT基础设施层,为物理层或云环境,该层部署于私有云或政务云上,提供一种在云环境中,依赖搭建好的大数据框架,在云端进行相关数据的存储与计算的功能;其中存储方式包括云存储、块存储、对象存储,计算依赖VDC服务或计算服务等基础设施,大数据框架搭建利用HDFS、Hive、Hbase技术。
[0007] 进一步的,所述步骤2)中空间大数据的资源层包括大数据的来源分类,以及针对大数据资源进行的相关管理;其中,大数据来源分为行业专题、基础测绘、政务数据及其他数据;针对以上数据,该层设计了采集/汇聚区、清洗/预处理区、管理区进行相关管理。
[0008] 进一步的,所述步骤3)中空间大数据的服务层是根据所提供的空间大数据服务接口,依赖ArcGIS平台所拥有的矢量大数据分析引擎GeoAnalytics Server、影像大数据分析引擎Image Analytics Server、实时大数据分析引擎GeoEvent Server,为客户提供数据服务。
[0009] 进一步的,所述步骤2)中采集的方式包括移动端和PC端的在线提交及离线拷贝,预处理的方式包括根据ETL数据整合模型对相关数据进行清洗、转化与加载;存储的方式包括Hadoop实时多数据格式分布式存储;分析的方式包括基于最新数据做复杂空间分析、空间运算和挖掘;可视化的方式包括基于Hadoop+Spark+NoSQL+Geometry API等通过Portal、pro、insight直接访问大数据分析功能。
[0010] 进一步的,所述步骤3)中空间数据仓库中数据存储方式为 ArcSDE 空间数据库,采用Hive、Sqoop、ArcSDE空间SQL、SparK SQL、Hadoop技术;分布式列数据库中数据存储方式为 ArcSDE 空间数据库,采用Hbase、Sqoop、ArcSDE空间SQL、SparK SQL、Esri Geometry API for Java技术;非结构化散列文件采用Geoprocessing Tools for Hadoop、Esri Geometry API for Java、Spark技术;ArcSDE并行抽取与分析的ArcGIS大数据方案采用Spark SQL、ArcSDE 空间 SQL、Esri Geometry API for Java技术;基于GeoAnalytics的地理大数据一体化方案为并行处理架构,支持多种数据源、多终端访问;基于ArcGIS镶嵌数据集的影像大数据解决方案支持多种数据访问,根据卫星等技术获取数据并实时处理,快速高效的管理数据,可实时获取结果,并动态镶嵌数据集,提供灵活多端的应用模式、完善的影像服务发布机制;基于GeoEvent的实时大数据快速处理与分析方案使用多类传感器、流数据集成、大数据、内置处理、地图围栏,可拓展性强,应用场景为动态目标跟踪、实时态势感知、决策分析支持、网络舆情分析。
[0011] 本发明的有益效果是,通过本发明提供的云环境下的分布式空间大数据管理方法,可以实现:(1)从单机空间分析到云端空间分析,从海量数据到大数据的转变,从静态数据到实时接入数据的转变,从单机、网页应用到移动化、多终端化的转变,从基础数据模型到网络地图信息模型的转变,从网页简单配图到智能制图与可视化的转变,从二维、三维独立到二三维融合的转变,从单机影像管理分析到影像采编发用一体化的转变,从定制开发应用到模板配置与向导快速创建的转变,从各应用、设备相对独立到应用互联、协同共享,从应用层授权认证到地理平台层色认证的变化;
(2)促进思维模式由抽样到全部、由精确到效率、由因果到相关的转变,具体表现为:
1)、正在由小数据时代的抽样调查研究,逐渐发展到大数据时代的全部数据研究;
2)、由过去花长时间去追求精确的结果到目前通过对大数据的分析快速找到解决方案,更讲究效率;
3)、过去分析一定要找到事件的因果关系,现在通过大数据分析,更关注发现数据的相关性。
[0012] 总之,本发明提供的一种云环境下的分布式空间大数据管理方法具有可视化效果好,数据一体化,应用互联、协同共享,数据分析准确、效率高的优点。附图说明
[0013] 图1 是本发明提供的一种云环境下的分布式空间大数据管理方法的所用到的大数据管理系统的结构框图;图2是本发明提供的一种云环境下的分布式空间大数据管理方法中空间大数据的管理流程的流程图
图3是本发明提供的一种云环境下的分布式空间大数据管理方法中可视化流程的流程图。

具体实施方式

[0014] 本发明的核心是提供一种云环境下的分布式空间大数据管理方法。
[0015] 下面结合附图对本发明的内容作进一步说明,如图1所示,一种云环境下的分布式空间大数据管理方法,其特征在于,包括以下步骤:步骤1)、建立IT基础设施层:以VDC服务和计算服务为基础设施,以Hadoop+Spark为空间大数据框架,以云盘、对象存储、块存储方式为主的云存储,对云环境下的以非结构化数据为主的空间大数据进行分布式快速的存储和计算;
所述IT基础设施层,可视为物理层、云环境,该层部署于私有云或政务云上,主要提供了一种在云环境中,依赖搭建好的大数据框架,可以在云端进行相关数据的存储与计算的功能;其中存储方式可以是云存储、块存储、对象存储,计算依赖VDC服务或计算服务等基础设施,大数据框架利用了HDFS、Hive、Hbase技术;
步骤2)、建立空间大数据的资源层:包括空间大数据的来源和分类及空间大数据的管理两方面,空间大数据的来源主要从国土、农业、交通等行业专题图,地理国情数据、档案资料数据等基础测绘,自然资源数据、人口与经济等政务数据,影像数据、互联网与社交媒体等其他数据获取,并依次进行分类管理。空间大数据的处理流程为:采集(如移动端、PC端等在线提交,离线拷贝)、预处理(如根据ETL数据整合模型等对相关数据进行清洗、转化与加载)、存储(Hadoop实时多数据格式分布式存储)、分析(如基于最新数据做复杂空间分析、空间运算和挖掘)、可视化(基于Hadoop+Spark+NoSQL+Geometry API等通过Portal、pro、insight直接访问大数据分析功能);
所述空间大数据的资源层主要包括大数据的来源分类,以及针对大数据资源进行的相关管理,其中,大数据来源分为行业专题(如国土、水利、农业等)、基础测绘(如地理框架数据、地理国情数据、档案资料数据等)、政务数据(如自然资源数据、人口数据、宏观经济数据等)及其他数据(如影像数据、互联网数据、社交媒体数据等),针对上述数据,该层设计了采集/汇聚区(三域标识、在线提交、离线拷贝等)、清洗/预处理区(统一格式、时间基准,空间化等)、管理区(动态数据获取、大数据管理、大数据挖掘等)进行相关管理;
步骤3)、建立空间大数据的服务层:针对矢量大数据采用基于空间数据仓库(该方案数据存储方式为 ArcSDE 空间数据库,数据量激增,需要做快速的空间分析和数据挖掘,主要用到了Hive、Sqoop、ArcSDE空间SQL、SparK SQL、Hadoop等技术,优势为基于Spark高性能计算框架,高性能与可扩展性,基于Hive+UDF,复杂空间分析与数据挖掘的高度定制性)、分布式列数据库(该方案数据存储方式为 ArcSDE 空间数据库,数据量激增,需要做快速的空间分析和数据挖掘,主要用到了Hbase、Sqoop、ArcSDE空间SQL、SparK SQL、Esri Geometry API for Java等技术,优势为分布式文件系统 HDFS、高性能 NoSQL 列式、高性能计算框架 Spark,基于Geometry API,复杂空间分析与数据挖掘的高度定制性)、非结构化散列文件(该方案业务场景是数据以格式化文本文件存在且数据量巨大,数据以 SHP、FileGDB 等形式存在且数据量巨大,技术主要用到Geoprocessing Tools for Hadoop、Esri Geometry API for Java、Spark,优势表现在分布式文件系统 HDFS、高性能计算框架 Spark,基于Geometry API,复杂空间分析与数据挖掘的高度定制性)、ArcSDE并行抽取与分析的ArcGIS大数据方案(该方案业务场景是数据存储在ArcSDE中,并且不定期更新,需要基于最新数据做空间分析和挖掘,主要选用技术是Spark SQL、ArcSDE 空间 SQL、Esri Geometry API for Java,该方案优势表现为准实时分析,基于Geometry API,复杂空间分析与数据挖掘的高度定制性)和基于GeoAnalytics的地理大数据一体化方案(该方案为并行处理架构,开箱即用,支持多种数据源、多终端访问);针对影像大数据采用基于ArcGIS镶嵌数据集的影像大数据解决方案(该方案支持多种数据访问,根据卫星等技术获取数据并实时处理,快速高效的管理数据,可实时获取结果,并动态镶嵌数据集,提供灵活多端的应用模式、完善的影像服务发布机制);针对实时大数据采用基于GeoEvent的实时大数据快速处理与分析方案(该方案主要使用了多类传感器、流数据集成、大数据、内置处理、地图围栏,可拓展性强,应用场景为动态目标跟踪、实时态势感知、决策分析支持、网络舆情分析);并提供多终端的访问接口;
所述空间大数据的服务层主要是根据提供的空间大数据服务接口,依赖ArcGIS平台所拥有的矢量大数据分析引擎(GeoAnalytics Server)、影像大数据分析引擎(Image Analytics Server)、实时大数据分析引擎(GeoEvent Server),为客户提供相关服务;
步骤4)、建立空间大数据的应用层:将空间大数据通过包括有线和无线传输的连接方式,提供给国土、测绘、交通、环保、水利、农业等政府机构与农业保险、地信行业、电信行业等企业使用;
所述空间大数据的应用层主要是说明该管理办法主要针对的目标客户,如国土资源、交通、环保等政府部,以及农业保险、地信行业、电信行业等企业。
[0016] 如图2所示,上述步骤2)中的空间大数据的管理流程具体包括以下步骤:步骤201,在云上搭建以Hadoop + Spark为主要技术的大数据框架;
步骤202,在云上安装Hbase、SDE等数据库;
步骤203,平台搭建,进行高速计算、数据挖掘与分析;
步骤204,在空间大数据资源层人为地划分三个区域对其进行采集、预处理、存储、分析;
步骤205,通过在线提交或离线拷贝方式,对各类空间大数据进行采集、汇聚;
步骤206,按照统一格式、统一时间基准通过SDE接口等进行空间大数据的转存、清洗与预处理;
步骤207,主要是对空间大数据进行分析与挖掘,为其可视化做工作。
[0017] 如图3所示,上述步骤2)中的空间大数据的可视化流程具体包括以下步骤:步骤201,使用主体可以通过移动端、PC端等多终端进行访问相关空间大数据信息;
步骤202,云环境中的接口一旦被访问,就会调用相关空间大数据分析引擎进行分布式处理;
步骤203,在云环境中,依赖预先搭建的框架以及ArcGIS相关技术对空间大数据进行高效的计算、分析、挖掘工作;
步骤204,数据分析挖掘结束后,得出的数据以图表、专题图等可视化的形式反馈到使用者设备。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈