首页 / 专利库 / 人工智能 / 树形结构 / 一种基于Hadoop的分布式移动基站数据存储系统

一种基于Hadoop的分布式移动基站数据存储系统

阅读:1039发布:2020-05-27

专利汇可以提供一种基于Hadoop的分布式移动基站数据存储系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于Hadoop的分布式移动基站数据存储系统,该系统包括依次连接的 接口 层、功能层、数据层和物理层,所述的物理层包括至少一台应用 服务器 、备份服务器以及核心层交换机,各 应用服务器 、各备份服务器、数据层分别连接核心层交换机,所述的数据层包括Linux存储集群,该Linux存储集群采用Hadoop集群平台,所述的Hadoop集群平台包括YARN、索引库、HBase 数据库 、Mysql数据库以及用以进行分布式协调服务的Zookeeper,所述的Hadoop集群平台的最底层设有用以存储所有 节点 上的文件的HDFS。与 现有技术 相比,本发明具有提升容量、提高数据的兼容性等优点。,下面是一种基于Hadoop的分布式移动基站数据存储系统专利的具体信息内容。

1.一种基于Hadoop的分布式移动基站数据存储系统,其特征在于,该系统包括依次连接的接口层、功能层、数据层和物理层,所述的物理层包括至少一台应用服务器、备份服务器以及核心层交换机,各应用服务器、各备份服务器、数据层分别连接核心层交换机,所述的数据层包括Linux存储集群,该Linux存储集群采用Hadoop集群平台,所述的Hadoop集群平台包括YARN、索引库、HBase数据库、Mysql数据库以及用以进行分布式协调服务的Zookeeper,所述的Hadoop集群平台的最底层设有用以存储所有节点上的文件的HDFS。
2.根据权利要求1所述的一种基于Hadoop的分布式移动基站数据存储系统,其特征在于,所述的Hadoop集群平台为树形结构,该树形结构包括内部节点和叶子节点,所述的内部节点代表一个路由器或核心层交换机,所述的叶子节点代表部署DataNode数据节点的机器,DataNode数据节点用以响应来自HDFS的读写请求,并用于响应来自NameNode名称节点的创建、删除和复制的命令。
3.根据权利要求2所述的一种基于Hadoop的分布式移动基站数据存储系统,其特征在于,所述的Hadoop集群平台的管理员通过设置参数来指定一个脚本文件,在NameNode名称节点启动成功后自动加载此脚本并且执行该脚本,通过该脚本中的设定将集群中DataNode数据节点的IP翻译成对应的rackname,若没有设置参数,则每个DataNode数据节点的IP会被解析到默认机架,NameNode名称节点用于接受每个DataNode数据节点的定期心跳消息。
4.根据权利要求3所述的一种基于Hadoop的分布式移动基站数据存储系统,其特征在于,所述的Hadoop集群平台中,DataNode每隔一段心跳时间主动发起与NameNode之间的联系,心跳间隔时间通过配置参数设定,且通过配置参数可设定最长时间,若NameNode名称节点发现一个节点超过最长时间后仍未与其取得联系,则认定发现的节点死亡,将该节点标记为DeadNode死亡节点。
5.根据权利要求1所述的一种基于Hadoop的分布式移动基站数据存储系统,其特征在于,所述的Mysql数据库通过Sqoop与HBase数据库实现同步。
6.根据权利要求1所述的一种基于Hadoop的分布式移动基站数据存储系统,其特征在于,所述的接口层采用Java API编程接口。
7.根据权利要求1所述的一种基于Hadoop的分布式移动基站数据存储系统,其特征在于,所述的功能层包括兴趣点属性查询单元、兴趣点空间查询单元、兴趣点管理单元。

说明书全文

一种基于Hadoop的分布式移动基站数据存储系统

技术领域

[0001] 本发明涉及移动基站数据技术领域,尤其是涉及一种基于Hadoop的分布式移动基站数据存储系统。

背景技术

[0002] 移动基站数据接入技术关键点包括:1、数据获取性能的灵活扩展:数据规模大频度高存在短期峰涌现象,对平台组件冲击较大,由于分布式消息队列采用集群方式部署,可根据需求横向扩展硬件资源,因此通过应用分布式消息队列可有效屏蔽冲击。2、分布式消息队列主题创建及调优:为达到对海量高频数据进行实时接入的目的,需要根据时序数据产生频率、采集周期、测点规模,针对性设计数据分布策略;将监测数据按数据分类分发到分布式消息队列中;依据系统负载调整不同类别数据的分区数量、复制因子、主题分布等参数;设置时序数据在分布式消息队列中的存储结构,实现高速写入,并降低转换开销;同时需实现基于分布式消息队列的故障恢复机制,以确保数据不丢失。
[0003] 数据存储环节实现对用采数据的分布式存储。原则上,采集量测数据存入大数据平台分布式列式数据数据库(HBase)中,并将近期数据(当前半天或者一天内)缓存在大数据平台分布式内存数据库(Redis)中,便于对于实时性要求较高的应用进行处理。
[0004] 然而,随着移动终端的不断增加,移动基站数据越来越多,传统方法已经无法应对海量的移动基站数据。已有的商业私有GIS平台部署的高昂费用、数据的兼容性差、后台服务接口定制困难。

发明内容

[0005] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Hadoop的分布式移动基站数据存储系统。
[0006] 本发明的目的可以通过以下技术方案来实现:
[0007] 一种基于Hadoop的分布式移动基站数据存储系统,包括依次连接的接口层、功能层、数据层和物理层,所述的物理层包括至少一台应用服务器、备份服务器以及核心层交换机,各应用服务器、各备份服务器、数据层分别连接核心层交换机,所述的数据层包括Linux存储集群,该Linux存储集群采用Hadoop集群平台,所述的Hadoop集群平台包括YARN、索引库、HBase数据库、Mysql数据库以及用以进行分布式协调服务的Zookeeper,所述的Hadoop集群平台的最底层设有用以存储所有节点上的文件的HDFS。
[0008] 所述的Hadoop集群平台为树形结构,该树形结构包括内部节点和叶子节点,所述的内部节点代表一个路由器或核心层交换机,所述的叶子节点代表部署DataNode数据节点的机器,DataNode数据节点用以响应来自HDFS的读写请求,并用于响应来自NameNode名称节点的创建、删除和复制的命令。
[0009] 所述的Hadoop集群平台的管理员通过设置参数来指定一个脚本文件,在NameNode名称节点启动成功后自动加载此脚本并且执行该脚本,通过该脚本中的设定将集群中DataNode数据节点的IP翻译成对应的rackname,若没有设置参数,则每个DataNode数据节点的IP会被解析到默认机架,NameNode名称节点用于接受每个DataNode数据节点的定期心跳消息。
[0010] 所述的Hadoop集群平台中,DataNode每隔一段心跳时间主动发起与NameNode之间的联系,心跳间隔时间通过配置参数设定,且通过配置参数可设定最长时间,若NameNode名称节点发现一个节点超过最长时间后仍未与其取得联系,则认定发现的节点死亡,将该节点标记为DeadNode死亡节点。
[0011] 所述的Mysql数据库通过Sqoop与HBase数据库实现同步。
[0012] 所述的接口层采用Java API编程接口。
[0013] 所述的功能层包括兴趣点属性查询单元、兴趣点空间查询单元、兴趣点管理单元。
[0014] 与现有技术相比,本发明具有以下优点:
[0015] (1)本发明系统使用Hadoop分布式框架可将多个廉价机器组合起来,组成一个集群,多台机器的物理磁盘组成一个大的逻辑存储,可大大提升容量,提高数据的兼容性,解决后台服务接口定制困难的问题;
[0016] (2)本发明的分布式数据存储采用Java API作为接口层,物理层设有至少一个应用服务器、备份服务器,数据层包括YARN、索引库、HBase数据库、Mysql数据库以及用于为Hadoop和HBase提供分布式服务的重要组件Zookeeper,数据层有足够的可靠,能够安全完整的存储数据,在该系统中,设置DataNode数据节点的副本数为三,即使发生故障也可以迅速的重新从其他节点进行复制和备份。附图说明
[0017] 图1为本发明系统的结构示意图。

具体实施方式

[0018] 下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
[0019] 如图1所示,本发明涉及一种基于Hadoop的分布式移动基站数据存储系统,包括:接口层、功能层、数据层和物理层。其中,接口层采用Java API编程接口。功能层设有兴趣点属性查询单元、兴趣点空间查询单元、兴趣点管理单元等。物理层设有至少一个应用服务器、备份服务器以及至少一个核心层交换机。
[0020] 数据层包含Linux存储集群:其采用装有Centos 6.5的Linux系统PC组建集群。集群采用Hadoop系统作为基础架构平台,Hadoop是一个能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。Hadoop系统框架有许多元素构成。其最底部是HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),存储Hadoop集群中所有存储节点上的文件,客户端的用户可通过HDFS进行创建、删除、移动或重命名文件等操作;数据层还包括YARN(Yet Another Resource Negotiator,另一种资源协调者)、索引库、HBase数据库、Mysql数据库以及用于为Hadoop和HBase提供分布式服务的重要组件Zookeeper;Mysql数据库通过Sqoop与HBase数据库实现同步。HBase数据库通过Lucene与索引库联系实现检索。整个数据层采用MapReduce作为分布式计算框架。
[0021] 本发明采用分布式文件系统HDFS作为HBase,Hive以及其他应用数据的存储设备。YARN作为集群的资源管理器,负责资源的管理以及调度。。采用Hive数据仓库用来支持数据的HQL查询等操作。HBase为分布式列存储数据库,用于存储结构化数据。Zookeepe用于进行分布式协调服务,在系统中负责协调系统的各种服务。
[0022] HDSF机架拓扑:Hadoop集群组织形式是树形结构,分为内部节点跟叶子节点,内部节点一般代表一个路由器或者交换机,叶子节点则代表部署着DataNode数据节点的机器。默认情况下HDFS不能自己判断机架拓扑关系,也就是DataNode数据节点的拓扑。NameNode名称节点名称节点用于接受每个DataNode数据节点数据节点的定期心跳消息,DataNode数据节点用于响应来自HDFS模块客户端的读写请求;还用于响应来自NameNode名称节点的创建、删除和复制块的命令。但是集群的管理员可以通过配置topology.script.file.name中的参数来指定一个脚本文件,在NameNode名称节点启动成功后会自动的加载此脚本并且执行该脚本,通过该脚本中的设定来把集群中DataNode数据节点的IP翻译成对应的rackname,如果没有设置参数,每个Data Node的IP都会被解析到/default-rack。。根据这种拓扑结构,定义一种距离叫做网络距离,节点到其Parent节点间的距离为1,任意两个节点的距离等于他们到最近公共Parent节点的距离之和。所以通常情况下,想要使网络通讯越快,就要尽量的使节点与节点间的距离越小。显而易见,机架内部的网络通讯要比机架与机架之间的网络通讯快得多。
[0023] 心跳机制。因为NameNode名称节点不会主动跟DataNode数据节点进行交互和沟通,所以它们之间的联系都是DataNode数据节点主动发起的,这样做的主要目的是减少NameNode名称节点的负载,降低NameNode名称节点的压,这样对集群的稳定性也有保障,同时,集群中动态的增加或者删除节点时也不会对NameNode名称节点产生较大的影响。所以就需要建立一种心跳机制,使DataNode数据节点主动的每隔一段时间就联系一次NameNode名称节点。通过配置dfs.heartbeat.interval的参数就可以设定心跳的时间间隔,并且可以设置一个最长时间,当NameNode名称节点发现一个节点超过了这个最长时间都没有联系自己的话,那就认定这个节点死亡,然后就会将这个节点标记为DeadNode死亡节点。
[0024] 集群启动后,其offerService方法将根据设定的心跳时间,如果设定为5秒,那就每隔5秒钟通过RPC调用NameNode名称节点的sendHeartbeat方法,NameNode名称节点启动后就会建立一个RPC Server,用来监听DataNode数据节点的RPC请求,然后NameNode名称节点的sendHeartbeat方法调用handleHeartbeat方法。通过这样的心跳机制,NameNode名称节点可以给DataNode数据节点发送指令,比如对数据的增删等等。
[0025] 机架感知。基于网络拓扑结构实现机架感知。因为副本的放置对HDFS中数据的可靠性以及集群的性能都至关重要,机架感知策略也是为了提高数据的可靠性、安全性并且可以提高网络带宽的利用率。为了预防某个机架整体出现故障,可以把每个副本拷贝到不同的机架中,这样做还可以充分利用每个机架的带宽,提高集群的整体性能,如果默认每个文件的副本数为3,首先把第一个副本放在本地机架,第二本副本放在其他的随机一个机架中,第三个副本放在跟第二个相同机架的不同机器中,如果副本数量大于3,那之后的副本就随机选择节点存放。这样可以以一种简单的方式对数据的可靠性安全性有一个很大的提高。副本存放在节点的时候,首先要对节点进行验证,目的使确定节点的各个状态是否可用,通过NameNode名称节点类中的isGoodTarget方法,首先计算磁盘的存储空间是否足够写入当前的副本,如果空间不足,则会选择其他节点,然后统计该节点当前正在执行的作业数,如果该节点当前的作业数超过了集群当前平均作业数的2倍,则会认定该节点的状态为负载过重,也就不会在此节点上存放新的副本,再去验证别的节点。这样的策略不但保证了一定的写入性能,而且一定范围内保证了负载均衡和数据的可靠性以及安全性等。
[0026] 以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈