首页 / 专利库 / 电脑零配件 / 固件 / 软件 / 系统软件 / 操作系统 / 进程 / 一种电网海量数据管理方法

一种电网海量数据管理方法

阅读:726发布:2024-01-02

专利汇可以提供一种电网海量数据管理方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种 电网 海量数据管理方法,该方法包括:构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算 框架 对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测 算法 实现并行负载预测。本发明提出了一种电网海量数据管理方法,将电网用户各系统的数据进行融合和集成,并将传统数据计算方法迁移到分布式平台中,满足海量数据的运算要求。,下面是一种电网海量数据管理方法专利的具体信息内容。

1.一种电网海量数据管理方法,其特征在于,包括:
构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算框架对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测;
所述电网用户数据管理系统的架构分为应用层、数据分析计算层、数据管理层,利用Hadoop构建电网用户数据管理系统,在平台上采用HDFS、HBase建立数据存储系统,在平台上构建MapReduce并行计算框架和Storm内存并行计算框架作为海量数据计算分析系统,对电网用户的海量数据进行分析;所述数据管理层对数据进行采集和集成;所述数据采集包括从智能电表、数据采集监控系统和各种传感器中采集的数据,对这些数据的集成包括将数据迁移至集群服务器进行管理;在数据的集成过程中,采用数据转移工具对数据进行抽取和整合工作,将各个独立的系统产生的数据及历史数据利用数据转移工具抽取整合到HBase中,并使用java持久化工具对列存储数据库进行操作,将基于分布式计算的应用产生的在线数据写入到HBase中;所述数据分析计算层用于海量数据的存储和计算分析;利用HBase存储电负载数据和相关数据;利用并行计算模MapReduce对海量数据进行并行批量计算分析,而对数据密集型的迭代计算采用基于内存的并行计算模块Storm,将业务所需数据读入内存,需要数据时直接从内存中查询;
所述基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测,进一步包括:
利用3个MapReduce业务类执行算法的训练过程,每一个MapReduce的输出作为其后一个的输入,训练结束后得到的决策模块保存在Hadoop的分布式集群中,其分为三部分:生成数据字典;生成判定树;形成判定树集合;
其中所述生成数据字典包括对进行训练的样本数据进行描述,产生一个文件来描述样本中条件属性和决策属性,记录条件属性值的类型和决策属性的位置,以及要创建的模块是进行分类还是回归运算,这个过程由第一个MapReduce完成,每个Map过程读取实验数据的一部分,记录数据的属性类型和负载值或者类型标识;产生的描述文件以键/值的形式存储在Hadoop的文件系统HDFS中;
其中所述生成判定树过程包括以下并行过程:
1)对原数据集进行随机有放回的抽取K个与原样本数据集大小一样的样本数据TS1,2,…,k;一个样本数据对应一个判定树的训练集,每个样本数据都不同,并且与原数据集大小一样;
2)根据样本数据中属性的个数M确定每个节点随机选择的属性个数m,其中m<3)递归进行节点的建立,生成判定树;K个判定树的生成是并行产生的,一个Map生成一个判定树,这个过程由第二个MapReduce过程完成;
所述形成判定树集合包括把每个判定树分类器组合起来,每个判定树产生一个结果,如果判定树集合用来分类其最终结果为投票选取,当它用来回归预测时,K个树给出K个值,最终值为各树的平均值,此过程由第三个MapReduce完成。
2.根据权利要求1所述的方法,其特征在于,在所述HBase系统的部署架构中,将调度中心作为整个分布式实时数据库的管理者,存储元数据信息,包括各节点分工、节点状态、数据分区方式、数据块位置、任务调度、安全管理的关键信息;所述调度中心相互间通过同步机制保持元数据的一致性,数据分析计算层逻辑上是对等的,部署相同进程完成同样的逻辑运算,数据分析计算层采用基于事务的冗余备份机制,电网用户数据管理系统采用HDFS作为底层存储的分布式文件系统,构建面向电网海量数据的时序控制组件来存储电网业务中的时序数据,由时序控制组件来构建时序数据模块,按照特有模块统一接收存储采集的时序数据,并对外提供统一的查询接口
在存储方式上,采用键-值的形式来存储数据,即面向列进行存储,以列族为基本的存储和权限控制单元,对于为空的列,在实际存储中不占用实际空间,使用稀疏表的设计方式,在数据架构部署上放弃了传统的C/S多客户端、单服务器的模式;采用分布式的多服务器的集群模式,所有数据根据复制因子分散存储于集群中的多台计算机上;时序控制组件底层依赖于列存储数据库,在具体处理时序数据时抽象为对HBase数据库的读、写、增加、删除、修改的基本操作,软件最上层为时序控制组件的客户端及第三方应用客户端,所有客户端通过Java的API进行具体操作,所有API通过类型解析模块解析分解为一个数据库操作或多个数据库操作的序列集合,这些数据库操作集合通过控制组件内部的RPC调用,最后统一使用异步的HBase操作API完成数据操作。

说明书全文

一种电网海量数据管理方法

技术领域

[0001] 本发明涉及智能电网,特别涉及一种电网海量数据管理方法。

背景技术

[0002] 对电网用户实时数据的采集、传输和存储,并结合累积的海量多源历史数据进行快速分析能够有效的改善需求管理,对用户数据进行管理与处理支撑着智能电网安全、坚强及可靠运行。随着各类传感器和智能设备数量的不断增加,设备获取与传输的各类数据也在发生着指数级的增长,这些数据不仅包括智能电表收集的用电量,还包括各类传感器按照固定频率采集的温度、天气、湿度、地理信息和速信息等。用户数据复杂程度增大。
[0003] 我国发输电系统的技术与国外差别不大,但在配用电特别是用户端存在较大差异,由于相适应的市场机制尚未形成,中国实施智能用电技术的条件不够成熟,难以支持智能电分配系统和用户管理系统的有效集成。总的来说,电网用户的海量数据管理存在如下挑战:智能电表和物联网技术的快速发展,使其产生的海量数据模态千差万别,各单位数据口径不一,加工整合困难。针对海量数据,如何构建一个模来对其进行规范表达,如何基于该模块来实现数据整合是亟需解决的问题。由于数据的采集方式多种多样,各个通信信道质量不 一,不仅接收的数据质量低劣,而且对数据的管控能力也不足,从而导致利用这些低劣的数据进行挖掘分析发现的知识也是不科学的,不能做出精准的决策。这已经在全球范围内造成了恶劣后果,严重困扰着信息社会。数据类型复杂,传统的关系型数据库和文件存储格式已不能满足海量数据快速增长的需求。

发明内容

[0004] 为解决上述现有技术所存在的问题,本发明提出了一种电网海量数据管理方法,包括:
[0005] 构建电网用户数据管理系统,将各个电网子系统采集到的数据进行整合,并利用并行计算框架对电网用户的数据进行挖掘和分析;基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测。
[0006] 优选地,所述电网用户数据管理系统的架构分为应用层、数据分析计算层、数据管理层,利用Hadoop构建电网用户数据管理系统,在平台上采用HDFS、HBase建立数据存储系统,在平台上构建MapReduce并行计算框架和Storm内存并行计算框架作为海量数据计算分析系统,对电网用户的海量数据进行分析;所述数据管理层对数据进行采集和集成;所述数据采集包括从智能电表、数据采集监控系统和各种传感器中采集的数据,对这些数据的集成包括将数据迁移至集群服务器进行管理;在数据的集成过程中,采用数据转移工具对数据进行抽取和整合工作,将各个独立的系统产生的数据及历史数据利用数据转移工具抽取整合到HBase中,并使用java持久化工具对列 存储数据库进行操作,将基于分布式计算的应用产生的在线数据写入到HBase中;所述数据分析计算层用于海量数据的存储和计算分析;利用HBase存储电力负载数据和相关数据;利用并行计算模块MapReduce对海量数据进行并行批量计算分析,而对数据密集型的迭代计算采用基于内存的并行计算模块Storm,将业务所需数据读入内存,需要数据时直接从内存中查询。
[0007] 优选地,所述基于所述数据管理系统,利用分布式负载预测算法实现并行负载预测,进一步包括:
[0008] 利用3个MapReduce业务类执行算法的训练过程,每一个MapReduce的输出作为其后一个的输入,训练结束后得到的决策模块保存在Hadoop的分布式集群中,其分为三部分:生成数据字典;生成判定树;形成判定树集合;
[0009] 其中所述生成数据字典包括对进行训练的样本数据进行描述,产生一个文件来描述样本中条件属性和决策属性,记录条件属性值的类型和决策属性的位置,以及要创建的模块是进行分类还是回归运算,这个过程由第一个MapReduce完成,每个Map过程读取实验数据的一部分,记录数据的属性类型和负载值或者类型标识;产生的描述文件以键/值的形式存储在Hadoop的文件系统HDFS中;
[0010] 其中所述生成判定树过程包括以下并行过程:
[0011] 1)对原数据集进行随机有放回的抽取K个与原样本数据集大小一样的样本数据TS1,2,…,k;一个样本数据对应一个判定树的训练集,每个样本数据都不同,并且与原数据集大小一样;
[0012] 2)根据样本数据中属性的个数M确定每个节点随机选择的属性个数m,其中m<
[0013] 3)递归进行节点的建立,生成判定树;K个判定树的生成是并行产生的,一个Map生成一个判定树,这个过程由第二个MapReduce过程完成;
[0014] 所述形成判定树集合包括把每个判定树分类器组合起来,每个判定树产生一个结果,如果判定树集合用来分类其最终结果为投票选取,当它用来回归预测时,K个树给出K个值,最终值为各树的平均值,此过程由第三个MapReduce完成。
[0015] 优选地,在所述HBase系统的部署架构中,将调度中心作为整个分布式实时数据库的管理者,存储元数据信息,包括各节点分工、节点状态、数据分区方式、数据块位置、任务调度、安全管理的关键信息;所述调度中心相互间通过同步机制保持元数据的一致性,数据分析计算层逻辑上是对等的,部署相同进程完成同样的逻辑运算,数据分析计算层采用基于事务的冗余备份机制,电网用户数据管理系统采用HDFS作为底层存储的分布式文件系统,构建面向电网海量数据的时序控制组件来存储电网业务中的时序数据,由时序控制组件来构建时序数据模块,按照特有模块统一接收存储采集的时序数据,并对外提供统一的查询接口
[0016] 在存储方式上,采用键-值的形式来存储数据,即面向列进行存 储,以列族为基本的存储和权限控制单元,对于为空的列,在实际存储中不占用实际空间,使用稀疏表的设计方式,在数据架构部署上放弃了传统的C/S多客户端、单服务器的模式;采用分布式的多服务器的集群模式,所有数据根据复制因子分散存储于集群中的多台计算机上;时序控制组件底层依赖于列存储数据库,在具体处理时序数据时抽象为对HBase数据库的读、写、增加、删除、修改的基本操作,软件最上层为时序控制组件的客户端及第三方应用客户端,所有客户端通过Java的API进行具体操作,所有API通过类型解析模块解析分解为一个数据库操作或多个数据库操作的序列集合,这些数据库操作集合通过控制组件内部的RPC调用,最后统一使用异步的HBase操作API完成数据操作。
[0017] 本发明相比现有技术,具有以下优点:
[0018] 本发明提出了一种电网海量数据管理方法,将电网用户各系统的数据进行融合和集成,并将传统数据计算方法迁移到分布式平台中,满足海量数据的运算要求。

具体实施方式

[0019] 下文是对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0020] 本发明的一方面提供了一种电网用户海量数据处理方法。利用Hadoop集群构建海量数据的基础管理系统,将各电网子系统采集到的数据整合成海量数据存储,并利用并行计算框架对电网用户的海量数据进行快速挖掘分析。以电力负载预测应用为例,将传统的负载预测迁移到分布式计算平台,利用基于判定树的负载预测算法实现并行负载预测。本发明结合电网用户海量数据分析的实际需要,构建以分析计算为主的电网用户数据管理系统,其基本架构分为应用层、数据分析计算层、数据管理层。
[0021] 该框架利用Hadoop构建电网用户数据管理系统,在平台上采用HDFS、HBase建立海量数据存储系统,在平台上构建MapReduce并行计算框架和Storm内存并行计算框架作为海量数据计算分析系统,对电网用户的海量数据进行分析。
[0022] 其中,数据管理层是对数据进行采集和集成。数据采集包括从智能电表、数据采集监控系统和各种传感器中采集的数据,这些数据不仅包括电网内部的数据,还包括大量相关的数据,这些数据由不同厂商的设备产生,模态千差万别,各单位数据口径不一,形成了海量数据流,加工整合困难。这些数据的集成是指对传统系统的产生的数据迁移至集群服务器,进行高效的管理。
[0023] 平台针对数据集成这一难点采用数据转移工具对数据进行抽取整合工作,将各个独立的系统产生的数据及历史数据利用数据转移工具抽取整合到HBase中。使用java持久化工具对列存储数据库进行操作,将基于分布式计算的应用产生的在线数据写入到HBase中。
[0024] 数据分析计算层用于海量数据的存储和计算分析功能。分布式计算层利用Hadoop构建而成,海量数据存储在分布式文件系统HDFS中,利用HBase对数据进行管理。
[0025] 该平台利用HBase存储电力负载数据和相关数据,HBase数据库是列为存储单元的,方便对整列数据进行查询,而随后使用的预测算法在学习过程中需要多次对整列数据进行读取计算,对数据的操作需求符合HBase数据存储的特点。
[0026] 利用并行计算模块MapReduce对海量数据进行并行批量计算分析,而对数据密集型的迭代计算采用基于内存的并行计算模块Storm。Storm提供了一种内存并行计算框架,框架将业务所需数据读入内存,所需数据时直接从内存中查询,这样比基于磁盘的MapReduce访问数据的速度快,减少了业务的运行时间,也减少了IO操作。
[0027] 负载预测是电网规划中的关键环节,是变电站、网架规划重要计算依据,高精度的短期负载预测能够有效降低发电成本,有关键作用。本发明使用一种改进的集成学习方法,以判定树为基本学习单元,包含多个随机子空间方法训练得到的判定树,输入待分类的样本,由各个判定树产生各分类结果,最终的分类结果由各个判定树的结果进行投票决定。可以克服判定树的一些不足,而且具有良好的可扩展性和并行性,能够有效解决海量数据的快速处理问题,针对海量数据环境下的电力负载预测有较好的应用前景。
[0028] 整个负载预测过程利用3个MapReduce业务类执行算法的训练过程,每一个MapReduce的输出作为其后一个的输入。训练结束后 得到的决策模块保存在Hadoop的分布式集群中,其分为三部分:生成数据字典;生成判定树;形成判定树集合。生成数据字典就是对进行训练的样本数据进行描述,产生一个文件来描述样本中条件属性和决策属性,记录条件属性值的类型和决策属性的位置,以及要创建的模块是进行分类还是回归运算。这个过程由第一个MapReduce完成,每个Map过程读取实验数据的一部分,记录数据的属性类型和负载值或者类型标识。产生的描述文件以键/值的形式存储在Hadoop的文件系统HDFS中,以备随后的MapReduce使用。
[0029] 生成判定树过程为整个并行算法的核心,其并行过程其中在以下几方面:1)对原数据集进行随机有放回的抽取K个与原样本数据集大小一样的样本数据TS1,2,…,k。因为是有放回的抽取,所以可以并行对原数据集进行抽取,而不会对TS产生影响。一个TS对应一个判定树的训练集,每个TS都不同,并且与原数据集大小一样,这样既保证了各个判定树的不同,又不会失去原数据集的知识规模。
[0030] 2)根据样本数据中属性的个数M确定每个节点随机选择的属性个数m(m<
[0031] 3)递归的进行节点的建立,生成判定树。K个判定树的生成是并行产生的,一个Map生成一个判定树,实现了算法的并行。这个过程由第二个MapReduce过程完成。此MapReduce只有Map过程没有Reduce过程。
[0032] 形成判定树集合也就是把每个判定树分类器组合起来。每个判定树都会产生一个结果,如果判定树集合用来分类其最终结果为投票选取,当它用来回归预测时,K个树会给出K个值,最终值为各树的平均值。此过程由第三个MapReduce完成。
[0033] 整个模块是建立在Hadoop的分布式集群上,对海量数据进行分布式存储,利用MapReduce将算法并行,使算样本总集S法能够依托Hadoop集群的存储能力和计算能力对数据的挖掘和计算预测,整个过程都是并行执行的,能够有效提高预测的精度和改善负载预测系统处理海量数据的能力。
[0034] 在上述HBase系统的部署架构中,将调度中心作为整个分布式实时数据库的管理者,存储元数据信息,包括各节点分工、节点状态、数据分区方式、数据块位置、任务调度、安全管理等关键信息。调度中心一般部署2台(也可由多台组成),相互间通过同步机制保持元数据的一致性,从而消除了调度中心单点故障造成系统整体功能丧失的风险,同时也为并发请求负载均衡的实现奠定了基础。数据分析计算层用于海量数据的分片存储,同时完成各类计算过程,数据分析计算层的数量仅受限于以太网带宽、机房物理条件等硬性条件。各数据分析计算层逻辑上是对等的,部署相同进程完成同样的逻辑运算,根据调度中心对数据的分区原则,只存储属于相应分区的数据,从而达到分布式存储的目的。考虑到分布式体系架构下节点失效和故障会经常发生,数据分析计算层之间采用基于事务的冗余备份机制,将同一个事务操作同步到另一台或几台数据分析计算层上(取决于可定制的复 制因子),在实现数据高可靠性的同时,为数据访问的负载均衡奠定了基础。
[0035] 电网用户数据管理系统采用HDFS作为底层存储的分布式文件系统,在此基础之上构建面向电网海量数据的时序控制组件来存储电网业务中的时序数据。由时序控制组件来构建时序数据模块,按照特有模块统一接收存储采集的时序数据,并对外提供统一的查询接口。
[0036] 在具体存储方式上,区别于传统关系数据库的行列式的表结构,采用键-值的形式来存储数据,即面向列进行存储,以列族为基本的存储和权限控制单元。对于为空的列,在实际存储中不占用实际空间,使用稀疏表的设计方式。通过这种方式,解决了不同采样周期造成的空间浪费问题。同时在数据架构部署上放弃了传统的C/S多客户端、单服务器的模式。采用分布式的多服务器的集群模式,所有数据根据复制因子分散存储于集群中的多台计算机上来增强数据的存储安全性,提高数据的查询效率。
[0037] 时序控制组件底层依赖于列存储数据库。在具体处理时序数据时,可以抽象为对HBase数据库的读、写、增加、删除、修改等基本操作。软件最上层为时序控制组件的客户端及第三方应用客户端。所有客户端通过Java的API进行具体操作。所有API通过类型解析模块可以解析分解为一个数据库操作或多个数据库操作的序列集合。这些数据库操作集合通过控制组件内部的RPC调用,最后统一使用异步的HBase操作API完成数据操作。
[0038] 时序数据记录由测量对象、时间戳、测量值、标签4个字段构成。 其中,标签由一个或多个键/值对构成,用来进一步描述测量对象信息,测量对象和标签组合为测量项。标签的设计使用户很容易查询到其关心的测量项的值。控制组件使用存储层来存储数据,而存储层是一个键/值结构的分布式文件存储系统。高效地在分布式的存储层中存储时序数据,并用最少的内存/磁盘空间来存储动辄上百亿的数据点,是优秀的存储结构设计时必须解决的关键问题。为此,分布式实时数据库管理层依赖的列式数据库HBase表的设计需遵守以下原则:对于采用固定长度的时序控制组件的主键,应包含尽可能多的检索信息;存储的数据一般包含大量的测量对象和标签,而这些字段是变长的,因此,设置一个ID表存储这些信息,作为全局唯一的编号,并把编号与时间戳合并作为主键;每行应存储尽可能多的信息。例如,把某个时间段分散采集的数据合并在一起,按照一个行来提交数据。该方案可以减少整个表行主键的个数,从而提高行检索的速度。按照时间的延展来存储数据,采用无状态的存储方案,从而提供系统的容错能力。
[0039] 对于每个测量对象、标签的键和值均采用散列映射的方法进行编号,同时为了提高数据查询的效率,将上述映射信息在ID表中存入2份,一份为测量对象、标签键和值到其散列编号的映射,另一份为散列编号到测量对象、标签键和值的映射。上述散列编号均采用3个字节的固定长度。测量对象的时序数据存储在另一张表中,该表的行键采用测量对象ID+基准时间+标签键的ID+标签值的ID,其中基准时间字段为某一待存储时序数据记录所对应的系统开发与应用整点 时间,除基准时间为4个字节外,其他字段均为3个字节。1小时内的时序数据存储在表中的一行,某一记录存储在由行和其相对于基准时间的偏移量Δt所对应的列下,其中Δt=记录的时间戳–基准时间。当某一行记录存满时,开启下一行继续存储。
[0040] 显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。
[0041] 应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈