电网数据处理方法及装置专利检索-数据挖掘挖矿资料储存系统专利检索查询-专利查询网

电网 数据处理方法及装置

阅读：1015发布：2020-07-21

专利汇可以提供电网数据处理方法及装置专利检索，专利查询，专利分析的服务。并且本发明公开了一种电网数据处理方法及装置。其中，该方法包括：采集电网业务系统中的电网业务数据，其中，电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据；对电网业务数据进行预处理，得到预处理数据；根据预处理数据的类型，对预处理数据以不同的存储方式进行存储；对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数。本发明解决了现有技术仅对用电采集数据进行采集，导致的无法与其他子业务系统中的数据进行关联从而无法对电网运行情况进行分析的问题。，下面是电网数据处理方法及装置专利的具体信息内容。

权利要求

1.一种电网数据处理方法，其特征在于，包括：
采集电网业务系统中的电网业务数据，其中，所述电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据；
对所述电网业务数据进行预处理，得到预处理数据；
根据所述预处理数据的类型，对所述预处理数据以不同的存储方式进行存储；
对所述预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数；
其中，所述预处理方式至少包括：空值处理、数据正确性验证、字段完整性处理和规范化数据格式，
其中，所述空值处理用于对所述电网业务数据中的空值进行捕获，并且加载或者替换为其他含义数据；
所述数据正确性验证用于验证所述电网业务数据的数据正确性；
所述字段完整性处理用于查询与丢失数据字段相关的字段信息，并以所述相关的字段信息为依据，计算得出所述丢失数据字段内容，保证字段完整性；
所述规范化数据格式至少用于对从各个电网业务数据中采集到的时间、数值、字符数据进行转换，分别转换为统一的数据格式；
所述存储方式至少包括：关系型数据库、分布式文件系统，根据所述预处理数据的类型，对所述预处理数据以不同的存储方式进行存储的步骤包括：
将所述电网业务数据中的所述用电信息数据、所述电网网架数据、系统运维数据存储于所述关系型数据库中；
将所述电网业务数据中的所述电网运行数据存储于所述分布式文件系统中；
对所述预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数的步骤包括：
读取所述每个台区的所述电网运行数据；
确定所述台区出现重载的时间和次数；
根据所述台区的时间和次数，对所述预处理数据进行数据挖掘分析，其中，所述数据挖掘分析中至少包括：聚类分析和关联分析；
根据所对所述预处理数据的分析结果，得到所述台区的负载参数；
根据所述台区的负载参数，确定台区重载类型。
2.根据权利要求1中所述的方法，其特征在于，在对所述预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数之后，所述方法还包括：
根据所述台区的负载参数，划分所述台区的负载级别；
根据所述负载级别，对所述台区进行可视化展现。
3.根据权利要求2所述的方法，其特征在于，所述根据所述负载级别，对所述台区进行可视化展现的步骤包括：
读取所述台区的负载级别和预先设置的与所述台区负载级别对应的展示颜色；
获取所述台区的电网网架数据，其中，所述电网网架数据至少包括：台区坐标信息、台区覆盖面积信息；
根据所述台区的负载级别和与所述负载级别对应的所述展示颜色，确定与所述台区的负载级别对应的展示颜色；
根据所述台区的电网网架数据和所述台区的负载级别对应的展示颜色，在地图上进行展示。
4.一种电网数据处理装置，其特征在于，包括：
采集模块，用于采集电网业务系统中的电网业务数据，其中，所述电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据；
第一处理模块，用于对所述电网业务数据进行预处理，得到预处理数据；
存储模块，用于根据所述预处理数据的类型，对所述预处理数据以不同的存储方式进行存储；
分析模块，用于对所述预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数；
其中，所述存储方式至少包括：关系型数据库、分布式文件系统，所述存储模块包括：
第一子存储模块，用于将所述电网业务数据中的所述用电信息数据、所述电网网架数据、系统运维数据存储于所述关系型数据库中；
第二子存储模块，用于将所述电网业务数据中的所述电网运行数据存储于所述分布式文件系统中；
所述分析模块包括：
第一子读取模块，用于读取所述每个台区的所述电网运行数据；
第一子确定模块，用于确定所述台区出现重载的时间和次数；
子分析模块，用于根据所述台区的时间和次数，对所述预处理数据进行数据挖掘分析，其中，所述数据挖掘分析中至少包括：聚类分析和关联分析；
子处理模块，用于根据所对所述预处理数据的分析结果，得到所述台区的负载参数；
第二子确定模块，用于根据所述台区的负载参数，确定台区重载类型。
5.根据权利要求4中所述的装置，其特征在于，所述装置还包括：
第二处理模块，用于根据所述台区的负载参数，划分所述台区的负载级别；
展示模块，用于根据所述负载级别，对所述台区进行可视化展现。
6.根据权利要求5所述的装置，其特征在于，所述展示模块包括：
第二子读取模块，用于读取所述台区的负载级别和预先设置的与所述台区负载级别对应的展示颜色；
子获取模块，用于获取所述台区的电网网架数据，其中，所述电网网架数据至少包括：
台区坐标信息、台区覆盖面积信息；
第三子确定模块，用于根据所述台区的负载级别和与所述负载级别对应的所述展示颜色，确定与所述台区的负载级别对应的展示颜色；
子展示模块，用于根据所述台区的电网网架数据和所述台区的负载级别对应的展示颜色，在地图上进行展示。

说明书全文

电网 数据处理方法及装置

技术领域

[0001] 本发明涉及智能电网领域，具体而言，涉及一种电网数据处理方法及装置。

背景技术

[0002] 随着国家电网公司智能电网建设进程不断推进，用电信息采集系统的快速发展，采集数据爆炸的式增长，积累了海量的数据。

[0003] 目前只有用电采集系统实现了用电采集数据的应用，没有实现对其他子业务系统中的电网业务数据的应用。在业务方面，用电采集系统对采集数据的应用重点集中在电量数据的使用上，对电流、电压数据只提供了简单的数据查询功能。

[0004] 在技术上，基于用电采集数据规模大，处理时效性要求高，数据价值的挖掘等要求，用电采集系统使用的传统的Oracle数据库已经不能满足需要，在海量的采集数据面前，oracle效率低。并且，在现有的功能中，只提供对数据的简单查询功能，对采集到的数据没有进行进一步的分析和运算，没有体现出采集数据的价值。更没有与电网地理信息系统(GIS系统)、生产管理等数据进行有效的关联，无法为运维检修工作提供支持。

[0005] 因此，数据处理的性能提升、数据价值的挖掘、将数据转变为资产等工作亟待开展。

[0006] 针对现有技术中仅对用电采集数据进行采集，导致的无法与其他子业务系统中的数据进行关联从而无法对电网运行情况进行分析的问题，目前尚未提出有效的解决方案。

发明内容

[0007] 本发明的主要目的在于提供一种电网数据处理的方法及装置，以解决现有技术中仅对用电采集数据进行采集，导致的无法与其他子业务系统中的数据进行关联从而无法对电网运行情况进行分析的问题。

[0008] 为了实现上述目的，根据本发明实施例的一个方面，提供了一种电网数据处理方法。该方法包括：采集电网业务系统中的电网业务数据，其中，电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据；对电网业务数据进行预处理，得到预处理数据；根据预处理数据的类型，对预处理数据以不同的存储方式进行存储；对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数。

[0009] 为了实现上述目的，根据本发明实施例的另一方面，提供了一种电网数据处理装置，该装置包括采集模块，用于采集电网业务系统中的电网业务数据，其中，电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据；第一处理模块，用于对电网业务数据进行预处理，得到预处理数据；存储模块，用于根据预处理数据的类型，对预处理数据以不同的存储方式进行存储；分析模块，用于对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数。

[0010] 根据发明实施例，通过采集电网业务系统中的电网业务数据，其中，电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据；对电网业务数据进行预处理，得到预处理数据；根据预处理数据的类型，对预处理数据以不同的存储方式进行存储；对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数，解决了现有技术仅对用电采集数据进行采集，导致的无法与其他子业务系统中的数据进行关联从而无法对电网运行情况进行分析的问题。实现了依据用电采集数据与其他子业务数据对电网运行情况进行分析的效果。附图说明

[0011] 构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

[0012] 图1是根据本发明实施例一的电网数据处理方法的流程图；

[0013] 图2是根据本发明实施例的配电网状态监测与分析系统架构图；

[0014] 图3是根据本发明实施例的预处理过程的流程图；

[0015] 图4是根据本发明实施例一的优选的电网数据处理方法的流程图；

[0016] 图5是根据本发明实施例二的电网数据处理装置的结构示意图；以及[0017] 图6是根据本发明实施例二的优选的电网数据处理系统的结构示意图。

具体实施方式

[0018] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

[0019] 为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

[0020] 需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

[0021] 实施例1

[0022] 本发明实施例提供了电网数据处理方法。

[0023] 图1是根据本发明实施例的电网数据处理方法的流程图。如图1所示，该方法包括步骤如下：

[0024] 步骤S11，采集电网业务系统中的电网业务数据，其中，电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据。

[0025] 具体的，通过上述步骤S11，对电网业务系统中的电网业务数据进行采集，这些电网业务数据包括很多类型的数据，并且，这些数据需要从不同子业务系统中进行采集。

[0026] 步骤S13，对电网业务数据进行预处理，得到预处理数据。

[0027] 具体的，因为电网业务数据从各个子业务系统中采集而来，各个子系统的数据类型不同，并且有重叠的数据内容。通过上述步骤S13对电网数据进行预处理，生成相同数据类型，去重之后的数据。

[0028] 步骤S15，根据预处理数据的类型，对预处理数据以不同的存储方式进行存储。

[0029] 具体的，上述步骤S15，根据预处理数据来源或者数据内容，选择不同的存储方式对预处理数据进行存储，以供数据挖掘时进行调用。

[0030] 步骤S17，对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数。

[0031] 具体的，通过上述步骤S17，读取存储以不同存储方式的预处理数据，寻找经过预处理之后的电网业务数据中的数据规律，并对这些有规律的数据进行展示，其中，包括找出与每个台区对应的全年各个时间的台区负载参数。

[0032] 具体的，上述步骤S11至步骤S17，通过对不同子业务系统中的数据进行采集，将采集到的电网业务数据进行预处理，并根据数据来源或数据内容以不同的方式进行储存。最后通过对以不同方式存储的预处理数据进行数据挖掘，得到电网数据间的规律。

[0033] 图2是配电网状态监测与分析系统架构图，在实际应用当中，如图2所示，系统从逻辑上分为数据源层、数据预处理层、数据存储与计算层、数据分析挖掘层以及业务应用层。数据资源层融合了与配电网状态相关的用电信息采集数据、电网网架数据、电网运行数据等。数据存储计算层构建于数据资源层基础之上，针对本项目数据量大、数据维度多的特点选用分布式文件系统框架(Hadoop)作为基础，与本业务相关的数据通过一系列预处理后存储到分布式文件系统(HDFS)上，并使用大规模数据计算模型(MapReduce)提供分布式计算功能。数据计算层构建于数据存储层之上的是一系列针对海量数据的分布式计算框架，例如：分析组件(Mahout)、数据仓库工具(Hive)等。数据预处理层在数据资源层与数据存储计算层之间，主要负责在数据资源层中的数据在导入数据存储层之前对数据进行必要的清洗工作。数据分析与挖掘构建于数据存储与计算之上，提供对本项目相关业务数据的深层次分析与挖掘。数据应用层基于数据管理与数据分析挖掘功能，提供诸如台区基本情况分析、台区特性分析及预测、配电网特性分析等服务。

[0034] 综上可知，本发明解决了现有技术中仅对用电采集数据进行采集，导致的无法与其他子业务系统中的数据进行关联从而无法对电网运行情况进行分析的问题，实现了依据用电采集数据与其他子业务系统的数据对电网运行情况进行分析的效果。

[0035] 优选的，本申请上述实施例中，步骤S13对电网业务数据进行预处理，得到预处理数据中的预处理方式至少包括：空值处理、数据正确性验证、字段完整性处理和规范化数据格式。其中，空值处理用于对电网业务数据中的空值进行捕获，并且加载或者替换为其他含义数据；数据正确性验证用于验证电网业务数据的数据正确性；字段完整性处理用于查询与丢失数据字段相关的字段信息，并以相关的字段信息为依据，计算得出丢失数据字段内容，保证字段完整性；规范化数据格式至少用于对从各个电网业务数据中采集到的时间、数值、字符等数据进行转换，分别转换为统一的数据格式。

[0036] 具体的，通过控制处理，数据正确性验证、字段完整性和规范化数据格式的方法，对采集到的电网业务数据进行处理，分别达到去除电网业务数据中数据异常的数据，统一数据格式的目的。

[0037] 在实际应用当中，可以通过台区的电网网架数据，对从各个子业务系统中采集到的电网业务数据进行比对分析，将数值为空的、数据差异较大和重复的数据进行筛选、合并，得到完整、唯一的数据。

[0038] 因为，各个子业务系统在开发时，并没有考虑到数据合并的问题，所以采用的数据库类型、数据表结构以及数据类型都没有统一规划。所以，在预处理过程中，需要对各个子业务系统中的电网业务数据的数据类型进行转换，转换为统一的数据类型。

[0039] 图3是预处理过程的流程图，电网业务数据的主要来源为：用电信息采集系统、电网网架系统、电网运行系统。上述电网业务数据多以关系型数据表的形式存储在各自的关系型数据库中，通过数据仓库技术(ETL)从各个子业务系统中抽取电网业务数据，并对电网业务数据进行预处理，预存储到关系型数据库中；而后，通过数据相转移工具Sqoop从关系型数据库中抽取数据，存储到分布式文件系统HDFS中。

[0040] 通过数据的抽取与预处理、数据的存储与计算、数据的分析与挖掘以及数据的可视化展现，实现对数据量庞大、数据维度众多数据进行预处理的过程。

[0041] 优选的，本申请上述实施例中，在存储方式至少包括：关系型数据库、分布式文件系统时，步骤S15根据预处理数据的类型，对预处理数据以不同的存储方式进行存储的方法包括：

[0042] 步骤S151，将电网业务数据中的用电信息数据、电网网架数据、系统运维数据存储于关系型数据库中。

[0043] 步骤S153，将电网业务数据中的电网运行数据存储于分布式文件系统中。

[0044] 具体的，通过上述步骤S151和步骤S153，将电网业务数据根据数据内容、数据量大小，将电信息数据、电网网架数据、系统运维数据存储于关系型数据库中，将电网运行数据存储于分布式文件系统当中。因为电网运行数据记录的是对各个台区的用电数据，所以数据量庞大。传统关系型数据库处理如此庞大的数据量的运行效率无法满足应用的需求，所以将电网运行数据存储于分布式文件系统当中，加快调用速度，提高处理效率。

[0045] 在实际应用当中，本项目的数据存储主要分为两大部分：传统的关系型数据库与运用分布式文件系统框架(Hadoop)的分布式文件系统(HDFS)。传统数据库主要存储系统运维数据、数据分析挖掘的结果数据以及相关方案与治理措施；而分布式文件系统(HDFS)主要存储海量用电数据及用户报修数据。

[0046] 对海量的用电数据的计算与分析主要依托于分析组件(Mahout)来完成。

[0047] 海量数据经分布式计算框架(Hadoop)计算后，得出结果，并将结果直接写入关系型数据库以供业务调用分析。

[0048] 优选的，本申请上述实施例中，在上述步骤S17对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数中，步骤包括：

[0049] 步骤S171，读取每个台区的电网运行数据。

[0050] 步骤S173，确定台区出现重载的时间和次数。

[0051] 步骤S175，根据台区的时间和次数，对预处理数据进行数据挖掘分析，其中，数据挖掘分析中至少包括：聚类分析和关联分析。

[0052] 步骤S177，根据所对预处理数据的分析结果，得到台区的负载参数。

[0053] 步骤S179，根据台区的负载参数，确定台区重载类型。

[0054] 具体的，通过上述步骤S171和步骤S179，读取每个台区的电网运行数据，对电网运行数据和已经经过预处理的电网业务数据进行聚类分析和关联分析，找出电网业务数据和电网运行数据之间的关系，通过关系确定台区的负载参数。进而，可以得到与每个台区对应的台区重载类型。

[0055] 在实际应用当中，根据台区的重载情况出现的时间与频率等特性对重载情况通过分析组件(Mahout)中的聚类算法(K-means)进行聚类分析。最终将台区分组为长期性重载、季节性重载以及短期性重载三类。

[0056] 优选的，如图4所示，本申请上述实施例中，在步骤步17对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数之后，方法还包括：

[0057] 步骤S18，根据台区的负载参数，划分台区的负载级别。

[0058] 步骤S19，根据负载级别，对台区进行可视化展现。

[0059] 具体的，通过步骤S18和步骤S19，对数据挖掘得到的台区负载参数进行再处理，根据台区的负载参数对台区划分负载级别。系统可以根据所划分的负载级别，对台区进行可视化展示。

[0060] 在实际应用当中，可以结合地理信息系统(GIS系统)、图形、传统表格等丰富的展示形式，通过PC、大屏等载体对重载基本情况、特性分析结果、预测多方面进行直观的、友好的展示。

[0061] 优选的，本申请上述实施例中，在上述步骤S19根据负载级别，对台区进行可视化展现中，步骤包括：

[0062] S191，读取台区的负载级别和预先设置的与台区负载级别对应的展示颜色。

[0063] S193，获取台区的电网网架数据，其中，电网网架数据至少包括：台区坐标信息、台区覆盖面积信息。

[0064] S195，根据台区的负载级别和与负载级别对应的展示颜色，确定与台区的负载级别对应的展示颜色。

[0065] S197，根据台区的电网网架数据和台区的负载级别对应的展示颜色，在地图上进行展示。

[0066] 具体的，通过步骤S191至步骤S197，将台区按照负载级别以颜色进行区分，并读取各个台区所在的坐标信息和台区覆盖面积额，从而确定各个台区在地理信息系统(GIS系统)中所处的位置和覆盖面积。根据读取到的台区坐标、台区覆盖面积和与台区负载级别对应的展示颜色，在地理信息系统中进行展示。

[0067] 在实际应用当中，可视化展示的方式有很多种，例如：

[0068] (1)使用色斑图展示台区负载率分布：

[0069] 将台区按照负载率正常、重载、过载进行划，使用色斑图技术展示台区负载率的分布情况，直观、友好的展示。其中，在使用方面负载率分布图还提供了很多种操作方式：在地理信息系统中选择显示部分台区的分布；在绘制面，对展示绘制区域里的内容进行筛选，显示满足条件的台区。

[0070] (2)台区负载率分布图和温度分布图对比展示：

[0071] 温度的变化可能会引起台区负载率的变化，台区负载率分布图和温度分布图对比播放，直观的展示温度变化与负载率变化之间的关系。

[0072] (3)台区时段特性展示：

[0073] 展示通过大数据平台数据挖掘算法分析出台区时段特性，对长期重载台区，全年的负载率分布以散点图展示。

[0074] 基于大数据的台区监控与分析利用分布式文件系统框架(Hadoop)，对采集数据进行深入的数据挖掘。数据量越大，越能体现出本发明方法的优势，比传统基于关系型数据库计算，速度快，处理数量大。

[0075] 本发明通过多种可视化技术的应用，展示方式优越，能够直观的、多维度的对电网运行情况表现。

[0076] 实施例2

[0077] 本发明实施例还提供了一种电网数据处理装置，如图5所示，该装置可以包括：采集模块20、第一处理模块22、存储模块24和分析模块26。

[0078] 其中，采集模块20，用于采集电网业务系统中的电网业务数据，其中，电网业务数据至少包括：用电信息数据、电网网架数据、系统运维数据和电网运行数据。

[0079] 具体的，通过上述采集模块20，对电网业务系统中的电网业务数据进行采集，这些电网业务数据包括很多类型的数据，并且，这些数据需要从不同子业务系统中进行采集。

[0080] 第一处理模块22，用于对电网业务数据进行预处理，得到预处理数据。

[0081] 具体的，因为电网业务数据从各个子业务系统中采集而来，各个子系统的数据类型不同，并且有重叠的数据内容。通过上述第一处理模块22，对电网数据进行预处理，生成相同数据类型，去重之后的数据。

[0082] 存储模块24，用于根据预处理数据的类型，对预处理数据以不同的存储方式进行存储。

[0083] 具体的，上述存储模块24，根据预处理数据来源或者数据内容，选择不同的存储方式对预处理数据进行存储，以供数据挖掘时进行调用。

[0084] 分析模块26，用于对预处理数据进行数据挖掘分析，得到与每个台区对应的全年各个时间段的台区负载参数。

[0085] 具体的，通过上述分析模块26，读取存储以不同存储方式的预处理数据，寻找经过预处理之后的电网业务数据中的数据规律，并对这些有规律的数据进行展示，其中，包括找出与每个台区对应的全年各个时间的台区负载参数。

[0086] 具体的，上述采集模块20、第一处理模块22、存储模块24和分析模块26，通过对不同子业务系统中的数据进行采集，将采集到的电网业务数据进行预处理，并根据数据来源或数据内容以不同的方式进行储存。最后通过对以不同方式存储的预处理数据进行数据挖掘，得到电网数据间的规律。

[0087] 图2是配电网状态监测与分析系统架构图，在实际应用当中，如图2所示，系统从逻辑上分为数据源层、数据预处理层、数据存储与计算层、数据分析挖掘层以及业务应用层。数据资源层融合了与配电网状态相关的用电信息采集数据、电网网架数据、电网运行数据等。数据存储计算层构建于数据资源层基础之上，针对本项目数据量大、数据维度多的特点选用分布式文件系统框架(Hadoop)作为基础，与本业务相关的数据通过一系列预处理后存储到分布式文件系统(HDFS)上，并使用大规模数据计算模型(MapReduce)提供分布式计算功能。数据计算层构建于数据存储层之上的是一系列针对海量数据的分布式计算框架，例如：分析组件(Mahout)、数据仓库工具(Hive)等。数据预处理层在数据资源层与数据存储计算层之间，主要负责在数据资源层中的数据在导入数据存储层之前对数据进行必要的清洗工作。数据分析与挖掘构建于数据存储与计算之上，提供对本项目相关业务数据的深层次分析与挖掘。数据应用层基于数据管理与数据分析挖掘功能，提供诸如台区基本情况分析、台区特性分析及预测、配电网特性分析等服务。

[0088] 综上可知，本发明解决了现有技术中仅对用电采集数据进行采集，导致的无法与其他子业务系统中的数据进行关联从而无法对电网运行情况进行分析的问题，实现了依据用电采集数据与其他子业务系统的数据对电网运行情况进行分析的效果。

[0089] 进一步的，第一处理模块22对电网业务数据进行预处理，得到预处理数据中的预处理方式至少包括：空值处理、数据正确性验证、字段完整性处理和规范化数据格式。其中，空值处理用于对电网业务数据中的空值进行捕获，并且加载或者替换为其他含义数据；数据正确性验证用于验证电网业务数据的数据正确性；字段完整性处理用于查询与丢失数据字段相关的字段信息，并以相关的字段信息为依据，计算得出丢失数据字段内容，保证字段完整性；规范化数据格式至少用于对从各个电网业务数据中采集到的时间、数值、字符等数据进行转换，分别转换为统一的数据格式。

[0090] 具体的，通过控制处理，数据正确性验证、字段完整性和规范化数据格式的方法，对采集到的电网业务数据进行处理，分别达到去除电网业务数据中数据异常的数据，统一数据格式的目的。

[0091] 在实际应用当中，可以通过台区的电网网架数据，对从各个子业务系统中采集到的电网业务数据进行比对分析，将数值为空的、数据差异较大和重复的数据进行筛选、合并，得到完整、唯一的数据。

[0092] 因为，各个子业务系统在开发时，并没有考虑到数据合并的问题，所以采用的数据库类型、数据表结构以及数据类型都没有统一规划。所以，在预处理过程中，需要对各个子业务系统中的电网业务数据的数据类型进行转换，转换为统一的数据类型。

[0093] 图3是预处理过程的流程图，电网业务数据的主要来源为：用电信息采集系统、电网网架系统、电网运行系统。上述电网业务数据多以关系型数据表的形式存储在各自的关系型数据库中，通过数据仓库技术(ETL)从各个子业务系统中抽取电网业务数据，并对电网业务数据进行预处理，预存储到关系型数据库中；而后，通过数据相转移工具Sqoop从关系型数据库中抽取数据，存储到分布式文件系统HDFS中。

[0094] 通过数据的抽取与预处理、数据的存储与计算、数据的分析与挖掘以及数据的可视化展现，实现对数据量庞大、数据维度众多数据进行预处理的过程。

[0095] 优选的，本申请上述实施例中，存储方式至少包括：关系型数据库、分布式文件系统，存储模块24包括：第一子存储模块和第二子存储模块。

[0096] 其中，第一子存储模块，用于将电网业务数据中的用电信息数据、电网网架数据、系统运维数据存储于关系型数据库中。

[0097] 第二子存储模块，用于将电网业务数据中的电网运行数据存储于分布式文件系统中。

[0098] 具体的，通过上述第一子存储模块和第二子存储模块，将电网业务数据根据数据内容、数据量大小，将电信息数据、电网网架数据、系统运维数据存储于关系型数据库中，将电网运行数据存储于分布式文件系统当中。因为电网运行数据记录的是对各个台区的用电数据，所以数据量庞大。传统关系型数据库处理如此庞大的数据量的运行效率无法满足应用的需求，所以将电网运行数据存储于分布式文件系统当中，加快调用速度，提高处理效率。

[0099] 在实际应用当中，本项目的数据存储主要分为两大部分：传统的关系型数据库与运用分布式文件系统框架(Hadoop)的分布式文件系统(HDFS)。传统数据库主要存储系统运维数据、数据分析挖掘的结果数据以及相关方案与治理措施；而分布式文件系统(HDFS)主要存储海量用电数据及用户报修数据。

[0100] 对海量的用电数据的计算与分析主要依托于分析组件(Mahout)来完成。

[0101] 海量数据经分布式计算框架(Hadoop)计算后，得出结果，并将结果直接写入关系型数据库以供业务调用分析。

[0102] 优选的，本申请上述实施例中，分析模块26包括：第一子读取模块、第一子确定模块、子分析模块、子处理模块和第二子确定模块。

[0103] 其中，第一子读取模块，用于读取每个台区的电网运行数据；

[0104] 第一子确定模块，用于确定台区出现重载的时间和次数；

[0105] 子分析模块，用于根据台区的时间和次数，对预处理数据进行数据挖掘分析，其中，数据挖掘分析中至少包括：聚类分析和关联分析；

[0106] 子处理模块，用于根据所对预处理数据的分析结果，得到台区的负载参数；

[0107] 第二子确定模块，用于根据台区的负载参数，确定台区重载类型。

[0108] 具体的，通过上述第一子读取模块、第一子确定模块、子分析模块、子处理模块和第二子确定模块，读取每个台区的电网运行数据，对电网运行数据和已经经过预处理的电网业务数据进行聚类分析和关联分析，找出电网业务数据和电网运行数据之间的关系，通过关系确定台区的负载参数。进而，可以得到与每个台区对应的台区重载类型。

[0109] 在实际应用当中，根据台区的重载情况出现的时间与频率等特性对重载情况通过分析组件(Mahout)中的聚类算法(K-means)进行聚类分析。最终将台区分组为长期性重载、季节性重载以及短期性重载三类。

[0110] 优选的，如图6所示，本申请上述实施例中，上述装置还包括：第二处理模块28和展示模块30。

[0111] 其中，第二处理模块28，用于根据台区的负载参数，划分台区的负载级别。

[0112] 展示模块30，用于根据负载级别，对台区进行可视化展现。

[0113] 具体的，通过上述第二处理模块28和展示模块30，对数据挖掘得到的台区负载参数进行再处理，根据台区的负载参数对台区划分负载级别。系统可以根据所划分的负载级别，对台区进行可视化展示。

[0114] 在实际应用当中，可以结合地理信息系统(GIS系统)、图形、传统表格等丰富的展示形式，通过PC、大屏等载体对重载基本情况、特性分析结果、预测多方面进行直观的、友好的展示。

[0115] 优选的，本申请上述实施例中，上述展示模块30包括：第二子读取模块、子获取模块、第三子确定模块和子展示模块。

[0116] 其中，第二子读取模块，用于读取台区的负载级别和预先设置的与台区负载级别对应的展示颜色；

[0117] 子获取模块，用于获取台区的电网网架数据，其中，电网网架数据至少包括：台区坐标信息、台区覆盖面积信息；

[0118] 第三子确定模块，用于根据台区的负载级别和与负载级别对应的展示颜色，确定与台区的负载级别对应的展示颜色；

[0119] 子展示模块，用于根据台区的电网网架数据和台区的负载级别对应的展示颜色，在地图上进行展示。

[0120] 具体的，通过第二子读取模块、子获取模块、第三子确定模块和子展示模块，将台区按照负载级别以颜色进行区分，并读取各个台区所在的坐标信息和台区覆盖面积额，从而确定各个台区在地理信息系统(GIS系统)中所处的位置和覆盖面积。根据读取到的台区坐标、台区覆盖面积和与台区负载级别对应的展示颜色，在地理信息系统中进行展示。

[0121] 在实际应用当中，可视化展示的方式有很多种，例如：

[0122] (1)使用色斑图展示台区负载率分布：

[0123] 将台区按照负载率正常、重载、过载进行划，使用色斑图技术展示台区负载率的分布情况，直观、友好的展示。其中，在使用方面负载率分布图还提供了很多种操作方式：在地理信息系统中选择显示部分台区的分布；在绘制面，对展示绘制区域里的内容进行筛选，显示满足条件的台区。

[0124] (2)台区负载率分布图和温度分布图对比展示：

[0125] 温度的变化可能会引起台区负载率的变化，台区负载率分布图和温度分布图对比播放，直观的展示温度变化与负载率变化之间的关系。

[0126] (3)台区时段特性展示：

[0127] 展示通过大数据平台数据挖掘算法分析出台区时段特性，对长期重载台区，全年的负载率分布以散点图展示。

[0128] 基于大数据的台区监控与分析利用分布式文件系统框架(Hadoop)，对采集数据进行深入的数据挖掘。数据量越大，越能体现出本发明方法的优势，比传统基于关系型数据库计算，速度快，处理数量大。

[0129] 本发明通过多种可视化技术的应用，展示方式优越，能够直观的、多维度的对电网运行情况表现。

[0130] 需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

[0131] 在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

[0132] 在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

[0133] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0134] 另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

[0135] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

[0136] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

标题	发布/更新时间	阅读量
一种移动用户位置预测方法与系统	2020-05-08	972
用于治疗的系统和方法	2020-05-08	546
一种电站设备状态智能评价和预警方法、装置及系统	2020-05-11	325
一种基于数据挖掘的结构安全评估及预报方法	2020-05-11	850
深度机器学习所生成的乳腺癌预后的概率识别模型	2020-05-08	586
一种基于自拍抖音视图补充公安侦查数据集的方法	2020-05-11	83
电网三相不平衡多维时序分析方法	2020-05-08	714
一种基于改进粒子群优化SVM的空气质量预测算法	2020-05-08	972
针对复杂环境的视觉传感水位测量系统	2020-05-12	937
一种IP应用场景的分类方法	2020-05-11	915

电网数据处理方法及装置

电网数据处理方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：