首页 / 专利库 / 有机耕作 / 可追溯性 / 一种用于电网运行设备的信息挖掘与数据质量的校验方法

一种用于电网运行设备的信息挖掘与数据质量的校验方法

阅读:1036发布:2020-06-27

专利汇可以提供一种用于电网运行设备的信息挖掘与数据质量的校验方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种用于 电网 运行设备的信息挖掘与数据 质量 的校验方法,(1)编写文学源文件;(2)执行文学源文件;(3)生成 指定 格式的报告或演示文档;(4)数据校验;(5) 可视化 校验。通过上述方式,本发明用于电网运行设备的信息挖掘与数据质量的校验方法通过采用文学化编程、 机器学习 技术、 数据可视化 ,提高分析效率、节约人 力 成本、保证分析校验报告的客观性和 可追溯性 、便于可重复研究、提高异常数据的检验效率、分析方式直观易懂,在用于电网运行设备的信息挖掘与数据质量的校验方法的普及上有着广泛的市场前景。,下面是一种用于电网运行设备的信息挖掘与数据质量的校验方法专利的具体信息内容。

1.一种用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,包括以下步骤:
(1)编写文学源文件:
所述文学源文件包括rnw格式和Rmd格式,所述文学源文件均包括文档模板和程序;
(2)执行文学源文件:
运行工具执行文学源文件自动完成内置的程序,执行数据读取、预处理以及数据分析步骤,并把来自所述文档模板的报告文字和格式描述通过所述程序返回的计算结果转换为一种标记语言,同时把程序生成的可视化图表保存为指定格式的图片文件;
(3)生成指定格式的报告或演示文档:
运行相应的标记语言转换工具,自动插入图片并生成指定格式的报告或演示文档;
(4)数据校验:
采用机器学习模型进行电网设备数据质量校验,所述机器学习模型包括局部回归模型和局部异常因子模型,
所述局部回归模型采用等范围估计模型来预测设备的合理参数范围,再和实际数据进行对比,
所述局部异常因子模型采用等离群指数模型,计算每个数据样本的“离群指数”,离群指数越高的样本有数据质量问题的可能性越大;
(5)可视化校验:
采用数据可视化方法进行电网设备数据质量校验。
2.根据权利要求1所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(1)中的所述rnw格式的文学源文件采用Sweave和pdfLaTeX转换工具自动生成分析报告,其中,Sweave:是R语言的一个扩展包。
3.根据权利要求1所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(1)中的所述Rmd格式的文学源文件采用knitr和Pandoc转换工具自动生成分析报告,其中,knitr:一种动态自动化报告的R语言扩展包。
4.根据权利要求1所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(1)中的所述文档模板包括文档格式和叙述性文字,所述叙述性文字的段落内部包括所述程序生成的数字和文本,以便于根据数据自动生成含有统计结果的文字段落,所述文档模板还包括为程序运行结果预留单独的段落,用于插入程序生成的表格和图表。
5.根据权利要求1所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(1)中的所述程序包括自动化数据的导入程序、清理程序、转换程序和分析程序,结合行业知识经验的设备数据质量校验方法,在分析过程中融入以往经验的数据检验规则,所述程序还调用机器学习及可视化扩展包来进行高级分析,所述文学源文件中的程序输出包括数字、文本、表格和图表。
6.根据权利要求1所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(2)中的所述标记语言为LaTeX或者Markdown。
7.根据权利要求6所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(3)中对于LaTeX格式的标记语言,调用pdfLaTeX转换工具,生成pdf格式文件。
8.根据权利要求6所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(3)中对于Markdown格式的标记语言,调用Pandoc转换工具,生成多种文件格式的报告,包括与Word通用的docx文件、pdf文件以及适用于浏览器的html文件。
9.根据权利要求1所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(2)与步骤(3)采用逐一处理方式或者分批处理方式。
10.根据权利要求1所述的用于电网运行设备的信息挖掘与数据质量的校验方法,其特征在于,步骤(5)中的所述数据可视化方法包括平行坐标系法。

说明书全文

一种用于电网运行设备的信息挖掘与数据质量的校验方法

技术领域

[0001] 本发明涉及电网设备的信息管理领域,特别是涉及一种用于电网运行设备的信息挖掘与数据质量的校验方法。

背景技术

[0002] 电网的生产管理,设备资产、运行及检修等相关的各类系统存有大量的静态与动态信息,而这些信息中的不准确性,不完整性,不及时性等一直是相当一部分地区的电网公司在信息管理上面临的一个老大难问题。随着智能电网的建设,大量的新设备,智能传感器的安装,海量数据的涌入,使得电网信息质量的问题更加严重与紧迫,不掌握完整,准确,及时,高质量的电网资产信息,电网的智能化运行,维护与管理就无从谈起。
[0003] 现有技术包括以下缺陷或不足:
[0004] (1)数据分析报告的编写效率低下:目前由于业务的迫切需要,为了了解设备数据内部特征,提高数据准确性,多采取人工分析抽查、再编写报告的方法。具体包括:系统管理员查询和预处理数据,设备管理员或业务专家结合业务知识对数据进行手工分析,再把各个分析结果逐一“复制-粘贴”到报告中,这样不但效率较低,还会出现错位问题,以及数据、方法、结果三者更新不同步等问题。由于操作冗繁,一次分析也不能全面覆盖数据,报告的更新周期长,也较难长期坚持,因此无法对运行设备信息进行全面摸底,也无法根治顽固性数据质量问题;
[0005] (2)数据系统入口缺乏高级校验功能:目前数据管理系统中的输入界面集成了一些简单的规则,缺乏深入分析能,很难集成复杂检验规则和专家经验;
[0006] (3)数据可视化图表展示能力有限:目前在数据质量管理中,报告和系统中应用的可视化图表较少,现有的方案主要是利用一些电子表格软件和信息系统中所带的基本图形功能,对多维数据中复杂的关联关系缺乏挖掘展示能力。

发明内容

[0007] 本发明主要解决的技术问题是提供一种用于电网运行设备的信息挖掘与数据质量的校验方法,通过采用基于可重复研究和文学化编程的方法进行数据分析和数据质量校验,采用R语言及其扩展插件实现了数据处理和分析工作,可配置多种自定义校验组合规则,以满足结合行业知识和历史问题的复杂校验逻辑配置需求,将机器学习模型算法应用到电网设备数据质量校验中,将数据可视化方法应用到电网设备数据质量校验中,实现了生产管理系统中运行设备数据质量的深度摸底、减轻手工校对的繁冗工作、全面提高资产数据质量、提高信息化管理的效率、进而减少在信息系统上数据质量相关的人工成本、也为基于资产数据的高级分析应用提供重要保障,在用于电网运行设备的信息挖掘与数据质量的校验方法的普及上有着广泛的市场前景。
[0008] 为解决上述技术问题,本发明提供一种用于电网运行设备的信息挖掘与数据质量的校验方法,包括以下步骤:
[0009] (1)编写文学源文件:
[0010] 所述文学源文件包括rnw格式和Rmd格式,所述文学源文件均包括文档模板和程序;
[0011] (2)执行文学源文件:
[0012] 运行工具执行文学源文件自动完成内置的程序,执行数据读取、预处理以及数据分析步骤,并把来自所述文档模的报告文字和格式描述通过所述程序返回的计算结果转换为一种标记语言,同时把程序生成的可视化图表保存为指定格式的图片文件;
[0013] (3)生成指定格式的报告或演示文档:
[0014] 运行相应的标记语言转换工具,自动插入图片并生成指定格式的报告或演示文档;
[0015] (4)数据校验:
[0016] 采用机器学习模型进行电网设备数据质量校验,所述机器学习模型包括局部回归模型和局部异常因子模型,
[0017] 所述局部回归模型采用等范围估计模型来预测设备的合理参数范围,再和实际数据进行对比,
[0018] 所述局部异常因子模型采用等离群指数模型,计算每个数据样本的“离群指数”,离群指数越高的样本有数据质量问题的可能性越大;
[0019] (5)可视化校验:
[0020] 采用数据可视化方法进行电网设备数据质量校验。
[0021] 在本发明一个较佳实施例中,步骤(1)中的所述rnw格式的文学源文件采用Sweave和pdfLaTeX转换工具自动生成分析报告。
[0022] 在本发明一个较佳实施例中,步骤(1)中的所述Rmd格式的文学源文件采用knitr和Pandoc转换工具自动生成分析报告。
[0023] 在本发明一个较佳实施例中,步骤(1)中的所述文档模板包括文档格式和叙述性文字,所述叙述性文字的段落内部包括所述程序生成的数字和文本,以便于根据数据自动生成含有统计结果的文字段落,所述文档模块还包括为程序运行结果预留单独的段落,用于插入程序生成的表格和图表。
[0024] 在本发明一个较佳实施例中,步骤(1)中的所述程序包括自动化数据的导入程序、清理程序、转换程序和分析程序,结合行业知识经验的设备数据质量校验方法,在分析过程中融入以往经验的数据检验规则,所述程序还调用机器学习及可视化扩展包来进行高级分析,所述文学源文件中的程序输出包括数字、文本、表格和图表。
[0025] 在本发明一个较佳实施例中,步骤(2)中的所述标记语言为LaTeX或者Markdown。
[0026] 在本发明一个较佳实施例中,步骤(3)中对于LaTeX格式的标记语言,调用pdfLaTeX转换工具,生成pdf格式文件。
[0027] 在本发明一个较佳实施例中,步骤(3)中对于Markdown格式的标记语言,调用Pandoc转换工具,生成多种文件格式的报告,包括与Word通用的docx文件、pdf文件以及适用于浏览器的html文件。
[0028] 在本发明一个较佳实施例中,步骤(2)与步骤(3)采用逐一处理方式或者分批处理方式。
[0029] 在本发明一个较佳实施例中,步骤(5)中的所述数据可视化方法包括平行坐标系法。
[0030] 本发明的有益效果是:本发明用于电网运行设备的信息挖掘与数据质量的校验方法通过采用文学化编程、机器学习技术、数据可视化,提高分析效率、节约人力成本、保证分析校验报告的客观性和可追溯性、便于可重复研究、提高异常数据的检验效率、分析方式直观易懂,在用于电网运行设备的信息挖掘与数据质量的校验方法的普及上有着广泛的市场前景。附图说明
[0031] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:
[0032] 图1是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的rnw格式的文学源文件的基于Sweave和LaTeX自动生成分析报告的流程图
[0033] 图2是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的Rmd格式的文学源文件基于knitr和Pandoc自动生成分析报告或演示文档的流程图;
[0034] 图3是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的利用局部回归模型识别异常数据的示意图;
[0035] 图4是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的利用局部异常因子模型识别异常数据的示意图;
[0036] 图5是本发明的用于电网运行设备的信息挖掘与数据质量的校验方法一较佳实施例的利用平行坐标系对多维电网设备数据进行可视化的示意图。

具体实施方式

[0037] 下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0038] 请参阅图1-图5,本发明实施例包括:
[0039] 一种用于电网运行设备的信息挖掘与数据质量的校验方法,包括以下步骤:
[0040] (1)编写文学源文件:
[0041] 所述文学源文件包括rnw格式和Rmd格式,所述文学源文件均包括文档模板和程序;
[0042] (2)执行文学源文件:
[0043] 运行工具执行文学源文件自动完成内置的程序,执行数据读取、预处理以及数据分析步骤,并把来自所述文档模块的报告文字和格式描述通过所述程序返回的计算结果转换为一种标记语言,同时把程序生成的可视化图表保存为指定格式的图片文件;
[0044] (3)生成指定格式的报告或演示文档:
[0045] 运行相应的标记语言转换工具,自动插入图片并生成指定格式的报告或演示文档;
[0046] (4)数据校验:
[0047] 采用机器学习模型进行电网设备数据质量校验,所述机器学习模型包括局部回归模型和局部异常因子模型,
[0048] 所述局部回归模型采用等范围估计模型来预测设备的合理参数范围,再和实际数据进行对比,
[0049] 所述局部异常因子模型采用等离群指数模型,计算每个数据样本的“离群指数”,离群指数越高的样本有数据质量问题的可能性越大;
[0050] (5)可视化校验:
[0051] 采用数据可视化方法进行电网设备数据质量校验。
[0052] 优选地,步骤(1)中的所述rnw格式的文学源文件采用Sweave和pdfLaTeX转换工具自动生成分析报告。
[0053] 优选地,步骤(1)中的所述Rmd格式的文学源文件采用knitr和Pandoc转换工具自动生成分析报告。
[0054] 优选地,步骤(1)中的所述文档模板包括文档格式和叙述性文字,所述叙述性文字的段落内部包括所述程序生成的数字和文本,以便于根据数据自动生成含有统计结果的文字段落,所述文档模块还包括为程序运行结果预留单独的段落,用于插入程序生成的表格和图表。
[0055] 优选地,步骤(1)中的所述程序包括自动化数据的导入程序、清理程序、转换程序和分析程序,结合行业知识经验的设备数据质量校验方法,在分析过程中融入以往经验的数据检验规则,所述程序还调用机器学习及可视化扩展包来进行高级分析,所述文学源文件中的程序输出包括数字、文本、表格和图表。
[0056] 优选地,步骤(2)中的所述标记语言为LaTeX或者Markdown。
[0057] 优选地,步骤(3)中对于LaTeX格式的标记语言,调用pdfLaTeX转换工具,生成pdf格式文件。
[0058] 优选地,步骤(3)中对于Markdown格式的标记语言,调用Pandoc转换工具,生成多种文件格式的报告,包括与Word通用的docx文件、pdf文件以及适用于浏览器的html文件。
[0059] 优选地,步骤(2)与步骤(3)采用逐一处理方式或者分批处理方式。
[0060] 优选地,步骤(5)中的所述数据可视化方法包括平行坐标系法。
[0061] 近年来,随着大数据研究的兴起,数据质量的问题在国内外的学术界和产业界都得到了极高重视。对于数据分析清理、数据校验、数据异常分析、数据的可视化,文学编程以及可重复的统计研究都有深入的研究和广泛的应用。如:使用各种统计模型、可视化手段可以灵活展示数据中的关联和异常。可重复的统计研究也能大大提高数据分析的准确性、客观性和可追溯性,自动化的操作也便于长期跟踪数据质量改善情况。
[0062] 本发明涉及到的背景技术主要包括:
[0063] 1、可重复研究(Reproducible research):指的是在数据分析中,是连同原始数据、流程和代码一起保存和发布,这样便于验证和追溯结果,并在此基础上改进。
[0064] 2、文学编程(Literate programming):这是由高德纳提出的编程方法,文学编程范型不同于传统的计算机程序,而是首先编写文学源文件,然后利用文学编程工具从中获得两种表达方式,一种用于计算机进一步的编译和执行,称作“绕出”(tangled)的代码,一种用于格式化文档,称作从文学源代码中“织出”(woven)。注:在本发明中,文学源文件包括rnw和Rmd两种格式,对应两种实现方式。
[0065] 3、R:一种用于统计分析、绘图的语言和操作环境。
[0066] 4、Sweave:是R语言的一个扩展包,其功能是将R的函数整合进LaTeX中。从而可以生成动态报表和文档,当数据或分析改变时,报表和文档能自动得到更新。
[0067] 5、LaTeX:是一种基于TeX的排版系统,非常适用于生成高印刷质量的科技和数学类文档。
[0068] 6、pdfLaTeX:把LaTeX转换成pdf文档的工具。
[0069] 7、knitr:一种动态自动化报告的R语言扩展包。
[0070] 8、Markdown:一种轻量级标记语言,允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的其他格式文档。
[0071] 9、Pandoc:标记语言转换工具,可实现由标记输出为格式化文档,也可以进行不同标记语言间的格式转换。
[0072] 10、局部回归模型:是一种非参数、非线性的回归算法,结合了传统的线性回归的简洁性和非线性回归的灵活性。
[0073] 11、局部异常因子模型:一种监督学习模型,用于数据异常检测,能从被检测数据中自动发现异常样本,无需预先了解数据的分布特征,不对数据进行任何假设。
[0074] 12、平行坐标:一种可视化方法,适用于对高维数据的可视化。
[0075] 本发明用于电网运行设备的信息挖掘与数据质量的校验方法的有益效果是:
[0076] 一、通过采用基于可重复研究和文学化编程的方法进行数据分析和数据质量校验,提高分析效率,节约人力成本、自动结合分析结果和报告,避免分析后再手工导入报告过程中出错、保证分析校验报告的客观性,可追溯性,便于可重复研究、保证了数据、分析方法和报告的一致性、提高分析程序代码的可读性,便于日后维护和改进程序;
[0077] 二、通过数据质量校验中使用机器学习技术,在现有确定性规则和逻辑上增加检验维度,提升问题数据的辨识比率、提高异常数据的检验效率、降低人工工作量,节约人工分析的成本;
[0078] 三、通过在数据质量校验中使用数据可视化,利用可视化手段帮助辨识异常数据,分析方式直观易懂、通过可视化手段让生产管理人员迅速了解设备信息的内在特征。
[0079] 以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈