首页 / 专利库 / 物理 / 淘析器 / 一种基于大数据的预检预修可视化系统

一种基于大数据的预检预修可视化系统

阅读:1009发布:2020-10-04

专利汇可以提供一种基于大数据的预检预修可视化系统专利检索,专利查询,专利分析的服务。并且一种基于 大数据 的预检预修 可视化 系统,包括智能 数据采集 模 块 、数据清洗预警模块、数据清洗检修模块、高危数据告警模块、数据快速存储模块和GIS数据动态加载模块。通过智能数据采集模块对数据进行智能分类,用以提高对数据文件的清洗效率;通过预警策略,将高危数据进行黑名单标记,并运用PLRU 算法 对黑名单进行更新 迭代 ,大大改善了系统误报的能 力 ;通过预修策略,将不完整的数据进行修复,大大提升了数据的利用率;通过数据快速存储模块将安全数据快速存储,提高了 数据可视化 实时加载速率与历史数据加载速率;最后将预检预修的数据流以GIS动态地图的方式加以展示,更有助于管理者更加直接的进行 风 控调度和系统优化。,下面是一种基于大数据的预检预修可视化系统专利的具体信息内容。

1.一种基于大数据的预检预修可视化系统,其特征在于:所述系统包括智能数据采集、数据清洗预警模块、数据清洗检修模块、高危数据告警模块、数据快速存储模块和GIS数据动态加载模块;
所述智能数据采集模块,用于采用数据缓存服务器加数据缓存队列的方式对不同数据源进行分类,标记,存储,管理数据的元信息;将采集到的消息送到数据缓存服务器中,结合自身领域的数据特点,考虑到数据文件大小的多样性,根据分布式文件系统中BLOCK的大小设置一个数据文件的临界值T,缓存服务器用于判断此文件的大小,对小于T的数据文件添加数据标识,即KEY,如数据文件的大小大于给定的T时,在数据处理完成后直接发送到分布式文件系统;根据标记分存到对应的数据队列中,直到触发归并阈值TH2;
所述数据清洗预警模块,用于解析数据源,依托算法识别非正常的流量及数据并归纳出相应的过滤规则加以滤除及下游使用。
所述数据清洗检修模块,用于利用数据清洗检修模块运用数字字典进行数据缺项修正,无效数据剔除;
所述高危数据告警模块,用于通过建立黑名单的方式运用PLRU算法动态加载更新黑名单数据,通过建立白名单的方式改善PLRU算法的失误率。
所述高危数据告警模块中,采用PLRU算法;
所述数据快速存储模块,用于将数据处理模块清洗后的标识数据进行存储,大大改善了由于小文件所引发的对分布式文件系统频繁IO操作所带来的系统瓶颈,采用一致性hash算法,在集群负载均衡中取得良好的效果;
所述GIS数据可视化模块,用于将清洗过的合法安全的数据进行动态展示,该模块封装了开源库ECharts,根据数据类型的不同可以选择适合本业务的模块,提供更为精准的空间地理信息,直观,交互丰富,可高度个性化定制并开发完成了前端UI个性化主题定制,并将高危数据信息,检修数据信息展现在前端页面,可以从前端进行更综合信息的分析。
2.如权利要求1所述的一种基于大数据的预检预修动态可视化系统,其特征在于:所述智能数据采集模块中,包括以下步骤:
1.1.1利用数据快速存储模块的一致性hash算法将数据散列存储;
1.1.2元信息管理的方式:利用预清洗预警模块识别流量攻击、网络爬虫和流量作弊;
并将缺失标识后的数据送入数据清洗检修模块,标记后的高危数据送入恶意数据告警模块;
1.1.3利用关系型数据库构建黑白名单数据库,并将1.1.2标记的元信息写入关系型数据库中。
3.如权利要求2所述的一种基于大数据预检预修的动态可视化系统,其特征在于:所述数据清洗预警模块中,利用步骤1.1.3黑白名单数据库决策数据流向;进行步骤1.1.2元数据的归并。
4.如权利要求1~3之一所述的一种基于大数据预检预修的动态可视化系统,其特征在于:所述数据清洗检修模块中,包括以下步骤:
1.3.1在清洗预警模块中,表现为空单元格或显示为NAN(非数字),N/A或None,对于可能包含有意义的缺失数据的分类列,可以创建一个新的分类,称作Misssing,然后像普通列一样处理;
1.3.2在步骤1.3.1中,如若需要典型值,则将预修的数据转化为有意义的数值,如取业务数据的中位数。
5.如权利要求1~3之一所述的一种基于大数据预检预修的动态可视化系统,其特征在于:所述高危数据告警模块中,采用PLRU算法,步骤如下:
1.4.1由一组hash函数W={W1,W2,......Wn}组成,哈希函数的输出域为X,对于数据源为Q={q1,q2,......qn}中的每一个qi,在W的n个独立的hash函数映射下得到n个[1,M]之间的数;
1.4.2如果a是输入对象,那么在进行PLRU算法的时候,则会映射n个数,否则a判定为新对象,在一段检测时间内,数据流大小服从参数为1,畸变参数为α的帕累托分布;
1.4.3假设远程服务器集群在测控时间内数据包为K,则PLRU平均每隔J个数据包建立一个新数据标识,并淘汰黑名单底部的某个数据;
1.4.4假定某大流E大小正好等于阈值TH,则在连续J个数据文件中没有出现大数据文件E的概率服从超几何分布: 当K>>J时,E被移除的概率为:
其中
1.4.5根据步骤1.4.3和步骤1.4.4更新黑名单数据库;
1.4.6由于PLRU算法会有误报,对已经发现的误报样本可以通过建立白名单来防止误报。
6.如权利要求1~3之一所述的一种基于大数据预检预修的动态可视化系统,其特征在于:所述数据快速存储模块中。包括以下步骤:
1.5.1引入关系型数据库用于存储小数据文件合并过程产生的元数据;
1.5.2通过在机器IP或主机名的后面添加编号或端口号来获取当前处理服务器的哈希值HS={hs1,hs2,……,hsn},并将HS集合映射为空间的闭环结构;
1.5.3将消息队列缓存服务器的窗口数据取出放入待合并的集合G={g1,……g2,gn},n表示待合并文件的数目,gi表示待合并的第i个数据文件,对满足智能数据采集模块的触发条件的数据文件进行1.5.4操作;
1.5.4将触发TH2的数据文件从滑动窗口Wn中取出,采用多线程对Wn进行归并操作,将合并后的数据上传到分布式存储系统,同时将归并操作产生的元信息存储到关系型数据库中;
1.5.5合并过程中产生的第i个数据文件的元信息Di写入关系型数据库。其中Di={f1,f2,……,fn},其中fi是元信息集合的数据特征;
1.5.6当客户端发送读取小数据文件消息队列的请求访问关系型数据库,得到数据文件的元信息Di;
1.5.7根据Di中的特征字段访问分布式文件系统小文件数据所在的大数据文件;
1.5.8根据大数据文件中的特征字段解析出相应的小数据文件;
1.5.9给每一个数据文件添加字段标识F,记录数据文件的访问频率
1.5.10采用了将高频数据文件缓存在硬盘热快,根据对数据文件的附加字段进行判断是否在文件缓存服务器的硬盘上,直接读取数据文件缓存服务器中读取该数据。

说明书全文

一种基于大数据的预检预修可视化系统

技术领域

[0001] 本发明涉及数据处理、数据存储领域,尤其是一种基于大数据预检预修的可视化系统。

背景技术

[0002] 随着高新技术的发展,大数据已成为各国发展的重要工具,推动大数据的发展和应用,在未来打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、欣欣繁荣的产业发展新生态。
[0003] 伴随着DT时代的到来,人们比以往任何时候更能收集到丰富的数据,IDC的报告显示:预计到2020年,全球数据总量将超过40ZB(相当于40万亿GB),这一数据量是2011年的22倍!正在呈“爆炸式”增长的数据如何基于高价值的信息来决策、分析、预测、战略发展成为新的研究热点。
[0004] 从采集系统中收集了大量的原始数据后,数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据的价值,达到赋能于商业和创造价值的目的。面对海量的数据和复杂的计算,数据计算层包括两大体系:数据存储和计算平台;而数据挖掘技术与数据仓储及计算技术的发展是相辅相成的,没有数据基础设施的发展与分布式并行计算的技术,就不会有深度学习,更不会见证AlphaGo的神奇,计算平台的发展,使得海量、高速、多变化、多终端的结构与非结构化数据得以存储并高效地计算,如在电商领域的面向海量会员和商品的全局画像,寄语自然人的全域ID-Mapping、广告精准投放平台、千人千面的个性化搜索与推荐技术、非人流量与恶意设备的识别、商业竞争情报的自动化挖掘系统已深入到企业发展的各个环节,“无数据不智能,无智能不商业”,大数据与机器学习融合后的新商业革命已然到来。
[0005] 数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提,如何保证数据质量,确保数据的可用性是数据仓库建设不容忽视的环节,数据已经成为重要的生产要素,让数据应用的价值最大化,如搜索、推荐、广告、金融、信用、保险、文娱、物流等业务。将数据提供给商家,可以用于指导商家的数据化运营,为商家提供多样化、普惠性的数据赋能;可以用于实现更好的搜索体验,更精准的个性化推荐,优化购物体验,更精准的进行广告投放,更惠普的金融服务;将数据提供给员工,可以用于数据化运营和决策;
[0006] 现在通用的大数据处理平台缺少对于数据源接入的预清洗策略,尤其是使得大量缺失,无效,高危以及重复的缺失,无效,高危的数据进入数据分析,严重影响数据分析的结果,以及预测和回归模型的准确性。
[0007] 而分布式文件系统凭借其高容错性、可伸缩和廉价存储的优点支持大规模数据集的存储,但是对于海量、高并发、连续、高速的小数据文件的接收和存储效率不高,在每次进行插入、查找、删除、更新操作时都会和分布式文件系统做大量的IO交换,大大降低了分布式文件系统的新能。
[0008] 而且当前数据可视化解决方案主要是采用一些商用解决方案,在满足客户多需求的同时由于其自身的解决方案固定式以及数据高度模型化无法提供更为个性化服务,而定制化成本过高,并不能有效的匹配每一项具体的业务,而根据自身的业务特点开发解决方案,则由于开发周期过长以及成本过高显得触不可及。
[0009] 当前的大数据可视化应用往往展示处理分析后的结果,缺少必要的预警提示及告警指示,往往需要决策人员凭借行业经验进行优化,而人员决策又存在人员流动,不可持续性工作的问题亟待解决。

发明内容

[0010] 为了克服大数据数据采集时过滤掉大部分潜在价值的数据,与分布式文件系统频繁IO交互导致的性能瓶颈,以及可视化界面综合信息定制化的不足,本发明提供了一种基于大数据预检预修的动态可视化系统,通过预检预修的策略完成对数据的清洗、修正,并结构化变形处理之后,此时的数据已经具备了结构化或半结构化的特征,可以方便的被关系型数据库装载和使用,提升对源数据的利用率并提高系统的安全性与稳定性,通过PLRU算法快速更新迭代黑名单数据库,以提升存储效率与数据过滤效率,提升系统安全性与稳定性,提升整个系统的健壮性。采用一致性hash算法,将数据文件队列均匀的分布到集群的各个服务器上,用以解决数据倾斜,在集群负载均衡中取得良好的效果,并将数据文件存储策略下的元信息缓存至关系型数据库中,用以解决分布式文件系统像HDFS中NameNode元数据存储的压,采用了将高频数据文件缓存在硬盘热快,根据对数据文件的附加字段进行判断是否在文件缓存服务器的硬盘上,直接读取数据文件缓存服务器中读取该数据,从而减少了与分布式文件系统的查询、更新的交互,提高访问速度,大大提升了系统的综合读写性能。该方法在面对海量小数据文件的存储和查询响应速度尤为迅速。
[0011] 为了实现上述目的,本发明采用的技术方案为:
[0012] 一种基于大数据预检预修的动态可视化系统,包括智能数据采集模、数据清洗预警模块、数据清洗检修模块、高危数据告警模块、数据快速存储模块和GIS数据动态加载模块;
[0013] 所述智能数据采集模块,用于采用数据缓存服务器加数据缓存队列的方式对不同数据源进行分类,标记,存储,管理数据的元信息;将采集到的消息送到数据缓存服务器中,结合自身领域的数据特点,考虑到数据文件大小的多样性,根据分布式文件系统中BLOCK的大小设置一个数据文件的临界值T,缓存服务器用于判断此文件的大小,对小于T的数据文件添加数据标识,即KEY,如数据文件的大小大于给定的T时,在数据处理完成后直接发送到分布式文件系统;根据标记分存到对应的数据队列中,直到触发归并阈值TH2;
[0014] 所述数据清洗预警模块,用于解析数据源,依托算法识别非正常的流量及数据并归纳出相应的过滤规则加以滤除及下游使用。
[0015] 所述数据清洗检修模块,用于利用数据清洗检修模块运用数字字典进行数据缺项修正,无效数据剔除;
[0016] 所述高危数据告警模块,用于通过建立黑名单的方式运用PLRU算法动态加载更新黑名单数据,通过建立白名单的方式改善PLRU算法的失误率。
[0017] 所述高危数据告警模块中,采用PLRU算法;
[0018] 所述数据快速存储模块,用于将数据处理模块清洗后的标识数据进行存储,大大改善了由于小文件所引发的对分布式文件系统频繁IO操作所带来的系统瓶颈,采用一致性hash算法,在集群负载均衡中取得良好的效果;
[0019] 所述GIS数据可视化模块,用于将清洗过的合法安全的数据进行动态展示,该模块封装了开源库ECharts,根据数据类型的不同可以选择适合本业务的模块,提供更为精准的空间地理信息,直观,交互丰富,可高度个性化定制并开发完成了前端UI个性化主题定制,并将高危数据信息,检修数据信息展现在前端页面,可以从前端进行更综合信息的分析。
[0020] 进一步,所述智能数据采集模块中,包括以下步骤:
[0021] 1.1.1利用数据快速存储模块的一致性hash算法将数据散列存储;
[0022] 1.1.2元信息管理的方式:利用预清洗预警模块识别流量攻击、网络爬虫和流量作弊;并将缺失标识后的数据送入数据清洗检修模块,标记后的高危数据送入恶意数据告警模块;
[0023] 1.1.3利用关系型数据库构建黑白名单数据库,并将1.1.2标记的元信息写入关系型数据库中。
[0024] 所述数据清洗预警模块中,利用步骤1.1.3黑白名单数据库决策数据流向;进行步骤1.1.2元数据的归并。
[0025] 所述数据清洗检修模块中,包括以下步骤:
[0026] 1.3.1在清洗预警模块中,表现为空单元格或显示为NAN(非数字),N/A或None,对于可能包含有意义的缺失数据的分类列,可以创建一个新的分类,称作Misssing,然后像普通列一样处理;
[0027] 1.3.2在步骤1.3.1中,如若需要典型值,则将预修的数据转化为有意义的数值,如取业务数据的中位数。
[0028] 所述高危数据告警模块中,采用PLRU算法,步骤如下:
[0029] 1.4.1由一组hash函数W={W1,W2,......Wn}组成,哈希函数的输出域为X,对于数据源为Q={q1,q2,......qn}中的每一个qi,在W的n个独立的hash函数映射下得到n个[1,M]之间的数;
[0030] 1.4.2如果a是输入对象,那么在进行PLRU算法的时候,则会映射n个数,否则a判定为新对象,在一段检测时间内,数据流大小服从参数为1,畸变参数为α的帕累托分布;
[0031] 1.4.3假设远程服务器集群在测控时间内数据包为K,则PLRU平均每隔J个数据包建立一个新数据标识,并淘汰黑名单底部的某个数据;
[0032] 1.4.4假定某大流E大小正好等于阈值TH,则在连续J个数据文件中没有出现大数据文件E的概率服从超几何分布: 当K>>J时,E被移除的概率为:
[0033] 其中
[0034] 1.4.5根据步骤1.4.3和步骤1.4.4更新黑名单数据库;
[0035] 1.4.6由于PLRU算法会有误报,对已经发现的误报样本可以通过建立白名单来防止误报;
[0036] 所述数据快速存储模块中。包括以下步骤:
[0037] 1.5.1引入关系型数据库用于存储小数据文件合并过程产生的元数据;
[0038] 1.5.2通过在机器IP或主机名的后面添加编号或端口号来获取当前处理服务器的哈希值HS={hs1,hs2,……,hsn},并将HS集合映射为空间的闭环结构;
[0039] 1.5.3将消息队列缓存服务器的窗口数据取出放入待合并的集合G={g1,……g2,gn},n表示待合并文件的数目,gi表示待合并的第i个数据文件,对满足智能数据采集模块的触发条件的数据文件进行1.5.4操作;
[0040] 1.5.4将触发TH2的数据文件从滑动窗口Wn中取出,采用多线程对Wn进行归并操作,将合并后的数据上传到分布式存储系统,同时将归并操作产生的元信息存储到关系型数据库中;
[0041] 1.5.5合并过程中产生的第i个数据文件的元信息Di写入关系型数据库。其中Di={f1,f2,……,fn},其中fi是元信息集合的数据特征;
[0042] 1.5.6当客户端发送读取小数据文件消息队列的请求,访问关系型数据库,得到数据文件的元信息Di;
[0043] 1.5.7根据Di中的特征字段访问分布式文件系统小文件数据所在的大数据文件;
[0044] 1.5.8根据大数据文件中的特征字段解析出相应的小数据文件;
[0045] 1.5.9给每一个数据文件添加字段标识F,记录数据文件的访问频率
[0046] 1.5.10采用了将高频数据文件缓存在硬盘热快,根据对数据文件的附加字段进行判断是否在文件缓存服务器的硬盘上,直接读取数据文件缓存服务器中读取该数据。
[0047] 本发明的有益效果主要表现在:提升对源数据的利用率并提高系统的安全性与稳定性,通过PLRU算法快速更新迭代黑名单数据库,以提升存储效率与数据过滤效率,提升系统安全性与稳定性,提升整个系统的健壮性。附图说明
[0048] 图1示出了基于大数据的预检预修可视化系统模型图。
[0049] 图2示出了基于大数据的预检预修可视化系统流程图
[0050] 图3示出了基于大数据的预检预修可视化系统数据预检预修过程图。
[0051] 图4示出了基于大数据的预检预修可视化系统数据快速存储模块模型图。

具体实施方式

[0052] 下面结合附图对本发明作进一步描述。
[0053] 下面将详细描述本发明的系统运作与方法,显然,所描述的具体实施案例仅仅是本发明一部分项目案例,而不是全部的项目例,本领域普通技术人员在没有做出创造性改变或实质性优化的前提下所获得的所有其他项目例,都属于本发明保护的范围。
[0054] 参照图1~图4,一种基于大数据预检预修的动态可视化系统,包括智能数据采集模块1、数据清洗预警模块2、数据清洗检修模块3、高危数据告警模块4、数据快速存储模块5和GIS数据可视化模块6,智能数据采集模块和数据清洗预警模块连接,数据清洗预警模块和数据清洗检修模块连接,数据清洗预警模块和高危数据告警模块连接,数据清洗预警模块、高危数据告警模块均和GIS数据可视化模块连接,具体参照图1。
[0055] 所述智能数据采集模块,用于采用数据缓存服务器加数据缓存队列的方式对不同数据源进行分类,标记,存储,管理数据的元信息;将采集到的消息送到数据缓存服务器中,结合自身领域的数据特点,考虑到数据文件大小的多样性,根据分布式文件系统中BLOCK的大小设置一个数据文件的临界值T,缓存服务器用于判断此文件的大小,对小于T的数据文件添加数据标识,即KEY,如数据文件的大小大于给定的T时,在数据处理完成后直接发送到分布式文件系统;根据标记分存到对应的数据队列中,直到触发归并阈值TH2;包括以下步骤:
[0056] 1.1.1利用数据快速存储模块的一致性hash算法将数据散列存储。
[0057] 1.1.2元信息管理的方式:利用预清洗预警模块识别流量攻击、网络爬虫和流量作弊(虚假流量);并将缺失标识后的数据送入数据清洗检修模块,标记后的高危数据送入恶意数据告警模块;
[0058] 1.1.3利用关系型数据库构建黑白名单数据库,并将1.1.2标记的元信息写入关系型数据库中;
[0059] 所述数据清洗预警模块,用于解析数据源,利用步骤1.1.3黑白名单数据库决策数据流向;进行步骤1.1.2元数据的归并;依托算法识别非正常的流量及数据并归纳出相应的过滤规则加以滤除及下游使用。
[0060] 所述数据清洗检修模块,用于利用数据清洗检修模块运用数字字典进行数据缺项修正,无效数据剔除;包括以下步骤:
[0061] 1.3.1在清洗预警模块中,表现为空单元格或显示为NAN(非数字),N/A或None,对于可能包含有意义的缺失数据的分类列,可以创建一个新的分类,称作Misssing,然后像普通列一样处理;
[0062] 1.3.2在步骤1.3.1中,如若需要典型值,则将预修的数据转化为有意义的数值,如取业务数据的中位数。
[0063] 所述高危数据告警模块,用于通过建立黑名单的方式运用PLRU算法动态加载更新黑名单数据,通过建立白名单的方式改善PLRU算法的失误率。
[0064] 所述高危数据告警模块中,采用PLRU算法,步骤如下:
[0065] 1.4.1由一组hash函数W={W1,W2,......Wn}组成,哈希函数的输出域为X,对于数据源为Q={q1,q2,......qn}中的每一个qi,在W的n个独立的hash函数映射下得到n个[1,M]之间的数;
[0066] 1.4.2如果a是输入对象,那么在进行PLRU算法的时候,则会映射n个数,否则a判定为新对象,在一段检测时间内,数据流大小服从参数为1,畸变参数为α的帕累托分布;
[0067] 1.4.3假设远程服务器集群在测控时间内数据包为K,则PLRU平均每隔J个数据包建立一个新数据标识,并淘汰黑名单底部的某个数据;
[0068] 1.4.4假定某大流E大小正好等于阈值TH,则在连续J个数据文件中没有出现大数据文件E的概率服从超几何分布: 当K>>J时,E被移除的概率为:
[0069] 其中
[0070] 1.4.5根据步骤1.4.3和步骤1.4.4更新黑名单数据库;
[0071] 1.4.6由于PLRU算法会有误报,对已经发现的误报样本可以通过建立白名单来防止误报;
[0072] 所述数据快速存储模块,用于将数据处理模块清洗后的标识数据进行存储,大大改善了由于小文件所引发的对分布式文件系统频繁IO操作所带来的系统瓶颈,采用一致性hash算法,在集群负载均衡中取得良好的效果;包括以下步骤:
[0073] 1.5.1引入关系型数据库用于存储小数据文件合并过程产生的元数据;
[0074] 1.5.2通过在机器IP或主机名的后面添加编号或端口号来获取当前处理服务器的哈希值HS={hs1,hs2,……,hsn},并将HS集合映射为空间的闭环结构;
[0075] 1.5.3将消息队列缓存服务器的窗口数据取出放入待合并的集合G={g1,……g2,gn},n表示待合并文件的数目,gi表示待合并的第i个数据文件,对满足智能数据采集模块的触发条件的数据文件进行1.5.4操作;
[0076] 1.5.4将触发TH2的数据文件从滑动窗口Wn中取出,采用多线程对Wn进行归并操作,将合并后的数据上传到分布式存储系统,同时将归并操作产生的元信息存储到关系型数据库中;
[0077] 1.5.5合并过程中产生的第i个数据文件的元信息Di写入关系型数据库。其中Di={f1,f2,……,fn},其中fi是元信息集合的数据特征;
[0078] 1.5.6当客户端发送读取小数据文件消息队列的请求,访问关系型数据库,得到数据文件的元信息Di;
[0079] 1.5.7根据Di中的特征字段访问分布式文件系统小文件数据所在的大数据文件;
[0080] 1.5.8根据大数据文件中的特征字段解析出相应的小数据文件;
[0081] 1.5.9给每一个数据文件添加字段标识F,记录数据文件的访问频率;
[0082] 1.5.10采用了将高频数据文件缓存在硬盘热快,根据对数据文件的附加字段进行判断是否在文件缓存服务器的硬盘上,直接读取数据文件缓存服务器中读取该数据;
[0083] 所述GIS数据可视化模块,用于将清洗过的合法安全的数据进行动态展示,该模块封装了开源库ECharts,根据数据类型的不同可以选择式和本业务的模块,提供更为精准的空间地理信息,直观,交互丰富,可高度个性化定制并开发完成了前端UI个性化主题定制,并将高危数据信息,检修数据信息展现在前端页面,可以从前端进行更综合信息的分析。
[0084] 现对图2加以说明:当数据采集进系统,即进入消息缓存11,消息缓存11将数据按照分类要求进行分类存储14,然后送入预清洗模块12,该模块将缺失数据与高危数据进行规则化处理,并将处理元信息写入关系型数据库17中,预清洗完后的数据根据实际需求分发到实时计算引擎和离线13和离线计算引擎,并利用同步程序同步计算结果的队列服务器14和关系型数据库17,最终将数据结果保存到分布式文件系统15中,在管理平台19便可操作实时数据与离线数据进行可视化20展示。
[0085] 本实施例的基于大数据预检预修的可视化系统的工作流程,包括以下步骤:
[0086] 步骤S000:在模块1中,根据自身集群存储力与计算力预设数据文件大小的阈值TH1。
[0087] 步骤S001:采集不同数据源的文件添加标识信息,如图3中101工作模式。用消息缓存服务器11判断接收文件的大小,如小于S000中的阈值TH1,则将其添加字段标识KEY。参照图4中201所示。
[0088] 步骤S002:将S001中的数据先进行黑名单104过滤。
[0089] 步骤S003:根据S001中的数据源Q={q1,q2,......qn}确定hash函数W={W1,W2,......Wn}的组成,哈希函数的输出域为X。
[0090] 步骤S004:如果数据源按照复合自定义的数据规则,对于数据源为Q={q1,q2,......qn}中的每一个qi,在W的n个独立的hash函数映射下得到n个[1,M]之间的数。
[0091] 步骤S005:假设远程服务器集群在测控时间内数据包为K,则PLRU平均每隔J个数据包建立一个新数据标识,并淘汰黑名单底部的某个数据。
[0092] 步骤S006:假定某数据文件E大小正好等于阈值TH,则在连续J个数据文件中没有出现大数据文件E的概率服从超几何分布:
[0093] 步骤S007:当K>>J时,E被移除的概率为: 其中
[0094] 步骤S009:根据S007迭代更新黑名单数据库104。
[0095] 步骤S010:将S001中采集到的数据装载到相对应的数据队列中。
[0096] 步骤S011:在S010中,只有当数据文件发送请求时,数据队列才会根据请求申请一个数据队列,若该数据队列为空队列,同时数据缓存服务器不为空,则进行FIFO操作,否则该数据队列将释放空间。
[0097] 步骤S012:将S010数据队列中的数据通过预修策略将某种缺失数据,通常表现为空单元格或显示为NAN(非数字),N/A或None,对于可能包含有意义的缺失数据的分类列,可以创建一个新的分类,称作Miss,然后像普通列一样处理,如若需要典型值,则将预修的数据转化为有意义的数值。参照图1模块3以及图2中12。
[0098] 步骤S013:识别流量攻击、网络爬虫和流量作弊(虚假流量),将S009中迭代更新的数据同步到高危数据告警模块。参照图1模块4。
[0099] 步骤S104:根据标记分存到对应的消息队列缓存服务器中,直到触发归并阈值TH2。
[0100] 步骤S105:将触发TH2的数据文件从滑动窗口Wn中取出,采用多线程对Wn进行归并操作。
[0101] 步骤S106:将合并后的数据上传到分布式存储系统15,同时将归并操作产生的元信息根据配置规则16存储到关系型数据库中17。
[0102] 步骤S107:通过在机器IP或主机名的后面添加编号或端口号来获取当前处理服务器的哈希值HS={hs1,hs2,……,hsn},并将HS集合映射为空间的闭环结构。如图4的202所示。
[0103] 步骤S108:将数据队列的窗口数据Wn取出放入待合并的集合G={g1,……g2,gn},n表示待合并文件的数目,gi表示待合并的第i个数据文件。
[0104] 步骤S109:合并过程中产生的第i个数据文件的元信息Di写入关系型数据库。其中Di={f1,f2,……,fn},其中fi是元信息集合的数据特征。
[0105] 步骤S110:当客户端发送读取消息队列的请求,访问关系型数据库,得到数据文件的元信息Di。
[0106] 步骤S111:根据Di中的特征字段访问分布式文件系统小文件数据所在的大数据文件。
[0107] 步骤S112:根据大数据文件中的特征字段解析出相应的小数据文件。
[0108] 步骤S113:给每一个数据文件添加字段标识F,记录数据文件的访问频率。
[0109] 步骤S114:高频数据文件缓存在硬盘热块,根据对数据文件的附加字段进行判断是否在文件缓存服务器的硬盘上,直接读取数据文件缓存服务器中读取该数据.[0110] 步骤S115:将处理过的数据依据热度累计进行展示,展示融合了数据的地理信息与数据的实时交易显示。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈