技术领域
[0001] 本
发明涉及数据的分析、处理技术领域,具体涉及一种基于多维标识的
数据可视化处理方法和系统。
背景技术
[0002] 科技在进步,社会在发展,数据可视化也要适应时代的需求,除了要在
数据处理和数据展示方面下足功夫外,还要强调功能易用性和操作人性化,且不要有太高的学习
门槛,除了技术人员,让更多的业务人员能够了解数据平台,了解数据可视化。数据可视化的应用价值,其多样性和表现
力吸引了许多从业者,而其创作过程中的每一环节都有强大的专业背景支持。无论是动态还是静态的可视化图形,都为我们搭建了新的
桥梁,让我们能洞察世界的究竟、发现形形色色的关系,感受每时每刻围绕在我们身边的信息变化,还能让我们理解其他形式下不易发掘的事物。在
大数据时代背景下,数据分析需要大数据的支持才有价值。可视化图表工具在大数据时代,显得尤为关键。
[0003] 数据可视化都是和数据分析功能组合,数据分析又需要数据接入整合、数据处理、ETL等数据功能,发展成为一站式的大数据分析平台。
[0004] 目前,数据分析大多采用
聚类分析将相似的样品归类,最后得到一个反映样品亲疏关系的谱系图。聚类分析比较简便易行,但是,聚类分析的缺点是将一些高维的样品强行纳入一个一维的谱系分类中,常常使原始样品之间的关系简单化,甚至有时失真。
[0005] 另外,数据分析的方法还有多维标度法,其方法是将几个高维研究对象,在近似的意义下,从高维约简到一个较低维的空间内,并且寻求一个最佳的空间维度和空间
位置(如2维或3维)且仍保持各研究对象数据的原始关系。
[0006] 而通过多维标度法分析大数据,已经是一个较为成熟的技术,在相关的领域已经有十分不错的成效,但目前将多维标度法与数据可视化相结合十分罕见,且实施起来也有诸多难点需要攻克。
发明内容
[0007] 本发明为了解决
现有技术存在的上述技术问题,提供了一种基于多维标识的数据可视化处理方法和系统,从而实现了多维标识法与数据可视化相结合对数据进行分析处理,方便现有数据分析、数据管理、以及后期阶段性的数据预测。
[0008] 为实现上述目的,本发明提供了一种基于多维标识的数据可视化处理方法,包括以下步骤:
[0009] 通过互联网技术采集与
选定主体相关的客户端大数据;
[0010] 将客户端大数据导入到分布式
数据库,并对导入的数据进行
整理归类,同时进行数据筛选去重,并排除无用无效的数据后得到有效数据;
[0011] 将有效数据进行
降维度处理得到低维度数据;
[0012] 采用HTML 5
[0013] 作为本发明的优选技术方案,将有效数据进行降维度处理得到低维度数据具体包括以下步骤:
[0014] 界定目标,确定与选定主题密切相关的目标;
[0015] 采用多维标识法,降低有效数据的维度;
[0016] 以空间图的方式用最少的维度拟合输出数据。
[0017] 作为本发明的优选技术方案,采用多维标识法,降低有效数据的维度具体包括以下步骤:
[0018] 按不同的维度对有效数据进行划分;
[0019] 通过时间
节点对有效数据分类得到第一数据;
[0020] 通过动作节点对有效数据分类得到第二数据;
[0021] 将分类后的第二数据进行排点。
[0022] 作为本发明的优选技术方案,采用Principal Component Analysis
算法对数据的维度进行降低处理。
[0023] 作为本发明的优选技术方案,Principal Component Analysis算法的计算方法如下:
[0024] 设n维向量w为目标子空间的一个坐标轴方向,该坐标轴方向称为映射向量,最大化数据映射后的方差如下公式:
[0025]
[0026] 其中m是数据实例的个数,xi是数据实例i的向量表达, 是所有数据实例的平均向量;
[0027] W为包含所有映射向量为列向量的矩阵,经过线性代数变换,得到如下优化目标函数:
[0028]
[0029]
[0030] 其中tr表示矩阵的迹,A是数据协方差矩阵。
[0031] 本发明还提供了一种基于多维标识的数据可视化处理系统,包括:
[0032]
数据采集模
块,用于通过互联网技术采集与选定主体相关的客户端大数据;
[0033] 数据导入模块,用于将客户端大数据导入到分布式数据库,并对导入的数据进行整理归类,同时进行数据筛选去重,并排除无用无效的数据后得到有效数据;
[0034] 数据多维标识处理模块,用于将有效数据进行降纬度处理得到低维度数据;以及[0035] 数据可视化处理模块,用于采用HTML 5
[0036] 作为本发明的优选技术方案,所述数据多维标度处理模块具体包括:
[0037] 目标界定单元,界定目标,确定与选定主题密切相关的目标;
[0038] 降维处理单元,采用多维标识法,降低有效数据的维度;以及
[0039] 维度确定单元,以空间图的方式用最少的维度拟合输出数据。
[0040] 作为本发明的优选技术方案,降维处理单元具体包括:
[0041] 维度划分子单元,用于按不同的维度对有效数据进行划分;
[0042] 时间节点分类子单元,用于通过时间节点对有效数据分类得到第一数据;
[0043] 动作节点分类子单元,用于通过动作节点对有效数据分类得到第二数据;以及[0044] 数据排点子单元,用于将分类后的第二数据进行排点。
[0045] 作为本发明的优选技术方案,采用Principal Component Analysis算法对数据的维度进行降低处理。
[0046] 本发明的基于多维标识的数据可视化处理方法,通过包括步骤:通过互联网技术采集与选定主体相关的客户端大数据;将客户端大数据导入到分布式数据库,并对导入的数据进行整理归类,同时进行数据筛选去重,并排除无用无效的数据后得到有效数据;将有效数据进行降纬度处理得到低维度数据;采用HTML 5
[0047] 本发明的基于多维标识的数据可视化处理系统,通过包括:数据采集模块,用于通过互联网技术采集与选定主体相关的客户端大数据;数据导入模块,用于将客户端大数据导入到分布式数据库,并对导入的数据进行整理归类,同时进行数据筛选去重,并排除无用无效的数据后得到有效数据;数据多维标识处理模块,用于将有效数据进行降纬度处理得到低维度数据;以及数据可视化处理模块,用于采用HTML 5
[0048] 下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0049] 图1为本发明基于多维标识的数据可视化处理方法提供的一
实施例的方法
流程图;
[0050] 图2为本发明将有效数据进行降纬度处理得到低维度数据提供的方法流程图;
[0051] 图3为本发明采用多维标识法,降低有效数据的维度提供的方法流程图;
[0052] 图4为本发明基于多维标识的数据可视化处理系统提供的一实施例的结构
框图。
[0053] 图5为本发明数据多维标识处理模块提供的结构示意图;
[0054] 图6为本发明降维处理单元提供的结构示意图。
[0055] 本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0056] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0057] 图1为本发明基于多维标识的数据可视化处理方法提供的一实施例的方法流程图。
[0058] 如图1,一种基于多维标识的数据可视化处理方法,包括以下步骤:
[0059] 步骤11,通过互联网技术采集与选定主体相关的客户端大数据;
[0060] 步骤12,将客户端大数据导入到分布式数据库,并对导入的数据进行整理归类,同时进行数据筛选去重,并排除无用无效的数据后得到有效数据;
[0061] 步骤13,将有效数据进行降纬度处理得到低维度数据;
[0062] 步骤14,采用HTML 5
[0063] 具体实施中,步骤11中客户端包括智能手机或电脑终端,客户端大数据为用户在客户端上通过互联网对与选定主体相关的APP或浏览器的操作数据,其包括APP或浏览器的使用频次、使用时长、点击情况,以及相关业务流程中的各个节点的数据。
[0064] 具体实施中,在步骤12中采用分布式数据库存储客户端大数据,客户端大数据的采集,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行
访问和操作,数据吞吐量非常大。例如:双11时期的淘宝与春运时期的12306网,它们并发的访问量在峰值时达到百万量级,通过分布式数据库处理的方式即可解决数据库负载过高问题。
[0065] 具体实施中,步骤13具体包括以下步骤,如图2所示:
[0066] 步骤131,界定目标,确定与选定主题密切相关的目标;
[0067] 步骤132,采用多维标识法,降低有效数据的维度;
[0068] 步骤133,以空间图的方式用最少的维度拟合输出数据。
[0069] 为了让本领域的技术人员更好地了解本发明的技术方案,下面举例说明步骤131。例如:研究用户对某品牌各个产品的广告的感兴趣程度,就要选择能够描述这一特征的一系列变量指标,即所界定的目标,包括如:广告的下发率、展示率、点击率、产品的下载率、产品的安装率等。
[0070] 具体实施中,步骤132具体包括以下步骤:
[0071] 步骤1321,按不同的维度对有效数据进行划分;
[0072] 步骤1322,通过时间节点对有效数据分类得到第一数据;
[0073] 步骤1323,通过动作节点对有效数据分类得到第二数据;
[0074] 步骤1324,将分类后的第二数据进行排点。
[0075] 具体实施中,在上述步骤132采用多维标识方法降低有效数据维度的过程中,优选采用Principal Component Analysis算法对数据的维度进行降低处理。
[0076] 具体实施中,Principal Component Analysis算法的计算方法如下:
[0077] 设n维向量w为目标子空间的一个坐标轴方向,该坐标轴方向称为映射向量,最大化数据映射后的方差如下公式:
[0078]
[0079] 其中m是数据实例的个数,xi是数据实例i的向量表达, 是所有数据实例的平均向量;
[0080] 定义W为包含所有映射向量为列向量的矩阵,经过线性代数变换,可以得到如下优化目标函数:
[0081] W'W=I是每一个feature都
正交,这样每一维度之间不会有冗余信息。
[0082]
[0083]
[0084] 其中tr表示矩阵的迹,A是数据协方差矩阵。
[0085] 最优的W是由数据协方差矩阵前k个最大的特征值对应的
特征向量作为列向量构成的,这些特征向量形成一组正交基并且最好地保留了数据中的信息。
[0086] 其中的输出就是Y=W'X,为由X的原始维度降低到了k维。
[0087] 图4为本发明基于多维标识的数据可视化处理系统提供的一实施例的结构框图。
[0088] 如图4所示,一种基于多维标识的数据可视化处理系统,包括:
[0089] 数据采集模块21,用于通过互联网技术采集与选定主体相关的客户端大数据;
[0090] 数据导入模块22,用于将客户端大数据导入到分布式数据库,并对导入的数据进行整理归类,同时进行数据筛选去重,并排除无用无效的数据后得到有效数据;
[0091] 数据多维标度处理模块23,用于将有效数据进行降纬度处理得到低维度数据;以及
[0092] 数据可视化处理模块24,用于采用HTML 5
[0093] 如图5所示,所述数据多维标识处理模块23具体包括:
[0094] 目标界定单元231,界定目标,确定与选定主题密切相关的目标;
[0095] 降维处理单元232,采用多维标识法,降低有效数据的维度;以及
[0096] 维度确定单元233,以空间图的方式用最少的维度拟合输出数据。
[0097] 如图6所示,降维处理单元232具体包括:
[0098] 维度划分子单元2321,用于按不同的维度对有效数据进行划分;
[0099] 时间节点分类子单元2322,用于通过时间节点对有效数据分类得到第一数据;
[0100] 动作节点分类子单元2323,用于通过动作节点对有效数据分类得到第二数据;以及
[0101] 数据排点子单元2324,用于将分类后的第二数据进行排点。
[0102] 优选地,采用Principal Component Analysis算法对数据的维度进行降低处理。
[0103] 虽然以上描述了本发明的具体实施方式,但是本领域熟练技术人员应当理解,这些仅是举例说明,可以对本实施方式做出多种变更或
修改,而不背离本发明的原理和实质,本发明的保护范围仅由所附
权利要求书限定。