云计算环境下面向REST架构风格的服务数据可视化建模与匹
配方法
技术领域
背景技术
[0002] 云计算(Cloud Computing)是一种基于互联网的计算模式,现阶段广为接受的对云计算的定义是由美国国家标准与技术研究院(NIST)提出的——“云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络
访问,进入可配置的计算资源共享池(资源包括网络,
服务器,存储,应用
软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。”其中,SaaS(软件即服务)是云计算的一种重要模式,把数据资源和功能通过云服务封装交付给用户使用。目前,REST(Representational State Transfer)架构风格是软件即服务的一种重要实现技术架构。
[0003] REST架构风格于2000年发布于国际会议ICSE上,它是一种Web体系结构的抽象模型,用于指导重新设计和定义超文本传输协议和统一资源标识符。至今仍然能够根据这种架构风格的应用来了解
万维网的工作方式与原理,这对于大规模软件架构的理解与发展有重要意义。Roy T.Fielding博士提出REST架构风格的论文在谷歌学术上统计已经被引用超过7000次,发布于ICSE/TOIT的论文被引用超过2000次。
[0004] REST服务的流行使得网络上出现了大量的轻量级数据服务,并持续保持爆炸性指数增长,国际上
网站上也出现了大量服务供应商,致
力于网络服务的集中供应与
质量保障。大型在线web服务网站ProgrammableWeb聚集了各个领域大量的API信息,目前其收集的API数量已超过两万,其中REST架构风格的服务占80%以上;各大网络科技公司也有自己的API公开平台,如:Google、YouTube、Facebook、百度、阿里巴巴;还有许多个人开发的API公布在GitHub和个人BLOG上。
[0005] ProgrammableWeb所收集的服务中,响应格式种类繁多,其中以JSON与XML格式为主。XML(可扩展
标记语言)是最古老的数据格式之一。它由W3C(万维网联盟)定义,并基于较旧的SGML(标准通用标记语言)格式。在XML中,数据使用元素和属性进行结构化。JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。易于人阅读和编写,同时也易于机器解析和生成。JSON采用完全独立于语言的文本格式,是一种理想的数据交换语言。相比之下,XML有大量的冗余元素,重复的元素名称导致数据体量增大。JSON则没有重复元素名称所带来的数据冗余,数据传输速率更高,解析效率与查找效率都高于XML。近年来开发者更倾向于使用JSON作为数据响应格式。在ProgrammableWeb收集的REST服务中,响应格式支持JSON的服务占据了90%以上的比例。
[0006] 多样化的云服务催生了巨量的数据信息,而数据信息创造的真正价值在于数据分析。数据可视化可以通过交互式可视化界面及数据-图像转换技术来辅助用户对数据进行分析理解。Wilkinson提出了一种影响深远的图形语法(the Grammar of Graphics),用一种标准化语言来描述生成图形的规则。Stolte设计的Polaris系统提出了一种简洁的视觉规范,用于描述关系型数据的表格式可视化;Heer提出的Prefuse工具通过对低级图形绘制操作进行抽象,来实现更简洁的可视化规范。为了减轻用户的负担,这些
框架引入了可继承的可视化小部件和可组合的组件。Li突出的ECharts实现了直接将数据映射到可视元素而无需计算细节的配置功能,这减少了对编程技能的要求限制。在上述可视化工具的
基础上,研究人员研发了多种可视化平台,试图实现数据自动或半自动可视化。Roth提出的SAGE是经典的可视化设计系统,可以根据数据的特性,在用户
指定相关约束的情况下,自动生成可视化;Satyanarayan提出的Lyra系统在数据管道中选择数据区域后,根据用户
选定的可视化图形及参数实现数据可视化;Ren提出的iVisDesigner系统提供了统一界面进行交互式可视化创建、编辑操作,由固定模式定义的数据集在转换为内部元素后用于可视化映射;Viegas设计的Many Eyes在用户上传数据后,先指定可视化方法,并在此基础上进行各种配置,最终生成交互式可视化结果。在上述可视化工具与系统中,虽然不同程度上化简了数据可视化的操作,但是仍然需要用户参与指导,尤其对于复杂数据需要手工编排以保障更好的可视化效果。
发明内容
[0007] 为了尽可能实现数据自动可视化,本发明提出了一种云计算环境下面向REST架构风格的服务数据可视化建模与匹配方法,通过对JSON数据进行
树形结构建模及对常见可视化图形进行结构建模,来构建标准化通用模型,以模型匹配的方式来实现数据与图形的自动化匹配。
[0008] 本发明所采用的技术方案是:
[0009] 一种云计算环境下面向REST架构风格的服务数据可视化建模与匹配方法,所述方法包括以下步骤:
[0010] 第一步:构建服务数据可视化建模与匹配方法的架构,包括三个模
块:数据建模(Data Modeling)、图形建模(Graphics Modeling)、匹配引擎(Matching Processor);
[0011] 1.1、数据建模:从Internet获取的REST服务经解析器(REST Service Parser)解析后进行注册,存储于缓存cache或
数据库Database中,自动调用后所获取的基于JSON的REST服务数据,通过服务数据建模(Service Data Modeling)将服务数据转变为标准化模型,并
抽取出主要数据结构生成元数据树MDT;
[0012] 1.2、图形建模:对多种配置型可视化工具(如ECharts、HighCharts、D3.js、Chart.js)所支持的图形进行数据结构分析与归纳(Structural Analysis),
整理出主要图形的通用数据结构及数据映射关系,再根据上述信息进行可视化图形建模(Visual Graphics Modeling),创建描述性可视模型——VisualModel Tree(简称VT);
[0013] 1.3、匹配引擎:调取数据建模所生成的MDT,从MDT中搜索与VT中的图形结构模型匹配的数据结构
片段,来查询源数据可生成的图形种类,并根据映射关系信息(Mpping)自动化生成可视化图形(Visual Graphics);
[0014] 第二步:定义元数据树MDT,包括根
节点TRoot、索引节点INode、数据节点DNode,同时用深度level来表示节点在树结构中的层数,根节点默认为第一层,即level=1;
[0015] 2.1、根节点:MDT的根节点,即MDT的起始节点;
[0016] 2.2、索引节点:代表JSON数据中每一个关键字KEY,但不包括JSON数据中最内层的“键-值”对的关键字,索引节点为非根节点、非叶
子节点;
[0017] 2.3、数据节点:代表JSON数据中最内层的“键-值”对,存储为叶子节点;
[0018] 第三步:读取调用的REST API所返回的JSON数据,将JSON数据集ds作为建模
算法的输入,对ds进行树形结构建模,步骤如下:
[0019] 3.1、创建一棵根节点为TRoot的MDT,TRoot是起始节点,根节点的深度level默认为1;
[0020] 3.2、读取JSON数据集ds,如果是首次读取ds,设置ds的第一个元素为当前元素,元素包括关键字KEY及其值VALUE;否则设置ds的下一个元素为当前元素;若JSON数据最外层就是ARRAY,则TRoot的isMark=1,元素数量arrayNum为ARRAY元素个数;
[0021] 第四步:通过
剪枝的方法,保留基本的数据结构信息,剪除相同的重复数据结构,缩小模型的体量,但仍然保留基础的数据结构,降低JSON数据结构所带来的查询开销;
[0022] 第五步:对可视化图形进行分类,归纳总结各类图形的属性及结构特征,通过建模创建一种可视模型树(Visualization Tree,简称VT),来形式化地表述各类图形信息;
[0023] 第六步:将可视模型树VT与MDT进行匹配查询,查找MDT中与VT的各个StructModel匹配的片段,并根据Mapping信息进行数据映射,生成可视化图形。
[0024] 进一步,所述第四步的处理过程包括以下步骤;
[0025] 4.1、从level=1的TRoot开始,按广度优先策略,按层遍历MDT的根节点与索引节点;广度优先策略将按level逐层遍历MDT,从level=1的第一层开始遍历,当level层的节点遍历完成后,再继续遍历level+1层的节点;
[0026] 4.2、将MDT的TRoot存入遍历队列;
[0027] 4.3、按遍历队列顺序,读取每个节点的isMark属性;
[0028] 4.4、当遍历队列中全部为数据节点时或遍历队列为空时,停止遍历,结束方法;
[0029] 4.5、输出剪枝后的MDT。
[0030] 再进一步,所述步骤4.3的处理过程为:
[0031] 4.3.1、若遍历到的节点的isMark属性值为1,则保留当前节点的第一个子节点,剪除其余的子节点及其子节点的子树结构,跳转至步骤4.3.4;
[0032] 4.3.2、若遍历到的节点的isMark属性值为0,则不进行任何操作,跳转至步骤4.3.4;
[0033] 4.3.3、若遍历到的节点为数据节点,将当前节点从遍历队列中删除,跳转至步骤4.3;
[0034] 4.3.4、将当前遍历到的节点的子节点加入遍历队列,并将当前节点从遍历队列中删除,再跳转至步骤4.3。
[0035] 所述第五步包括以下步骤:
[0036] 5.1、定义VT包括基础属性(BASICATTRIBUTE)和可视结构(DVSCHEMA)两个部分,形式化定义如(11),其中BASICATTRIBUTE保存了图形标题、副标题及其他文本样式的通用信息;
[0037] (11)、VisualModel::=
[0038] 5.2、BASICATTRIBUTE包括三个属性:标题(title)、子标题(subtitle)、属性(attributes),形式化定义如(12),title用于保存最终生成的可视化图形的标题,subtitle用于保存最终生成的可视化图形的子标题,attributes用于保存最终生成的可视化图形的
位置、
颜色组合、字体、字号设置参数;
[0039] (12)、BASICATTRIBUTE::=
[0040] 5.3、BASICATTRIBUTE根据图形所需的数据类型、图形数据结构、图形维度将常见的可视化图形归纳为四种基础类别:一般图形(General)、拓扑图(Topology)、地图(Map)、文本图形(Text),形式化定义如(13);
[0041] (13)、DVSCHEMA::=
[0042] 5.4、步骤5.3中的四种基础类别下属均分别包含两个属性:图形类型(VType)和图形结构(StructModel),VType保存了该类别所属图形种类,StructModel保存了该类别所属图形的基本可视化结构,形式化定义如(14),“A::B”表示“A包含了属性B”;
[0043] (14)、DVSCHEMA::=
[0045] 进一步,所述第六步的处理过程包括以下步骤:
[0046] 6.1、解析VT中四种基础类别的StructModel,提取每种StructModel中的临时根节点及其子结构,每一个临时根节点及其子结构构成的树结构片段将作为查询子图,根据步骤5.5.1至5.5.4可以提取出六个查询子图:General类型的StructModel的下属Root为起点的子结构,Topology类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Map类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Text类型的StructModel的下属Root为起点的子结构;
[0047] 6.2、将MDT作为目标图,所述6.1中的六个查询子图依次作为输入,每输入一个查询子图就遍历一次MDT,查找与当前输入的查询子图匹配的MDT片段;
[0048] 6.3、按照广度优先策略,按层遍历MDT;
[0049] 6.4、将MDT的节点从TRoot开始,按层数从小到大的顺序存入遍历队列Q;
[0050] 6.5、按遍历队列Q的顺序,将当前遍历到的节点Ni放入集合S1,并将查询子图的临时根节点M放入集合S2;
[0051] 6.6、比较S1与S2中节点的结构是否一致,即S1与S2中每一个对应节点的父子关系是否一致;若S1与S2中节点的结构一致,将M的子节点的集合L2中的节点依次加入集合S2;跳转至步骤6.8;
[0052] 6.7、若S1与S2中节点的结构不一致,设置i=i+1,清空S1与S2,跳转至步骤6.5;
[0053] 6.8、每当S2中新增一个节点L2k时,进行步骤6.9;
[0054] 6.9、读取节点Ni的子节点的集合L1中的节点,依次加入集合S1,S1中每加入一个节点L1j就与S2进行一次结构匹配;
[0055] 6.10、若L1与L2中的节点都已遍历完,清空L1和L2,然后在MDT中查找出S1中的叶子节点对应的原节点,并将这些原节点的子节点重新生成L1;在查询子图中查找出S2中叶子节点对应的原节点,并将这些原节点的子节点重新生成L2,跳转至步骤6.6;
[0056] 6.11、若查询子图的节点均已加入S2,则将S1中的结构保存于集合R中,并清空S1、S2、L1、L2,设置i=i+1,跳转至步骤6.5;
[0057] 6.12、当遍历队列Q中的节点遍历完成后,输入下一个查询子图,重复步骤6.5至6.12;
[0058] 6.13、直至六个查询子图都完成了查询,根据输出的匹配结果集合R,按照Mapping结构将MDT中的数据映射对应类型的图形结构中,从而生成可视化图形。
[0059] 再进一步,所述步骤6.8的处理过程为:
[0060] 6.9.1、若S1与S2匹配成功,设置k=k+1,向S2加入节点L2K,跳转至步骤6.8;
[0061] 6.9.2、若S1与S2匹配失败,则移除S1中刚加入的节点L1j,设置j=j+1,向S1中加入节点L1j,跳转至步骤6.9;
[0062] 所述2.1中,所述根节点内包含以下信息:
[0063] 2.1.1、星标isMark:记录JSON数据中最外层结构是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述如(1)(2),isMark的数据类型为数字NUMBER,若JSON数据中“键-值”对中的值VALUE为数组ARRAY,则isMark=1,否则isMark=0;“#”为数据类型定义符,“::=”为赋值符,〖A→condition⊕:〗表示若A符合条件condition,则该式值为B,否则该式值为C;
[0064] (1)、“isMark”#
[0065] (2)、“isMark”::=〖“VALUE”→ARRAY⊕<1>:<0>〗
[0066] 2.1.2、元素数量arrayNum:若当前节点的isMark为1,则记录数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述如(3)(4),arrayNum属性值为数字NUMBER类型,若JSON数据中“键-值”对中的值VALUE为ARRAY,则arrayNum等于VALUE数组的长度,否则arrayNum=0;
[0067] (3)、“arrayNum”#
[0068] (4)、“arrayNum”::=〖“VALUE”→ARRAY⊕
:<0>〗。[0069] 所述2.2中,所述索引节点内包含以下信息:
[0070] 2.2.1、节点名称name:name的数据类型为字符串STRING,name属性值为JSON数据中“键-值”对中的关键字KEY;name形式化定义表述如(5)(6);
[0071] (5)、“name”#
[0072] (6)、“name”::=
[0073] 2.2.2、节点值类型vType:vType是JSON数据中“键-值”对中的值VALUE的数据类型,属性值为对象OBJECT、数组ARRAY、字符串STRING、数字NUMBER、TRUE、FALSE之一;vType形式化定义表述如(7);
[0074] (7)、“vType”::=[OBJECT|ARRAY|STRING|NUMBER|TRUE|FALSE]
[0075] 2.2.3、星标(isMark):记录JSON数据中,以当前节点名称name作为关键字的“键-值”对中的值VALUE是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述同步骤2.1.1中的(1)(2);
[0076] 2.2.4、元素数量arrayNum:若当前节点的isMark为1,则记录“键-值”对中的值VALUE的数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述同步骤2.1.2中的(3)(4)。
[0077] 所述2.3中,所述数据节点内包含以下信息:
[0078] 2.3.1、节点名称name:保存JSON数据中“键-值”对中的关键字KEY,数据类型为字符串STRING;name形式化定义表述同步骤2.2.1中的(5)(6);
[0079] 2.3.2、节点值nValue:nValue的数据类型为STRING,属性值为JSON数据中“键-值”对中的值VALUE;nValue形式化定义表述如(8)(9);
[0080] (8)、“nValue”#
[0081] (9)、“nValue”::=
[0082] 2.3.3、节点类型type:保存JSON数据中“键-值”对中的值VALUE的数据类型,为“str”、“num”或NULL,其中“str”代表type的数据类型为STRING,“num”代表type的数据类型为NUMBER,NULL表示type的属性值为空;type形式化定义表述如(10);
[0083] (10)、“type”::=[“str”|“num”|NULL]。
[0084] 所述步骤3.2的处理过程如下:
[0085] 3.2.1、若VALUE的数据类型非OBJECT,同时非ARRAY,创建深度为level+1的数据节点,节点名称name为关键字KEY,节点值nValue为值VALUE,节点类型type为值VALUE的数据类型;完成后跳转至步骤3.2;
[0086] 3.2.2、若VALUE的数据类型为ARRAY,创建深度level’=level+1的索引节点,节点名称name为关键字KEY,节点值类型vType为ARRAY,isMark=1,元素数量arrayNum为当前VALUE数组中的元素个数;
[0087] 3.2.3、若VALUE的数据类型为OBJECT,创建深度level’=level+1的索引节点,节点名称name为每个OBJECT元素中的关键字KEY,节点值类型vType为每个OBJECT元素中的值VALUE的数据类型;若当前vType为ARRAY,则isMark=1,元素数量arrayNum为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
[0088] 3.2.4、将步骤3.2.3中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2。
[0089] 所述3.2.2的处理过程为:
[0090] 3.2.2.1、若所述3.2.2中的VALUE数组的元素不是OBJECT类型,则创建level”=level’+1的数据节点,节点名称name为关键字KEY,节点值nValue为值VALUE,节点类型type为值VALUE的数据类型;完成后跳转至步骤3.2;
[0091] 3.2.2.2、若所述3.2.2中的VALUE数组的元素是OBJECT类型,则创建level”=level’+1的索引节点,节点名称name为每个OBJECT元素中的关键字KEY,节点值类型vType为每个OBJECT元素中的值VALUE的数据类型,若当前vType为ARRAY,则isMark=1,元素数量arrayNum为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
[0092] 3.2.2.3、将步骤3.2.2.2中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2。
[0093] 所述5.4中,四种基础类别的VType属性的所属图形如下:
[0094] 5.4.1、General包括柱状图(BarChart)、折线图(LineChart)、饼图(PieChart)、雷达图(RadarChart)、散点图(ScatterChart);
[0095] 5.4.2、Topology包括网络图(NetworkChart)、树图(TreeMap)、面积树图(TreeMapChart);
[0096] 5.4.3、Map包括地区地图(AreaMapChart)、国家地图(CountryMapChart)、世界地图(WorldMapChart);
[0097] 5.4.4、Text包括词云(WorldCloudChart);
[0098] 所述5.5中,各类图形的映射关系Mapping及基本可视化结构StructModel定义如下:
[0099] 5.5.1、General类型中的图形通常用于表示二维数据或三维数据,可用二元组(XAxis,YAxis)或三元组(XAxis,YAxis,ZAxis)来表示信息,此类图形的Mapping结构如(15),其中LegendName表示图例名称,以ARRAY类型来存储各分组信息;根据Mapping结构可抽象出基础StructModel的结构如(16),StructModel的子节点为临时根节点Root,Root包含两个子节点:键值对K_V与图例节点LegendNode;
[0100] (15)、Mapping::=
[0101] (16)、StructModel::=>
[0102] 5.5.2、Topology类型中的图形通常用于表示拓扑关系数据,树图与面积树图可用嵌套的键值对{key:value,children:{key:value}}来表示属性结构,Mapping结构如(17);网络图可用节点集合(Nodes)和边集合(Links)来表示图结构,Mapping结构如(18),其中source表示一条边link的起始节点,target表示该条边link的指向节点;根据Mapping结构可抽象出基础StructModel的结构如(19),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含两个子节点:键值对K_V和孩子节点children,children的子结构为键值对K_V;Root2包含两个子节点:节点集合Nodes和边集合Links,节点集合的子节点为关键字key和值value,其中value可能为空,边集合的子节点为起点source和目标target;
[0103] (17)、Mapping::=>
[0104] (18)、Mapping::=>[0105] (19)、StructModel::=>>,>>
[0106] 5.5.3、Map类型中的图形通常用于表示地图信息,用键值对数组[{PlaceName:value}]或三元组数组[{lng,lat,value}]来表示地图信息,此类图形的Mapping结构如(20),其中PlaceName表示地名,lng表示纬度,lat表示经度;根据Mapping结构可抽象出基础StructModel的结构如(21),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含子子节点键值对K_V;Root2包含了三个子节点:经度lat,纬度lng,数值value;
[0107] (20)、Mapping::=
>>[0108] (21)、StructModel::=>,,,>[0109] 5.5.4、Text类型中的图形常用二元组(Keyword,frequency)来表示关键字频率,此类图形的Mapping结构如(22),其中Keyword为文本中提取出的词汇,frequency表示该词汇在文本中的出现频率;根据Mapping结构可抽象出基础StructModel的结构如(23),StructModel的子节点为临时根节点Root,Root包含了键值对K_V;[0110] (22)、Mapping::=
[0111] (23)、StructModel::=>。
[0112] 本发明的有益效果表现在:用户在调用REST API后,可以通过本方法智能理解服务响应的JSON数据结构,对其进行树形结构建模,生成标准化数据结构,便于寻找数据内在的数据关联性,并与常用的可视化图形模型——可视模型树VT进行匹配,自动化查找匹配结构,从而生成多种图形,同时在自动可视化过程中也能减少人工编辑操作,化简数据可视化流程。
附图说明
[0113] 图1示出了服务数据可视化建模与匹配方法的架构图。
[0114] 图2示出了2018世界杯REST API所返回的JSON数据结构图。
[0115] 图3示出了JSON数据转化的树形结构图。
[0116] 图4示出了JSON数据剪枝后的树形结构图。
[0117] 图5示出了可视模型树VT的结构图。
具体实施方式
[0118] 下面结合附图对本发明作进一步描述。
[0119] 参照图1~图5,一种云计算环境下面向REST架构风格的服务数据可视化建模与匹配方法,包括以下步骤:
[0120] 第一步:构建服务数据可视化建模与匹配方法的架构,参照图1,包括三个模块:数据建模(Data Modeling)、图形建模(Graphics Modeling)、匹配引擎(Matching Processor);
[0121] 1.1、数据建模:从Internet获取的REST服务经解析器(REST Service Parser)解析后进行注册,存储于缓存cache或数据库Database中,自动调用后所获取的基于JSON的REST服务数据,通过服务数据建模(Service Data Modeling)将服务数据转变为标准化模型,并抽取出主要数据结构生成元数据树MDT;
[0122] 1.2、图形建模:对多种配置型可视化工具(如ECharts、HighCharts、D3.js、Chart.js)所支持的图形进行数据结构分析与归纳(Structural Analysis),整理出主要图形的通用数据结构及数据映射关系,再根据上述信息进行可视化图形建模(Visual Graphics Modeling),创建描述性可视模型——VisualModel Tree(简称VT);
[0123] 1.3、匹配引擎:调取数据建模所生成的MDT,从MDT中搜索与VT中的图形结构模型匹配的数据结构片段,来查询源数据可生成的图形种类,并根据映射关系信息(Mpping)自动化生成可视化图形(Visual Graphics);
[0124] 第二步:定义元数据树(MDT),包括根节点(Tree_Root,简写为TRoot)、索引节点(Index_Node,简写为INode)、数据节点(Data_Node,简写为DNode),同时用深度(level)来表示节点在树结构中的层数,根节点默认为第一层,即level=1;
[0125] 2.1、根节点:MDT的根节点,即MDT的起始节点;
[0126] 2.2、索引节点:代表JSON数据中每一个关键字(KEY),但不包括JSON数据中最内层的“键-值”对的关键字,索引节点为非根节点、非叶子节点;
[0127] 2.3、数据节点:代表JSON数据中最内层的“键-值”对,存储为叶子节点;
[0128] 所述2.1中,所述根节点内包含以下信息:
[0129] 2.1.1、星标(isMark):记录JSON数据中最外层结构是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述如(1)(2),isMark的数据类型为数字(NUMBER),若JSON数据中“键-值”对中的值(VALUE)为数组(ARRAY),则isMark=1,否则isMark=0;“#”为数据类型定义符,“::=”为赋值符,〖A→condition⊕:〗表示若A符合条件condition,则该式值为B,否则该式值为C;
[0130] (1)、“isMark”#
[0131] (2)、“isMark”::=〖“VALUE”→ARRAY⊕<1>:<0>〗
[0132] 2.1.2、元素数量(arrayNum):若当前节点的isMark为1,则记录数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述如(3)(4),arrayNum属性值为数字(NUMBER)类型,若JSON数据中“键-值”对中的值(VALUE)为ARRAY,则arrayNum等于VALUE数组的长度,否则arrayNum=0;
[0133] (3)、“arrayNum”#
[0134] (4)、“arrayNum”::=〖“VALUE”→ARRAY⊕
:<0>〗[0135] 所述2.2中,所述索引节点内包含以下信息:
[0136] 2.2.1、节点名称(name):name的数据类型为字符串(STRING),name属性值为JSON数据中“键-值”对中的关键字(KEY);name形式化定义表述如(5)(6);
[0137] (5)、“name”#
[0138] (6)、“name”::=
[0139] 2.2.2、节点值类型(vType):vType是JSON数据中“键-值”对中的值(VALUE)的数据类型,属性值为对象(OBJECT)、数组(ARRAY)、字符串(STRING)、数字(NUMBER)、TRUE、FALSE之一;vType形式化定义表述如(7);
[0140] (7)、“vType”::=[OBJECT|ARRAY|STRING|NUMBER|TRUE|FALSE]
[0141] 2.2.3、星标(isMark):记录JSON数据中,以当前节点名称(name)作为关键字的“键-值”对中的值(VALUE)是否为数组类型,若是用1标记,若否用0标记;isMark形式化定义表述同步骤2.1.1中的(1)(2);
[0142] 2.2.4、元素数量(arrayNum):若当前节点的isMark为1,则记录“键-值”对中的值(VALUE)的数组元素个数,若当前节点的isMark为0,则用0标记;arrayNum形式化定义表述同步骤2.1.2中的(3)(4)
[0143] 所述2.3中,所述数据节点内包含以下信息:
[0144] 2.3.1、节点名称(name):保存JSON数据中“键-值”对中的关键字(KEY),数据类型为字符串(STRING);name形式化定义表述同步骤2.2.1中的(5)(6);
[0145] 2.3.2、节点值(nValue):nValue的数据类型为STRING,属性值为JSON数据中“键-值”对中的值(VALUE);nValue形式化定义表述如(8)(9);
[0146] (8)、“nValue”#
[0147] (9)、“nValue”::=
[0148] 2.3.3、节点类型(type):保存JSON数据中“键-值”对中的值(VALUE)的数据类型,为“str”、“num”或NULL,其中“str”代表type的数据类型为STRING,“num”代表type的数据类型为NUMBER,NULL表示type的属性值为空;type形式化定义表述如(10);
[0149] (10)、“type”::=[“str”|“num”|NULL]
[0150] 第三步:读取调用的REST API所返回的JSON数据,将JSON数据集ds作为建模算法的输入,对ds进行树形结构建模,步骤如下:
[0151] 3.1、创建一棵根节点为TRoot的MDT,TRoot是起始节点,根节点的深度(level)默认为1;
[0152] 3.2、读取JSON数据集ds,如果是首次读取ds,设置ds的第一个元素为当前元素,元素包括关键字(KEY)及其值(VALUE);否则设置ds的下一个元素为当前元素;若JSON数据最外层就是ARRAY,则TRoot的isMark=1,元素数量(arrayNum)为ARRAY元素个数;
[0153] 3.2.1、若VALUE的数据类型非OBJECT,同时非ARRAY,创建深度为level+1的数据节点,节点名称(name)为关键字(KEY),节点值(nValue)为值(VALUE),节点类型(type)为值(VALUE)的数据类型;完成后跳转至步骤3.2;
[0154] 3.2.2、若VALUE的数据类型为ARRAY,创建深度level’=level+1的索引节点,节点名称(name)为关键字(KEY),节点值类型(vType)为ARRAY,isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;
[0155] 3.2.2.1、若所述3.2.2中的VALUE数组的元素不是OBJECT类型,则创建level”=level’+1的数据节点,节点名称(name)为关键字(KEY),节点值(nValue)为值(VALUE),节点类型(type)为值(VALUE)的数据类型;完成后跳转至步骤3.2;
[0156] 3.2.2.2、若所述3.2.2中的VALUE数组的元素是OBJECT类型,则创建level”=level’+1的索引节点,节点名称(name)为每个OBJECT元素中的关键字(KEY),节点值类型(vType)为每个OBJECT元素中的值(VALUE)的数据类型。若当前vType为ARRAY,则isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
[0157] 3.2.2.3、将步骤3.2.2.2中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2;
[0158] 3.2.3、若VALUE的数据类型为OBJECT,创建深度level’=level+1的索引节点,节点名称(name)为每个OBJECT元素中的关键字(KEY),节点值类型(vType)为每个OBJECT元素中的值(VALUE)的数据类型。若当前vType为ARRAY,则isMark=1,元素数量(arrayNum)为当前VALUE数组中的元素个数;若当前vType不为ARRAY,则isMark=0,arrayNum=0;
[0159] 3.2.4、将步骤3.2.3中VALUE数组作为新的JSON数据集ds’,跳转至步骤3.2。
[0160] 第四步:由于JSON数据集中可能存在批量数据,批量数据通常以相同的数据结构形式存在,在数据集中常用数组的形式表现;若是用户的对于JSON数据分析的重点不在于数据的
定位、查询,而是针对数据结构的分析,在上述JSON数据解析建模的方法基础上,可以通过剪枝的方法,保留基本的数据结构信息,剪除相同的重复数据结构,缩小模型的体量,但仍然保留基础的数据结构,降低JSON数据结构所带来的查询开销,方法步骤如下:
[0161] 4.1、从level=1的TRoot开始,按广度优先策略,按层遍历MDT的根节点与索引节点;广度优先策略将按level逐层遍历MDT,从level=1的第一层开始遍历,当level层的节点遍历完成后,再继续遍历level+1层的节点;
[0162] 4.2、将MDT的TRoot存入遍历队列;
[0163] 4.3、按遍历队列顺序,读取每个节点的isMark属性;
[0164] 4.3.1、若遍历到的节点的isMark属性值为1,则保留当前节点的第一个子节点,剪除其余的子节点及其子节点的子树结构,跳转至步骤4.3.4;
[0165] 4.3.2、若遍历到的节点的isMark属性值为0,则不进行任何操作,跳转至步骤4.3.4;
[0166] 4.3.3、若遍历到的节点为数据节点,将当前节点从遍历队列中删除,跳转至步骤4.3;
[0167] 4.3.4、将当前遍历到的节点的子节点加入遍历队列,并将当前节点从遍历队列中删除,再跳转至步骤4.3;
[0168] 4.4、当遍历队列中全部为数据节点时或遍历队列为空时,停止遍历,结束方法;
[0169] 4.5、输出剪枝后的MDT。
[0170] 第五步:参照图5,对可视化图形进行分类,归纳总结各类图形的属性及结构特征,通过建模创建一种可视模型树(Visualization Tree,简称VT),来形式化地表述各类图形信息;
[0171] 5.1、定义VT包括基础属性(BASICATTRIBUTE)和可视结构(DVSCHEMA)两个部分,形式化定义如(11),其中BASICATTRIBUTE保存了图形标题、副标题及其他文本样式的通用信息;
[0172] (11)、VisualModel::=
[0173] 5.2、BASICATTRIBUTE包括三个属性:标题(title)、子标题(subtitle)、属性(attributes),形式化定义如(12),title用于保存最终生成的可视化图形的标题,subtitle用于保存最终生成的可视化图形的子标题,attributes用于保存最终生成的可视化图形的位置、颜色组合、字体、字号设置参数;
[0174] (12)、BASICATTRIBUTE::=
[0175] 5.3、BASICATTRIBUTE根据图形所需的数据类型、图形数据结构、图形维度将常见的可视化图形归纳为四种基础类别:一般图形(General)、拓扑图(Topology)、地图(Map)、文本图形(Text),形式化定义如(13);
[0176] (13)、DVSCHEMA::=
[0177] 5.4、步骤5.3中的四种基础类别下属均分别包含两个属性:图形类型(VType)和图形结构(StructModel),VType保存了该类别所属图形种类,StructModel保存了该类别所属图形的基本可视化结构,形式化定义如(14),“A::B”表示“A包含了属性B”;
[0178] (14)、DVSCHEMA::=
[0180] 5.4.1、General包括柱状图(BarChart)、折线图(LineChart)、饼图(PieChart)、雷达图(RadarChart)、散点图(ScatterChart);
[0181] 5.4.2、Topology包括网络图(NetworkChart)、树图(TreeMap)、面积树图(TreeMapChart);
[0182] 5.4.3、Map包括地区地图(AreaMapChart)、国家地图(CountryMapChart)、世界地图(WorldMapChart);
[0183] 5.4.4、Text包括词云(WorldCloudChart);
[0184] 5.5、步骤5.4中四种基础类别均有各自的映射关系(Mapping),描述了各类图形的数据结构、数据维度、图形结构关系、数据映射位置信息;根据Mapping信息并结合图形的数据结构,可以抽象出各类图形的基本可视化结构StructModel,步骤三中所生成的MDT将与StructModel进行匹配,来判断REST API的返回数据能够生成何种可视化图形;
[0185] 5.5.1、General类型中的图形通常用于表示二维数据或三维数据,可用二元组(XAxis,YAxis)或三元组(XAxis,YAxis,ZAxis)来表示信息,此类图形的Mapping结构如(15),其中LegendName表示图例名称,以ARRAY类型来存储各分组信息;根据Mapping结构可抽象出基础StructModel的结构如(16),StructModel的子节点为临时根节点Root,Root包含两个子节点:键值对K_V与图例节点LegendNode;
[0186] (15)、Mapping::=
[0187] (16)、StructModel::=>
[0188] 5.5.2、Topology类型中的图形通常用于表示拓扑关系数据,树图与面积树图可用嵌套的键值对{key:value,children:{key:value}}来表示属性结构,Mapping结构如(17);网络图可用节点集合(Nodes)和边集合(Links)来表示图结构,Mapping结构如(18),其中source表示一条边link的起始节点,target表示该条边link的指向节点;根据Mapping结构可抽象出基础StructModel的结构如(19),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含两个子节点:键值对K_V和孩子节点children,children的子结构为键值对K_V;Root2包含两个子节点:节点集合Nodes和边集合Links,节点集合的子节点为关键字key和值value,其中value可能为空,边集合的子节点为起点source和目标target;
[0189] (17)、Mapping::=>
[0190] (18)、Mapping::=>[0191] (19)、StructModel::=>>,>>
[0192] 5.5.3、Map类型中的图形通常用于表示地图信息,用键值对数组[{PlaceName:value}]或三元组数组[{lng,lat,value}]来表示地图信息,此类图形的Mapping结构如(20),其中PlaceName表示地名,lng表示纬度,lat表示经度;根据Mapping结构可抽象出基础StructModel的结构如(21),StructModel有两个子结构,Root1和Root2分别为两个子结构的临时根节点,Root1包含子子节点键值对K_V;Root2包含了三个子节点:经度lat,纬度lng,数值value;
[0193] (20)、Mapping::=>>[0194] (21)、StructModel::=>,,,>[0195] 5.5.4、Text类型中的图形常用二元组(Keyword,frequency)来表示关键字频率,此类图形的Mapping结构如(22),其中Keyword为文本中提取出的词汇,frequency表示该词汇在文本中的出现频率;根据Mapping结构可抽象出基础StructModel的结构如(23),StructModel的子节点为临时根节点Root,Root包含了键值对K_V;
[0196] (22)、Mapping::=
[0197] (23)、StructModel::=>
[0198] 第六步:将可视模型树VT与MDT进行匹配查询,查找MDT中与VT的各个StructModel匹配的片段,并根据Mapping信息进行数据映射,生成可视化图形;
[0199] 6.1、解析VT中四种基础类别的StructModel,提取每种StructModel中的临时根节点及其子结构,每一个临时根节点及其子结构构成的树结构片段将作为查询子图,根据步骤5.5.1至5.5.4可以提取出六个查询子图:General类型的StructModel的下属Root为起点的子结构,Topology类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Map类型的StructModel的下属分别以Root1和Root2为起点的两个子结构,Text类型的StructModel的下属Root为起点的子结构;
[0200] 6.2、将MDT作为目标图,所述6.1中的六个查询子图依次作为输入,每输入一个查询子图就遍历一次MDT,查找与当前输入的查询子图匹配的MDT片段;
[0201] 6.3、按照广度优先策略,按层遍历MDT;
[0202] 6.4、将MDT的节点从TRoot开始,按层数从小到大的顺序存入遍历队列Q;
[0203] 6.5、按遍历队列Q的顺序,将当前遍历到的节点Ni放入集合S1,并将查询子图的临时根节点M放入集合S2;
[0204] 6.6、比较S1与S2中节点的结构是否一致,即S1与S2中每一个对应节点的父子关系是否一致;若S1与S2中节点的结构一致,将M的子节点的集合L2中的节点依次加入集合S2;跳转至步骤6.8;
[0205] 6.7、若S1与S2中节点的结构不一致,设置i=i+1,清空S1与S2,跳转至步骤6.5;
[0206] 6.8、每当S2中新增一个节点L2k时,进行步骤6.9;
[0207] 6.9、读取节点Ni的子节点的集合L1中的节点,依次加入集合S1,S1中每加入一个节点L1j就与S2进行一次结构匹配;
[0208] 6.9.1、若S1与S2匹配成功,设置k=k+1,向S2加入节点L2K,跳转至步骤6.8;
[0209] 6.9.2、若S1与S2匹配失败,则移除S1中刚加入的节点L1j,设置j=j+1,向S1中加入节点L1j,跳转至步骤6.9;
[0210] 6.10、若L1与L2中的节点都已遍历完,清空L1和L2,然后在MDT中查找出S1中的叶子节点对应的原节点,并将这些原节点的子节点重新生成L1;在查询子图中查找出S2中叶子节点对应的原节点,并将这些原节点的子节点重新生成L2,跳转至步骤6.6;
[0211] 6.11、若查询子图的节点均已加入S2,则将S1中的结构保存于集合R中,并清空S1、S2、L1、L2,设置i=i+1,跳转至步骤6.5;
[0212] 6.12、当遍历队列Q中的节点遍历完成后,输入下一个查询子图,重复步骤6.5至6.12;
[0213] 6.13、直至六个查询子图都完成了查询,根据输出的匹配结果集合R,按照Mapping结构将MDT中的数据映射对应类型的图形结构中,从而生成可视化图形。
[0214] 实例:图2示出了2018世界杯REST API所返回的JSON数据结构图。World Cup in JSON API的供应商为Software For Good,这是一个体育类的API,它的发布主页为http://worldcup.sfg.io,文档主页URL为https://github.com/estiens/world_cup_json。在所示JSON数据结构中展示了2018世界杯第一场比赛信息,fifa_id标注了比赛的ID,weather包含了比赛当天的比赛地区的天气信息,attendance表示该场比赛的观众人数,officials包含了该场比赛的工作人员名单,home_team和away_team介绍了该场比赛两支对阵队伍的信息,home_team_events和away_team_events包含了比赛中对阵双方的判、罚事件,home_team_statistics和away_team_statistics包含了在该场比赛中对阵队伍的比赛数据统计信息。
[0215] 图3是基于我们的方法步骤二得到的JSON数据转化的树形结构图。图中tree_root为MDT的根节点(TRoot),index_node为索引节点(INode),data_node为数据节点(DNode)。在level为1的根节点TRoot下,level=2的每一个INode都包含了一场比赛的信息,下层的每一个节点代表一个属性和它的值。其中,level=3的home_team_statistics属性,包含了on_target、off_target、blocked、offsides属性,则在home_team_statistics节点下创建level=4的on_target、off_target、blocked、offsides节点作为DNode。在图2的MDT中,TRoot的属性isMark=1,因为2018世界杯的64场比赛信息以数组形式返回;除根节点外,有子节点的节点为索引节点,即JSON数据中,VALUE为ARRAY类型或OBJECT类型的节点均为索引节点;MDT中的叶子节点为数据节点,即JSON数据中,VALUE不为ARRAY类型,也不为OBJECT类型的节点均为数据节点。图2展示的就是2018世界杯JSON数据的树形模型。
[0216] 图4示出了JSON数据剪枝后的树形结构图。“比赛1”至“比赛64”的信息以数组形式返回,即TRoot的isMark属性值为1。每一场比赛数据中都包含了相同的属性,即每场比赛数据的子结构是一致的,只需保留一场比赛的信息结构,就能知道所有比赛的信息结构,所以保留“比赛1”分支,剪除其余分支信息。在“比赛1”分支下的home_team_event属性中,每一事件都作为一个数组元素,每个事件都包含了id、type_of_event、player、time四个属性,只需保留一个数组元素,就能知道所有事件的信息结构,所以保留第一个事件的分支,剪除其余分支信息。依次对于所有isMark=1的节点都进行如步骤三的剪枝,就能获得化简后的MDT。
[0217] 使用本方法能够生成2018世界杯数据的多种图形,如第一轮小组赛信息汇总的柱状图:横轴为attempts_on_goal、on_target、off_target、blocked、wookwork、corners、offsides、ball_possession、pass_accuracy、distance_covered、balls_recovered、tackles、clearances、yellow_cards、red_cards、fouls_committed,纵轴为数值,图例为参赛的32个国家的名称,此柱状图可以表现出各个国家队在各个指标中的表现情况,并能明显地对比国家间的
水平;也能够生成半决赛信息汇总的饼图:图例为参加半决赛的法国、英格兰、比利时、克罗地亚,其中八张饼图的比较指标为:射
门次数、进球数、铲球次数、抢断次数、传球准确率、守门成功次数,每张图中根据国家对应的图例颜色占比的大小,可以了解每支队伍在该方面的表现情况;还能够生成决赛信息汇总的雷达图:极轴为attempts_on_goal、on_target、off_target、blocked、offsides、corners、ball_possession、pass_accuracy、distance_covered、balls_recovered、tackles、clearances、fouls_committed,图例为法国和克罗地亚,此雷达图可以表现出两支队伍在各个指标中的能力分布情况,法国队的守门员在防守上非常出色,克罗地亚队在进攻射门上非常猛烈。