首页 / 专利库 / 资料储存系统 / 数据库管理系统 / 一种基于PostgreSQL和众包的不完整数据查询处理方法

一种基于PostgreSQL和众包的不完整数据查询处理方法

阅读:377发布:2020-05-14

专利汇可以提供一种基于PostgreSQL和众包的不完整数据查询处理方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于PostgreSQL和众包的不完整数据查询处理方法,该方法利用众包(又名群智计算)技术,将人类解决问题的优势应用到本发明中,对不完整数据进行补全,进一步对于补全后的数据进行Skyline查询、Top‑k查询和区域查询,返回更加满足用户需求的查询结果。本方法先通过计算中心确定需要清洗的数据,并通过扩展SQL数据定义语言生成用户 接口 ;然后通过HIT管理器向众包平台发布任务,进行数据补全;最后根据补全后的数据进行查询,得到查询结果。本发明基于PostgreSQL,为应用程序开发者提供了通用的查询接口,利用众包技术对数据进行补全,且查询效率、查询结果准确性明显好于现有的方法,提供了最佳性能。,下面是一种基于PostgreSQL和众包的不完整数据查询处理方法专利的具体信息内容。

1.一种基于PostgreSQL和众包的不完整数据查询处理方法,其特征在于:该方法包括如下步骤:
步骤(1):数据库管理系统采用PostgreSQL,应用程序提交查询类型,该查询类型包括Skyline查询、Top-k查询和区域查询;计算中心运算确定需要补全的数据;所述步骤(1)具体为:
数据库管理系统采用PostgreSQL ,PostgreSQL允许数据缺失,应用程序提交查询类型,该查询类型包括Skyline查询、Top-k查询和区域查询;计算中心确定需要补全数据的步骤需要分三种查询情况考虑:
1)针对区域查询,确定需要补全的数据的步骤如下:
a)对不完整数据对象,计算它能包含在查询结果集中的概率;
b)所有不完整数据对象按照概率值由大到小排序;
c)选取序列中前N个不完整数据对象作为需要补全的数据;
2)针对Skyline查询,确定需要补全的数据的步骤如下:
a)将所有不完整数据对象按照缺失维度进行分组;
b)在每个分组中,确定组内各个点所支配的点个数,并对所有点按照支配点个数由大到小排序;
c) 选取所有分组中前N个不完整数据对象作为需要补全的数据;
3)针对Top-k查询,确定需要补全的数据的步骤如下:
a) 将所有不完整数据对象按照缺失维度进行分组;
b)在每个分组中,计算各个对象能够包含在查询结果集中的期望值,并按照期望值由大到小排序;
c) 选取所有分组中前N个不完整数据对象作为需要补全的数据;
步骤(2):对于步骤(1)得到的需要补全的数据,用户接口处理器通过扩展的SQL数据定义语言生成用户接口;
步骤(3):HIT管理器利用步骤(2)中生成的用户接口以及用户可读指令,向众包平台发布人工智能任务服务HIT;
步骤(4):步骤(3)中HIT完成后返回结果,反馈到数据库管理系统PostgreSQL中,以补全缺失数据;
步骤(5):通过Skyline查询、Top-k查询或区域查询来查询补全后的数据,并向应用程序返回查询结果。
2.根据权利要求1所述的一种基于PostgreSQL和众包的不完整数据查询处理方法,其特征在于:步骤(2)中用户接口处理器通过扩展SQL数据定义语言对步骤(1)中计算出需要补全的数据生成表单,需要补全的数据中的完整数据字段直接显示,缺失数据字段会根据用户约束,生成评分、输入文本框或单选/多选框用户接口,用于填入补全数据。
3.根据权利要求1所述的一种基于PostgreSQL和众包的不完整数据查询处理方法,其特征在于:所述步骤(3)具体为:HIT管理器通过调用相应的众包平台提供的应用程序接口,按照步骤(2)中生成的用户接口,在众包平台上发布任务HIT。
4.根据权利要求1所述的一种基于PostgreSQL和众包的不完整数据查询处理方法,其特征在于:所述步骤(4)具体为:步骤(3)中HIT完成后,HIT管理器同样通过调用应用程序接口,获取HIT结果,并向众包平台反馈众包工作者的工作表现;HIT的结果即为用户针对需要补全的数据填补后的数据,并将其插入PostgreSQL中。

说明书全文

一种基于PostgreSQL和众包的不完整数据查询处理方法

技术领域

[0001] 本发明涉及数据库查询处理技术,特别是一种基于PostgreSQL和众包的不完整数据查询处理方法。

背景技术

[0002] 不完整数据是指存在维度缺失的数据。随着以博客、社交网络、电子商务等为代表的新型信息发布方式的不断涌现,以及计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和累积。然而与此同时,数据缺失也无处不在。因此,针对不完整数据的分析处理以及查询算法成为了研究热点。
[0003] PostgreSQL是由美国加州大学伯克利分校开发的一个关系型数据库管理系统。它支持大多数的SQL操作,并采用经典的C/S接口,提供了统一的服务器端C接口。PostgreSQL是便利可行的数据库扩展工具和平台。
[0004] 众包,又名群体计算,是指通过互联网,将要解决的问题发布到网上,由多个用户来完成的方法。虽然现有的计算机技术已经得到了长足的发展,但仍有一些不能解决或者解决起来比较麻烦的问题。这些问题如果由人来解决,可能会有意想不到的结果(如图片识别,数据补全等)。在众包过程中,每个发布的任务被称之为人工智能任务服务(HIT,Human Intelligence Task)。利用众包来处理缺失数据,最大的挑战是在改变了传统数据库关于封闭世界的假设后,如何设计合理的回答监督机制,并保证数据处理时间、效率、费用合理化。
[0005] 目前基于众包的不完整数据查询,已有CrowdDB,但CrowdDB只能支持众包操作的一个SQL最小扩展,还有很多工作并没有实现。一些复杂的查询(如Skyline查询和区域查询等)并不支持。

发明内容

[0006] 针对上述不足,本发明提供一种基于PostgreSQL和众包的不完整数据查询处理方法,该方法中将众包查询扩展至Skyline查询、Top-k查询和区域查询。
[0007] 本发明解决其技术问题采用技术方案的步骤如下:一种基于PostgreSQL和众包的不完整数据查询处理方法,该方法包括如下步骤:
[0008] 步骤(1):数据库管理系统采用PostgreSQL,应用程序提交查询类型,计算中心运算确定需要补全的数据;
[0009] 步骤(2):对于步骤(1)得到的需要补全的数据,用户接口处理器通过扩展的SQL数据定义语言生成用户接口;
[0010] 步骤(3):HIT管理器利用步骤(2)中生成的用户接口以及用户可读指令,向众包平台发布人工智能任务服务HIT;
[0011] 步骤(4):步骤(3)中HIT完成后返回结果,反馈到数据库管理系统PostgreSQL中,以补全缺失数据;
[0012] 步骤(5):查询补全后的数据,并向应用程序返回查询结果。
[0013] 进一步的,所述步骤(1)具体为:
[0014] 数据库管理系统采用PostgreSQL,PostgreSQL允许数据缺失,应用程序提交查询类型,该查询类型包括Skyline查询、Top-k查询和区域查询;计算中心确定需要补全数据的步骤需要分三种查询情况考虑:
[0015] 1)针对区域查询,确定需要补全的数据的步骤如下:
[0016] a)对不完整数据对象,计算它能包含在查询结果集中的概率;
[0017] b)所有不完整数据对象按照概率值由大到小排序;
[0018] c)选取序列中前N个不完整数据对象作为需要补全的数据。
[0019] 2)针对Skyline查询,确定需要补全的数据的步骤如下:
[0020] a)将所有不完整数据对象按照缺失维度进行分组;
[0021] b)在每个分组中,确定组内各个点所支配的点个数,并对所有点按照支配点个数由大到小排序;
[0022] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。
[0023] 3)针对Top-k查询,确定需要补全的数据的步骤如下:
[0024] a)将所有不完整数据对象按照缺失维度进行分组;
[0025] b)在每个分组中,计算各个对象能够包含在查询结果集中的期望值,并按照期望值由大到小排序;
[0026] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。
[0027] 进一步的,步骤(2)中用户接口处理器通过扩展SQL数据定义语言对步骤(1)中计算出需要补全的数据生成表单,需要补全的数据中的完整数据字段直接显示,缺失数据字段会根据用户约束,生成评分、输入文本框或单选/多选框用户接口,用于填入补全数据。
[0028] 进一步的,所述步骤(3)具体为:HIT管理器通过调用相应的众包平台提供的应用程序接口,按照步骤(2)中生成的用户接口,在众包平台上发布任务HIT。
[0029] 进一步的,所述步骤(4)具体为:步骤(3)中HIT完成后,HIT管理器同样通过调用应用程序接口,获取HIT结果,并向众包平台反馈众包工作者的工作表现;HIT的结果即为用户针对需要补全的数据填补后的数据,并将其插入PostgreSQL中。
[0030] 进一步的,所述步骤(5)具体为:
[0031] 通过Skyline查询、Top-k查询或区域查询来查询补全后的数据,并向应用程序返回查询结果。
[0032] 本发明具有的有益效果是:本发明充分利用了众包技术和群众的量对不完整数据进行补全,以提高数据质量;利用关系型数据管理系统PostgreSQL,将众包任务的发布封装进数据库内部,使得普通的应用开发者并不需要关注与众包平台的交互过程,对复杂的Skyline查询、Top-k查询和区域查询能够返回更能满足用户需求的查询结果。附图说明
[0033] 图1是本发明的实施步骤流程图

具体实施方式

[0034] 现结合附图和具体实施对本发明的技术方案作进一步说明:
[0035] 如图1所示,本发明具体实施过程和工作原理如下:
[0036] 步骤(1):数据库管理系统采用PostgreSQL,在PostgreSQL中,数据缺失值表示为cnull,cnull值可以被普通SQL语句查询,也可以利用众包补全;当应用程序提交查询类型,查询类型包括Skyline查询、Top-k查询和区域查询;针对不同查询类型,计算中心采用不同策略确定需要补全的数据;图1中计算中心确定需要补全数据的步骤需要分三种查询情况考虑:
[0037] 1)针对区域查询,确定需要补全的数据的步骤如下:
[0038] a)对不完整数据对象,计算它能包含在查询结果集中的概率;
[0039] b)所有不完整数据对象按照概率值由大到小排序;
[0040] c)选取序列中前N个不完整数据对象作为需要补全的数据。
[0041] 2)针对Skyline查询,确定需要补全的数据的步骤如下:
[0042] a)将所有不完整数据对象按照缺失维度进行分组;
[0043] b)在每个分组中,确定组内各个点所支配的点个数,并对所有点按照支配点个数由大到小排序;
[0044] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。
[0045] 3)针对Top-k查询,确定需要补全的数据的步骤如下:
[0046] a)将所有不完整数据对象按照缺失维度进行分组;
[0047] b)在每个分组中,计算各个对象能够包含在查询结果集中的期望值,并按照期望值由大到小排序;
[0048] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。
[0049] 表一是NBA球员得分统计数据集,存在数据缺失,即是一个不完整数据集,当应用程序向系统发起一个Skyline查询请求,计算中心针对Skyline查询确定需要补全数据算法的具体实施方式如下:
[0050] 1)将所有元组按照缺失维度分组,由表一可以看出,球员编号1、4、6、7为一组,编号2、3、5为一组;
[0051] 2)计算各分组中元组的支配点个数,以球员Jae Crowder为例,在分组中支配编号为4、6的球员,所以支配点个数为2;同理计算剩余点,并按照支配点个数从高到低排序,结果为{7,3,5,2,1,4,6};
[0052] 3)N设置为4,因此需要补全的数据对象是前四个数据项,即编号为7,3,5,2的元组;
[0053] 步骤(2):用户接口处理器根据计算中心计算出的需要补全的数据生成表单,需要补全的数据中的完整数据字段直接显示,缺失数据字段会根据用户约束,生成评分、输入文本框、下拉单选/多选框用户接口,用于填入补全数据,表单形式直观且用户体验好;
[0054] 步骤(3):HIT管理器通过调用相应的众包平台提供的应用程序接口,按照步骤(2)中生成的用户接口,在众包平台上发布任务HIT;
[0055] 步骤(4):HIT完成后,HIT管理器同样通过调用应用程序接口,获取HIT结果,并向众包平台反馈众包工作者的工作表现;HIT的结果即为用户针对需要补全的数据填补后的数据,并将其插入PostgreSQL中,即将相应的cnull值替换为数据补全结果;
[0056] 以表一和表二中所示数据集为例,HIT完成后,得到编号为7的球员场均助攻次数为5.4,并将其插入数据库系统中,同样,编号3、5、2元组填补后将PostgreSQL中的缺失数据更新;
[0057] 步骤(5):通过Skyline查询、Top-k查询或区域查询来查询补全后的数据,并向应用程序返回查询结果;
[0058] 以表一和表二所示数据集为例,表二是经过清洗后数据集,进行Skyline查询,得到Skyline点集合为{1,5,7},并将查询结果返回给应用程序。
[0059] 表一:
[0060] 编号 球员姓名 投篮得分 助攻次数 抢断次数 盖帽次数1 Avery Bradley 1.0 cnull 1.1 0.2
2 Brandon Wright 0.3 1.0 0.1 cnull
3 Dwight Powell 2.1 1.3 0.5 cnull
4 Evan Turner 0.2 cnull 0.4 1.0
5 Gerald Wallace 1.3 5.5 1.0 cnull
6 Isaiah Thomas 0.2 cnull 0.5 0.6
7 Jae Crowder 5.6 cnull 0.6 1.0
[0061] 表二:
[0062] 编号 球员姓名 投篮得分 助攻次数 抢断次数 盖帽次数1 Avery Bradley 1.0 cnull 1.1 0.2
2 Brandon Wright 0.3 1.0 0.1 0.6
3 Dwight Powell 2.1 1.3 0.5 0.4
4 Evan Turner 0.2 cnull 0.4 1.0
5 Gerald Wallace 1.3 5.5 1.0 0.5
6 Isaiah Thomas 0.2 cnull 0.5 0.6
7 Jae Crowder 5.6 5.4 0.6 1.0
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈