一种基于PostgreSQL和众包的不完整数据查询处理方法专利检索-数据库管理系统资料储存系统专利检索查询-专利查询网

一种基于PostgreSQL和众包的不完整数据查询处理方法

阅读：377发布：2020-05-14

专利汇可以提供一种基于PostgreSQL和众包的不完整数据查询处理方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于PostgreSQL和众包的不完整数据查询处理方法，该方法利用众包(又名群智计算)技术，将人类解决问题的优势应用到本发明中，对不完整数据进行补全，进一步对于补全后的数据进行Skyline查询、Top‑k查询和区域查询，返回更加满足用户需求的查询结果。本方法先通过计算中心确定需要清洗的数据，并通过扩展SQL数据定义语言生成用户接口；然后通过HIT管理器向众包平台发布任务，进行数据补全；最后根据补全后的数据进行查询，得到查询结果。本发明基于PostgreSQL，为应用程序开发者提供了通用的查询接口，利用众包技术对数据进行补全，且查询效率、查询结果准确性明显好于现有的方法，提供了最佳性能。，下面是一种基于PostgreSQL和众包的不完整数据查询处理方法专利的具体信息内容。

权利要求

1.一种基于PostgreSQL和众包的不完整数据查询处理方法，其特征在于：该方法包括如下步骤：
步骤（1）：数据库管理系统采用PostgreSQL，应用程序提交查询类型，该查询类型包括Skyline查询、Top-k查询和区域查询；计算中心运算确定需要补全的数据；所述步骤（1）具体为：
数据库管理系统采用PostgreSQL ，PostgreSQL允许数据缺失，应用程序提交查询类型，该查询类型包括Skyline查询、Top-k查询和区域查询；计算中心确定需要补全数据的步骤需要分三种查询情况考虑：
1)针对区域查询，确定需要补全的数据的步骤如下：
a)对不完整数据对象，计算它能包含在查询结果集中的概率；
b)所有不完整数据对象按照概率值由大到小排序；
c)选取序列中前N个不完整数据对象作为需要补全的数据；
2)针对Skyline查询，确定需要补全的数据的步骤如下：
a)将所有不完整数据对象按照缺失维度进行分组；
b)在每个分组中，确定组内各个点所支配的点个数，并对所有点按照支配点个数由大到小排序；
c) 选取所有分组中前N个不完整数据对象作为需要补全的数据；
3)针对Top-k查询，确定需要补全的数据的步骤如下：
a) 将所有不完整数据对象按照缺失维度进行分组；
b)在每个分组中，计算各个对象能够包含在查询结果集中的期望值，并按照期望值由大到小排序；
c) 选取所有分组中前N个不完整数据对象作为需要补全的数据;
步骤（2）：对于步骤（1）得到的需要补全的数据，用户接口处理器通过扩展的SQL数据定义语言生成用户接口；
步骤（3）：HIT管理器利用步骤（2）中生成的用户接口以及用户可读指令，向众包平台发布人工智能任务服务HIT；
步骤（4）：步骤（3）中HIT完成后返回结果，反馈到数据库管理系统PostgreSQL中，以补全缺失数据；
步骤（5）：通过Skyline查询、Top-k查询或区域查询来查询补全后的数据，并向应用程序返回查询结果。
2.根据权利要求1所述的一种基于PostgreSQL和众包的不完整数据查询处理方法，其特征在于：步骤（2）中用户接口处理器通过扩展SQL数据定义语言对步骤（1）中计算出需要补全的数据生成表单，需要补全的数据中的完整数据字段直接显示，缺失数据字段会根据用户约束，生成评分、输入文本框或单选/多选框用户接口，用于填入补全数据。
3.根据权利要求1所述的一种基于PostgreSQL和众包的不完整数据查询处理方法，其特征在于：所述步骤（3）具体为：HIT管理器通过调用相应的众包平台提供的应用程序接口，按照步骤（2）中生成的用户接口，在众包平台上发布任务HIT。
4.根据权利要求1所述的一种基于PostgreSQL和众包的不完整数据查询处理方法，其特征在于：所述步骤（4）具体为：步骤（3）中HIT完成后，HIT管理器同样通过调用应用程序接口，获取HIT结果，并向众包平台反馈众包工作者的工作表现；HIT的结果即为用户针对需要补全的数据填补后的数据，并将其插入PostgreSQL中。

说明书全文

一种基于PostgreSQL和众包的不完整数据查询处理方法

技术领域

[0001] 本发明涉及数据库查询处理技术，特别是一种基于PostgreSQL和众包的不完整数据查询处理方法。

背景技术

[0002] 不完整数据是指存在维度缺失的数据。随着以博客、社交网络、电子商务等为代表的新型信息发布方式的不断涌现，以及云计算、物联网等技术的兴起，数据正以前所未有的速度在不断地增长和累积。然而与此同时，数据缺失也无处不在。因此，针对不完整数据的分析处理以及查询算法成为了研究热点。

[0003] PostgreSQL是由美国加州大学伯克利分校开发的一个关系型数据库管理系统。它支持大多数的SQL操作，并采用经典的C/S 接口，提供了统一的服务器端C接口。PostgreSQL是便利可行的数据库扩展工具和平台。

[0004] 众包，又名群体计算，是指通过互联网，将要解决的问题发布到网上，由多个用户来完成的方法。虽然现有的计算机技术已经得到了长足的发展，但仍有一些不能解决或者解决起来比较麻烦的问题。这些问题如果由人来解决，可能会有意想不到的结果(如图片识别，数据补全等)。在众包过程中，每个发布的任务被称之为人工智能任务服务(HIT,Human Intelligence Task)。利用众包来处理缺失数据，最大的挑战是在改变了传统数据库关于封闭世界的假设后，如何设计合理的回答监督机制，并保证数据处理时间、效率、费用合理化。

[0005] 目前基于众包的不完整数据查询，已有CrowdDB，但CrowdDB只能支持众包操作的一个SQL最小扩展，还有很多工作并没有实现。一些复杂的查询(如Skyline查询和区域查询等)并不支持。

发明内容

[0006] 针对上述不足，本发明提供一种基于PostgreSQL和众包的不完整数据查询处理方法，该方法中将众包查询扩展至Skyline查询、Top-k查询和区域查询。

[0007] 本发明解决其技术问题采用技术方案的步骤如下：一种基于PostgreSQL和众包的不完整数据查询处理方法，该方法包括如下步骤：

[0008] 步骤(1)：数据库管理系统采用PostgreSQL，应用程序提交查询类型，计算中心运算确定需要补全的数据；

[0009] 步骤(2)：对于步骤(1)得到的需要补全的数据，用户接口处理器通过扩展的SQL数据定义语言生成用户接口；

[0010] 步骤(3)：HIT管理器利用步骤(2)中生成的用户接口以及用户可读指令，向众包平台发布人工智能任务服务HIT；

[0011] 步骤(4)：步骤(3)中HIT完成后返回结果，反馈到数据库管理系统PostgreSQL中，以补全缺失数据；

[0012] 步骤(5)：查询补全后的数据，并向应用程序返回查询结果。

[0013] 进一步的，所述步骤(1)具体为：

[0014] 数据库管理系统采用PostgreSQL，PostgreSQL允许数据缺失，应用程序提交查询类型，该查询类型包括Skyline查询、Top-k查询和区域查询；计算中心确定需要补全数据的步骤需要分三种查询情况考虑：

[0015] 1)针对区域查询，确定需要补全的数据的步骤如下：

[0016] a)对不完整数据对象，计算它能包含在查询结果集中的概率；

[0017] b)所有不完整数据对象按照概率值由大到小排序；

[0018] c)选取序列中前N个不完整数据对象作为需要补全的数据。

[0019] 2)针对Skyline查询，确定需要补全的数据的步骤如下：

[0020] a)将所有不完整数据对象按照缺失维度进行分组；

[0021] b)在每个分组中，确定组内各个点所支配的点个数，并对所有点按照支配点个数由大到小排序；

[0022] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。

[0023] 3)针对Top-k查询，确定需要补全的数据的步骤如下：

[0024] a)将所有不完整数据对象按照缺失维度进行分组；

[0025] b)在每个分组中，计算各个对象能够包含在查询结果集中的期望值，并按照期望值由大到小排序；

[0026] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。

[0027] 进一步的，步骤(2)中用户接口处理器通过扩展SQL数据定义语言对步骤(1)中计算出需要补全的数据生成表单，需要补全的数据中的完整数据字段直接显示，缺失数据字段会根据用户约束，生成评分、输入文本框或单选/多选框用户接口，用于填入补全数据。

[0028] 进一步的，所述步骤(3)具体为：HIT管理器通过调用相应的众包平台提供的应用程序接口，按照步骤(2)中生成的用户接口，在众包平台上发布任务HIT。

[0029] 进一步的，所述步骤(4)具体为：步骤(3)中HIT完成后，HIT管理器同样通过调用应用程序接口，获取HIT结果，并向众包平台反馈众包工作者的工作表现；HIT的结果即为用户针对需要补全的数据填补后的数据，并将其插入PostgreSQL中。

[0030] 进一步的，所述步骤(5)具体为：

[0031] 通过Skyline查询、Top-k查询或区域查询来查询补全后的数据，并向应用程序返回查询结果。

[0032] 本发明具有的有益效果是：本发明充分利用了众包技术和群众的力量对不完整数据进行补全，以提高数据质量；利用关系型数据管理系统PostgreSQL，将众包任务的发布封装进数据库内部，使得普通的应用开发者并不需要关注与众包平台的交互过程，对复杂的Skyline查询、Top-k查询和区域查询能够返回更能满足用户需求的查询结果。附图说明

[0033] 图1是本发明的实施步骤流程图。

具体实施方式

[0034] 现结合附图和具体实施对本发明的技术方案作进一步说明：

[0035] 如图1所示，本发明具体实施过程和工作原理如下：

[0036] 步骤(1)：数据库管理系统采用PostgreSQL，在PostgreSQL中，数据缺失值表示为cnull，cnull值可以被普通SQL语句查询，也可以利用众包补全；当应用程序提交查询类型，查询类型包括Skyline查询、Top-k查询和区域查询；针对不同查询类型，计算中心采用不同策略确定需要补全的数据；图1中计算中心确定需要补全数据的步骤需要分三种查询情况考虑：

[0037] 1)针对区域查询，确定需要补全的数据的步骤如下：

[0038] a)对不完整数据对象，计算它能包含在查询结果集中的概率；

[0039] b)所有不完整数据对象按照概率值由大到小排序；

[0040] c)选取序列中前N个不完整数据对象作为需要补全的数据。

[0041] 2)针对Skyline查询，确定需要补全的数据的步骤如下：

[0042] a)将所有不完整数据对象按照缺失维度进行分组；

[0043] b)在每个分组中，确定组内各个点所支配的点个数，并对所有点按照支配点个数由大到小排序；

[0044] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。

[0045] 3)针对Top-k查询，确定需要补全的数据的步骤如下：

[0046] a)将所有不完整数据对象按照缺失维度进行分组；

[0047] b)在每个分组中，计算各个对象能够包含在查询结果集中的期望值，并按照期望值由大到小排序；

[0048] c)选取所有分组中前N个不完整数据对象作为需要补全的数据。

[0049] 表一是NBA球员得分统计数据集，存在数据缺失，即是一个不完整数据集，当应用程序向系统发起一个Skyline查询请求，计算中心针对Skyline查询确定需要补全数据算法的具体实施方式如下：

[0050] 1)将所有元组按照缺失维度分组，由表一可以看出，球员编号1、4、6、7为一组，编号2、3、5为一组；

[0051] 2)计算各分组中元组的支配点个数，以球员Jae Crowder为例，在分组中支配编号为4、6的球员，所以支配点个数为2；同理计算剩余点，并按照支配点个数从高到低排序，结果为{7，3，5，2，1，4，6}；

[0052] 3)N设置为4，因此需要补全的数据对象是前四个数据项，即编号为7，3，5，2的元组；

[0053] 步骤(2)：用户接口处理器根据计算中心计算出的需要补全的数据生成表单，需要补全的数据中的完整数据字段直接显示，缺失数据字段会根据用户约束，生成评分、输入文本框、下拉单选/多选框用户接口，用于填入补全数据，表单形式直观且用户体验好；

[0054] 步骤(3)：HIT管理器通过调用相应的众包平台提供的应用程序接口，按照步骤(2)中生成的用户接口，在众包平台上发布任务HIT；

[0055] 步骤(4)：HIT完成后，HIT管理器同样通过调用应用程序接口，获取HIT结果，并向众包平台反馈众包工作者的工作表现；HIT的结果即为用户针对需要补全的数据填补后的数据，并将其插入PostgreSQL中，即将相应的cnull值替换为数据补全结果；

[0056] 以表一和表二中所示数据集为例，HIT完成后，得到编号为7的球员场均助攻次数为5.4，并将其插入数据库系统中，同样，编号3、5、2元组填补后将PostgreSQL中的缺失数据更新；

[0057] 步骤(5)：通过Skyline查询、Top-k查询或区域查询来查询补全后的数据，并向应用程序返回查询结果；

[0058] 以表一和表二所示数据集为例，表二是经过清洗后数据集，进行Skyline查询，得到Skyline点集合为{1，5，7}，并将查询结果返回给应用程序。

[0059] 表一：

[0060] 编号球员姓名投篮得分助攻次数抢断次数盖帽次数1 Avery Bradley 1.0 cnull 1.1 0.2
2 Brandon Wright 0.3 1.0 0.1 cnull
3 Dwight Powell 2.1 1.3 0.5 cnull
4 Evan Turner 0.2 cnull 0.4 1.0
5 Gerald Wallace 1.3 5.5 1.0 cnull
6 Isaiah Thomas 0.2 cnull 0.5 0.6
7 Jae Crowder 5.6 cnull 0.6 1.0

[0061] 表二：

[0062] 编号球员姓名投篮得分助攻次数抢断次数盖帽次数1 Avery Bradley 1.0 cnull 1.1 0.2
2 Brandon Wright 0.3 1.0 0.1 0.6
3 Dwight Powell 2.1 1.3 0.5 0.4
4 Evan Turner 0.2 cnull 0.4 1.0
5 Gerald Wallace 1.3 5.5 1.0 0.5
6 Isaiah Thomas 0.2 cnull 0.5 0.6
7 Jae Crowder 5.6 5.4 0.6 1.0

标题	发布/更新时间	阅读量
一种水雨情自动测报系统	2020-05-08	385
一种基于区块链的农产品追溯信息存储方法	2020-05-11	591
到数据库加速器的并行计算卸载	2020-05-11	163
电视应用测试方法、电视应用测试装置和可读存储介质	2020-05-12	70
信息获取方法及装置	2020-05-11	930
一种卷包生产换牌控制方法及计算机程序产品	2020-05-12	917
一种基于多维度数据的设备运维指挥监控管理系统	2020-05-08	246
关系型数据库双主数据增量同步方法和系统	2020-05-13	593
一种广告平台网络竞价实现办法	2020-05-12	906
一体化智能水泵控制系统	2020-05-13	634

一种基于PostgreSQL和众包的不完整数据查询处理方法

一种基于PostgreSQL和众包的不完整数据查询处理方法

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：