首页 / 专利库 / 商业 / 货币化 / 隐私保护的大数据货币化系统及其使用方法

隐私保护的大数据货币化系统及其使用方法

阅读:1025发布:2020-05-23

专利汇可以提供隐私保护的大数据货币化系统及其使用方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种系统和方法,其用于数据所有者与数据搜寻者共享从 大数据 中提取的挖掘,替代原始数据或者匿名原始数据,因而减少或者消除对数据所有者所有的数据的隐私顾虑。使用健忘伪随机函数(OPRF),其中使用OPRF的操作发生在加密数据上,因而数据所有者仅仅从数据搜寻者学习主对象并且不学习数据所有者的数据的剩余数据的内容。类似地,数据搜寻者学习关联的从对象的列表并且不学习数据所有者的数据的其他内容。共享的程度可以使用取决于数据所有者愿意共享多少隐私信息或者数据搜寻者愿意支付多少的预定义 阈值 来限制。,下面是隐私保护的大数据货币化系统及其使用方法专利的具体信息内容。

1.一种用于隐私保护的挖掘共享的计算机实现的方法,包括:
通过数据所有者来从请求方接收主对象的标识和从对象的模糊列表;
通过所述数据所有者来修改所述从对象的模糊列表以创建经修改的被模糊的从对象的列表;
从数据所有者向请求方发送经修改的被模糊的从对象的列表;
计算主对象与关联对象之间的至少一个关联关系以获得挖掘列表;
通过数据所有者来选择挖掘列表以获得经选择的挖掘列表;
通过数据所有者来模糊经选择的挖掘列表以获得经模糊的被选择的挖掘列表;
向请求方发送经模糊的被选择的挖掘列表;
通过使请求方能比较经修改的被模糊的从对象的列表与经模糊的被选择的挖掘列表,提供经修改的被模糊的从对象的列表与经模糊的被选择的挖掘列表之间的交集。
2.根据权利要求1的方法,其中从对象和经选择的挖掘列表经由健忘伪随机函数来模糊。
3.根据权利要求2的方法,其中健忘伪随机函数基于RSA算法、Diffie-Hellman算法、或者哈希算法中的至少一个。
4.根据权利要求1的方法,进一步包括步骤:
通过计算{H(x1)·re,H(x2)·re,…,H(xn)·re}来模糊从对象的列表;
通过计算{(H(x1)·re)d,(H(x2)·re)d,…,(H(xn)·re)d}来修改经模糊的从对象的列表;以及
以{H(x1)d,H(x2)d,…,H(xm)d}的形式来发送经模糊的被选择的挖掘列表到请求方,其中H(x)为加密哈希函数,e为RSA算法的公钥,d为RSA算法的私钥,r为随机整数,x1、x2、…、xn为从对象,以及x1、x2、…、xm构成挖掘列表。
5.根据权利要求1的方法,进一步包括:
在交换经模糊的被选择的挖掘列表中从请求方接收付费。
6.一种用于隐私保护的挖掘共享的计算机实现的系统,包括:
接收模,被配置成从请求方接收主对象的标识和从对象的模糊列表;
加密模块,被配置成修改从对象的模糊列表以创建经修改的被模糊的从对象的列表;
共享模块,被配置成向请求方发送经修改的被模糊的从对象的列表;
挖掘计算模块,被配置成计算主对象与关联对象之间的至少一个关联关系以获得挖掘列表;
阈值模块,被配置成选择挖掘列表以获得经选择的挖掘列表;
加密模块被进一步配置成模糊经选择的挖掘列表以获得经模糊的被选择的挖掘列表;
共享模块被进一步配置成向请求方发送经模糊的被选择的挖掘列表;
比较模块,被配置成通过比较经修改的被模糊的从对象的列表与经模糊的被选择的挖掘列表来提供经修改的被模糊的从对象的列表与经模糊的被选择的挖掘列表之间的交集。
7.根据权利要求6的系统,其中加密模块进一步包括子模块,其被配置成采用健忘伪随机函数。
8.根据权利要求7的系统,其中健忘伪随机函数基于RSA算法、Diffie-Hellman算法、以及哈希算法中的至少一个。
9.根据权利要求6的系统,进一步包括:
加密模块被进一步配置成通过计算{H(x1)·re,H(x2)·re,…,H(xn)·re}来模糊从对象的列表;以及被配置成通过计算{(H(x1)·re)d,(H(x2)·re)d,…,(H(xn)·re)d}来修改经模糊的从对象的列表;以及
共享模块被进一步配置成以{H(x1)d,H(x2)d,…,H(xm)d}的形式来发送经模糊的被选择的挖掘列表到请求方,
其中H(x)为加密哈希函数,e为RSA算法的公钥,d为RSA算法的私钥,r为随机整数,x1、x2、…、xn为从对象,以及x1、x2、…、xm构成挖掘列表。
10.根据权利要求6的系统,进一步包括:
挖掘收集模块,以通过以下步骤计算挖掘:
维持商品的库存;
获得商品库存上的购物数据;以及
基于购物数据来计算购买一个商品与购买另一个商品之间的关联关系。

说明书全文

隐私保护的大数据货币化系统及其使用方法

[0001] 本申请一般地涉及一种用于受控信息发布的计算系统和方法,特别地,涉及一种用于在不破坏数据所有者和数据搜寻者的隐私的情况下使大数据货币化的计算机实现的系统和方法。

背景技术

[0002] 大数据通常包括具有超过通常使用的在可容忍的逝去时间内捕获、变形、管理、以及处理的软件工具的能的大小的数据集。大数据“大小”为恒定移动目标,截止2012年,从几打兆兆字节到许多千兆兆字节的数据变化。除了大小或体积(数据的量)之外,大数据还主张速率(数据入和出的速度)和多样化(数据类型和源的范围)。尽管有挑战,大数据仍然被激烈追捧,因为大数据有望获得模糊测量、检测趋势、揭露相关性、发现依赖关系、以及执行结果和行为的预测,所有这些都称作用于本申请的目的的挖掘(insight)。
[0003] 例如,工业已经开发了广泛的商业智能挖掘,包括从业人员的心理概况、购物习惯、以及用户移动性概况。这些挖掘为数据所有者提供了竞争优势,但是,特别是在数据分析和共享中,在大数据的全规模商业化能够实现之前存在挑战。挑战包括数据变形、检索、数据共享、存储、传送、可视化、以及隐私保护。
[0004] 鲜明的增长区域是伴随对挖掘感兴趣的其他方的从大数据获得的挖掘的商业化。挖掘商业化的充满生机的市场对数据所有者和数据搜寻者都有益。计算的到来已经提供了按需计算能力的架构,并且计算机辅助的分析已经赢得势头。通过吸引进一步的花费、经历、以及试验,挖掘的商业化可以提供从有望提升大数据到日常实现的必须的推动。
[0005] 防止这样的挖掘的商业化的成功实现的最大障碍是隐私顾虑。首要地,存在限制无需同意的个人数据收集以及共享的隐私上的宪法和法律约束。还存在限制数据共享的竞争顾虑。例如,公司可能不希望共享有关他们的客户或者他们的实践的敏感数据并且可能希望保持对他们自身有价值的信息。进而,数据共享的期望能够对公司的名誉和底线不利,制造客户疏远或离去。因此,达到成功的商业化环境之前的挑战取决于解决隐私和竞争问题。
[0006] 当前,来自大数据的挖掘典型地由所有者戒备地保护并且不与其他方共享。即使当所有者愿意使这样的数据货币化,缺乏技术方案经常防止信息扩散。例如,蜂窝运营商已经收集移动性和通信数据超过20年并且累积了无主数据宝藏和可能的挖掘;然而在与其他方货币化他们的数据和可能的挖掘上有困难。
[0007] 已经提议了某些方案以克服隐私障碍,而不剥夺或减弱对于隐私的宪法权利。这些提议的方案包括匿名化挖掘,模糊所获取的数据模型,以及限制数据集的范围或查看。这样的方案包括差异化隐私和k-匿名,两者都尝试通过匿名化一部分数据而不不当减少数据分辨率来减轻隐私顾虑。
[0008] 匿名化的不可避免的缺点是数据质量的降低。因而,差异化隐私和k-匿名必须在隐私与效用之间折衷,并且还达不到数据分辨率和隐私两者的同时优化状态,即使牺牲数据分辨率,隐私顾虑也未完全消除,因为去匿名化能够由另一方执行。例如,之前的报告示出匿名化能够通过组合匿名的数据集与公众可利用数据库来恢复。因而,出众的方法将是基于加密数据上的操作、寻求保护数据分辨率并且消除隐私顾虑的方法。
[0009] 除了隐私之外,竞争问题要求受控的、分级的、以及针对性的数据发布的能力。特别地,需要允许数据所有者发布仅仅小部分的数据并且保护数据库的值、并且允许数据搜寻者获取仅仅相关数据并且节省成本的方案。
[0010] 之前的工作建议涉及大数据上的集中计算的方案,其中若干方中的每一方贡献他们的数据的一部分并且在隐私保护上信任集中方。在这一方法中,数据隐私保护在保持每一方知晓其他方的数据的集中方上预测。这一概念的实现留下挑战。例如,一个方法在于采用起数据仓库或数据分析单元作用的第三方,依赖于第三方保持数据私有。这一方法是有问题的,因为第三方的独立性经常是有问题的,建立第三方的成本高,并且第三方执行的分析经常缺少内部分析的相关性和专业性。因而,采用第三方是费钱的、麻烦的、慢的、非响应的,并且增加而非减少隐私顾虑。
[0011] 因此,仍然需要在不牺牲隐私的情况下并且使用受控的数据发布机制来货币化大数据;理想上,以允许数据所有者和数据搜寻者直接交互的方式。进一步仍然需要允许以隐私保护的方式在不减少数据值的情况下的数据访问的系统和方法,特别是允许所有者以隐私保护方式来控制数据共享的级别的系统和方法,同时允许数据搜寻者保持他们自身的数据以及来自所有者的查询隐私的程度。发明内容
[0012] 一种系统和方法,用于数据所有者与数据搜寻者共享来自大数据的经提取的挖掘,替代原始数据或者匿名的原始数据,因而减少或者消除对数据所有者所拥有的数据的隐私顾虑。数据所有者通过分析数据获取挖掘。例如,挖掘可以是一个对象、商品、服务、事件、或发生的事物与另一个对象、商品、服务、事件、或发生的事物之间的关联。使用健忘伪随机函数(OPRF),其中操作发生在加密数据上。使用这一方法,数据搜寻者学习关联对象的列表并且不学习有关数据所有者的数据和数据结构的其他事物。类似地,数据所有者仅仅学习来自数据搜寻者的主对象并且不学习有关数据搜寻者的数据中的剩余数据的其他事物。共享的程度可以通过使用预定义的隐私阈值来选择某些挖掘来限制,其中所述隐私阈值取决于数据所有者愿意共享多少隐私信息或者数据搜寻者愿意支付多少。
[0013] 一个实施例提供了一种用于隐私保护的挖掘共享的计算机实现的方法。数据所有者或者挖掘提供者从数据搜寻者或挖掘搜寻者处接收主对象的标识和从对象的模糊列表。数据所有者修改从对象的模糊列表以创建从对象的经修改的模糊列表。数据所有者向请求方发送从对象的经修改的模糊列表。进而,数据所有者计算主对象与关联对象之间的至少一个关联关系以获得挖掘列表。数据所有者能够选择挖掘列表,诸如设置阈值,以获得经选择的挖掘列表。数据所有者模糊经选择的挖掘列表以获得经模糊的被选择的挖掘列表。数据所有者发送经模糊的被选择的挖掘列表到请求方。最后,通过所述两个模糊列表的比较,在从对象的经修改的模糊列表与经模糊的被选择的挖掘列表之间找到交集。
[0014] 进一步的实施例提供了一种用于隐私保护的挖掘共享的计算机实现的系统。系统包括:接收模,被配置成从请求方接收主对象的标识和从对象的模糊列表;加密模块,被配置成修改从对象的模糊列表以创建从对象的经修改的模糊列表;共享模块,被配置成向请求方发送从对象的经修改的模糊列表;挖掘计算模块,被配置成计算主对象与关联对象之间的至少一个关联关系以获得挖掘列表;阈值模块,被配置成选择挖掘列表以获得经选择的挖掘列表;加密模块,被进一步配置成模糊经选择的挖掘列表以获得经模糊的被选择的挖掘列表;共享模块,被进一步配置成向请求方发送经模糊的选择的挖掘列表;以及比较模块,被配置成通过比较从对象的经修改的模糊列表与经模糊的被选择的挖掘列表来提供从对象的经修改的模糊列表与经模糊的被选择的挖掘列表之间的交集。
[0015] 本发明的其他实施例将从下面的具体描述中容易地变得对那些本领域技术人员显而易见,其中通过阐述构思用于执行本发明的最佳模式来描述本发明的实施例。如将实现的,本发明能够是其他以及不同的实施例并且能够在各种显然的方面修改其若干细节,所有这些都不脱离本发明的精神和范围。对应地,附图和具体描述被当作本质上是说明性的并且不被当做限制性的。

附图说明

[0016] 图1为通过示例方式示出按照一个实施例的包括服务器11的隐私保护的挖掘共享系统10的功能框图
[0017] 图2为示出用于隐私保护挖掘共享的流程图
[0018] 图3为示出使用基于RSA算法的健忘伪随机函数的挖掘共享系统的输入和输出交换的框图。
[0019] 图4为示出如参照图3描述的使用基于RSA算法的健忘伪随机函数的隐私保护挖掘共享的方法的流程图。

具体实施方式

[0020] 基础架构
[0021] 数据所有者(DO)能够通过想要从数据所有者购买推荐的数据搜寻者(DS)可用的隐私保护的挖掘共享系统来提供针对性的推荐。系统能够包括安装在数据所有者的服务器中的挖掘共享软件和安装在数据搜寻者的设备中的客户端软件。图1为通过示例方式示出按照一个实施例的包括服务器11的隐私保护的挖掘共享系统10的功能框图,其上,挖掘共享系统12安装在服务器11上。服务器11可以包括一个或多个中央处理单元(CPU);高速、短期数据存储模块;输入-输出或总线控制器;低速、永久或半永久数据存储模块;以及操作系统软件或操作环境。挖掘共享系统连接到存储包括事件和事件的关联的大数据集合的数据库。挖掘共享系统12能够连接到设备,所述设备包括:台式计算机17、膝上型计算机18、智能手机19、或平板电脑20。其他设备是可能的。服务器11、数据库、台式计算机17、膝上型计算机18、智能手机19、平板电脑20、以及其他设备可以在网络16上连接,所述网络16能够为局域网、企业网、或广域网,包括因特网和蜂窝网、或其某一组合。服务器11还可以通过硬链路21连接到台式计算机17。客户端软件22、或App 22能够安装在用户可访问的终端中,包括台式计算机17、膝上型计算机18、智能手机19、平板电脑20、以及其他设备。其他配置是可能的。
[0022] 挖掘为从诸如为大数据的数据中搜集的事件或行为方式。具体地,事件或行为方式为一个事件与另一个事件、或者一个行为与另一个行为之间的关联(正和负两者)。典型地,关联能够数量上表达为在一个事件或行为发生之后另一个事件或行为发生的可能度。挖掘典型地从经验数据的分析中得到。挖掘还能够使用经验数据通过假设检验来揭露、加强、以及校验。相比于更小、有限的数据集,当获取更大、更代表性的数据集时挖掘更稳健。
数据所有者可以拥有大数据并且因而能够在具有对不能收集或分析数据的其他人而言有用的数据和挖掘的位置中。
[0023] 例如,购买书A是一个事件。购买书B是另一个事件。有时,购买书A与购买书B的增加的或减少的可能相关联,要么在个体要么在总体级别上。这一关联物为挖掘。增加的可能被称作正关联、或者正相关。减少的可能被称作负关联、或负相关。
[0024] 关联可以从因果关系、非因果关系、或两者中得到。例如,读书A可以促进推动购买书B,在此情况中,正关联为购买书A与购买书B的事件之间的因果关系的结果。商业上,这一类型的因果关系经常用于商人销售相关物品。例如,如果某人买了新房子,相比于一般公众,购买者购买家具的可能增加。另一方面,购买书A可能没有激起对书B的兴趣;相反,购买书A揭露、或者标识购买者为倾向书B所属的书的类型的类型的读者。结果,购买书A与书B之间的关联不是因果的,替代地,关联为公共原因的反映。
[0025] 关联关系对于制造商、商人以及客户而言是有价值的。由于拥有知识,制造商可以更好地规划生产线,商人能够向更接受的受众针对性地广告并且优化库存,以及客户可以从不想要的广告轰炸中解脱出来。挖掘对于制造商的可用性代表能够有益于所有市场参与者的提高的市场效率和成本节省。
[0026] 尽管大数据所有者经常在收集足够的数据并且检测挖掘或关联的位置,挖掘提供者(即,在提供挖掘的位置中的一方)不一定需要收集数据。例如,挖掘提供者可以从大数据所有者获取原始数据并且执行分析和得到挖掘,或者直接从大数据所有者获取挖掘。挖掘提供者可以在销售挖掘的位置,而自身不收集大数据。在本应用中,数据所有者和挖掘提供者可互换使用,以指代提供挖掘的位置中的一方。数据搜寻者为从数据所有者或挖掘提供者搜寻挖掘的一方。数据搜寻者典型地为期望从数据所有者或挖掘提供者得到挖掘的商业、组织或个人。挖掘为为挖掘搜寻者搜寻的事件、发生、对象、商品以及服务之间的关联、联系、或关系。以下为挖掘的某些非穷尽示例。
[0027] 在一个实施例中,挖掘可以为一个商品、物品或对象(一起简称为商品)与其他商品之间的关联;或者一个商品与服务、或者服务与其他商品、或者服务与其他服务之间的关联。例如,数据所有者可以积累了足够量的购买记录并且执行分析,使得数据所有者可以以足够的统计精确性来预测一件商品是否为首先购买,可以购买其他商品的可能度。首次购买的商品称为主对象,统计上示出与主对象的显著关联的其他商品称作关联商品。替代商品,将相同的定义应用于服务。
[0028] 可以以人口规模将对主对象与关联商品之间的关联的挖掘与购物习惯比较。个体的购物习惯能够在预测人在诸如为优先购买的条件下将购买什么中非常有用。当将足够量的个体购买习惯分组并且适当分析时,主对象与关联商品之间的货物的样式、或关联能够显现。个体购物习惯和目标与关联商品或服务之间的一般关联对于销售商品和服务的商人、制造商品的制造商、以及提供服务的服务提供者而言是有价值的。
[0029] 在另一实施例中,挖掘可以为心理概况。例如,挖掘提供者可以为拥有众多雇员的工作行为的数据集的大的雇主。挖掘能够形成以关联雇员与若干性格。当大的雇主的前雇员搜寻具有可能的雇主的雇佣时,可能的雇主可能希望知晓候选雇员在之前的工作环境中的可能的性格。这里,主事件为雇员身份。关联事件为统计上与候选雇员显著关联的性格。
[0030] 在另一实施例中,挖掘可以为用户移动性概况。用户移动性概况为移动终端的历史记录和预测方式的组合,其用作用于无线网络中的移动性管理和服务质量增强的基础信息。正常地,形成用户移动性概况框架以用于估计服务方式并且跟踪移动用户,包括位置、移动性、以及服务要求的描述。然而,其他服务提供者可以从学习与客户端(主事件)相关联的位置(关联的事件)中受益。
[0031] 在下面,讨论主对象与关联商品之间的关联。那些本领域技术人员将意识到其他关联同样是可应用的。
[0032] 在一个实施例中,商店销售表达为x1、x2、…、xn的一系列的商品。主事件可以是购买物品或商品xp。从事件是在购买xp之后购买x1、x2、…、xn中的另一商品。关联事件为与购买商品xp相关联的从事件。等价表达是主商品为xp,从商品为x1、x2、…、xn,以及相关联的商品为具有与主商品xp的关联的那些从商品。主商品xp与x1、x2、…、xn中的相关联的商品之间的关联捕获购买xp与购买x1、x2、…、xn中的相关联的商品之间的似然性。商店可以已经收集了足够的销售信息以建立这样的关联,因而成为拥有挖掘的数据所有者。诸如为另一商人的另一实体可能期望获得这样的挖掘。该另一商人为数据搜寻者,其对为主商品xp与x1、x2、…、xn中相关联的商品之间的关联信息而支付费用感兴趣。数据所有者典型地倾向保护其数据和数据结构的隐私,并且数据搜寻者典型地倾向保护其兴趣和查询程度的隐私。隐私保护允许数据搜寻者向数据所有者揭露仅仅主对象的标识,并且作为交换,接收仅仅相关联的商品的标识。
[0033] 在一个实施例中,数据所有者收集数据并且使用机器学习算法来学习对主商品xp与表达为x1、x2、…、xn的一组相关联的商品之间的关系的挖掘。在来自数据搜寻者的请求之上,数据所有者通过隐私集交集方案来与数据搜寻者共享挖掘的一部分。使用的隐私集交集的一个示例为健忘伪随机函数(OPRF)。其他隐私集交集算法是可能的。挖掘共享的程度能够由数据所有者通过预定义的阈值来控制。共享的挖掘的程度还能够由数据搜寻者来指定。数据搜寻者不对原始数据访问,并且数据所有者学习仅仅主对象,而不学习数据搜寻者感兴趣的其他项。
[0034] 通过隐私集交集协议来共享挖掘的优点是多方面的。首先,当数据搜寻者对数据所有者的数据集和数据结构不享有未过滤的访问时,隐私危险降低。数据搜寻者学习来自数据所有者的仅仅推荐的关联。其次,实现新的商务和商业机会。一般,高度管理个人数据的共享并且忽略这样的限制不是数据所有者的兴趣所在。通过隐私集交集来共享挖掘减轻了由共享个人数据招致的隐私顾虑。第三,通过隐私集交集来共享关注,实现数据的受控发布,因而保护了数据库值。数据所有者可能倾向仅仅按照需要知晓或付费以查看为基础、或者以受限的、受控的以及针对性的方式来与数据搜寻者共享数据。结果,数据所有者可以销售不同的挖掘给具有不同的信息需求的多个数据搜寻者并且最大化收入。最后,共享挖掘满足了大多数数据搜寻者的需求,因为大多数数据搜寻者可能不能访问大数据并且可能不想处理与从大数据中提取挖掘相关联的复杂并且繁杂的数据分析。通过隐私集交集来共享挖掘还保护了数据搜寻者的兴趣。数据搜寻者可能有他们自身的隐私顾虑、商业秘密、或者贸易秘密。例如,数据搜寻者可能为数据所有者的可能的竞争者并且不愿意与数据所有者共享超出主对象的任何事物。通过隐私集交集协议共享挖掘通过使用健忘伪随机函数(OPRF)来解决了问题。结果,数据所有者学习来自数据搜寻者的仅仅主对象,因而消除了数据搜寻者的隐私和商业竞争顾虑。
[0035] 经由隐私集交集的隐私保护的挖掘共享的方法和系统
[0036] 在一个实施例中,公开了用于货币化数据的计算机实现的方法。数据所有者学习一个事件与其他事件之间的关系的挖掘。在来自数据搜寻者的共享挖掘的请求之上,数据所有者可以通过以收费的隐私保护方式共享挖掘来货币化数据。为此,数据所有者可以基于数据搜寻者的输入来计算推荐,诸如主购买物品、商品、对象、服务、或事件。数据所有者还例如使用阈值来选择与数据搜寻者共享多少挖掘。阈值还能够基于来自数据搜寻者的输入来限制。最后,与数据搜寻者共享关联形式的挖掘。
[0037] 在一个实施例中,公开了用于隐私保护的挖掘共享的计算机实现的方法。图2为示出用于隐私保护挖掘共享的方法的流程图。数据所有者或者挖掘提供者从数据搜寻者或挖掘搜寻者接收对挖掘的请求(步骤31)。以隐私保护方式来执行请求和后续的信息增强。数据搜寻者规划多个从对象的列表。该多个从对象的列表被加密或模糊(步骤32)。加密能够通过挖掘共享系统12、数据搜寻者的系统上的软件、或者第三方软件来执行。挖掘共享系统12从数据搜寻者接收经加密的从对象的列表(步骤33)。挖掘共享系统12进一步从请求方接收未加密的主对象的标识(步骤34)。计算主对象与多个相关联对象之间的至少一个关联关系以获得挖掘列表(步骤S35)。挖掘共享系统12加密或模糊挖掘列表(步骤36)。挖掘共享系统12进一步设置阈值并且基于阈值来修改经加密的挖掘列表(步骤37)。将经修改的挖掘列表发送到请求方(步骤38)。通过比较经修改的挖掘列表与经加密的从对象的列表,达到代表由数据所有者共享给数据搜寻者的挖掘的公共交集(步骤39)。最后,解密公共交集(步骤
40)。
[0038] 在另一实施例中,公开了用于隐私保护的挖掘共享的计算机实现的系统。该系统包括:接收模块,被配置成从请求方接收主对象的标识和从对象的模糊列表;加密模块,被配置成修改从对象的模糊列表以创建经修改的从对象的模糊列表;共享模块,被配置成向请求方发送经修改的从对象的模糊列表;挖掘计算模块,被配置成计算主对象与关联对象之间的至少一个关联关系以获得挖掘列表;阈值模块,被配置成选择挖掘列表以获得经选择的挖掘列表;加密模块被进一步配置成模糊经选择的挖掘列表以获得经模糊的被选择的挖掘列表;共享模块被进一步配置成向请求方发送经模糊的被选择的挖掘列表;以及比较模块,被配置成通过比较经修改的从对象的模糊列表与经模糊的被选择的挖掘列表来提供经修改的模糊的从对象列表与经模糊的被选择的挖掘列表之间的交集。
[0039] 隐私集交集在不使数据质量降级的情况下解决了数据搜寻者和数据所有者两者的隐私和商业秘密上的顾虑。数据所有者从数据搜寻者学习仅仅数据搜寻者感兴趣的主对象的标识。数据所有者基于对主对象与其他对象之间的关系的挖掘来计算关联商品的列表。使用隐私集交集协议,数据所有者还接收经加密的从商品的列表。交集协议比较关联商品的列表与经加密的从商品的列表,并且商品的重叠或者交集部分构成推荐。推荐能够通过准则来修改,包括关联的强度、推荐中的商品的数量、或者付费。将推荐通信到数据搜寻者。隐私集交集协议的一个示例为健忘伪随机函数。因而,数据所有者和数据搜寻者交换主对象、经加密的从商品的列表、以及被推荐的关联商品的列表,但是在其他方面,将不学习有关彼此数据的更多的任何事物。
[0040] 在仍旧进一步的实施例中,能够根据关联的强度来对推荐的列表排序。在又一进一步的实施例中,推荐的列表能够通过关联的强度的阈值来过滤。
[0041] 健忘伪随机函数(OPRF)
[0042] OPRF为安全地计算伪随机函数f_k(x)的两方协议,其中k由服务器贡献以及输入x由客户端贡献,使得服务器不从交集中学习到任何事物并且客户端学习到仅仅值f_k(x)。在一个实施例中,将基于RSA算法的OPRF用于隐私集交集。在另一实施例中,将基于Diffie-Hellman算法的OPRF用于隐私集交集。那些OPRF在以下具体描述。其他OPRF是可能的,并且能够替代以下描述的OPRF来使用。
[0043] 基于RSA算法的OPRF
[0044] 在一个实施例,OPRF构造为fd(x)=sigd(H(x)),其中d为位于服务器11上的挖掘共享系统12持有的RSA私钥,并且x为数据搜寻者经由客户端软件22贡献的输入,以及H为加密哈希函数。图3为示出使用基于RSA算法的健忘伪随机函数的挖掘共享系统的输入和输出交换的框图。
[0045] 对于来自数据搜寻者的输入x,随机数r由客户端软件22在数据搜寻者的控制之下e生成,其中r为间隔[0,n-1]中的随机整数,或者r∈ZN;输入x以a=H(x)·r的形式来加密,其中(n,e)为RSA公钥。r的使用确保了数据搜寻者而非数据所有者知晓输入x;
[0046] 位于服务器11上的挖掘共享系统12以a=H(x)·re的形式接收加密的x;
[0047] 位于服务器11上的挖掘共享系统12通过计算s=ad、b=H(x)dred,来解密输入,其中d为RSA私钥;执行b上的模n操作,得到b(mod n)=H(x)d(mod n)·red(mod n)=H(x)d·r(mod n),其中 和 为欧拉函数;
[0048] 挖掘共享系统12向客户端发送H(x)d·r;以及
[0049] 数据搜寻者的控制下的客户端计算
[0050] 因而,服务器11不学习输入x,但是,服务器11能够基于输入以H(x)d的形式来向数据搜寻者返回OPRF。
[0051] 基于RSA算法的OPRF的应用
[0052] 在一个实施例中,OPRF方案能够应用以允许数据所有者与数据搜寻者共享挖掘以补偿,而不揭露数据所有者的底层数据和数据结构,并且不揭露查询项的列表给数据所有者。图4为示出使用参照图3描述的基于RSA算法的健忘伪随机函数的隐私保护的挖掘共享的方法的流程图。下面描述步骤。
[0053] 数据所有者从数据搜寻者接收主对象xp的标识,其为r1=<xp,{x1,x2,…,xn}>中查询的一个的一部分。x1、x2、…、xn为数据搜寻者感兴趣的从对象(步骤41)。
[0054] 数据所有者还接收采用以上所述的OPRF协议的加密形式{H(x1)·re,H(x2)·re,…,H(xn)·re}的从对象{x1、x2、…、xn},其中H(x)为加密哈希函数,r为随机数,以及e为数据所有者的RSA公钥(步骤42)。
[0055] 数据所有者修改接收到的从对象并且通过基于RSA算法的OPRF来获得rep1={Hd d d(x1)·r,H(x2)·r,…,H(xn)·r},其中H(x)为加密哈希函数,以及d为服务器11持有的RSA私钥(步骤43)。
[0056] 数据所有者向数据搜寻者发送经修改的查询结果rep1={H(x1)d·r,H(x2)d·r,…,H(xn)d·r}(步骤44)。
[0057] 数据所有者计算挖掘,作为主商品xp与关联商品x1、x2、…、xm之间的关联(步骤45)。例如,x1→{x2,x5,x17,x45,x101},x2→{x1,x5,x45,x221}。换而言之,每个主商品与多个关联对象关联。
[0058] 所计算的挖掘以另一查询rep2={H(x1)d,H(x2)d,…,H(xm)d}的形式来加密或模糊(步骤46)。
[0059] 数据所有者可以设置阈值λ以修改将共享的挖掘的数量并且基于阈值来修改挖掘的数量(步骤47)。
[0060] 数据所有者以rep2={H(x1)d,H(x2)d,…,H(xm)d}的形式向数据搜寻者发送(步骤48)。
[0061] 数据搜寻者将经修改的挖掘列表rep2与经模糊的从对象的列表rep1比较以达到公共交集(步骤49)。
[0062] 可选地,从数据搜寻者向数据所有者传送付费(步骤51)。典型地,变化能够基于查询的数量、共享的挖掘的量、内容的成本、以及其他因素。付费可以在数据共享之前、期间以及之后处理。
[0063] 数据所有者与数据搜寻者之间的挖掘的共享能够通过受控的、分级的、或有针对性的搜索或发布来对一方或双方更有利。挖掘的受控的、分级的、或有针对性的搜索或发布能够通过适当地选择阈值λ来达到。
[0064] 一个实施例涉及在关联强度上放置阈值λ。例如,数据搜寻者可以请求从数据所有者学习仅仅示出比主对象xp的特定阈值更大的关联的对象,从而囤积最相关的项。在另一示例中,数据搜寻者可能对示出中间平的关联的项感兴趣,因为数据搜寻者已经通过普通知识或商业经验知晓具有最强关联的那些项;可选地,数据搜寻者可能对示出最低的可辨别的正关联的项感兴趣,因为数据搜寻者可能对通过培养和发展与项xp的更强的关系来投资项感兴趣;仍然可选地,数据搜寻者可能仅仅对与xp负关联的项感兴趣,为了诸如优化库存的目的,或者为了避免已经决定购买项xp的客户离开。其他场景是可能的。
[0065] 在另一实施例中,数据所有者还可以在关联强度上放置阈值。取决于市场定位,数据所有者可以基于主对象与关联对象之间的关联强度来限制公开。例如,数据所有者可以限制竞争者访问强关联上的挖掘。
[0066] 另一实施例涉及在将共享的关联对象的数量上放置阈值λ。阈值能够由数据所有者或数据搜寻者来放置。例如,数据所有者可能倾向覆盖可能的竞争者的知识。可选地,数据搜寻者可以限制关联的数量,因为数据搜寻者必须支付每关联的费用。
[0067] 通过提供选项以允许数据所有者和数据搜寻者决定各种挖掘共享水平,数据所有者和数据搜寻者能够通过降低的数据搜寻者的购买成本、数据所有者的更高的销售要求、以及两者的破坏隐私的降低的险来获益。
[0068] 在仍旧另一实施例中,数据的受控、分级的、或者有针对性的搜寻或发布能够通过限制其他因素来达到。这些因素包括但不限于地理位置、时间、季节、以及人口统计。例如,本地商店可能对特别地从包括商店的有限的地理区域获得的关联感兴趣。为特定季节或假日准备的购买商可能对特定于季节或假日的关联感兴趣。为特定人口服务的商店可能倾向特定于人口的那些关联。其他因素是可能的。
[0069] 本发明中具体化的方法能够在用于大数据所有者的新的商业可能性中使用。首先,仅仅共享挖掘,数据和数据结构仍然在数据所有者内,因而数据值不削弱(diluty)共享并且隐私危险最小化。其次,该方法允许数据搜寻者精巧地查询,因而保证数据搜寻者仅仅提高他们对它们意图学习的内容的知识,如果数据所有者选择不揭露知识。第三,该方法保护了数据搜寻者提供的信息,使得数据所有者不学习有关数据搜寻者的数据的任何内容。第四,该方法向数据所有者提供挖掘的公开量上的控制,并且向数据搜寻者提供搜索的宽度和量上的控制,因而使得信息服务灵活地适应于对于信息深度和量具有不同需求的个体客户端。因而,该方法能够帮助桥接在孤立的大数据路由器和其他数据搜寻者之间的可能的数字划分,通过通过保护数据所有者的值来实现以大数据为中心的新的市场定位,减少数据所有者的风险,保护数据搜寻者的商业信息和贸易秘密,并且最重要地,降低了货品的价格同时仍然满足购买者的需求。
[0070] 数据所有者可能已经通过一个或多个方法获得挖掘。该方法包括维护对象的库存,销售对象,以及分析购买方式;从外部源收集数据;从其他数据所有者购买数据,以及研亢和假设检验。得到挖掘所必需的数据分析可以由数据所有者或数据所有者的代理以及签约者来执行。当在补偿交换中与数据搜寻者共享时,挖掘能够成为推荐。在一个实施例中,使用为客户可能感兴趣的一系列的相关的对象中的每个对象提供的其自身的机器学习算法,数据所有者能够计算挖掘或推荐。
[0071] 虽然已经参照其实施例特别示出和描述了本发明,那些本领域技术人员将理解到形式和细节上的之前的以及其他的改变可以在其中做出,而不脱离本发明的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈