首页 / 专利库 / 资料储存系统 / 大数据 / 一种大数据查询处理的隐私保护方法

一种大数据查询处理的隐私保护方法

阅读:426发布:2024-02-23

专利汇可以提供一种大数据查询处理的隐私保护方法专利检索,专利查询,专利分析的服务。并且本 发明 属于 大数据 技术领域,具体为一种大数据查询处理的隐私保护方法。本发明方法基于半可信模型,分为初始化和查询处理两大部分。本发明能够同时保护数据隐私、查询隐私和存储隐私,具体包括数据拥有者的数据隐私和存储隐私、数据使用者(即查询者)的查询隐私和服务提供者的存储隐私,突破了现有隐私保护技术仅能保护其中一种或两种隐私的局限性,适用于不同应用领域的开放互联信息网络环境下的分布式大数据查询处理。本发明能够为医疗、金融、 生物 信息和交通等领域的大数据分布式数据共享提供隐私保护机制,将有助于打破现有 云 计算及大数据的发展 瓶颈 ,推进整个社会信息化服务的变革。,下面是一种大数据查询处理的隐私保护方法专利的具体信息内容。

1.一种大数据查询处理的隐私保护方法,其特征在于,是基于半可信模型、应用可交换加密技术和对称加密技术的综合隐私保护技术方法,命名为CPP,分为初始化和查询处理两大部分,其中,ti(1≤i≤n)表示第i个数据拥有者,n代表数据拥有者的总数,SPj(1≤j≤m)表示第j个SP,m代表SP的总数,s表示查询者;具体步骤如下:
(一)、初始化
初始化过程分两部分:
(1)产生隐私数据,记为Delegate({ti},{SPj}):数据拥有者ti向服务提供者SPj提供个人隐私数据记录;数据记录以ti的个人ID为检索主键,SPj按照自主加密的方式对ti的数据记录进行加密存储,确保数据的存储安全;
(2)构建加密索引,记为Delegate({SPj},LSP):服务提供者SPj将自己存储数据的元数据索引表Lj(·)发送给位置服务提供者LSP,并定期进行更新;元数据索引表即SPj拥有的用户目录列表,包括记录编码RC、数据拥有者标识号ID两个属性,其中RC用于唯一标识该条数据记录;SPj对RC不进行加密,明文发送给LSP;对数据拥有者ID则采用可交换单向加密算法CE(·)和SPj自己的密钥 进行加密后,密文发送给LSP;设定数据拥有者ti在SPj的数据库中最多有1条数据记录,即SP数据库中的数据记录数与其服务的数据拥有者数量相同;LSP汇总所有SP的元数据索引表,并建立索引目录;
(二)查询处理
假设查询者s要查询数据拥有者ti的隐私数据,且ti已向s进行合法授权,则查询处理的具体流程如下:
(1)查询者s提交查询请求,记为Query(es,CEs(IDi));查询者s依托查询客户端,用自己的密钥es对ti的IDi进行加密后,得到密文CEs(IDi);然后,查询者s将密钥es及密文发送给位置服务提供者(LSP),发起数据查询请求;
(2)位置服务提供者(LSP)采用加密检索算法找出目标数据的存储位置,记为加密检索算法执行完毕后,LSP得到一个二元关系集合
用于标记哪些服务提供者(SP)拥有查询目标数据,以及这些数据在SP数据库中的存储位置;其中, 为LSP向SPj查询的记录编码集合, 为真实的查询目标记录编码;
(3)位置服务提供者(LSP)向服务提供者(SP)请求获取目标数据,记为
LSP依据二元关系集合 逐一将记录编码集合
发送给对应的服务提供者SPj,以获取查询数据;
(4)服务提供者(SP)采用安全传输协议,通过位置服务提供者(LSP)向查询者s传输经过对称加密的目标数据,记为Return({{EID(Valuej)}})和 该协议
能够确保数据传输过程中只有查询者s能够读懂查询结果,而LSP无法获知查询结果的任何信息;SP传输的目标数据中不包含任何SP的身份信息;
( 5 ) 查 询 者 s 对 接 收 的 加 密 数 据 进 行 解 密 并 梳 理 汇 总 ,记 为查询者s收到位置服务提供者(LSP)发回的加密数据集
合 后,依托查询客户端,以IDi即ti的ID作为解密秘钥逐一进行解密,得到明文集合{Valueij},即查询目标数据。

说明书全文

一种大数据查询处理的隐私保护方法

技术领域

[0001] 本发明属于大数据技术领域,具体涉及开放互联的信息网络环境下进行分布式大数据查询处理的隐私保护方法。

背景技术

[0002] 互联网、计算、大数据等信息技术的蓬勃发展,催生了许多开放互联的信息网络(Information Network)。在这些信息网络中,用户数据往往分散存储在网络中多个服务提供者(Service Provider,简称:SP)中,如在医疗信息网络中,患者的病历信息往往存储在多家医院。通过分布式查询处理,对分散在各个SP的数据进行汇聚、关联与分析,不仅是用户自身的直接需求,更是挖掘数据价值、便捷公共管理、推动社会发展的必然需求。但是,这些数据往往包含大量隐私信息(private information),简单地将这些数据汇聚、关联、分析并进行公开,会导致隐私泄露,引发严重的社会问题与安全问题。因此,必须采取有效的技术手段,降低甚至根除上述查询处理的隐私信息泄漏险。
[0003] 在信息网络中,不同SP之间存在利益冲突或竞争关系,彼此互不信任,不愿意向其他SP共享自己存储的数据。为实现各个SP数据的安全共享,需要引入一个受各个SP信任的第三方,即位置服务提供者(locator service provider,简称LSP),负责维护一张关于用户数据存放在哪些SP上的元数据索引表,提供集中式的数据记录位置服务,承担数据使用者(Data User,即查询者)和各个SP之间的桥接作用(如图1所示)。查询数据时,所有数据使用者的查询请求需首先发送给LSP,LSP负责向SP转发查询请求和汇总各个SP反馈的查询结果,并发送给数据使用者。在这个过程中,网络中各主体的隐私保护需求主要包括:
[0004] (1)数据拥有者的数据隐私(data privacy)和存储隐私(storage privacy):数据隐私是指数据拥有者数据中包含的隐私信息;存储隐私则是指不想让别人知道她/他的数据存储在何处;
[0005] (2)数据查询者(即使用者)的查询隐私(query privacy),也就是查询的意图,或者说查询者对什么感兴趣;
[0006] (3)服务提供者的存储隐私(storage privacy),即存储了哪些数据拥有者的数据或者内容。
[0007] 譬如说,每家医院都有自己的医疗数据,存储在自己的服务器中。政府部出于社会发展和公众利益的需要,鼓励各家医院共享数据,同时充当位置服务提供者(LSP)的色。但医院之间存在竞争关系和利益冲突,互相不信任,不愿意共享数据。在这种情况下,数据隐私(对患者而言)、存储隐私(对医院和患者而言)和查询隐私(对患者、医生及科研人员等查询者而言)均是主要的隐私保护关切。在金融大数据(如行的数据)领域也存在同样的情形。
[0008] 当前已有的隐私保护技术主要保护数据隐私、查询隐私和存储隐私中的某一种隐私。数据隐私方面,主要的隐私保护技术有k-匿名(k-anonymization)、差分隐私(Differential Privacy)、密码原语(Cryptographic Primitives)和私有信息检索(PrivateInformation Retrieval)等;查询隐私方面,主要的隐私保护技术有泛化(Generalization)、多方安全计算(Secure Multiparty Computation)、不经意随机访问技术(Oblivious Random Access Machine)等;存储隐私方面,主要隐私保护技术是隐私保护索引技术(Privacy Preserving Index)。最近,出现一些同时保护数据隐私和查询隐私两种隐私的最新研究,主要集中于同态加密(Homomorphic Encryption)和网络安全两类技术的深层次应用。但是,上述技术均无法同时保护数据隐私、查询隐私和存储隐私三种隐私,难以满足上述信息网络中各主体的隐私保护需求。

发明内容

[0009] 针对以上问题,本发明的目的在于提供一种能够满足信息网络中各主体的隐私保护需求的在大数据查询处理的隐私保护方法。
[0010] 本发明提出的大数据查询处理的隐私保护方法,是基于半可信模型、应用可交换加密技术和对称加密技术的综合隐私保护技术方法,命名为CPP(Comprehensive Privacy Preserving),用于在开放互联的信息网络环境下进行分布式大数据查询处理时,同时保护数据拥有者、数据使用者和服务提供者等隐私保护需求(包括数据隐私、查询隐私和存储隐私)。所述半可信模型是指所有参与者遵循协议流程,不与其他参与者串联,但是可能会记录中间结果,并且尝试各种方式来推断其他参与者的隐私信息;所述可交换加密算法是指使用不同密钥对同一明文进行多次连续加密,得到的密文结果相同,与加密的顺序无关。本发明采用的可交换加密算法的加密密钥是能够公开的。
[0011] 本发明的设计要求如下:
[0012] (1)让查询者在不泄露自己查询隐私的前提下,能够且仅能获得与查询相关的数据。同时,无法获得数据的存储位置信息,也无法获得未经授权的数据;
[0013] (2)让服务提供者(SP)能够保护自己的存储隐私不被泄露(不让别人知道存储了什么数据),且无法获知谁在查询以及查询目标是什么(即无法获知查询者的查询意图);
[0014] (3)让位置服务提供者(LSP)无法获取数据的存储位置信息和查询者的查询内容(意图)。
[0015] 本发明的特点是:支持关键字查询方式,并以用户ID作为查询关键字。数据使用者(即查询者)用可公开的可交换加密密钥对查询目标的ID号进行加密,并将密文和加密密钥发送给LSP,从而发起查询。LSP掌握所有SP的可交换加密密钥,利用可交换加密特性在SP事先提供的加密元数据索引表中,找出查询目标在哪些SP上以及目标数据在数据库中的记录编码,然后利用记录编码向相应SP获取目标数据,同时采用一定机制掺入部分噪声记录编码,确保SP不知道真正的目标数据。SP以查询目标的ID作为对称加密的密钥,对目标数据进行加密,并发送给LSP。LSP汇总所有SP反馈的加密数据后,发送给数据使用者。数据使用者采用查询目标的ID对加密数据进行解密,从而获得目标数据。
[0016] 为表述方便,这里以ti(1≤i≤n)表示第i个数据拥有者,n代表数据拥有者的总数。以SPj(1≤j≤m)表示第j个SP,m代表SP的总数。以s表示查询者。
[0017] 本发明提出的大数据查询处理的隐私保护方法,分为初始化和查询处理两大部分,如图2所示。具体步骤如下:
[0018] (一)初始化
[0019] 初始化过程(step 0)分两部分:
[0020] (1)产生隐私数据,即Delegate({ti},{SPj}):数据拥有者ti(1≤i≤n)向服务提供者SPj(1≤j≤m)提供个人隐私数据记录(如医院就诊病例、银行账户数据等);数据记录以ti的个人ID为检索主键,SPj按照自主加密的方式对ti的数据记录进行加密存储(如采用对称加密的机制),确保数据的存储安全;
[0021] (2)构建加密索引,即Delegate({SPj},LSP):服务提供者SPj(1≤j≤m)将自己存储数据的元数据索引表Lj(·)发送给位置服务提供者(LSP),并定期进行更新;元数据索引表即SPj拥有的用户目录列表,包括记录编码(RC)、数据拥有者标识号(ID)两个属性,其中RC用于唯一标识该条数据记录;SPj对RC不进行加密,明文发送给LSP;对数据拥有者ID则采用可交换单向加密算法CE(·)和SPj自己的密钥 进行加密后,密文发送给LSP;不失一般性,设定数据拥有者ti在SPj的数据库中最多有1条数据记录,即SP数据库中的数据记录数与其服务的数据拥有者数量相同;LSP汇总所有SP的元数据索引表,并建立索引目录(如图3所示)。
[0022] (二)查询处理
[0023] 假设查询者s想要查询数据拥有者ti的隐私数据(s和ti可以是同一个人,也可以为不同人),且ti已向s进行合法授权,则查询处理的具体流程如下:
[0024] (1)查询者s提交查询请求(step 1),即Query(es,CEs(IDi))。查询者s依托查询客户端,用自己的密钥es对ti的标识号IDi进行加密后,得到密文CEs(IDi),然后,查询者s将密钥es及密文发送给位置服务提供者(LSP),发起数据查询请求;
[0025] (2)位置服务提供者(LSP)采用加密检索算法找出目标数据的存储位置(step 2),即 加密检索算法执行完毕后,LSP得到一个二元关系集合 用于标记哪些服务提供者(SP)拥有查询目标数据,以及这些数据在SP数据库中的存储位置。其中, 为LSP向SPj查询的记录编码集合, 为真实的查询目标记录编码,但集合 中包含一些随机产生的噪声记录,且不一定具有真实的查询目标记录编码,以使SPj无法获知真正的查询目标;
[0026] (3)位置服务提供者(LSP)向服务提供者(SP)请求获取目标数据(step 3),即LSP依据二元关系集合 逐一将记录编码集合发送给对应的服务提供者SPj,以获取查询数据;
[0027] (4)服务提供者(SP)采用安全传输协议,通过位置服务提供者(LSP)向查询者s传输经过对称加密的目标数据(step  4) ,即Return({{EID(Valuej)}})和该协议能够确保数据传输过程中只有查询者s能够读懂查询结
果,而LSP无法获知查询结果的任何信息。需要说明的是,SP传输的目标数据中不包含任何SP的身份信息;
[0028] (5)查询者s对接收的加密数据进行解密并梳理汇总(step  5),即查询者s收到位置服务提供者(LSP)发回的加密数据集合 后,依托查询客户端,以IDi(即ti的ID)作为解密秘钥逐一进行解密,得到明文集合{Valueij},即查询目标数据。
[0029] 本发明方法隐私保护效果分析
[0030] (1)数据隐私。本发明通过安全传输协议,确保服务提供者(SP)将目标数据传送给查询者的过程中,只有查询者本人能够读懂目标数据,位置服务提供者(LSP)及框架内其他主体均无法读懂。同时,SP遵循半可信模型,有义务采用自主加密存储、严格权限访问等措施确保数据拥有者的数据不会遭到攻击窃取;
[0031] (2)查询隐私。本发明通过三个方面的安全措施保护查询者的查询隐私:首先,采用查询者密钥对查询请求进行可交换单向加密,让位置服务提供者(LSP)无法获得具体的查询请求。其次,通过在查询目标数据中混入噪声数据,让服务提供者(SP)无法获知查询目标是什么,从而有效隐藏了查询者的查询意图。最后,让服务提供者(SP)无法获知谁在进行查询,这样SP无法将查询请求与查询者建立联系,同时其遵循半可信模型,不会将查询数据泄露给LSP,从而保护了查询者的查询隐私;
[0032] (3)存储隐私。本发明通过两个方面的安全措施保护服务提供者(SP)和数据拥有者的存储隐私:一方面,通过位置服务提供者(LSP)的中转以及SP对自身身份信息的隐藏(即在返回的目标数据中不包含SP的身份信息),让查询者无法获知目标数据的来源。另一方面,通过可交换单向加密技术,让LSP不知道具体的查询请求,这样虽然LSP知道数据的位置来源,但是不理解这些位置信息的具体含义,且其遵循半可信模型,不会将这些位置信息泄露给查询者,从而保护了服务提供者(SP)和数据拥有者的存储隐私。
[0033] 本发明能够为医疗、金融、生物信息和交通等领域的大数据分布式数据共享提供隐私保护机制,将有助于打破现有云计算及大数据的发展瓶颈,推进整个社会信息化服务的变革。附图说明
[0034] 图1为信息网络中的隐私保护需求示意图。
[0035] 图2为本发明方法框架示意图。
[0036] 图3为LSP元数据索引结构示意图。
[0037] 图4为单次查询的平均时间。

具体实施方式

[0038] 下面给出本发明方法的查询处理部分用到的加密检索算法和安全传输协议,并给出本发明方法的性能测试与分析,以对本发明方法的实施过程进行更具体的描述。
[0039] 一、加密检索算法
[0040] 这个算法的伪码描述在算法1中。该算法主要用于找出目标数据的存储位置,在查询处理部分的step 2中由位置服务提供者(LSP)负责执行。算法输入包括数据使用者s的密钥es,数据拥有者ti的加密标识号CEs(IDi)和一个二元关系集合 其中Lj(·)为服务提供者SPj的元数据索引表, 为SPj的密钥。算法输出为一个二元关系集合该集合用于标记哪些服务提供者(SP)存在查询目标数据(即SPj),以及目标数据在SP中的存储位置(即SPj数据库中目标数据所对应的记录编码集合 对每一个服务提供者SP(以SPj为例),算法均要执行一遍,主要包括两个阶段:
[0041] 第一阶段为查询请求再加密阶段。LSP用SPj的密钥 对s发送的加密标识号CEs(IDi)进行再加密,得到密文
[0042] 第二阶段为元数据索引表遍历阶段。对于元数据索引表Lj(·)中的每一条数据记录,均做两步操作:第1步,LSP用数据使用者s的密钥es,对记录中的ID属性值(即)进行再加密,得到密文 其中ID*泛指SPj拥有的数据拥有者ID。第2步,LSP将密文 与密文 的值进行匹配。若值相等,基于可交换加密的特性,可知查询目标的ID号与本条记录拥有者的ID号相等,即为同一个人,表明SPj中存在数据拥有者ti的数据Valueij(即s要查询的数据)。LSP将该条记录在元数据索引表Lj(·)中对应的记录编码 提取下来,作为向SPj获取Valueij的依据,结束在SPj中的遍历搜索。
同时,从元数据列表Lj(·)中随机选择Δ个噪声记录编码,与记录编码 共同组成集合[0043] 当LSP对每个SP均完成上述两个阶段的算法执行后,即可得到算法的输出结果,即二元关系集合
[0044]
[0045]
[0046] 二、安全传输协议
[0047] 安全传输协议用于各个服务提供者(SP)向数据使用者s安全传输查询结果,在查询处理部分的step 4中由各服务提供者(SP)和位置服务提供者(LSP)共同执行。其核心思想是利用s和SP均知道IDi(即数据拥有者ti的ID),而LSP不知道的特点,以IDi为秘钥对SP中ti的数据进行AES对称加密,从而确保数据传输过程中只有数据使用者s能够读懂查询结果,而LSP却不能读懂。具体工作流程如下:
[0048] 服务提供者SPj收到LSP提供的记录编码集合 后,对集合中的每一个记录编码,SPj从数据库中读取该条记录中的用户ID和该记录编码在数据库中对应的数据Value,然后将ID作为AES加密秘钥对Value进行加密,最终得到密文集合{EID(Valuej)}(含查询目标和Δ个噪声的加密数据),并发送给LSP。LSP依据二元关系集合 对每个密文集合{EID(Valuej)}进行如下处理:将Δ个噪声加密数据过滤,保留查询目标的加密数据最终LSP把所有查询目标的加密数据汇总集合 发给数据使用者s。在这里需要强调的是,查询目标数据Valueij并不包含SPj的任何身份信息,也就是说数据使用者s收到Valueij并不能知道数据来源于哪个服务提供者。
[0049] 三、性能测试与分析
[0050] 1、实验环境
[0051] 使用12台配置相同的普通桌面计算机(Inetl(R)Core(TM)2 Duo CPU E7500@2.93GHz,4GDDR3),组成一个局域网测试环境。其中1台模拟位置服务提供者(LSP),1台模拟数据使用者(查询客户端),10台模拟服务提供者(SP)。每个SP拥有的数据记录数量为10万条,总数据记录数为100万条。
[0052] 2、参数选择
[0053] 模数p为二进制132位的素数。每次查询LSP混入的噪声记录数Δ=5。加密密钥为二进制132位的偶数,以确保密钥在集合Np-1中没有模p-1的乘法运算逆元。个人标识号选择为二进制128位,对应的十进制数最多39位,为确保运算不会溢出,设定个人标识号十进制数为38位,其中18位为普通部分,20位为私有部分。同时,每个SP数据记录的个人标识号私有部分取值均匀分布。
[0054] 3、性能测试结果
[0055] 依据服务提供者(SP)的数量不同(1-10个),分为10个测试单元。对每个单元连续查询10个不同的数据,记录每次的查询时间,并计算出相应单元每次查询的平均时间和每10万条数据对应的平均查询时间。实验结果如图4所示,需要说明的是,上述实验是基于普通桌面计算机进行的,如果部署在高性能服务器上,或者采用Hadoop并行运算结构,查询效率还会有很大的提升空间。同时,由方法的工作流程可知,时间消耗最大的就是加密检索算法中的可交换加密运算,可以通过附加一些检索条件减少加密运算次数,提高查询效率。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈