首页 / 专利库 / 人工智能 / 关联性分析 / 一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法

一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法

阅读:480发布:2020-05-13

专利汇可以提供一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于Pufferfish 框架 的针对关联分类数据序列的隐私保护方法。首先引入Pufferfish框架制定严格的隐私保护定义,然后利用多维 马 尔可夫链模型准确描述数据之间的两种关联性,最后提出可实现的隐私保护机制添加合适的噪音保护隐私。本发明基于pufferfish隐私保护框架在二维关联数据的场景下制定隐私保护定义,采用多维马尔可夫链模型合理表示数据之间的二维关联性,并结合隐私保护定义提出可实现的添加噪音的机制,在实现聚合查询分析整体趋势的同时,保证每个个体在每一时刻的状态为隐私数据,攻击者无法区分。本发明同时考虑了个体之间的相关性以及每个序列内部的相关性这两种类型的隐私保护,能在使关联数据集可用的同时保护个体的隐私数据。,下面是一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法专利的具体信息内容。

1.一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,首先引入Pufferfish框架制定严格的隐私保护定义,然后利用多维尔可夫链模型准确描述数据之间的两种关联性,最后提出可实现的隐私保护机制添加合适的噪音保护隐私。
2.根据权利要求1所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的Pufferfish框架包括三部分:Secret S:代表需要被保护的敏感信息合集,即用S来表示涉及个人隐私数据的一组隐私信息;Secret pair S_pairs:判别对的合集,代表了如何保护隐私信息,即需要保证攻击者无法区分其中的判别
对si,sj;D代表可以生成数据集的所有可能概率分布的合集,代表了攻击者拥有的背景知识的多少,每一个θ∈D代表一种生成数据集的可能概率分布,在D中可以考虑数据之间关联性。
3.根据权利要求2所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的Pufferfish框架定义为如下所示:
∈-Pufferfish(S,Spairs,D)Privacy:给定S,Spairs,D,以及隐私预算∈,对于X~θ,若隐私保护机制M满足下式则满足∈-
Pufferfish(S,Spairs,D)Privacy:
式中,pX,M(M(X)=w|si,θ)和pX,M(M(X)=w|sj,θ)表示在已知概率分布θ,判别对分别为si和sj时,通过隐私保护机制M对数据进行处理之后,得到的查询结果为w的条件概率;
最终加噪之后的查询结果需满足上述隐私定义,∈代表保护隐私的程度,∈越小保护的隐私越多;并且需要根据具体数据定义pufferfish三部分-S,Spairs,D。
4.根据权利要求2所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的利用多维马尔可夫链模型准确描述数据之间的两种关联性包括以下步骤:
假设数据集有s个序列,序列本身高度关联,且序列之间也相互依赖;用 代表第k个序列再n时刻的状态概率分布,即 第j个序列在时刻n+1的状态分
布与这s个序列时刻n的状态分布都有关,与时刻n以前的状态无关,则多维马尔可夫链满足下面的关系:
其中, λjk≥0,1≤j,k≤s,P(jk)为列间转移概率矩阵,λjk为列间权重;
以上关系表明,第j个序列在时刻n+1时的状态概率分布依赖于转移概率矩阵和前一时刻状态乘积的加权平均,用矩阵形式可以写成:
通过定义参数初始概率分布y1,列间转移概率矩阵P(jk)以及列间权重λjk,可以定义盛产数据集的可能概率分布的集合D,同时利用马尔可夫链的稳态分布性质估计出最有可能的概率分布。
5.根据权利要求2所述的基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,其特征在于,所述的可实现的隐私保护机制添加合适的噪音保护隐私包括以下步骤:
首先利用泥土移动距离EMD来衡量两个分布间的距离,EMD是表示两个分布之间最小的移动量,其定义如下:
式中,Γ(μ,ν)为μ,ν的联合概率分布;
在本发明的机制中,首先用多维马尔可夫链准确衡量变量之间的关联关系,得到可能的概率分布,接着用泥土移动距离EMD衡量两个条件概率分布P(F(X)|si,θ)和P(F(X)|sj,θ)间的距离,最后针对查询F的结果添加与Distance∞(P(F(X)|si,θ),P(F(X)|sj,θ))成比例的拉普拉斯噪声。

说明书全文

一种基于Pufferfish框架的针对关联分类数据序列的隐私保

护方法

技术领域

[0001] 本发明属于隐私保护与信息安全领域,更具体地,涉及一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法

背景技术

[0002] 差分隐私虽然是目前广泛应用的隐私定义,但是它并不能应用于数据关联的情况,因为模型假设数据集中每一个个体都是相互独立的,这样会导致将差分隐私直接应用于关联数据场景时并不能满足最初设定的隐私定义,造成隐私泄露。
[0003] Pufferfish的提出可以解决数据之间的关联性的情况,因为它可以利用集合D表示所有攻击者所拥有背景知识,即可以生成数据集的所有可能的概率分布,但是它的缺点在于缺乏具体的可实现的机制,因为需要考虑所有可能的概率分布,计算复杂度过高,且很难将所有分布全部表示出来。目前有一些针对具体数据集的可实用的机制,但是只能保护单个序列属性之间的相关性,并不能适用于本发明提供的场景。
[0004] 而目前针对关联数据的隐私保护方法缺点在于均只考虑了一个维度的关联,比如个体与个体之间,或者属性与属性之间的关联情况。但是现实数据集中有很多是由多个相关序列组成的,比如不同人的时间序列数据,序列本身是高度关联的,并且不同人之间的序列也相互关联,所以现有的关联数据的隐私方法并不能适用于本发明提供的场景。

发明内容

[0005] 本发明为克服上述现有技术中的缺陷,提供一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,能解决多个关联分类序列的隐私保护问题,弥补了目前已有方案的不足。
[0006] 为解决上述技术问题,本发明采用的技术方案是:一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,首先引入Pufferfish框架制定严格的隐私保护定义,然后利用多维尔可夫链模型准确描述数据之间的两种关联性,最后提出可实现的隐私保护机制添加合适的噪音保护隐私。本发明提出的方法能解决多个关联分类序列的隐私保护问题,弥补了目前已有方案的不足,在保护隐私的过程中首次同时考虑了个体之间以及个体的数据序列本身的关联性,引入了Pufferfish框架,基于pufferfish隐私保护框架在二维关联数据的场景下制定隐私保护定义,采用多维马尔可夫链模型合理表示数据之间的二维关联性,并结合隐私保护定义提出可实现的添加噪音的机制,在实现聚合查询分析整体趋势的同时,保证每个个体在每一时刻的状态为隐私数据,攻击者无法区分。同时考虑实现机制的效率问题,探究多维马尔可夫链的底层结构实现效率优化。本发明同时考虑了个体之间的相关性以及每个序列内部的相关性这两种类型的隐私保护,能在使关联数据集可用的同时保护个体的隐私数据,具有重大现实意义。
[0007] 进一步的,所述的Pufferfish框架包括三部分:Secret S:代表需要被保护的敏感信息合集,即用S来表示涉及个人隐私数据的一组隐私信息;Secret pair S_pairs:判别对的合集,代表了如何保护隐私信息,即需要保证攻击者无法区分其中的判别对si,sj;D代表可以生成数据集的所有可能概率分布的合集,代表了攻击者拥有的背景知识的多少,每一个θ∈D代表一种生成数据集的可能概率分布,在D中可以考虑数据之间关联性。
[0008] 进一步的,所述的Pufferfish框架定义为如下所示:
[0009] ∈-Pufferfish(S,Spairs,D)Privacy:给定S,Spairs,D,以及隐私预算∈,对于若隐私保护机制M满足下式则满足∈-Pufferfish(S,Spairs,D)Privacy:
[0010]
[0011] 式中,pX,M(M(X)=w|si,θ)和pX,M(M(X)=w|sj,θ)表示在已知概率分布θ,判别对分别为si和sj时,通过隐私保护机制M对数据进行处理之后,得到的查询结果为w的条件概率;
[0012] 最终加噪之后的查询结果需满足上述隐私定义,∈代表保护隐私的程度,∈越小保护的隐私越多;并且需要根据具体数据定义pufferfish三部分-S,Spairs,D。
[0013] 进一步的,所述的利用多维马尔可夫链模型准确描述数据之间的两种关联性包括以下步骤:
[0014] 假设数据集有s个序列,序列本身高度关联,且序列之间也相互依赖;用 代表第k个序列再n时刻的状态概率分布,即 第j个序列在时刻n+1的状态分布与这s个序列时刻n的状态分布都有关,与时刻n以前的状态无关,则多维马尔可夫链满足下面的关系:
[0015]
[0016] 其中, P(jk)为列间转移概率矩阵,λjk为列间权重;
[0017] 以上关系表明,第j个序列在时刻n+1时的状态概率分布依赖于转移概率矩阵和前一时刻状态乘积的加权平均,用矩阵形式可以写成:
[0018]
[0019] 通过定义参数初始概率分布y1,列间转移概率矩阵P(jk)以及列间权重λjk,可以定义盛产数据集的可能概率分布的集合D,同时利用马尔可夫链的稳态分布性质估计出最有可能的概率分布。
[0020] 进一步的,所述的可实现的隐私保护机制添加合适的噪音保护隐私包括以下步骤:
[0021] 首先利用泥土移动距离EMD来衡量两个分布间的距离,EMD是表示两个分布之间最小的移动量,其定义如下:
[0022]
[0023] 式中,Γ(μ,ν)为μ,ν的联合概率分布;
[0024] 在本发明的机制中,首先用多维马尔可夫链准确衡量变量之间的关联关系,得到可能的概率分布,接着用泥土移动距离EMD衡量两个条件概率分布P(F(X)|si,θ)和P(F(X)|sj,θ)间的距离,最后针对查询F的结果添加与Distance∞(P(F(X)|si,θ),P(F(X)|sj,θ))成比例的拉普拉斯噪声。
[0025] 与现有技术相比,有益效果是:本发明提供的一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,第一次考虑了具有两种相关性的数据集,一是个体之间的相关性,二是每个序列内部的相关性;本发明采用pufferfish框架作为我们的隐私定义,并且提供了一种机制,适用于可以用多维马尔可夫链描述数据集之间相关性的情况;本发明提供的隐私保护方法能在保证数据集有用的同时保护个体的隐私,可以应用于关联分类序列。附图说明
[0026] 图1是本发明pufferfish隐私定义图示,两个条件概率之差小于e∈,其中∈为隐私预算。
[0027] 图2是本发明中多个分类关联数据序列示意图。
[0028] 图3是本发明隐私保护机制原理示意图。

具体实施方式

[0029] 附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本发明的限制。
[0030] 实施例1:
[0031] 一种基于Pufferfish框架的针对关联分类数据序列的隐私保护方法,可用于多个关联分类序列的隐私保护,技术方案共分为三个部分,首先引入Pufferfish框架制定了严格的隐私保护定义,然后利用多维马尔可夫链模型准确描述数据之间的两种关联性,最后提出可实现的隐私保护机制添加合适的噪音保护隐私。
[0032] 第一部分:制定隐私保护定义(Pufferfish隐私保护框架),如图1所示。
[0033] Pufferfish隐私保护框架是2014年提出的一种差分隐私的泛化,可以适应数据之间关联性的情况,并且可以根据需要自行定制隐私保护的内容。Pufferfish框架由三部分组成,Secret S:代表需要被保护的敏感信息合集,即用S来表示涉及个人隐私数据的一组隐私信息,例如Alice有流感,Bob 10点在睡觉等;Secret  pair S_pairs:判别对的合集,代表了如何保护隐私信息,即需要保证攻击者无法区分其中的判别对si,sj,例如(Alice有流感,Alice很健康),(Bob 10点在睡觉,Bob 10点在锻炼)等;最后D代表可以生成数据集的所有可能概率分布的合集,代表了攻击者拥有的背景知识的多少,每一个θ∈D代表一种生成数据集的可能概率分布,所以在D中可以考虑数据之间关联性。例如马尔可夫链(初始状态+状态转移矩阵)。定义以上三个部分后,pufferfish框架定义如下:
[0034] ∈-Pufferfish(S,Spairs,D)Privacy:给定S,Spairs,D,以及隐私预算∈,对于若隐私保护机制M满足下式则满足∈-Pufferfish(S,Spairs,D)Privacy:
[0035]
[0036] 其中,pX,M(M(X)=w|si,θ)和pX,M(M(X)=w|sj,θ)表示在已知概率分布θ,判别对分别为si和sj时,通过隐私保护机制M对数据进行处理之后,得到的查询结果为w的条件概率;
[0037] 最终加噪之后的查询结果需满足上述隐私定义,∈代表保护隐私的程度,∈越小保护的隐私越多。并且需要根据具体数据定义pufferfish三部分-S,Spairs,D。
[0038] 举例说明如下:
[0039] 【一组活动监测数据】数据为一组人的活动监测数据,为多个分类数据序列的合集,每个分类数据序列由于是时间序列数据所以高度关联,同时由于是一组人,人与人之间的活动也互相影响。用A代表活动集合{walking,sleeping,working,running}, 代表第k个人在时刻t的活动状态为a,即 在pufferfish框架中,S为表示每个人在任意时刻t的活动状态都是敏感信息,即我们需要保护的信息;Spairs是所有判别对 保证攻击者无法区分这个人在任何时候是执行活动a还是活动b;D表示
所有可能的生成数据集的概率分布合集,这里合理的概率分布是多维马尔可夫链,将在接下来的篇幅中具体描述。
[0040] 第二部分:描述数据之间的两种关联性(采用多维马尔可夫链模型),如图2所示。
[0041] 本发明第二部分的工作是准确描述数据之间的关联性,合理表示出所有可能的概率分布D,因为我们需要考虑数据的二维关联性,所以采用多维马尔可夫链模型对数据进行建模。
[0042] 假设数据集有s个序列,序列本身高度关联,且序列之间也相互依赖。用 代表第k个序列再n时刻的状态概率分布,即 第j个序列在时刻n+1的状态分布与这s个序列时刻n的状态分布都有关,与时刻n以前的状态无关,则多维马尔可夫链满足下面的关系:
[0043]
[0044] 其中, P(jk)为列间转移概率矩阵,λjk为列间权重。
[0045] 以上关系表明,第j个序列在时刻n+1时的状态概率分布依赖于转移概率矩阵和前一时刻状态乘积的加权平均,用矩阵形式可以写成:
[0046]
[0047] 通过定义参数初始概率分布y1,列间转移概率矩阵P(jk)以及列间权重λjk,可以定义盛产数据集的可能概率分布的集合D,同时可以利用马尔可夫链的稳态分布性质估计出最有可能的概率分布。
[0048] 举例说明如下:
[0049] 【一组活动监测数据】其可能的概率分布集合D由一组多维马尔可夫链表示,假设我们拥有两个活动类别{walking,working},并且数据集中有两个分类序列,则可能的概率分布θ∈D可以被一下元组表示:
[0050]
[0051] 可能的组成为:
[0052]
[0053] 第三部分:用可实现的隐私保护机制添加合适的噪音保护隐私,如图3所示。
[0054] 本发明的第三部分为提供可实现的机制,实现基于Pufferfish框架的针对关联分类数据序列的隐私保护,其基本思想是通过计算分布P(F(X)|si,θ)和P(F(X)|sj,θ)间的距离,在正确的查询结果之上添加合适比例的拉普拉斯噪音。
[0055] 首先利用泥土移动距离(EMD)来衡量两个分布间的距离,EMD是表示两个分布之间最小的移动量,其定义如下:
[0056] μ,ν为R上的概率分布,Γ(μ,ν)代表所有可能的联合分布的集合,μ,ν的距离为:
[0057]
[0058] 其中,Γ(μ,ν)为μ,ν的联合概率分布;
[0059] 在本发明的机制中,首先用多维马尔可夫链准确衡量变量之间的关联关系,得到可能的概率分布,接着用EMD衡量两个条件概率分布P(F(X)|si,θ)和P(F(X)|sj,θ)间的距离,最后针对查询F的结果添加与Distance∞(P(F(X)|si,θ),P(F(X)|sj,θ))成比例的拉普拉斯噪声,具体算法如下:
[0060]
[0061] 通过上述三个步骤,本发明可以保证再实现针对关联分类数据序列的隐私保护的同时保证准确性,即查询结果依然可用。、
[0062] 下面以具体的实例来实现本发明的具体方案,以模拟数据为例。
[0063] 1.生成数据集:
[0064] 模拟数据集由一组多维马尔可夫链生成,其中序列长度为T=100,共包含两个序列(s=2),状态为{0,1}。初始概率分布由两个参数决定, 和分别代表第一个序列和第二个序列初始状态为0的概率;概率转移矩阵由
4个矩阵组成,P(11),P(12),P(21),以及P(22),由参数 和
决定,分别代表上一个状态是0转移到下个状态也是0的概率,上
一个状态是1转移到下一个状态也是1的概率;列间权重λjk均为0.5,表示影响因子相同。
[0065] 2.制定隐私保护定义,用多维马尔可夫链表示数据之间的关联性
[0066] 基于pufferfish框架,应用本发明在上述数据集中,S代表需要被保护的隐私信息,这里指的是 Spairs是所有判别对 即两个序列中的单个个体状态为0或者1无法被攻击者区分,D即为多维马尔可夫链的组合,利用1中的参数生成。
[0067] 3.添加合适比例的噪音,使用不同的∈比较隐私保护程度,衡量真实值与机制给出的结果之间的误差
[0068] 查询F的表达式为:
[0069] 本实例中s=2,T=100, 为0或1;
[0070] 根据算法计算分布P(F(X)|si,θ)和P(F(X)|sj,θ)间的距离,添加与Distance∞(P(F(X)|si,θ),P(F(X)|sj,θ))成比例的噪声;
[0071] 隐私预算∈取值为{0.2,0.5,1,2,5},同时通过计算输出值与真实值之间的L1误差以衡量本发明在保护隐私的同时准确性也得以保证,如下表所示,为模拟数据试验结果。
[0072] 表1模拟数据试验结果
[0073]
[0074] 实验结果表明,随着隐私预算∈的增大误差减小,即越小的隐私预算能保障更多的隐私,同时本发明能在使得数据集可用的同时保证用户的隐私,可以应用于关联分类序列的隐私保护中。
[0075] 显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈