首页 / 专利库 / 企业组织 / 术语学家 / 基于隐私保护的语音数据处理方法

基于隐私保护的语音数据处理方法

阅读:932发布:2020-05-08

专利汇可以提供基于隐私保护的语音数据处理方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于隐私保护的语音 数据处理 方法,一个 实施例 的方法包括:建立语音数据模型,定义了语音数据发布中存在的隐私保护问题,根据语音数据模型定义了语音内容,说话人的声音以及数据集标签这三个方面存在的隐私 风 险和数据有效性;进一步考虑语音内容和说话人的声音两者之间的相关性,并把它作为一种新的隐私风险;利用 机器学习 中的分类器来解决由语音内容和说话人的声音的相关性导致的隐私风险问题;利用适当的数据处理方法来分别处理语音内容,说话人的声音以及数据集标签这三部分,实现了隐私风险和数据有效性之间的平衡。本实例能够提高语音数据的隐私保护的安全性,同时保证语音数据的有效性。,下面是基于隐私保护的语音数据处理方法专利的具体信息内容。

1.一种基于隐私保护的语音数据处理方法,其特征在于,包括以下步骤:
步骤1、定义语音数据集D=(cate,S),其中,cate是数据集标签;S是语音数据,包括语音内容c和说话人的声音v,语音内容c是语音数据的文本信息,说话人的声音v体现用户的身份信息,说话人的声音v和语音内容c之间存在映射关系,即F:c→v,称F为c和v之间的相关性;
定义语音数据发布中存在的隐私保护问题,对于一条语音数据S,定义隐私泄漏险的s
五个指标,分别为文本、语音属性、声纹、成员关系和相关性泄漏风险,分别用Pt , Pm,表示,其中,Pm只与数据集标签cate有关,每条语音数据S的总的隐私泄露风险表示为:
其中,fp是求和函数;
定义四个有效性损失指标分别为文本可靠性损失、语音多样性损失、语音质量损失和数据集清晰度损失,分别用Ut,Uvd,Usq,Udc,Uco表示,语音数据集D的总的有效性损失表示为:
U=fu(Ut,Uvd,Usq,Udc,Uco),其中,fu是一个求和函数;
步骤2、对语音数据集D的类型描述cate进行处理,成员关系Pm随着处理方式x的不同而变化,表示成Pm=f1(x),同时造成了数据清晰度损失Udc=f2(x);
对语音内容c进行处理,此时文本泄漏风险Pts=f3s(ys),ys中的上标s表示语音数据集D中的每一条语音数据S都进行处理,f3s中的上标表示每一条语音数据S的处理方法会有所不同,对语音内容c的处理,造成语音内容c的可靠性Ut损失,使得 其中
使用语音转换技术,对说话人的声音v进行处理,同时减少声音属性和声纹的泄露此时 使用语音转换技术后,对声音多样性Uvd和语音质
1 2 N
量Usq产生影响,其中Uvd=f7(z ,z ,...,z),N是语音数据集D中的语音数据的总数,z表示语音转换,Uvd是由N条语音数据s共同决定的;语音质量的损失Usq表示成N条语音数据各自的损失 的累加值,即 其中 y表示关键字扰动,在用关键字扰动
y或者语音转换z对语音数据S进行处理后,会增加语音数据中说话人的声音v和语音内容c的不匹配度,导致这条语音显得十分突兀,更容易引起攻击者的注意,从而增加了隐私泄露的风险,将这种风险称为相关性泄露风险 此外,相关性的降低也会影响该
数据集的有效性Uco=f10(ys,zs),相关性损失Uco也会受到关键字扰动y和语音转换z的影响;
步骤3、基于步骤2得到的结论,将语音数据集D的总的有效性损失U=fu(Ut,Uvd,Usq,Udc,Uco)以及每条语音数据S的总的隐私泄露风险 进一步表示为:
步骤4、从语音内容c,说话人的声音v和数据集标签cate这三个方面,分别对隐私泄露风险PS和有效性损失U进行具体的定义与量化:
对语音内容c而言,存在文本内容的隐私泄露风险Pts和文本可靠性损失Ut两个指标,具体定义如下:
文本内容的隐私泄露风险Pts:将每条语音数据中各个单词的TF-IDF值之和定义为Pts;
文本可靠性损失Ut:当替换或者去掉原始的文本内容中的敏感部分,会引起文本可靠性损失,把插入或者删除一个单词带来的损失设为1,当替换一个单词时,替换带来的损失取决于替换的单词和原始单词的相似度,如果替换的单词和原始单词从语法和语义上都很接近,带来的损失r就很小,因此每条语音数据的损失 表达成 其中,s
表示替换的单词数,d表示删除的单词数,i表示插入的单词数,N表示处理过后的一条语音数据中的全部单词数,从而保证
则整个语音数据集D的损失Ut通过计算全部语音数据的损失的平均值
N表示该语音数据集D中的总的语音数据条数;
对说话人的声音v而言,存在声音属性的隐私泄露风险 声纹的隐私泄露风险 以及声音多样性的损失 和语音质量的损失 四个指标,具体定义如下:
声音属性的隐私泄露风险 通过对声音的分析,攻击者可以获得受害者的声音属性,假设总共可以获得n1种声音属性,每种声音属性的重要程度用ai(1≤i≤n1)表示,可得声纹的隐私泄露风险 pvp是一个0到1之间的常数,用来表示声纹的泄露程
度,当pvp=1时,意味声纹已经完全泄露出去了,攻击者可以利用获得的声纹,以100%的成功率顺利通过基于声纹的身份认证,当声音经过特殊处理后,pvp的值会降低;
声音多样性的损失 声音多样性取决于说话人的性别、年龄和地区的多样性,分别计算数据处理前后的性别、年龄和地区的联合分布函数(Q1,Q2),将Uvd定义为Q1,Q2之间的距离: 用Hellinger distance作为Uvd的度量标准;
语音质量的损失 采用国际电信联盟提供的主观语音质量评估PESQ来评估一段语音数据的语音质量好坏,主观语音质量评估PESQ表示的是经过处理后的语音和参考语音之间的相似度,语音质量的损失 表示成
对数据集标签cate而言,存在成员关系的隐私泄露风险Pm以及数据清晰度的损失Udc两个指标。具体定义如下:
隐私泄露风险Pm:攻击者可以从数据集标签cate中获得一些属性,假设总共可以获得n2种属性,每种属性的重要程度用bi(1≤i≤n2)表示,可得
数据清晰度的损失Udc:假设一个数据集被n3个使用者所使用,用wi表示各个使用者对数据清晰度要求的高低,出于归一化的考虑,令 在对类型描述进行处理后,若仍有n3′个使用者,定义为集合K,对数据清晰度感到满意,则数据清晰度的损失Udc可表示为步骤5、考虑语音内容c和说话人的声音v两者之间的相关性F,并把相关性F作为一种新的隐私风险
步骤6、分别对语音内容c,说话人的声音v和数据集标签cate进行处理,包括以下步骤:
对语音内容c的处理:
把TF-IDF值大于限值δ的单词称为关键字,一条语音数据的文本泄露风险Pts是各个单词的TF-IDF值的相加,即 通过更改或者替换TF-IDF值较大的单词来降
低Pts,对语音内容c的处理分为以下三个步骤:
(1)利用语音识别技术,从语音数据中获得相应的文本内容,然后利用关键字识别技术找到关键字;
(2)利用DTW技术,在语音流中确定这些关键字的位置
(3)在语音流中,对这些关键字进行替换或者删除,其中,替换的原则是用同类型的其它词来替换关键字,在替换时,为了消除语音数据中文本内容和声音的相关性泄露风险根据说话人的声音到对应的词汇库中选择用于替换的单词,使得相关性泄露风险 为0,用r来表示替换前后两个词之间的相似度,两个词之间的相似性越高,r越接近0,假设n个关键字被替换后,产生的文本可靠性损失为: 删除相当于r=1的特殊情况;
为了识别关键字,我们利用了一种。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,比如数字、日期、货币都是命名实体。但命名实体包含的内容毕竟有限,很容易遗漏掉其他的非命名实体的信息,比如某一领域的专业术语。此外,也并不是所有的命名实体都与说话人密切相关。比如说话人说了一个国家的名字,但并不表明她就身处在那个国家。
对说话人的声音v的处理:
采用语音转换技术来改变每条语音数据的声音
对数据集标签cate的处理:
假设数据集标签cate由n个部分组成{a1,a2,,,an},通过删除若干个ai从而减小成员关系泄露Pm的值,使其小于设定的预算值,为了成员关系泄露Pm与数据清晰度损失Udc之间的最优化,采用贪心策略,将{a1,a2,,,an}按照重要性从高到低重新排序,每次从最底层的ai开始删除,当Pm低于预算值时就停止;
步骤7、将隐私泄露风险PS和有效性损失U分成三个子问题来讨论。这三个子问题分别对应下式中的限制条件1、2、3:
先将 和 记为 和 设Pts, 这五个风险指标的
初始值依次为Pto,Pvao,Pvpo,Pcoo,Pmo, 都是关于参数α的函数,因此,将这两者的加权和作为一个整体考虑;相对应地, 也做相同的处理,βi,ωi表示权重系数,权重系数的值越大,表明对某个指标更加重视;
解决上述优化问题的基本原则是使各个风险指标尽可能地靠近或者等于设定的预算值,这样就会让最终产生地有效性损失的值是最小的。
Pts≤β1P为限制条件1,对于限制条件1:因为Pts、 都是关于门限值λ的函数,通过计算Pts(λ0)=β1P就能得到最优解λ=λ0;
为限制条件2,对于限制条件2: 是关于弯
曲程度α的函数:
1)设 的初始值是Pvo、Pcoo。
2)if(Pvo≤Pcoo),
else, 则α=α0为最优解,return
由此条件,能得到风险预算值的最小值:min(P)=min{ω1Pvao+ω2Pvpo,Pcoo}/β2;
为限制条件3,对于限制条件3:采用之前提过的贪心策略,从重要性较低的标签元素开始删除,直到小于规定的预算值。
2.如权利要求1所述的一种基于隐私保护的语音数据处理方法,其特征在于,步骤5中,获得所述隐私风险 包括以下步骤:
步骤501、将语音数据集D中的语音数据S按照用户的年龄划分成三类,即少年、青年和中年三个年龄段,即S={S1,S2,S3},其中,S1、S2、S3依次是少年、青年和中年的语音数据;si=(vi,ci)∈Si,i={1,2,3};
步骤502、找到少年、青年和中年各自特有的词汇库,把少年、青年和中年的词汇库依次定义为G1,G2,G3,把少年、青年和中年的年龄依次定义为E1,E2,E3;
*
步骤503、若一条声音为Gi,i=1,2,3,的语音数据中出现了n 个Gj,j=1,2,3且j≠i,中的词汇,若n*超过了一定的数量n0认为产生了相关性泄露,即
3.如权利要求2所述的一种基于隐私保护的语音数据处理方法,其特征在于,步骤502中,所述利用机器学习来得到所述少年、青年和中年各自特有的词汇库。
4.如权利要求3所述的一种基于隐私保护的语音数据处理方法,其特征在于,所述机器学习包括以下步骤:
对分类问题进行简化,将一个三类的问题简化成三个两类的子问题,即子问题一:判断某个单词是否是少年所特有的;子问题二:判断某个单词是否是青年所特有的;子问题三:
判断某个单词是否是中年所特有的;
随后选择一个样本数足够大的语音数据集,并把其中的文本内容作为训练集,然后通过特征选择,确定子问题一至子问题三的特征集合,然后对于子问题一至子问题三,分别用同一个训练集进行学习,最后得到三个系统模型;
当把某个数据集D=(cate,S)经过处理后,得到了数据集D′,先把数据集D′的文本内容送入与子问题一对应的第一个系统模型中,若输出的结果表明某个单词是少年所特有的,则把这个单词放入集合g1中,同样地,把数据集D′的文本内容再送入与子问题二及子问题三对应的两个系统模型中,把满足要求的单词分别放入集合g2和集合g3中;
若某个单词同时处于多个集合g1、g2、g3中,为了使得最终的词汇库两两之间的交集为空,做如下处理:
G1=g1-g1∩g2-g1∩g3 G2=g2-g2∩g1-g2∩g3 G3=g3-g3∩g1-g3∩g2。
5.如权利要求1所述的一种基于隐私保护的语音数据处理方法,其特征在于,步骤6中,采用自然语言处理技术NER来将文本内容的命名实体进行定位和分类,从而获得所述关键字。

说明书全文

基于隐私保护的语音数据处理方法

技术领域

[0001] 本发明涉及数据处理技术领域,特别是涉及一种基于隐私保护的语音数据处理方法。

背景技术

[0002] 在大数据时代,越来越多的语音数据被发布,以用于改善基于语音的服务或学术研究。但在语音数据发布过程中存在着隐私泄露的险。例如,在语音数据发布中,攻击者如果知道特定用户的语音数据,则可以通过分析语音数据来了解用户的敏感信息。因此,在语音数据发布中,防止攻击者侵犯用户隐私是非常重要的。语音数据包括三个方面:语音内容,说话者的声音以及数据集标签,这三个方面都包含了用户的隐私信息。具体来说,语音内容能够直接反映用户的信息。例如,如果用户在购物软件上的语音数据被泄露,攻击者可以通过分析文本轻松了解用户的职业、偏好、生活习惯等。此外,通过检测说话者的声音,攻击者还可以获得用户的性别、年龄、位置、宗教信仰等隐私信息。最后,数据集标签也包含了隐私信息。假设一个语音数据属于“A学院的男生”这一数据集,那么攻击者将知道用户的性别和学校。现有的研究中有一部分是只考虑了语音数据中说话人声纹的隐私保护问题,是通过利用安全多方计算的方法来保护说话人的声纹。也有研究者试图在实现隐私保护的同时,保证语音数据本身的质量。然而,这些工作都忽略了语音内容与说话人声音的相关性,因此在语音数据发布中并不能完全地保护用户的隐私,因为攻击者仍然可以利用语音内容与说话人声音的相关性来过滤那些经过隐私保护处理的语音数据。

发明内容

[0003] 本发明的目的是:保证语音数据在发布过程的隐私安全,同时保证语音数据的有效性。
[0004] 为了达到上述目的,本发明的技术方案是提供了一种基于隐私保护的语音数据处理方法,其特征在于,包括以下步骤:
[0005] 步骤1、定义语音数据集D=(cate,S),其中,cate是数据集标签;S是语音数据,包括语音内容c和说话人的声音v,语音内容c是语音数据的文本信息,说话人的声音v体现用户的身份信息,说话人的声音v和语音内容c之间存在映射关系,即F:c→v,称F为c和v之间的相关性;
[0006] 定义语音数据发布中存在的隐私保护问题,对于一条语音数据S,定义隐私泄漏风s险的五个指标,分别为文本、语音属性、声纹、成员关系和相关性泄漏风险,分别用Pt ,Pm, 表示,其中,Pm只与数据集标签cate有关,每条语音数据S的总的隐私泄露风险表示为: 其中,fp是求和函数;
[0007] 定义四个有效性损失指标分别为文本可靠性损失、语音多样性损失、语音质量损失和数据集清晰度损失,分别用Ut,Uvd,Usq,Udc,Uco表示,语音数据集D的总的有效性损失表示为:U=fu(Ut,Uvd,Usq,Udc,Uco),其中,fu是一个求和函数;
[0008] 步骤2、对语音数据集D的类型描述cate进行处理,成员关系Pm随着处理方式x的不同而变化,表示成Pm=f1(x),同时造成了数据清晰度损失Udc=f2(x);
[0009] 对语音内容c进行处理,此时文本泄漏风险Pts=f3s(ys),ys中的上标s表示语音数据集D中的每一条语音数据S都进行处理,f3s中的上标表示每一条语音数据S的处理方法会有所不同,对语音内容c的处理,造成语音内容c的可靠性Ut损失,使得 其中[0010] 使用语音转换技术,对说话人的声音v进行处理,同时减少声音属性和声纹的泄露此时 使用语音转换技术后,对声音多样性Uvd和语音质量Usq产生影响,其中Uvd=f7(z1,z2,...,zN),N是语音数据集D中的语音数据的总数,z表示语音转换,Uvd是由N条语音数据s共同决定的;语音质量的损失Usq表示成N条语音数据各自的损失 的累加值,即 其中 y表示关键字扰动,在用关键字扰动
y或者语音转换z对语音数据S进行处理后,会增加语音数据中说话人的声音v和语音内容c的不匹配度,导致这条语音显得十分突兀,更容易引起攻击者的注意,从而增加了隐私泄露的风险,将这种风险称为相关性泄露风险 此外,相关性的降低也会影响该
数据集的有效性Uco=f10(ys,zs),相关性损失Uco也会受到关键字扰动y和语音转换z的影响;
[0011] 步骤3、基于步骤2得到的结论,将语音数据集D的总的有效性损失U= fu(Ut,Uvd,Usq,Udc,Uco)以及每条语音数据S的总的隐私泄露风险 进一步表示为:
[0012]
[0013] Ps=fp(f3s(ys),f5s(zs),f6s(zs),f1(x),f9s(ys,zs));
[0014] 步骤4、从语音内容c,说话人的声音v和数据集标签cate这三个方面,分别对隐私泄露风险PS和有效性损失U进行具体的定义与量化:
[0015] 对语音内容c而言,存在文本内容的隐私泄露风险Pts和文本可靠性损失Ut两个指标,具体定义如下:
[0016] 文本内容的隐私泄露风险Pts:将每条语音数据中各个单词的TF-IDF值之和定义为Pts;
[0017] 文本可靠性损失Ut:当替换或者去掉原始的文本内容中的敏感部分,会引起文本可靠性损失,把插入或者删除一个单词带来的损失设为1,当替换一个单词时,替换带来的损失取决于替换的单词和原始单词的相似度,如果替换的单词和原始单词从语法和语义上都很接近,带来的损失r就很小,因此每条语音数据的损失 表达成其中,s表示替换的单词数,d表示删除的单词数,i表示插入的单词数,N表示处理过后的一条语音数据中的全部单词数,从而保证
[0018] 则整个语音数据集D的损失Ut通过计算全部语音数据的损失的平均值N表示该语音数据集D中的总的语音数据条数;
[0019] 对说话人的声音v而言,存在声音属性的隐私泄露风险 声纹的隐私泄露风险以及声音多样性的损失 和语音质量的损失 四个指标,具体定义如下:
[0020] 声音属性的隐私泄露风险 通过对声音的分析,攻击者可以获得受害者的声音属性,假设总共可以获得n1种声音属性,每种声音属性的重要程度用ai (1≤i≤n1)表示,可得
[0021] 声纹的隐私泄露风险 pvp是一个0到1之间的常数,用来表示声纹的泄露程度,当pvp=1时,意味声纹已经完全泄露出去了,攻击者可以利用获得的声纹,以100%的成功率顺利通过基于声纹的身份认证,当声音经过特殊处理后,pvp的值会降低;
[0022] 声音多样性的损失 声音多样性取决于说话人的性别、年龄和地区的多样性,分别计算数据处理前后的性别、年龄和地区的联合分布函数(Q1,Q2),将 Uvd定义为Q1,Q2之间的距离: 用Hellinger distance作为Uvd的度量标准;
[0023] 语音质量的损失 采用国际电信联盟提供的主观语音质量评估PESQ来评估一段语音数据的语音质量好坏,主观语音质量评估PESQ表示的是经过处理后的语音和参考语音之间的相似度,语音质量的损失 表示成
[0024] 对数据集标签cate而言,存在成员关系的隐私泄露风险Pm以及数据清晰度的损失Udc两个指标。具体定义如下:
[0025] 隐私泄露风险Pm:攻击者可以从数据集标签cate中获得一些属性,假设总共可以获得n2种属性,每种属性的重要程度用bi(1≤i≤n2)表示,可得
[0026] 数据清晰度的损失Udc:假设一个数据集被n3个使用者所使用,用wi表示各个使用者对数据清晰度要求的高低,出于归一化的考虑,令 在对类型描述进行处理后,若仍有n3′个使用者,定义为集合K,对数据清晰度感到满意,则数据清晰度的损失Udc可表示为[0027] 步骤5、考虑语音内容c和说话人的声音v两者之间的相关性F,并把相关性F 作为一种新的隐私风险
[0028] 步骤6、分别对语音内容c,说话人的声音v和数据集标签cate进行处理,包括以下步骤:
[0029] 对语音内容c的处理:
[0030] 把TF-IDF值大于限值δ的单词称为关键字,一条语音数据的文本泄露风险Pts是各个单词的TF-IDF值的相加,即 通过更改或者替换 TF-IDF值较大的单词来降低Pts,对语音内容c的处理分为以下三个步骤:
[0031] (1)利用语音识别技术,从语音数据中获得相应的文本内容,然后利用关键字识别技术找到关键字;
[0032] (2)利用DTW技术,在语音流中确定这些关键字的位置;
[0033] (3)在语音流中,对这些关键字进行替换或者删除,其中,替换的原则是用同类型的其它词来替换关键字,在替换时,为了消除语音数据中文本内容和声音的相关性泄露风险 根据说话人的声音到对应的词汇库中选择用于替换的单词,使得相关性泄露风险为0,用r来表示替换前后两个词之间的相似度,两个词之间的相似性越高,r越接近0,假设n个关键字被替换后,产生的文本可靠性损失为: 删除相当于r=1的特殊情况;
[0034] 为了识别关键字,我们利用了一种。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,比如数字、日期、货币都是命名实体。但命名实体包含的内容毕竟有限,很容易遗漏掉其他的非命名实体的信息,比如某一领域的专业术语。此外,也并不是所有的命名实体都与说话人密切相关。比如说话人说了一个国家的名字,但并不表明她就身处在那个国家。
[0035] 对说话人的声音v的处理:
[0036] 采用语音转换技术来改变每条语音数据的声音
[0037] 对数据集标签cate的处理:
[0038] 假设数据集标签cate由n个部分组成{a1,a2,,,an},通过删除若干个ai从而减小成员关系泄露Pm的值,使其小于设定的预算值,为了成员关系泄露Pm与数据清晰度损失Udc之间的最优化,采用贪心策略,将{a1,a2,,,an}按照重要性从高到低重新排序,每次从最底层的ai开始删除,当Pm低于预算值时就停止;
[0039] 步骤7、将隐私泄露风险PS和有效性损失U分成三个子问题来讨论。这三个子问题分别对应下式中的限制条件1、2、3:
[0040]
[0041]
[0042] 先将 和 记为 和 设Pts, 这五个风险指标的初始值依次为Pto,Pvao,Pvpo,Pcoo,Pmo, 都是关于参数α的函数,因此,将这两者的加权和作为一个整体考虑;相对应地, 也做相同的处理,βi,ωi表示权重系数,权重系数的值越大,表明对某个指标更加重视;
[0043] 解决上述优化问题的基本原则是使各个风险指标尽可能地靠近或者等于设定的预算值,这样就会让最终产生地有效性损失的值是最小的。
[0044] Pts≤β1P为限制条件1,对于限制条件1:因为Pts、 都是关于门限值λ的函数,通过计算Pts(λ0)=β1P就能得到最优解λ=λ0;
[0045] 为限制条件2,对于限制条件2:  是关于弯曲程度α的函数:
[0046] 1)设 的初始值是Pvo、Pcoo。
[0047] 2)
[0048] 则α=α0为最优解,return
[0049] 由此条件,能得到风险预算值的最小值:min(P)=min{ω1Pvao+ω2Pvpo,Pcoo}/β2;
[0050] 为限制条件3,对于限制条件3:采用之前提过的贪心策略,从重要性较低的标签元素开始删除,直到小于规定的预算值。
[0051] 优选地,步骤5中,获得所述隐私风险 包括以下步骤:
[0052] 步骤501、将语音数据集D中的语音数据S按照用户的年龄划分成三类,即少年、青年和中年三个年龄段,即S={S1,S2,S3},其中,S1、S2、S3依次是少年、青年和中年的语音数据;si=(vi,ci)∈Si,i={1,2,3};
[0053] 步骤502、找到少年、青年和中年各自特有的词汇库,把少年、青年和中年的词汇库依次定义为G1,G2,G3,把少年、青年和中年的年龄依次定义为E1,E2,E3;
[0054] 步骤503、若一条声音为Gi,i=1,2,3,的语音数据中出现了n*个Gj,j=1,2,3 且j≠i,中的词汇,若n*超过了一定的数量n0认为产生了相关性泄露,即
[0055] 优选地,步骤502中,所述利用机器学习来得到所述少年、青年和中年各自特有的词汇库。
[0056] 优选地,所述机器学习包括以下步骤:
[0057] 对分类问题进行简化,将一个三类的问题简化成三个两类的子问题,即子问题一:判断某个单词是否是少年所特有的;子问题二:判断某个单词是否是青年所特有的;子问题三:判断某个单词是否是中年所特有的;
[0058] 随后选择一个样本数足够大的语音数据集,并把其中的文本内容作为训练集,然后通过特征选择,确定子问题一至子问题三的特征集合,然后对于子问题一至子问题三,分别用同一个训练集进行学习,最后得到三个系统模型;
[0059] 当把某个数据集D=(cate,S)经过处理后,得到了数据集D′,先把数据集D′的文本内容送入与子问题一对应的第一个系统模型中,若输出的结果表明某个单词是少年所特有的,则把这个单词放入集合g1中,同样地,把数据集D′的文本内容再送入与子问题二及子问题三对应的两个系统模型中,把满足要求的单词分别放入集合g2和集合g3中;
[0060] 若某个单词同时处于多个集合g1、g2、g3中,为了使得最终的词汇库两两之间的交集为空,做如下处理:
[0061] G1=g1-g1∩g2-g1∩g3 G2=g2-g2∩g1-g2∩g3 G3=g3-g3∩g1-g3∩g2。
[0062] 优选地,步骤6中,采用自然语言处理技术NER来将文本内容的命名实体进行定位和分类,从而获得所述关键字。
[0063] 本发明具有如下特点:
[0064] 1)本发明建立语音数据模型,定义了语音数据发布中存在的隐私保护问题,根据语音数据模型定义了语音内容,说话人的声音以及数据集标签这三个方面存在的隐私风险和数据有效性。
[0065] 2)本发明进一步考虑语音内容和说话人的声音两者之间的相关性,并把它作为一种新的隐私风险。
[0066] 3)本发明利用机器学习中的分类器来解决由语音内容和说话人的声音的相关性导致的隐私风险问题。
[0067] 4)本发明利用适当的数据处理方法来分别处理语音内容,说话人的声音以及数据集标签这三部分,实现了隐私风险和数据有效性之间的平衡。附图说明
[0068] 图1是一个对语音数据处理过程的示意图

具体实施方式

[0069] 下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0070] 本发明提供的一种基于隐私保护的语音数据处理方法包括以下内容:
[0071] 首先要建立语音数据模型,用D=(cate,S)来表示语音数据,其中cate是数据集标签,比如“ABC学院的男生”数据集。S是语音数据,包括语音内容和说话人的声音两部分。语音内容c就是语音数据的文本信息。说话人的声音v能够体现用户的身份信息。此外,说话者的声音和说话内容之间存在映射关系,即F:c→v。我们称F为c和v之间的相关性。例如,儿童的语音数据不涉及成年人关心的话题,如养老金、工资等。同样,成年人的语音数据也不涉及幼稚的话题,如上幼儿园、买棒棒糖等。
[0072] 其次,定义语音数据发布中存在的隐私保护问题。对于一条语音数据s,定义隐私泄漏风险的五个指标:文本、语音属性、声纹、成员关系和相关性泄漏风险,分别用Pts,Pm, 表示。其中,Pm只与数据集标签cate有关。因此,每条语音数据的总的隐私泄露风险可表示为: 其中, fp是一个求和函数。我们的目的是降低每条语音数据的Ps的值,直到其小于或等于一个常量P,即 Ps≤P,其中P是风险预算,它的数值可以由用户事先定义。然而,当我们试图减少隐私泄露风险时,会不可避免地引起语音数据的有效性损失。我们定义了四个有效性损失指标:文本可靠性损失、语音多样性损失、语音质量损失和数据集清晰度损失,分别用Ut,Uvd,Usq,Udc,Uco表示。因此,语音数据集的总的有效性损失可表示为:U=fu(Ut,Uvd,Usq,Udc,Uco)。其中,fu是一个求和函数。
[0073] 因为数据集D=(cate,S)由cate(类型)和S(语音数据)构成,其中S包括说话人的声纹v和语音内容c,所以我们可以对cate,v,c这三个方面进行处理,从而降低隐私泄露风险Ps的大小,具体处理流程可参照图1。首先,我们可以对数据集的类型描述cate进行处理,此时Pm不再是一个常数,它会随着处理方式x的不同而变化,表示成Pm=f1(x),同时造成了数据清晰度的损失Udc=f2(x)。其次,我们可以对语音内容c进行处理,比如修改或者替换语音内容c中的关键字(关键字扰动),可以减少文本内容的泄露,此时Pts=f3s(ys)。ys中的上标s表示数据集中的每一条语音数据都要进行处理,f3s中的上标表示每一条语音数据的处理方法会有所不同。对语音内容c的处理,会造成文本内容的可靠性Ut的损失,使得其中 最后,我们可以使用语音转换技术,对说话人的声音v进行处理,可以同时减少声音属性和声纹的泄露 此时 使用语
音转换技术后,会对声音多样性Uvd和语音质量Usq产生影响,其中Uvd=f7(z1,z2,...,zN)(N是数据集中的语音数据的总数), Uvd是由N条语音数据s共同决定的。另外,语音质量的损失Usq可以表示成N条语音数据各自的损失 的累加值,即 其中
值得注意的是,我们在用关键字扰动或者语音转换对语音数据进行处理后,会增加语音数据中说话人的声音v和文本内容c的不匹配度(也就是相关性的降低)。举个简单的例子就是一个成年人的声音说的却是十分儿童化的内容。这会导致这条语音显得十分突兀,更容易引起攻击者的注意,从而增加了隐私泄露的风险,我们把这种风险称为相关性泄露风险此外,相关性的降低也会影响该数据集的有效性Uco=f10(ys,zs),相关性损失Uco也会受到关键字扰动(参数y) 和语音转换(参数z)的影响。
[0074] 因此,原来的表达式U=fu(Ut,Uvd,Usq,Udc,Uco)和 可以进一步写成以下形式:
[0075]
[0076] Ps=fp(f3s(ys),f5s(zs),f6s(zs),f1(x),f9s(ys,zs))
[0077] 我们要做的就是在Ps≤P, 这一约束条件下,最小化U的值。
[0078] 接下来,从语音内容,说话者的声音和数据集标签这三个方面,分别对上文中提到的隐私泄露风险指标和有效性损失指标进行具体的定义与量化。
[0079] 对语音内容而言,存在文本内容的隐私泄露风险Pts和文本可靠性损失Ut两个指标。具体定义如下:
[0080] 文本内容的隐私泄露风险:我们将每条语音数据中各个单词的TF-IDF值之和定义为Pts。如果一个人经常使用某个单词,而这个单词在其他人当中并不常用,那么说明这个单词与这个人的联系很密切。某个单词的TF-IDF值越大,说明它对这个人而言就更私密。
[0081] 文本可靠性损失:当我们替换或者去掉原始的文本内容中的敏感部分,就会引起文本可靠性损失。我们可以想象,当我们对文本进行插入、替换和删除等操作时,都会影响文本的可靠性,毕竟此时的文本内容跟原始内容是不同的。我们把插入或者删除一个单词带来的损失设为1。当替换一个单词时,情况会稍微复杂一点,替换带来的损失取决于替换的单词和原始单词的相似度。如果两者从语法和语义上都很接近,带来的损失r就很小。因此 就可以表达成 其中,s表示替换的单词数,d表示删除的单词数,i表示插入的单词数,N表示处理过后的一条语音数据中的全部单词数,从而保证[0082] 应当注意的是,我们目前计算的只是每条语音数据的损失 要计算整个数据集的损失Ut可以通过计算全部语音数据的损失的平均值 这里N表示该数
据集中的总的语音数据条数。
[0083] 对说话者的声音而言,存在声音属性的隐私泄露风险 声纹的隐私泄露风险以及声音多样性的损失 和语音质量的损失 等四个指标。具体定义如下:
[0084] 声音属性的隐私泄露风险:通过对声音的分析,攻击者可以获得受害者的性别、年龄等声音属性。我们假设总共可以获得n1种声音属性,每种声音属性的重要程度用ai(1≤i≤n1)表示。可得
[0085] 声纹的隐私泄露风险: pvp是一个0到1之间的常数,用来表示声纹的泄露程度。当pvp=1时,意味着你的声纹已经完全泄露出去了。攻击者可以利用获得的声纹,以100%的成功率顺利通过基于声纹的身份认证。当声音经过特殊处理后,pvp的值会降低。
[0086] 声音多样性的损失:研究机构往往会利用得到的语音数据来训练一个语音识别模型。如果数据集的声音多样性过低,那么最终经过训练后的模型对未知样本的预测能就会很差。声音多样性取决于说话人的性别、年龄和地区的多样性。我们可以分别计算数据处理前后的这些属性的联合分布函数(Q1,Q2),将Uvd定义为Q1,Q2之间的距离:我们用Hellinger distance作为Uvd的度量标准。
[0087] 语音质量的损失:当我们对语音数据进行处理,试图隐藏用户的声纹时,势必会对语音质量产生影响,比如会引入噪声。我们采用国际电信联盟提供的客观 MOS值评估方法——主观语音质量评估(PESQ)来评估一段语音数据的语音质量好坏。PESQ表示的是经过处理后的语音和参考语音之间的相似度,那么语音质量的损失 就可以表示成[0088] 对数据集的标签而言,存在成员关系的隐私泄露风险Pm以及数据清晰度的损失Udc等两个指标。具体定义如下:
[0089] 成员关系的隐私泄露风险:攻击者也可以从数据集的类型cate中获得一些属性。比如从cate={A学校的学生}中,可以得到学校名和学生身份这两个属性。我们假设总共可以获得n2种属性,每种属性的重要程度用bi(1≤i≤n2)表示。可得
[0090] 数据清晰度的损失:对于一个数据集D=(cate,S)而言,除了里面的语音数据S之外,类型描述cate也是十分重要的。对于数据使用者而言,比如研究机构,要先通过类型描述来判断该数据集是否满足自己的需求。如果数据发行商在向研究机构提供数据时,没有提供该数据集必要的类型描述cate,研究机构就无法了解该数据集是否可用,此时我们就称该数据集的清晰度为0。当数据集的清晰度为1时,就表示类型描述能够让研究机构清楚地认识到它的用途。一个数据集能够被多个数据使用者使用,并且每个使用者对数据集清晰度的要求也会有所不同。因此我们假设一个数据集被n3个使用者所使用,用wi表示各个使用者对数据清晰度要求的高低,出于归一化的考虑,令 在对类型描述进行处理后,若仍有n3′个使用者(定义为集合K)对数据清晰度感到满意,则数据清晰度的损失Udc可表示为
[0091] 之后,进一步考虑语音内容和说话人的声音两者之间的相关性,并把它作为一种新的隐私风险
[0092] 首先,这里我们先将数据集D=(cate,S)中的S按照用户的年龄划分成三类,即少年、青年和中年三个年龄段,即S={S1,S2,S3}。其中,S1、S2、S3依次是少年、青年和中年的语音数据。si=(vi,ci)∈Si,i={1,2,3}。三个年龄段的人说话的方式、词汇的使用等方面都会有所不同。比如少年经常会用到“考试、电脑、网游”,青年会更多地使用“工作、家庭、工资”等词汇。通过所使用的词汇,可以在一定程度上判断说话人的年龄段。因此,我们通过机器学习,可以找到少年、青年和中年各自特有的“词汇库”。这里,我们把少年、青年和中年的“词汇库”依次定义为G1,G2,G3,把三者的年龄依次定义为E1,E2,E3。正常情况下,对应情况是(G1,E1),(G2,E2),(G3,E3)。但是,当我们为了降低语音数据的隐私泄露风险时,对于每一条语音数据,会经过关键词扰动或者语音转换等特殊处理,就可能会导致v和c不匹配的情况发生。比如一条声音为少年(G1)的语音数据中出现了n*个G2,G3中的词汇。若n*超过了一定的数量n0,我们就认为产生了相关性泄露,即
[0093]
[0094] 下面就阐述如何利用机器学习来得到上述三个与年龄相关的词汇库。
[0095] 我们的目的是:当我们得到一个新的语音数据集时,我们能通过某种方式,对数据集中的所有文本内容中的单词进行分类,并将其归入到三类G1,G2,G3中的某一类,从而方便我们之后对相关性的分析。我们会利用机器学习来实现这一目的。首先,我们可以对这个分类问题进行简化,将一个三类的问题简化成三个两类的子问题,即①判断某个单词是否是少年所特有的.②判断某个单词是否是青年所特有的.③判断某个单词是否是中年所特有的.
[0096] 通常,一个单词的属性有:长度、词性、流行度等等。此外,属性也可以是:是否是网络流行语、是否是缩写词、是否与食物相关,你可以按照你的喜爱,列出很多其他的属性。毫无疑问,我们知道的属性越多,越容易得出正确的判断。但在实际任务中,过多的属性往往会带来维数灾难问题。此外,针对不同的学习任务,对属性的个数和种类的要求也会有所不同。就好比上述三个子问题中的子问题①,或许我们只需要一个属性:“是否与网络游戏相关”,就能够做出正确的判断了,根本不需要其他过多的属性。
[0097] 因此,就涉及到了特征选择的问题。我们要分别针对上述三个不同的学习任务,分别选择不同的特征集合。基本原则就是选择对当前学习任务有用的“相关特征”,去掉与当前学习任务无关的“冗余特征”。
[0098] 下面,我们以子问题①为例,讲一下特征选择的具体过程。特征选择主要包括“子集搜索”问题和“子集评价”问题。
[0099] 首先是子集搜索问题。给定初始的特征集合{a1,a2,...,an}。假定该特征集合已经包含了所有的重要信息。第一步,我们对n个特征单独进行评价,假定得出{a2} 最优;第二步,将{a2}作为选定集,再从剩余的n-1个特征中,选择一个特征加入集合{a2},即构成一个两特征集合{a2,ai},i≠2,假定最终集合{a2,a4}最优,且优于{a2},则将{a2,a4}作为选定集;第三步,再找到一个最优的三特征集合....... 假定进行到第k+1步时,得出的最优k+1特征集合不如上一轮的k特征集合,则停止并将上一轮的k特征集合作为特征选择的最终结果。这种选择方式显示是贪心的,它只能保证本轮选定的特征集合是最优的,但无法保证最后的结果是一个全局最优解。
[0100] 其次是子集评价问题。给定数据集D,假定D中第i类样本所占的比例为 pi(i=1,2,...,y)。对于子问题①而言y=2,因为样本类别只有两种:该单词是少年所特有的或者不是(p1+p2=1)。我们可以通过计算特征子集A的信息增益来对其进行评价:
其中信息熵定义为:
[0101]
[0102] 对于特征子集A,可以根据其取值将D分成个V子集{D1,D2,...DV}。我们考虑一种简单的情况,对于特征子集A={a2},a2=“是否与网络游戏相关”。很显然,按照“是否与网络游戏相关”划分,可以把数据集D分成两个子集{D1,D2},此时上述式子中的V=2,|D1|+|D2|=|D|=总的单词数。
[0103] 在每一轮中,我们通过计算所有的特征子集的信息增益,信息增益最大的子集为最优。
[0104] 因此,总体过程为:选择一个样本数足够大的语音数据集,并把其中的文本内容作为训练集(每条文本对应的声音也是已知的),然后通过特征选择,确定子问题①~③的特征集合,然后对于三个子问题,分别用同一个训练集进行学习,最后得到三个系统模型。当我们把某个数据集D=(cate,S)经过处理后,得到了数据集D′。我们先把D′的文本内容送入第一个系统模型(对应子问题①)中,若输出的结果表明某个单词是少年所特有的,则把这个单词放入集合g1中。同样地,把D′的文本内容再送入后两个系统模型中,把满足要求的单词分别放入集合g2和集合g3中。
[0105] 需要注意的是,可能会出现一种特殊情况:某个单词同时处于多个集合中。为了使得最终的“词汇库”,两两之间的交集为空。我们做如下处理:
[0106] G1=g1-g1∩g2-g1∩g3 G2=g2-g2∩g1-g2∩g3 G3=g3-g3∩g1-g3∩g2[0107] 至此,我们就得到了所需要的三个“词汇库”,有助于我们之后做相关性方面的分析。
[0108] 下面将讨论如何对语音内容、说话者的声音以及数据集标签三个部分进行处理。
[0109] 对语音内容的处理:
[0110] 之前提到用TF-IDF来量化一个单词携带的隐私信息的大小。我们把TF-IDF 值大于门限值δ的单词称为关键字。那么一条语音数据的文本泄露风险Pts就是各个单词的TF-IDF值的相加,即
[0111] 我们通过更改或者替换TF-IDF较大的单词来降低Pts。因此对文本内容的处理分为以下三个步骤:
[0112] (1)利用语音识别技术,从语音数据中获得相应的文本内容,然后利用关键字识别技术找到关键字。
[0113] (2)利用DTW技术,在语音流中确定这些关键字的位置(比如在几分几秒处出现)。
[0114] (3)在语音流中,对这些关键字进行替换或者删除。
[0115] 为了识别关键字,我们利用了一种自然语言处理技术NER(named-entity recognition)来将文本内容的命名实体(named-entity)进行定位和分类。所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体,比如数字、日期、货币都是命名实体。但命名实体包含的内容毕竟有限,很容易遗漏掉其他的非命名实体的信息,比如某一领域的专业术语。此外,也并不是所有的命名实体都与说话人密切相关。比如说话人说了一个国家的名字,但并不表明她就身处在那个国家。
[0116] 当我们找到关键字后,就要对关键字进行处理。第一种处理方法就是替换,替换的原则是用同类型的其它词来替换关键字。在替换时,为了消除语音数据中文本内容和声音的相关性泄露风险 我们应该根据说话人的声音到对应的词汇库G1,G2,G3中选择用于替换的单词,这样就使得相关性泄露风险 为0。同时也要注意替换前后两个单词的相似度。我们在之前提过用r来表示两个词之间的相似度,两个词之间的相似性越高,r越接近0。那么假设n个关键字被替换后,产生的文本可靠性损失为:
[0117]
[0118] 当一个数据集中的每条语音数据都进行关键字替换的处理后,还会造成相关性损失。第二种处理方法就是删除,相当于第一种方法中r=1的特殊情况,但很明显这会增加更多的有效性损失。
[0119] 对说话者的声音的处理:
[0120] 我们采用语音转换(voice conversion)技术来改变每条语音数据的声音。语音转换可以分为定向语音转换和不定向语音转换两类。定向语音转换就是将说话人的声音转换成某个指定人物的声音。但它实现起来比较麻烦,需要一个有语音语料库来进行训练,并且最终得到的语音质量也较差。不定向语音转换就是将说话人的声音随机转换成一个不同的声音。并且一般而言,它最终得到的语音的质量要比前者的高。目前比较流行的一种不定向语音转换的方法是基于频率弯折 (frequency warping)的VTLN(声道长度归一化)。
[0121] 它包括以下六个步骤:基音标注(pitch  marking)、分割(frame segmentation)、快速傅里叶变换FFT、声道长度归一化VTLN、逆快速傅里叶变换IFFT和基音同步叠加技术PSOLA。其中尤为关键的一步是VTLN。将语音信号进行FFT后,得到了以频率f为横坐标的频谱。VTLN就是利用一个弯折函数 (warping function)对频率轴进行一定的弯折处理,从而达到改变声音的目的。在这里,我们采用一个经常被使用的双线性函数作为弯折函数。它的形式如下所示:
[0122]
[0123] 式中,f,fm,f′分别表示原频率、截至频率、得到的新频率。i表示虚部,α是一个表示弯折程度的参数,α越大,表明弯折程度越大。我们就是通过改变α的值,进而转换成不同的声音。语音转换会影响 Uvd,Usq。此外,语音转换这一方法还会影响说话人的声音v和文本内容c的相关性,比如把一个小孩的声音转换成了大人的声音,而文本内容还是小孩的。这就会对 和Uco产生影响。
[0124] 我们可以举个简单的例子来分析弯折函数f′对声音属性泄露 的影响。因为弯折函数f′中的可调参数只有α,所以就是分析参数α对声音属性泄露 的影响。特别地,我们选择“性别”这一属性来进行讨论。我们直观的认识是女生的音调(声音频率)会比男生的音调要高。因此我们用一个常数fφ作为判断是男声还是女声的临界值,若大于fφ,则判断为女声。我们可以通过分析一条语音数据,得到说话人的平均基音 进而与fφ进行比较。如果转换前后的声音,通过频率判断,性别没有发生变化的话,就认为“性别”属性泄露出去了。
[0125] 我们用ai表示“性别”属性的重要程度,那么对应的“性别”属性泄露 为:
[0126]
[0127] 对数据集标签的处理:
[0128] 我们假设数据集标签由n个部分组成{a1,a2,,,an}。我们可以通过删除若干个 ai从而减小成员关系泄露Pm的值,使其小于设定的预算值,但这不可避免地会增加数据清晰度的损失Udc。因此为了实现这两个指标之间的最优化,我们可以采用贪心策略。我们将{a1,a2,,,an}按照重要性,从高到低重新排序,每次从最底层的ai开始删除,当Pm低于预算值时就停止。
[0129] 因此我们就提出了下述的算法来实现隐私泄露风险和有效性损失之间的平衡问题,也就是在降低隐私泄露风险的同时,保证语音数据本身的有效性。由于语音内容、说话者的声音和数据集标签采用了不同的方法,改变某一维度的同时,并不会影响其他维度。因此,我们就可以将这个平衡问题分成三个子问题来讨论。这三个子问题分别对应下式中的限制条件1、2、3。
[0130]
[0131]
[0132] 为了叙述的方便,我们先将 和 记为 和 设 Pts,这五个风险指标的初始值依次为Pto,Pvao,Pvpo,Pcoo,Pmo。 都是关于参数α的函数。因此,将这两者的加权和作为一个整体考虑。相对应地, 也做相同的处理。
βi,ωi表示权重系数,权重系数的值越大,表明对某个指标更加重视。解决上述优化问题的基本原则是使各个风险指标尽可能地靠近或者等于设定的预算值,这样就会让最终产生地有效性损失的值是最小的。
[0133] 对于限制条件1:因为Pts、 都是关于门限值λ的函数。通过计算 Pts(λ0)=β1P就能得到最优解λ=λ0。
[0134] 对于限制条件2: 是关于弯曲程度α的函数。
[0135] 1)设 的初始值是Pvo、Pcoo。
[0136] 2)
[0137] 则α=α0为最优解,return
[0138] 由此条件,能得到风险预算值的最小值:min(P)=min{ω1Pvao+ω2Pvpo,Pcoo}/β2。
[0139] 对于限制条件3:采用之前提过的贪心策略,从重要性较低的标签元素开始删除,直到小于规定的预算值。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈