基于匿名化及差分隐私技术的用电数据脱敏方法及系统专利检索-文本分类人工智能专利检索查询-专利查询网

基于匿名化及差分隐私技术的用电数据脱敏方法及系统

阅读：686发布：2020-05-11

专利汇可以提供基于匿名化及差分隐私技术的用电数据脱敏方法及系统专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于匿名化及差分隐私技术的用电数据脱敏方法及系统，包括：对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取；将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据；根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。本发明构建基于匿名化和差分隐私技术的用电数据脱敏算法模型，可以更加精准的满足不同用户的需求，用电数据脱敏将会拥有更高的准确性、更好的自动化程度和更好的抗盗取能力以及更强的拓展能力，可以更好的满足用户、系统之间的分享信息以及共享交流，更好的保护各企业中的隐私信息和用户之间的敏感信息。，下面是基于匿名化及差分隐私技术的用电数据脱敏方法及系统专利的具体信息内容。

权利要求

1.一种基于匿名化及差分隐私技术的用电数据脱敏方法，其特征在于，所述方法包括：
对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取；
将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据；
根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。
2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
在对获取的用电源数据进行分类之前，采用自动化方式的数据字典形式采集结构化数据，通过数据表遍历的方法从用电源数据表中采集预设数量的样本数据，并对采集的样本数据进行过滤和泛化处理，以剔除数据杂质。
3.根据权利要求1所述的方法，其特征在于，所述方法还包括：
通过训练集获得文本、结构化数据的特征数据库，并对语料库和特征数据库进行识别和分类，选取具有代表意义的敏感数据形成敏感信息库，并结合敏感信息模式匹配和源业务系统的重要度，设定敏感数据的敏感级值。
4.根据权利要求1所述的方法，其特征在于，所述根据预设的数据处理策略对所述敏感数据进行脱敏处理，包括：
基于不可逆加密原则对敏感数据进行处理，包括：利用伪装数据对源数据中的敏感数据进行完全替换；利用掩饰符号对敏感数据的部分内容进行统一替换，使得敏感数据保持部分内容公开；直接删除敏感数据或将其置为空；通过随机函数对数值和日期类型等源数据进行可控调整，以便在保持原始数据相关统计特征的同时，完成对具体数值的伪装；
基于可逆加密原则对敏感数据进行处理，包括：对敏感数据进行克隆、掩码转换，生成和原数据相同格式、关联的数据；将预设格式的明文加密成具有相同格式的密文；
基于数据匿名化原则对敏感数据进行处理，包括：利用泛化值或区间代替精确值；利用预设字符代替抑制数据；基于聚类的k-匿名实现匿名化；基于微聚集方法实现数据的匿名化；基于分解方法减弱关联数据的关联度；基于置换方法对敏感数据进行处理；
基于差分隐私保护技术对敏感数据进行处理，降低数据精度，同时报出数据的统计特征。
5.根据权利要求1所述的方法，其特征在于，所述方法还包括：
根据敏感信息去除程度、数据缺损程度、计算开销程度和通信开销程度来对脱敏效果进行评估。
6.一种基于匿名化及差分隐私技术的用电数据脱敏系统，其特征在于，所述系统包括：
特征提取单元，用于对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取；
敏感数据识别单元，用于将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据；
脱敏数据获取单元，用于根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。
7.根据权利要求6所述的系统，其特征在于，所述系统还包括：
预处理单元，用于在对获取的用电源数据进行分类之前，采用自动化方式的数据字典形式采集结构化数据，通过数据表遍历的系统从用电源数据表中采集预设数量的样本数据，并对采集的样本数据进行过滤和泛化处理，以剔除数据杂质。
8.根据权利要求6所述的系统，其特征在于，所述系统还包括：
敏感信息库确定单元，用于通过训练集获得文本、结构化数据的特征数据库，并对语料库和特征数据库进行识别和分类，选取具有代表意义的敏感数据形成敏感信息库，并结合敏感信息模式匹配和源业务系统的重要度，设定敏感数据的敏感级值。
9.根据权利要求6所述的系统，其特征在于，所述脱敏数据获取单元，根据预设的数据处理策略对所述敏感数据进行脱敏处理，包括：
基于不可逆加密原则对敏感数据进行处理，包括：利用伪装数据对源数据中的敏感数据进行完全替换；利用掩饰符号对敏感数据的部分内容进行统一替换，使得敏感数据保持部分内容公开；直接删除敏感数据或将其置为空；通过随机函数对数值和日期类型等源数据进行可控调整，以便在保持原始数据相关统计特征的同时，完成对具体数值的伪装；
基于可逆加密原则对敏感数据进行处理，包括：对敏感数据进行克隆、掩码转换，生成和原数据相同格式、关联的数据；将预设格式的明文加密成具有相同格式的密文；
基于数据匿名化原则对敏感数据进行处理，包括：利用泛化值或区间代替精确值；利用预设字符代替抑制数据；基于聚类的k-匿名实现匿名化；基于微聚集方法实现数据的匿名化；基于分解方法减弱关联数据的关联度；基于置换方法对敏感数据进行处理；
基于差分隐私保护技术对敏感数据进行处理，降低数据精度，同时报出数据的统计特征。
10.根据权利要求6所述的系统，其特征在于，所述系统还包括：
脱敏效果评估单元，用于根据敏感信息去除程度、数据缺损程度、计算开销程度和通信开销程度来对脱敏效果进行评估。

说明书全文

基于匿名化及差分隐私技术的用电数据脱敏方法及系统

技术领域

[0001] 本发明涉及用电大数据信息安全技术领域，并且更具体地，涉及一种基于匿名化及差分隐私技术的用电数据脱敏方法及系统。

背景技术

[0002] 数据信息因为具备可处理性、共享性、增值性、多用性等特点，一直被作为重要的战略资源。传统的信息安全技术关注保护信息资源免受各种类型的破坏、威胁和干扰。根据国际标准化组织的定义，数据信息的安全性主要包含信息的完整性、可用性、保密性和可靠性。而在大数据时代下，数据传播、存储和交互方式的多元化可能将数字宇宙中的所有信息连接成复杂的数据网络。这种多源异构大数据之间的关联性极容易导致用户身份和隐私信息的暴露，因此也促生了数据信息的全新特性—隐私性。

[0003] 目前，有大量电力营销数据、电力客户数据、个人用电信息等敏感数据，这些数据在产生、传输、存储、处理以及使用共享等环节存在隐私泄露的隐患。因此，需要一种用电数据脱敏方法，以在满足数据传输交流的同时，保护数据的安全。

发明内容

[0004] 本发明提出一种基于匿名化及差分隐私技术的用电数据脱敏方法及系统，以解决如何更好的实现用电数据脱敏，保护数据安全的问题。

[0005] 为了解决上述问题，根据本发明的一个方面，提供了一种基于匿名化及差分隐私技术的用电数据脱敏方法，所述方法包括：

[0006] 对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取；

[0007] 将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据；

[0008] 根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。

[0009] 优选地，其中所述方法还包括：

[0010] 在对获取的用电源数据进行分类之前，采用自动化方式的数据字典形式采集结构化数据，通过数据表遍历的方法从用电源数据表中采集预设数量的样本数据，并对采集的样本数据进行过滤和泛化处理，以剔除数据杂质。

[0011] 优选地，其中所述方法还包括：

[0012] 通过训练集获得文本、结构化数据的特征数据库，并对语料库和特征数据库进行识别和分类，选取具有代表意义的敏感数据形成敏感信息库，并结合敏感信息模式匹配和源业务系统的重要度，设定敏感数据的敏感级值。

[0013] 优选地，其中所述根据预设的数据处理策略对所述敏感数据进行脱敏处理，包括：

[0014] 基于不可逆加密原则对敏感数据进行处理，包括：利用伪装数据对源数据中的敏感数据进行完全替换；利用掩饰符号对敏感数据的部分内容进行统一替换，使得敏感数据保持部分内容公开；直接删除敏感数据或将其置为空；通过随机函数对数值和日期类型等源数据进行可控调整，以便在保持原始数据相关统计特征的同时，完成对具体数值的伪装；

[0015] 基于可逆加密原则对敏感数据进行处理，包括：对敏感数据进行克隆、掩码转换，生成和原数据相同格式、关联的数据；将预设格式的明文加密成具有相同格式的密文；

[0016] 基于数据匿名化原则对敏感数据进行处理，包括：利用泛化值或区间代替精确值；利用预设字符代替抑制数据；基于聚类的k-匿名实现匿名化；基于微聚集方法实现数据的匿名化；基于分解方法减弱关联数据的关联度；基于置换方法对敏感数据进行处理；

[0017] 基于差分隐私保护技术对敏感数据进行处理，降低数据精度，同时报出数据的统计特征。

[0018] 优选地，其中所述方法还包括：

[0019] 根据敏感信息去除程度、数据缺损程度、计算开销程度和通信开销程度来对脱敏效果进行评估。

[0020] 根据本发明的另一个方面，提供了一种基于匿名化及差分隐私技术的用电数据脱敏系统，所述系统包括：

[0021] 特征提取单元，用于对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取；

[0022] 敏感数据识别单元，用于将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据；

[0023] 脱敏数据获取单元，用于根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。

[0024] 优选地，其中所述系统还包括：

[0025] 预处理单元，用于在对获取的用电源数据进行分类之前，采用自动化方式的数据字典形式采集结构化数据，通过数据表遍历的系统从用电源数据表中采集预设数量的样本数据，并对采集的样本数据进行过滤和泛化处理，以剔除数据杂质。

[0026] 优选地，其中所述系统还包括：

[0027] 敏感信息库确定单元，用于通过训练集获得文本、结构化数据的特征数据库，并对语料库和特征数据库进行识别和分类，选取具有代表意义的敏感数据形成敏感信息库，并结合敏感信息模式匹配和源业务系统的重要度，设定敏感数据的敏感级值。

[0028] 优选地，其中所述脱敏数据获取单元，根据预设的数据处理策略对所述敏感数据进行脱敏处理，包括：

[0029] 基于不可逆加密原则对敏感数据进行处理，包括：利用伪装数据对源数据中的敏感数据进行完全替换；利用掩饰符号对敏感数据的部分内容进行统一替换，使得敏感数据保持部分内容公开；直接删除敏感数据或将其置为空；通过随机函数对数值和日期类型等源数据进行可控调整，以便在保持原始数据相关统计特征的同时，完成对具体数值的伪装；

[0030] 基于可逆加密原则对敏感数据进行处理，包括：对敏感数据进行克隆、掩码转换，生成和原数据相同格式、关联的数据；将预设格式的明文加密成具有相同格式的密文；

[0031] 基于数据匿名化原则对敏感数据进行处理，包括：利用泛化值或区间代替精确值；利用预设字符代替抑制数据；基于聚类的k-匿名实现匿名化；基于微聚集方法实现数据的匿名化；基于分解方法减弱关联数据的关联度；基于置换方法对敏感数据进行处理；

[0032] 基于差分隐私保护技术对敏感数据进行处理，降低数据精度，同时报出数据的统计特征。

[0033] 优选地，其中所述系统还包括：

[0034] 脱敏效果评估单元，用于根据敏感信息去除程度、数据缺损程度、计算开销程度和通信开销程度来对脱敏效果进行评估。

[0035] 本发明提供了一种基于匿名化及差分隐私技术的用电数据脱敏方法及系统，包括：对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取；将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据；根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。本发明能够对用电数据进行分类后，进行数据脱敏和隐私保护，构建基于匿名化和差分隐私技术的用电数据脱敏算法模型，可以更加精准的满足不同用户的需求，用电数据脱敏将会拥有更高的准确性、更好的自动化程度和更好的抗盗取能力以及更强的拓展能力，可以更好的满足用户、系统之间的分享信息以及共享交流，更好的保护各企业中的隐私信息和用户之间的敏感信息。附图说明

[0036] 通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

[0037] 图1为根据本发明实施方式的基于匿名化及差分隐私技术的用电数据脱敏方法100的流程图；

[0038] 图2为根据本发明实施方式的用电数据脱敏模型的框架图；

[0039] 图3为根据本发明实施方式的脱敏算法模型的流程图；

[0040] 图4为根据本发明实施方式的敏感信息识别定级过程图；

[0041] 图5为根据本发明实施方式的脱敏任务配置流程图；

[0042] 图6为根据本发明实施方式的静态脱敏数据应用流程图；

[0043] 图7为根据本发明实施方式的动态脱敏数据应用流程图；以及

[0044] 图8为根据本发明实施方式的基于匿名化及差分隐私技术的用电数据脱敏系统800的结构示意图。

具体实施方式

[0045] 现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

[0046] 除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

[0047] 图1为根据本发明实施方式的基于匿名化及差分隐私技术的用电数据脱敏方法100的流程图。如图1所示，本发明实施方式图提供的基于匿名化及差分隐私技术的用电数据脱敏方法，对用电数据进行分类后，进行数据脱敏和隐私保护，构建基于匿名化和差分隐私技术的用电数据脱敏算法模型，可以更加精准的满足不同用户的需求，用电数据脱敏将会拥有更高的准确性、更好的自动化程度和更好的抗盗取能力以及更强的拓展能力，可以更好的满足用户、系统之间的分享信息以及共享交流，更好的保护各企业中的隐私信息和用户之间的敏感信息。本发明实施方式提供的基于匿名化及差分隐私技术的用电数据脱敏方法100从步骤101处开始，在步骤101对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取。

[0048] 优选地，其中所述方法还包括：

[0049] 在对获取的用电源数据进行分类之前，采用自动化方式的数据字典形式采集结构化数据，通过数据表遍历的方法从用电源数据表中采集预设数量的样本数据，并对采集的样本数据进行过滤和泛化处理，以剔除数据杂质。

[0050] 图2为根据本发明实施方式的用电数据脱敏模型的框架图。如图2所示，在本发明的实施方式中，根据用户需求从用电信息采集系统与营销业务应用系统的相关数据库与数据文件抽取数据，并对抽取的源数据进行预处理、敏感数据识别定级以及选择脱敏算法和设置参数，完成脱敏策略制定。在完成脱敏策略定制后，用户可以选择脱敏执行方式，其中静态脱敏可用于开发、测试以及数据迁移和存储；动态脱敏通过代理方式可为全业务统一数据中心等数据分析系统提供脱敏服务。如果没有新的数据或配置要求，脱敏策略和脱敏任务可以在脱敏系统中保存，以备后续调用及执行。

[0051] 本发明实施方式的用电数据脱敏规则基于以下原则设计，包括：去除标识信息，即从数据中去除能够识别个人的明显标识变量，如个体姓名；假名替换，即引用性编码或假名替代姓名等标识符，应用编造假名可以在保持数据原始可用性的同时降低数据中个体的可识别性，有利于数据共享，但若关联其他仍包含个人标识隐私信息的数据，通过假名替换处理过的数据仍存在一定程度泄露隐私的风险；差分隐私，即通过用随机值或者添加噪音的方法降低数据精度，同时保持数据的统计特征；匿名技术，即对数据集用加密或者剔除个人标识信息的方法使得数据集中的个人保持匿名。

[0052] 图3为根据本发明实施方式的脱敏算法模型的流程图。图3所示，由于不同类型数据的敏感信息识别方法不同，系统首先需要对源数据分门别类。另外，同时识别多个专业的敏感信息也会为识别过程带来大量干扰，严重影响敏感信息识别的准确率。根据源业务系统不同，源数据可被分类为人财物、规划、建设、运行、检修及营销等数据。然后对分类后的源数据进行特征提取，通过数据特征匹配实现敏感信息识别。采用自动化方式的数据字典形式采集结构化数据，并通过数据表遍历的方法从业务数据表中采集一定数量的样本数据，再对其进行过滤和泛化处理，剔除数据“杂质”，以降低敏感信息识别与分类过程中的计算量。

[0053] 本发明实施方式的数据脱敏算法，包括以下内容：

[0054] (1)智能化数据预处理。用电数据的种类繁多，系统需要对源数据分门别类，进行预处理以提取数据特征，通过数据特征匹配实现敏感信息识别、定级。

[0055] (2)用电数据隐私保护发布与评估功能。用电数据具有高维度、高稀疏性和关系复杂的特点，因此隐私保护用电数据发布原型系统应为用户提供完整的数据匿名发布功能。数据发布评估服务主要用于展示设置脱敏参数和选择的算法对发布数据效果的影响，帮助用户选择合理的参数和算法。

[0056] (3)可视化的脱敏效果展示。隐私保护用电数据发布原型系统需要为用户提供直观的脱敏效果展示方案，帮助用户理解参数配置对数据脱敏的影响；可扩展的数据共享与发布系统。隐私保护用电数据发布原型系统不但需要独立完成数据脱敏和评估任务，还需要为其他应用提供调用接口，方便其他研究应用调用该系统。

[0057] 在步骤102，将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据。

[0058] 优选地，其中所述方法还包括：

[0059] 通过训练集获得文本、结构化数据的特征数据库，并对语料库和特征数据库进行识别和分类，选取具有代表意义的敏感数据形成敏感信息库，并结合敏感信息模式匹配和源业务系统的重要度，设定敏感数据的敏感级值。

[0060] 图4为根据本发明实施方式的敏感信息识别定级过程图。如图4所示，通过训练集获得文本、结构化数据的特征数据库，由安全部门和业务人员共同对语料库和特征数据库进行识别和分类，选取其中具有代表意义的，形成敏感信息库，结合敏感信息模式匹配和源业务系统的重要度，由人工辅助设定敏感级值，用于敏感信息定级。对预处理后的目标数据进行特征提取，将提取的特征值与敏感信息库的特征值进行匹配，当匹配命中时系统自动记录当前敏感信息的敏感级值。最后通过识别质量评估对错误分类进行纠正，并对未能别的敏感信息进行补充。

[0061] 在步骤103，根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。

[0062] 优选地，其中所述根据预设的数据处理策略对所述敏感数据进行脱敏处理，包括：

[0063] 基于不可逆加密原则对敏感数据进行处理，包括：利用伪装数据对源数据中的敏感数据进行完全替换；利用掩饰符号对敏感数据的部分内容进行统一替换，使得敏感数据保持部分内容公开；直接删除敏感数据或将其置为空；通过随机函数对数值和日期类型等源数据进行可控调整，以便在保持原始数据相关统计特征的同时，完成对具体数值的伪装；

[0064] 基于可逆加密原则对敏感数据进行处理，包括：对敏感数据进行克隆、掩码转换，生成和原数据相同格式、关联的数据；将预设格式的明文加密成具有相同格式的密文；

[0065] 基于数据匿名化原则对敏感数据进行处理，包括：利用泛化值或区间代替精确值；利用预设字符代替抑制数据；基于聚类的k-匿名实现匿名化；基于微聚集方法实现数据的匿名化；基于分解方法减弱关联数据的关联度；基于置换方法对敏感数据进行处理；

[0066] 基于差分隐私保护技术对敏感数据进行处理，降低数据精度，同时报出数据的统计特征。

[0067] 在本发明的实施方式中，可以利用不同方式实现数据脱敏。具体地，包括：

[0068] (1)基于数据加密原则

[0069] 1.1)不可逆加密原则：

[0070] 替换。利用伪装数据对源数据中的敏感数据进行完全替换。

[0071] 遮掩。利用掩饰符号对敏感数据的部分内容进行统一替换，使得敏感数据保持部分内容公开。

[0072] 删除。直接删除敏感数据或将其置为空。

[0073] 变换。通过随机函数对数值和日期类型等源数据进行可控调整，以便在保持原始数据相关统计特征的同时，完成对具体数值的伪装。

[0074] 1.2)可逆加密

[0075] 遮蔽。对生产环境中的数据进行克隆、掩码转换，生成和原数据相同格式、关联的数据，输出到测试环境，进行功能测试、性能测试和模拟测试等任务。

[0076] 保留格式加密。将某种特定格式的明文加密成具有相同格式的密文。

[0077] (2)基于数据匿名化原则

[0078] 2.1)泛化用更抽象、概括的值或区间代替精确值。准标识符属性值有数值型和分类型。数值数据泛化后，值被一个覆盖精确数值的区间代替，分类数据则泛化成更一般的值。

[0079] 2.2)抑制操作是将数据表中的数据直接删除或隐藏，一般用“*”代替要抑制的值，是最粗粒度的泛化。抑制一般不单独使用，作为辅助手段与泛化结合使用。

[0080] 2.3)基于聚类的k-匿名是将原始数据表划分成不同的至少包含k条记录的组，具有相似特征的记录在同一组，不同组中的记录差异大，再对每个组进行泛化操作，生成等价类，实现匿名化。

[0081] 2.4)微聚集方法的基本思想是相似的数据划分在同一个类中，每个类至少有k条记录，然后用类质心代替类中所有记录的准标识符属性值，实现数据的匿名化。

[0082] 2.5)分解方法则不修改准标识符属性和敏感属性的值，而是采用有损连接的思想来减弱两者的关联实现隐私保护。先根据敏感属性值对数据表分组，尽量使得同一组的敏感属性值不同，然后将分组后的数据表拆分为2张表，1张表中包含准标识符属性信息，另1张表中包含敏感属性信息，2张表还包含同一个公共属性“组标识符”，且2张表中的同一个组具有相同的组标识符值。

[0083] 2.6)置换方法与分解方法的思想类似，数据表分组后，把每组内的敏感属性值随机交换，打乱顺序，再拆分数据表，对外发布。置换方法是对分解方法的一种改进，主要针对数值型的敏感属性值处理。

[0084] (3)差分隐私技术

[0085] 3.1)拉普拉斯机制：Laplace机制是经常被用于本地模型中，常用于对数值型结果的隐私保护，通过向确切的查询结果中加入服从Laplace分布的随机噪声来实现差分隐私保护。

[0086] 3.2)高斯机制：高斯机制满足差分隐私。在数据发布过程中，采用高斯机制对查询的原始数据加入服从高斯分布的噪音，使其实现差分隐私。

[0087] 在实际应用中，可以先制定脱敏策略。图5为根据本发明实施方式的脱敏任务配置流程图。如图5所示，在完成脱敏策略制定后，为使脱敏任务能够长时间工作，首先需在脱敏系统中对源数据所在业务系统的地址及端口号进行注册。然后，获取已制定的脱敏策略，脱敏系统按照选择的脱敏算法及相关参数生成脱敏代码。

[0088] 然后，用户根据应用场景选择脱敏实现方式。对于静态脱敏，系统先执行脱敏操作，并将脱敏结果缓存在本地存储，待目标系统需要获取脱敏数据时，用户在脱敏系统中注册目标系统的地址及端口，最后将本地脱敏数据传输至目标系统。而对于动态脱敏，用户必须先在脱敏系统中注册目标系统地址、端口以及目标系统使用账号，然后将脱敏代码下发至代理服务器，由代理服务器进行在线数据脱敏，并将脱敏结果返回至脱敏系统，最后传输至目标系统，由目标系统中的数据需求方的账号使用。

[0089] 静态脱敏数据一般用于非生产环境，或是对在线数据进行离线脱敏处理。脱敏完毕后在非生产环境中使用，主要用于数据批量外发共享、系统开发测试等典型业务需求，应用过程如图6所示。

[0090] 动态数据脱敏一般用于生产环境，不改变生产数据库中的原始数据，只对“输入请求”和“输出数据”进行实时脱敏处理，防止敏感数据外泄。这种脱敏形式适用于对生产数据的动态访问和检索，通常与访问权限结合使用，应用过程如图7所示。

[0091] 优选地，其中所述方法还包括：

[0092] 根据敏感信息去除程度、数据缺损程度、计算开销程度和通信开销程度来对脱敏效果进行评估。

[0093] 在本发明的实施方式中，用电数据脱敏技术的评估主要可以从敏感信息去除程度、数据缺损、计算开销、通信开销等方面考虑。具体地，敏感信息的去除程度是相对于原始数据而言，例如对客户身份证号后四位进行随机替换，则脱敏后仍然保留了具有敏感信息的地区和生日信息，如果进行全部位进行替换，则敏感信息全部去除。数据缺损是对脱敏后数据质量的度量，经过数据脱敏操作后数据的信息丢失来反映。信息丢失越多，数据缺损越高，数据利用率越低。例如对身份证号中间生日段用*替换，则数据缺损较高。计算开销程度主要是通过时间和空间复杂度评估，与硬件和软件环境有关；一般来说计算开销越小越好，加解密算法对计算开销消耗大，数据失真/干扰对于计算开销小。通信开销程度，主要通过交互信息量和轮数评估，一般来说在保障通信安全的情况下，通信开销越小越好。

[0094] 图8为根据本发明实施方式的基于匿名化及差分隐私技术的用电数据脱敏系统800的结构示意图。如图8所示，本发明实施方式提供的基于匿名化及差分隐私技术的用电数据脱敏系统800，包括：特征提取单元801、敏感数据识别单元802和脱敏数据获取单元
803。

[0095] 优选地，所述特征提取单元801，用于对获取的用电源数据进行分类，并对分类后的用电源数据进行特征提取。

[0096] 优选地，其中所述系统还包括：预处理单元，用于在对获取的用电源数据进行分类之前，采用自动化方式的数据字典形式采集结构化数据，通过数据表遍历的系统从用电源数据表中采集预设数量的样本数据，并对采集的样本数据进行过滤和泛化处理，以剔除数据杂质。

[0097] 优选地，所述敏感数据识别单元802，用于将提取的特征与预设的敏感信息库中的敏感信息的特征进行比较，以识别所述用电源数据中的敏感数据。

[0098] 优选地，其中所述系统还包括：敏感信息库确定单元，用于通过训练集获得文本、结构化数据的特征数据库，并对语料库和特征数据库进行识别和分类，选取具有代表意义的敏感数据形成敏感信息库，并结合敏感信息模式匹配和源业务系统的重要度，设定敏感数据的敏感级值。

[0099] 优选地，所述脱敏数据获取单元803，用于根据预设的数据处理策略对所述敏感数据进行脱敏处理，以获取用电脱敏数据。

[0100] 优选地，其中所述脱敏数据获取单元，根据预设的数据处理策略对所述敏感数据进行脱敏处理，包括：

[0101] 基于不可逆加密原则对敏感数据进行处理，包括：利用伪装数据对源数据中的敏感数据进行完全替换；利用掩饰符号对敏感数据的部分内容进行统一替换，使得敏感数据保持部分内容公开；直接删除敏感数据或将其置为空；通过随机函数对数值和日期类型等源数据进行可控调整，以便在保持原始数据相关统计特征的同时，完成对具体数值的伪装；

[0102] 基于可逆加密原则对敏感数据进行处理，包括：对敏感数据进行克隆、掩码转换，生成和原数据相同格式、关联的数据；将预设格式的明文加密成具有相同格式的密文；

[0103] 基于数据匿名化原则对敏感数据进行处理，包括：利用泛化值或区间代替精确值；利用预设字符代替抑制数据；基于聚类的k-匿名实现匿名化；基于微聚集方法实现数据的匿名化；基于分解方法减弱关联数据的关联度；基于置换方法对敏感数据进行处理；

[0104] 基于差分隐私保护技术对敏感数据进行处理，降低数据精度，同时报出数据的统计特征。

[0105] 优选地，其中所述系统还包括：脱敏效果评估单元，用于根据敏感信息去除程度、数据缺损程度、计算开销程度和通信开销程度来对脱敏效果进行评估。

[0106] 本发明的实施例的基于匿名化及差分隐私技术的用电数据脱敏系统800与本发明的另一个实施例的基于匿名化及差分隐私技术的用电数据脱敏系方法100相对应，在此不再赘述。

[0107] 已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

[0108] 通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

[0109] 本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

[0110] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0111] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0112] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0113] 最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

标题	发布/更新时间	阅读量
一种基于医疗服务的集成信息管理方法	2020-05-08	932
说话人确认方法和装置	2020-05-08	767
数据标注方法、装置、介质以及电子设备	2020-05-11	211
一种电话语音、文本信息防诈骗/骚扰系统	2020-05-08	143
数字串声纹密码验证方法及系统	2020-05-08	501
基于匿名化及差分隐私技术的用电数据脱敏方法及系统	2020-05-11	686
一种游戏平台用户问答业务的短文本分类方法	2020-05-08	555
一种垃圾邮件识别方法及系统	2020-05-11	784
一种组合深度学习和概念图谱的电力故障事件抽取方法	2020-05-11	485
一种利用上下文和方面记忆信息的情感分类方法	2020-05-11	913

基于匿名化及差分隐私技术的用电数据脱敏方法及系统

基于匿名化及差分隐私技术的用电数据脱敏方法及系统

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：