首页 / 专利库 / 电脑编程 / 算法 / 一种数据脱敏方法、装置与电子设备

一种数据脱敏方法、装置与电子设备

阅读:779发布:2021-06-08

专利汇可以提供一种数据脱敏方法、装置与电子设备专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种数据脱敏方法、装置与 电子 设备;所述方法包括获取数据加载任务指令,根据所述数据加载任务指令利用 数据库 连接驱动分别连接源数据库与目标数据库;根据所述数据加载任务指令确定待加载数据;利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据;批量 抽取 所述待加载数据,根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理得到脱敏数据;将所述脱敏数据装载至所述目标数据库。本发明根据敏感数据模型筛选敏感数据,根据脱敏规则对其进行转换,得到脱敏数据,加载至所述目标数据库中,具有普适性,能够对敏感数据进行高效准确脱敏,且满足数据脱敏后的可用性。,下面是一种数据脱敏方法、装置与电子设备专利的具体信息内容。

1.一种数据脱敏方法,其特征在于,包括:
获取数据加载任务指令;
根据所述数据加载任务指令利用数据库连接驱动分别连接源数据库与目标数据库;
根据所述数据加载任务指令确定所述源数据库中的待加载数据;
利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据;
批量抽取所述待加载数据,根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理,得到脱敏数据;
将所述脱敏数据装载至所述目标数据库。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据加载任务指令确定所述源数据库中的待加载数据,包括:
根据所述数据任务加载指令确定所述源数据库中的待加载表,所述待加载数据是指所述待加载表中的数据。
3.根据权利要求2所述的方法,其特征在于,还包括:
获取所述待加载表的表结构信息;
根据所述表结构信息在所述目标数据库中创建相同表结构的目标加载表;
在装载所述脱敏数据时,将所述脱敏数据批量加载到所述目标加载表中。
4.根据权利要求1所述的方法,其特征在于,所述利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据,包括:
利用分布式样本采集技术从所述待加载数据中采集得到结构完整的样本数据;
对所述样本数据进行深度扫描,确定所述样本数据的数据结构特征;
根据所述数据结构特征,将所述样本数据与所述敏感数据模型进行比对,从所述样本数据中筛选出数据结构特征与所述敏感数据模型相符的敏感数据段;
根据所述敏感数据段与所述样本数据的位置结构关系,从所述待加载数据中筛选出所述敏感数据。
5.根据权利要求1所述的方法,其特征在于,所述根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理,包括:
根据所述敏感数据模型确定所述敏感数据的敏感类型;
利用所述脱敏规则,根据所述敏感类型为所述敏感数据选取相应的脱敏算法
采用所述脱敏算法对所述敏感数据进行转换。
6.根据权利要求5所述的方法,其特征在于,所述脱敏算法为以下的至少一种:
固定值替换,采用预设的固定字符对所述敏感数据进行替换操作;
随机值替换,采用指定类型的随机字符对所述敏感数据进行替换操作;
空字符替换,采用空字符对所述敏感数据进行替换操作;
掩码字符替换,采用掩码字符对所述敏感数据进行替换操作;
值转换替换,利用不可逆算法对所述敏感数据中的数据进行计算,并采用计算结果对所述敏感数据进行替换操作。
7.根据权利要求5所述的方法,其特征在于,在采用所述脱敏算法对所述敏感数据进行转换时,将所述待加载数据中属于同一敏感类型的全部所述敏感数据进行批量转换。
8.根据权利要求1所述的方法,其特征在于,所述脱敏规则根据所述数据加载任务指令确定。
9.一种数据脱敏装置,其特征在于,包括:
任务获取模,被配置为获取数据加载任务指令;
连接模块,被配置为根据所述数据加载任务指令利用数据库连接驱动分别连接源数据库与目标数据库;
待加载模块,被配置为根据所述数据加载任务指令确定所述源数据库中的待加载数据;
识别模块,被配置为利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据;
脱敏模块,被配置为批量抽取所述待加载数据,根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理,得到脱敏数据;
加载模块,被配置为将所述脱敏数据装载至所述目标数据库。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。

说明书全文

一种数据脱敏方法、装置与电子设备

技术领域

[0001] 本发明涉及信息数据领域,特别是指一种数据脱敏方法、装置与电子设备。

背景技术

[0002] 数据传输过程中,生产库数据库中的敏感数据存在可能泄露的问题。数据库厂商都提供了数据库对外使用时的脱敏方案,为数据库设置数据修改规则,通过各种算法对敏感数据进行修改脱敏,从而消除敏感数据的泄露隐患。然而各个数据库厂商提供的脱敏方案只针对自身数据库,不具备普适性;所采用的数据修改规则简单,无法满足数据脱敏后的可用性;针对大批量数据进行脱敏时,耗时较长且可能存在误差。

发明内容

[0003] 有鉴于此,本发明的目的在于提出一种数据脱敏方法、装置与电子设备,具有普适性,能够对敏感数据进行高效准确脱敏,且满足数据脱敏后的可用性。
[0004] 基于上述目的,本发明提供了一种数据脱敏方法,包括:
[0005] 获取数据加载任务指令;
[0006] 根据所述数据加载任务指令利用数据库连接驱动分别连接源数据库与目标数据库;
[0007] 根据所述数据加载任务指令确定所述源数据库中的待加载数据;
[0008] 利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据;
[0009] 批量抽取所述待加载数据,根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理,得到脱敏数据;
[0010] 将所述脱敏数据装载至所述目标数据库。
[0011] 此外,本发明还提供了一种数据脱敏装置,包括:
[0012] 任务获取模,被配置为获取数据加载任务指令;
[0013] 连接模块,被配置为根据所述数据加载任务指令利用数据库连接驱动分别连接源数据库与目标数据库;
[0014] 待加载模块,被配置为根据所述数据加载任务指令确定所述源数据库中的待加载数据;
[0015] 识别模块,被配置为利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据;
[0016] 脱敏模块,被配置为批量抽取所述待加载数据,根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理,得到脱敏数据;
[0017] 加载模块,被配置为将所述脱敏数据装载至所述目标数据库。
[0018] 此外,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的方法。
[0019] 从上面所述可以看出,本发明提供的数据脱敏方法、装置与电子设备,根据数据加载任务指令利用数据库连接驱动连接源数据库与目标数据库并确定待加载数据,利用敏感数据模型从待加载数据中筛选识别出敏感数据,根据脱敏规则对所述敏感数据进行模糊化处理,最后将得到的脱敏数据加载至所述目标数据库中,具有普适性,能够对敏感数据进行高效准确脱敏,且满足数据脱敏后的可用性。附图说明
[0020] 为了更清楚地说明本发明实施例现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021] 图1为本发明实施例的数据脱敏方法流程图
[0022] 图2为本发明实施例的数据脱敏方法中创建目标加载表流程图;
[0023] 图3为本发明实施例的筛选敏感数据流程图;
[0024] 图4为本发明实施例的敏感数据模糊化处理流程图;
[0025] 图5为本发明实施例的数据脱敏装置示意图;
[0026] 图6为本发明实施例的数据脱敏电子设备示意图。

具体实施方式

[0027] 为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0028] 需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
[0029] 在信息化数据时代,数据量呈现指数增长,大数据技术的出现和发展,能够实现对不断高速增长的数据进行管理和分析,对这些数据的透彻分析能够带来不可估量的价值。以大数据技术为核心的大数据平台将通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为客户提供数据平台、数据产品与数据服务。在大数据平台接入不同数据库以获取数据时,可能涉及有很多用户的隐私和敏感数据,这些数据存在可能泄露的险。
[0030] 生产库数据库的敏感数据泄露问题,已经引起了数据库厂商的重视,各个厂商都提供了生产库数据对外使用时的脱敏方案,为数据库设置数据修改规则,通过各种算法对敏感数据进行修改脱敏,从而消除敏感数据的泄露隐患,例如oracle数据库中所提供的Data Masking Pack组件提供了数据修改规则实现对敏感数据的修改;SQLServer数据库在Management studio中也提供了静态数据屏蔽功能。然而各个数据库厂商所提供的脱敏屏蔽方案只针对自身数据库有效,而不支持其他厂商数据库,相互之间无法兼容,不具备普适性,要实现对类型数据库数据的脱敏会造成投资成本的增加;现有的数据库厂商在对敏感数据进行脱敏时多采用***或简单的数据替换来实现,对于例如行卡号、身份证号或企业内部身份识别ID等包含信息丰富且多存在校验标识的数据无法满足其脱敏之后的数据可用性的要求;现有的敏感数据脱敏机制中,对于需要进行脱敏处理的数据源基本都依赖管理人员人工指定,所采用的数据脱敏转换策略也大多依赖人工逐步逐项制定,这样的方式在面对大体量数据时,人工指定数据源和逐步逐项制定转换策略非常耗时和单调,可能造成误差,严重影响了数据脱敏的准确率与效率。
[0031] 针对上述问题,本发明实施例提供了数据脱敏方案,能够支持对不同厂商数据库进行操作,对待加载的数据进行自动准确筛选识别,并采用有针对性灵活设定的脱敏规则对敏感数据进行脱敏处理,具有普适性,能够对敏感数据进行高效准确脱敏,且满足数据脱敏后的可用性。
[0032] 以下结合附图,详细说明本说明书实施例提供的技术方案。
[0033] 参考图1,本实施例的数据脱敏方法,包括以下步骤:
[0034] 步骤101、获取数据加载任务指令,确定所述数据加载任务所涉及的源数据库与目标数据库。
[0035] 本步骤中,首先获取数据加载任务指令。在日常生产生活、商业活动、企业运行或大数据平台进行数据挖掘等业务过程中对数据进行管理时,经常需要从数据的原存储位置获取数据,将其发送到新的存储位置以便利用这些数据或者对这些数据进行处理。所述数据加载任务指令是指在数据管理过程中获取数据并发送至新的存储位置的任务指令。根据所述数据加载任务指令,能够确定数据来源信息与数据去向信息,同时能够明确所述数据加载任务的目的,即将数据从原存储位置发送至新存储位置之后这些数据的用途。
[0036] 在生产生活、商业活动、企业运行或数据挖掘等业务中,通常利用数据库来完成数据的管理工作,数据的原存储位置与新存储位置就是指数据库。数据库是按照数据结构来组织、存储和管理数据的仓库,数据管理工作中,需要把某些相关的数据放进这样的“仓库”,并根据管理的需要进行相应的处理。例如,人事系统和财务系统经常会用到的后台数据库Sql server,利用Sql server数据库保存单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、住址、简历等)并对这些基本情况信息进行管理;仓库物流管理系统WMS的会用到的后台数据库oracle;经销商管理系统DMS会用到的就后台数据库db2等,利用这些数据库实现对对财务、生产、仓库存储、物流、售后的自动化管理。
[0037] 根据所述数据加载任务指令,能够确定数据来源信息,从而可以确定数据的原存储位置即源数据库;能够确定数据去向信息,从而可以确定数据的新存储位置即目标数据库。
[0038] 步骤102、根据所述数据加载任务指令利用数据库连接驱动分别连接源数据库与目标数据库;
[0039] 本步骤中,利用数据库连接驱动对已确定的所述源数据库与所述目标数据库进行连接,以便之后对所述源数据库和所述目标数据库中的数据内容进行操作。
[0040] 所述源数据库与所述目标数据库可能是不同种类数据库,本步骤利用数据库连接驱动对不同种类数据库的进行连接,以实现不同种数据库间的数据脱敏加载,克服不同种类数据库数据脱敏方案缺乏普适性的问题。
[0041] 所述数据库连接驱动可以是能够对多种数据库进行访问的用于执行SQL(Structured Query Language,结构化查询语言)的标准API(Application Programming Interface,应用程序接口),例如JDBC(Java Data Base Connectivity)与ODBC(Open Database Connectivity)。
[0042] 具体的,针对不同种类数据库,所述数据库连接驱动采用相应的驱动连接方法实现。
[0043] 例如,针对oracle数据库,其连接方法为:
[0044] driver="oracle.jdbc.driver.OracleDriver"
[0045] url="jdbc:oracle:thin:@localhost:1521:数据库名";
[0046] 针对sqlserver 2000数据库,其连接方法为:
[0047] driver="com.microsoft.jdbc.sqlserver.SQLServerDriver"
[0048] url="jdbc:microsoft:sqlserver://localhost:1433;DatabaseName=数据库名";
[0049] 针对sqlserver 2005数据库,其连接方法为:
[0050] driver="com.microsoft.sqlserver.jdbc.SQLServerDriver"
[0051] url="jdbc:sqlserver://localhost:1433;DatabaseName=数据库名";
[0052] 针对mysql数据库,其连接方法为:
[0053] driver="com.mysql.jdbc.Driver"
[0054] url="jdbc:mysql://localhost/数据库名?[后接参数]"
[0055] 针对db2数据库,其连接方法为:
[0056] driver="com.ibm.db2.jdbc.app.DB2Driver"
[0057] url="jdbc:db2://localhost:5000/数据库名"
[0058] sybase:driver="com.sybase.jdbc.SybDriver".
[0059] 以上所述为比较常用的两种用于执行SQL语言的API,所述数据库连接驱动还可以是其他的能够对多种不同数据库进行数据访问、查询与操作的方法或程序。
[0060] 步骤103、根据所述数据加载任务指令确定所述源数据库中的待加载数据;
[0061] 本步骤中,通过对所述数据加载任务指令进行分析确定需要从所述源数据库中获取的需要对其进行脱敏的部分数据,即所述待加载数据。
[0062] 具体的,根据所述数据加载任务指令能够确定所述数据加载任务的目的,即将数据从源数据库加载至目标数据库的用途,据此从所述源数据库中筛选出与所述目的或用途相应的数据部分,即所述待加载数据。
[0063] 例如,在人事系统和财务系统经常会用到的后台数据库中保存有单位职工的基本情况(职工号、姓名、年龄、性别、籍贯、工资、住址、简历等),在获取到所述数据加载任务指令,确定所述数据加载任务的目的是为了对企业员工的工龄进行统计,根据这一目的,能够确定相应的可能用到的数据包括职工号、姓名、入职时间、年龄等,那么所述待加载数据就包括职工号、姓名、入职时间以及年龄。
[0064] 或者,在商务管理系统的后台数据库中保存有大量某产品用户的用户信息(姓名、性别、年龄、联系方式、住址、学历、爱好以及相关产品的使用体验信息等),在获取到所述数据加载任务指令,确定所述数据加载任务指令的目的是为了对用户的使用体验与产品满意度进行调查,根据这一目的,能够确定相应的可能用到的数据包括姓名、性别、联系方式、爱好以及相关产品的使用体验信息等,那么所述待加载数据就包括姓名、性别、联系方式、爱好以及相关产品的使用体验信息。
[0065] 进一步的,一些更为详尽的数据加载任务指令,根据其所确定的所述待加载数据就更加具体,比如当所述数据加载任务指令涉及一些特定限制条件,在确定所述待加载数据时,就根据所述特定限制条件对相应数据库中的数据进行筛选。
[0066] 步骤104、利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据;
[0067] 本步骤中,利用敏感数据模型对所述待加载数据进行分析识别,从中准确筛选出与所述敏感数据模型特征相符的数据,即为敏感数据。
[0068] 所述敏感数据模型是通过对大量敏感数据的数据特征进行统计分析所总结归纳出的模型,所述数据特征包括数据来源、属性、结构等。具体的,本步骤通过将所述待加载数据与所述敏感数据模型进行比对,将所述待加载数据中与所述敏感数据模型特征相符的部分数据筛选出来,筛选出来的这部分数据即为所述敏感数据。
[0069] 例如,在所述数据加载任务指令的目的是对用户的使用体验与产品满意度进行调查时,会从商务管理系统的后台数据库中获取用户的姓名、性别、联系方式、爱好以及相关产品的使用体验信息等,在这些数据中,用户的姓名、联系方式、爱好等信息是用户隐私信息,这些信息就属于敏感信息,所述敏感数据模型中即涵盖有姓名、联系方式、爱好等信息的数据特征,通过将获取到的用户的姓名、性别、联系方式、爱好以及相关产品的使用体验信息等于所述敏感数据模型进行比对,能够从中筛选出姓名、联系方式与爱好信息。
[0070] 本领域技术人员应当理解的是,在不同的所述数据加载任务情况下,同样的数据其敏感属性也不一定相同,比如与商业商务活动或企业管理活动中,设计到用户或职工的个人身份隐私信息、金融账户安全信息等都属于敏感信息,但是在人口普查、个人收入统计等活动中,就需要获取准确无误未经改动的身份信息,此时前述情况的个人身份隐私信息就不再是敏感信息。因此,在本申请的一些可选实施例中,所述敏感数据模型可以根据所述数据加载任务指令进行调整改动。
[0071] 步骤105、批量抽取所述待加载数据,根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理,得到脱敏数据;
[0072] 本步骤中,根据脱敏规则对识别筛选出的敏感数据进行模糊化处理,将原先的敏感数据进行转换,使得转换后的敏感数据在满足可用性前提下,避免敏感数据信息的泄露。
[0073] 所述模糊化处理可以是利用特殊字符对敏感数据进行简单替换、通过特定的算法进行转换或者关键内容进行删除等多种方式,根据所述脱敏规则为不同的敏感数据选取合适的模糊化处理的方式,更有针对性且保证模糊化处理之后的数据依然可用。
[0074] 例如,所述数据加载任务指令目的是对用户的使用体验与产品满意度进行调查,在这一过程中重点关注的是用户的相关产品的使用体验信息,对于用户具体的姓名、联系方式等信息不太关注,于是可以对用户姓名、联系方式等这些敏感信息进行模糊化处理,比如针对用户姓名保留用户姓名首字符,其他部分用“**”进行掩码遮盖,针对用户联系方式比如手机号码保留前三位,其他部分长度相同的随机码进行替换等,采用这样的方式进行模糊化处理之后,能够避免敏感数据的泄露,也不影响后续的数据分析。
[0075] 步骤106、将所述脱敏数据装载至所述目标数据库。
[0076] 本步骤中,将敏感数据模糊化处理后得到的脱敏数据,加载至所述目标数据库中,便于之后对所述目标数据库中的数据进行进一步操作。
[0077] 可见,本实施例的数据脱敏方法,根据数据加载任务指令利用数据库连接驱动连接源数据库与目标数据库并确定待加载数据,利用敏感数据模型从待加载数据中筛选识别出敏感数据,根据脱敏规则对所述敏感数据进行模糊化处理,最后将得到的脱敏数据加载至所述目标数据库中,具有普适性,能够对敏感数据进行高效准确脱敏,且满足数据脱敏后的可用性。
[0078] 作为一个可选实施例,所述根据所述数据加载任务指令确定所述源数据库中的待加载数据,包括:
[0079] 根据所述数据加载任务指令确定所述源数据库中的待加载表,所述待加载数据是指所述待加载表中的数据。
[0080] 数据库以表为组织单位来存储数据,在存储数据时每条数据记录都按照表字段所规定的数据类型存入表中,可以根据所述表字段确定每条数据记录中各部分的数据属性。
[0081] 在本实施例中,通过对所述数据加载任务指令进行分析确定需要从所述源数据库中获取的需要对其进行脱敏的部分数据的数据属性,根据所述数据属性结合所述源数据库中表字段内容,从数据库表中选取相应部分组成所述待加载表,所述待加载表中数据即所述待加载数据。
[0082] 本实施例中,所述数据脱敏方法根据所述数据加载任务指令结合数据库表字段内容从所述源数据库中选取待加载表,利用所述表字段确定每条数据记录中各部分的数据属性,能够快速准确筛选出所述待加载数据,
[0083] 作为一个可选实施例,参考图2,所述数据脱敏方法,还包括以下步骤:
[0084] 步骤201、获取所述待加载表的表结构信息;
[0085] 步骤202、在将所述脱敏数据装载至所述目标数据库之前,根据所述表结构信息在所述目标数据库中创建相同表结构的目标加载表;
[0086] 步骤203、在装载所述脱敏数据时,将所述脱敏数据批量加载到所述目标加载表中。
[0087] 作为一个可选实施例,参考图3,所述利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据的步骤,具体包括:
[0088] 步骤301、利用分布式样本采集技术从所述待加载数据中采集得到结构完整的样本数据;
[0089] 本步骤中,是对待加载数据进行样本采集。所述数据加载任务指令往往涉及较大数据量,所述待加载数据的数据量往往包括上万甚至数十万、上百万条数据记录,针对巨大数量的所述待加载数据,所述数据脱敏方法采用分布式样本采集技术,从所述待加载数据中抽样采集样本数据,保证所述样本数据的数据结构完成且具有代表性,使得敏感数据筛选工作的工作量大大降低,便于之后以所述样本数据为操作对象进行分析,实现对敏感数据的快速高效筛选。
[0090] 步骤302、对所述样本数据进行深度扫描,确定所述样本数据的数据结构特征;
[0091] 本步骤中对已经采样得到的数据结构完成具有代表性的所述样本数据进行深度扫描,以确定所述样本数据的数据结构特征,便于之后利用所述数据结构特征对所述样本数据进行分析筛选。
[0092] 步骤303、根据所述数据结构特征,将所述样本数据与所述敏感数据模型进行比对,从所述样本数据中筛选出数据结构特征与所述敏感数据模型相符的敏感数据段;
[0093] 本步骤中,以深度扫描所确定的所述样本数据的数据结构特征为依据,将其与所述敏感数据模型进行对比从而确定所述样本数据中属于敏感数据的数据部分作为所述敏感数据段。其中,所述敏感数据模型是通过对大量敏感数据的数据特征进行统计分析所总结归纳出的模型,所述数据特征包括数据来源、属性、结构等。
[0094] 具体的,本步骤中通过将所述样本数据与所述敏感数据模型进行比对,将所述样本数据中与所述敏感数据模型特征相符的数据部分筛选出来,筛选出来的这部分数据即为所述敏感数据段。
[0095] 步骤304、根据所述敏感数据段与所述样本数据的位置结构关系,从所述待加载数据中筛选出所述敏感数据。
[0096] 本步骤中,确定所述敏感数据段与所述样本数据的位置结构关系,所述样本数据是从所述待加载数据中通过分布式样本采集技术抽样采集得到具有代表性的数据,因此所述敏感数据段与其所属样本数据间的位置结构关系也具有代表性,能够反映敏感数据与整体所述待加载数据的位置结构关系,以此为依据,就能够从所述待加载数据中筛选出所述敏感数据。在所述样本数据中,所述敏感数据段的数据结构特征与所述敏感数据模型相符,在所述待加载数据中,所述敏感数据的数据结构特征也与所述敏感数据模型相符。
[0097] 本实施例中,在利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据这一步骤中,通过采集样本数据,以样本数据来代表整体待加载数据,大大降低数据分析的工作量,准确快速高效的从中识别筛选出敏感数据段,之后再扩展到整体所述待加载数据,完成所述待加载数据中全部所述明暗数据的识别筛选。
[0098] 作为一个可选实施例,参考图4,所述根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理的步骤,包括:
[0099] 步骤401、根据所述敏感数据模型确定所述敏感数据的敏感类型;
[0100] 所述敏感数据模型是通过对大量敏感数据的数据特征进行统计分析所总结归纳出的模型,所述数据特征包括数据来源、属性、结构等,根据所述敏感数据模型能够识别筛选出敏感数据。此外,利用所述敏感数据模型,也能够确定不同类型的敏感数据其相应的数据结构特征也是不同的,在确定了所述敏感数据的数据结构特征后,还能够确定其敏感类型。
[0101] 本步骤中,确定所述明暗数据的所述敏感类型的一种可选的方式是:
[0102] 首先确定与所述敏感数据相对应的所述敏感数据段的所述数据结构特征,所述敏感数据与所述敏感数据段具有相同的数据结构特征;
[0103] 根据所述数据结构特征,结合所述敏感数据模型,确定所述敏感数据的敏感类型。
[0104] 或者,另外一种可选的方式是:
[0105] 在利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据的步骤中,从所述样本数据中筛选出所述敏感数据段时,同时也确定了所述敏感数据段的敏感类型;
[0106] 根据所述敏感数据段的敏感类型,与所述敏感数据段相对应的所述敏感数据的所述敏感类型也得以确认。
[0107] 步骤402、利用所述脱敏规则,根据所述敏感类型为所述敏感数据选取相应的脱敏算法;
[0108] 本步骤中,根据所述敏感数据的敏感类型,利用脱敏规则为所述不同敏感类型的所述敏感数据分别选出相对应的脱敏算法,根据所述脱敏算法对所述敏感数据进行模糊化处理,使其去敏感化,在保证模糊化处理后的数据可用性的前提下,避免敏感数据的信息泄露。
[0109] 步骤403、采用所述脱敏算法对所述敏感数据进行转换。
[0110] 作为一个可选实施例,根据所述敏感类型为所述敏感数据选取相应的脱敏算法,所述脱敏算法为以下中至少一种:
[0111] 固定值替换,采用预设的固定字符对所述敏感数据进行替换操作;
[0112] 随机值替换,采用指定类型的随机字符对所述敏感数据进行替换操作;
[0113] 空字符替换,采用空字符对所述敏感数据进行替换操作;
[0114] 掩码字符替换,采用掩码字符对所述敏感数据进行替换操作;
[0115] 值转换替换,利用不可逆算法对所述敏感数据中的数据进行计算,并采用计算结果对所述敏感数据进行替换操作。
[0116] 本步骤中根据敏感类型为所述敏感数据选取以上多种替换操作中的至少一种作为所述脱敏算法,对所述敏感数据进行操作,以实现对所述敏感数据的模糊化处理。
[0117] 在对所述敏感数据进行模糊化处理时,在所述敏感数据的数据结构比较简单时,根据所述脱敏规则可以只选用以上多种替换操作中的一种,例如当所述敏感数据是用户姓名时,则可以只选用掩码字符替换操作,将所述用户姓名除的一个字符外的内容进行替换,替换后得到“王**、张**、李**”这样的模糊化处理后的数据,满足可用性的同时避免了用户真实姓名的泄露;然而更多情况下所述敏感数据的数据结构比较复杂,那么根据所述脱敏规则所选用的替换操作就包括上述替换操作中的至少一种,例如当所述敏感数据是16位银行卡号时,所述银行号码的数据结构就比较复杂,前6位为银行代码,中间9位是个人信息码,最后1位是校验码,针对银行卡号这种敏感数据就采用三种替换操作,对于前6位银行代码,采用随机值替换的方法,从各银行的银行代码样本库中随机选取一个将其替换,对于中间9位个人信息码,采用掩码字符替换,将9位个人信息码中前4位替换为掩码字符,针对最后一位校验码,采用值转换替换,利用校验算法将原校验码进行替换。
[0118] 作为一个可选实施例,在采用所述脱敏算法对所述敏感数据进行转换时,将所述待加载数据中属于同一敏感类型的全部所述敏感数据进行批量转换。
[0119] 本步骤在根据所述脱敏算法对敏感数据进行转换时,采用批量转换的方式。所述待加载数据中包含多敏感类型的敏感数据,在进行转换时,将属于同一敏感类型的敏感数据进行批量转换,之后再对另外一种敏感类型的敏感数据进行替换。
[0120] 同一敏感类型的敏感数据采用的脱敏算法相同,所执行的替换操作相同,针对巨大数量的所述待加载数据,采用上述方式能够提高脱敏效率,避免采用同一数据记录中的敏感数据逐类型替换可能造成的误差。
[0121] 作为一个可选实施例,所述脱敏规则根据所述数据加载任务指令确定。
[0122] 本领域技术人员应当理解的是,在不同的所述数据加载任务情况下,所述脱敏规则也不一定相同,针对同样敏感类型的所述敏感数据所采用的脱敏算法也会存在针对性的差异。
[0123] 比如与商业商务活动或企业管理活动中,同样属于某产品用户信息数据,若所述数据加载任务的目的是为了对用户的大致分布范围进行统计,则对于用户住址可以只显示前半部分市区、社区、街道信息,其余部分进行替换修改,用户的姓名、联系方式等敏感数据可以进行脱敏替换;若所述数据加载任务的目的是获取具体地址以进行商品产品投递等工作,则用户住址需要具体显示,相应的用户联系方式也需要显示,而用户姓名等信息可以进行脱敏替换。
[0124] 基于同一发明构思,参考图5,本发明实施例还提供了一种数据脱敏装置,包括:
[0125] 任务获取模块501,被配置为获取数据加载任务指令;
[0126] 连接模块502,被配置为根据所述数据加载任务指令利用数据库连接驱动分别连接源数据库与目标数据库;
[0127] 待加载模块503,被配置为根据所述数据加载任务指令确定所述源数据库中的待加载数据;
[0128] 识别模块504,被配置为利用敏感数据模型对所述待加载数据进行识别,筛选出敏感数据;
[0129] 脱敏模块505,被配置为批量抽取所述待加载数据,根据脱敏规则对所述待加载数据中的所述敏感数据进行模糊化处理,得到脱敏数据;
[0130] 加载模块506,被配置为将所述脱敏数据装载至所述目标数据库。
[0131] 在一个可选实施例中,所述待加载模块503,具体被配置为根据所述数据任务加载指令确定所述源数据库中的待加载表,所述待加载数据是指所述待加载表中的数据。
[0132] 在一个可选实施例中,所述数据脱敏装置还包括:
[0133] 表结构模块,被配置为获取所述待加载表的表结构信息;
[0134] 目标加载表模块,被配置为根据所述表结构信息在所述目标数据库中创建相同表结构的目标加载表;
[0135] 所述加载模块506被配置为在装载所述脱敏数据时,将所述脱敏数据批量加载到所述目标加载表中。
[0136] 在一个可选实施例中,所述识别模块504具体被配置为:
[0137] 利用分布式样本采集技术从所述待加载数据中采集得到结构完整的样本数据;
[0138] 对所述样本数据进行深度扫描,确定所述样本数据的数据结构特征;
[0139] 根据所述数据结构特征,将所述样本数据与所述敏感数据模型进行比对,从所述样本数据中筛选出数据结构特征与所述敏感数据模型相符的敏感数据段;
[0140] 根据所述敏感数据段与所述样本数据的位置结构关系,从所述待加载数据中筛选出所述敏感数据。
[0141] 在一个可选实施例中,所述脱敏模块505具体被配置为:
[0142] 根据所述敏感数据模型确定所述敏感数据的敏感类型;
[0143] 利用所述脱敏规则,根据所述敏感类型为所述敏感数据选取相应的脱敏算法;
[0144] 采用所述脱敏算法对所述敏感数据进行转换。
[0145] 在一个可选实施例中,所述脱敏模块505具体配置为根据所述敏感类型为所述敏感数据所选取的所述敏感算法包括如下中的至少一种:
[0146] 固定值替换,采用预设的固定字符对所述敏感数据进行替换操作;
[0147] 随机值替换,采用指定类型的随机字符对所述敏感数据进行替换操作;
[0148] 空字符替换,采用空字符对所述敏感数据进行替换操作;
[0149] 掩码字符替换,采用掩码字符对所述敏感数据进行替换操作;
[0150] 值转换替换,利用不可逆算法对所述敏感数据中的数据进行计算,并采用计算结果对所述敏感数据进行替换操作。
[0151] 在一个可选实施例中,所述脱敏模块505具体被配置为,在采用所述脱敏算法对所述敏感数据进行转换时,将所述待加载数据中属于同一敏感类型的全部所述敏感数据进行批量转换。
[0152] 在一个可选实施例中,所述脱敏模块505具体被配置为,所采用的所述脱敏规则根据所述数据加载任务指令确定。
[0153] 上述实施例的装置用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0154] 基于同一发明构思,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的方法。
[0155] 图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0156] 处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0157] 存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0158] 输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘鼠标触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0159] 通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
[0160] 总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0161] 需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0162] 上述实施例的电子设备用于实现前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0163] 所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0164] 另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
[0165] 尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
[0166] 本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈