首页 / 专利库 / 银行与财务事项 / 别名映射 / 一种敏感表群体发现方法及系统

一种敏感表群体发现方法及系统

阅读:877发布:2020-05-11

专利汇可以提供一种敏感表群体发现方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 提供一种敏感表群体发的方法和系统,包括以下步骤:S101,确定 数据库 中已标注敏感数据;S102,获取数据库操作日志,并解析操作日志中的sql语句,获取表与列名,建立血缘关系表;S103,构造数据库中各信息表之间链式创建关系图;S104,基于S103中已建立的链式创建关系图结合S101中已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体。本发明提供的方法,在高准确率的前提下,突出展示了敏感表的群体关系,大大提高了企业、组织或个人对数据库的敏感数据存储管理效率。,下面是一种敏感表群体发现方法及系统专利的具体信息内容。

1.一种敏感表群体发现的方法,其特征在于:包括以下步骤:
S101,确定数据库中已标注敏感数据;
S102,获取数据库操作日志,并解析操作日志中的sql语句,获取表与列名,建立血缘关系表;
S103,构造数据库中各信息表之间链式创建关系图;
S104,基于S103中已建立的链式创建关系图结合S101中已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体。
2.根据权利要求1所述的一种敏感表群体发现的方法,其特征在于:所述步骤S101中,具体为:通过与系统维护人员或相关业务人员确定已标注的敏感数据,标注形式为:表名-列名。
3.根据权利要求1所述的一种敏感表群体发现的方法,其特征在于:所述步骤S102中建立血缘关系表具体操作为:
S1021:依据create或insert关键词对目标表名进行提取,整理成目标表名Td集合;
S1022:依据from关键词可以定位到原始表名,整理成原表名Ts集合;
S1023:然后根据select关键词在操作日志中梳理目标表名集合Td与原表名集合Ts的列从属关系,并记录列名和列别名,其中列名为原始表中列名,列别名为目标表列名,无列别名则目标表列名和原始列名一致;至此得到Ts与Td之间的血缘关系,即目标表与原始表之间关系映射为:原始表名-原始列名–>目标表名-目标列名;
S1024:将所有的原始表与目标表关系存储到解析表中,从而建立数据库中数据的血缘关系表。
4.根据权利要求3所述的一种敏感表群体发现的方法,其特征在于:所述步骤S103中链式创建关系图具体为:根据步骤S1024中的血缘关系表,使用图数据库进行构造数据库中各信息表的链式创建关系图,以图关系存储指图数据库中。
5.根据权利要求4所述的一种敏感表群体发现的方法,其特征在于:所述步骤S104中查找与敏感数据存在直接或者间接血缘关系的敏感表群体具体为:根据步骤S101中的敏感数据,使用遍历算法对链式创建关系图中所有的表进行遍历,筛查出与敏感数据存在直接或间接关系的敏感表群体以及它们之间的创建从属关系。
6.一种敏感表群体发现的系统,其特征在于:包括
敏感数据确定模,确定数据库中已标注敏感数据;
血缘关系表建立模块,获取数据库操作日志,并解析操作日志中的sql语句,获取表与列名,建立血缘关系表;
链式创建关系图构造模块,构造数据库中各信息表之间链式创建关系图;
敏感表群体查找模块,基于已建立的链式创建关系图结合已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体。
7.根据权利要求6所述的一种敏感表群体发现的系统,其特征在于:通过与系统维护人员或相关业务人员确定已标注的敏感数据,标注形式为:表名-列名。
8.根据权利要求6所述的一种敏感表群体发现的系统,其特征在于:所述建立血缘关系表具体为:
依据create或insert关键词对目标表名进行提取,整理成目标表名Td集合;
依据from关键词可以定位到原始表名,整理成原表名Ts集合;
然后根据select关键词在操作日志中梳理目标表名集合Td与原表名集合Ts的列从属关系,并记录列名和列别名,其中列名为原始表中列名,列别名为目标表列名,无列别名则目标表列名和原始列名一致;至此得到Ts与Td之间的血缘关系,即目标表与原始表之间关系映射为:原始表名-原始列名–>目标表名-目标列名;
将所有的原始表与目标表关系存储到解析表中,从而建立数据库中数据的血缘关系表。
9.根据权利要求8所述的一种敏感表群体发现的系统,其特征在于:所述链式创建关系图具体为:根据所述血缘关系表,使用图数据库进行构造数据库中各信息表的链式创建关系图,以图关系存储指图数据库中。
10.根据权利要求9所述的一种敏感表群体发现的系统,其特征在于:根据所述敏感数据,使用遍历算法对链式创建关系图中所有的表进行遍历,筛查出与敏感数据存在直接或间接关系的敏感表群体以及它们之间的创建从属关系。

说明书全文

一种敏感表群体发现方法及系统

技术领域

[0001] 本发明涉及计算机数据安全技术领域,具体来说是一种敏感表群体发现方法及系统。

背景技术

[0002] 敏感数据一般指的是企业、组织或者个人保密程度较高的信息数据,在不同行业内,这些敏感数据类目也是各有不同,但是对于敏感数据的管理方式基本都是采用数据库管理系统。用户的某些操作可能会对数据库中存储的大量敏感数据造成扩散,即把一些涉及敏感的数据从信息表中拷贝到了其他表中,从而产生了很多新的未标注保密程度的信息表,而这些新建的信息表可能会被其他用户查询、复制、导出等,造成敏感数据泄露。因此对于这些从敏感信息表中衍生出来的信息表群体的管控就显得极其重要,现有的敏感表群体发现主要采用两种模式:人工梳理以及工具扫描。
[0003] 其中,人工梳理主要依靠相关工作人员对系统业务的了解,梳理出与敏感数据存在业务关联的信息表,再通过与数据库管理员沟通,将这些与敏感数据存在关联的信息表的存储位置、表名称进行标识,例如个人通讯记录、个人信息宽表、靓号等。工具扫描则是通过数据分析方法对已标注的敏感数据进行分析,得出相应的内容特征,然后应用内容分析工具,在指定扫描区域内发现具备敏感数据的内容特征的数据,然后将这些扫描出来的与敏感数据存在内容相似的信息表的存储位置、表名称进行标识。
[0004] 人工梳理一般只能依据对敏感数据业务的理解能或者数据存储位置以及表名称进行人为判定,利用这种方式发现敏感数据的效率不高、耗费人力资源、无法体现表群体关系,且发现范围有限。
[0005] 工具扫描一般是利用数据库扫描工具进行指定位置扫描,根据对已标注敏感数据的内容特征总结发现是否存在敏感数据,这种内容特征一般包括:中英文长度占比、字符类型占比、关键字词、文本大小写、正则表达式等。这种敏感数据发现方式准确度较高,但是这种方式对于被扫描数据库性能资源占用极大,通常生产环境下的数据库不允许进行高频次的扫描,甚至无法支持全部数据扫描,因此容易遗漏、实时性较差,并且这种发现方式无法建立表之间关系,更无法体现出敏感表群体关系。
[0006] 综上所述,现有技术中的敏感数据群体发现方法无法准确、高效的找到敏感数据,并且不能有效体现出表之间关系、敏感表群体。因此,为了对数据库敏感数据进行有效、安全的监管,亟需找到一种能够发现敏感表的方案,以完整、体系化的方式展现敏感数据表的群体关系。

发明内容

[0007] 本发明所要解决的技术问题在于针对现有技术中人工标注方法工作效率不高、标注范围小、工具扫描实时性差和占用资源的缺点,提供一种能够准确高效找到敏感数据表且能够体现表之间关系、敏感表群体的方法及系统。
[0008] 本发明通过以下技术手段实现解决上述技术问题的:
[0009] 一种敏感表群体发现的方法,其特征在于:包括以下步骤:
[0010] S101,确定数据库中已标注敏感数据;
[0011] S102,获取数据库操作日志,并解析操作日志中的sql语句,获取表与列名,建立血缘关系表;
[0012] S103,构造数据库中各信息表之间链式创建关系图;
[0013] S104,基于S103中已建立的链式创建关系图结合S101中已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体。
[0014] 基于数据库用户操作日志和相关已标注的敏感数据,其中使用sql解析工具对数据库用户操作日志进行解析透视,生成血缘关系表,以图形式构造链式创建关系图,并关联敏感数据,从而发现数据库中未标注的敏感表群体
[0015] 优选的,所述步骤S101中,具体为:通过与系统维护人员或相关业务人员确定已标注的敏感数据,标注形式为:表名-列名。
[0016] 优选的,所述步骤S102中建立血缘关系表具体操作为:
[0017] S1021:依据create或insert关键词对目标表名进行提取,整理成目标表名Td集合;
[0018] S1022:依据from关键词可以定位到原始表名,整理成原表名Ts集合;
[0019] S1023:然后根据select关键词在操作日志中梳理目标表名集合Td与原表名集合Ts的列从属关系,并记录列名和列别名,其中列名为原始表中列名,列别名为目标表列名,无列别名则目标表列名和原始列名一致;至此得到Ts与Td之间的血缘关系,即目标表与原始表之间关系映射为:原始表名-原始列名–>目标表名-目标列名;
[0020] S1024:将所有的原始表与目标表关系存储到解析表中,从而建立数据库中数据的血缘关系表。
[0021] 优选的,所述步骤S103中链式创建关系图具体为:根据步骤S1024中的血缘关系表,使用图数据库进行构造数据库中各信息表的链式创建关系图,以图关系存储指图数据库中。
[0022] 优选的,所述步骤S104中查找与敏感数据存在直接或者间接血缘关系的敏感表群体具体为:根据步骤S101中的敏感数据,使用遍历算法对链式创建关系图中所有的表进行遍历,筛查出与敏感数据存在直接或间接关系的敏感表群体以及它们之间的创建从属关系。
[0023] 本发明还提供一种敏感表群体发现的系统,包括
[0024] 敏感数据确定模,确定数据库中已标注敏感数据;
[0025] 血缘关系表建立模块,获取数据库操作日志,并解析操作日志中的sql语句,获取表与列名,建立血缘关系表;
[0026] 链式创建关系图构造模块,构造数据库中各信息表之间链式创建关系图;
[0027] 敏感表群体查找模块,基于已建立的链式创建关系图结合已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体。
[0028] 优选的,通过与系统维护人员或相关业务人员确定已标注的敏感数据,标注形式为:表名-列名。
[0029] 优选的,所述建立血缘关系表具体为:
[0030] 依据create或insert关键词对目标表名进行提取,整理成目标表名Td集合;
[0031] 依据from关键词可以定位到原始表名,整理成原表名Ts集合;
[0032] 然后根据select关键词在操作日志中梳理目标表名集合Td与原表名集合Ts的列从属关系,并记录列名和列别名,其中列名为原始表中列名,列别名为目标表列名,无列别名则目标表列名和原始列名一致;至此得到Ts与Td之间的血缘关系,即目标表与原始表之间关系映射为:原始表名-原始列名–>目标表名-目标列名;
[0033] 将所有的原始表与目标表关系存储到解析表中,从而建立数据库中数据的血缘关系表。
[0034] 优选的,所述链式创建关系图具体为:根据所述血缘关系表,使用图数据库进行构造数据库中各信息表的链式创建关系图,以图关系存储指图数据库中。
[0035] 优选的,根据所述敏感数据,使用遍历算法对链式创建关系图中所有的表进行遍历,筛查出与敏感数据存在直接或间接关系的敏感表群体以及它们之间的创建从属关系。
[0036] 本发明的优点在于:本发明提供了一种快速高效查找敏感表群体的新方法,即基于数据库用户操作日志和相关已标注的敏感数据,其中使用sql解析工具对数据库用户操作日志进行解析透视,生成血缘关系表,以图形式构造链式创建关系图,并关联敏感数据,从而发现数据库中未标注的敏感表群体,并且在高准确率的前提下,突出展示了敏感表的群体关系,大大提高了企业、组织或个人对数据库的敏感数据存储管理效率。附图说明
[0037] 图1为本发明实施例中一种敏感表群体发现方法的流程框图
[0038] 图2为本发明实施例里表1通过图数据库进行构造的链式创建关系图;
[0039] 图3为本发明实施例中基于图2结合已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体创建关系图;
[0040] 图4为本发明实施例中的一种敏感表群体发现的系统结构框图。

具体实施方式

[0041] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0042] 一种敏感表群体发现方法,如图1所示,具体步骤如下:
[0043] S101,确定已标注敏感数据;
[0044] S102,解析操作日志中的sql语句,获取表与列名,建立血缘关系表;
[0045] S103,构造数据库中各信息表之间链式创建关系图;
[0046] S104,基于S103中已建立的链式创建关系图结合S101中已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体。
[0047] 该方法基于数据库用户操作日志和相关已标注的敏感数据,其中使用sql解析工具对数据库用户操作日志进行解析透视,生成血缘关系表,以图形式构造链式创建关系图,并关联敏感数据,从而发现数据库中未标注的敏感表群体
[0048] 下面具体说明每个步骤内容:
[0049] S101中的方法为:
[0050] 与系统维护和相关业务人员确定已标注的敏感数据(敏感数据:应为以“表名-列名”形式标注,例:T1-c1,T1-c2,T1-c3)
[0051] S102中的方法为:
[0052] 解析数据库操作日志中结构化查询语言SQL语句,对SQL语句进行解析,从SQL语句中提取包含create table,insert into这两种具有“数据复制”功能的操作指令的语句。然后使用Python针对SQL语句分析的sqlparse工具进行语句分析,sqlparse工具有提取sql单个语句、格式化sql的语句以及解析sql等功能,该解析功能可以解析出关键单词;
[0053] S1021:依据create或insert关键词对目标表名进行提取,整理成集合;
[0054] S1022:依据from关键词可以定位到原始表名,整理成集合;
[0055] S1023:然后根据select关键词在操作日志中梳理目标表名集合Td与原表名集合Ts的列从属关系,并记录列名和列别名(列名为原始表中列名,列别名为目标表列名,无列别名则目标表列名和原始列名一致),至此得到Ts与Td之间的血缘关系,即目标表与原始表之间关系映射为:原始表名、原始列名–>目标表名、目标列名;
[0056] 实例1:Sql工具解析举例:
[0057] 输入:“create table T2 as select c1 as c1’from T1”
[0058] 输出:T1、c1、T2、c1’,其中根据create识别到目标表名T2,根据from识别到原始表名T1,根据select识别到原始列名c1、目标列名c1’。
[0059] 实例2:Sql工具解析举例:
[0060] 输入:“create table T3 as select c1 as c2’from T1;
[0061] insert into T3(c2’)select c2 from T1;”
[0062] 输出:T1、c2、T3、c2’,其中根据insert识别到目标表名T3,根据from识别到原始表名T1,根据select识别到原始列名c2、目标列名c2’。
[0063] S1024:将所有的原始表与目标表关系存储到解析表中,从而建立数据库中数据的血缘关系表,记为Blood-relationship,其内容形式如表1:血缘关系表。
[0064] 表1血缘关系表
[0065]原始表名 原始列名 从属关系 目标表名 目标列名
T1 c1 -> T2 c1
T1 c2 -> T3 c3
T1 c4 -> T3 c2
T1 c5 -> T3 c4
T1 c5 -> T3 c5
T2 c1 -> T3 c1
T3 c1 -> T4 c1
T3 c2 -> T4 c2
T3 c3 -> T4 c3
T3 c3 -> T4 c4
T3 c4 -> T4 c5
T4 c1 -> T5 c1
T4 c2 -> T6 c1
T4 c3 -> T7 C3
T4 c4 -> T6 c4
T4 c5 -> T6 c5
T5 c1 -> T7 c2
T6 c1 -> T7 c1
[0066] S103中的方法为:
[0067] 根据S1024解析得到的血缘关系表,使用图数据库进行构造据库中各信息表的链式创建关系图,记为Chain-shaped,以图关系存储指图数据库中。其中使用的图数据库是一种非关系型数据库,可以有效展示多表之间的信息内容,多维度分析表之间关系。Chain-shaped内容形式如附图2:链式创建关系图。其中分为原始表T1,以及各个生成表T2,T3,T4,T5,T6,T7,它们之间的连线方向即代表从属关系。
[0068] S104中的方法为:
[0069] 根据S101中“已标注敏感数据”使用遍历算法对链式创建关系图Chain-shaped中所有的表进行遍历,筛查出与敏感数据存在直接或间接关系的敏感表群体以及它们之间的创建从属关系,记为Sensitive-chain-shaped,其内容形式如附图3:敏感表群体创建关系图,其中原始表T1的列c1,c2,c3为已标注的敏感数据,c4,c5为已标注非敏感数据;虚线连线及方向代表敏感数据传输过程;实线连线则为非敏感数据传输过程。
[0070] 如图3中所示:T6-c4列名类似已标注的非敏感数据T1-c4,但是它的源头数据是T1-c2,为已标注的敏感数据,故T6-c4同样是敏感数据;反之T7-c1列名类似已标注的敏感数据T1-c1,但是它的源头数据是T1-c4,为已标注的非敏感数据,故T7-c1同样是非敏感数据;所以在传输过程中,并不会因为表名、列名的变化而影响到是否为敏感数据的识别;经过本发明方法发现的敏感数据为:T2-c1,T3-c1,T3-c3,T4-c1,T4-c3,T4-c4,T5-c1,T6-c4,T7-c2,T7-c3。
[0071] 如图4所示,本实施例还提供一种敏感表群体发现的系统,包括
[0072] 敏感数据确定模块,确定数据库中已标注敏感数据;
[0073] 血缘关系表建立模块,获取数据库操作日志,并解析操作日志中的sql语句,获取表与列名,建立血缘关系表;
[0074] 链式创建关系图构造模块,构造数据库中各信息表之间链式创建关系图;
[0075] 敏感表群体查找模块,基于已建立的链式创建关系图结合已标注的敏感数据,查找与敏感数据存在直接或者间接血缘关系的敏感表群体。
[0076] 基于数据库用户操作日志和相关已标注的敏感数据,其中使用sql解析工具对数据库用户操作日志进行解析透视,生成血缘关系表,以图形式构造链式创建关系图,并关联敏感数据,从而发现数据库中未标注的敏感表群体
[0077] 以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈