首页 / 专利库 / 软件 / 服务粒度 / 一种在线文件非法下载检测方法和装置

一种在线文件非法下载检测方法和装置

阅读:883发布:2020-05-13

专利汇可以提供一种在线文件非法下载检测方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种在线文件非法下载检测方法和装置,属于计算机技术领域。所述方法包括:获取目标 服务器 文件下载日志并提取特征以表征用户的文件下载行为;基于聚类 算法 结合统计分析获取用户下载行为基线;根据所述用户下载行为基线对用户下载行为的合法性进行检测。采用本发明,可以对文件非法下载行为进行有效检测。,下面是一种在线文件非法下载检测方法和装置专利的具体信息内容。

1.一种在线文件非法下载检测方法,其特征在于,包括:
获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为;
基于聚类算法结合统计分析获取用户下载行为基线;
根据所述用户下载行为基线对用户下载行为的合法性进行检测。
2.根据权利要求1所述在线文件非法下载检测方法,其特征在于,所述获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为,包括:
以下载文件时产生的系统日志为数据源,其中,文件传输协议包括ftp、sftp、smb;
以日志中的客户端IP地址、文件大小、文件名、下载时间为特征来表征用户的文件下载行为。
3.根据权利要求1所述在线文件非法下载检测方法,其特征在于,所述基于聚类算法结合统计分析获取用户下载行为基线,包括:
以每台服务器上的每个客户端IP地址为分析单位,即以每台服务器上的IP所产生的文件下载日志作为训练数据,采用聚类算法进行聚类;
根据聚类结果,针对每个类簇进行统计分析得出用户下载行为基线,即合法下载时间段、合法文件大小区间和合法下载频次。
4.根据权利要求3所述在线文件非法下载检测方法,其特征在于,所述聚类算法进行聚类的具体步骤如下:
步骤1:将每个数据点即每台服务器上的每个客户端IP地址的每条文件下载日志当作一个类簇,并提取日志特征,其特征向量表示为:ci→(ci,1,ci,2),其中,向量的各个维度分别表示文件下载时间、文件大小;
步骤2:计算两两类簇之间的距离;
步骤3:将距离最小的两个类簇合并为一个类簇;
步骤4:重复步骤2和步骤3,直至满足训练迭代终止条件。
5.根据权利要求4所述在线文件非法下载检测方法,其特征在于,所述计算两两类簇之间的距离,采用如下三种方式之一:
1)Single Linkage,计算方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离;
2)Complete Linkage,计算方法与Single Linkage相反,将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离;
3)Average Linkage,计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离,将所有距离的均值作为两个组合数据点间的距离;
所述训练迭代终止条件根据人为参与程度分为以下三种:
1)人为参与,针对每次聚类结果绘制聚类结果图,由专家挑选最符合文件下载行为分布的聚类结果;
2)全自动化,聚类结果的好坏由某种评估指标决定,包括轮廓系数、兰德指数、互信息、标准互信息等;
3)半自动化,基于全自动化结果,由专家挑选最符合文件下载行为分布的聚类结果。
6.根据权利要求3或4或5所述在线文件非法下载检测方法,其特征在于,所述根据聚类结果,针对每个类簇进行统计分析得出用户下载行为基线,即合法下载时间段、合法文件大小区间、合法下载频次,包括:
去除异常点,异常点的判别方法有以下两点:
1)基于先验经验,确定某些文件下载日志记录为非法;
2)基于聚类结果,将异常类簇即该类簇距其它类簇距离较远且类簇中数据量少于一定值视为异常点;
针对每个类簇中的正常点,统计其合法下载时间段,粒度由粗到细分为小时、分钟、秒;
统计其合法文件大小区间,范围在最大最小值的一定范围内上下浮动;
统计其合法下载频次,时间粒度由粗到细分为小时、分钟、秒。
7.根据权利要求1所述在线文件非法下载检测方法,其特征在于,所述根据所述用户下载行为的基线对用户下载行为的合法性进行检测,包括:
对用户下载的文件进行涉敏检查,若为敏感文件则该下载行为视为非法;
针对非敏感文件进行基线比对,若不在基线范围内则将该下载行为视为非法。
8.根据权利要求7所述在线文件非法下载检测方法,其特征在于,所述对用户下载的文件进行涉敏检查,若为敏感文件则该下载行为视为非法,包括:
涉敏检查基于敏感文件名单采用模式匹配的方式对用户下载的文件进行检查,其中敏感文件名单自行指定
对敏感文件名单进行动态更新,即对敏感文件进行监控,若敏感文件的文件名被修改,则修改后的文件名将作为“新”敏感文件名加入敏感文件名单。
9.一种在线文件非法下载检测装置,其特征在于,所述装置包括:
数据处理,用于获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为;
聚类模块,用于基线获取之前给数据分块,使得基线更加细粒度化更加精准;
基线获取模块,用于获取用户下载行为基线;
涉敏检查模块,用于检查用户下载的文件是否为敏感文件;
检测模块,用于检测用户下载行为是否合法。
10.根据权利要求9所述在线文件非法下载检测装置,其特征在于,所述数据处理模块,用于:
以每台服务器上的每个客户端IP地址为分析单位,并提取相应文件下载日志中的下载时间和文件大小作为特征,表征用户的文件下载行为;
所述聚类模块,用于:
确定目标数据的分组状况,使基线粒度更细,更为准确;
去除异常点,确定正常点以用于基线分析;
所述基线获取模块,用于:
针对正常点,确定合法下载时间段,粒度由粗到细分为小时、分钟、秒;确定合法文件大小区间,范围在最大最小值的一定范围内上下浮动;确定合法下载频次,时间粒度由粗到细分为小时、分钟、秒。

说明书全文

一种在线文件非法下载检测方法和装置

技术领域

[0001] 本发明属于计算机技术技术领域,特别涉及一种在线文件非法下载检测方法和装置。

背景技术

[0002] 随着计算技术的发展,计算机在人们的日常生活中发挥着越来越重要的作用,越来越多的人们以及企业也愿意把机密文件存储在计算机中。但与此同时,针对计算机的攻击不断涌现,一旦让攻击者得手使得机密文件泄露,将给计算机所有者或者用户带来不可估量的损失。攻击发现的越早,所能采取的补救措施就越多,造成的损失就越少。因此,在线文件非法下载检测受到了工业界的重视。传统文件非法下载检测是通过人工参与或者使用事先定义好的规则来完成的,例如事先知道发生了文件非法下载行为,则通过时间以及文件名进行人工筛选找出异常日志。当文件传输日志大小有限以及非法下载已知时,这些方法非常有效并且也十分灵活。
[0003] 在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
[0004] 若文件传输日志数量达到百万级,则人为处理日志就很不现实。不可预测的非法下载行为也不适合用预先定义的规则处理。

发明内容

[0005] 为了克服上述现有技术的缺点,本发明的目的在于提供一种在线文件非法下载检测方法和装置,可以对文件非法下载行为进行有效检测。
[0006] 为了实现上述目的,本发明采用的技术方案是:
[0007] 一种在线文件非法下载检测方法,包括:
[0008] 获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为;
[0009] 基于聚类算法结合统计分析获取用户下载行为基线;
[0010] 根据所述用户下载行为基线对用户下载行为的合法性进行检测。
[0011] 所述获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为,包括:
[0012] 以下载文件时产生的系统日志为数据源,其中,文件传输协议包括但不限于ftp、sftp、smb;
[0013] 以日志中的客户端IP地址、文件大小、文件名、下载时间为特征来表征用户的文件下载行为。
[0014] 所述基于聚类算法结合统计分析获取用户下载行为基线,包括:
[0015] 以每台服务器上的每个客户端IP地址为分析单位,即以每台服务器上的IP所产生的文件下载日志作为训练数据,采用聚类算法进行聚类,聚类算法包括但不限于层次聚类;
[0016] 根据聚类结果,针对每个类簇进行统计分析得出用户下载行为基线,即合法下载时间段、合法文件大小区间和合法下载频次。
[0017] 所述聚类算法包括但不限于层次及聚类,进行聚类的具体步骤如下:
[0018] 步骤1:将每个数据点即每台服务器上的每个客户端IP地址的每条文件下载日志当作一个类簇,并提取日志特征,其特征向量表示为:ci→(ci,1,ci,2),其中,向量的各个维度分别表示文件下载时间、文件大小;
[0019] 步骤2:计算两两类簇之间的距离;
[0020] 步骤3:将距离最小的两个类簇合并为一个类簇;
[0021] 步骤4:重复步骤2和步骤3,直至满足训练迭代终止条件。
[0022] 所述计算两两类簇之间的距离,采用如下三种方式之一:
[0023] 1)Single Linkage,计算方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离;
[0024] 2)Complete Linkage,计算方法与Single Linkage相反,将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离;
[0025] 3)Average Linkage,计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离,将所有距离的均值作为两个组合数据点间的距离;
[0026] 根据数据具体情况选择最优计算方法。
[0027] 所述训练迭代终止条件根据人为参与程度分为以下三种:
[0028] 1)人为参与,针对每次聚类结果绘制聚类结果图,由专家挑选最符合文件下载行为分布的聚类结果;
[0029] 2)全自动化,聚类结果的好坏由某种评估指标决定,包括但不限于轮廓系数、兰德指数、互信息、标准互信息等;
[0030] 3)半自动化,基于全自动化结果,由专家挑选最符合文件下载行为分布的聚类结果。
[0031] 所述根据聚类结果,针对每个类簇进行统计分析得出用户下载行为基线,即合法下载时间段、合法文件大小区间、合法下载频次,包括:
[0032] 去除异常点,异常点的判别方法有以下两点:
[0033] 1)基于先验经验,确定某些文件下载日志记录为非法;
[0034] 2)基于聚类结果,将异常类簇即该类簇距其它类簇距离较远且类簇中数据量少于一定值视为异常点;
[0035] 针对每个类簇中的正常点,统计其合法下载时间段,粒度由粗到细可分为小时、分钟、秒;
[0036] 统计其合法文件大小区间,范围可在最大最小值的一定范围内上下浮动;
[0037] 统计其合法下载频次,时间粒度由粗到细可分为小时、分钟、秒。
[0038] 所述根据所述用户下载行为的基线对用户下载行为的合法性进行检测,包括:
[0039] 对用户下载的文件进行涉敏检查,若为敏感文件则该下载行为视为非法;
[0040] 针对非敏感文件进行基线比对,若不在基线范围内则将该下载行为视为非法。
[0041] 所述对用户下载的文件进行涉敏检查,若为敏感文件则该下载行为视为非法,包括:
[0042] 涉敏检查基于敏感文件名单采用模式匹配的方式对用户下载的文件进行检查,其中敏感文件名单可自行指定
[0043] 由于攻击者可能会修改敏感文件的文件名,而修改后的文件名不在敏感文件名单之内,从而导致涉敏检查失效。据此,对敏感文件名单进行动态更新,即对敏感文件进行监控,若敏感文件的文件名被修改,则修改后的文件名将作为“新”敏感文件名加入敏感文件名单。
[0044] 本发明还提供了一种在线文件非法下载检测装置,其特征在于,所述装置包括:
[0045] 数据处理,用于获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为;
[0046] 聚类模块,用于基线获取之前给数据分块,使得基线更加细粒度化更加精准;
[0047] 基线获取模块,用于获取用户下载行为基线;
[0048] 涉敏检查模块,用于检查用户下载的文件是否为敏感文件;
[0049] 检测模块,用于检测用户下载行为是否合法。
[0050] 所述数据处理模块,用于:
[0051] 以每台服务器上的每个客户端IP地址为分析单位,并提取相应文件下载日志中的下载时间和文件大小作为特征,表征用户的文件下载行为;
[0052] 所述聚类模块,用于:
[0053] 确定目标数据的分组状况,使基线粒度更细,更为准确;
[0054] 去除异常点,确定正常点以用于基线分析;
[0055] 所述基线获取模块,用于:
[0056] 针对正常点,确定合法下载时间段,粒度由粗到细可分为小时、分钟、秒;确定合法文件大小区间,范围可在最大最小值的一定范围内上下浮动;确定合法下载频次,时间粒度由粗到细可分为小时、分钟、秒。
[0057] 与现有技术相比,本发明获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为,基于聚类算法结合统计分析获取用户下载行为基线,根据所述用户下载行为基线对用户下载行为的合法性进行检测,这样,当文件传输日志数量达到百万级时可以自动化地对文件下载行为进行检测,从而大幅节约人资源;还可通过对历史数据的学习对不可预测的非法下载行为的合法性进行判决,从而降低漏报率。附图说明
[0058] 图1是本发明在线文件非法下载检测方法流程图
[0059] 图2是本发明在线文件非法下载检测装置结构示意图。

具体实施方式

[0060] 为使本发明的目的、技术方案和优势更加清楚,下面将结合附图对本发明实施方式作进一步说明。
[0061] 实施例1
[0062] 如图1所示,本发明一种在线文件非法下载检测方法,处理流程包括以下步骤:
[0063] 步骤1,获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为;
[0064] 步骤2,基于聚类算法结合统计分析获取用户下载行为基线;
[0065] 步骤3,根据所述用户下载行为基线对用户下载行为的合法性进行检测。
[0066] 本发明实施例中,获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为,基于聚类算法结合统计分析获取用户下载行为基线,根据所述用户下载行为基线对用户下载行为的合法性进行检测,这样,当文件传输日志数量达到百万级时可以自动化地对文件下载行为进行检测,从而大幅节约人力资源;还可通过对历史数据的学习对不可预测的非法下载行为的合法性进行判决,从而降低漏报率。
[0067] 实施例2
[0068] 本发明一种在线文件非法下载检测方法,该方法的执行主体为服务器。其中,服务器可以是具有检测功能的后台服务器。
[0069] 下面将结合具体实施方式,对图1所示的处理流程进行详细的说明,内容可以如下:
[0070] 步骤101,获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为。
[0071] 在实施中,以系统日志为数据源,接收所有与文件下载相关的日志。提取日志特征,且特征向量表示为:ci→(ci,1,ci,2),其中,向量的各个维度分别表示文件下载时间以及文件大小。
[0072] 步骤102,基于聚类算法结合统计分析获取用户下载行为基线。
[0073] 在实施中,以每台服务器上的每个客户端IP地址为分析单位,即以每台服务器上的IP所产生的文件下载日志作为训练数据,采用层次聚类算法进行聚类,并根据聚类结果针对每个类簇进行统计分析得出用户下载行为基线,即合法下载时间段、合法文件大小区间、合法下载频次。具体聚类步骤如下:
[0074] 步骤1,将每个数据点(即每条文件下载日志)当作一个类簇。
[0075] 步骤2,计算两两类簇之间的距离。计算两个类簇数据点间距离的方法有三种,分别为Single Linkage,Complete Linkage和Average Linkage。
[0076] Single Linkage的计算方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离。这种方法容易受到极端值的影响。两个不相似的组合数据点可能由于其中的某个极端的数据点距离较近而组合在一起。
[0077]
[0078] Complete Linkage的计算方法与Single Linkage相反,将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离。Complete Linkage的问题也与Single Linkage相反,两个相似的组合数据点可能由于其中的极端值距离较远而无法组合在一起。
[0079]
[0080] Average Linkage的计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离。将所有距离的均值作为两个组合数据点间的距离。这种方法计算量比较大,但结果比前两种方法更合理。
[0081]
[0082] 公式中,|p-p′|表示点p和点p′之间的距离。
[0083] 步骤3,找到距离最小的两个类簇并将其合并为一个类簇
[0084] 步骤4,重复步骤2,步骤3,直至满足训练的迭代终止条件。
[0085] 训练迭代终止条件根据人为参与程度分为以下三种:
[0086] 1)人为参与,针对每次聚类结果绘制聚类结果图,由专家挑选最符合文件下载行为分布的聚类结果;
[0087] 2)全自动化,聚类结果的好坏由某种评估指标决定,包括但不限于轮廓系数、兰德指数、互信息、标准互信息等;
[0088] 3)半自动化,基于全自动化结果,由专家挑选最符合文件下载行为分布的聚类结果。
[0089] 在本实施例中选择全自动化方式,并以轮廓系数作为评估指标。
[0090] 结合聚类结果去除数据中的异常数据,判别方法:基于先验经验,确定某些文件下载日志记录为非法;基于聚类结果,将异常类簇即该类簇距其它类簇距离较远且类簇中数据量较少视为异常。
[0091] 针对正常数据,统计其合法下载时间段,粒度由粗到细可分为小时、分钟、秒;统计其合法文件大小区间,范围可在最大最小值的一定范围内上下浮动;统计其合法下载频次,时间粒度由粗到细可分为小时、分钟、秒。
[0092] 步骤103,根据所述用户下载行为基线对用户下载行为的合法性进行检测。
[0093] 在实施中,首先对下载的文件进行涉敏检查,内容包括:基于涉敏文件名单采用模式匹配的方式对文件进行检查,涉敏文件名单可由用户自行指定。此外,由于用户或者攻击者可能会修改敏感文件的文件名,而修改后的文件名不在涉敏文件名单之内,从而导致涉敏检查失效。据此,本实施例对涉敏文件名单进行动态更新,即加入涉敏文件监控功能,若敏感文件的文件名被修改,则修改后的文件名将作为“新”敏感文件名加入涉敏文件名单。若下载文件为敏感文件则将该下载行为视为非法。针对非敏感文件则进行基线比对,若不在基线范围内则将该下载行为视为非法。
[0094] 本发明实施例中,获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为,基于聚类算法结合统计分析获取用户下载行为基线,根据所述用户下载行为基线对用户下载行为的合法性进行检测,这样,当文件传输日志数量达到百万级时可以自动化地对文件下载行为进行检测,从而大幅节约人力资源;还可通过对历史数据的学习对不可预测的非法下载行为的合法性进行判决,从而降低漏报率。
[0095] 实施例3
[0096] 基于相同的技术构思,本发明还提供了一种在线文件非法下载检测装置,如图2所示,该装置包括:
[0097] 数据处理模块201,用于获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为;
[0098] 聚类模块202,用于基线获取之前给数据分块,使得基线更加细粒度化更加精准;
[0099] 基线获取模块203,用于获取用户下载行为基线;
[0100] 涉敏检查模块204,用于检查用户下载的文件是否为敏感文件;
[0101] 检测模块205,用于检测用户下载行为是否合法。
[0102] 可选的,所述数据处理模块201,用于:
[0103] 以每台服务器上的每个客户端IP地址为分析单位,并提取相应文件下载日志中的下载时间和文件大小作为特征,表征用户的文件下载行为。
[0104] 可选的,所述聚类模块202,用于:
[0105] 确定目标数据的分组状况,使基线粒度更细,更为准确。
[0106] 去除异常点,确定正常点以用于基线分析。
[0107] 可选的,所述基线获取模块203,用于:
[0108] 针对正常数据,确定合法下载时间段,粒度由粗到细可分为小时、分钟、秒;确定合法文件大小区间,范围可在最大最小值的一定范围内上下浮动;确定合法下载频次,时间粒度由粗到细可分为小时、分钟、秒。
[0109] 本发明实施例中,获取目标服务器文件下载日志并提取特征以表征用户的文件下载行为,基于聚类算法结合统计分析获取用户下载行为基线,根据所述用户下载行为基线对用户下载行为的合法性进行检测,这样,当文件传输日志数量达到百万级时可以自动化地对文件下载行为进行检测,从而大幅节约人力资源;还可通过对历史数据的学习对不可预测的非法下载行为的合法性进行判决,从而降低漏报率。
[0110] 以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈