一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统专利检索-编辑决策表编辑中专利检索查询-专利查询网

一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统

阅读：428发布：2020-05-14

专利汇可以提供一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统，主要步骤为：1)从网络安全设备用户日志等数据中提取特征；2)对特征进行预处理和数据分析，获得特征之间以及特征与用户行为之间的关系；3)根据用户特征构建用户分组的聚类模型；4)根据聚类模型建立用户画像，并根据用户特征和用户画像的匹配结果决定用户是否存在行为异常；本发明实现简单、计算复杂度低，可以有效减少用户日志中行为分析的计算资源开销，不需要任何额外标记，仅需要网络安全设备自动记录的数据，具有实际应用的优势，提供了具有不同行为模式的用户分组方法和画像匹配方法，同时对用户行为是否存在异常进行了决策性判断。，下面是一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统专利的具体信息内容。

权利要求

1.一种基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，包括：
步骤1，以网络安全设备用户权限数据为数据源，从用户权限数据中提取所有用户的权限信息，包括各用户允许登录的服务器IP以及各用户授权使用的系统账号ID；
步骤2，以网络安全设备一段时间内的用户日志数据为数据源，从用户操作日志的有效字段中提取30个用户特征，包括操作频次特征、账号与设备使用特征、操作指令使用特征以及结合步骤1中的用户权限信息提取到的用户越权操作特征共四类特征；
步骤3，根据步骤2中提取到的用户特征，使用特征标准化预处理方法对用户特征进行标准化处理，得到标准化后的用户特征，并记录所有的标准化时用到的信息，即所有特征的平均值与标准差；
步骤4，使用聚类方法，对步骤3中得到的全部用户特征进行聚类，获得聚类模型，并得到具有不同行为特点的用户分组；
步骤5，根据步骤4中的用户分组结果，绘制用户特征在每个特征维度上的累计分布图，并根据累计分布图对每个用户分组的典型特点进行分析，从而产生各个用户分组的用户画像，并将违规特征显著的用户组标记为高危用户组；
步骤6，获取网络安全设备的近期用户日志数据，从其中的用户操作日志有效字段中提取用户实时行为特征，根据步骤4中得到的聚类模型以及各个用户的当前实时特征，对每个用户进行分组匹配，然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度，对是否发出用户异常警告做出决策。
2.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，所述步骤1中，网络安全设备用户权限数据是指网络安全设备上的包含所有用户的服务器登录权限、系统账号授权以及权限有效期信息在内的数据。
3.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，所述步骤2中网络安全设备一段时间内的用户日志数据是指150天内的历史日志数据，所述步骤6中近期用户日志数据是指最近一周内的用户日志数据，均为网络安全设备上包含用户操作时的操作时间、所在服务器、所用账号以及操作指令在内的有效字段的日志数据，有效字段是指经过指令解析后的用户日志中包含的与用户行为特征相关的九个字段，包括：操作时间、进程ID、系统账号ID、真实姓名即堡垒机账号ID、通过堡垒机连接的服务器IP、完整命令字符串、命令参数部分、命令指令部分、命令中出现的远程连接地址。
4.根据权利要求1或3所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，所述步骤2和步骤6中，特征提取包括：
(1)依据用户日志数据中的“操作时间”字段提取操作频次类特征：将单日内的24小时划分为0点～8点、8点～12点、12点～14点、14点～18点、18点～24点五个时段，8点～12点和
14点～18点这两个时段上记作“工作时间”进行后序统计，0点～8点、12点～14点、18点～24点这三个时段记作“休息时间”进行后序统计；然后，通过统计历史日志中，每个用户每日工作时间、休息时间的操作次数，分别对其求取平均值，获得工作时间日均操作次数、休息时间日均操作次数两个用户特征；采取同样方法，将周一至周五记作“工作日”进行后序统计，将周六与周日的用户操作作为“休息日”进行后序统计；通过统计历史日志中，每个用户每个工作日、休息日的操作次数，分别对其求取平均值，得到工作日均操作次数、休息日日均操作次数两个用户特征；
(2)依据用户日志数据中的“进程ID”、“系统账号ID”以及“服务器IP”三个有效字段提取账号与设备使用类特征：通过统计历史日志中，每位用户每天所使用过的服务器数目、系统账号数目以及进程ID数目，分别对其按日求取平均值，得到该用户平均每日使用的服务器IP数目、平均每日使用的系统账号ID数目、平均每日使用的进程ID数目3个用户特征；
(3)依据用户日志数据中的“命令指令部分”有效字段提取操作指令使用类特征：通过识别历史日志中每个用户的指令类别，统计每个用户在各类指令下的操作频次，并计算出各类指令在用户使用过的全部指令中的占比，从而得到使用的各类指令占比，指令类别包括：Linux指令中文件管理类、文档编辑类、文件传输类、磁盘管理类、磁盘维护类、网络通讯类、系统管理类、系统设置类、备份压缩类、设备管理类指令的占比，使用的Hadoop指令中用户命令、管理命令的占比，使用的SQL指令中数据操作、数据定义、数据控制、事务控制、程序化SQL的占比以及未识别指令的占比，最后获得共18个用户特征；
(4)依据用户日志数据中的“命令参数部分”、“命令指令部分”以及“命令中出现的远程连接地址”三个有效字段以及用户权限数据中提取所有用户的权限信息，提取越权操作类特征：通过提取历史日志中每个用户登录其他系统账号、使用高级权限即“root”权限、远程登录其他服务器的行为信息，并将其与该用户的权限数据进行对照，统计每个用户越权登录他人账号、服务器，以及私自提权为“root”的次数，从而得到越权登录他人账号频次、越权登录他人账号个数、私自提权频次、越权登录其他服务器频次、越权登录其他服务器的个数5个用户特征。
5.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，所述步骤3中，特征标准化具体包括：
步骤3.1，针对全部用户的每一个特征维度，计算并记录每一个特征值的均值μ与方差σ2；
步骤3.2，对每个用户的每个特征x使用公式进行换算，并用所得的x*进行步骤4中模型构建运算。
6.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，所述步骤4具体包括：
步骤4.1，使用K-means聚类算法，选取不同的分组数K，对得到的用户特征集进行聚类，然后计算所有特征向量到其所属类的类中心的欧式距离之和θ，使用所有K值与其对应θ值绘制横轴为K、纵轴为θ的曲线，选取曲线斜率绝对值变化程度最大的一点，该点对应的K*值即为应选择的分组数；
步骤4.2，确定分组数K*后，使用K-means聚类算法对从用户历史日志数据中提取到并进行标准化处理后的用户特征集进行聚类，得到用户的K*个分组，并按照每个用户特征向量的类标记将其分入各个特征向量组，从而得到分组后的用户画像特征库，并保留该K-means聚类算法模型。
7.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，所述步骤5具体包括：
步骤5.1，根据用户特征集的聚类分组结果，绘制每个特征维度上每个用户组特征值的累计分布图，具体方法是：针对每个特征维度构建累积分布图，累计分布图的横坐标X代表了一个阈值，并根据该维度上全部特征值的具体大小选择合适的横轴取值范围；纵坐标y(X)代表累计分布值，记录了所有用户中该特征下取值小于阈值X的用户占比；设此时有K个用户分组，将这K个用户组在该特征下可能的取值标记为x1,x2,…,xK，并且设各分组内用户个数为Ω1,Ω2,…,ΩK，那么该累计分布图中第k组的累计分布曲线纵坐标为其中X为横坐标的取值；num(xk步骤5.2，根据各特征维度的累计分布图，获得各组用户的典型用户画像，具体方法为：
首先将步骤2和步骤6中提到的30个特征进行划分，将这30个特征映射至8个用户画像维度，每个特征属于某一个用户画像维度，分别为：工作时间活跃度、休息时间活跃度、工作复杂度、Linux指令使用偏好、Hadoop命令使用偏好、SQL指令使用偏好、账号越权频繁度、服务器越权频繁度；通过分析步骤5.1中获得的各个特征的累积分布图，将每个用户画像维度的分布划分为低、较低、中、较高、高5个等级，表示为L＝{low,medium low,medium,medium high,high}，并简化为L＝{0,1,2,3,4,5}，用以描述各组用户在这8个用户画像维度上的行为特点，进而第k个分组的用户的画像表示成UPk＝{L1,L2,…,L8}，其中Li代表该分组在第i个用户画像维度的等级；
步骤5.3，将在账号越权频繁度、服务器越权频繁度这两个画像特征上具有“高”或“较高”数值水平的用户画像标记为高危用户画像，符合该画像的用户组即为高危用户组。
8.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，所述步骤6具体包括：
步骤6.1，获取网络安全设备最近N周内的用户日志数据，以“周”为单位提取用户特征，并同样利用步骤3中获得的各个特征的平均值和标准差，按相同方法对这些特征进行标准化处理；
步骤6.2，使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像进行匹配，确定每个用户特征的分组标记；
步骤6.3，将每位用户最近一周的用户组标记与N周内的历史标记进行对比，其中被标记为高危用户组的次数与周数N的比值为违规度I，N周内用户组标记的变化次数与N-1的比值为跳变度H，用户在相邻两周的用户组标记不同即为一次变化；
步骤6.4，基于每位用户的跳变度H与违规度I，设置综合预警阈值，对是否针对跳变度和违规度超过综合阈值的用户发出预警做出决策。
9.根据权利要求8所述基于网络安全设备日志数据的用户画像分组及行为分析方法，其特征在于，分析所用用户日志数据的周数N以及预警的概率阈值由人工设定，或通过机器学习模型得到。
10.一种基于网络安全设备日志数据的用户画像分组及行为分析系统，包括数据获取模块、特征提取模块、分析模块、警告和可视化模块四个模块，可分析出云平台用户的行为特征与用户画像，通过警告决策和可视化展示对高危用户发出警告，其特征在于：
数据获取模块，从网络安全设备获取用户权限数据与用户日志数据；
特征提取模块，从用户权限数据中提取与用户权限相关的服务器权限、系统账号权限，从用户日志数据中提取与用户行为相关的操作频次特征、账号与设备使用特征、操作指令使用特征、越权操作特征；
分析模块，基于特征提取模块得到的各项特征使用聚类算法得到用户组分类标签，并根据类标签建立各组用户画像特征库，绘制各个特征维度上的累计分布图，根据图中各组的特征值数值分布特点获得各组的用户画像，并对高危用户画像进行标记；
警告和可视化模块，根据分析模块中获得的用户画像，对最近数周的用户特征进行匹配，并计算用户跳变度和违规度，从而对是否发出高危用户预警做出自动决策，并且对各用户分组匹配结果进行可视化呈现。

说明书全文

一种基于网络安全设备日志数据的用户画像分组及行为分析

方法和系统

技术领域

[0001] 本发明属于数据挖掘技术领域，特别涉及一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统。

背景技术

[0002] 由于企业云平台的重要性，各企业在搭建云平台时都会选择将其部署在安全设备之后从而保障其不受到来自外网的攻击。但安全设备对于已获准进入的内部用户的异常访问行为并不能很好的检查出来，比如用户账户滥用、用户越权访问，以及用户私自获取、修改重要数据等行为。这些异常行为对于企业云平台而言具有极高的风险，一旦发生就会给企业带来不可估量的严重后果和经济损失。

[0003] 虽然网络安全设备无法检测到内部用户的行为异常，但可以较为全面的记录所有云平台用户的操作信息与账户信息。通过这些数据我们可以利用技术手段提取出用户的行为特征，从而尝试对用户进行行为分析并实现对异常用户的识别预警。

发明内容

[0004] 为了克服上述现有技术的缺点，本发明的目的在于提供一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统，从网络安全设备用户权限数据中提取用户权限信息，然后通过统计海量用户日志数据获得用户的操作频次、账号设备使用、指令操作、越权行为等特征；使用聚类方法获取用户分组标记，并通过绘制各特征维度的用户特征值累计分布图分析各用户组典型行为特征，从而构建各组用户画像；通过用户画像匹配用户特征，并根据匹配结果对异常用户作出预警，从而达到准确预警并节省人力和财力的目的。本发明不仅考虑了用户的历史日志数据，同时也考虑了用户的实时数据，具有获取成本低、信息内容丰富、覆盖用户广、针对用户的行为分析更全面等优点，使得本申请与传统的方法和系统相比，具有明显优势。

[0005] 为了实现上述目的，本发明采用的技术方案是：

[0006] 一种基于网络安全设备日志数据的用户画像分组及行为分析方法，包括：

[0007] 步骤1，以网络安全设备用户权限数据为数据源，从用户权限数据中提取所有用户的权限信息，包括各用户允许登录的服务器IP以及各用户授权使用的系统账号ID。

[0008] 步骤2，以网络安全设备一段时间(例如一个月)内的用户日志数据为数据源，从用户操作日志的有效字段中提取30个用户特征，包括操作频次特征、账号与设备使用特征、操作指令使用特征以及结合步骤1中的用户权限信息提取到的用户越权操作特征共四类特征，具体可采取：

[0009] 步骤2.1，依据历史日志数据中的“操作时间”字段提取操作频次类特征：将单日内的24小时划分为0点～8点、8点～12点、12点～14点、14点～18点、18点～24点五个时段，8点～12点和14点～18点这两个时段上记作“工作时间”进行后序统计，0点～8点、12点～14点、18点～24点这三个时段记作“休息时间”进行后序统计。然后，通过统计历史日志中，每个用户每日工作时间、休息时间的操作次数，分别对其求取平均值，可以获得工作时间日均操作次数、休息时间日均操作次数两个用户特征。相似地，将周一至周五记作“工作日”进行后序统计，将周六与周日的用户操作作为“休息日”进行后序统计。通过统计历史日志中，每个用户每个工作日、休息日的操作次数，分别对其求取平均值，又可以得到工作日均操作次数、休息日日均操作次数两个用户特征；

[0010] 步骤2.2，依据历史日志数据中的“进程ID”、“系统账号ID”以及“服务器IP”三个有效字段提取账号与设备使用类特征：通过统计历史日志中，每位用户每天所使用过的服务器数目、系统账号数目以及进程ID数目，分别对其按日求取平均值，可以得到该用户平均每日使用的服务器IP数目、平均每日使用的系统账号ID数目、平均每日使用的进程ID数目3个用户特征；

[0011] 步骤2.3，依据历史日志数据中的“命令指令部分”有效字段提取操作指令使用类特征：通过识别历史日志中每个用户的指令类别，统计每个用户在各类指令下的操作频次，并计算出各类指令在用户使用过的全部指令中的占比，从而得到使用的各类指令占比，指令类别包括：Linux指令中文件管理类、文档编辑类、文件传输类、磁盘管理类、磁盘维护类、网络通讯类、系统管理类、系统设置类、备份压缩类、设备管理类指令的占比，使用的Hadoop指令中用户命令、管理命令的占比，使用的SQL指令中数据操作、数据定义、数据控制、事务控制、程序化SQL的占比，以及未识别指令的占比，最后可获得共18个用户特征；

[0012] 步骤2.4，依据历史日志数据中的“命令参数部分”、“命令指令部分”以及“命令中出现的远程连接地址”三个有效字段以及用户权限数据中提取所有用户的权限信息，提取越权操作类特征：通过提取历史日志中每个用户登录其他系统账号、使用高级权限(“root”权限)、远程登录其他服务器的行为信息，并将其与该用户的权限数据进行对照，统计每个用户越权登录他人账号、服务器，以及私自提权为“root”的次数，从而得到越权登录他人账号频次、越权登录他人账号个数、私自提权频次、越权登录其他服务器频次、越权登录其他服务器的个数5个用户特征。

[0013] 步骤3，根据步骤2中提取到的用户特征，使用特征标准化预处理方法对用户特征进行标准化处理，得到标准化后的用户特征，并记录所有的标准化时用到的信息，即所有特征的平均值与标准差，具体可采取：

[0014] 步骤3.1，针对全部用户的每一个特征维度，计算并记录每一个特征值的均值μ与方差σ2；

[0015] 步骤3.2，对每个用户的每个特征x使用公式进行换算，并用所得的x*进行步骤4中模型构建运算。

[0016] 步骤4，使用聚类方法，对步骤3中得到的全部用户特征进行聚类，获得聚类模型，并得到具有不同行为特点的用户分组，具体可采取：

[0017] 步骤4.1，使用K-means聚类算法，选取不同的分组数K，对得到的用户特征集进行聚类，然后计算所有特征向量到其所属类的类中心的欧式距离之和θ，使用所有K值与其对应θ值绘制横轴为K、纵轴为θ的曲线，选取曲线斜率绝对值变化程度最大的一点，该点对应的K*值即为应选择的分组数；

[0018] 步骤4.2，步骤4.2，确定分组数K*后，使用K-means聚类算法对从用户历史日志数据中提取到并进行标准化处理后的用户特征集进行聚类，得到用户的K*个分组。并按照每个用户特征向量的类标记将其分入各个特征向量组，从而得到分组后的用户画像特征库，并保留该K-means聚类算法模型。

[0019] 步骤5，根据步骤4中的用户分组结果，绘制用户特征在每个特征维度上的累计分布图，并根据累计分布图对每个用户分组的典型特点进行分析，从而产生各个用户分组的用户画像，并将违规特征显著的用户组标记为高危用户组，具体可采取：

[0020] 步骤5.1，根据用户特征集的聚类分组结果，绘制每个特征维度上每个用户组特征值的累计分布图，具体方法是：针对每个特征维度构建累积分布图，累计分布图的横坐标X代表了一个阈值，并根据该维度上全部特征值的具体大小选择合适的横轴取值范围；纵坐标y(X)代表累计分布值，记录了所有用户中该特征下取值小于阈值X的用户占比。设此时有K个用户分组，将这K个用户组在该特征下可能的取值标记为x1,x2,…,xK，并且设各分组内用户个数为Ω1,Ω2,…,ΩK，那么该累计分布图中第k组的累计分布曲线纵坐标为其中X为横坐标的取值；num(xk

[0021] 步骤5.2，根据各特征维度的累计分布图，获得各组用户的典型用户画像，具体方法为：首先将步骤2和步骤6中提到的30个特征进行划分，将这30个特征映射至8个用户画像维度，每个特征属于某一个用户画像维度，分别为：工作时间活跃度、休息时间活跃度、工作复杂度、Linux指令使用偏好、Hadoop命令使用偏好、SQL指令使用偏好、账号越权频繁度、服务器越权频繁度；通过分析步骤5.1中获得的各个特征的累积分布图，将每个用户画像维度的分布划分为低、较低、中、较高、高5个等级，表示为L＝{low,medium low,medium,mediumhigh,high}，并简化为L＝{0,1,2,3,4,5}，用以描述各组用户在这8个用户画像维度上的行为特点，进而第k个分组的用户的画像表示成UPk＝{L1,L2,…,L8}，其中Li代表该分组在第i个用户画像维度的等级；

[0022] 步骤5.3，将在账号越权频繁度、服务器越权频繁度这两个画像特征上具有“高”或“较高”数值水平的用户画像标记为高危用户画像，符合该画像的用户组即为高危用户组。

[0023] 步骤6，获取网络安全设备的近期用户日志数据，从其中的用户操作日志有效字段中提取用户实时行为特征，根据步骤4中得到的聚类模型以及各个用户的当前实时特征，对每个用户进行分组匹配，然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度，对是否发出用户异常警告做出决策，具体可采取：

[0024] 步骤6.1，获取网络安全设备最近N周内的用户日志数据，以“周”为单位提取用户特征，并同样利用步骤3中获得的各个特征的平均值和标准差，对这些特征进行标准化处理；

[0025] 步骤6.2，使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像进行匹配，确定每个用户特征的分组标记；

[0026] 步骤6.3，将每位用户最近一周的用户组标记与N周内的历史标记进行对比，其中被标记为高危用户组的次数与周数N的比值为违规度I，N周内用户组标记的变化次数(相邻两周的用户标记不同即为一次变化)与N-1的比值为跳变度H；

[0027] 步骤6.4，基于每位用户的跳变度H与违规度I，设置综合预警阈值，对是否针对跳变度和违规度超过综合阈值的用户发出预警做出决策。

[0028] 进一步，本发明中网络安全设备用户权限数据是指网络安全设备上的包含所有用户的服务器登录权限、系统账号授权以及权限有效期信息在内的数据。

[0029] 进一步，本发明中网络安全设备日志数据是指，例如云平台堡垒机等安全设备记录下的包含用户每日操作的具体信息如时间、服务器IP、使用指令、系统账号等内容的大量相关数据。

[0030] 进一步，本发明中网络安全设备一段时间内的用户日志数据是指150天内的历史日志数据，所述步骤6中近期用户日志数据是指最近一周内的用户日志数据，均为网络安全设备上包含用户操作时的操作时间、所在服务器、所用账号以及操作指令在内的有效字段的日志数据，有效字段是指经过指令解析后的用户日志中包含的与用户行为特征相关的九个字段，包括：操作时间、进程ID、系统账号ID、真实姓名即堡垒机账号ID、通过堡垒机连接的服务器IP、完整命令字符串、命令参数部分、命令指令部分、命令中出现的远程连接地址。

[0031] 进一步，本发明中所提到的用户画像是指对现实世界中用户的一种数据化建模的方法。在步骤5.2中使用UPk＝{L1,L2,…,L8}来表示，使用一组八维的数字来描述用户在活跃度、工作复杂度、指令使用偏好等八个特征维度上的典型特点。

[0032] 进一步，步骤6中提到的跳变度H是用来衡量用户一段时间内分组匹配结果的变化频繁程度；违规度I则用来衡量用户被匹配为高危用户组的频繁程度。这两个值越高，用户发生异常的可能性越大。

[0033] 进一步，分析所用用户日志数据的周数N以及预警的概率阈值由人工设定，也可通过机器学习模型得到。

[0034] 本发明还提供了一种基于网络安全设备日志数据的用户画像分组及行为分析系统，包括数据获取模块、特征提取模块、分析模块、警告和可视化模块四个模块，可分析出云平台用户的行为特征与用户画像，通过警告决策和可视化展示对高危用户发出警告，其特征在于，包括：

[0035] 数据获取模块，从网络安全设备获取用户权限数据与用户日志数据；

[0036] 特征提取模块，从用户权限数据中提取与用户权限相关的服务器权限、系统账号权限，从用户日志数据中提取与用户行为相关的操作频次特征、账号与设备使用特征、操作指令使用特征、越权操作特征；

[0037] 分析模块，基于特征提取模块得到的各项特征使用聚类算法得到用户组分类标签，并根据类标签建立各组用户画像特征库，绘制各个特征维度上的累计分布图，根据图中各组的特征值数值分布特点获得各组的用户画像，并对高危用户画像进行标记；

[0038] 警告和可视化模块，根据分析模块中获得的用户画像，对最近数周的用户特征进行匹配，并计算用户跳变度和违规度，从而对是否发出高危用户预警做出自动决策，并且对各用户分组匹配结果与用户危险程度进行可视化呈现。

[0039] 与现有技术相比，本发明的有益效果是：

[0040] 1.在用户行为分析过程中，只需要网络安全设备上自动记录的用户权限数据和日志数据，不需要其他专门产生的数据，也不需要具体的人工标记，从而该方法具有很低的人力和财力的花销。

[0041] 2.使用的聚类算法的本身结构决定该算法简单容易实现，同时具有低的时间复杂度，降低了计算开销。

[0042] 3.在对异常用户作出预警决策时采用了违规度和跳变度双度量的方法，既提高了结果的可靠性，也实现了对用户异常程度的定量化描述。附图说明

[0043] 图1是本发明的基于网络安全设备日志数据的用户画像分组及行为分析方法框图。

[0044] 图2是本发明的基于网络安全设备日志数据的用户画像分组及行为分析系统框架图。

[0045] 图3是网络安全设备用户权限数据实例。

[0046] 图4是网络安全设备日志数据实例。

[0047] 图5是累计分布图在一个特征维度上的示例。

[0048] 图6是实时分析的可视化结果。

具体实施方式

[0049] 下面结合附图和实施例详细说明本发明的实施方式。

[0050] 本发明中的方法将分为离线建模和在线分析两部分说明，具体包括数据获取过程、特征提取过程、聚类模型建立过程，在线用户行为分析过程。图1是本发明的基于网络安全设备日志数据的用户画像分组及行为分析方法框图。本发明中的系统以框图形式予以说明。图2是本发明的基于网络安全设备日志数据的用户画像分组及行为分析系统框架图。

[0051] 数据获取过程

[0052] 图3是网络安全设备用户权限数据实例。图4是网络安全设备用户日志数据实例。数据获取具体过程如下：

[0053] (1)通过Linux下载指令，以固定格式从数据源下载所需用户权限数据；

[0054] (2)通过Linux下载指令，以固定格式从数据源下载用户日志数据中的所需字段。

[0055] 特征提取过程

[0056] 通过批量数据处理和文本挖掘等技术，参考网络安全设备用户权限信息对网络安全设备日志数据中有效字段进行特征提取。具体特征提取过程如下：

[0057] (1)如图4中用户日志数据所示，依据日志数据中的“操作时间”字段提取操作频次类特征：依据历史日志数据中的“操作时间”字段提取操作频次类特征：将单日内的24小时划分为0点～8点、8点～12点、12点～14点、14点～18点、18点～24点五个时段，8点～12点和14点～18点这两个时段上记作“工作时间”进行后序统计，0点～8点、12点～14点、18点～24点这三个时段记作“休息时间”进行后序统计。然后，通过统计历史日志中，每个用户每日工作时间、休息时间的操作次数，分别对其求取平均值，可以获得工作时间日均操作次数、休息时间日均操作次数两个用户特征。相似地，将周一至周五记作“工作日”进行后序统计，将周六与周日的用户操作作为“休息日”进行后序统计。通过统计历史日志中，每个用户每个工作日、休息日的操作次数，分别对其求取平均值，又可以得到工作日均操作次数、休息日日均操作次数两个用户特征；

[0058] (2)依据历史日志数据中的“进程ID”、“系统账号ID”以及“服务器IP”三个有效字段提取账号与设备使用类特征：对通过统计历史日志中，每位用户每天所使用过的服务器数目、系统账号数目以及进程ID数目，分别对其按日求取平均值，可以得到该用户平均每日使用的服务器IP数目、平均每日使用的系统账号ID数目、平均每日使用的进程ID数目3个用户特征；

[0059] (3)依据历史日志数据中的“命令指令部分”有效字段提取操作指令使用类特征：通过识别历史日志中每个用户的指令类别，统计每个用户在各类指令下的操作频次，并计算出各类指令在用户使用过的全部指令中的占比，从而得到使用的各类指令占比，指令类别包括：Linux指令中文件管理类、文档编辑类、文件传输类、磁盘管理类、磁盘维护类、网络通讯类、系统管理类、系统设置类、备份压缩类、设备管理类指令的占比，使用的Hadoop指令中用户命令、管理命令的占比，使用的SQL指令中数据操作、数据定义、数据控制、事务控制、程序化SQL的占比，以及未识别指令的占比，最后可获得共18个用户特征；

[0060] (4)依据历史日志数据中的“命令参数部分”、“命令指令部分”以及“命令中出现的远程连接地址”三个有效字段提取越权操作类特征：通过提取历史日志中每个用户登录其他系统账号、使用高级权限(“root”权限)、远程登录其他服务器的行为信息，并将其与该用户的权限数据进行对照，统计每个用户越权登录他人账号、服务器，以及私自提权为“root”的次数，从而得到越权登录他人账号频次、越权登录他人账号个数、私自提权频次、越权登录其他服务器频次、越权登录其他服务器的个数5个用户特征；

[0061] 聚类模型建立过程

[0062] 具体建立过程如下：

[0063] (1)根据用户特征集的聚类分组结果，绘制每个特征维度上每个用户组特征值的累计分布图，选取其中一个特征维度上的累计分布图为例，如图5所示；

[0064] (2)根据各特征维度的累计分布图，获得各组用户的典型用户画像。典型行为分析表如表1所示，最终获得的各组用户画像如表2所示。

[0065] 表1

[0066] 行为特征第一类第二类第三类第四类第五类第六类第七类工作时间活跃度中低中中高低低
休息时间活跃度低低低低高低低
工作复杂度低低中高中低低
Linux指令使用偏好低低高低低低低
Hadoop命令使用偏好无低较低低低高无
SQL指令使用偏好低低低低低低高
越权登录他人账号频繁度较高低低高低低低
越权登录其他服务器频繁度高低低较高低低低

[0067] 表2

[0068]用户类群用户画像描述
第一类 UP1＝{3,1,1,1,0,1,4,5}
第二类 UP2＝{1,1,1,1,1,1,1,1}
第三类 UP3＝{3,1,3,5,2,1,1,1}
第四类 UP4＝{3,1,5,1,1,1,5,4}
第五类 UP5＝{5,5,3,1,1,1,1,1}
第六类 UP6＝{1,1,1,1,5,1,1,1}
第七类 UP7＝{1,1,1,1,0,5,1,1}

[0069] 在线用户行为分析过程

[0070] 获取网络安全设备的近期用户日志数据，从其中的用户操作日志有效字段中提取用户实时行为特征，根据用户画像对各个用户的当前特征进行分组匹配，然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度，对是否发出用户异常警告做出决策，具体过程如下：

[0071] (1)获取网络安全设备最近N周内的用户日志数据，以“周”为单位提取用户特征；

[0072] (2)使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像进行匹配，确定每个用户特征的分组标记；

[0073] (3)将每位用户最近一周的用户组标记与N周内的历史标记进行对比，其中被标记为高危用户组的次数与周数N的比值为违规度I，N周内用户组标记的变化次数(相邻两周的用户标记不同即为一次变化)与N-1的比值为跳变度H；

[0074] (4)基于每位用户的跳变度H与违规度I，设置综合预警阈值，对是否针对跳变度和违规度超过综合阈值的用户发出预警做出决策。

[0075] 图6是用户分组匹配结果在服务器上在线运行的可视化结果(用户真实姓名不予展示)，每个被标记为“1”(label字段，即每行的倒数第二列)的用户都是具有较高风险的异常用户。

[0076] 综上，本发明从网络安全设备用户日志等数据中提取特征，对特征进行预处理和数据分析，获得特征之间以及特征与用户行为之间的关系，根据用户特征构建用户分组的聚类模型，根据聚类模型建立用户画像，并根据用户特征和用户画像的匹配结果决定用户是否存在行为异常；本发明用户画像分组及行为分析方法和系统，实现简单、计算复杂度低，可以有效减少用户日志中行为分析的计算资源开销，不需要任何额外标记，仅需要网络安全设备自动记录的数据，具有实际应用的优势，提供了具有不同行为模式的用户分组方法和画像匹配方法，同时对用户行为是否存在异常进行了决策性判断。

标题	发布/更新时间	阅读量
城市地下空间三维信息可视化系统及方法	2020-05-11	534
一种基于物联网的土地资源信息管理系统	2020-05-11	498
一种实现商品交易综合信息在线管理系统	2020-05-16	1035
一种刚构桥施工全过程的结构监测分析管理系统及方法	2020-05-14	930
一种智慧矿山系统	2020-05-15	774
决策流程的构建方法、装置以及存储介质	2020-05-16	18
一种临床智能决策平台	2020-05-12	1031
基于电网故障情况下调度端关键信息抽取的辅助决策方法及系统	2020-05-12	127
一种基于多维度数据流的反欺诈决策模型构建方法	2020-05-15	414
一种基于改进随机森林算法的乳腺癌预测系统	2020-05-17	140