专利汇可以提供一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统,主要步骤为:1)从网络安全设备用户日志等数据中提取特征;2)对特征进行预处理和数据分析,获得特征之间以及特征与用户行为之间的关系;3)根据用户特征构建用户分组的聚类模型;4)根据聚类模型建立用户画像,并根据用户特征和用户画像的匹配结果决定用户是否存在行为异常;本发明实现简单、计算复杂度低,可以有效减少用户日志中行为分析的计算资源开销,不需要任何额外标记,仅需要网络安全设备自动记录的数据,具有实际应用的优势,提供了具有不同行为模式的用户分组方法和画像匹配方法,同时对用户行为是否存在异常进行了决策性判断。,下面是一种基于网络安全设备日志数据的用户画像分组及行为分析方法和系统专利的具体信息内容。
1.一种基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,包括:
步骤1,以网络安全设备用户权限数据为数据源,从用户权限数据中提取所有用户的权限信息,包括各用户允许登录的服务器IP以及各用户授权使用的系统账号ID;
步骤2,以网络安全设备一段时间内的用户日志数据为数据源,从用户操作日志的有效字段中提取30个用户特征,包括操作频次特征、账号与设备使用特征、操作指令使用特征以及结合步骤1中的用户权限信息提取到的用户越权操作特征共四类特征;
步骤3,根据步骤2中提取到的用户特征,使用特征标准化预处理方法对用户特征进行标准化处理,得到标准化后的用户特征,并记录所有的标准化时用到的信息,即所有特征的平均值与标准差;
步骤4,使用聚类方法,对步骤3中得到的全部用户特征进行聚类,获得聚类模型,并得到具有不同行为特点的用户分组;
步骤5,根据步骤4中的用户分组结果,绘制用户特征在每个特征维度上的累计分布图,并根据累计分布图对每个用户分组的典型特点进行分析,从而产生各个用户分组的用户画像,并将违规特征显著的用户组标记为高危用户组;
步骤6,获取网络安全设备的近期用户日志数据,从其中的用户操作日志有效字段中提取用户实时行为特征,根据步骤4中得到的聚类模型以及各个用户的当前实时特征,对每个用户进行分组匹配,然后结合用户的历史匹配结果计算每位用户的跳跃度及违规度,对是否发出用户异常警告做出决策。
2.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤1中,网络安全设备用户权限数据是指网络安全设备上的包含所有用户的服务器登录权限、系统账号授权以及权限有效期信息在内的数据。
3.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤2中网络安全设备一段时间内的用户日志数据是指150天内的历史日志数据,所述步骤6中近期用户日志数据是指最近一周内的用户日志数据,均为网络安全设备上包含用户操作时的操作时间、所在服务器、所用账号以及操作指令在内的有效字段的日志数据,有效字段是指经过指令解析后的用户日志中包含的与用户行为特征相关的九个字段,包括:操作时间、进程ID、系统账号ID、真实姓名即堡垒机账号ID、通过堡垒机连接的服务器IP、完整命令字符串、命令参数部分、命令指令部分、命令中出现的远程连接地址。
4.根据权利要求1或3所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤2和步骤6中,特征提取包括:
(1)依据用户日志数据中的“操作时间”字段提取操作频次类特征:将单日内的24小时划分为0点~8点、8点~12点、12点~14点、14点~18点、18点~24点五个时段,8点~12点和
14点~18点这两个时段上记作“工作时间”进行后序统计,0点~8点、12点~14点、18点~24点这三个时段记作“休息时间”进行后序统计;然后,通过统计历史日志中,每个用户每日工作时间、休息时间的操作次数,分别对其求取平均值,获得工作时间日均操作次数、休息时间日均操作次数两个用户特征;采取同样方法,将周一至周五记作“工作日”进行后序统计,将周六与周日的用户操作作为“休息日”进行后序统计;通过统计历史日志中,每个用户每个工作日、休息日的操作次数,分别对其求取平均值,得到工作日均操作次数、休息日日均操作次数两个用户特征;
(2)依据用户日志数据中的“进程ID”、“系统账号ID”以及“服务器IP”三个有效字段提取账号与设备使用类特征:通过统计历史日志中,每位用户每天所使用过的服务器数目、系统账号数目以及进程ID数目,分别对其按日求取平均值,得到该用户平均每日使用的服务器IP数目、平均每日使用的系统账号ID数目、平均每日使用的进程ID数目3个用户特征;
(3)依据用户日志数据中的“命令指令部分”有效字段提取操作指令使用类特征:通过识别历史日志中每个用户的指令类别,统计每个用户在各类指令下的操作频次,并计算出各类指令在用户使用过的全部指令中的占比,从而得到使用的各类指令占比,指令类别包括:Linux指令中文件管理类、文档编辑类、文件传输类、磁盘管理类、磁盘维护类、网络通讯类、系统管理类、系统设置类、备份压缩类、设备管理类指令的占比,使用的Hadoop指令中用户命令、管理命令的占比,使用的SQL指令中数据操作、数据定义、数据控制、事务控制、程序化SQL的占比以及未识别指令的占比,最后获得共18个用户特征;
(4)依据用户日志数据中的“命令参数部分”、“命令指令部分”以及“命令中出现的远程连接地址”三个有效字段以及用户权限数据中提取所有用户的权限信息,提取越权操作类特征:通过提取历史日志中每个用户登录其他系统账号、使用高级权限即“root”权限、远程登录其他服务器的行为信息,并将其与该用户的权限数据进行对照,统计每个用户越权登录他人账号、服务器,以及私自提权为“root”的次数,从而得到越权登录他人账号频次、越权登录他人账号个数、私自提权频次、越权登录其他服务器频次、越权登录其他服务器的个数5个用户特征。
5.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤3中,特征标准化具体包括:
步骤3.1,针对全部用户的每一个特征维度,计算并记录每一个特征值的均值μ与方差σ2;
步骤3.2,对每个用户的每个特征x使用公式 进行换算,并用所得的x*进行步骤4中模型构建运算。
6.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤4具体包括:
步骤4.1,使用K-means聚类算法,选取不同的分组数K,对得到的用户特征集进行聚类,然后计算所有特征向量到其所属类的类中心的欧式距离之和θ,使用所有K值与其对应θ值绘制横轴为K、纵轴为θ的曲线,选取曲线斜率绝对值变化程度最大的一点,该点对应的K*值即为应选择的分组数;
步骤4.2,确定分组数K*后,使用K-means聚类算法对从用户历史日志数据中提取到并进行标准化处理后的用户特征集进行聚类,得到用户的K*个分组,并按照每个用户特征向量的类标记将其分入各个特征向量组,从而得到分组后的用户画像特征库,并保留该K-means聚类算法模型。
7.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤5具体包括:
步骤5.1,根据用户特征集的聚类分组结果,绘制每个特征维度上每个用户组特征值的累计分布图,具体方法是:针对每个特征维度构建累积分布图,累计分布图的横坐标X代表了一个阈值,并根据该维度上全部特征值的具体大小选择合适的横轴取值范围;纵坐标y(X)代表累计分布值,记录了所有用户中该特征下取值小于阈值X的用户占比;设此时有K个用户分组,将这K个用户组在该特征下可能的取值标记为x1,x2,…,xK,并且设各分组内用户个数为Ω1,Ω2,…,ΩK,那么该累计分布图中第k组的累计分布曲线纵坐标为其中X为横坐标的取值;num(xk
首先将步骤2和步骤6中提到的30个特征进行划分,将这30个特征映射至8个用户画像维度,每个特征属于某一个用户画像维度,分别为:工作时间活跃度、休息时间活跃度、工作复杂度、Linux指令使用偏好、Hadoop命令使用偏好、SQL指令使用偏好、账号越权频繁度、服务器越权频繁度;通过分析步骤5.1中获得的各个特征的累积分布图,将每个用户画像维度的分布划分为低、较低、中、较高、高5个等级,表示为L={low,medium low,medium,medium high,high},并简化为L={0,1,2,3,4,5},用以描述各组用户在这8个用户画像维度上的行为特点,进而第k个分组的用户的画像表示成UPk={L1,L2,…,L8},其中Li代表该分组在第i个用户画像维度的等级;
步骤5.3,将在账号越权频繁度、服务器越权频繁度这两个画像特征上具有“高”或“较高”数值水平的用户画像标记为高危用户画像,符合该画像的用户组即为高危用户组。
8.根据权利要求1所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,所述步骤6具体包括:
步骤6.1,获取网络安全设备最近N周内的用户日志数据,以“周”为单位提取用户特征,并同样利用步骤3中获得的各个特征的平均值和标准差,按相同方法对这些特征进行标准化处理;
步骤6.2,使用步骤4中获得的K-means聚类算法模型对每个用户特征向量与用户画像进行匹配,确定每个用户特征的分组标记;
步骤6.3,将每位用户最近一周的用户组标记与N周内的历史标记进行对比,其中被标记为高危用户组的次数与周数N的比值为违规度I,N周内用户组标记的变化次数与N-1的比值为跳变度H,用户在相邻两周的用户组标记不同即为一次变化;
步骤6.4,基于每位用户的跳变度H与违规度I,设置综合预警阈值,对是否针对跳变度和违规度超过综合阈值的用户发出预警做出决策。
9.根据权利要求8所述基于网络安全设备日志数据的用户画像分组及行为分析方法,其特征在于,分析所用用户日志数据的周数N以及预警的概率阈值由人工设定,或通过机器学习模型得到。
10.一种基于网络安全设备日志数据的用户画像分组及行为分析系统,包括数据获取模块、特征提取模块、分析模块、警告和可视化模块四个模块,可分析出云平台用户的行为特征与用户画像,通过警告决策和可视化展示对高危用户发出警告,其特征在于:
数据获取模块,从网络安全设备获取用户权限数据与用户日志数据;
特征提取模块,从用户权限数据中提取与用户权限相关的服务器权限、系统账号权限,从用户日志数据中提取与用户行为相关的操作频次特征、账号与设备使用特征、操作指令使用特征、越权操作特征;
分析模块,基于特征提取模块得到的各项特征使用聚类算法得到用户组分类标签,并根据类标签建立各组用户画像特征库,绘制各个特征维度上的累计分布图,根据图中各组的特征值数值分布特点获得各组的用户画像,并对高危用户画像进行标记;
警告和可视化模块,根据分析模块中获得的用户画像,对最近数周的用户特征进行匹配,并计算用户跳变度和违规度,从而对是否发出高危用户预警做出自动决策,并且对各用户分组匹配结果进行可视化呈现。
方法和系统
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
城市地下空间三维信息可视化系统及方法 | 2020-05-11 | 534 |
一种基于物联网的土地资源信息管理系统 | 2020-05-11 | 498 |
一种实现商品交易综合信息在线管理系统 | 2020-05-16 | 1035 |
一种刚构桥施工全过程的结构监测分析管理系统及方法 | 2020-05-14 | 930 |
一种智慧矿山系统 | 2020-05-15 | 774 |
决策流程的构建方法、装置以及存储介质 | 2020-05-16 | 18 |
一种临床智能决策平台 | 2020-05-12 | 1031 |
基于电网故障情况下调度端关键信息抽取的辅助决策方法及系统 | 2020-05-12 | 127 |
一种基于多维度数据流的反欺诈决策模型构建方法 | 2020-05-15 | 414 |
一种基于改进随机森林算法的乳腺癌预测系统 | 2020-05-17 | 140 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。