专利汇可以提供融合频繁项集与随机森林算法的Android恶意应用检测方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种融合频繁项集(Apriori) 算法 与 随机森林 算法的安卓(Android)恶意检测方法,涉及信息处理技术领域。对Android应用样本进行反编译,根据从各反编译文件中提取权限和函数调用静态特征,以获得样本集中权限之间的关联关系;基于Apriori算法挖掘出恶意样本和正常样本的频繁3-项集,进而结合敏感应用程序编程 接口 (Application Programming Interface,API)函数调用生成特征;采用随机森林分类器实现对特征的学习和分类,从而实现Android恶意应用检测。利用本发明进行Android应用 软件 的恶意检测,系统资源消耗低,且具有非常高的检测准确率。,下面是融合频繁项集与随机森林算法的Android恶意应用检测方法及系统专利的具体信息内容。
1.一种融合频繁项集算法与随机森林算法的安卓恶意应用检测方法,其特征在于,包括以下步骤:对安卓Android应用软件进行批量反编译获得样本集,得到应用软件权限和敏感应用程序编程接口API函数静态特征;挖掘权限特征的频繁项集对权限特征作降维处理,得到权限的频繁3-项集,以获得样本集中权限之间的关联关系;挖掘出恶意样本和正常样本的频繁3-项集,分别将恶意样本和正常样本的频繁3-项集其与敏感API函数一起作为特征构建特征集,采用信息增益算法对特征集中的特征属性进行筛选和评分,提取重要特征,构建与之对应的向量空间;采用随机森林分类器对向量空间进行学习和分类检测,对正常样本和恶意样本的向量空间进行正常或恶意的属性标记。
2.根据权利要求1所述方法,其特征在于,特征提取之前使用静态分析工具对应用软件进行反编译,得到包含资源文件res、第三方软件开发包的so文件lib、语法文件smali和应用程序描述文件AndroidManifest.xml中包含所述应用软件的各种资源文件、源代码、和其它静态代码特征。
3.根据权利要求1所述方法,其特征在于,采用编程语言python脚本提取特征,解析AndroidManifest.xml文件中提取申请的所有权限获得权限特征,使用python中的方法函数---os.walk()遍历所有smali文件,根据正则匹配方法提取样本集中所有样本的敏感API函数。
4.根据权利要求1所述方法,其特征在于,挖掘权限特征的频繁3-项集具体包括:分别从恶意样本或正常样本中提取权限构建权限集;挖掘频繁权限集的1-项集:计算权限集中每个权限的支持度S,对不满足最小支持度min_s的频繁1-项集进行剪枝,得到候选集L1,再对L1中的元素进行连接;将连接后的候选集作为新的2-项集,挖掘频繁2-项集:对不满足最小支持度min_s的频繁2-项集进行剪枝,形成新的候选集L2,重复进行,直到得到频繁3-项集。
5.根据权利要求1所述方法,其特征在于,采用信息增益(InformationGain,IG)算法具体包括,根据样本集中正常软件或恶意软件分别出现的概率P(Ci),按照公式:
计算样本集的信息熵H(C),按照公式:
计算第i个特征的条件熵H(Y|Xi),根据公式IGi=H(C)-H(Y|
Xi)计算第i个特征的IG值,IG值越大表明相关程恶意样本和正常样本的频繁3-项集度越大,根据相关程度保留重要特征,将重要特征与系统中每个应用软件进行匹配,分别构建与之对应的向量空间。
6.根据权利要求5所述方法,其特征在于,构建向量空间具体包括,将IG值为0的特征剔除,而将其余值不为0的特征保留作为重要特征,构建包含应用软件样本不同的特征向量(x1,x2,…,xn)的特征集X,调用公式ν:s→{0,1}|X|,根据集合X中的特征向量构建向量空间ν,其中,s表示某个应用软件,ν中每一维与X中某一特征相对应,如果s包含该某一特征,则向量空间ν中与该特征对应的标识值为1,否则为0。
7.一种融合频繁项集算法与随机森林算法的安卓恶意应用检测系统,包括:特征提取模块、特征处理模块和随机森林分类算法模块,其特征在于,特征提取模块对经过批量反编译的Android应用软件进行特征提取,得到应用软件权限和敏感API函数静态特征;特征处理模块挖掘权限特征的频繁项集,对权限特征作降维处理,得到权限的频繁3-项集,以获得样本集中权限之间的关联关系,挖掘出恶意样本和正常样本的频繁3-项集,将其与敏感API函数一起作为特征构建特征集,采用信息增益算法对特征集中的特征属性进行筛选和评分,提取重要特征,构建与之对应的向量空间;随机森林分类算法模块对向量空间进行学习和分类检测,采用随机森林分类器对正常样本和恶意样本的向量空间进行正常或恶意的属性标记。
8.根据权利要求7所述的检测系统,其特征在于,使用静态分析工具对应用软件进行反编译,得到包含res、lib、smali和AndroidManifest.xml的文件,文件中包含所述应用软件的各种资源文件、源代码、和其它静态代码特征。
9.根据权利要求7所述的检测系统,其特征在于,采用编程语言python脚本提取特征,解析AndroidManifest.xml文件中提取申请的所有权限获得权限特征,使用os.walk()函数遍历所有smali文件,根据正则匹配方法提取各样本的敏感API函数。
10.根据权利要求7所述的检测系统,其特征在于,挖掘权限特征的频繁3-项集具体包括:分别从恶意样本或正常样本中提取权限构建权限集;挖掘频繁权限集的1-项集:计算权限集中每个权限的支持度S,对不满足最小支持度min_s的频繁1-项集进行剪枝,得到候选集L1,再对L1中的元素进行连接;将连接后的候选集作为新的样本集,挖掘频繁2-项集:对不满足最小支持度min_s的频繁2-项集进行剪枝,形成新的候选集L2,重复进行,直到得到频繁3-项集。
11.根据权利要求7所述的检测系统,其特征在于,采用IG算法具体包括,计算特征的熵值与其条件熵的差值得到该特征的IG值,根据样本集中正常软件或恶意软件分别出现的概率P(Ci),按照公式: 计算样本集的信息熵H(C),按照公式:
计算第i个特征的条件熵H(Y|Xi),根据公式IGi=H(C)-H(Y|
Xi)计算第i个特征的IG值,IG值越大表明相关程恶意样本和正常样本的频繁3-项集度越大,根据相关程度保留重要特征,将重要特征与系统中每个应用软件进行匹配,分别构建与之对应的向量空间。
12.根据权利要求11所述的检测系统,其特征在于,IG值越大表明相关程度越大,根据相关程度保留重要特征,将重要特征与系统中每个应用软件进行匹配,分别构建与之对应的向量空间,构建向量空间具备包括,将IG值为0的特征剔除,而将其余值不为0的特征保留作为重要特征,构建包含应用软件样本不同的特征向量(x1,x2,…,xn)的特征集X,调用公式ν:s→{0,1}|X|,根据集合X中的特征向量构建向量空间ν,其中,s表示某个应用软件,ν中每一维与X中某一特征相对应,如果s包含该某一特征,则向量空间ν中与该特征对应的标识值为1,否则为0。
及系统
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
金钱处理装置用的操作指南显示系统、程序及记录介质 | 2020-05-11 | 532 |
一种恶意软件处理方法与装置 | 2020-05-08 | 809 |
经由应用编程接口从一步认证自动升级到两步认证 | 2020-05-11 | 304 |
将数据记录上传到云存储库 | 2020-05-11 | 747 |
基于AM软件的电气工程数据自动化处理系统 | 2020-05-08 | 53 |
一种选区熔化成形纤维增强复合材料的增材制造方法 | 2020-05-08 | 36 |
数据播放方法、装置、电子设备及存储介质 | 2020-05-11 | 291 |
神经网络的架构优化训练 | 2020-05-11 | 417 |
一种应用程序处理方法、装置、存储介质及电子设备 | 2020-05-08 | 507 |
一种串口通信的兼容控制系统及其方法 | 2020-05-08 | 265 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。