首页 / 专利库 / 电脑零配件 / 计算机系统 / 软件 / 分类规则库构建方法、应用分类方法及装置

分类规则库构建方法、应用分类方法及装置

阅读:1发布:2020-11-14

专利汇可以提供分类规则库构建方法、应用分类方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 提供一种分类规则库构建方法,应用分类方法及装置,应用分类方法包括:将待分类应用的 属性信息 与分类规则库中的分类规则匹配,确定待分类应用的类别。所述分类规则库构建方法为:确定多个第一已知应用中每个已知应用的类别和属性信息,所述属性信息包括应用描述信息和/或代码描述信息;构建分类规则库,其中每条分类规则包括属性信息及所述属性信息对应的类别。本发明采用内容种类丰富的应用描述信息和/或代码描述信息作为属性信息构建的分类规则库,分类规则丰富多样,在分类时,待分类应用的内容种类丰富的属性信息中任一种信息匹配到分类规则就可实现对待分类应用的分类,提高了待分类应用被分类的可能性,提高了分类 覆盖 面。,下面是分类规则库构建方法、应用分类方法及装置专利的具体信息内容。

1.一种分类规则库构建方法,其特征在于,包括:
确定多个第一已知应用中每个已知应用的类别和属性信息,所述属性信息包括应用描述信息和/或代码描述信息;
构建分类规则库,其中每条分类规则包括属性信息及所述属性信息对应的类别。
2.根据权利要求1所述的分类规则库构建方法,其特征在于,所述方法还包括:
若所述应用描述信息为市场应用评论,所述分类规则库还包括每个有效词在每个类别上的权重,某个有效词在某个类别上的权重根据所述某个有效词在所述某个类别的所有市场应用评论中出现的次数和所述某个有效词对应的类别个数确定,其中,所述有效词为任一类别的第一已知应用的所有市场应用评论所包含的关键词,所述某个有效词对应的类别个数为市场应用评论中出现所述某个有效词的第一已知应用的类别的个数。
3.根据权利要求1所述的分类规则库构建方法,其特征在于,若某个属性信息对应多个类别,则当各个类别对应的第一已知应用的个数之间的方差大于预设阈值时,所述某个属性信息对应的类别具体为对应的第一已知应用个数最多的类别。
4.根据权利要求1或2或3所述的分类规则库构建方法,其特征在于,
所述分类规则库还包括每条分类规则的优先级,所述优先级根据所述分类规则对应的属性信息对多个第二已知应用的分类准确率确定。
5.根据权利要求4中任一权利要求所述的分类规则库构建方法,其特征在于,所述应用描述信息包括应用程序名、包名、证书、图标和市场应用评论中至少一种;
所述代码描述信息包括类名、方法名、内置sdk、敏感字符串和库调用关系中至少一种。
6.一种分类规则库构建装置,其特征在于,包括:
确定模,用于确定多个第一已知应用中每个已知应用的类别和属性信息,所述属性信息包括应用描述信息和/或代码描述信息;
构建模块,用于构建分类规则库,其中每条分类规则包括属性信息及所述属性信息对应的类别。
7.一种应用分类方法,其特征在于,包括:
将待分类应用的属性信息与分类规则库中的分类规则匹配,确定待分类应用的类别,所述分类规则库为根据权利要求1-5中任一权利要求所述的分类规则库构建方法构建而得。
8.一种应用分类装置,其特征在于,包括:
分类模块,用于将待分类应用的属性信息与分类规则库中的分类规则匹配,确定待分类应用的类别,所述分类规则库为根据权利要求1-5中任一权利要求所述的分类规则库构建方法构建而得。
9.一种计算机设备,其特征在于,包括:
处理器;
以及用于存放计算机程序存储器,所述处理器用于执行所述存储器上所存放的计算机程序,以实现如权利要求1-5所述的分类规则库构建方法和权利要求7所述的应用分类方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5所述的分类规则库构建方法和权利要求
7所述的应用分类方法。

说明书全文

分类规则库构建方法、应用分类方法及装置

技术领域

[0001] 本发明实施例涉及分类技术领域,尤其涉及一种分类规则库构建方法、应用分类方法及装置。

背景技术

[0002] 应用的类别可用于进行分析获取相关数据服务大众,例如,利用应用的类别进行用户分析,可以获取应用的用户的偏好,推断应用的用户属性,如:性别、职业、年龄和所处地域等,从而构建用户画像,用于网络购物时的推荐或犯罪调查中嫌疑人员信息的获取。
[0003] 应用市场上应用的类别一般为上架应用时在应用分类目录人工为应用选择,而对于没有上架的类别则需要通过一定的方法进行应用类别确定。常见的方法为基于应用常见的单一的属性信息,例如,应用名称,构建分类模型进行类别确定。该方式分类所依据的元素单一,又由于应用名称命名的自由度极高,导致很多应用无法确定类别。

发明内容

[0004] 本发明实施例提供一种分类规则库构建方法、应用分类方法及装置,用以解决现有的应用分类方法存在分类覆盖面有限的问题,难以实现对所有应用市场上的所有应用分类的问题。
[0005] 本发明实施例提供一种分类规则库构建方法,包括:确定多个第一已知应用中每个已知应用的类别和属性信息,所述属性信息包括应用描述信息和/或代码描述信息;构建分类规则库,其中每条分类规则包括属性信息及所述属性信息对应的类别。
[0006] 本发明实施例提供一种分类规则库构建装置,包括:确定模,用于确定多个第一已知应用中每个已知应用的类别和属性信息,所述属性信息包括应用描述信息和/或代码描述信息;构建模块,用于构建分类规则库,其中每条分类规则包括属性信息及所述属性信息对应的类别。
[0007] 本发明实施例提供一种应用分类方法,包括:将待分类应用的属性信息与分类规则库中的分类规则匹配,确定待分类应用的类别,所述分类规则库为根据上述分类规则库构建方法构建而得。
[0008] 本发明实施例提供一种应用分类装置,包括:分类模块,用于将待分类应用的属性信息与分类规则库中的分类规则匹配,确定待分类应用的类别,所述分类规则库为根据上述分类规则库构建方法构建而得。
[0009] 本发明实施例提供一种计算机设备,包括:处理器;以及用于存放计算机程序存储器,所述处理器用于执行所述存储器上所存放的计算机程序,以实现如上所述的分类规则库构建方法和应用分类方法。
[0010] 本发明实施例提供一种计算机存储介质,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的分类规则库构建方法和应用分类方法。
[0011] 本发明实施例提供的分类规则库构建方法、应用分类方法及装置,通过采用内容种类丰富的应用描述信息和/或代码描述信息作为属性信息用于构建分类规则库,使得分类规则库的分类规则丰富多样,进而在对待分类应用进行分类时,待分类应用的内容种类丰富的属性信息中任一种信息匹配到分类规则库中的分类规则就可实现对待分类应用的分类,提高了待分类应用被分类的可能性,进而提高了分类覆盖面。附图说明
[0012] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013] 图1为本发明方法实施例一提供的分类规则库构建方法的流程图
[0014] 图2为本发明方法实施例二提供的分类规则库构建方法的流程图;
[0015] 图3为本发明方法实施例三提供的分类规则库构建方法的流程图;
[0016] 图4为本发明方法实施例四提供的分类规则库构建方法的流程图;
[0017] 图5为本发明方法实施例五提供的分类规则库构建方法的流程图;
[0018] 图6为本发明方法实施例七提供的应用分类方法的流程图;
[0019] 图7为本发明方法实施例八提供的应用分类方法的流程图;
[0020] 图8为本发明方法实施例九提供的应用分类方法的流程图;
[0021] 图9为本发明装置实施例一提供的分类规则库构建方法的示意图;
[0022] 图10为本发明装置实施例二提供的分类规则库构建方法的示意图;
[0023] 图11为本发明装置实施例三提供的分类规则库构建方法的示意图;
[0024] 图12为本发明装置实施例四提供的分类规则库构建方法的示意图;
[0025] 图13为本发明装置实施例五提供的分类规则库构建方法的示意图;
[0026] 图14为本发明装置实施例七提供的应用分类方法的示意图;
[0027] 图15为本发明装置实施例八提供的应用分类方法的示意图;
[0028] 图16为本发明装置实施例九提供的应用分类方法的示意图。

具体实施方式

[0029] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0030] 图1为本发明方法实施例一提供的一种分类规则库构建方法的流程图。如图1所示,在本实施例中,该方法包括:
[0031] 步骤S101、确定多个第一已知应用中每个已知应用的类别和属性信息,属性信息包括应用描述信息和/或代码描述信息;
[0032] 在本实施例中,第一已知应用为类别已知的应用,可以从各应用市场爬取。应用描述信息指应用基本属性信息或对应用的功能、内容或开发者的描述信息,是从用户对这个应用的可见认知进行刻画,例如为应用程序名、包名、证书、图标和市场应用评论等。代码描述信息为从应用代码层面提取的能够对一个应用的进行表征的信息,例如为在开发第一已知应用时使用的类名、方法名、内置sdk、敏感字符串和库调用关系等。属性信息可以从若干种应用描述信息和/或若干种代码描述信息中选择。例如,属性信息可以包括:程序名、包名、证书、类名和库调用关系。
[0033] 步骤S103、构建分类规则库,其中每条分类规则包括属性信息及属性信息对应的类别。
[0034] 在本实施例中,对于每个第一已知应用,将属性信息包含的每种应用描述信息或代码描述信息与该第一已知应用的类别形成映射关系得到多条分类规则。例如,第一已知应用,属性信息包括微信(应用程序名)、com.tencent.mm(包名)和CN=Tencent,OU=Tencent Guangzhou Research and Development Center,O=Tencent Technology(Shenzhen)Company Limited,L=Shenzhen,ST=Guangdong,C=86(证书),对应的类别为社交通讯,则形成三条分类规则:微信-社交通讯,com.tencent.mm-社交通讯,CN=Tencent,OU=Tencent Guangzhou Research and Development Center,O=Tencent Technology(Shenzhen)Company Limited,L=Shenzhen,ST=Guangdong,C=86-社交通讯。
[0035] 当属性信息为市场应用评论时,可以通过对每个第一已知应用的市场应用评论内容进行分词,取出有含义的词作为关键词,得到一组关键词。其中,一组关键词中不存在重复词。将这组关键词和该第一已知应用的类别形成映射关系得到一条分类规则。该第一已知应用的市场应用评论为用户对该第一已知应用的所有反馈信息的总和,即一个第一已知应用对应一份市场应用评论。分词方法和策略可从现有分词方法选取,在此不详述。分类规则形成,具体地,例如,第一已知应用对应的一组关键词为高清、快速、资源丰富,对应类别为视频播放,则分类规则为(高清、快速、资源丰富)-视频播放。
[0036] 将各第一已知应用对应的分类规则一起用于形成分类规则库。
[0037] 本发明方法实施例一通过采用内容种类丰富的应用描述信息和/或代码描述信息作为属性信息用于构建分类规则库,使得分类规则库的分类规则丰富多样,进而在对待分类应用进行分类时,待分类应用的内容种类丰富的属性信息中任一种信息匹配到分类规则库中的分类规则就可实现对待分类应用的分类,提高了待分类应用被分类的可能性,进而提高了分类覆盖面。
[0038] 图2为本发明方法实施例二提供的一种分类规则库构建方法的流程图。如图2所示,在本实施例中,在方法实施例一的基础上,该方法还包括:
[0039] 步骤S205、若应用描述信息为市场应用评论,分类规则库还包括每个有效词在每个类别上的权重,某个有效词在某个类别上的权重根据某个有效词在某个类别的所有市场应用评论中出现的次数和某个有效词对应的类别个数确定,其中,有效词为任一类别的第一已知应用的所有市场应用评论所包含的关键词,某个有效词对应的类别个数为市场应用评论中出现某个有效词的第一已知应用的类别的个数。
[0040] 在本实施例中,每个第一已知应用对应一个类别和一份市场应用评论。某个类别的所有市场应用评论为该类别的各第一已知应用对应市场应用评论的总和。对每个类别的所有市场应用评论进行分词,得到一系列词汇,取出有含义的词汇作为关键词,即有效词,从而得到所有有效词。统计每个有效词在每个类别的所有市场应用评论中出现的次数,并确定所述出现的次数不为零的类别,且统计所述出现的次数不为零的类别的个数作为该有效词对应的类别个数。
[0041] 每个有效词在每个类别上的权重可以根据TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)计算。其中,词频TF为某个有效词在某个类别对应市场评论中出现的频率,TF值越大,表明该某个有效词在该某个类别对应市场评论中的重要性越高;逆向文件频IDF为该某个有效词的普遍性的度量,如果该值越小,则认为该某个有效词在各个类别对应市场评论中非常普遍,如果该值很大,则认为该某个有效词在该某个类别之外的各类别对应市场评论中很少出现。
[0042] 具体地,所有有效词中第i个有效词在某个类别上的权重Wi计算公式如下:
[0043] Wi=TFi*IDFi  (1)
[0044]
[0045]
[0046] 上述公式(1)中,TFi和IDFi分别为第i个有效词的词频和逆向文件频率;上述公式(2)中,ni为第i个有效词在该类别的所有市场应用评论中出现的次数,nj为该类别的所有市场应用评论中第j个词汇在该类别的所有市场应用评论中出现的次数,k为对该类别的所有市场应用评论进行分词得到的词汇的个数;上述公式(3)中,N为所有第一已知应用的类别的个数,ni∈m为第i个有效词对应类别的个数。
[0047] 第i个有效词在该类别上的权重越大,第i个有效词对于该类别越重要。
[0048] 本发明方法实施例二通过若应用描述信息为市场应用评论,分类规则库还包括每个有效词在每个类别上的权重,在对待分类应用进行分类时,可根据待分类应用的市场应用评论中每个有效词在待分类应用上的权重和在分类规则库中每个类别上的权重,确定待分类应用的类别。由于考虑了待分类应用的市场应用评论中每个有效词分别对于待分类应用和分类规则库中每个类别的重要性,对待分类应用的分类更准确。
[0049] 图3为本发明方法实施例三提供的一种分类规则库构建方法的流程图。如图3所示,在本实施例中,在方法实施例一的基础上,该方法还包括:
[0050] 步骤S302、若某个属性信息对应多个类别,则当各个类别对应的第一已知应用的个数之间的方差大于预设阈值时,某个属性信息对应的类别具体为对应的第一已知应用个数最多的类别。
[0051] 在本实施例中,某个第一已知应用的属性信息从若干种应用描述信息和/或若干种代码描述信息中选择。某个第一已知应用的每个属性信息对应类别为该某个第一已知应用的类别。不同类别的第一已知应用的某个属性信息可能相同。因此,同一属性信息可能对应多个类别。
[0052] 此时,对于同一属性信息对应的多个类别,若多个类别各自对应的第一已知应用的个数之间方差较大,说明该属性信息在各类别间的分布不平均,方差越大,该属性信息在各类别间的分布差异越大,某个分布远大于其他分布的可能性越大,即说明具备该属性信息的大多数第一已知应用可能对应一个或少数几个类别。因此,当某个属性信息对应多个类别时,统计每个类别对应第一已知应用的个数,并计算各类别对应第一已知应用的个数的方差。若方差大于预设阈值,将对应第一已知应用的个数最多的类别作为该属性信息的类别。第一阈值的确定方法可以为:确定多个属性信息各自对应的多个类别;对于每个属性信息对应的各类别,计算各类别对应的第一已知应用的个数之间的方差,将各属性信息对应的方差降序排列,通过人工查看选择合适的方差取值或取值范围使得每个属性信息对应的方差大于该方差取值或取值范围时,每个属性信息对应的各类别中某个类别下的第一已知应用数目远大于其他类别。若方差小于或等于预设阈值,则说明类别分布差别不大,可不做处理。
[0053] 本发明方法实施例三通过从属性信息的多个类别中确定出一个占比最高的类别作为属性信息的唯一类别,提高了属性信息对应分类规则的分类准确度。
[0054] 此外,在上述除方法实施例一和三以外的每个方法实施例的基础上,还包括步骤S302,形成的方法实施例也在本发明的保护范围内,在此不再详述。
[0055] 图4为本发明方法实施例四提供的一种分类规则库构建方法的流程图。如图4所示,在本实施例中,在方法实施例一的基础上,该方法还包括:
[0056] 步骤S405、分类规则库还包括每条分类规则的优先级,优先级根据分类规则对应的属性信息对多个第二已知应用的分类准确率确定。
[0057] 在本实施例中,对于分类规则库中每条分类规则,将该分类规则的属性信息与多个第二已知应用中每个第二已知应用的属性信息进行匹配,将该分类规则的类别作为匹配成功的第二已知应用的分类类别并获取该分类规则匹配成功的第二已知应用的个数。其中,匹配成功指属性信息一致。
[0058] 将匹配成功的每个第二已知应用的分类类别与真实类别进行比对,获取该分类规则匹配成功的第二已知应用中分类正确的第二已知应用的个数。将该分类规则匹配成功的第二已知应用中分类正确的第二已知应用的个数和该分类规则匹配成功的第二已知应用的个数之比,作为该分类规则的分类准确率。
[0059] 根据分类准确率由大到小对各分类规则进行排序。根据排序确定各分类规则的优先级,其中排序在前,则优先级高,反之则优先级低。
[0060] 本发明方法实施例四通过根据分类准确率确定各分类规则的优先级,则在待分类应用匹配到的规则为至少两条时,将优先级最高的分类规则的类别作为待分类应用的类别,可提高分类准确率。
[0061] 此外,在上述除方法实施例一和四以外的每个方法实施例的基础上,还包括步骤S405,形成的方法实施例也在本发明的保护范围内,在此不再详述。
[0062] 图5为本发明方法实施例五提供的一种分类规则库构建方法的流程图。如图5所示,在本实施例中,在方法实施例一的基础上,该方法包括:
[0063] 步骤S505、将分类规则库划分为若干分类规则子库,分类规则子库的数目与分类规则库中属性信息的种类相同,每个分类规则子库中包括单独一种属性信息对应的分类规则;
[0064] 在本实施例中,将同一种类的属性信息对应的分类规则归入一个分类规则子库,例如,将属性信息为应用程序名的分类规则归入一个分类规则子库。对于待分类应用的任意一种属性信息,仅使用该种属性信息对应的分类规则子库对待分类应用进行分类即可,从而可避免待分类应用的属性信息与分类规则库中不同种类的属性信息匹配,减少计算量。
[0065] 步骤S507、利用各分类规则子库对多个第二已知应用进行分类,得到各分类规则子库的分类准确率;
[0066] 在本实施例中,对于分类规则库中每个分类规则子库,将该分类规则子库的属性信息与多个第二已知应用中每个第二已知应用的同种类的属性信息进行匹配,将该分类规则子库中匹配成功的属性信息对应的类别作为该第二已知应用的分类类别并获取该分类规则子库匹配成功的第二已知应用的个数。其中,匹配成功指属性信息一致。
[0067] 将该第二已知应用的分类类别与真实类别进行比对,获取该分类规则子库匹配成功的第二已知应用中分类正确的第二已知应用的个数。将该分类规则子库匹配成功的第二已知应用中分类正确的第二已知应用的个数和该分类规则子库匹配成功的第二已知应用的个数之比,作为该分类规则子库的分类准确率。
[0068] 步骤S509、根据各分类规则子库的分类准确率,确定各分类规则子库的优先级。
[0069] 根据分类准确率由大到小对各分类规则子库进行排序。根据排序确定对应子库的优先级,其中排序在前,则优先级高,反之则优先级低。则在待分类应用的属性信息为预设数目种类的属性信息中至少两种时,采用至少两种属性信息分别对应的分类规则子库,依次按照分类规则子库优先级由高至低的顺序对待分类应用进行分类。例如,在待分类应用的属性信息为应用程序名和一组市场评论词,且应用程序名对应的分类规则子库优先级高于市场评论词对应的分类规则子库,则先采用应用程序名对应的分类规则子库对待分类应用进行分类,若成功分类,则停止;若无法分类,再采用市场评论词对应的分类规则子库对待分类应用进行分类。
[0070] 本发明方法实施例五通过将分类规则库划分为若干分类规则子库可减少分类过程中的计算量,通过根据分类准确率确定各分类规则子库的优先级,对待分类应用进行分类时会先采用准确率较高的分类规则子库,可提高分类准确率。
[0071] 此外,在上述除方法实施例一和五以外的每个方法实施例的基础上,还包括步骤S505、步骤S507和步骤S509,形成的方法实施例也在本发明的保护范围内,在此不再详述。
[0072] 在上述每个方法实施例的基础上,分类规则库构建方法还可以包括:
[0073] 当各应用市场出现若干新的已知应用时,确定每一新的已知应用的类别和预设种类的属性信息;根据各新的已知应用的类别和预设种类的属性信息构建新的分类规则,加入分类规则库。
[0074] 其中,新的已知应用为软件供应商新开发的应用。确定每个新的已知应用的类别和预设种类的属性信息的方法与方法实施例一步骤S102中确定每个第一已知应用的类别和预设种类的属性信息的方法相同,在此不再复述。
[0075] 根据各新的已知应用的类别和预设种类的属性信息构建新的分类规则;将每个新的分类规则与分类规则库中各分类规则进行对比,若该新的分类规则与分类规则库中任一分类规则相同,则不做处理,若该新的分类规则的属性信息与分类规则库中各分类规则的属性信息均不同,则将新的分类规则加入分类规则库,若该新的分类规则的属性信息与分类规则库中任一分类规则的属性信息相同且该新的分类规则的类别与任一分类规则的类别不相同,则推送人工判定是否加入分类规则库。
[0076] 通过根据应用市场中出现的新应用构建分类规则,加入分类规则库,使得应用分类规则库的覆盖面进一步扩大,且能够适应应用市场的变化。
[0077] 图6为本发明方法实施例六提供的一种应用分类方法的流程图。如图6所示,在本实施例中,该方法包括:
[0078] 步骤S601、将待分类应用的属性信息与分类规则库中的分类规则匹配,确定待分类应用的类别,分类规则库为根据方法实施例一至四中任一方法实施例所述的分类规则库构建方法构建而得。
[0079] 在本实施例中,确定待分类应用的类别具体可分为三种情况:
[0080] 第一种情况:若分类规则库为根据方法实施例一或三所述的分类规则库构建方法构建而得,对待分类应用进行分类时,先确定属性信息的匹配顺序,接着确定待分类应用的类别。
[0081] 确定属性信息的匹配顺序的方法为:若待分类应用的属性信息仅一种,直接将该属性信息与分类规则库中各属性信息进行匹配即可;若待分类应用的属性信息为若干种,根据一定顺序,例如,根据若干种属性信息中各种属性信息的获取顺序,依次将每种属性信息与分类规则库中所有属性信息进行匹配。
[0082] 确定待分类应用的类别的方法为:可以在一旦匹配成功时,停止匹配,将匹配成功的属性信息对应的类别作为待分类应用的类别;还可以将待分类应用的属性信息与分类规则库中所有属性信息匹配,获取匹配成功的分类规则,若分类规则为一条,将分类规则的类别作为待分类应用的类别,若分类规则为多条,将多条分类规则中任一分类规则的类别作为待分类应用的类别。
[0083] 第二种情况:若分类规则库为根据方法实施例二所述的分类规则库构建方法构建而得,若待分类应用的属性信息为市场应用评论,确定待分类应用的市场应用评论中每个有效词在待分类应用上的权重,并根据待分类应用的市场应用评论中每个关键词在待分类应用上的权重和在分类规则库中每个类别上的权重,确定待分类应用的类别;否则,采用分类规则库为根据方法实施例一或三所述的分类规则库构建方法构建而得时对应的分类方法,确定待分类应用的类别。
[0084] 其中,若待分类应用的属性信息为市场应用评论,确定待分类应用的类别具体过程为:对待分类应用的市场应用评论进行分词,得到一系列词汇,取出有含义的词汇得到待分类应用的有效词。计算待分类应用的每个有效词在待分类应用上的权重可以使用TF-IDF计算。其中,词频TF为待分类应用的某个有效词在待分类应用的市场评论中出现的频率,TF值越大,表明待分类应用的该某个有效词在待分类应用的市场评论中的重要性越高;逆向文件频IDF为待分类应用的该某个有效词的普遍性的度量,如果该值越小,则认为待分类应用的该某个有效词在待分类应用的市场评论和各第一已知应用的市场评论中非常普遍,如果该值很大,则认为待分类应用的该某个有效词在待分类应用之外的各第一已知应用的市场评论中很少出现。
[0085] 待分类应用的第i个有效词在待分类应用上的权重Wi计算公式如下:
[0086] Wi=TFi*IDFi  (1)
[0087]
[0088]
[0089] 上述公式(1)中,TFi和IDFi分别为第i个有效词的词频和逆向文件频率。上述公式(2)中,ni为第i个有效词在待分类应用的市场应用评论中出现的次数,nj为待分类应用的市场应用评论中第j个词汇在待分类应用的市场应用评论中出现的次数,k为对待分类应用的市场应用评论进行分词得到的词汇的个数。上述公式(3)中,N为待分类应用和所有第一已知应用的总数;ni∈m为市场应用评论中包含第i个有效词的应用的总数,应用为待分类应用和第一已知应用。
[0090] 待分类应用的每个有效词在分类规则库中每个类别上的权重的确定方式为:若第一已知应用的市场应用评论中包含待分类应用的该有效词,从分类规则库获取该有效词在分类规则库中每个类别上的权重;若不包含,该有效词在分类规则库中每个类别上的权重可自行设置,例如设置为0。
[0091] 对于分类规则库中每个类别,根据待分类应用的市场应用评论中每个关键词在待分类应用上的权重和在分类规则库中每个类别上的权重,确定待分类应用的类别,例如:待分类应用的市场应用评论中每个有效词、该有效词在待分类应用上的权重以及该有效词在分类规则库中类别“网上购物”、“通讯社交”和“金融理财”上的权重如表1所示。
[0092]待分类应用的有效词 待分类应用 网上购物 通讯社交 金融理财
购物 0.2 1 0.1 0.9
优惠券 0.8 0.4 0 0.6
红包 0.5 0.6 0.5 0.5
支付 0.5 0.9 0.5 0.4
聊天 0.1 0 1 0.3
[0093] 表1
[0094] 则待分类应用在类别“网上购物”上的权重为:
[0095] p1=0.2*1+0.8*0.4+0.5*0.6+0.5*0.9+0.1*0=1.27;
[0096] 则待分类应用在类别“通讯社交”上的权重为:
[0097] p2=0.2*0.1+0.8*0+0.5*0.5+0.5*0.5+0.1*1=0.62;
[0098] 则待分类应用在类别“金融理财”上的权重为:
[0099] p3=0.2*0.9+0.8*0.6+0.5*0.5+0.5*0.4+0.1*0.3=0.96。
[0100] 将概率最高的类别“金融理财”作为待分类应用的类别。优选地,将在每个类别上权重较高的有效词用于计算。
[0101] 第三种情况:若分类规则库为根据方法实施例四所述的分类规则库构建方法构建而得,对待分类应用进行分类时,先确定属性信息的匹配顺序,接着确定待分类应用的类别。
[0102] 确定属性信息的匹配顺序的方法与分类规则库为根据方法实施例一或三所述的分类规则库构建方法构建而得时确定属性信息的匹配顺序的方法一致。
[0103] 确定待分类应用的类别的方法为:根据属性信息的匹配顺序将待分类应用的属性信息与分类规则库中所有属性信息匹配,获取匹配成功的分类规则。若分类规则为一条,将分类规则的类别作为待分类应用的类别,若分类规则为多条,根据分类规则的优先级,将优先级最高的分类规则的类别作为待分类应用的类别。
[0104] 本发明方法实施例六通过采用内容种类丰富的应用描述信息和/或代码描述信息作为属性信息用于构建分类规则库,使得分类规则库的分类规则丰富多样,进而在对待分类应用进行分类时,待分类应用的内容种类丰富的属性信息中任一种信息匹配到分类规则库中的分类规则就可实现对待分类应用的分类,提高了待分类应用被分类的可能性,进而提高了分类覆盖面。
[0105] 当分类规则库为在方法实施例二的基础上还包括步骤S302,形成的分类规则库构建方法构建而得,采用分类规则库为根据方法实施例二所述的分类规则库构建方法构建而得时对应分类方法确定待分类应用的类别。
[0106] 当分类规则库为在方法实施例四的基础上还包括步骤S302,形成的分类规则库构建方法构建而得,采用分类规则库为根据方法实施例四所述方法构建而得时对应分类方法确定待分类应用的类别。
[0107] 当分类规则库为在方法实施例二的基础上还包括步骤S405或者还包括步骤S302和S405形成的分类规则库构建方法构建而得,若属性信息是市场应用评论,采用分类规则库为根据方法实施例二所述的分类规则库构建方法构建而得且属性信息是市场应用评论时对应的分类方法确定待分类应用的类别;若属性信息不是市场应用评论,采用分类规则库为根据方法实施例四所述的分类规则库构建方法构建而得时对应分类方法确定待分类应用的类别。
[0108] 图7为本发明方法实施例七提供的一种应用分类方法的流程图。如图7所示,在本实施例中,该方法包括:
[0109] 步骤S701、将待分类应用的属性信息与已知类别待分类应用的属性信息进行匹配,若匹配成功,则将匹配到的属性信息对应的类别作为待分类应用的类别,若匹配不成功,根据方法实施例七所述的应用分类方法确定待分类应用的类别;其中,已知类别待分类应用的类别根据方法实施例七所述的应用分类方法确定。
[0110] 在本实施例中,将待分类应用的属性信息与已知类别待分类应用的属性信息进行比对,若一致,则将已知类别待分类应用的类别作为待分类应用的类别,无需再将待分类应用的属性信息与分类规则库进行匹配,提高了分类速度。若不一致,再采用方法实施例七确定待分类应用的类别。
[0111] 图8为本发明方法实施例八提供的一种应用分类方法的流程图。如图8所示,在本实施例中,该方法包括:
[0112] 步骤S801、按照各分类规则子库优先级从高到低的顺序,将待分类应用的属性信息依次与各分类规则子库中的属性信息匹配,确定待分类应用的类别,分类规则库为根据方法实施例五所述的分类规则库构建方法构建而得。
[0113] 在本实施例中,先确定属性信息的匹配顺序和对应的分类规则子库,再将每种属性信息与同种类属性信息对应的分类规则子库中各属性信息进行匹配确定待分类应用的类别。
[0114] 确定属性信息的匹配顺序和对应的分类规则子库的方法为:对待分类应用进行分类时,若待分类应用的属性信息为一种,将该属性信息的种类与各分类规则子库对应属性信息种类对比,确定该属性信息对应的分类规则子库。若待分类应用的属性信息为若干种,将每种属性信息的种类与各分类规则子库对应属性信息种类对比,确定每种属性信息对应的分类规则子库,将这若干种属性信息分别对应的分类规则子库的优先级由高至低的顺序,作为这若干种属性信息的匹配顺序。
[0115] 将每种属性信息与同种类属性信息对应的分类规则子库中各属性信息进行匹配,确定待分类应用的类别的方法与方法实施例六中分类规则库为根据方法实施例一或三所述的分类规则库构建方法构建而得时确定待分类应用的类别类似,在此不再详述。
[0116] 本发明方法实施例八通过采用包括若干分类规则子库的分类规则库,在对待分类应用进行分类时,根据待分类应用的属性信息种类,将待分类应用的属性信息与同种类属性信息对应的分类规则子库进行匹配,大大减少了匹配量,提高了分类速度;通过为分类规则子库确定优先级,先采用准确率较高的分类规则子库对待分类应用进行分类,可提高分类准确率。
[0117] 此外,分类规则库为根据在方法实施例二的基础上还包括步骤S505、步骤S507和步骤S509或者还包括步骤S302、步骤S505、步骤S507和步骤S509形成的分类规则库构建方法构建而得,采用方法实施例八中确定属性信息的匹配顺序和对应的分类规则子库的方法以及方法实施例六中分类规则库为根据方法实施例二所述的分类规则库构建方法构建而得时确定待分类应用类别的方法共同确定待分类应用的类别。
[0118] 此外,分类规则库为根据在方法实施例三的基础上还包括步骤S505、步骤S507和步骤S509形成的分类规则库构建方法构建而得,采用方法实施例八所述的应用分类方法确定待分类应用的类别。
[0119] 此外,分类规则库为根据在方法实施例四的基础上还包括步骤S505、步骤S507和步骤S509或者还包括步骤S302、步骤S505、步骤S507和步骤S509形成的分类规则库构建方法构建而得,采用方法实施例八中确定属性信息的匹配顺序和对应的分类规则子库的方法以及方法实施例六中分类规则库为根据方法实施例四所述的分类规则库构建方法构建而得时确定待分类应用类别的方法共同确定待分类应用的类别。
[0120] 此外,分类规则库为根据在方法实施例五的基础上还包括步骤S205和步骤S405或者还包括步骤S205、步骤S302和步骤S405形成的分类规则库构建方法构建而得,采用方法实施例八中确定属性信息的匹配顺序和对应的分类规则子库的方法以及方法实施例六中分类规则库为根据方法实施例二所述的分类规则库构建方法构建而得时确定待分类应用类别的方法共同确定待分类应用的类别。其中,在属性信息不是市场应用评论时,采用方法实施例六中分类规则库为根据方法实施例四所述的分类规则库构建方法构建而得时确定待分类应用类别的方法确定待分类应用的类别。
[0121] 在上述每个应用分类方法对应方法实施例的基础上,应用分类方法还可以包括:
[0122] 若未匹配到规则,根据待分类应用与类别已知的应用之间的相似度,确定待分类应用的类别。
[0123] 在本发明实施例中,若未匹配到规则,可以将待分类应用与第一已知应用进行相似度计算,将相似度最高应用的类别作为待测试应用的类别。其中,在计算相似度时,可选取能够描述应用的任何信息,例如,可以计算应用的代码相似性、图标相似性等。
[0124] 此外,当待分类应用数量较大时,可以采用批处理系统对批量待分类应用的进行分类,已提高分类速度。例如,将分类规则库中的分类规则存储至hbase数据库中。当有多个待分类应用需进行分类时,利用hbase提供的函数将待分类应用的属性信息存放于数组中,依次将每个待分类应用的属性信息与分类规则进行匹配,获得分类结果,并将分类结果一次输出。
[0125] 图9为本发明装置实施例一提供的一种分类规则库构建装置的示意图。如图9所示,在本实施例中,该装置包括:
[0126] 确定模块101,用于确定多个第一已知应用中每个已知应用的类别和属性信息,属性信息包括应用描述信息和/或代码描述信息;
[0127] 构建模块103,用于构建分类规则库,其中每条分类规则包括属性信息及属性信息对应的类别。
[0128] 本发明装置实施例一通过采用内容种类丰富的应用描述信息和/或代码描述信息作为属性信息用于构建分类规则库,使得分类规则库的分类规则丰富多样,进而在对待分类应用进行分类时,待分类应用的内容种类丰富的属性信息中任一种信息匹配到分类规则库中的分类规则就可实现对待分类应用的分类,提高了待分类应用被分类的可能性,进而提高了分类覆盖面。
[0129] 图10为本发明装置实施例二提供的一种分类规则库构建装置的示意图。如图10所示,在本实施例中,在装置实施例一的基础上,该装置包括:
[0130] 权重确定模块205,用于若应用描述信息为市场应用评论,分类规则库还包括每个有效词在每个类别上的权重,某个有效词在某个类别上的权重根据某个有效词在某个类别的所有市场应用评论中出现的次数和某个有效词对应的类别个数确定,其中,有效词为每类已知应用的所有市场应用评论所包含的关键词,某个有效词对应的类别个数为市场应用评论中出现某个有效词的已知应用的类别的个数。
[0131] 本发明装置实施例二通过若应用描述信息为市场应用评论,分类规则库还包括每个有效词在每个类别上的权重,在对待分类应用进行分类时,可根据待分类应用的市场应用评论中每个有效词在待分类应用上的权重和在分类规则库中每个类别上的权重,确定待分类应用的类别。由于考虑了待分类应用的市场应用评论中每个有效词分别对于待分类应用和分类规则库中每个类别的重要性,对待分类应用的分类更准确。
[0132] 图11为本发明装置实施例三提供的一种分类规则库构建装置的示意图。如图11所示,在本实施例中,在装置实施例一的基础上,该装置包括:
[0133] 类别确定模块302,用于若某个属性信息对应多个类别,则当各个类别对应的第一已知应用的个数之间的方差大于预设阈值时,某个属性信息对应的类别具体为对应的第一已知应用个数最多的类别。
[0134] 本发明装置实施例三通过从属性信息的多个类别中确定出一个占比最高的类别作为属性信息的唯一类别,提高了属性信息对应分类规则的分类准确度。
[0135] 此外,在上述除装置实施例一和三以外的每个装置实施例的基础上,还包括类别确定模块302,形成的装置实施例也在本发明的保护范围内,在此不再详述。
[0136] 图12为本发明装置实施例四提供的一种分类规则库构建装置的示意图。如图12所示,在本实施例中,在装置实施例一的基础上,该装置还包括:
[0137] 优先级确定模块405,用于分类规则库还包括每条分类规则的优先级,优先级根据分类规则对应的属性信息对多个第二已知应用的分类准确率确定。
[0138] 本发明装置实施例四通过根据分类准确率确定各分类规则的优先级,则在待分类应用匹配到的规则为至少两条时,将优先级最高的分类规则的类别作为待分类应用的类别,可提高分类准确率。
[0139] 此外,在上述除装置实施例一和四以外的每个装置实施例的基础上,还包括优先级确定模块405,形成的装置实施例也在本发明的保护范围内,在此不再详述。
[0140] 图13为本发明装置实施例五提供的一种分类规则库构建装置的示意图。如图13所示,在本实施例中,在装置实施例一的基础上,该装置包括:
[0141] 划分模块505,用于将分类规则库划分为若干分类规则子库,分类规则子库的数目与分类规则库中属性信息的种类相同,每个分类规则子库中包括单独一种属性信息对应的分类规则;
[0142] 准确率获取模块507,用于利用各分类规则子库对多个第二已知应用进行分类,得到各分类规则子库的分类准确率;
[0143] 优先级确定模块509,用于根据各分类规则子库的分类准确率,确定各分类规则子库的优先级。
[0144] 本发明装置实施例五通过将分类规则库划分为若干分类规则子库可减少分类过程中的计算量,通过根据分类准确率确定各分类规则子库的优先级,对待分类应用进行分类时会先采用准确率较高的分类规则子库,可提高分类准确率。
[0145] 此外,在上述除装置实施例一和五以外的每个装置实施例的基础上,还包括划分模块505、准确率获取模块507和优先级确定模块509,形成的装置实施例也在本发明的保护范围内,在此不再详述。
[0146] 在上述每个装置实施例的基础上,分类规则库构建装置还可以包括:
[0147] 加入模块,用于当各应用市场出现若干新的已知应用时,确定每一新的已知应用的类别和预设种类的属性信息;根据各新的已知应用的类别和预设种类的属性信息构建新的分类规则,加入分类规则库。
[0148] 通过根据应用市场中出现的新应用构建分类规则,加入分类规则库,使得应用分类规则库的覆盖面进一步扩大,且能够适应应用市场的变化。
[0149] 图14为本发明装置实施例六提供的一种应用分类装置的示意图。如图14所示,在本实施例中,该装置包括:
[0150] 分类模块601,用于将待分类应用的属性信息与分类规则库中的分类规则匹配,确定待分类应用的类别,分类规则库为根据方法实施例一至四中任一方法实施例所述的分类规则库构建方法构建而得。
[0151] 本发明装置实施例六通过采用内容种类丰富的应用描述信息和/或代码描述信息作为属性信息用于构建分类规则库,使得分类规则库的分类规则丰富多样,进而在对待分类应用进行分类时,待分类应用的内容种类丰富的属性信息中任一种信息匹配到分类规则库中的分类规则就可实现对待分类应用的分类,提高了待分类应用被分类的可能性,进而提高了分类覆盖面。
[0152] 图15为本发明装置实施例八提供的一种应用分类装置的示意图。如图15所示,在本实施例中,该装置包括:
[0153] 分类模块701,用于将待分类应用的属性信息与已知类别待分类应用的属性信息进行匹配,若匹配成功,则将匹配到的属性信息对应的类别作为待分类应用的类别,若匹配不成功,根据方法实施例七所述的应用分类方法确定待分类应用的类别;其中,已知类别待分类应用的类别根据方法实施例七所述的应用分类方法确定。
[0154] 本发明装置实施例八通过将待分类应用的属性信息与已知类别待分类应用的属性信息进行比对,若一致,则将已知类别待分类应用的类别作为待分类应用的类别,无需再将待分类应用的属性信息与分类规则库进行匹配,提高了分类速度。
[0155] 图16为本发明装置实施例九提供的一种应用分类装置的示意图。如图16所示,在本实施例中,该装置包括:
[0156] 分类模块801,用于按照各分类规则子库优先级从高到低的顺序,将待分类应用的属性信息依次与各分类规则子库中的属性信息匹配,确定待分类应用的类别,分类规则库为根据方法实施例五所述的分类规则库构建方法构建而得。
[0157] 本发明装置实施例九通过采用包括若干分类规则子库的分类规则库,在对待分类应用进行分类时,根据待分类应用的属性信息种类,将待分类应用的属性信息与同种类属性信息对应的分类规则子库进行匹配,大大减少了匹配量,提高了分类速度;通过为分类规则子库确定优先级,先采用准确率较高的分类规则子库对待分类应用进行分类,可提高分类准确率。
[0158] 在上述每个应用分类装置对应装置实施例的基础上,应用分类装置还可以包括:
[0159] 未匹配确定模块,用于若未匹配到规则,根据待分类应用与类别已知的应用之间的相似度,确定待分类应用的类别。
[0160] 本发明实施例提供一种计算机设备,包括:处理器;以及用于存放计算机程序的存储器,所述处理器用于执行所述存储器上所存放的计算机程序,以实现本发明方法实施例一至八所述的方法。
[0161] 本发明实施例提供一种计算机存储介质,所述计算机存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明方法实施例一至八所述的方法。
[0162] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0163] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0164] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈