首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 半监督学习 / 基于半监督学习算法的移动设备实体识别方法及装置

基于半监督学习算法的移动设备实体识别方法及装置

阅读:843发布:2020-05-12

专利汇可以提供基于半监督学习算法的移动设备实体识别方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 公开一种基于半 监督学习 算法 的移动设备实体识别方法和装置。其中,基于 半监督学习 算法的移动设备实体识别方法包括:根据确定的移动设备的识别符的共现关系稀疏图中 节点 的属性特征和用于所述移动设备实体识别的有标记的数据,利用半监督学习算法的损失函数进行 迭代 运算,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,通过判断识别符所属移动设备中心的特征是否相同以及识别符所属移动设备中心的特征与每个设备中心的特征的相似度,确定多个识别符唯一对应的移动设备。通过利用少量有标记数据结合半监督学习算法损失函数,进行移动设备实体识别,提高了移动设备实体识别的准确度。,下面是基于半监督学习算法的移动设备实体识别方法及装置专利的具体信息内容。

1.一种基于半监督学习算法的移动设备实体识别方法,其特征在于,包括:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中,所述有标记的数据的数量不超过第一数量阈值
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
2.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备的识别符的共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的。
3.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,包括:
建立半监督学习算法的损失函数;
将所述共现关系稀疏图中节点的属性特征和所述有标记的数据作为所述半监督学习算法的损失函数的参数进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和所述移动设备中心的特征。
4.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备的识别符信息的集合包含所述移动设备对应的软件硬件识别符信息。
5.根据权利要求4所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备对应的软件和硬件识别符信息,具体包括以下至少一种识别符信息:
用于唯一识别所述移动设备的设备识别码IMEI;
用于唯一识别对应于所述移动设备的移动用户信息的用户识别码IMSI;
用于追踪所述移动设备操作信息的广告标示符IDFA;
用于唯一标识所述移动设备的软件标识符UTDID。
6.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述移动设备的识别符信息的集合唯一表示一台真实物理移动设备。
7.根据权利要求1所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述共现关系稀疏图的中节点的属性特征为移动设备的识别符信息的集合的特征。
8.根据权利要求3所述的基于半监督学习算法的移动设备实体识别方法,其特征在于,所述如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符,具体包括:
确定所述共现关系稀疏图的任意两个节点的属性特征的相似度;
根据所述相似度满足预设的相似度阈值,确定所述两个节点分别对应的两个识别符集合属于同一个移动设备;
根据所述两个节点分别对应的两个识别符集合属于同一个移动设备,确定所述识别符集合包含的多个识别符为同一个移动设备的多个识别符。
9.一种基于半监督学习算法的移动设备实体识别装置,其特征在于,包括:
第一获得单元:用于确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
第二获得单元,用于确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量不超过第一数量阈值;
计算单元:用于根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
第一确定单元,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
第二确定单元,用于根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储基于半监督学习算法的移动设备实体识别方法的程序,该设备通电并通过所述处理器运行该基于半监督学习算法的移动设备实体识别方法的程序后,执行下述步骤:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
11.一种存储设备,其特征在于,存储有基于半监督学习算法的移动设备实体识别方法的程序,该程序被处理器运行,执行下述步骤:
确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。

说明书全文

基于半监督学习算法的移动设备实体识别方法及装置

技术领域

[0001] 本申请涉及移动设备实体识别领域,具体涉及一种基于半监督学习算法的移动设备实体识别的方法、装置、电子设备及存储设备。

背景技术

[0002] 随着人工智能的发展,机器学习已经逐渐成为一种基础性的支持与服务技术,不同领域对机器学习的需求也不相同。机器学习是用来描述利用算法进行数据分析的过程,建立可以从中学习的模型,并最终使用这些数据建立的模型进行预测分析。在移动设备识别领域中,我们经常会遇到重装系统、更换移动设备、山寨机或者模拟攻击等问题,这些问题的存在往往会导致移动设备部分数据信息丢失,若要召回丢失的数据,首先需要对该移动设备进行识别,但是,常用的基于移动设备识别符的移动设备实体识别算法计算往往比较繁琐。另外,随着移动互联网的普及,数据呈几何态势增长,这些海量的数据不仅结构多样而且体现出动态性极强的特征,因此通过获取大量有标记数据进行移动设备实体识别算法的迭代训练将耗费更多的人和时间,以往将大量有标记的数据输入到移动设备实体识别算法中进行训练从而实现移动设备实体识别的方式已经不再适用。
[0003] 为了解决上述问题,本领域中的传统的方案,通常是根据APP安装时根据硬件与系统信息随机生成唯一标识符进行无任何有标记数据的无监督学习训练,从而实现移动设备实体识别,该方法虽然不需要带标记数据,但是所获得的用于移动设备实体识别结果却不够精确。发明内容
[0004] 本申请提供一种基于半监督学习算法的移动设备实体识别方法及装置,以解决现有技术存在的上述移动设备实体识别过程繁琐且精确度较低的问题。本申请另外提供一种基于半监督学习算法的移动设备实体识别的电子设备及存储设备。
[0005] 本申请提供的一种基于半监督学习算法的移动设备实体识别方法,包括:
[0006] 确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
[0007] 确定用于所述移动设备实体识别的有标记的数据,其中,所述有标记的数据的数量不超过第一数量阈值
[0008] 根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
[0009] 如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
[0010] 根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
[0011] 可选的,所述移动设备的识别符的共现关系稀疏图是将所述移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点,并删除数量达到或者超过预设的节点数量阈值的所述包含相同识别符的节点之间的连接关系获得的。
[0012] 可选的,所述根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,包括:
[0013] 建立半监督学习算法的损失函数;
[0014] 将所述共现关系稀疏图中节点的属性特征和所述有标记的数据作为所述半监督学习算法的损失函数的参数进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和所述移动设备中心的特征。
[0015] 可选的,所述移动设备的识别符信息的集合包含所述移动设备对应的软件和硬件识别符信息。
[0016] 可选的,所述移动设备对应的软件和硬件识别符信息,具体包括以下至少一种识别符信息:
[0017] 用于唯一识别所述移动设备的设备识别码IMEI;
[0018] 用于唯一识别对应于所述移动设备的移动用户信息的用户识别码IMSI;
[0019] 用于追踪所述移动设备操作信息的广告标示符IDFA;
[0020] 用于唯一标识所述移动设备的软件标识符UTDID。
[0021] 可选的,所述移动设备的识别符信息的集合唯一表示一台真实物理移动设备。
[0022] 可选的,所述共现关系稀疏图的中节点的属性特征为移动设备的识别符信息的集合的特征。
[0023] 可选的,所述如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符,具体包括:
[0024] 确定所述共现关系稀疏图的任意两个节点的属性特征的相似度;
[0025] 根据所述相似度满足预设的相似度阈值,确定所述两个节点分别对应的两个识别符集合属于同一个移动设备;
[0026] 根据所述两个节点分别对应的两个识别符集合属于同一个移动设备,确定所述识别符集合包含的多个识别符为同一个移动设备的多个识别符。
[0027] 相应的,本申请还提供一种基于半监督学习算法的移动设备实体识别装置,包括:
[0028] 第一获得单元:用于确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
[0029] 第二获得单元,用于确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量不超过第一数量阈值;
[0030] 计算单元:用于根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
[0031] 第一确定单元,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
[0032] 第二确定单元,用于根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
[0033] 相应的,本申请还提供一种电子设备,包括:
[0034] 处理器;以及
[0035] 存储器,用于存储基于半监督学习算法的移动设备实体识别方法的程序,该设备通电并通过所述处理器运行该基于半监督学习算法的移动设备实体识别方法的程序后,执行下述步骤:
[0036] 确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
[0037] 确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
[0038] 根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
[0039] 如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
[0040] 根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
[0041] 相应的,本申请提供一种存储设备,存储有基于半监督学习算法的移动设备实体识别方法的程序,该程序被处理器运行,执行下述步骤:
[0042] 确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
[0043] 确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
[0044] 根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
[0045] 如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
[0046] 根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
[0047] 与现有技术相比,本申请具有以下优点:
[0048] 本申请提供一种基于半监督学习算法的移动设备实体识别方法,根据确定的移动设备的识别符的共现关系稀疏图中节点的属性特征和用于所述移动设备实体识别的有标记的数据,利用半监督学习算法的损失函数进行迭代运算,确定识别符所属移动设备中心的特征和所述移动设备中心的特征,通过判断识别符所属移动设备中心的特征是否相同以及识别符所属移动设备中心的特征与每个设备中心的特征的相似度,确定多个识别符唯一对应的移动设备。因此,我们利用少量有标记数据结合半监督学习算法损失函数,建立数据模型来进行移动设备实体识别,其优点就在于能利用少量的有标记数据来改善分类器的泛化性能,提高移动设备实体识别的准确度。附图说明
[0049] 图1为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的流程图
[0050] 图2为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别装置的示意图;
[0051] 图3为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别的电子设备的示意图;
[0052] 图4为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的识别流程图;
[0053] 图5为本申请实施例提供的共现关系稀疏图的结构图。

具体实施方式

[0054] 在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
[0055] 为了使本领域的技术人员更好的理解本申请方案,下面基于本申请提供的一种基于半监督学习算法的移动设备实体识别方法,对其实施例进行详细描述。此外,在下面的描述中,将分别针对本方法的各个步骤进行详细的说明。请参考图1所示,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的流程图。
[0056] 步骤S101,确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征。
[0057] 在本实施例中,所述的共现关系稀疏图是将移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点进行构图,并删除数量达到或者超过预设的节点数量阈值的包含相同识别符的节点之间的连接关系获得的。其中,预设的节点数量阈值为1000。为了降低时间的复杂度,当包含IMEI、IMSI、IDFA、UTDID这四种识别符中的任意一个识别符的节点的数量达到或者超过1000时,即如果一个识别符在超过1000个节点中都出现了,那么上述包含该识别符的节点之间在本次子循环中都不连边,并且删除已连接的包含相同识别符的节点之间的连接关系,获得构建的移动设备识别符的共现关系稀疏图。当然,本申请所述的预设的节点数量阈值不仅仅限于上述公开的数值,其可以根据具体情况进行提前设定。
[0058] 在本实施例中,所述的共现关系稀疏图的中节点的属性特征即为移动设备的识别符信息的集合的特征。若要构建移动设备识别符的共现关系稀疏图,需要从所有的移动设备访问日志中,提取出所有的软件和硬件移动设备识别符,每个访问日志中记录的移动设备识别符信息的集合都作为图中的节点。所述的移动设备识别符信息的集合是用于唯一表示一台物理移动设备的识别符集合,包含硬件标识符和软件标识符,具体地,该移动设备识别符信息的集合包括用于唯一识别一台移动设备的设备识别码IMEI、用于唯一识别对应于一台移动设备的移动用户信息的用户识别码IMSI、用于追踪一台移动设备操作信息的广告标示符IDFA和用于唯一标识一台移动设备的软件标识符UTDID中的至少一个识别符。将移动设备的识别符信息的集合作为移动设备识别符的共现关系稀疏图的节点,即所述的移动设备识别符共现关系稀疏图中每一个节点都表示一个移动设备识别符信息的集合。
[0059] 需要说明的是,上述所述的相同识别符可以是用于唯一识别第一移动设备的设备识别码IMEI,用于唯一识别对应于所述第一移动设备的移动用户信息的用户识别码IMSI,用于追踪所述第一移动设备操作信息的广告标示符IDFA和用于唯一标识所述第一移动设备的软件标识符UTDID中的至少一种识别符。
[0060] 在本实施例中,针对每个识别符我们遍历所有的移动设备识别符信息的集合(即图中的节点),找出所有包含这个识别符的节点进行连接。需要说明的是,本申请实施例主要是提取IMEI、IMSI、IDFA、UTDID四种识别符,如果其中某一标识符出现在两个不同节点中,那么将这两个节点连成一条边,将上述找出的节点依次两两连边,进行构图。请参考图5所示,其为本申请实施例提供的共现关系稀疏图的结构图。当其中一个识别符在大量的节点中都出现了,即关联了过多的节点,这种情况下都不连边,并且删除过大的连通节点,保证图的稀疏性,从而降低了时间的复杂度。其中,IMEI是指移动设备识别码,IMEI是区别移动用户的标志,存储在SIM卡中,可用于区别用户的有效信息。
[0061] 步骤S102,确定用于所述移动设备实体识别的有标记的数据,其中,所述有标记的数据的数量不超过第一数量阈值。
[0062] 在机器学习过程中,无标记数据很容易获取,而有标记数据则很难获取,因为给数据做标记通常耗费较多的人力和时间。无监督学习算法则属于无需任何有标记数据的聚类学习算法,虽然不需要带标记数据,但是所获得的模型在移动设备识别过程中却不够精确,因此,本申请实施例利用少量有标记数据和大量无标记数据结合的半监督学习算法建立数据模型来进行移动设备实体识别,其优点就在于利用少量的有标记数据来改善分类器的泛化性能,从而无需耗费较多的时间和精力去标记数据。在移动设备的使用过程中,我们将一个访问记录中的移动设备标识符集合对应到一个唯一真实的物理设备上,在识别过程中必须有部分有标记的数据,作为半监督学习算法的依据。所述的第一数量阈值为能够满足移动设备实体识别准确率要求的有标记数据的数量。所述有标记数据是指我们从现有的数据中,通过企业内部的一些技术手段找到一些数据的真实值,作为数据的标记,即我们给出一小部分的识别符集合对,获得它们是否属于同一设备的结论。
[0063] 步骤S103,根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征。
[0064] 在本实施例中,通过构建移动设备标识符共现关系稀疏图,利用少量有标记的数据输入至全新的半监督学习算法的损失函数,综合该共现关系稀疏图的结构特点和节点的属性特征,进行移动设备实体识别。其中,由于图的稀疏性,所述的移动设备识别符共现关系稀疏图中边的数量近似于点的数量,半监督学习算法每次都根据共现关系稀疏图边的数量的进行迭代,从而保证了较低的时间复杂度。
[0065] 因此,在本实施例中,若要获得识别符所属移动设备中心的特征和所述移动设备中心的特征,首先需要建立半监督学习算法的损失函数,将共现关系稀疏图中节点的属性特征和少量有标记的数据作为参数输入半监督学习算法的损失函数中进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和移动设备中心的特征。其中,所述的共现关系稀疏图的中节点的属性特征即为移动设备的识别符信息的集合的特征。所述的半监督学习算法的损失函数的表达式如下:
[0066]
[0067] 其中,λ表示惩罚参数,xi是每个移动设备的识别符集合的特征,Csi是每个识别符所属移动设备中心的特征, 是有标记的数据,i和j是所述共现关系稀疏图的任意两个节点的标识,wij为所述共现关系稀疏图的任意两个节点的属性特征的相似度,L是算法优化的损失函数。
[0068] 在本实施例中,获得每个识别符所属移动设备中心的特征和所述移动设备中心的特征的过程具体包括:根据共现关系稀疏图的任意两个节点的属性特征的相似度,利用迭代公式确定每条边对应的yij的值,其中yij取值为1或0分别表示两个识别符集合是或否属于同一个设备。将共现关系稀疏图中节点的属性特征和有标记的数据作为参数输入到半监督学习算法的损失函数的求导公式中进行迭代优化算法训练,获得用于表示每个识别符所属移动设备中心的特征的和用于表示移动设备中心的特征。其中,所述的迭代公式的表达式具体如下:
[0069]
[0070] 其中wij为所述共现关系稀疏图的任意两个节点的属性特征的相似度,yij取值为1或0表示两个识别符集合是否属于同一个设备,δ为设定的阈值,用于判断两个设备是否相等。
[0071] 所述的求导公式的表达式具体如下:
[0072]
[0073] 其中,xi是每个移动设备的识别符集合的特征,Csi是每个识别符所属移动设备中心的特征,i和j是所述共现关系稀疏图的任意两个节点的标识,wij为所述共现关系稀疏图的任意两个节点的属性特征的相似度,L是算法优化的损失函数,λ表示惩罚参数。
[0074] 步骤S104,如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符。
[0075] 步骤S105,根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
[0076] 根据上述提供的全新的半监督学习算法的损失函数进行并行化的迭代优化算法训练,求解得到各个移动设备中心的特征,获得每个移动设备中心的特征以后,根据上述获得的每个标识符所属移动设备中心的特征和每个移动设备中心的特征进行对比分析,将每个节点中包含的识别符对应到特征相似度最近的唯一一台移动设备上,从而确定基于移动设备识别符共现关系稀疏图的移动设备实体识别的最终结果。
[0077] 请参考图4所示,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的识别流程图
[0078] 本实施例通过构建移动设备共现关系稀疏图,采用一种全新的无监督学习算法,综合移动设备共现关系稀疏图的结构和节点的属性特征,进行移动设备实体识别,进而获得移动设备实体识别结果。该方案能够在一定程度上消除多种移动设备识别符异常问题所导致的影响,大幅度提高移动设备的识别的精度。其中,本申请实施例可以解决的异常问题包括但不限于:双卡双待问题、重装系统问题、更换手机问题、山寨机问题、模拟器攻击问题等导致的移动设备数据丢失的情况。在双卡双待问题中,IMEI、IMSI的四种组合会在该移动设备标识符的共现关系稀疏图中形成强的关联关系;重装系统后,可以通过IMEI、IMSI等硬件识别符召回所有与IMEI、IMSI标识符相对应的该移动设备相关的软件识别符;更换手机后,可以利用IMSI以及访问属性召回所有与IMSI对应的该移动设备的备份数据;山寨机问题和模拟器问题所导致的巨大连通关系在构建该移动设备标识符的共现关系稀疏图的时候也可以得到解决。同时本申请实施例提供的半监督学习算法支持并行化处理数据,从而便于进行大规模数据处理。如果不利用我们的构建的移动设备标识符共现关系稀疏图,会导致用于移动设备实体识别的算法复杂度过高,不利于并行计算且无法处理大规模的数据。
[0079] 本申请提供一种基于半监督学习算法的移动设备实体识别方法,根据获得的移动设备的识别符的共现关系稀疏图中节点的属性特征和用于所述移动设备实体识别的有标记的数据,利用半监督学习算法的损失函数进行迭代运算,获得识别符所属移动设备中心的特征和所述移动设备中心的特征,通过判断识别符所属移动设备中心的特征是否相同以及识别符所属移动设备中心的特征与每个设备中心的特征的相似度,确定多个识别符唯一对应的移动设备。通过利用共现关系稀疏图的结构和节点的特性降低了算法的时间复杂度,从而优化了半监督学习算法的迭代优化过程,进一步的在上述半监督学习算法中添加少量的有标记数据,提高针对移动设备识别的精度。
[0080] 与上述提供的一种基于半监督学习算法的移动设备实体识别方法相对应,本申请实施例还提供一种基于半监督学习算法的移动设备实体识别装置,请参考图2所示,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别装置的示意图。
[0081] 第一获得单元201:用于确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征。
[0082] 在本实施例中,所述的共现关系稀疏图的中节点的属性特征即为移动设备的识别符信息的集合的特征。所述的共现关系稀疏图是将移动设备的识别符信息的集合作为节点,连接包含相同识别符的节点进行构图,并删除数量达到或者超过预设的节点数量阈值的包含相同识别符的节点之间的连接关系获得的。其中,预设的节点数量阈值为1000。为了降低时间的复杂度,当包含IMEI、IMSI、IDFA、UTDID这四种识别符中的任意一个识别符的节点的数量达到或者超过1000时,则包含该识别符的节点之间在本次子循环中都不连边,并且删除已连接的包含相同识别符的节点之间的连接关系,获得构建的移动设备识别符的共现关系稀疏图。当然,本申请所述的预设的节点数量阈值不仅仅限于上述公开的数值,其可以根据具体情况进行提前设定。
[0083] 第二获得单元202,用于确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量不超过第一数量阈值。
[0084] 在机器学习过程中,无标记数据很容易获取,而有标记数据则很难获取,因为给数据做标记通常耗费较多的人力和时间。无监督学习算法则属于无需任何有标记数据的聚类学习算法,虽然不需要带标记数据,但是所获得的模型在移动设备识别过程中却不够精确,因此,本申请实施例利用少量有标记数据和大量无标记数据结合的半监督学习算法建立数据模型来进行移动设备实体识别,其优点就在于利用少量的有标记数据来改善分类器的泛化性能,从而无需耗费较多的时间和精力去标记数据。在移动设备的使用过程中,我们将一个访问记录中的移动设备标识符集合对应到唯一一台移动设备上,在识别过程中必须有部分有标记的数据,作为半监督学习算法的依据。所述的第一数量阈值为能够满足移动设备实体识别准确率要求的有标记数据的数量。
[0085] 计算单元203:用于根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征。
[0086] 在本实施例中,通过构建移动设备标识符共现关系稀疏图,利用少量有标记的数据输入至全新的半监督学习算法的损失函数,综合该共现关系稀疏图的结构特点和节点的属性特征,进行移动设备实体识别。其中,由于图的稀疏性,所述的移动设备识别符共现关系稀疏图中边的数量近似于点的数量,半监督学习算法每次都根据共现关系稀疏图边的数量的进行迭代,从而保证了较低的时间复杂度。
[0087] 因此,在本实施例中,若要获得识别符所属移动设备中心的特征和所述移动设备中心的特征,首先需要建立半监督学习算法的损失函数,将共现关系稀疏图中节点的属性特征和少量有标记的数据作为参数输入半监督学习算法的损失函数中进行迭代优化算法训练,获得每个识别符所属移动设备中心的特征和移动设备中心的特征。
[0088] 第一确定单元204,用于如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符。
[0089] 第二确定单元205,用于根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
[0090] 在本实施例中,根据上述提供的全新的半监督学习算法的损失函数进行并行化的迭代优化算法训练,求解得到各个移动设备中心的特征,获得每个移动设备中心的特征以后,根据上述获得的每个标识符所属移动设备中心的特征和每个移动设备中心的特征进行对比分析,将每个节点中包含的识别符对应到特征相似度最近的唯一一台移动设备上,从而确定基于移动设备识别符共现关系稀疏图的移动设备实体识别的最终结果。
[0091] 与上述提供的一种基于半监督学习算法的移动设备实体识别方法相对应的,本申请实施例还提供一种电子设备,请参见图3,其为本申请实施例提供的一种基于半监督学习算法的移动设备实体识别的电子设备示意图。
[0092] 本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的电子设备包括如下部分:
[0093] 处理器;以及
[0094] 存储器,用于存储基于半监督学习算法的移动设备实体识别方法的程序,该设备通电并通过所述处理器运行该基于半监督学习算法的移动设备实体识别方法的程序后,执行下述步骤:
[0095] 确定所述移动设备的识别符的共现关系稀疏图中节点的属性特征;
[0096] 确定用于所述移动设备实体识别的有标记的数据,其中所述有标记的数据的数量等于或少于第一数量阈值的;
[0097] 根据所述共现关系稀疏图中节点的属性特征和所述有标记的数据,并利用半监督学习算法的损失函数,确定识别符所属移动设备中心的特征和所述移动设备中心的特征;
[0098] 如果多个识别符所属移动设备中心的特征相同,则确定所述多个识别符为同一个移动设备的多个识别符;
[0099] 根据所述多个识别符所属移动设备中心的特征与所述每个设备中心的特征的相似度,确定所述多个识别符唯一对应的所述移动设备。
[0100] 需要说明的是,对于本申请实施例提供的一种电子设备的详细描述,可以参考对本申请实施例提供的一种基于半监督学习算法的移动设备实体识别方法的相关描述,这里不再赘述。
[0101] 本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈