首页 / 专利库 / 电信 / 节点 / 网络用户相似度管理方法、装置及存储介质

网络用户相似度管理方法、装置及存储介质

阅读:291发布:2021-04-14

专利汇可以提供网络用户相似度管理方法、装置及存储介质专利检索,专利查询,专利分析的服务。并且本 申请 实施例 公开了一种网络用户相似度管理方法、装置及存储介质,属于计算机技术领域。该方法包括:获取终端的网络连接记录,对网络连接记录进行解析处理,以得到网络连接记录中的用户标识信息和设备标识信息,对用户标识信息、设备标识信息及用户标识信息的用户 属性信息 进行同构或异构处理,以构造网络图,对网络图中各个 节点 的连接关系进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征,根据多个用户标识信息中任两个用户标识信息的用户特征,获取任两个用户标识信息之间的相似度。根据用户属性信息对用户特征的影响,使确定的网络图更为准确,从而使确定的用户相似度更准确。,下面是网络用户相似度管理方法、装置及存储介质专利的具体信息内容。

1.一种网络用户相似度管理方法,其特征在于,所述方法包括:
获取终端的网络连接记录,所述网络连接记录包括所述终端接入网络的用户标识信息及所接入网络信息,所述网络信息包括所述网络对应的接入点设备的设备标识信息;
对所述网络连接记录进行解析处理,以得到所述网络连接记录中的用户标识信息和设备标识信息;
对所述用户标识信息、所述设备标识信息及所述用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,所述网络图中包括多个用户标识信息对应的多个用户节点、多个设备标识信息对应的多个设备节点及多个用户属性信息对应的多个用户属性节点;
对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征;
根据所述多个用户标识信息中任两个用户标识信息的用户特征,获取所述任两个用户标识信息之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述对所述用户标识信息、所述设备标识信息及所述用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,包括:
对所述用户标识信息、所述设备标识信息、所述用户标识信息的用户属性信息及所述设备标识信息的设备属性信息进行同构或异构处理,以构造所述网络图,所述网络图中还包括多个设备属性信息对应的多个设备属性节点。
3.根据权利要求1所述的方法,其特征在于,所述对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征,包括:
对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征和所述多个设备标识信息中每个设备标识信息的设备特征。
4.根据权利要求1所述的方法,其特征在于,所述对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征,包括:
将所述网络图中的每个用户标识信息与每个设备标识信息分别进行组合,得到多种组合,每种组合包括一个用户标识信息和一个设备标识信息;
对所述网络图中各个节点的连接关系进行解析处理,分别获取每种组合的出现概率,所述组合的出现概率为所述组合中的用户标识信息和设备标识信息对应的网络连接记录的数量与所述网络连接记录的总数量的比值;
根据所述每个用户标识信息当前的用户特征及所述每个设备标识信息当前的设备特征,分别获取所述每种组合的关联概率,所述组合的关联概率用于表示所述组合中的用户标识信息当前的用户特征与所述组合中的设备标识信息当前的设备特征的关联程度;
根据所述每种组合的出现概率与关联概率之间的差异,对所述每个用户标识信息当前的用户特征及所述每个设备标识信息当前的设备特征进行迭代更新,直至调整后获取到的出现概率与关联概率之间的差异收敛。
5.根据权利要求4所述的方法,其特征在于,所述根据所述每个用户标识信息当前的用户特征及所述每个设备标识信息当前的设备特征,分别获取所述每种组合的关联概率,包括:
对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征
根据所述转置特征 和设备标识信息i当前的设备特征Ri的乘积,获取所述用户标识信息u和所述设备标识信息i对应的关联概率 所述关联概率 所述转置特征 和所述设备特征Ri满足以下关系:
其中,exp表示以自然常数e为底的指数函数。
6.根据权利要求4所述的方法,其特征在于,迭代更新过程中采用的目标函数为:
其中, 表示用户标识信息u与设备标识信息i对应的关联概率;Wui表示用户标识信息u与设备标识信息i对应的网络连接记录的数量。
7.根据权利要求1所述的方法,其特征在于,所述对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征,包括:
对所述网络图中各个节点的连接关系进行解析处理,分别获取每两个用户标识信息之间的第一相似度,所述第一相似度用于表示对应的两个用户标识信息的连接紧密程度;
根据所述每个用户标识信息当前的用户特征,分别获取每两个用户标识信息之间的第二相似度,所述第二相似度用于表示对应的两个用户标识信息的用户特征的相似程度;
根据获取到的第二相似度与第一相似度之间的差异,对所述每个用户标识信息当前的用户特征进行迭代更新,直至调整后获取到的第二相似度与第一相似度之间的差异收敛。
8.根据权利要求7所述的方法,其特征在于,所述对所述网络图中各个节点的连接关系进行解析处理,分别获取每两个用户标识信息之间的第一相似度,包括:
确定用户标识信息u对应的用户节点与设备标识信息j对应的设备节点之间的连接关系auj、及用户标识信息v对应的用户节点与设备标识信息j对应的设备节点之间的连接关系avj;
获取所述用户标识信息u对应的用户节点连接的设备节点的个数ku,及所述用户标识信息v对应的用户节点连接的设备节点的个数kv;
根据所述连接关系auj、所述连接关系avj、所述个数ku、所述个数kυ、及设备标识信息j对应的设备节点连接的用户节点的个数kj,获取所述用户标识信息u和所述用户标识信息v之间的第一相似度Suv,所述第一相似度Suv、所述连接关系auj、所述连接关系avj、所述个数ku、所述个数kv及所述个数kj满足以下关系:
其中,如果用户标识信息u对应的用户节点与设备标识信息j对应的设备节点连接,则auj取值为1,如果未连接则auj取值为0;如果用户标识信息v对应的用户节点与设备标识信息j对应的设备节点连接,则avj取值为1,如果未连接则avj取值为0;λ表示调整参数。
9.根据权利要求7所述的方法,其特征在于,所述根据所述每个用户标识信息当前的用户特征,分别获取每两个用户标识信息之间的第二相似度,包括:
对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征
根据所述转置特征 和用户标识信息v当前的用户特征Qv的乘积,获取所述用户标识信息u与所述用户标识信息v之间的第二相似度 所述第二相似度 所述转置特征及所述用户特征Qv满足以下关系:
10.根据权利要求7所述的方法,其特征在于,迭代更新过程中采用的目标函数为:
其中,Suv表示用户标识信息u与用户标识信息v之间的第一相似度;Qu表示用户标识信息u当前的用户特征;Qv表示用户标识信息v当前的用户特征;T表示矩阵转置。
11.一种网络用户相似度管理装置,其特征在于,所述装置包括:
获取模,用于获取终端的网络连接记录,所述网络连接记录包括所述终端接入网络的用户标识信息及所接入网络信息,所述网络信息包括所述网络对应的接入点设备的设备标识信息;
解析模块,用于对所述网络连接记录进行解析处理,以得到所述网络连接记录中的用户标识信息和设备标识信息;
构造模块,用于对所述用户标识信息、所述设备标识信息及所述用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,所述网络图中包括多个用户标识信息对应的多个用户节点、多个设备标识信息对应的多个设备节点及多个用户属性信息对应的多个用户属性节点;
用户特征确定模块,用于对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征;
相似度获取模块,用于根据所述多个用户标识信息中任两个用户标识信息的用户特征,获取所述任两个用户标识信息之间的相似度。
12.根据权利要求11所述的装置,其特征在于,所述构造模块,还用于对所述用户标识信息、所述设备标识信息、所述用户标识信息的用户属性信息及所述设备标识信息的设备属性信息进行同构或异构处理,以构造所述网络图,所述网络图中还包括多个设备属性信息对应的多个设备属性节点。
13.根据权利要求11所述的装置,其特征在于,所述用户特征确定模块,包括:
用户特征确定单元,用于对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征和所述多个设备标识信息中每个设备标识信息的设备特征。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如权利要求1至10任一权利要求所述的网络用户相似度管理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如权利要求1至10任一权利要求所述的网络用户相似度管理方法。

说明书全文

网络用户相似度管理方法、装置及存储介质

技术领域

[0001] 本申请实施例涉及计算机技术领域,特别涉及一种网络用户相似度管理方法、装置及存储介质。

背景技术

[0002] 随着互联网技术的发展和网络数据规模的日益增大,互联网中存在着大量的用户标识,这些用户标识之间的关联关系蕴含着大量的信息。因此在用户相似度计算、好友推荐、推送广告等多种场景下,通常会获取用户标识的用户特征,根据任两个用户标识的用户特征,获取该两个用户标识之间的相似度。
[0003] 相关技术提供了一种用户相似度管理方法,根据用户标识的用户属性信息进行one-hot(一位有效)编码,将用户属性信息映射为用户标识的用户特征,后续即可根据任两个用户的用户特征获取这两个用户之间的相似度。但是该方法仅考虑用户标识的用户属性信息,而不考虑其他因素,导致得到的用户特征不够准确,用户相似度也不够准确。发明内容
[0004] 本申请实施例提供了一种网络用户相似度管理方法、装置及存储介质,能够有效提高的用户之间相似度的准确性。所述技术方案如下:
[0005] 一方面,提供了一种网络用户相似度管理方法,所述方法包括:
[0006] 获取终端的网络连接记录,所述网络连接记录包括所述终端接入网络的用户标识信息及所接入网络信息,所述网络信息包括所述网络对应的接入点设备的设备标识信息;
[0007] 对所述网络连接记录进行解析处理,以得到所述网络连接记录中的用户标识信息和设备标识信息;
[0008] 对所述用户标识信息、所述设备标识信息及所述用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,所述网络图中包括多个用户标识信息对应的多个用户节点、多个设备标识信息对应的多个设备节点及多个用户属性信息对应的多个用户属性节点;
[0009] 对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征;
[0010] 根据所述多个用户标识信息中任两个用户标识信息的用户特征,获取所述任两个用户标识信息之间的相似度。
[0011] 另一方面,提供了一种网络用户相似度管理装置,所述装置包括:
[0012] 获取模,用于获取终端的网络连接记录,所述网络连接记录包括所述终端接入网络的用户标识信息及所接入网络信息,所述网络信息包括所述网络对应的接入点设备的设备标识信息;
[0013] 解析模块,用于对所述网络连接记录进行解析处理,以得到所述网络连接记录中的用户标识信息和设备标识信息;
[0014] 构造模块,用于对所述用户标识信息、所述设备标识信息及所述用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,所述网络图中包括多个用户标识信息对应的多个用户节点、多个设备标识信息对应的多个设备节点及多个用户属性信息对应的多个用户属性节点;
[0015] 用户特征确定模块,用于对所述网络图中各个节点的连接关系进行解析处理,确定所述多个用户标识信息中每个用户标识信息的用户特征;
[0016] 相似度获取模块,用于根据所述多个用户标识信息中任两个用户标识信息的用户特征,获取所述任两个用户标识信息之间的相似度。
[0017] 可选地,所述用户特征确定模块,还包括:
[0018] 组合单元,用于将所述网络图中的每个用户标识信息与每个设备标识信息分别进行组合,得到多种组合,每种组合包括一个用户标识信息和一个设备标识信息;
[0019] 出现概率获取单元,用于对所述网络图中各个节点的连接关系进行解析处理,分别获取每种组合的出现概率,所述组合的出现概率为所述组合中的用户标识信息和设备标识信息对应的网络连接记录的数量与所述网络连接记录的总数量的比值;
[0020] 关联概率获取单元,用于根据所述每个用户标识信息当前的用户特征及所述每个设备标识信息当前的设备特征,分别获取所述每种组合的关联概率,所述组合的关联概率用于表示所述组合中的用户标识信息当前的用户特征与所述组合中的设备标识信息当前的设备特征的关联程度;
[0021] 第一迭代更新单元,用于根据所述每种组合的出现概率与关联概率之间的差异,对所述每个用户标识信息当前的用户特征及所述每个设备标识信息当前的设备特征进行迭代更新,直至调整后获取到的出现概率与关联概率之间的差异收敛。
[0022] 可选地,所述关联概率获取单元,还用于对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征 根据所述转置特征 和设备标识信息i当前的设备特征Ri的乘积,获取所述用户标识信息u和所述设备标识信息i对应的关联概率 所述关联概率所述转置特征 和所述设备特征Ri满足以下关系:
[0023]
[0024] 其中,exp表示以自然常数e为底的指数函数。
[0025] 可选地,所述第一迭代更新单元,还用于迭代更新过程中采用的目标函数为:
[0026]
[0027] 其中, 表示用户标识信息u与设备标识信息i对应的关联概率;Wui表示用户标识信息u与设备标识信息i对应的网络连接记录的数量。
[0028] 可选地,所述用户特征确定模块,还包括:
[0029] 第一相似度获取单元,用于对所述网络图中各个节点的连接关系进行解析处理,分别获取每两个用户标识信息之间的第一相似度,所述第一相似度用于表示对应的两个用户标识信息的连接紧密程度;
[0030] 第二相似度获取单元,用于根据所述每个用户标识信息当前的用户特征,分别获取每两个用户标识信息之间的第二相似度,所述第二相似度用于表示对应的两个用户标识信息的用户特征的相似程度;
[0031] 第二迭代更新单元,用于根据获取到的第二相似度与第一相似度之间的差异,对所述每个用户标识信息当前的用户特征进行迭代更新,直至调整后获取到的第二相似度与第一相似度之间的差异收敛。
[0032] 可选地,所述第一相似度获取单元,还用于确定用户标识信息u对应的用户节点与设备标识信息j对应的设备节点之间的连接关系auj,及用户标识信息v对应的用户节点与设备标识信息j对应的设备节点之间的连接关系avj,获取所述用户标识信息u对应的用户节点连接的设备节点的个数ku,及所述用户标识信息v对应的用户节点连接的设备节点的个数kv,根据所述连接关系auj、所述连接关系avj、所述个数ku、所述个数kv、及设备标识信息j对应的设备节点连接的用户节点的个数kj,获取所述用户标识信息u和所述用户标识信息v之间的第一相似度Suv,所述第一相似度Suv、所述连接关系auj、所述连接关系avj、所述个数ku、所述个数kv及所述个数kj满足以下关系:
[0033]
[0034] 其中,如果用户标识信息u对应的用户节点与设备标识信息j对应的设备节点连接,则auj取值为1,如果未连接则auj取值为0;如果用户标识信息v对应的用户节点与设备标识信息j对应的设备节点连接,则avj取值为1,如果未连接则avj取值为0;λ表示调整参数。
[0035] 可选地,所述第二相似度获取单元,还用于对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征 根据所述转置特征 和用户标识信息v当前的用户特征Qv的乘积,获取所述用户标识信息u与所述用户标识信息v之间的第二相似度 所述第二相似度 所述转置特征 及所述用户特征Qv满足以下关系:
[0036]
[0037] 可选地,所述第二迭代更新单元,还用于迭代更新过程中采用的目标函数为:
[0038]
[0039] 其中,Suv表示用户标识信息u与用户标识信息v之间的第一相似度;Qu表示用户标识信息u当前的用户特征;Qv表示用户标识信息v当前的用户特征;T表示矩阵转置。
[0040] 另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行,以实现如上述方面所述的网络用户相似度管理方法。
[0041] 另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行,以实现如上述方面所述的网络用户相似度管理方法。
[0042] 本申请实施例提供的技术方案带来的有益效果至少包括:
[0043] 本申请实施例提供的方法、装置及存储介质,获取终端的网络连接记录,对网络连接记录进行解析处理,以得到网络连接记录中的用户标识信息和设备标识信息,对用户标识信息、设备标识信息及用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,对网络图中各个节点的连接关系进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征,根据多个用户标识信息中任两个用户标识信息的用户特征,获取任两个用户标识信息之间的相似度。通过对获取到的网络连接记录进行解析处理,根据用户属性信息对用户特征的影响,确定出用户节点、设备节点及用户属性节点之间的连接关系,使确定的网络图中的连接关系更为准确,从而使根据网络图获取到的用户特征更准确,使确定的用户之间的相似度更准确,从而能够精准地对人群进行分类,确定不同的人群,提高了定向人群的用户覆盖率和准确率,以使后续精准的广告推广。并且能够通过用户相似度,实现对定向人群的扩散,以便后续能够对定向人群中流失的用户进行召回。
[0044] 且通过考虑到设备属性信息对用户特征的影响,使根据网络图确定的用户特征更准确,从而提高了用户标识信息之间的相似度的准确性。通过将概率和相似度结合的方式确定用户特征,考虑到了多种因素之间的关系对用户特征的影响,从而提高了确定的用户特征的准确性,从而提高了用户标识信息之间的相似度的准确性。附图说明
[0045] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0046] 图1是本申请实施例提供的一种网络用户相似度管理方法的流程图
[0047] 图2是本申请实施例提供的另一种网络用户相似度管理方法的流程图;
[0048] 图3是本申请实施例提供的一种网络图;
[0049] 图4是本申请实施例提供的另一种网络图;
[0050] 图5是本申请实施例提供的另一种网络用户相似度管理方法的流程图;
[0051] 图6是本申请实施例提供的另一种网络用户相似度管理方法的流程图;
[0052] 图7是本申请实施例提供的一种用户设备与节点设备的连接示意图;
[0053] 图8是本申请实施例提供的一种获取两个用户标识信息之间的相似度的流程图;
[0054] 图9本申请实施例提供的一种网络用户相似度管理方法的流程图;
[0055] 图10是本申请实施例提供的一种网络用户相似度管理装置的结构示意图;
[0056] 图11是本申请实施例提供的另一种网络用户相似度管理装置的结构示意图;
[0057] 图12是本申请实施例提供的一种终端的结构示意图;
[0058] 图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

[0059] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0060] 为了便于理解本申请实施例的技术过程,下面对本申请实施例所涉及的一些名词进行解释:
[0061] 同构图/异构图:在图论中采用同构图或异构图表示节点之间的连接关系,表达形式为G=(V,E),V表示图中的节点,E表示中两个节点之间的连接线,当图中的全部节点V属于同一个类别时,该图为同构图,当图中的节点V包括不属于同一个类别时,该图为异构图。例如,在本申请实施例中的用户节点和设备节点不属于同一个类别,则用户节点和设备节点可以构成异构图。
[0062] 二分图:在图论中,异构图是一类特殊的异构图,又称为双分图、二部图、偶图。异构图的顶点可以分成两个互斥的独立集U和V的图,使得所有的边都是连结一个U中的点和一个V中的点,而不会连接U中的两个点,或者连接V中的两个点。例如,本申请实施例中提供的网络图中只包括用户节点和设备节点,该网络图即为二分图。
[0063] 热传导算法:一种结合能量扩散和热量扩散的算法。能量扩散满足守恒定律,物体传导给连接的其他物体的总能量等于该物体的总能量;热量扩散,一般由一个或多个恒温热源驱动,不满足守恒定律,物体传导给连接的其他物体的温度等于该物体的温度。
[0064] 例如,基于上述热传导算法的原理,本申请实施例中,用户节点1与设备节点2连接,设备节点2与用户节点3连接,则用户节点1与用户节点3之间具有一定的关联性。
[0065] KL(Kullback-Leibler Divergence,相对熵)散度:也叫做相对熵,用于度量两个概率分布之间的差异程度。
[0066] Node2Vec(节点2向量):一种用于产生网络中节点对应的特征的网络模型,其输入是结构图,而输出则是每个节点对应的特征,如本申请实施例中用户标识信息的用户特征和设备标识信息的设备特征。
[0067] 本申请实施例提供的一种网络用户相似度管理方法,获取网络连接记录,对网络连接记录进行解析处理,以构造用于表示用户节点与设备节点之间关系的网络图,根据网络图中的各个节点的连接关系,确定每个用户标识信息的用户特征,从而可以获取任两个用户标识信息之间的相似度。
[0068] 该方法可应用于计算机设备中,计算机设备包括终端或服务器,终端可以为手机、电脑、平板电脑等,服务器可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个计算服务中心。
[0069] 当计算机设备包括终端时,该终端接收到其他多个终端发送的网络连接记录,对网络连接记录进行解析处理,从而确定每个用户标识信息的用户特征;当计算机设备包括服务器时,服务器接收到多个终端上传的网络连接记录,对获取到的网络连接记录进行解析处理,从而确定每个用户标识信息的用户特征,从而可以获取任两个用户标识信息之间的相似度。
[0070] 本申请实施例提供的网络用户相似度管理方法,可应用于获取用户相似度的场景下。
[0071] 例如,广告推送场景下
[0072] 用户通过终端与接入点设备建立网络连接,终端通过该网络连接,将该终端与接入点设备的网络连接记录上传至服务器。服务器采用本申请实施例提供的网络用户相似度管理方法,对收集到的网络连接记录进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征,根据任两个用户标识信息的用户特征,确定任两个用户标识信息之间的相似度,从而能够根据相似度对人群进行分类,确定不同类别的人群,针对不同类别的人群推送不同的广告。
[0073] 或者,推荐好友场景:
[0074] 用户通过终端与接入点设备建立网络连接,终端通过该网络连接,将该终端与接入点设备的网络连接记录上传至服务器。服务器采用本申请实施例提供的网络用户相似度管理方法,对收集到的网络连接记录进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征,根据任两个用户标识信息的用户特征,确定任两个用户标识信息之间的相似度,从而能够根据相似度确定与该用户相似的多个用户,将该多个用户作为推荐好友推送给该用户。
[0075] 图1是本申请实施例提供的一种网络用户相似度管理方法的流程图,应用于服务器中,如图1所示,该方法包括:
[0076] 101、服务器获取终端的网络连接记录。
[0077] 其中,网络连接记录包括终端接入网络的用户标识信息及所接入网络信息,网络信息包括网络对应的接入点设备的设备标识信息,用户标识信息可以为用户账号、电话号码、用户昵称等,设备标识信息可以为设备名称、SN(Serial Number,序列号)码、二维码等。网络连接记录用于记录用户标识信息对应的用户设备与网络对应的接入点设备建立网络连接。
[0078] 例如,用户标识信息A对应的终端,与设备标识信息B对应的接入点设备连接,则终端上会生成一条网络连接记录,该网络连接记录包括用户标识信息A和设备标识信息B。
[0079] 可选地,网络连接记录是由终端发送给服务器的。
[0080] 在一种可能实现方式中,终端基于用户标识信息登录终端关联的服务器,在终端与接入点设备建立网络连接,生成一条网络连接记录,该网络连接记录包括该用户标识信息和该接入点设备的设备标识信息,终端向服务器发送该网络连接记录。
[0081] 在另一种可能实现方式中,终端安装有用于管理无线网络的应用客户端,基于用户标识信息登录应用客户端关联的服务器,终端通过该应用客户端,与接入点设备建立网络连接时,生成一条网络连接记录,通过该应用客户端,将生成的网络连接记录上传至该应用客户端关联的服务器。
[0082] 例如,手机安装有用于管理无线网络的WiFi(无线网络)管家,基于用户标识信息登录WiFi管家,通过WiFi管家与任一接入点设备连接,产生与接入点设备的网络连接记录,该WiFi管家将该网络连接记录上传至与该WiFi管家关联的服务器。
[0083] 可选地,网络连接记录可以为预设时间段内的网络连接记录。
[0084] 在一种可能实现方式中,服务器接收到终端发送的多条网络连接记录后,根据网络连接记录的生成时间,在该多条网络连接记录中,筛选生成时间属于预设时间段内的多条网络连接记录,获取该多条网络连接记录。
[0085] 例如,终端向服务器发送网络连接记录时,该网络连接记录携带该网络连接记录的生成时间,服务器接收到多条网络连接记录,根据网络连接记录的生成时间,筛选出一个月内的多条网络连接记录,后续对该多条网络连接记录进行分析。
[0086] 102、服务器对网络连接记录进行解析处理,以得到网络连接记录中的用户标识信息和设备标识信息。
[0087] 由于网络连接记录中包括终端接入网络的用户标识信息及网络对应的接入点设备的设备标识信息,所以服务器对网络连接记录包括的网络连接记录进行解析处理,可以得到网络连接记录中的用户标识信息和设备标识信息。
[0088] 103、服务器对用户标识信息、设备标识信息、用户标识信息的用户属性信息及设备标识信息的设备属性信息进行同构或异构处理,以构造网络图。
[0089] 其中,网络图包括多个用户标识信息对应的多个用户节点、多个设备标识信息对应的多个设备节点、多个用户属性信息对应的多个用户属性节点及多个设备属性信息对应的多个设备属性节点,该网络图是各个节点之间连接关系的表示形式。
[0090] 在构造网络图时,对于属于同一类别的节点进行同构处理,对于不属于同一类别的节点进行异构处理,从而得到网络图,该网络图包括的用户节点、设备节点、用户属性节点及设备属性节点均属于不同的类别的节点。
[0091] 服务器确定用户标识信息与用户属性信息之间的关系,用户标识信息与设备标识信息之间的关系,设备标识信息与设备属性信息之间的关系,构造网络图,从而清晰的表达出各个节点之间的关系。
[0092] 需要说明的是,服务器可以获取多条网络连接记录,每条网络连接记录中包括用户标识信息和设备标识信息,则服务器对多条连接记录进行解析处理后,可以得到多个用户标识信息和多个设备标识信息,则如图2所示,步骤103可以包括以下步骤:
[0093] 1031、服务器将多个用户标识信息分别作为网络图中的用户节点,将多个设备标识信息分别作为网络图中的设备节点,根据关联关系将关联的用户节点与设备节点连接。
[0094] 其中,网络图是多个节点之间连接关系的表示形式,该网络图中包括不同类别的节点。本申请实施例中,用户节点和设备节点属于不同类别的节点。
[0095] 需要说明的是,在该多条网络连接记录中,任两条网络连接记录中的用户标识信息可以相同也可以不同,且任两条网络连接记录中的设备标识信息可以相同也可以不同,只需保证获取到多条不同的网络连接记录即可。
[0096] 为了能够清晰准确地表达用户标识信息和设备标识信息之间的关系,采用网络图的方式,将每个用户标识信息和每个设备标识信息分别作为一个节点,根据关联关系,将关联的用户标识信息对应的用户节点和设备标识信息对应的设备节点连接,用户节点与设备节点之间的连接线作为网络图中的边,将该多条连接条目中包括该用户节点与该设备节点的连接条目的数量确定为边的权重,则网络图中的每条边的权重大于等于1。
[0097] 如图3所示,左侧一列为用户节点1、用户节点2和用户节点3,右侧一列为设备节点A、设备节点B和设备节点C。用户节点1与设备节点C连接,则用户节点1与设备节点C之间的连接线作为网络图中的边,该边的权重为用户节点1与设备节点C对应的网络连接记录的数量。
[0098] 为了减少噪声,保证获取用户特征的准确度,在一种可能实现方式中,在步骤1031之前,该方法还包括:
[0099] 根据该多个用户标识信息中每个用户标识信息与每个设备标识信息的网络连接记录的数量,确定满足预设条件的多条网络连接记录,以便后续能够对该满足预设条件的多条网络连接记录进行分析,获取用户标识信息的用户特征。
[0100] 例如,在服务器获取到多个网络连接记录后,针对每个用户标识信息,分别确定该用户标识信息与多个设备标识信息的对应的网络连接记录的数量,按照数量由高到低的顺序排列,选择前80%的网络连接记录,或者,选择数量大于预设阈值的网络连接记录,如该预设阈值为3。
[0101] 1032、服务器根据多个用户标识信息的用户属性信息和多个用户属性节点的预设属性信息,确定每个用户节点匹配的用户属性节点,将每个用户节点与匹配的用户属性节点连接。
[0102] 在本申请实施例中,为了使得到的用户特征更准确,考虑到用户属性信息对用户特征的影响,将用户属性信息作为节点添加至网络图中。
[0103] 每个用户标识信息具有对应的用户属性信息,用户属性信息是用于描述用户身份的信息,可以包括性别、年龄、学历、职业、设备标签、资产标签、APP(Application,应用程序)标签、兴趣标签、POI(Point of Interest,兴趣点)标签等。
[0104] 对于用户标识信息的用户属性信息的获取方式,在一种可能实现方式中,终端向服务器发送网络连接记录时,还会携带该网络连接记录包括的用户标识信息的用户属性信息,服务器接收该网络连接记录,及该用户属性信息。
[0105] 另外,服务器还在网络图中设置了多个用户属性节点,每个用户属性节点具有对应的预设属性信息,不同用户属性节点的预设属性信息不同。
[0106] 例如,一个用户标识信息的用户属性信息可以包括多个维度的属性信息,而每个维度的属性信息也可以包括多种,例如性别维度上的属性信息可以包括男和女两种。因此,可以根据可能出现的所有维度及每个维度上可能出现的所有属性信息,来创建多个用户属性节点,为每个用户属性节点设置预设属性信息。不同用户属性节点的预设属性信息可以属于不同的维度,或者,不同用户属性节点的预设属性信息可以属于相同维度上的不同属性信息。
[0107] 在一种可能实现方式中,采用分箱处理方法,将收集到的多个用户属性信息进行离散化处理,得到每个维度上的多种用户属性信息,从而创建多个用户属性节点,根据每个维度上的多种用户属性信息,为每个用户属性节点设置一种预设属性信息。
[0108] 例如,对于年龄维度上的属性信息,将年龄分成9个年龄段,如[0-6]、[6-12]、[12-18]、[18-24],[24-30],[30-35],[35-45],[45-70],[70-100],根据9个年龄段设置9个用户属性节点,将该9个年龄段作为9个预设属性信息,为该9个用户属性节点分别设置一个预设属性信息;对于学历维度上的属性信息,将学历分为6种:小学、初中、高中、本科、硕士、博士,将该6种学历作为6个预设属性信息,设置6个用户属性节点,为该6个用户属性节点分别设置一个预设属性信息;对于职业维度上的属性信息,将职业分为多种,如教师、IT工程师、建筑工程师、会计师等,将每种职业作为一个用户属性节点,为每个用户属性节点设置一个预设属性信息。
[0109] 在一种可能实现方式中,在步骤1032之前,该方法还包括:
[0110] 服务器根据收集到的多个用户属性信息,预先设置多个用户属性节点,将收集到的每种不同的用户属性信息作为每个用户属性节点的预设属性信息。
[0111] 另外,服务器收集到新的用户属性信息时,根据已设置的多个用户属性节点的预设属性信息,筛选出未设置用户属性节点的用户属性信息,设置新的用户属性节点,从而将筛选出的用户属性信息设置为新的用户属性节点的预设属性信息,这样可以保证出现过的用户属性信息均可作为预设属性信息,实现了预设属性信息的更新。
[0112] 服务器获取到多个用户标识信息的用户属性信息后,对于每个用户标识信息,当该用户标识信息的用户属性信息中包括与任一用户属性节点的预设属性信息匹配的属性信息时,确定该用户标识信息对应的用户节点与该用户属性节点匹配,则在网络图中将该用户标识信息对应的用户节点与匹配的用户属性节点连接。
[0113] 例如,用户标识信息A的用户属性信息中包括年龄为25,用户属性节点B的预设属性信息为年龄段[24-30],25属于年龄段[24-30],则确定用户标识信息A的用户节点与用户属性节点B匹配。
[0114] 1033、服务器根据多个设备标识信息的设备属性信息和多个设备属性节点的预设属性信息,确定每个设备节点匹配的设备属性节点,将每个设备节点与匹配的设备属性节点连接。
[0115] 本申请实施例中,为了使得到的用户特征更准确,考虑到设备属性信息对用户特征的影响,将设备属性信息作为节点添加至网络图中。
[0116] 每个设备标识信息具有对应的设备属性信息,设备属性信息可以包括连接耗时、上网速度、等级、设备类型、设备品牌等,该设备类型可以包括是否需要认证、是否私人WiFi、是否公司WiFi等。
[0117] 对于设备标识信息的设备属性信息的获取方式,在一种可能实现方式中,终端向服务器发送网络连接记录时,还会携带该网络连接记录包括的设备标识信息的设备属性信息,服务器接收该网络连接记录,及该设备属性信息。
[0118] 另外,服务器还在网络图中设置了多个设备属性节点,每个设备属性节点具有对应的预设属性信息,不同设备属性节点的预设属性信息不同。
[0119] 例如,一个设备标识信息的设备属性信息可以包括多个维度的属性信息,而每个维度的属性信息也可以包括多种,例如设备等级维度上的属性信息可以包括一级、二级、三级等。因此,可以根据可能出现的所有维度及每个维度上可能出现的所有属性信息,来创建多个设备属性节点,为每个设备属性节点设置预设属性信息。不同设备属性节点的预设属性信息可以属于不同的维度,或者,不同设备属性节点的预设属性信息可以属于相同维度上的不同属性信息。
[0120] 在一种可能实现方式中,采用分箱处理方法,将收集到的多个设备属性信息进行离散化处理,得到每个维度上的多种设备属性信息,从而创建多个设备属性节点,根据每个维度上的多种设备属性信息,为每个设备属性节点设置一种预设属性信息。
[0121] 例如,连接耗时是终端与接入点设备进行连接时耗费的延迟时间,对于连接耗时维度上的属性信息,将连接耗时分成多个时长区间,根据该多个时长区间设置多个设备属性节点,将每个时长区间作为一个预设属性信息,为每个设备属性节点分别设置一个预设属性信息;对于上网速度维度上的属性信息,将上网速度分成多个速度区间,根据该多个速度区间设置多个设备属性节点,将每个速度区间作为一个预设属性信息,为每个设备属性节点分别设置一个预设属性信息。
[0122] 在一种可能实现方式中,在步骤1033之前,该方法还包括:
[0123] 服务器根据收集到的多个设备属性信息,预先设置多个设备属性节点,将收集到的每种不同的设备属性信息作为每个设备属性节点的预设属性信息。
[0124] 另外,服务器收集到新的设备属性信息时,根据已设置的多个设备属性节点的预设属性信息,筛选出未设置设备属性节点的设备属性信息,设置新的设备属性节点,从而将筛选出的设备属性信息设置为新的设备属性节点的预设属性信息,这样可以保证出现过的设备属性信息均可作为预设属性信息。
[0125] 服务器获取到多个设备标识信息的设备属性信息后,对于每个设备标识信息,当设备标识信息的设备属性信息中包括与任一设备属性节点的预设属性信息匹配的属性信息时,确定该设备标识信息对应的设备节点与该设备属性节点匹配,则在网络图中将该设备标识信息对应的设备节点与匹配的设备属性节点连接。
[0126] 步骤1032和步骤1033构建的网络图可以如图4所示,左侧一列为多个用户节点和多个设备属性节点,右侧一列为多个设备节点和多个用户属性节点,用户节点与设备节点之间的连接线作为网络图中的边,将一个用户标识信息和设备标识信息对应的网络连接记录的数量作为该边的权重。并且,用户节点与对应的用户属性节点连接,设备节点与对应的设备属性节点连接。
[0127] 104、服务器对网络图中各个节点的连接关系进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征和多个设备标识信息中每个设备标识信息的设备特征。
[0128] 由于网络图中包括用户节点、设备节点、用户属性节点、设备属性节点之间的连接关系,该网络图中的连接关系与用户设备与接入点设备的实际连接关系相近,则能够确定出每个用户标识信息的用户特征,及每个设备标识信息的设备特征。
[0129] 例如,根据网络图中各个节点的连接关系,采用Node2Vec图嵌入方法,将该网络图输入至Node2Vec的网络模型中,则该网络模型输出多个用户标识信息中每个用户标识信息的用户特征和多个设备标识信息中每个设备标识信息的设备特征。
[0130] 对于步骤104中确定用户特征的具体过程,可以采用以下两种方式:
[0131] 在第一种方式中,根据用户标识信息与设备标识信息的组合的出现概率和关联概率,确定用户特征,如图5所示,具体包括以下步骤:
[0132] 1041、服务器将网络图中的每个用户标识信息与每个设备标识信息分别进行组合,得到多种组合。
[0133] 其中,每种组合包括一个用户标识信息和一个设备标识信息。
[0134] 例如,该网络图中包括3个用户标识信息和3个设备标识信息,分别将每个用户标识信息分别与每个设备标识信息进行组合,共得到9个组合。
[0135] 1042、服务器根据网络图中各个节点的连接关系,分别获取每种组合的出现概率。
[0136] 其中,组合的出现概率为组合中的用户标识信息和设备标识信息对应的网络连接记录的数量与网络连接记录的总数量的比值。
[0137] 需要说明的是,服务器可能会获取到多条网络连接记录,则网络连接记录的总数量是指获取到的所有网络连接记录的数量。
[0138] 服务器根据网络图中各个节点的连接关系,当用户标识信息与设备标识信息连接时,根据连接的边的权重,即对应的网络连接记录的数量,确定该用户标识信息与该设备标识信息的组合的出现次数,当用户标识信息与设备标识信息未连接时,则确定该用户标识信息与该设备标识信息的组合的出现次数为0。服务器将多条网络连接记录的总数量作为多种组合的出现次数的总和,则对于每种组合,确定该组合的出现次数与多种组合的出现次数的总和的比值,即为该组合的出现概率。
[0139] 对于获取每种组合的出现概率,在一种可能实现方式中,获取用户标识信息u和设备标识信息i对应的网络连接记录的数量Wui,获取该多条网络连接记录的总数量∑Wst,根据该数量Wui和该总数量∑Wst的比值,获取用户标识信息u与设备标识信息i对应的组合的出现概率pui,该出现概率pui、该数量Wui及该总数量∑Wst满足以下关系:
[0140]
[0141] 其中,Wst表示用户标识信息s与设备标识信息t对应的网络连接记录的数量。
[0142] 如表1所示,表1中的数字表示用户标识信息和设备标识信息对应的网络连接记录的数量,也即是用户标识信息对应的用户设备与设备标识信息对应的接入点设备的网络连接记录的数量。多条网络连接记录的总数量为表1中所有数字之和,即为20,则用户标识信息1与设备标识信息1对应的组合的出现概率为0.25。
[0143] 表1
[0144]   设备标识信息1 设备标识信息2 设备标识信息3用户标识信息1 5 0 2
用户标识信息2 1 3 4
用户标识信息3 3 2 0
[0145] 1043、服务器根据每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征,分别获取每种组合的关联概率。
[0146] 其中,组合的关联概率用于表示组合中的用户标识信息当前的用户特征与组合中的设备标识信息当前的设备特征的关联程度。
[0147] 对于首次获取每种组合的关联概率,在一种可能实现方式中,获取每个用户标识信息初始化的用户特征及每个设备标识信息初始化的设备特征,根据每个用户标识信息初始化的用户特征及每个设备标识信息初始化的设备特征,分别获取每种组合的关联概率。
[0148] 其中,初始化的用户特征和初始化的设备特征为k维向量。
[0149] 例如,初始化的用户特征和初始化的设备特征分别是采用正态分布初始化得到的。如,正态分布的均值为0,方差为0.1。
[0150] 对于获取每种组合的关联概率,在一种可能实现方式中,对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征 根据转置特征 和设备标识信息i当前的设备特征Ri的乘积,获取用户标识信息u和设备标识信息i对应的关联概率 关联概率转置特征 和设备特征Ri满足以下关系:
[0151]
[0152] 其中,exp表示以自然常数e为底的指数函数。
[0153] 1044、服务器根据每种组合的出现概率与关联概率之间的差异,对每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征进行迭代更新,直至调整后获取到的出现概率与关联概率之间的差异收敛。
[0154] 由于关联概率是根据用户特征和设备特征得到的,而出现概率是根据多条网络连接记录得到的真实概率值,则当出现概率与关联概率之间的差异收敛时,即是当前的关联概率与出现概率接近,因此根据当前的关联概率确定的用户特征更准确。
[0155] 对于确定每种组合的出现概率与关联概率之间的差异,可采用KL(Kullback-Leibler Divergence,相对熵)散度,记为
[0156]
[0157] 其中,pui表示用户标识信息u与设备标识信息i对应的组合的出现概率; 表示用户标识信息u与设备标识信息i对应的关联概率;Wui表示用户标识信息u与设备标识信息i对应的网络连接记录的数量。
[0158] 对于迭代更新的过程,在首次根据初始化的用户特征和初始化的设备特征,确定每种组合的出现概率与出现概率之间的差异,对该初始化的用户特征和该初始化的设备特征进行调整,根据调整后的用户特征和调整后的设备特征,确定调整后的每种组合的关联概率,从而确定调整后的出现概率与关联概率之间的差异,按照上述过程,通过逐次对当前的用户特征和当前的设备特征进行迭代更新,在获取到的出现概率与关联概率之间的差异收敛时,确定每种组合当前的用户特征,此时所确定的用户特征可以认为是准确的用户特征。
[0159] 对于迭代更新的过程,在一种可能实现方式中,通过每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征进行迭代更新,当获取到的出现概率与关联概率之间的差异小于预设阈值时,确定获取到的出现概率与关联概率之间的差异收敛。
[0160] 在另一种可能实现方式中,通过每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征进行迭代更新,当迭代次数达到预设次数时,确定获取到的出现概率与关联概率之间的差异收敛。
[0161] 对于该步骤1044,在一种可能实现方式中,迭代更新过程中采用的目标函数为:
[0162]
[0163] 其中, 表示用户标识信息u与设备标识信息i对应的关联概率;Wui表示用户标识信息u与设备标识信息i对应的网络连接记录的数量。
[0164] 另外,采用上述第一种方式,当出现概率与关联概率之间的差异收敛时,不仅可以确定每个用户标识信息的用户特征,还可以确定每个设备标识信息的设备特征。
[0165] 在第二种方式中,根据每两个用户标识信息之间的相似度,确定用户特征,如图6所示,具体包括以下步骤:
[0166] 1045、服务器根据网络图中各个节点的连接关系,分别获取每两个用户标识信息之间的第一相似度。
[0167] 其中,第一相似度用于表示对应的两个用户标识信息的连接紧密程度。
[0168] 在网络图中,任两个用户节点是否连接共同的用户属性节点,是否连接共同的设备节点,且分别与共同连接的设备节点的边的权重是否相近,从而确定该任两个用户节点之间的相似度。
[0169] 例如,对于用户节点1和用户节点2,如果用户节点1和用户节点2共同连接多个设备节点和多个用户属性节点,且对于该多个设备节点中的与每个设备节点的连接的边的权重相近,则可以确定该用户节点1和用户节点2相似度高;如果用户节点1和用户节点2没有共同连接多个设备节点和多个用户属性节点,则可以确定该用户节点1和用户节点2相似度低。
[0170] 在一种可能实现方式中,确定用户标识信息u对应的用户节点与设备标识信息j对应的设备节点之间的连接关系auj,及用户标识信息v对应的用户节点与设备标识信息j对应的设备节点之间的连接关系avj;
[0171] 获取用户标识信息u对应的用户节点连接的设备节点的个数ku,及用户标识信息v对应的用户节点连接的设备节点的个数kv;
[0172] 根据连接关系auj、连接关系avj、个数ku、个数kv、及设备标识信息j对应的设备节点连接的用户节点的个数kj,获取用户标识信息u和用户标识信息v之间的第一相似度Suv,第一相似度Suv、连接关系auj、连接关系avj、个数ku、个数kv及个数kj满足以下关系:
[0173]
[0174] 其中,如果用户标识信息u对应的用户节点与设备标识信息j对应的设备节点连接,则auj取值为1,如果未连接则auj取值为0;如果用户标识信息v对应的用户节点与设备标识信息j对应的设备节点连接,则avj取值为1,如果未连接则avj取值为0;λ表示调整参数。
[0175] 由于网络图中,用户节点与设备节点连接,还与用户属性节点连接,则站在用户节点的度来讲,设备节点和用户属性节点的角色类似,用户节点与用户属性节点的连接关系也可以体现出不同用户之间的关联。设备节点与用户节点连接,还与设备属性节点连接,则站在设备节点的角度来讲,用户节点和设备属性节点的角色类似,设备节点与设备属性节点的连接关系也可以体现出不同设备之间的关联。
[0176] 因此,为了提高获取的用户特征的准确性,在另一种可能实现方式中,应用上述公式,获取两个用户标识信息之间的第一相似度时,将用户属性节点作为设备节点,将设备属性节点作为用户节点,则用户节点连接的设备节点的个数改变,设备节点连接的用户节点的个数改变,根据改变后的用户节点连接的设备节点的个数与改变后的设备节点连接的用户节点的个数,获取每两个用户标识信息之间的第一相似度。
[0177] 例如,将图4中的设备属性节点4和设备属性节点5分别作为用户节点4和用户节点5,将图4中的用户属性节点D、用户属性节点E和用户属性节点F分别作为设备节点D、设备节点E和设备节点F,则用户节点3连接的设备节点个数由2变为4,设备节点C连接的用户节点的个数由2变为4。
[0178] 1046、服务器根据每个用户标识信息当前的用户特征,分别获取每两个用户标识信息之间的第二相似度。
[0179] 其中,第二相似度用于表示对应的两个用户标识信息的用户特征的相似程度。第二相似度越大,表示该两个用户标识信息的用户特征越相似。
[0180] 对于首次获取每两个用户标识信息之间的第二相似度,在一种可能实现方式中,获取每个用户标识信息初始化的用户特征及每个设备标识信息初始化的设备特征,根据每个用户标识信息初始化的用户特征及每个设备标识信息初始化的设备特征,获取每两个用户标识信息之间的第二相似度。
[0181] 在一种可能实现方式中,对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征 根据转置特征 和用户标识信息v当前的用户特征Qv的乘积,获取用户标识信息u与用户标识信息v之间的第二相似度 第二相似度 转置特征 及用户特征Qv满足以下关系:
[0182]
[0183] 1047、服务器根据获取到的第二相似度与第一相似度之间的差异,对每个用户标识信息当前的用户特征进行迭代更新,直至调整后获取到的第二相似度与第一相似度之间的差异收敛。
[0184] 由于第二相似度是根据用户特征和设备特征得到的,而第一相似度是根据多条网络连接记录得到的真实相似度,则在确定第二相似度与第一相似度之间的差异收敛,也即是确定第二相似度与第一相似度接近,从而确定当前的用户特征,此时所确定的用户特征可以认为是准确的用户特征。
[0185] 对于该步骤中迭代更新的过程,与上述步骤1044中迭代更新的过程类似,在此不再赘述。
[0186] 对于于迭代更新的过程,在一种可能实现方式中,迭代更新过程中采用的目标函数为:
[0187]
[0188] 其中,Suv表示用户标识信息u与用户标识信息v之间的第一相似度;Qu表示用户标识信息u当前的用户特征;Qv,表示用户标识信息v当前的用户特征;T表示矩阵转置。
[0189] 需要说明的是,上述两种确定用户特征的具体过程,还可以结合两种过程,确定用户特征,先执行步骤1041-1043,再执行步骤1045-1046,最后将步骤1044和1047融合执行,对于融合步骤1044和1047后的步骤为:
[0190] 服务器根据每种组合的出现概率与关联概率之间的差异,及获取到的第二相似度与第一相似度之间的差异,对每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征进行迭代更新,直至调整后获取到的出现概率与关联概率之间的差异与第二相似度与第一相似度之间的差异之和收敛。
[0191] 对于融合后的步骤中的迭代更新,在一种可能实现方式中,迭代更新过程中采用的目标函数为:
[0192]
[0193] 其中,Wui表示用户标识信息u与设备标识信息i对应的网络连接记录的数量;表示用户标识信息u与设备标识信息i对应的关联概率;Suv表示用户标识信息u与用户标识信息v之间的第一相似度;Qu表示用户标识信息u当前的用户特征;Qv表示用户标识信息v当前的用户特征;T表示矩阵转置;γ表示调整参数,取值大于0,用于调整Suv对结果的影响;Q表示用户特征;R表示设备特征。
[0194] 上述公式表示通过对用户特征Q和设备特征R进行迭代更新,使出现概率与关联概率之间的差异与第二相似度与第一相似度之间的差异之和收敛,也即是出现概率与关联概率之间的差异,及第二相似度与第一相似度之间的差异均收敛。
[0195] 对于上述目标函数,在一种可能实现方式中,采用随机梯度下降法进行求解,则迭代更新过程中采用的公式为:
[0196]
[0197]
[0198] 其中,Qu表示用户标识信息u当前的用户特征;Wui表示用户标识信息u与设备标识信息i对应的网络连接记录的数量;σ(·)为sigmoid(S型)函数;Ri表示设备标识信息i当前的设备特征;Suv表示用户标识信息u与用户标识信息v之间的第一相似度;Qv表示用户标识信息v当前的用户特征;T表示矩阵转置;γ表示调整参数,取值大于0,用于调整Suv对结果的影响;μ表示学习率,取值大于0,一般取值为0.025。
[0199] 105、服务器根据多个用户标识信息中任两个用户标识信息的用户特征,确定任两个用户标识信息之间的相似度。
[0200] 确定用户标识信息的用户特征后,可采用上述步骤1066中的公式确定两个用户标识信息之间的相似度,还可以Jaccard(杰卡德)系数、Cosine(余弦函数)、欧式距离等确定两个用户标识信息之间的相似度。
[0201] 由于用户通常会到多个地方活动,如图7所示,在每个地方通过用户设备与接入点设备进行网络连接,所以能够根据任两个用户设备是否连接共同的接入点设备,判断出任两个用户之间是否经常会在同一个地方活动,从而确定出该两个用户之间的相似度。
[0202] 如图8所示,服务器通过获取到多条网络连接记录,通过对多条网络连接记录进行解析处理,根据用户节点与设备节点之间的连接关系、用户节点与用户属性节点之间的连接关系及设备节点与设备属性节点之间的连接关系,得到表示各个节点之间连接关系的网络图,通过该多条网络连接记录,确定用户标识信息与设备标识信息之间每种组合的出现概率和第一相似度;获取初始化的用户特征和初始化的设备特征,根据初始化的用户特征和初始化的设备特征,确定用户标识信息与设备标识信息之间每种组合的关联概率和第二相似度;通过对每个用户标识信息当前的用户特征进行迭代更新,使出现概率与关联概率之间的差异,及第二相似度与第一相似度之间的差异均收敛,从而得到每个用户标识信息的用户特征和每个设备标识信息的设备特征,根据任两个用户标识信息的用户特征,确定该两个用户标识信息之间的相似度。
[0203] 需要说明的是,本申请实施例提供的网络用户相似度管理方法是由服务器执行的,而在另一实施例中,网络用户相似度管理方法还可以由终端执行,终端获取网络连接记录后,对该网络连接记录进行解析进行分析,确定每个用户标识信息的用户特征,从而确定任两个用户标识信息之间的相似度。
[0204] 需要说明的是,本申请实施例提供的网络用户相似度管理方法中,对用户标识信息、设备标识信息、用户标识信息的用户属性信息及设备标识信息的设备属性信息进行同构或异构处理,以构造网络图,而在另一实施例中,在执行步骤102之后,对用户标识信息、设备标识信息及用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,而后再执行步骤104-105,从而确定出该两个用户之间的相似度。
[0205] 本申请提供的网络用户相似度管理方法,获取终端的网络连接记录,对网络连接记录进行解析处理,以得到网络连接记录中的用户标识信息和设备标识信息,对用户标识信息、设备标识信息及用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,对网络图中各个节点的连接关系进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征,根据多个用户标识信息中任两个用户标识信息的用户特征,获取任两个用户标识信息之间的相似度。通过对获取到的网络连接记录进行解析处理,根据用户属性信息对用户特征的影响,确定出用户节点、设备节点及用户属性节点之间的连接关系,使确定的网络图中的连接关系更为准确,从而使根据网络图获取到的用户特征更准确,使确定的用户之间的相似度更准确,从而能够精准地对人群进行分类,确定不同的人群,提高了定向人群的用户覆盖率和准确率,以使后续精准的广告推广。并且能够通过用户相似度,实现对定向人群的扩散,以便后续能够对定向人群中流失的用户进行召回。
[0206] 且通过考虑到设备属性信息对用户特征的影响,使根据网络图确定的用户特征更准确,从而提高了用户标识信息之间的相似度的准确性。通过将概率和相似度结合的方式确定用户特征,考虑到了多种因素之间的关系对用户特征的影响,从而提高了确定的用户特征的准确性,从而提高了用户标识信息之间的相似度的准确性。
[0207] 图9本申请实施例提供的一种网络用户相似度管理方法的流程图,应用于服务器中,如图9所示,该方法包括:
[0208] 901、服务器获取网络连接记录。
[0209] 902、服务器对网络连接记录进行解析处理,得到网络连接记录中的多个用户标识信息和多个设备标识信息。
[0210] 903、服务器将多个用户标识信息分别作为网络图中的用户节点,将多个设备标识信息分别作为网络图中的设备节点,将属于同一条网络连接记录的用户标识对应的用户节点与设备标识对应的设备节点连接。
[0211] 904、服务器根据多个用户标识信息的用户属性信息和多个用户属性节点的预设属性信息,确定每个用户节点匹配的用户属性节点,将每个用户节点与匹配的用户属性节点连接。
[0212] 905、服务器根据多个设备标识信息的设备属性信息和多个设备属性节点的预设属性信息,确定每个设备节点匹配的设备属性节点,将每个设备节点与匹配的设备属性节点连接。
[0213] 906、服务器将网络图中的每个用户标识信息与每个设备标识信息分别进行组合,得到多种组合。
[0214] 907、服务器根据网络图中各个节点的连接关系,分别获取每种组合的出现概率。
[0215] 908、服务器根据每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征,分别获取每种组合的关联概率。
[0216] 909、服务器根据网络图中各个节点的连接关系,分别获取每两个用户标识信息之间的第一相似度。
[0217] 910、服务器根据每个用户标识信息当前的用户特征,分别获取每两个用户标识信息之间的第二相似度。
[0218] 911、服务器根据每种组合的出现概率与关联概率之间的差异,及获取到的第二相似度与第一相似度之间的差异,对每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征进行迭代更新,直至调整后获取到的出现概率与关联概率之间的差异与第二相似度与第一相似度之间的差异之和收敛。
[0219] 912、根据多个用户标识信息中任两个用户标识信息的用户特征,确定任两个用户标识信息之间的相似度。
[0220] 需要说明的是,本申请实施例中的先执行步骤906-908,再执行步骤909-910,而在另一是实施例中,可以先执行步骤909-910,再执行步骤906-908。
[0221] 需要说明的是,本申请实施例提供的网络用户相似度管理方法是由服务器执行的,而在另一实施例中,网络用户相似度管理方法还可以由终端执行,终端获取网络连接记录后,对该网络连接记录进行解析处理,从而确定任两个用户标识信息之间的相似度。
[0222] 本申请实施例通过对获取到的网络连接记录进行解析处理,根据用户属性信息和设备属性信息对用户特征的影响,确定出用户节点、设备节点、用户属性节点及设备属性节点之间的连接关系,使确定的网络图中的连接关系更为准确。通过结合出现概率与关联概率之间的差异,及获取到的第二相似度与第一相似度之间的差异,从而使根据网络图获取到的用户特征更准确,使确定的用户之间的相似度更准确,从而能够精准地对人群进行分类,确定不同的人群,提高了定向人群的用户覆盖率和准确率,以使后续精准的广告推广。并且能够通过用户之间的相似度,实现对定向人群的扩散,以便后续能够对定向人群中流失的用户进行召回。
[0223] 图10是本申请实施例提供的一种网络用户相似度管理装置的结构示意图,如图10所示,该装置包括:
[0224] 获取模块1001,用于获取终端的网络连接记录,网络连接记录包括终端接入网络的用户标识信息及所接入网络信息,网络信息包括网络对应的接入点设备的设备标识信息;
[0225] 解析模块1002,用于对网络连接记录进行解析处理,以得到网络连接记录中的用户标识信息和设备标识信息;
[0226] 构造模块1003,用于对用户标识信息、设备标识信息及用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,网络图中包括多个用户标识信息对应的多个用户节点、多个设备标识信息对应的多个设备节点及多个用户属性信息对应的多个用户属性节点;
[0227] 用户特征确定模块1004,用于对网络图中各个节点的连接关系进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征;
[0228] 相似度获取模块1005,用于根据多个用户标识信息中任两个用户标识信息的用户特征,获取任两个用户标识信息之间的相似度。
[0229] 本申请提供的网络用户相似度管理装置,获取终端的网络连接记录,对网络连接记录进行解析处理,以得到网络连接记录中的用户标识信息和设备标识信息,对用户标识信息、设备标识信息及用户标识信息的用户属性信息进行同构或异构处理,以构造网络图,对网络图中各个节点的连接关系进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征,根据多个用户标识信息中任两个用户标识信息的用户特征,获取任两个用户标识信息之间的相似度。通过对获取到的网络连接记录进行解析处理,根据用户属性信息对用户特征的影响,确定出用户节点、设备节点及用户属性节点之间的连接关系,使确定的网络图中的连接关系更为准确,从而使根据网络图获取到的用户特征更准确,使确定的用户之间的相似度更准确,从而能够精准地对人群进行分类,确定不同的人群,提高了定向人群的用户覆盖率和准确率,以使后续精准的广告推广。并且能够通过用户相似度,实现对定向人群的扩散,以便后续能够对定向人群中流失的用户进行召回。
[0230] 可选地,如图11所示,构造模块,还用于对用户标识信息、设备标识信息、用户标识信息的用户属性信息及设备标识信息的设备属性信息进行同构或异构处理,以构造网络图,网络图中还包括多个设备属性信息对应的多个设备属性节点。
[0231] 可选地,如图11所示,该用户特征确定模块1004,包括:
[0232] 用户特征确定单元1041,用于对网络图中各个节点的连接关系进行解析处理,确定多个用户标识信息中每个用户标识信息的用户特征和多个设备标识信息中每个设备标识信息的设备特征。
[0233] 可选地,如图11所示,该用户特征确定模块1004,还包括:
[0234] 组合单元1042,用于将网络图中的每个用户标识信息与每个设备标识信息分别进行组合,得到多种组合,每种组合包括一个用户标识信息和一个设备标识信息;
[0235] 出现概率获取单元1043,用于对网络图中各个节点的连接关系进行解析处理,分别获取每种组合的出现概率,组合的出现概率为组合中的用户标识信息和设备标识信息对应的网络连接记录的数量与网络连接记录的总数量的比值;
[0236] 关联概率获取单元1044,用于根据每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征,分别获取每种组合的关联概率,组合的关联概率用于表示组合中的用户标识信息当前的用户特征与组合中的设备标识信息当前的设备特征的关联程度;
[0237] 第一迭代更新单元1045,用于根据每种组合的出现概率与关联概率之间的差异,对每个用户标识信息当前的用户特征及每个设备标识信息当前的设备特征进行迭代更新,直至调整后获取到的出现概率与关联概率之间的差异收敛。
[0238] 可选地,如图11所示,该关联概率获取单元1044,还用于对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征 根据转置特征 和设备标识信息i当前的设备特征Ri的乘积,获取用户标识信息u和设备标识信息i对应的关联概率 关联概率转置特征 和设备特征Ri满足以下关系:
[0239]
[0240] 其中,exp表示以自然常数e为底的指数函数。
[0241] 可选地,如图11所示,该第一迭代更新单元1045,还用于迭代更新过程中采用的目标函数为:
[0242]
[0243] 其中, 表示用户标识信息u与设备标识信息i对应的关联概率;Wui表示用户标识信息u与设备标识信息i对应的网络连接记录的数量。
[0244] 可选地,如图11所示,该用户特征确定模块1004,还包括:
[0245] 第一相似度获取单元1046,用于对网络图中各个节点的连接关系进行解析处理,分别获取每两个用户标识信息之间的第一相似度,第一相似度用于表示对应的两个用户标识信息的连接紧密程度;
[0246] 第二相似度获取单元1047,用于根据每个用户标识信息当前的用户特征,分别获取每两个用户标识信息之间的第二相似度,第二相似度用于表示对应的两个用户标识信息的用户特征的相似程度;
[0247] 第二迭代更新单元1048,用于根据获取到的第二相似度与第一相似度之间的差异,对每个用户标识信息当前的用户特征进行迭代更新,直至调整后获取到的第二相似度与第一相似度之间的差异收敛。
[0248] 可选地,如图11所示,该第一相似度获取单元1046,还用于确定用户标识信息u对应的用户节点与设备标识信息j对应的设备节点之间的连接关系auj,及用户标识信息v对应的用户节点与设备标识信息j对应的设备节点之间的连接关系avj,获取用户标识信息u对应的用户节点连接的设备节点的个数ku,及用户标识信息v对应的用户节点连接的设备节点的个数kv,根据连接关系auj、连接关系avj、个数ku、个数kv、及设备标识信息j对应的设备节点连接的用户节点的个数kj,获取用户标识信息u和用户标识信息v之间的第一相似度Suv,第一相似度Suv、连接关系auj、连接关系avj、个数ku、个数kv及个数kj满足以下关系:
[0249]
[0250] 其中,如果用户标识信息u对应的用户节点与设备标识信息j对应的设备节点连接,则auj取值为1,如果未连接则auj取值为0;如果用户标识信息v对应的用户节点与设备标识信息j对应的设备节点连接,则avj取值为1,如果未连接则avj取值为0;λ表示调整参数。
[0251] 可选地,如图11所示,该第二相似度获取单元1047,还用于对用户标识信息u当前的用户特征Qu进行矩阵转置,得到转置特征 根据转置特征 和用户标识信息v当前的用户特征Qv的乘积,获取用户标识信息u与用户标识信息v之间的第二相似度 第二相似度 转置特征 及用户特征Qv满足以下关系:
[0252]
[0253] 可选地,如图11所示,该第二迭代更新单元1048,还用于迭代更新过程中采用的目标函数为:
[0254]
[0255] 其中,Suv表示用户标识信息u与用户标识信息v之间的第一相似度;Qu表示用户标识信息u当前的用户特征;Qv表示用户标识信息v当前的用户特征;T表示矩阵转置。
[0256] 图12是本申请实施例提供的一种终端的结构示意图,可以实现上述实施例中第一终端、第二终端及第三终端执行的操作。该终端1200可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备、智能电视、智能音箱、智能遥控器、智能话筒,或其他任意智能终端。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0257] 通常,终端1200包括有:处理器1201和存储器1202。
[0258] 处理器1201可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。存储器1202可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的,用于存储至少一个指令,该至少一个指令用于被处理器1201所具有以实现本申请中方法实施例提供的网络用户相似度管理方法。
[0259] 在一些实施例中,终端1200还可选包括有:外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地,外围设备包括:射频电路1204、显示屏1205和音频电路1206中的至少一种。
[0260] 射频电路1204用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1204通过电磁信号与通信网络及其他通信设备进行通信。
[0261] 显示屏1205用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。该显示屏1205可以是触摸显示屏,还可以用于提供虚拟按钮和/或虚拟键盘
[0262] 音频电路1206可以包括麦克和扬声器。麦克风用于采集用户及环境的音频信号,并将音频信号转换为电信号输入至处理器1201进行处理,或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为音频信号。
[0263] 本领域技术人员可以理解,图12中示出的结构并不构成对终端1200的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0264] 图13是本申请实施例提供的一种服务器的结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central Processing Units,CPU)1301和一个或一个以上的存储器1302,其中,存储器1302中存储有至少一条指令,至少一条指令由处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0265] 服务器1300可以用于执行上述网络用户相似度管理方法。
[0266] 本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条程序代码,至少一条程序代码由处理器加载并具有以实现上述实施例的网络用户相似度管理方法。
[0267] 本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,至少一条程序代码由处理器加载并具有以实现上述实施例的网络用户相似度管理方法。
[0268] 本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以实现上述实施例的网络用户相似度管理方法。
[0269] 本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0270] 以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈