一种目标用户的挖掘方法、装置、电子设备及存储介质专利检索-根哈希资料储存系统专利检索查询-专利查询网

一种目标用户的挖掘方法、装置、电子设备及存储介质

阅读：241发布：2023-03-03

专利汇可以提供一种目标用户的挖掘方法、装置、电子设备及存储介质专利检索，专利查询，专利分析的服务。并且本发明实施例提供了一种目标用户的挖掘方法、装置、电子设备及存储介质，该方法和装置具体为根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；将超过预设阈值的相似度所对应的待选用户选定为目标用户。本方案通过对待选用户的图嵌入向量与基准向量之间进行比较的方式进行用户挖掘，有效降低了检索的数据量，从而加快了检索效率，进而有效提高了用户挖掘的效率。，下面是一种目标用户的挖掘方法、装置、电子设备及存储介质专利的具体信息内容。

权利要求

1.一种目标用户的挖掘方法，其特征在于，包括：
根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；
计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；
将超过预设阈值的相似度所对应的待选用户选定为目标用户。
2.如权利要求1所述的挖掘方法，其特征在于，所述计算每个所述图嵌入向量与基准用户的基准向量之间的相似度，包括：
利用局部敏感哈希算法将所述多个待选用户的图嵌入向量哈希到多个哈希桶中；
根据所述基准向量对每个所述哈希桶中进行计算，得到所述相似度。
3.如权利要求1或2所述的挖掘方法，其特征在于，在所述根据预先训练的向量计算模型计算多个待选用户的图嵌入向量步骤之后，还包括：
将所述待选用户的人口统计学特征值加入到与其对应的所述图嵌入向量中。
4.如权利要求1或2所述的挖掘方法，其特征在于，还包括：
基于用户的行为构建多个用户的用户图，所述用户图包括多个节点，每个所述节点代表一个用户；
根据所述用户图选定正样本和负样本；
利用所述正样本和所述负样本进行模型训练，得到所述向量计算模型。
5.如权利要求4所述的挖掘方法，其特征在于，所述根据所述用户图选定正样本和负样本，包括：
在所述用户图中采用加权游走方法选定所述正样本；
从所述用户图中与特定用户有联系的其他用户中随机选取，得到所述负样本。
6.一种目标用户的挖掘装置，其特征在于，包括：
向量计算模块，被配置为根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；
相似度计算模块，被配置为计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；
目标选定模块，被配置为将超过预设阈值的相似度所对应的待选用户选定为目标用户。
7.如权利要求6所述的挖掘装置，其特征在于，还包括：
向量附加模块，被配置为在所述向量计算模块根据预先训练的向量计算模型计算多个待选用户的图嵌入向量之后，将所述待选用户的人口统计学特征值加入到与其对应的所述图嵌入向量中。
8.如权利要求6所述的挖掘装置，其特征在于，还包括：
图构建模块，被配置为基于用户的行为构建多个用户的用户图，所述用户图包括多个节点，每个所述节点代表一个用户；
样本选定模块，被配置为根据所述用户图选定正样本和负样本；
模型训练模块，被配置为利用所述正样本和所述负样本进行模型训练，得到所述向量计算模型。
9.一种电子设备，其特征在于，包括：
处理器；
用于存储处理器可执行指令的存储器；
其中，所述处理器被配置为执行如权利要求1～5任一项所述的挖掘方法。
10.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如权利要求1～5任一项所述的挖掘方法。

说明书全文

一种目标用户的挖掘方法、装置、电子设备及存储介质

技术领域

[0001] 本公开涉及互联网技术领域，尤其涉及一种目标用户的挖掘方法、装置、电子设备及存储介质。

背景技术

[0002] 随着网络技术的发展，人们的生活逐渐全面向互联网和移动互联网转移，然而我们在享受网络带来的便利的同时，极速发展的互联网也给我们带来了信息爆炸的问题。对于互联网平台来说，如果能够找到合适的目标用户的话，就可以针对相应目标用户实现相应的目的，例如，对于潜在的商业用户可以向其推送相应的信息，可以实现相应的营销目的。

[0003] 目前在寻找合适的目标用户时，是基于大规模离散深度学习来将用户映射到稠密的特征空间的方法，其通过一个全连接的神经网络对用户频特征进行变换，从而实现用户挖掘，整个计算过程的复杂度比较高，当数据量大的时候计算速度较慢，且因为需要到用户的整个向量空间中进行检索，而用户数量往往是上亿级别的，使得整个检索过程十分漫长，从而导致挖掘效率较低。发明内容

[0004] 为克服相关技术中存在的问题，本公开提供一种目标用户的挖掘方法、装置、电子设备及存储介质。

[0005] 第一方面，提供一种目标用户的挖掘方法，包括：

[0006] 根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；

[0007] 计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；

[0008] 将超过预设阈值的相似度所对应的待选用户选定为目标用户。

[0009] 可选的，所述计算每个所述图嵌入向量与基准用户的基准向量之间的相似度，包括：

[0010] 利用局部敏感哈希算法将所述多个待选用户的图嵌入向量哈希到多个哈希桶中；

[0011] 根据所述基准向量对每个所述哈希桶中进行计算，得到所述相似度。

[0012] 可选的，在所述根据预先训练的向量计算模型计算多个待选用户的图嵌入向量步骤之后，还包括：

[0013] 将所述待选用户的人口统计学特征值加入到与其对应的所述图嵌入向量中。

[0014] 可选的，还包括：

[0015] 基于用户的行为构建多个用户的用户图，所述用户图包括多个节点，每个所述节点代表一个用户；

[0016] 根据所述用户图选定正样本和负样本；

[0017] 利用所述正样本和所述负样本进行模型训练，得到所述向量计算模型。

[0018] 可选的，所述根据所述用户图选定正样本和负样本，包括：

[0019] 在所述用户图中采用加权游走方法选定所述正样本；

[0020] 从所述用户图中与特定用户有联系的其他用户中随机选取，得到所述负样本。

[0021] 第二方面，提供一种目标用户的挖掘装置，包括：

[0022] 向量计算模块，被配置为根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；

[0023] 相似度计算模块，被配置为计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；

[0024] 目标选定模块，被配置为将超过预设阈值的相似度所对应的待选用户选定为目标用户。

[0025] 可选的，所述相似度计算模块包括：

[0026] 第一计算单元，被配置为利用局部敏感哈希算法将所述多个待选用户的图嵌入向量哈希到多个哈希桶中；

[0027] 第二计算单元，被配置为根据所述基准向量对每个所述哈希桶中进行计算，得到所述相似度。

[0028] 可选的，还包括：

[0029] 向量附加模块，被配置为在所述向量计算模块根据预先训练的向量计算模型计算多个待选用户的图嵌入向量之后，将所述待选用户的人口统计学特征值加入到与其对应的所述图嵌入向量中。

[0030] 可选的，还包括：

[0031] 图构建模块，被配置为基于用户的行为构建多个用户的用户图，所述用户图包括多个节点，每个所述节点代表一个用户；

[0032] 样本选定模块，被配置为根据所述用户图选定正样本和负样本；

[0033] 模型训练模块，被配置为利用所述正样本和所述负样本进行模型训练，得到所述向量计算模型。

[0034] 可选的，所述样本选定模块包括：

[0035] 第一选定单元，被配置为在所述用户图中采用加权游走方法选定所述正样本；

[0036] 第二选定单元，被配置为从所述用户图中与特定用户有联系的其他用户中随机选取，得到所述负样本。

[0037] 第三方面，提供一种电子设备，包括：

[0038] 处理器；

[0039] 用于存储处理器可执行指令的存储器；

[0040] 其中，所述处理器被配置为执行如第一方面所述的挖掘方法。

[0041] 第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行如第一方面所述的挖掘方法。

[0042] 第五方面，提供一种计算机程序，包括第一方面所述的挖掘方法；

[0043] 本公开的实施例提供的技术方案可以包括以下有益效果：本方案通过对待选用户的图嵌入向量与基准向量之间进行比较的方式进行用户挖掘，有效降低了检索的数据量，从而加快了检索效率，进而有效提高了用户挖掘的效率。

[0044] 应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。附图说明

[0045] 此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

[0046] 图1是根据一示例性实施例示出的一种目标用户的挖掘方法的流程图；

[0047] 图2是根据一示例性实施例示出的另一种目标用户的挖掘方法的流程图；

[0048] 图3是根据一示例性实施例示出的又一种目标用户的挖掘方法的流程图；

[0049] 图4是根据一示例性实施例示出的一种目标用户的挖掘装置的框图；

[0050] 图5是根据一示例性实施例示出的另一种目标用户的挖掘装置的框图；

[0051] 图6是根据一示例性实施例示出的又一种目标用户的挖掘装置的框图；

[0052] 图7是根据一示例性实施例示出的一种电子设备的框图；

[0053] 图8是根据一示例性实施例示出的另一种电子设备的框图。

具体实施方式

[0054] 这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

[0055] 图1是根据一示例性实施例示出的一种目标用户的挖掘方法的流程图。

[0056] 参照图1所示，本实施例所提供的挖掘方法用于根据相应的目的挖掘目标用户，例如从互联网用户中挖掘潜在的商业用户，以便根据挖掘结果与潜在的商业用户发生商业联系，以实现相应的商业目的，如信息推广、广告推送等。该目标用户的挖掘方法包括如下步骤：

[0057] S101、根据向量计算模型计算多个待选用户的图嵌入向量。

[0058] 当本申请的之一技术方案应用于相应的网站时，该待选用户可以看做是该网站的所有用户，包括永久用户、临时客户、注册用户、访客用户等。鉴于这些用户或多或少都会在网站留有一些信息，因此这里首先获取多个待选用户的相关信息，然后利用预先训练的向量计算模型对这些用户的相关信息进行计算，从而得到所有待选用户的图嵌入向量。

[0059] 值得指出的是，该向量计算模型是基于预先构建的用户图进行训练所得。

[0060] S102、计算每个待选用户的图嵌入向量与基准向量的相似度。

[0061] 此处计算的基础是网站一般会有一些基准用户，并保存有该基准用户的基准向量，例如，网站一般会积累一些商业用户，并保存有根据上述方法计算得到的这些商业用户的用户向量，这些商业用户的用户向量即是这里的基准向量。

[0062] 在得到所有用户的图嵌入向量、即得到多个分别与相应待选用户对应的图嵌入向量后，计算每个图嵌入向量与基准向量之间的相似度，并根据实际情况确定一个预设阈值，或者说一个预设的相似度阈值，以将每个相似度与该预设阈值进行比较。

[0063] 在计算相似度时，通过如下具体步骤实现该相似度的计算：

[0064] 首先，利用局部敏感哈希算法将所有待选用户的图嵌入向量哈希到一个个的哈希桶中，局部敏感哈希算法能够保证相似度较高的图嵌入向量哈希到一个哈希桶中；然后，针对每个哈希桶中所有的图嵌入向量计算相对于基准向量的相似度。通过这种方法只需在更新的哈希桶中寻找，不需进行全局寻找，从而能够降低计算的负担。

[0065] S103、将相似度超过预设阈值的待选用户选定为目标用户。

[0066] 在确定每个用户的图嵌入向量与基准用户的基准向量之间的相似度后，即得到多个相似度后，从中进行选取，将相似度高于该预设阈值的图嵌入向量对应的待选用户选定为目标用户，即将相似度高于预设阈值的待选用户作为最终的挖掘结果。

[0067] 在基准用户为商业用户的情况下，这里所选定的目标用户为潜在的商业用户。并且，针对潜在的商业用户而言，与作为基准用户的商业用户的基准向量的相似度越高的待选用户越有可能为潜在的商业用户。此时，对该潜在的商业用户发送优惠劵或者折扣劵，以将其转化为实际商业用户。

[0068] 从上述技术方案可以看出，本申请提供了一种目标用户的挖掘方法，具体为根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；将超过预设阈值的相似度所对应的待选用户选定为目标用户。本方案通过对待选用户的图嵌入向量与基准向量之间进行比较的方式进行用户挖掘，有效降低了检索的数据量，从而加快了检索效率，进而有效提高了用户挖掘的效率。

[0069] 图2是根据一示例性实施例示出的另一种目标用户的挖掘方法的流程图。

[0070] 参照图2所示，本实施例所提供的挖掘方法包括如下步骤：

[0071] S201、根据向量计算模型计算多个待选用户的图嵌入向量。

[0072] 当本申请的之一技术方案应用于相应的网站时，该待选用户可以看做是该网站的所有用户，包括永久用户、临时客户、注册用户、访客用户等。鉴于这些用户或多或少都会在网站留有一些信息，因此这里首先获取多个待选用户的相关信息，然后利用预先训练的向量计算模型对这些用户的相关信息进行计算，从而得到所有待选用户的图嵌入向量。

[0073] S202、将待选用户的其他信息加入到对应的图嵌入向量。

[0074] 在得到每个待选用户的图嵌入向量后，将每个待选用户的人口统计学特征值加入到对应的图嵌入向量中，例如将离散化或归一化的年龄、性别、地域特征等，以保证相应图嵌入向量的恒定。

[0075] S203、计算每个待选用户的图嵌入向量与基准向量的相似度。

[0076] 在得到所有用户的图嵌入向量、即得到多个分别与相应待选用户对应的图嵌入向量后，计算每个图嵌入向量与基准向量之间的相似度，并根据实际情况确定一个预设阈值，或者说一个预设的相似度阈值，以将每个相似度与该预设阈值进行比较。

[0077] S204、将相似度超过预设阈值的待选用户选定为目标用户。

[0078] 在确定每个用户的图嵌入向量与基准用户的基准向量之间的相似度后，即得到多个相似度后，从中进行选取，将相似度高于该预设阈值的图嵌入向量对应的待选用户选定为目标用户，即将相似度高于预设阈值的待选用户作为最终的挖掘结果。

[0079] 从上述技术方案可以看出，本申请提供了一种目标用户的挖掘方法，具体为根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；并将图嵌入向量中加入人口统计学特征；计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；将超过预设阈值的相似度所对应的待选用户选定为目标用户。本方案通过对待选用户的图嵌入向量与基准向量之间进行比较的方式进行用户挖掘，有效降低了检索的数据量，从而加快了检索效率，进而有效提高了用户挖掘的效率。其相对于上一实施方式，通过拼接一些用户的人口统计学特征，从而可以保证相应图嵌入向量的恒定。

[0080] 图3是根据一示例性实施例示出的又一种目标用户的挖掘方法的流程图。

[0081] 参照图3所示，本实施例所提供的挖掘方法包括如下步骤：

[0082] S301、基于用户的行为建立用户的用户图。

[0083] 用户图中每个节点代表一个用户，而用户之间的关系、即图的边是通过作品来连结的，用户对其他用户的作品有观看，关注，喜欢等行为就认为这两个节点之间有边。不同的行为有不同的权重，喜欢的权重最高，关注次之，观看权重最轻。G＝(V，E，W),V代表节点，E代表边，W代表边的权重。

[0084] S302、根据用户图选定正样本和负样本。

[0085] 具体为在用户图中采用加权游走方法选定该正样本；负样本则从与特定用户没有联系的其他用户中随机选取。

[0086] S303、根据正样本和负样本进行模型训练。

[0087] 在得到正样本和负样本后，利用上述样本进行模型训练，从而得到相应的向量计算模型，该模型用于计算每个待选用户的图嵌入向量。

[0088] 本实施例中用于进行模型训练的神经网络分为2部分，下层是机器翻译中的编解码器，是无监督学习，这部分是提取全局信息的autocoder，xi＝[xi1，…，xij，…，xin]是G中节点i的输入向量表达，xij代表的是节点i和节点j之间边的归一化权重，没有连边为0。所以xi代表了用户与另外用户的交互情况，所以通过autocoder学出来的embedding表征的是用户的上下文结构信息。这部分的前向学习是输入节点xi经过dnn编码器得到embedding，embedding经过dnn的解码器还原成因此这部分的损失函数为下层部分各编码器的参数是共享的，同样解码器的参数也是共享的。

[0089] 上层是全连接的神经网络，这部分是监督学习，之前由加权游走形成的用户与用户的pair对，做为正样本，然后再在没有与用户i相连的用户随机采样作为负样本。这里的输入是下层学出来的两个用户的embedding拼接起来，然后经过隐藏层提取特征，最终经过sigmoid函数转换成概率，其中sigmoid函数计算公式如下：

[0090] σ(a)＝1/(1+exp(-a))

[0091] sigmoid函数的取值范围是(0，1)之间，得到两个用户的相似度再根据样本的标签(属于加权游走产生pair对的为正样本，否则为负样本)，使用LogLoss损失函数，损失函数如下：

[0092]

[0093] 预估的概率为pt＝σ(wt·xt)，σ是sigmoid函数，yt∈{0，1}是样本的标签。所以上层网络主要表征的是用户对的相似度(是否相连)，提取的是图中的局部信息。

[0094] 整个网络的损失由这两部分的损失组成，即：

[0095] ltotal＝ls+λ1lf+λ2lreg

[0096] 其中lreg代表的是正则项，λ1和λ2代表的超参数系数，在这里我们是挖掘商业用户，我们认为全局的交互信息更加重要，所以λ1＜1。而损失lf的部分能有效规避无监督模型无法离线评估模型效果的问题，也带来一定的信息增益。采用随机梯度下降法来最小化损失函数，并求解损失函数的梯度，然后逐层更新网络的参数，这两部分同时来更新embedding，所以embedding即包含全局的上下文信息，又包含局部结构信息，这样就能更加全面的表征用户在整个网络中的角色。

[0097] S304、根据向量计算模型计算多个待选用户的图嵌入向量。

[0098] 当本申请的之一技术方案应用于相应的网站时，该待选用户可以看做是该网站的所有用户，包括永久用户、临时客户、注册用户、访客用户等。鉴于这些用户或多或少都会在网站留有一些信息，因此这里首先获取多个待选用户的相关信息，然后利用预先训练的向量计算模型对这些用户的相关信息进行计算，从而得到所有待选用户的图嵌入向量。

[0099] S305、计算每个待选用户的图嵌入向量与基准向量的相似度。

[0100] 在得到所有用户的图嵌入向量、即得到多个分别与相应待选用户对应的图嵌入向量后，计算每个图嵌入向量与基准向量之间的相似度，并根据实际情况确定一个预设阈值，或者说一个预设的相似度阈值，以将每个相似度与该预设阈值进行比较。

[0101] S306、将相似度超过预设阈值的待选用户选定为目标用户。

[0102] 在确定每个用户的图嵌入向量与基准用户的基准向量之间的相似度后，即得到多个相似度后，从中进行选取，将相似度高于该预设阈值的图嵌入向量对应的待选用户选定为目标用户，即将相似度高于预设阈值的待选用户作为最终的挖掘结果。

[0103] 从上述技术方案可以看出，本申请提供了一种目标用户的挖掘方法，具体为首先训练向量计算模型，然后利用该向量计算模型计算多个待选用户的图嵌入向量；并将图嵌入向量中加入人口统计学特征；计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；将超过预设阈值的相似度所对应的待选用户选定为目标用户。本方案通过对待选用户的图嵌入向量与基准向量之间进行比较的方式进行用户挖掘，有效降低了检索的数据量，从而加快了检索效率，进而有效提高了用户挖掘的效率。相对于上面的实施方式，这里采用随机梯度下降法来最小化损失函数，并求解损失函数的梯度，然后逐层更新网络的参数，这样就能更加全面的表征用户在整个网络中的角色。

[0104] 图4是根据一示例性实施例示出的一种目标用户的挖掘装置的框图。

[0105] 参照图4所示，本实施例所提供的挖掘装置用于根据相应的目的挖掘目标用户，例如从互联网用户中挖掘潜在的商业用户，以便根据挖掘结果与潜在的商业用户发生商业联系，以实现相应的商业目的，如信息推广、广告推送等。该目标用户的挖掘装置包括向量计算模块10、相似度计算模块20和目标选定模块30。

[0106] 向量计算模块被配置为根据向量计算模型计算多个待选用户的图嵌入向量。

[0107] 当本申请的之一技术方案应用于相应的网站时，该待选用户可以看做是该网站的所有用户，包括永久用户、临时客户、注册用户、访客用户等。鉴于这些用户或多或少都会在网站留有一些信息，因此这里首先获取多个待选用户的相关信息，然后利用预先训练的向量计算模型对这些用户的相关信息进行计算，从而得到所有待选用户的图嵌入向量。

[0108] 值得指出的是，该向量计算模型是基于预先构建的用户图进行训练所得。

[0109] 相似度计算模块被配置为计算每个待选用户的图嵌入向量与基准向量的相似度。

[0110] 此处计算的基础是网站一般会有一些基准用户，并保存有该基准用户的基准向量，例如，网站一般会积累一些商业用户，并保存有根据上述方法计算得到的这些商业用户的用户向量，这些商业用户的用户向量即是这里的基准向量。

[0111] 在得到所有用户的图嵌入向量、即得到多个分别与相应待选用户对应的图嵌入向量后，计算每个图嵌入向量与基准向量之间的相似度，并根据实际情况确定一个预设阈值，或者说一个预设的相似度阈值，以将每个相似度与该预设阈值进行比较。

[0112] 该相似度计算模块具体包括第一计算单元和第二计算单元。

[0113] 第一计算单用于利用局部敏感哈希算法将所有待选用户的图嵌入向量哈希到一个个的哈希桶中，局部敏感哈希算法能够保证相似度较高的图嵌入向量哈希到一个哈希桶中；第二计算单元用于针对每个哈希桶中所有的图嵌入向量计算相对于基准向量的相似度。通过这种方法只需在更新的哈希桶中寻找，不需进行全局寻找，从而能够降低计算的负担。

[0114] 目标选定模块被配置为将相似度超过预设阈值的待选用户选定为目标用户。

[0115] 在确定每个用户的图嵌入向量与基准用户的基准向量之间的相似度后，即得到多个相似度后，从中进行选取，将相似度高于该预设阈值的图嵌入向量对应的待选用户选定为目标用户，即将相似度高于预设阈值的待选用户作为最终的挖掘结果。

[0116] 在基准用户为商业用户的情况下，这里所选定的目标用户为潜在的商业用户。并且，针对潜在的商业用户而言，与作为基准用户的商业用户的基准向量的相似度越高的待选用户越有可能为潜在的商业用户。此时，对该潜在的商业用户发送优惠劵或者折扣劵，以将其转化为实际商业用户。

[0117] 从上述技术方案可以看出，本申请提供了一种目标用户的挖掘装置，具体为根据预先训练的向量计算模型计算多个待选用户的图嵌入向量；计算每个所述图嵌入向量与基准用户的基准向量之间的相似度；将超过预设阈值的相似度所对应的待选用户选定为目标用户。。本方案通过对待选用户的图嵌入向量与基准向量之间进行比较的方式进行用户挖掘，有效降低了检索的数据量，从而加快了检索效率，进而有效提高了用户挖掘的效率。

[0118] 另外，本实施例中还包括向量附加模块40，如图5所示，该向量附加模块被配置为在向量计算模块计算出每个待选用户的图嵌入向量后，将待选用户的其他信息加入到对应的图嵌入向量中。

[0119] 具体为将每个待选用户的人口统计学特征值加入到对应的图嵌入向量中，例如将离散化或归一化的年龄、性别、地域特征等，以保证相应图嵌入向量的恒定。

[0120] 还有，如图6所示，本实施例中还包括图构建模块50、样本选定模块60和模型训练模块70。

[0121] 图构建模块被配置为基于用户的行为建立用户的用户图。

[0122] 用户图中每个节点代表一个用户，而用户之间的关系、即图的边是通过作品来连结的，用户对其他用户的作品有观看，关注，喜欢等行为就认为这两个节点之间有边。不同的行为有不同的权重，喜欢的权重最高，关注次之，观看权重最轻。G＝(V，E，W),V代表节点，E代表边，W代表边的权重。

[0123] 样本选定模块别配置为根据用户图选定正样本和负样本。

[0124] 该模块具体包括第一选定单元和第二选定单元，第一选定单元用于在用户图中采用加权游走方法选定该正样本；第二选定单元用于选定负样本，负样本从与特定用户没有联系的其他用户中随机选取。

[0125] 模型训练模块被配置为根据正样本和负样本进行模型训练。

[0126] 在得到正样本和负样本后，利用上述样本进行模型训练，从而得到相应的向量计算模型，该模型用于计算每个待选用户的图嵌入向量。

[0127] 这里采用随机梯度下降法来最小化损失函数，并求解损失函数的梯度，然后逐层更新网络的参数，这样就能更加全面的表征用户在整个网络中的角色。

[0128] 本实施例还提供一种计算机程序，该计算机程序用于执行如图1、图2或图3所示的目标用户的挖掘方法。

[0129] 图7是根据一示例性实施例示出的一种电子设备的框图。

[0130] 例如，电子设备700可以被提供为一服务器，包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。

[0131] 存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行如图1、图2或图3所示的目标用户的挖掘方法。

[0132] 电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口758。电子设备700可以操作基于存储在存储器732的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

[0133] 图8是根据一示例性实施例示出的另一种电子设备的框图。

[0134] 例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等移动终端。

[0135] 电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件809，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

[0136] 处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件809和处理组件802之间的交互。

[0137] 存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

[0138] 电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

[0139] 多媒体组件809包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件809包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

[0140] 音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

[0141] I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

[0142] 传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

[0143] 通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

[0144] 在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行如图1、图2或图3所示的目标用户的挖掘方法。

[0145] 在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

[0146] 本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

[0147] 应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

标题	发布/更新时间	阅读量
一种基于Merkle Tree变形算法的去重方法及装置	2020-05-13	428
一种生成哈希连接表的方法及装置	2020-05-11	536
一种处理网络流量分析的方法和装置	2020-05-13	664
一种IPv6无状态地址的处理方法和系统	2020-05-13	454
一种用于在多媒体装置上处理带内数据的方法及装置	2020-05-13	318
用于在存储系统上存取文件的方法和系统	2020-05-12	947
创建哈希表的方法和设备	2020-05-11	960
访问哈希表的装置和方法	2020-05-11	157
基于哈希的媒体搜索	2020-05-12	476
内容匹配方法和装置	2020-05-12	830

一种目标用户的挖掘方法、装置、电子设备及存储介质

一种目标用户的挖掘方法、装置、电子设备及存储介质

技术领域

背景技术

具体实施方式

该功能需要专业版企业版VIP权限，您可以：