一种广告人群的定向方法及装置专利检索-数据处理软件专利检索查询-专利查询网

一种广告人群的定向方法及装置

阅读：461发布：2023-05-29

专利汇可以提供一种广告人群的定向方法及装置专利检索，专利查询，专利分析的服务。并且本发明公开了一种广告人群的定向方法及装置，属于数据处理技术领域，用以在广告人群提取时实现标签用户扩散的同时，兼顾算法复杂度和准确性。该方法包括：获取用户输入的用于提取广告人群的目标用户标签；在预先获取的各个描述用户特征的用户标签中，分别确定所述目标用户标签与其它各个用户标签之间的相似度值；根据所述目标用户标签与其它各个用户标签之间的相似度值，确定与所述目标用户标签相似度最大的K个相似用户标签，K为自然数；将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含所述目标用户标签的用户作为定向到的广告人群。，下面是一种广告人群的定向方法及装置专利的具体信息内容。

权利要求

1.一种广告人群的定向方法，其特征在于，所述方法包括：
获取用户输入的用于提取广告人群的目标用户标签；
在预先获取的各个描述用户特征的用户标签中，分别确定所述目标用户标签与其它各个用户标签之间的相似度值；
根据所述目标用户标签与其它各个用户标签之间的相似度值，确定与所述目标用户标签相似度最大的K个相似用户标签，K为自然数；
将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含所述目标用户标签的用户作为定向到的广告人群。
2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
获取用户输入的定向用户数量；
在确定所述定向到的广告人群的数量大于或等于所述定向用户数量时，从所述定向到的广告人群中选择所述定向用户数量的用户；
在确定所述定向到的广告人群的数量小于所述定向用户数量时，增大所述K值，重新定向广告人群，并在重新定向的广告人群的数量大于或等于所述定向用户数量时，从所述重新定向的广告人群中选择所述定向用户数量的用户。
3.根据权利要求2所述的方法，其特征在于，将包含各个相似用户标签的用户作为定向到的广告人群时，所述从所述定向到的广告人群中选择所述定向用户数量的用户，包括：
针对所述K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集；
针对所述K个用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，所述每个用户集对应的评分值为所述每个用户集对应的相似用户标签与所述目标用户标签的相似度值；
基于所述每个用户的评分值，依据预设规则，从所述定向到的广告人群中选择所述定向用户数量的用户。
4.根据权利要求2所述的方法，其特征在于，将包含各个相似用户标签的用户和包含所述目标用户标签的用户作为定向到的广告人群时，所述从所述定向到的广告人群中选择所述定向用户数量的用户，包括：
针对所述K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集；
针对所述K个用户集中的每个用户以及包含所述目标用户标签的用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，所述每个用户集对应的评分值为所述每个用户集对应的相似用户标签与所述目标用户标签的相似度值；
基于所述每个用户的评分值，依据预设规则，从所述定向到的广告人群中选择所述定向用户数量的用户。
5.根据权利要求1所述的方法，其特征在于，所述分别确定所述目标用户标签与其它各个用户标签之间的相似度值，包括：
利用预先训练的词向量模型确定目标用户标签和每个其它用户标签对应的词向量；
基于所述目标用户标签与其它各个用户标签对应的词向量，分别确定所述目标用户标签与其它各个用户标签之间的相似度值。
6.根据权利要求5所述的方法，其特征在于，所述预先训练的词向量模型采用如下方式训练生成：
获取多个用户与用户标签集的对应关系作为训练样本数据；
基于所述训练样本数据和预先生成的训练标签，采用深度神经网络训练生成所述词向量模型，所述训练标签为所述训练样本数据中每个用户标签对应的词向量。
7.根据权利要求6所述的方法，其特征在于，所述获取多个用户与用户标签集的对应关系作为训练样本数据，包括：
在预先采集的用户与用户标签集的对应关系中，随机选取多个用户与用户标签集的对应关系作为训练样本数据。
8.根据权利要求7所述的方法，其特征在于，所述获取多个用户与用户标签集的对应关系作为训练样本数据，包括：
在预先采集的用户与用户标签集的对应关系中，筛选用户标签集中用户标签数量大于第一预设阈值的对应关系；
在筛选出的对应关系中，选取多个用户与用户标签集的对应关系作为训练样本数据。
9.根据权利要求7或8所述的方法，其特征在于，所述获取多个用户与用户标签集的对应关系作为训练样本数据，包括：
在预先采集的用户与用户标签集的对应关系中，统计包含每个用户标签的用户数量；
针对每一热门用户标签，从包含所述热门用户标签的用户中抽取第二预设阈值数量的用户，所述热门用户标签为包含用户标签的用户数量大于所述第二预设阈值的用户标签；
在抽取出的用户和包含非热门用户标签的用户中，选取多个目标用户，并将多个目标用户与用户标签集的对应关系作为训练样本数据，所述非热门用户标签为包含用户标签的用户数量小于或等于所述第二预设阈值的用户标签。
10.一种广告人群的定向装置，其特征在于，所述装置包括：
标签获取单元，用于获取用户输入的用于提取广告人群的目标用户标签；
相似度确定单元，用于在预先获取的各个描述用户特征的用户标签中，分别确定所述目标用户标签与其它各个用户标签之间的相似度值；
相似标签确定单元，用于根据所述目标用户标签与其它各个用户标签之间的相似度值，确定与所述目标用户标签相似度最大的K个相似用户标签，K为自然数；
定向单元，用于将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含所述目标用户标签的用户作为定向到的广告人群。

说明书全文

一种广告人群的定向方法及装置

技术领域

[0001] 本发明涉及数据处理技术领域，特别涉及一种广告人群的定向方法及装置。

背景技术

[0002] 标签人群提取是数据管理平台(Data Management Platform，DMP)中的一个重要组件，用户给定一系列用户标签作为定向条件，通过关联用户画像来提取广告人群，即通过丰富的兴趣、行为等用户标签组合，圈定所需的用户群体。

[0003] 通常，基于用户标签的广告人群提取只能提取包含用户标签的用户，也即包含用户标签的用户有多少就提取多少，若要提取更大规模的用户群体或者提取具体规模的用户群体，则需要进行标签用户扩散。

[0004] 目前主流的标签用户扩散做法是：使用包含用户标签的原始用户作为正样本，随机选取其它用户作为负样本(负样本的获得可以使用PU-Learning等方法)，在正样本和负样本中随机选取80％作为训练数据，20％作为测试数据，通过决策树、logistic regression、SVM等算法进行模型训练，最后将模型应用于所有用户，得到分类结果，按最大得分得到该用户标签的扩散结果。

[0005] 上述标签用户扩散算法，一方面需要对每一个用户标签都构建一个分类器，训练和维护的成本很大，算法复杂度高；另一方面，对于一些长尾冷门用户标签，由于包含用户标签的原始用户较少，训练时影响分类器的准确度。

发明内容

[0006] 本发明实施例提供一种广告人群的定向方法及装置，用以在广告人群提取时实现标签用户扩散的同时，兼顾算法复杂度和准确性。

[0007] 一方面，提供一种广告人群的定向方法，方法包括：

[0008] 获取用户输入的用于提取广告人群的目标用户标签；

[0009] 在预先获取的各个描述用户特征的用户标签中，分别确定目标用户标签与其它各个用户标签之间的相似度值；

[0010] 根据目标用户标签与其它各个用户标签之间的相似度值，确定与目标用户标签相似度最大的K个相似用户标签，K为自然数；

[0011] 将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群。

[0012] 一方面，提供一种广告人群的定向装置，装置包括：

[0013] 标签获取单元，用于获取用户输入的用于提取广告人群的目标用户标签；

[0014] 相似度确定单元，用于在预先获取的各个描述用户特征的用户标签中，分别确定目标用户标签与其它各个用户标签之间的相似度值；

[0015] 相似标签确定单元，用于根据目标用户标签与其它各个用户标签之间的相似度值，确定与目标用户标签相似度最大的K个相似用户标签，K为自然数；

[0016] 定向单元，用于将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群。

[0017] 可选的，装置还包括：

[0018] 数量获取单元，用于获取用户输入的定向用户数量；

[0019] 用户选择单元，用于在确定定向到的广告人群的数量大于或等于定向用户数量时，从定向到的广告人群中选择定向用户数量的用户；以及在确定定向到的广告人群的数量小于定向用户数量时，增大K值，重新定向广告人群，并在重新定向的广告人群的数量大于或等于定向用户数量时，从重新定向的广告人群中选择定向用户数量的用户。

[0020] 可选的，用户选择单元，具体用于：

[0021] 在定向单元将包含各个相似用户标签的用户作为定向到的广告人群时，针对K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集；

[0022] 针对K个用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，每个用户集对应的评分值为每个用户集对应的相似用户标签与目标用户标签的相似度值；

[0023] 基于每个用户的评分值，依据预设规则，从定向到的广告人群中选择定向用户数量的用户。

[0024] 可选的，用户选择单元，具体用于：

[0025] 在定向单元将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群时，针对K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集；

[0026] 针对K个用户集中的每个用户以及包含目标用户标签的用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，每个用户集对应的评分值为每个用户集对应的相似用户标签与目标用户标签的相似度值；

[0027] 基于每个用户的评分值，依据预设规则，从定向到的广告人群中选择定向用户数量的用户。

[0028] 可选的，相似度确定单元，具体用于：利用预先训练的词向量模型确定目标用户标签和每个其它用户标签对应的词向量；基于目标用户标签与其它各个用户标签对应的词向量，分别确定目标用户标签与其它各个用户标签之间的相似度值。

[0029] 可选的，相似度确定单元，采用如下步骤训练生成词向量模型：获取多个用户与用户标签集的对应关系作为训练样本数据；基于训练样本数据和预先生成的训练标签，采用深度神经网络训练生成词向量模型，训练标签为训练样本数据中每个用户标签对应的词向量。

[0030] 可选的，相似度确定单元，具体用于：在预先采集的用户与用户标签集的对应关系中，随机选取多个用户与用户标签集的对应关系作为训练样本数据。

[0031] 可选的，相似度确定单元，具体用于：在预先采集的用户与用户标签集的对应关系中，筛选用户标签集中用户标签数量大于第一预设阈值的对应关系；在筛选出的对应关系中，选取多个用户与用户标签集的对应关系作为训练样本数据。

[0032] 可选的，相似度确定单元，具体用于：在预先采集的用户与用户标签集的对应关系中，统计包含每个用户标签的用户数量；针对每一热门用户标签，从包含热门用户标签的用户中抽取第二预设阈值数量的用户，热门用户标签为包含用户标签的用户数量大于第二预设阈值的用户标签；在抽取出的用户和包含非热门用户标签的用户中，选取多个目标用户，并将多个目标用户与用户标签集的对应关系作为训练样本数据，非热门用户标签为包含用户标签的用户数量小于或等于第二预设阈值的用户标签。

[0033] 一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方面所述的方法步骤。

[0034] 一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机能够执行上述方面所述的方法。

[0035] 本发明实施例中，通过获取用户输入的用于提取广告人群的目标用户标签，在预先获取的各个描述用户特征的用户标签中，分别确定目标用户标签与其它各个用户标签之间的相似度值，并根据目标用户标签与其它各个用户标签之间的相似度值，确定与目标用户标签相似度最大的K个相似用户标签，将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群，从而实现了包含目标用户标签的标签人群扩散，同时无需对每一个用户标签都构建一个分类器，降低了算法复杂度，且对于长尾冷门用户标签，也可确定其相似用户标签，提高了准确性。附图说明

[0036] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其它的附图。

[0037] 图1为本发明实施例提供的广告人群的定向方法的流程示意图；

[0038] 图2为本发明实施例提供的创建用户标签提取的界面示意图；

[0039] 图3为本发明实施例提供的请求用户选择目标用户标签的界面示意图；

[0040] 图4为本发明实施例提供的展示包含用户标签的用户数量的界面示意图；

[0041] 图5为本发明实施例提供的词向量空间的示意图；

[0042] 图6为本发明实施例提供的广告人群的定向方法的具体流程的流程示意图；

[0043] 图7为本发明实施例提供的广告人群的定向装置的结构示意图；

[0044] 图8为本发明实施例提供的计算机设备的一种结构示意图。

具体实施方式

[0045] 为使本发明的目的、技术方案和优点更加清楚明白，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

[0046] 为便于理解本发明实施例提供的技术方案，这里先对本发明实施例使用的一些关键名词进行解释：

[0047] 用户标签：用于描述用户特征，例如，用户标签可以描述用户的兴趣、喜好、性格等。

[0048] 标签用户扩散：根据用户画像标签可以得到包含用户标签的用户列表，根据每个用户标签的原始对象列表对其进行对象扩散，满足用户定向需求，即在不明显影响实际效果(例如，广告效果)的情况下，扩大标签用户规模。

[0049] 另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，在不做特别说明的情况下，一般表示前后关联对象是一种“或”的关系。

[0050] 标签人群提取是数据管理平台(Data Management Platform，DMP)中的一个重要组件，用户给定一系列用户标签作为定向条件，通过关联用户画像来提取广告人群，即通过丰富的兴趣、行为等用户标签组合，圈定所需的用户群体。

[0051] 通常，基于用户标签的广告人群提取只能提取包含用户标签的用户，也即包含用户标签的用户有多少就提取多少，若要提取更大规模的用户群体或者提取具体规模的用户群体，则需要进行标签用户扩散。

[0052] 目前主流的标签用户扩散做法是：使用包含用户标签的原始用户作为正样本，随机选取其它用户作为负样本(负样本的获得可以使用PU-Learning等方法)，在正样本和负样本中随机选取80％作为训练数据，20％作为测试数据，通过决策树、logistic regression、SVM等算法进行模型训练，最后将模型应用于所有用户，得到分类结果，按最大得分得到该用户标签的扩散结果。

[0053] 上述标签用户扩散算法，一方面需要对每一个用户标签都构建一个分类器，训练和维护的成本很大，算法复杂度高；另一方面，对于一些长尾冷门用户标签，由于包含用户标签的原始用户较少，训练时影响分类器的准确度。

[0054] 鉴于此，本发明实施例提供了一种广告人群的定向方法，在该方法中，通过获取用户输入的用于提取广告人群的目标用户标签，在预先获取的各个描述用户特征的用户标签中，分别确定目标用户标签与其它各个用户标签之间的相似度值，并根据目标用户标签与其它各个用户标签之间的相似度值，确定与目标用户标签相似度最大的K个相似用户标签，将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群，从而实现了包含目标用户标签的标签人群扩散，同时无需对每一个用户标签都构建一个分类器，降低了算法复杂度，且对于长尾冷门用户标签，也可确定其相似用户标签，提高了准确性。

[0055] 并且，本发明实施例针对给定的定向用户数量，在确定定向到的广告人群的数量大于或等于定向用户数量时，可以直接从定向到的广告人群中选择定向用户数量的用户，而在确定定向到的广告人群的数量小于定向用户数量时，增大K值，重新定向广告人群，并在重新定向的广告人群的数量大于或等于定向用户数量时，从重新定向的广告人群中选择定向用户数量的用户，满足不同定向用户数量的要求。

[0056] 在介绍完本发明实施例的设计思想之后，下面对本发明实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本发明实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本发明实施例提供的技术方案。

[0057] 在一种场景中，以发明实施例中的技术方案在广告定向投放领域的应用为例，在该场景中，广告投放方在单页应用程序(Single Page web Application，SPA)上投放广告时，若需要将广告投放给包含用户标签“音乐发烧友”的用户，且希望投放给500万个用户。

[0058] 若SPA DMP系统中用户标签中包含“音乐发烧友”标签的用户只有100万，此时为了满足广告投放方的投放要求，寻找到最符合音乐发烧友这个用户标签特性同时满足规模的用户群体，可以采用本发明实施例提供的广告人群的定向方法来获取500万个包含“音乐发烧友”标签的用户。

[0059] 实际应用中，采用本发明实施例的方法，广告投放方可以选择投放广告需要的规模，而不用受限于包含用户标签的原始用户数量。

[0060] 在另一场景中，以发明实施例中的技术方案在数据脱敏领域的应用为例，在该场景中，如果包含用户标签的原始数据比较敏感，例如，用户有哪些标签，在给非广告业务使用的时候，为了给数据脱敏，可以对原始标签人群进行扩散，这样扩散后的结果就可以起到脱敏的作用，就可以提供给一些非广告类的业务使用。

[0061] 具体来说，对于专门为SPA广告业务构建的兴趣标签系统，如果需要提供给外部其它非广告业务使用，会遇到数据敏感性问题。例如，对于用户兴趣标签，可以在SPA兴趣标签系统的基础上，采用本发明实施例提供的广告人群的定向方法进行扩散，例如，扩散到原始标签人群规模的5倍，扩散后的人群可以提供给其它业务使用，由于其它业务无法获知哪些用户是原始真实标签人群，因此可以起到脱敏效果。

[0062] 当然，本发明实施例提供的方法并不限上述两个应用场景，还可以用于其它需要定向包含用户标签的用户群体的场景，本发明实施例并不进行限制。

[0063] 请参见图1，为本发明实施例提供的广告人群的定向方法的流程示意图，该方法例如可以本发明实施例提供的广告人群的定向装置来执行，当然，在实际应用过程中，该装置还可通过具备相应计算能力的计算机设备来实现，例如可以通过个人计算机(Personal Computer，PC)、服务器或者计算机集群来实现。该方法的流程描述如下。

[0064] 步骤101：获取用户输入的用于提取广告人群的目标用户标签。

[0065] 具体获取用户输入的用于提取广告人群的目标用户标签时，可以直接请求用户输入，例如：在终端界面中展示输入框，请求用户输入用于提取广告人群的目标用户标签；也可以向用户展示部分或全部用户标签，请求用户从展示的用户标签中选择用户标签作为输入的目标用户标签。

[0066] 当然，需要说明的是，在向用户展示部分或全部用户标签，请求用户从展示的用户标签中选择用户标签作为输入的目标用户标签时，为方便用户选取目标用户标签，可以将展示的部分或全部用户标签归类，并以多级列表的形式展示。

[0067] 在一个示例中，如图2所示，若用户点击“创建”按钮，则触发基于用户标签进行用户提取，则请求用户输入或者选择用于提取用户的目标用户标签。具体请参见图3，用户可以在一类标签、二类标签、三类标签中选择用于提取用户的目标用户标签，例如，图3中示出的用户选择的目标用户标签为“旅游”。

[0068] 步骤102：在预先获取的各个描述用户特征的用户标签中，分别确定目标用户标签与其它各个用户标签之间的相似度值。

[0069] 需要说明的是，各个描述用户特征的用户标签，可以在预先采集的用户与用户标签的对应关系中进行获取，例如，获取部分或全部不重复的用户标签。其中，用户与用户标签的对应关系可以由用户标签服务器实时采集并记录。

[0070] 例如，用户A新增用户标签a时，用户标签服务器将标签a加入用户A对应的用户标签集中；再例如，用户B的用户标签b被该用户标签的添加用户删除时，用户标签服务器在用户B对应的用户标签集中删除用户标签b。

[0071] 具体获取部分或全部不重复的用户标签时，可以以遍历的方式从预先采集的用户与用户标签集的对应关系中获取部分或全部不重复的用户标签，也可以先从预先采集的用户与用户标签集的对应关系中获取用户标签，然后进行去重处理得到部分或全部不重复的用户标签。

[0072] 具体实施时，确定目标用户标签与其它各个用户标签之间的相似度值时，可以将用户标签作为一个词语，直接计算目标用户标签与其它各个用户标签之间的语义相似度值，也可以将用户标签作为一种行为，先将目标用户标签与其它各个用户标签转换为对应的词向量，然后计算目标用户标签与其它各个用户标签对应的词向量之间的相似度值。

[0073] 具体地，计算目标用户标签与其它各个用户标签对应的词向量之间的相似度值时，可以计算目标用户标签与其它各个用户标签对应的词向量之间的余弦相似度，具体可以采用如下公式计算：

[0074]

[0075] 其中，sim(A，B)为用户标签A和用户标签B之间的相似度值，cosine(VA，VB)为用户标签A对应的词向量VA和用户标签B对应的词向量VB之间的余弦相似度。

[0076] 步骤103：根据目标用户标签与其它各个用户标签之间的相似度值，确定与目标用户标签相似度最大的K个相似用户标签，K为自然数。

[0077] 具体实施时，根据目标用户标签与其它各个用户标签之间的相似度值，确定与目标用户标签相似度最大的K个相似用户标签，可以先将目标用户标签与其它用户标签之间的相似度值降序排列，然后将排序结果中前K个相似度值对应的用户标签，确定为与目标用户标签相似度最大的K个相似用户标签。其中，K可以根据经验值设定，例如，K的取值为10。

[0078] 步骤104：将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群。

[0079] 具体实施时，在步骤103中确定与目标用户标签相似度最大的K个相似用户标签后，可以将包含各个相似用户标签的用户作为定向到的广告人群，也可以将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群，实现了对包含目标用户标签的标签人群扩散。

[0080] 具体应用中，将包含各个相似用户标签的用户作为定向到的广告人群的方式，相较于将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群的方式，在数据较为敏感的场景中，能够更好的为数据脱敏。

[0081] 请参见图4，本发明实施例在定向到广告人群之后，可以向用户展示包含目标用户标签的用户数量。其中，向用户展示包含目标用户标签的用户数量，可以是包含目标用户标签的用户数量和包含目标用户标签的相似用户标签的用户数量之和，也可以是包含目标用户标签的相似用户标签的用户数量。

[0082] 需要说明的是，上述实施例中均是针对一个目标用户标签进行说明，实际应用中，若需要对多个目标用户标签进行广告人群定向，则可以针对多个目标用户标签中的每个目标用户标签，均采用上述方式进行定向，本发明实施例对此不再赘述。

[0083] 实际应用中，用户在进行广告人群定向时，可能还会对定向到的广告人群数量有一定的要求，如此，本发明实施时还可以获取用户输入的定向用户数量，并在确定定向到的广告人群的数量大于或等于定向用户数量时，从定向到的广告人群中选择定向用户数量的用户，以及在确定定向到的广告人群的数量小于定向用户数量时，增大K值，采用上述步骤103-步骤104重新定向广告人群，并在重新定向的广告人群的数量大于或等于定向用户数量时，从重新定向的广告人群中选择定向用户数量的用户。

[0084] 举例来说，广告投放方在SPA上投放广告时，需要将广告投放给包含用户标签“音乐发烧友”的用户，且希望投放给500万个用户，也即目标用户标签为“音乐发烧友”，定向用户数量为500万。若SPA数据系统中包含“音乐发烧友”用户标签的原始用户有100万，则在定向包含“音乐发烧友”的广告人群时，可以在定向到的广告人群的数量大于500万时，从定向到的广告人群中选择500万个用户作为定向到的广告人群。当然，若定向到的广告人群的数量等于500万，则无需选择，可以直接将定向到的广告人群提供给用户。

[0085] 实际应用中，定向到的广告人群与定向用户数量往往不相等，因此，需要从定向到的广告人群中选择该定向用户数量的对象，具体选择时，根据上述步骤104中定向广告人群的方式不同，从定向到的广告人群中选择该定向用户数量的用户也稍有不同。具体来说，可以分为以下两种实施方式。

[0086] 实施方式一

[0087] 若步骤104中将包含各个相似用户标签的用户作为定向到的广告人群，从定向到的广告人群中选择该定向用户数量的用户时，针对K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集，针对K个用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，每个用户集对应的评分值为每个用户集对应的相似用户标签与目标用户标签的相似度值，基于每个用户的评分值，依据预设规则，从定向到的广告人群中选择定向用户数量的用户。

[0088] 实施方式二

[0089] 若步骤104中将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群，从定向到的广告人群中选择该定向用户数量的用户时，针对K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集，针对K个用户集中的每个用户以及包含目标用户标签的用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，每个用户集对应的评分值为每个用户集对应的相似用户标签与目标用户标签的相似度值，基于每个用户的评分值，依据预设规则，从定向到的广告人群中选择定向用户数量的用户。

[0090] 其中，预设规则可以是评分值由高到低的规则，也可以是评分值大于预设评分阈值的规则，本发明实施例对此不做限定。

[0091] 在一个示例中，假设目标用户标签的K个相似用户标签分别为用户标签A、用户标签B、用户标签C，若用户标签A与目标用户标签的相似度值为0.9，用户标签B与目标用户标签的相似度值为0.8，用户标签C与目标用户标签的相似度值为0.7，进而包含用户标签A的用户集中包括用户1、用户2、用户3、以及用户4，包含用户标签B的用户集中包括用户1、用户3、用户5、以及用户7，包含用户标签C的用户集中包括用户1、用户2、用户6、以及用户9。

[0092] 从定向到的广告人群中选择定向用户数量的用户时，计算每个用户的评分值，首先确定包含用户标签A的用户集的评分值为0.9，包含用户标签B的用户集的评分值为0.8，包含用户标签C的用户集的评分值为0.7，则由于用户1包含在用户标签A的用户集、用户标签B的用户集和用户标签C的用户集中，则可以计算得出用户1的评分值为2.4，由于用户2包含在用户标签A的用户集和用户标签C的用户集中，则可以计算得出用户2的评分值为1.6，以此类推，可以计算得出用户3的评分值为1.7，用户4的评分值为0.9，用户5的评分值为0.8，用户6的评分值为0.7，用户7的评分值为0.8，用户9的评分值为0.7。

[0093] 若预设规则为评分值由高到低的规则，定向用户数量为3，则从定向到的广告人群(包含用户标签A、用户标签B和用户标签C的用户)中选择该定向用户数量的用户时，选取用户1、用户2和用户3。

[0094] 上述实施例中步骤102具体计算用户标签之间的相似度值，将用户标签转换为对应的词向量时，可以利用预先训练的词向量模型确定每个用户标签对应的词向量。其中，预先训练的词向量模型采用如下方式训练生成：获取多个用户与用户标签集的对应关系作为训练样本数据，基于训练样本数据和预先生成的训练标签，采用深度神经网络训练生成词向量模型，训练标签为训练样本数据中每个用户标签对应的词向量。

[0095] 具体地，以词嵌入embedding中的word2vec为例，word2vec使用神经网络分析输入的训练样本数据(用户标签)，对每个用户标签生成代表这个用户标签的向量：把一个维数为所有用户标签数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个用户标签被映射为实数域上的向量。如果两个不同的用户标签经常出现在相似的语境里，可以认为把两个用户标签中的任一个作为输入，神经网络将会输出非常相近的预测值。两个用户标签出现在相似情境的次数越多，它们的坐标就会越接近，即使得语义接近的单词在嵌入后的空间里位置也会靠近。

[0096] 在一个示例中，如图5所示，文档1(document1)中的单词“Obama”与文档2(document2)中的单词“President”出现在相同语境中的次数较多，它们在词嵌入的向量空间中位置较为接近；文档1(document1)中的单词“speaks”与文档2(document2)中的单词“greets”出现在相同语境中的次数较多，它们在词嵌入的向量空间中位置较为接近；文档1(document1)中的单词“media”与文档2(document2)中的单词“press”出现在相同语境中的次数较多，它们在词嵌入的向量空间中位置较为接近；文档1(document1)中的单词“Illinois”与文档2(document2)中的单词“Chicago”出现在相同语境中的次数较多，它们在词嵌入的向量空间中位置较为接近。

[0097] 需要说明的是，获取多个用户与用户标签集的对应关系作为训练样本数据时，在一种可能的实施方式中，为了快速获取，可以在预先采集的用户与用户标签集的对应关系中，随机选取多个用户与用户标签集的对应关系作为训练样本数据。

[0098] 在另一可能的实施方式中，为了增加获取到的用户标签数量，也可以先在预先采集的用户与用户标签集的对应关系中，筛选用户标签集中用户标签数量大于第一预设阈值的对应关系，然后在筛选出的对应关系中，选取多个用户与用户标签集的对应关系作为训练样本数据。其中，第一预设阈值可以根据经验值进行设定，例如，第一预设阈值的取值为3。

[0099] 在又一可能的实施方式中，为了均衡训练样本数据中用户标签出现的频次，在预先采集的用户与用户标签集的对应关系中，获取多个用户与用户标签集的对应关系作为训练样本数据时，可以先统计包含每个用户标签的用户数量，并针对每一热门用户标签，从包含热门用户标签的用户中抽取第二预设阈值数量的用户，热门用户标签为包含用户标签的用户数量大于第二预设阈值的用户标签，然后在抽取出的用户和包含非热门用户标签的用户中，选取多个目标用户，并将多个目标用户与用户标签集的对应关系作为训练样本数据，非热门用户标签为包含用户标签的用户数量小于或等于第二预设阈值的用户标签。其中，第二预设阈值可以根据经验值设定，也可以根据包含每个用户标签的用户数量设定，例如，第二预设阈值设置为包含每个用户标签的用户数量的中位数。

[0100] 当然需要说明的是，在获取多个用户与用户标签集的对应关系作为训练样本数据时，上述三种实施方式可以单独使用，也可以结合使用，本发明实施对此不做限定。

[0101] 结合上述广告人群的定向方法以及词向量模型的训练方法，本发明实施例提供的广告人群的定向方法的具体流程，如图6所示，包括：

[0102] 步骤601：获取多个用户与用户标签集的对应关系作为训练样本数据，基于训练样本数据和预先生成的训练标签，采用深度神经网络训练生成词向量模型。

[0103] 步骤602：获取用户输入的用于提取广告人群的目标用户标签。

[0104] 步骤603：利用词向量模型得到目标用户标签对应的词向量、以及预先获取的各个用户标签对应的词向量。

[0105] 步骤604：根据目标用户标签以及预先获取的各个用户标签对应的词向量在词向量空间中的距离，确定与目标用户标签相似度最大的K个相似用户标签。

[0106] 需要说明的是，在词向量空间中，与目标用户标签对应的词向量距离越近的词向量，其对应的用户标签与目标用户标签的相似度越大。

[0107] 步骤605：将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群。

[0108] 请参见图7，基于同一发明构思，本发明实施例还提供了一种广告人群的定向装置70，包括：

[0109] 标签获取单元701，用于获取用户输入的用于提取广告人群的目标用户标签。

[0110] 相似度确定单元702，用于在预先获取的各个描述用户特征的用户标签中，分别确定目标用户标签与其它各个用户标签之间的相似度值。

[0111] 相似标签确定单元703，用于根据目标用户标签与其它各个用户标签之间的相似度值，确定与目标用户标签相似度最大的K个相似用户标签，K为自然数。

[0112] 定向单元704，用于将包含各个相似用户标签的用户作为定向到的广告人群，或者将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群。

[0113] 可选的，装置还包括：数量获取单元705，用于获取用户输入的定向用户数量；用户选择单元706，用于在确定定向到的广告人群的数量大于或等于定向用户数量时，从定向到的广告人群中选择定向用户数量的用户；以及在确定定向到的广告人群的数量小于定向用户数量时，增大K值，重新定向广告人群，并在重新定向的广告人群的数量大于或等于定向用户数量时，从重新定向的广告人群中选择定向用户数量的用户。

[0114] 可选的，用户选择单元706，具体用于：在定向单元将包含各个相似用户标签的用户作为定向到的广告人群时，针对K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集；针对K个用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，每个用户集对应的评分值为每个用户集对应的相似用户标签与目标用户标签的相似度值；基于每个用户的评分值，依据预设规则，从定向到的广告人群中选择定向用户数量的用户。

[0115] 可选的，用户选择单元706，具体用于：在定向单元将包含各个相似用户标签的用户和包含目标用户标签的用户作为定向到的广告人群时，针对K个相似用户标签，确定包含每个相似用户标签的用户集，得到K个用户集；针对K个用户集中的每个用户以及包含目标用户标签的用户集中的每个用户，根据每个用户所属的用户集以及每个用户集对应的评分值，确定每个用户的评分值，每个用户集对应的评分值为每个用户集对应的相似用户标签与目标用户标签的相似度值；基于每个用户的评分值，依据预设规则，从定向到的广告人群中选择定向用户数量的用户。

[0116] 可选的，相似度确定单元702，具体用于：利用预先训练的词向量模型确定目标用户标签和每个其它用户标签对应的词向量；基于目标用户标签与其它各个用户标签对应的词向量，分别确定目标用户标签与其它各个用户标签之间的相似度值。

[0117] 可选的，相似度确定单元702，采用如下步骤训练生成词向量模型：获取多个用户与用户标签集的对应关系作为训练样本数据；基于训练样本数据和预先生成的训练标签，采用深度神经网络训练生成词向量模型，训练标签为训练样本数据中每个用户标签对应的词向量。

[0118] 可选的，相似度确定单元702，具体用于：在预先采集的用户与用户标签集的对应关系中，随机选取多个用户与用户标签集的对应关系作为训练样本数据。

[0119] 可选的，相似度确定单元702，具体用于：在预先采集的用户与用户标签集的对应关系中，筛选用户标签集中用户标签数量大于第一预设阈值的对应关系；在筛选出的对应关系中，选取多个用户与用户标签集的对应关系作为训练样本数据。

[0120] 可选的，相似度确定单元702，具体用于：在预先采集的用户与用户标签集的对应关系中，统计包含每个用户标签的用户数量；针对每一热门用户标签，从包含热门用户标签的用户中抽取第二预设阈值数量的用户，热门用户标签为包含用户标签的用户数量大于第二预设阈值的用户标签；在抽取出的用户和包含非热门用户标签的用户中，选取多个目标用户，并将多个目标用户与用户标签集的对应关系作为训练样本数据，非热门用户标签为包含用户标签的用户数量小于或等于第二预设阈值的用户标签。

[0121] 请参见图8，基于同一技术构思，本发明实施例还提供了一种计算机设备80，可以包括存储器801和处理器802。

[0122] 所述存储器801，用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器802，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等等。本发明实施例中不限定上述存储器801和处理器802之间的具体连接介质。本发明实施例在图8中以存储器801和处理器802之间通过总线803连接，总线803在图8中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线803可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

[0123] 存储器801可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器801也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器801可以是上述存储器的组合。

[0124] 处理器802，用于调用所述存储器801中存储的计算机程序时执行如图7中所示的实施例中设备所执行的方法。

[0125] 在一些可能的实施方式中，本发明提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图7中所示的实施例中设备所执行的方法。

[0126] 所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

[0127] 尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

[0128] 显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

标题	发布/更新时间	阅读量
一种基于TCP连接的通信方法、装置及系统	2020-05-08	951
数据处理方法及相关产品	2020-05-08	596
用于立体车库的车辆数据处理方法、系统和存储介质	2020-05-08	981
溯源装置执行的数据处理方法、溯源装置及系统	2020-05-11	730
信息显示装置和方法以及程序和记录介质	2020-05-08	779
基于物联网的室内定位数据处理方法、装置及系统	2020-05-08	480
数据处理方法及装置、存储介质及电子终端	2020-05-08	900
一种基于BIM技术的钢结构工程可视化验收方法	2020-05-11	776
数据处理方法、装置和机器可读介质	2020-05-11	686
一种数据传输方法、装置、设备及计算机可读存储介质	2020-05-08	77

一种广告人群的定向方法及装置

一种广告人群的定向方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：