首页 / 专利库 / 电脑零配件 / 计算机系统 / 一种广告订单的快速聚类方法及系统、服务器

一种广告订单的快速聚类方法及系统、服务器

阅读:262发布:2024-02-28

专利汇可以提供一种广告订单的快速聚类方法及系统、服务器专利检索,专利查询,专利分析的服务。并且本 发明 涉及互联网技术领域,公开一种广告订单的快速聚类方法及系统、 服务器 ,该方法包括:从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;判断所述任意两条广告订单的相似度是否超过预设的相似度 阈值 ,如果是,将所述任意两条广告订单存储至 数据库 中的同一聚类标识对应的广告订单集合中。实施本发明 实施例 ,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。,下面是一种广告订单的快速聚类方法及系统、服务器专利的具体信息内容。

1.一种广告订单的快速聚类方法,其特征在于,包括:
从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征,所述场景全局语义特征作为一种图像全局特征的描述算子,所述广告订单为已投放的广告订单或待投放的广告订单;
根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
2.根据权利要求1所述的方法,其特征在于,所述从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征之前,所述方法还包括:
收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
3.根据权利要求2所述的方法,其特征在于,所述根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹包括:
根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告图像的图像指纹。
4.根据权利要求3所述的方法,其特征在于,所述根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度包括:
根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告订单的汉明相似度。
5.根据权利要求1~4任一项所述的方法,其特征在于,所述将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中之后,所述方法还包括:
收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL;
判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中任意一条广告订单包含的广告图像携带的URL相同;
若相同,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合中。
6.根据权利要求3所述的方法,其特征在于,所述局部敏感哈希LSH算法包括SimHash算法。
7.一种广告订单的快速聚类系统,其特征在于,包括:
特征提取单元,用于从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征,所述场景全局语义特征作为一种图像全局特征的描述算子,所述广告订单为已投放的广告订单或待投放的广告订单;
指纹获取单元,用于根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
相似度计算单元,用于根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
第一判断单元,用于判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
存储单元,用于在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:
收集单元,用于在所述特征提取单元从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征之前,收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
9.根据权利要求8所述的系统,其特征在于,
所述指纹获取单元,用于根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告图像的图像指纹。
10.根据权利要求9所述的系统,其特征在于,
所述相似度计算单元,用于根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告订单的汉明相似度。
11.根据权利要求8~10任一项所述的系统,其特征在于,
所述收集单元,还用于在所述存储单元将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中之后,收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL;
所述系统还包括:
第二判断单元,用于判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中任意一条广告订单包含的广告图像携带的URL相同;
所述存储单元,还用于在所述第二判断单元的判断结果为相同时,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合中。
12.根据权利要求9所述的系统,其特征在于,所述局部敏感哈希LSH算法包括SimHash算法。

说明书全文

一种广告订单的快速聚类方法及系统、服务器

技术领域

[0001] 本发明涉及互联网技术领域,具体涉及一种广告订单的快速聚类方法及系统、服务器。

背景技术

[0002] 在广告推荐中,通常会存在大量不同的广告订单包含完全相同或极其相似的广告图像的情况,在一些较为极端的情况下,甚至会有多达数千条不同的广告订单包含完全相同或极其相似的广告图像。而在实践中发现,包含完全相同或极其相似的广告图像的不同广告订单所携带的冗余信息通常是不同的,这导致了这类广告订单的稀疏分散,从而影响了这类广告订单投放的效果。

发明内容

[0003] 本发明实施例公开了一种广告订单的快速聚类方法及系统、服务器,用于实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
[0004] 本发明实施例第一方面公开了一种广告订单的快速聚类方法,包括:
[0005] 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
[0006] 利用所述广告图像的场景全局语义特征,获取所述广告图像的图像指纹;
[0007] 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
[0008] 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
[0009] 本发明实施例第二方面公开了一种广告订单的快速聚类系统,包括:
[0010] 特征提取单元,用于从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
[0011] 指纹获取单元,用于利用所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
[0012] 相似度计算单元,用于根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
[0013] 第一判断单元,用于判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
[0014] 存储单元,用于在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
[0015] 本发明实施例第三方面公开了一种用于广告订单快速聚类的服务器,所述服务器用于:
[0016] 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
[0017] 根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
[0018] 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
[0019] 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
[0020] 在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
[0021] 本发明实施例中,从广告订单包含的广告图像中提取出该广告图像的场景全局语义特征后,可以利用该广告图像的场景全局语义特征获取该广告图像的图像指纹,在此基础上,可以根据获取的任意两条广告订单包含的广告图像的图像指纹计算这任意两条广告订单的相似度,并且在判断这任意两条广告订单的相似度超过预设的相似度阈值时,将这任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。本发明实施例中,任意两条广告订单的相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施本发明实施例,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。附图说明
[0022] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0023] 图1是本发明实施例公开的一种广告订单的快速聚类方法的流程图
[0024] 图2是本发明实施例公开的一种普通Hash算法与LSH算法进行GIST特征聚类时的效果对比图;
[0025] 图3是本发明实施例公开的一种根据SimHash算法和广告图像的GIST特征获取该广告图像的图像指纹的过程示意图;
[0026] 图4是本发明实施例公开的另一种广告订单的快速聚类方法的流程图;
[0027] 图5是本发明实施例公开的一种完全相同或极其相似的广告图像的广告订单的示意图;
[0028] 图6是本发明实施例公开的一种采用计算层、收集层分开作业的方式来执行广告订单的快速聚类的方法流程图;
[0029] 图7是本发明实施例公开的一种广告订单的快速聚类系统的结构图。

具体实施方式

[0030] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0031] 本发明实施例公开了一种广告订单的快速聚类方法及系统,用于实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。以下分别进行详细说明。
[0032] 请参阅图1,图1是本发明实施例公开的一种广告订单的快速聚类方法的流程图。其中,图1所描述的广告订单的快速聚类方法适用于各种需要进行广告投放的服务器。如图
1所示,该广告订单的快速聚类方法可以包括以下步骤。
[0033] S101、从广告订单包含的广告图像中提取出该广告图像的场景全局语义(GIST)特征。
[0034] 本发明实施例中,可以由服务器从广告订单包含的广告图像中提取出该广告图像的场景全局语义(GIST)特征。
[0035] 本发明实施例中,GIST特征作为一种图像全局特征的描述算子,可以描述自然度、开放度、粗糙度、膨胀度及险峻度这五种空间包络,适用于场景识别与广告图像的相似度检索。
[0036] 本发明实施例中,步骤S101中的广告订单可以是已投放的广告订单,也可以是待投放的广告订单,本发明实施例不作限定。
[0037] S102、根据该广告图像的GIST特征获取该广告图像的图像指纹。
[0038] 本发明实施例中,可以由服务器根据该广告图像的GIST特征并结合局部敏感哈希(Local Sensitive Hashing,LSH)算法获取该广告图像的图像指纹。
[0039] 本发明实施例中,与普通Hash算法相比较,使用LSH算法可以实现更好的GIST特征聚类。如图2所示,圆点表示广告图像中相同或相似GIST特征,使用LSH算法可以实现比普通Hash算法更好的GIST特征聚类,从而可以为后续利用该广告图像的GIST特征并结合LSH算法获取该广告图像的图像指纹做准备。
[0040] 本发明实施例中,服务器具体可以根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹。其中,SimHash算法作为LSH算法中的一种高效的降维技术,它可以将高维向量映射为位数较小的指纹,并能保留原始特征的汉明相似度关系,其中,根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹的过程具体可以描述如下:
[0041] (1)、将f维的GIST特征向量V初始化为0,f位的二进制S初始化为0。
[0042] (2)、对每一维GIST特征:用传统的hash算法对该特征产生一个f位的签名b。对i从1到f:如果b的第i位为1,则V的第i个元素加上该维GIST特征的权重;否则,V的第i个元素减去该维GIST特征的权重。
[0043] (3)如果V的第i个元素大于0,则S的第i位为1,否则为0。
[0044] (4)输出S作为该广告图像的图像指纹。
[0045] 如图3所示,对每一维的GIST特征,可以采用传统的hash算法对该特征产生一个6位的签名b(如100110),并且利用hash算法产生的各个签名b和权重进行运算,最终可以输出一个6位的图像指纹110001。
[0046] S103、根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的相似度。
[0047] 本发明实施例中,可以由服务器根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的相似度。
[0048] 本发明实施例中,服务器可以根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为这任意两条广告订单的汉明相似度。
[0049] 举例来说,若获取的任意两条广告订单包含的广告图像的图像指纹之间有n(n大于等于1)个相同比特位的比特值不同,则这任意两条广告订单的汉明相似度为n。
[0050] S104、判断这任意两条广告订单的相似度是否超过预设的相似度阈值,如果是,将这任意两条广告订单存储至数据库中的同一聚类标识(ID)对应的广告订单集合中。
[0051] 本发明实施例中,可以由服务器判断这任意两条广告订单的汉明相似度是否超过预设的相似度阈值,如果是,可以由服务器将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。
[0052] 本发明实施例中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中,可以实现包含完全相同或极其相似的广告图像的这任意两条广告订单的快速聚类,进一步地,后续可以充分利用已投放的这类广告订单的投放路径来指导快速聚类的这类广告订单的精准投放,从而有利于提升这类广告订单投放效果。
[0053] 在图1所描述的方法中,从广告订单包含的广告图像中提取出该广告图像的GIST特征后,可以根据LSH算法和该广告图像的GIST特征获取该广告图像的图像指纹,在此基础上,可以根据获取的任意两条广告订单包含的广告图像的图像指纹计算这任意两条广告订单的汉明相似度,并且在判断这任意两条广告订单的汉明相似度超过预设的相似度阈值时,将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。在图1所描述的方法中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图1所描述的方法,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
[0054] 请参阅图4,图4是本发明实施例公开的一种广告订单的快速聚类方法的流程图。其中,图4所描述的广告订单的快速聚类方法适用于各种需要进行广告投放的服务器。如图
4所示,该广告订单的快速聚类方法可以包括以下步骤。
[0055] S401、服务器收集广告订单,该广告订单包括广告订单ID和广告图像,广告图像携带有统一资源定位符(Uniform Resource Locator,URL)。
[0056] 本发明实施例中,步骤S201中服务器收集的广告订单可以是已投放的广告订单,也可以是待投放的广告订单,本发明实施例不作限定。
[0057] S402、服务器从广告订单包含的广告图像中提取出该广告图像的GIST特征。
[0058] 本发明实施例中,GIST特征作为一种图像全局特征的描述算子,可以描述自然度、开放度、粗糙度、膨胀度及险峻度这五种空间包络,适用于场景识别与广告图像的相似度检索。
[0059] S403、服务器根据LSH算法和该广告图像的GIST特征,获取该广告图像的图像指纹。
[0060] 本发明实施例中,服务器具体可以根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹。其中,SimHash算法作为LSH算法中的一种高效的降维技术,它可以将高维向量映射为位数较小的指纹,并能保留原始特征的汉明相似度关系,其中,根据LSH算法中的SimHash算法和该广告图像的GIST特征,获取该广告图像的图像指纹的过程具体可以描述如下:
[0061] (1)、将f维的向量V初始化为0,f位的二进制S初始化为0。
[0062] (2)、对每一维GIST特征:用传统的hash算法对该特征产生一个f位的签名b。对i从1到f:如果b的第i位为1,则V的第i个元素加上该维GIST特征的权重;否则,V的第i个元素减去该维GIST特征的权重。
[0063] (3)如果V的第i个元素大于0,则S的第i位为1,否则为0。
[0064] (4)输出S作为该广告图像的图像指纹。
[0065] 本发明实施例中,使用SimHash算法的主要优点有:
[0066] A、一次性扫描数据完成聚类,快速。
[0067] B、不需要指定聚类中心个数,适合分布式环境。
[0068] C、生成的图像指纹在一定程度上表征两广告订单之间的相似度,为使用MinHash算法再对图像指纹进行进一步的聚类压缩,提供了可能。
[0069] S404、服务器根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的汉明相似度。
[0070] 本发明实施例中,服务器可以根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为这任意两条广告订单的汉明相似度。
[0071] 举例来说,若获取的任意两条广告订单包含的广告图像的图像指纹之间有n(n大于等于1)个相同比特位的比特值不同,则这任意两条广告订单的汉明相似度为n。
[0072] S405、服务器判断这任意两条广告订单的汉明相似度是否超过预设的相似度阈值,如果是,执行步骤S406;如果否,结束本流程。
[0073] 本发明实施例中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像。
[0074] 举例来说,如图5所示,图5中的a、b两条广告订单均包含了完全相同或极其相似的广告图像,则服务器判断这任意两条广告订单的汉明相似度超过预设的相似度阈值。
[0075] 本发明实施例中,预设的相似度阈值的大小可以根据实际需要进行设置,本发明实施例不作限定。
[0076] S406、服务器将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。
[0077] 本发明实施例中,将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中,可以实现包含完全相同或极其相似的广告图像的这任意两条广告订单的快速聚类,进一步地,后续可以充分利用已投放的这类广告订单的投放路径来指导快速聚类的这类广告订单的精准投放,从而有利于提升这类广告订单投放效果。
[0078] S407、服务器收集待投放广告订单,待投放广告订单包括广告订单ID和广告图像,广告图像携带有URL。
[0079] S408、服务器判断待投放广告订单包括的广告图像携带的URL是否与数据库中任意一条广告订单包含的广告图像携带的URL相同,若是,则执行步骤S409;若否,结束本流程。
[0080] S409、服务器将待投放广告订单存储至该任意一条广告订单所属的广告订单集合中。
[0081] 在图4所描述的方法中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图4所描述的方法,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
[0082] 本发明实施例中,上述图1、图2所描述的方法在具体实现中,可以采用计算层、收集层分开作业的方式来进行,其中,计算层主要在流程内完成收集广告订单、广告图像的相似度计算和聚类,收集层主要在流程内收集广告订单,更新数据库中的广告订单所属的广告订单集合,从而可以有效地保证了整个系统的实时性,降低了系统的出错率。
[0083] 请参阅图6,图6是本发明实施例公开的一种采用计算层、收集层分开作业的方式来执行广告订单的快速聚类的方法流程图。如图6所示,计算层主要在流程内完成收集广告订单、提取广告图像的GIST特征、广告图像的相似度计算和广告订单聚类,进一步地,如图6所示,在计算层中,可以从广告订单更新数据库中收集广告订单,还可以将广告图像的GIST特征存储到GIST特征数据库。而收集层主要在流程内收集广告订单,更新数据库中的广告订单所属的广告订单集合,进一步地,收集层还可以将收集的广告订单按照广告订单集合中已投放广告订单的投放路径,将收集的广告订单上传至分布式文件系统(HDFS)进行发布,从而可以提高收集的广告订单投放效果。
[0084] 请参阅图7,图7是本发明实施例公开的一种广告订单的快速聚类系统的结构图。如图7所示,该广告订单的快速聚类系统700可以包括:
[0085] 特征提取单元701,用于从广告订单包含的广告图像中提取出该广告图像的GIST特征;
[0086] 指纹获取单元702,用于利用该广告图像的GIST特征获取该广告图像的图像指纹;
[0087] 相似度计算单元703,用于根据获取的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单的相似度;
[0088] 第一判断单元704,用于判断这任意两条广告订单的相似度是否超过预设的相似度阈值;
[0089] 存储单元705,用于在第一判断单元的判断结果为是时,将相似度计算单元703计算汉明相似度的这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中。
[0090] 本发明实施例中,指纹获取单元702具体用于利用广告图像的场景全局语义特征并结合LSH算法获取广告图像的图像指纹。
[0091] 在一个实施例中,图7所示的广告订单的快速聚类系统700还可以包括:
[0092] 收集单元706,用于在特征提取单元701从广告订单包含的广告图像中提取出该广告图像的GIST特征之前,收集广告订单,广告订单包括广告订单ID和广告图像,广告图像携带有URL。
[0093] 相应地,特征提取单元701可以从收集单元706收集的广告订单包含的广告图像中提取出该广告图像的GIST特征。
[0094] 在一个实施例中,相似度计算单元703具体用于根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算这任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为这任意两条广告订单的汉明相似度。
[0095] 在一个实施例中,收集单元706还用于在存储单元705将这任意两条广告订单存储至数据库中的同一聚类ID对应的广告订单集合中之后,收集待投放广告订单,待投放广告订单包括广告订单ID和广告图像,广告图像携带有URL;
[0096] 相应地,图7所示的广告订单的快速聚类系统700还可以包括:
[0097] 第二判断单元707,用于判断待投放广告订单包括的广告图像携带的URL是否与数据库中任意一条广告订单包含的广告图像携带的URL相同;
[0098] 相应地,存储单元705还用于在第二判断单元707的判断结果为相同时,将待投放广告订单存储至该任意一条广告订单所属的广告订单集合中。
[0099] 本发明实施例中,LSH算法包括Simhash算法。其中,使用SimHash算法的主要优点有:
[0100] A、一次性扫描数据完成聚类,快速。
[0101] B、不需要指定聚类中心个数,适合分布式环境。
[0102] C、生成的图像指纹在一定程度上表征两广告订单之间的相似度,为使用MinHash算法再对图像指纹进行进一步的聚类压缩,提供了可能。
[0103] 在图7所描述的系统中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施图7所描述的系统,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
[0104] 本发明实施例还公开了一种用于广告订单快速聚类的服务器,所述服务器用于:
[0105] 从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征;
[0106] 根据所述广告图像的场景全局语义特征获取所述广告图像的图像指纹;
[0107] 根据获取的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度;
[0108] 判断所述任意两条广告订单的相似度是否超过预设的相似度阈值;
[0109] 在所述第一判断单元的判断结果为是时,将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中。
[0110] 在一个实施方式中,所述服务器从广告订单包含的广告图像中提取出所述广告图像的场景全局语义特征之前,还执行以下操作:
[0111] 收集广告订单,所述广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
[0112] 在一个实施方式中,所述服务器利用所述广告图像的场景全局语义特征获取所述广告图像的图像指纹的方式具体为:
[0113] 根据所述广告图像的场景全局语义特征并结合局部敏感哈希LSH算法获取所述广告图像的图像指纹。
[0114] 在一个实施方式中,所述服务器根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单的相似度的方式具体为:
[0115] 根据计算出的任意两条广告订单包含的广告图像的图像指纹,计算所述任意两条广告订单包含的广告图像的图像指纹之间的比特值不同的比特位个数,作为所述任意两条广告订单的汉明相似度。
[0116] 在一个实施方式中,所述服务器将所述任意两条广告订单存储至数据库中的同一聚类标识对应的广告订单集合中之后,还执行以下操作包括:
[0117] 收集待投放广告订单,所述待投放广告订单包括广告订单标识和广告图像,所述广告图像携带有统一资源定位符URL。
[0118] 判断所述待投放广告订单包括的所述广告图像携带的所述URL是否与所述数据库中任意一条广告订单包含的广告图像携带的URL相同;
[0119] 若相同,将所述待投放广告订单存储至所述任意一条广告订单所属的广告订单集合中。
[0120] 在上述服务器中,任意两条广告订单的汉明相似度超过预设的相似度阈值时,说明这任意两条广告订单包含了完全相同或极其相似的广告图像,通过实施上述描述的服务器,可以实现包含完全相同或极其相似的广告图像的不同广告订单的快速聚类,以利于提升这类广告订单投放效果。
[0121] 本领域普通技术人员可以理解图1所描述的方法中的全部或部分步骤是可以通过程序来指令服务器相关的硬件来完成,该程序可以存储于交易平台服务器一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
[0122] 以上对本发明实施例公开的广告订单的快速聚类方法及系统、服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈