首页 / 专利库 / 数学与统计 / 聚类算法 / 一种基于网上交易平台的数据处理方法和装置

一种基于网上交易平台的数据处理方法和装置

阅读:949发布:2024-02-13

专利汇可以提供一种基于网上交易平台的数据处理方法和装置专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种基于网上交易平台的 数据处理 方法和装置,所述方法包括:依据某个类目信息,从 数据库 中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;分别对各个产品类中的产品采用 聚类分析 算法 计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息;当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。本申请 实施例 公开的方法和装置,能使 服务器 的运行速度和运行性能上都得到改善。,下面是一种基于网上交易平台的数据处理方法和装置专利的具体信息内容。

1.一种基于网上交易平台的数据处理方法,其特征在于,包括:
依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;
按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述产品属性为一个产品所具有的固定属性,所述销售属性为除了所述产品属性之外对产品的价格产生影响的其他属性;
分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的平均价格信息;其中,对一个产品类中的产品采用聚类分析算法计算得到对应该类产品的各种价格信息,具体包括:按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤;将过滤后该产品类所包括的价格信息按照聚类分析算法和预置个数分为若干簇;在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并;和,按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格信息;其中,所述按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤,具体包括:当所述产品类中的产品不具有标示价格信息时,采用该产品所属类目的预置类目价格范围信息对所述价格信息进行过滤,以得到过滤后的价格信息集合;当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤;再依据过滤后得到的产品价格信息获取本次过滤的过滤强度,判断所述过滤强度是否低于某一预设阈值,如果是,则仍旧采用过滤前的价格信息,如果否,则将本次过滤后的价格信息作为过滤后的价格信息集合;
当接收到产品关键词时,将与该产品关键词对应的产品类的平均价格信息进行显示。
2.根据权利要求1所述的方法,其特征在于,所述按照产品的产品属性和销售属性对所述产品进行分类之前,还包括:
对所述产品采用虚假产品识别模型进行过滤,以得到过滤掉虚假商品的产品信息。
3.根据权利要求1所述的方法,其特征在于,所述分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息之后,还包括:
将各个产品类的产品信息与计算得到的价格信息之间的对应关系保存至数据库中。
4.根据权利要求3所述的方法,其特征在于,所述按照产品的产品属性和销售属性对所述产品进行分类,具体包括:
按照所述产品信息中的产品标识将产品进行第一次分类,以得到多个第一产品类,所述第一产品类中的产品具有相同的产品属性;
分别对所述多个第一产品类按照该类产品中的销售属性进行第二次分类,以得到多个第二产品类,所述第二产品类具有相同的销售属性。
5.根据权利要求1所述的方法,其特征在于,在所述若干簇产品中将价格信息最多的价格信息簇与其临近价格信息簇进行合并,具体包括:
按照各个簇的中心点值对所述若干簇进行排序,并获取所述若干簇中包含价格信息最多的最大簇;
按照排序后的顺序合并所述最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。
6.根据权利要求1所述的方法,其特征在于,所述按照合并后的价格信息簇中的多个产品价格信息计算该合并后的价格信息簇的平均价格信息,具体包括:
判断是否设置了产品参考价格信息,如果是,则当所述若干簇中簇的个数大于1,当按照各个簇的中心点值对所述若干簇进行排序之后,第二个簇为最终得到的若干簇,且该第二个簇包含的价格信息个数大于最终得到的若干簇中总价格信息个数的0.4倍时,则将该第二个簇的平均价格信息作为该类产品的平均价格信息;
如果否,则按照所述合并后的价格信息簇中计算所述簇的加权平均价格信息。
7.一种基于网上交易平台的数据处理装置,其特征在于,包括:
检索模,用于依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;
分类模块,用于按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述产品属性为一个产品所具有的固定属性,所述销售属性为除了所述产品属性之外对产品的价格产生影响的其他属性;
计算价格模块,用于分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息;所述价格信息为各类产品在其对应的销售属性下的平均价格信息;
所述计算价格模块包括:过滤子模块、分组子模块、合并子模块和计算子模块;所述过滤子模块,用于按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤;所述分组子模块,用于将过滤后该产品类所包括的价格信息按照聚类分析算法和预置个数分为若干簇;所述合并子模块,用于在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并;和,所述计算子模块,用于按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格信息;其中,所述过滤子模块包括:第一过滤子模块,用于当所述产品类中的产品不具有标示价格信息时,采用该产品所属类目的预置类目价格范围信息对所述价格信息进行过滤,以得到过滤后的价格信息集合;第二过滤子模块,用于当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤;判断子模块,用于依据过滤后得到的产品价格信息获取本次过滤的过滤强度,判断所述过滤强度是否低于某一预设阈值,如果是,则仍旧采用过滤前的价格信息,如果否,则将本次过滤后的价格信息作为过滤后的价格信息集合;
显示模块,用于当接收到产品关键词时,将与该产品关键词对应的产品类的平均价格信息进行显示。

说明书全文

一种基于网上交易平台的数据处理方法和装置

技术领域

[0001] 本申请涉及网络数据处理领域,特别涉及一种基于网上交易平台的数据处理方法和装置。

背景技术

[0002] 网上交易平台是一个第三方的交易安全保障平台,主要作用是为了保障交易双方在网上进行交易的安全,诚信等问题。应用于网上交易平台的网站称为电子商务网站,在实际应用场景中,用户通过电子商务网站购买产品时,比较关注的产品信息一般是价格信息。垂直网站是专注意于某些特定的领域或某种特定的需求的网站,一般提供有关这个领域或此种需求的较为全面和深入的信息和相关服务。
[0003] 目前在互联网中,如果需要知道某个产品在网上交易平台下的相关价格信息,通常是通过垂直网站提供的价格来获得的,但是垂直网站的价格一般是通过如下方式获得:由线下市场的成交行情计算获得;直接使用产品的生产厂商的标示价格信息中获得;直接采用销售这类产品的用户报价中获利。但在实际应用中,生产厂商的标示价格信息,有可能会偏离市场行情,而某一个用户报价又不能代表大多数用户的价格信息,不能反映市场状况,并且,一些没有在网上交易平台进行成交的产品对于垂直网站来讲也不能通过成交行情给出价格信息。
[0004] 因此,现有技术中,仅依据垂直网站给某个产品提供的价格信息,可能会使得产品的价格信息不够准确;,这不能满足用户对网上交易平台的价格信息数据准确性的要求;同时,也势必会增加用户针对价格信息的查询次数和时间,进而导致网上交易平台的服务器处理速度和性能的下降。
[0005] 总之,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种基于网上交易平台的数据处理方法,以解决现有技术因为不满足用户对于网上交易平台的数据准确性需求,导致的服务器处理速度和性能都下降的技术问题。发明内容
[0006] 本申请所要解决的技术问题是提供一种基于网上交易平台的数据处理方法,用以解决现有技术因为不满足用户对于网上交易平台的数据准确性需求,导致的服务器处理速度和性能都下降的技术问题。
[0007] 本申请还提供了一种基于网上交易平台的数据处理装置,用以保证上述方法在实际中的实现及应用。
[0008] 为了解决上述问题,本申请公开了一种基于网上交易平台的数据处理方法,包括:
[0009] 依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;
[0010] 按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;
[0011] 分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息;
[0012] 当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。
[0013] 本申请公开了一种基于网上交易平台的数据处理装置,包括:
[0014] 检索模,用于依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息;
[0015] 分类模块,用于按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性;
[0016] 计算价格模块,用于分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息;所述价格信息为各类产品在其对应的销售属性下的价格信息;
[0017] 显示模块,用于当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。
[0018] 与现有技术相比,本申请包括以下优点:
[0019] 在本申请中,通过在数据库中检索得到的某一类目的产品信息,按照这些产品的固定属性和销售属性对其进行分类,最重要的是相同的产品类中的产品都具有相同的产品属性和销售属性,其中,销售属性为除了所述产品属性之外对产品的价格产生影响的属性。可以看出,在本实施例中,得到的产品类将影响产品的价格信息的销售属性也考虑进去了,此时,再对产品类进行聚类分析算法得到产品的平均价格信息,那么对于网上交易平台的服务器来讲,如果接收到用户关于某个产品的价格的查询操作,就可以将计算出的对应该产品的平均价格信息反馈给用户,这样对于用户来讲其所得到的价格信息也是更为合理和真实的,从而可以使得用户不再向网上交易平台的服务器重复或者反复进行查询交互操作,在网上交易平台服务器上运行本申请实施例公开的方法和系统,能使服务器的运行速度和运行性能上都得到改善。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。附图说明
[0020] 为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021] 图1是本申请的一种基于网上交易平台的数据处理方法实施例一的流程图
[0022] 图2为方法实施例一中产品“联想I300”的销售属性和固定属性的界面示意图;
[0023] 图3是方法实施例一中对一个产品类中的产品采用聚类分析算法计算得到对应各类产品的价格信息的流程图;
[0024] 图4为产品“诺基亚5230”在“全国联保”和“店铺三包”两种销售属性下的平均价格信息的界面示意图;
[0025] 图5是本申请的一种基于网上交易平台的数据处理方法实施例2的流程图;
[0026] 图6是与图4相对应的产品“诺基亚5230”在过去三个月内的价格信息的趋势示意图;
[0027] 图7本申请中对于第二产品类中的价格信息进行产品的平均价格信息计算的具体例子流程图;
[0028] 图8是本申请的一种基于网上交易平台的数据处理装置实施例一的结构框图
[0029] 图9是本申请装置实施例一中计算价格模块的结构框图;
[0030] 图10是本申请的一种基于网上交易平台的数据处理装置实施例二的结构框图。

具体实施方式

[0031] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0032] 本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
[0033] 本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0034] 本申请的主要思想之一可以包括,通过在数据库中检索得到的某一类目的产品信息,按照这些产品的固定属性和销售属性对其进行分类,最重要的是相同的产品类中的产品都具有相同的产品属性和销售属性,其中,销售属性为除了所述产品属性之外对产品的价格产生影响的属性。可以看出,在本实施例中,得到的产品类将影响产品的价格信息的销售属性也考虑进去了,此时再对产品类进行聚类分析算法得到产品的平均价格信息,那么对于网上交易平台的服务器来讲,如果接收到用户关于某个产品的价格的查询操作,就可以将计算出的对应该产品的平均价格信息反馈给用户,这样对于用户来讲其所得到的价格信息也是更为合理和真实的,从而可以使得用户不再向网上交易平台的服务器重复或者反复进行查询交互操作,在网上交易平台服务器上运行本申请实施例公开的方法和系统,能使服务器的运行速度和运行性能上都得到改善。
[0035] 参考图1,示出了本申请一种基于网上交易平台的数据处理方法实施例一的流程图,可以包括以下步骤:
[0036] 步骤101:依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息。
[0037] 在本申请实施例中,所述数据库中可以保存在网上交易平台进行交易时涉及到相关交易信息,可以包括产品信息、产品成交信息和卖方用户信息等,其中,所述产品信息具体包括产品标识和产品价格信息,当然,还可以包括该产品所属的卖方用户标识;而产品成交信息可以包括:产品成交价格信息、成交件数信息、卖方用户标识、买方用户标识;卖方用户信息具体可以包括:卖家信用度信息,30天累计成交次数信息,卖方用户的在线产品数量信息,差评率信息等。在本申请实施例中,只需采用产品信息中的产品标识和产品价格信息即可。
[0038] 所述类目是对产品进行分类之后的行业细分信息,例如:手机、笔记本、面霜和防晒霜等,都属类目信息。而本申请实施例中产品指的是在网上交易平台上可以进行线上交易的一个具体物品。
[0039] 步骤102:按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的所述产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性。
[0040] 获得一个类目下的产品信息之后,依据产品标识可以找到对应的产品,就可以知道产品的产品属性和销售属性信息。其中所述产品属性为一个产品所具有的固定属性,是一个产品所具有的固定的功能特性,例如Nokia N73是一款产品,Nokia N73的同款产品都具备Nokia N73的一些固定属性。例如,该产品的品牌属性是“Nokia”,外观样式为“直板”,摄像头是“320万像素”等。虽然功能特性相同的产品一般认为是同一款产品,但是由于包装等非功能属性也可能会导致销售价格不同。因为除了功能特性以外,同一款产品也可以有:不同的价格、不同的套餐优惠、或者不同的售后服务、甚至新旧程度等非产品本身的属性。
[0041] 所述销售属性则是除了所述固定属性之外能够影响所述产品的一些其他属性,即是针对于同一款的各种产品,排除来自产品的属性之外,剩余的属性中能对价格有影响的属性。例如,同一款化妆品,具有多款销售包装,那么各种包装的容量不同就会导致销售价格不同;或者,售后服务类型,化妆品容量等。所以在同一款产品也有可能因为销售属性的不同而进行细分,例如:产品“大宝美容洗面奶”有销售属性为“容量”,对应的容量的销售属性值有300ml和100ml,这两者的价格便会有所不同。但是无论该产品的容量是300ml还是100ml,它们的功能特性其实是一致的。参考图2所示,为产品“联想I300”的销售属性和固定属性的界面示意图。
[0042] 需要说明的是,在本申请实施例中获取到的平均价格信息是同一款产品且销售属性也相同的那类产品的价格信息。
[0043] 步骤103:分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息。
[0044] 所述聚类分析算法可以采用例如K-MEANS算法。使用聚类分析方法(K-MEANS算法),对产品价格信息进行聚类,进而选取聚类之后的最大簇,合并该最大簇的邻近簇,直到合并后的最大簇中的元素超过一个预设阈值,再依据这最大簇中的价格信息得出产品的平均价格信息。需要说明的是,在本申请实施例中计算得到的价格信息为某一类产品在其销售属性下所对应的价格信息,在实际应用中即便是同一类产品,例如,大宝洗面奶,但是如果销售属性不同,例如,一类产品的销售属性为100ml,而另一类产品的销售属性为300ml,那么这两类大宝洗面奶的价格信息也是不同的。
[0045] 具体的,在对一个产品类中的产品采用聚类分析算法计算得到对应各类产品的价格信息的实施过程,则可以参考图3,具体可以包括:
[0046] 步骤301:按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤。
[0047] 需要说明的是,在得到产品类之后,所述产品类中的产品属性和销售属性都相同,但不是产品的价格都需要参考,因此在需要对产品类中产品涉及到的价格信息进行过滤。在进行过滤时,对于具有标示价格信息的产品,可以预先设定标示价格比例区间,例如上限为2倍,下限为0.5倍,然后再使用标识价格信息计算出标示价格范围信息中的价格上限信息和价格下限信息,然后用所述价格上限信息和价格下限信息来过滤价格信息。
[0048] 需要说明的是,如果过滤后的商品数量与过滤前的商品数量的比例大小低于一定阈值,就可以认为过滤无效,该阈值可以设置为0.5。即是过滤后如果某个产品类中一半的产品都被过滤掉了,可以认为本次过滤过程并不是优选方式,因此仍然使用过滤前的价格信息为源数据,如果过滤后的商品数量与过滤前的商品数量的比例大小不低于一定阈值,则认为本次过滤有效,就将用过滤后的价格信息作为源数据。
[0049] 另外,因为产品都属于特定的类目,例如:诺基亚N73属于手机类目,而ThinkPad X100属于笔记本类目,可以预先给每个类目设定了上限价格(price_max)与下限价格(price_min),用来限定该类目下产品的有效价格区间信息,而价格信息超出该价格区间信息的产品价格信息可以认为属于无效信息。因此,在产品类中的产类没有标示价格信息时,可以预设该产品类所属的类目价格的价格上、下限信息,在实际应用中根据类目可以设定不同的值,例如:手机类目下限价格信息可以为100,上限价格信息可以为100000;而笔记本电脑类目的下限价格信息可以为100,上限价格信息可以为500000,来对该产品类中的产品价格信息进行过滤。
[0050] 步骤302:将过滤后该产品类所包括的价格信息按照聚类分析算法和预置个数分为若干簇。
[0051] 在获得过滤后的产品类中产品的价格信息之后,在每个产品类中,对价格信息使用聚类分析方法(如K-MEANS算法),将该产品类中的产品分为N组。这里的N一般可以取值为10,这样能提升算法效率和聚类效果。根据K-means聚类算法的原理,同一簇中的元素都是临近的元素,那么在本申请实施例中则是价格信息比较相近的意思。例如对于一个产品类,该类中的产品价格分别为:1、102、3、4、5、100、101、104、8;经过本实施例中公开的聚类方法,会分为如下2簇【1、3、4、5、8】和【102、100、101、104】。
[0052] 步骤303:在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并。
[0053] 在得到若干簇之后,取出其中包含商品数最多的一组,且为了保证留下的簇中总共包含的元素足够多,具有充分的代表性,左右合并该组的近邻,直到合并后的产品数量超过设定的阈值,例如合并后的产品数量占整个产品类的5%。
[0054] 步骤304:按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格信息。
[0055] 计算合并最终得到的价格信息簇中的平均价格信息,在计算平均价格信息时,可以计算加权平均,也可以直接计算平均值。
[0056] 计算得到某个产品类的平均价格信息之后,可以将该产品类的产品关键词与所述平均价格信息关联起来,后续可以保存至数据库中,以便于查询使用。
[0057] 步骤104:当接收到产品关键词时,将与该产品关键词对应的产品类的平均价格信息进行显示。
[0058] 当接收到用户查询的产品关键词信息时,依据该产品关键词的信息查找到该产品类的平均价格信息,向用户进行显示。需要说明的是,本实施例中的平均价格信息,是某个产品在某个销售属性下的平均价格信息。例如,参考图4所示,为产品“诺基亚5230”在“全国联保”和“店铺三包”两种销售属性下的平均价格信息的界面示意图。
[0059] 在本申请实施例中,在对产品分类时需要同时依据其固定属性和销售属性,因为销售属性也在很大程度上影响产品的价格信息,所以本申请实施例中依据销售属性对产品分类之后,就可以依据聚类分析方法计算出同时满足固定属性和销售属性的一类产品的平均价格信息,从而更为合理真实的反映出该产品的价格信息,在方便用户查看价格信息的同时,也减少了用户与网上交易平台服务器之间的交互次数和重复查询操作,提升了网上交易平台服务器的运行性能。
[0060] 参考图5,其示出了本申请一种基于网上交易平台的数据处理方法实施例二的流程图,可以包括以下步骤:
[0061] 步骤501:依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息。
[0062] 步骤502:对所述产品信息采用虚假产品识别模型进行过滤,得到过滤掉虚假产品的产品信息。
[0063] 在本实施例中,还需要包括对获取得到的产品信息采用虚假产品识别模型进行过滤的过程,因为在实际应用中,有一些产品可能已经下架,或者是用户恶意发布的一些不真实的产品信息,这些产品信息中的产品价格信息都不适合用作本申请实施例中对于产品价格信息的计算过程,因此,需要采用训练好的虚假产品识别模型进行过滤,以得到过滤掉虚假产品的真实产品信息。
[0064] 该虚假产品识别模型还可以定期进行更新,虚假产品识别模型不是本申请实施例所关注的重点,在此不再进行赘述。
[0065] 步骤503:按照所述产品信息中的产品标识将产品进行第一次分类,以得到多个第一产品类,所述第一产品类中的产品具有相同的产品属性。
[0066] 这里的产品属性指的是产品所具有的固定属性,按照产品属性对产品信息中的产品进行第一次分类时,可以将产品分为多个第一产品类,每个第一产品类中的产品的功能和特性都相同。例如,300ml的大宝美容洗面奶,和100ml的大宝美容洗面奶就属于同一个第一产品类,但是玫琳凯柔性洗面霜则属于另一个第一产品类。
[0067] 步骤504:分别对所述多个第一产品类按照该类产品中的销售属性进行第二次分类,以得到多个第二产品类,所述第二产品类具有相同的销售属性。
[0068] 在得到多个第一产品类之后,还需要按照产品的销售属性对第一产品类中的产品进行第二次产品分类,而每一个第二产品类中的产品具有相同的销售属性。例如,第一用户的产品300ml的大宝美容洗面奶,第二用户的产品是100ml的大宝美容洗面奶,而第三用户的产品是300ml的大宝美容洗面奶,这三个产品虽然都属于同一个第一产品类,但是在进行第二次分类的时候,第一用户的产品就和第三用户的产品属于同一个第二产品类,而第二用户的产品就会属于另一个第二产品类。
[0069] 步骤505:按照预置的价格范围信息对所述第二产品类中的产品的价格信息进行过滤。
[0070] 这里预置的价格范围信息即是指的是,按照预先指定出的价格信息上限和价格信息下限,对同一个第二产品类中的产品的价格信息进行过滤。属于该价格范围信息之内的价格信息就保留,不属于该价格范围信息之外的价格信息就删除。
[0071] 本步骤具体在实现时,可以采用如下方式:
[0072] 步骤A1:当所述产品类中的产品不具有标示价格信息时,采用该产品所属类目的预置类目价格范围信息对所述价格信息进行过滤,以得到过滤后的价格信息集合。
[0073] 这里的标示价格信息可以认为是产品出厂时的厂商标示价格信息,即是如果产品不具有厂商标示价格信息,则按照预置类目价格范围信息对产品价格信息进行过滤,过滤后的价格信息集合中的价格信息都落在所述预置类目价格范围之内。
[0074] 步骤A2:当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤。
[0075] 当某个第二产品类中的产品都具有标示价格信息时,则按照预置的价格比例范围计算得到产品类中的产品标示价格范围信息,并依据该标示价格范围信息对同一个第二产品类中的产品的价格信息进行过滤。
[0076] 步骤A3:依据过滤后得到的产品价格信息获取本次过滤的过滤强度,判断所述过滤强度是否低于某一预设阈值,如果是,则仍旧采用过滤前的价格信息,如果否,则将本次过滤后的价格信息作为过滤后的价格信息集合。
[0077] 将过滤后得到的产品价格信息的个数除以过滤前得到的产品价格信息的个数之和,即可得到本次过滤的过滤强度,再将该过滤强度与某一预设阈值进行比较,如果低于该预设阈值,例如0.5,则仍旧采用过滤前的价格信息,因为此时一半以上的产品价格信息已经过滤掉了,所以认为此次的过滤是无效的。如果过滤强度大于该预设阈值,则将本次过滤后的价格信息作为过滤后的价格信息集合。
[0078] 步骤506:将过滤后该产品类所包括的价格信息按照聚类分析算法和预置簇数分为若干价格信息簇。
[0079] 在本步骤中,需要按照聚类分析算法和预置的簇数将该第二产品类中存在的价格信息分为若干簇。需要说明的是,一般簇的个数可以设置为10个,其中聚类分析算法有很多种,本领域技术人员可以根据需求选择某一个聚类分析算法。
[0080] 步骤B1:依据所述过滤后的价格信息集合的平均值和预置簇的总数选取初始簇的中心点。
[0081] 在得到了预置簇数个价格信息簇之后,依据预置簇的个数以及价格信息集合的均值选取出初始簇的中心点,选取出初始簇的目的是查找到这些簇中的最大簇,即是包括价格信息个数最多的那个簇,以便于后续基于最大簇来计算该产品类在当前销售属性下的平均价格信息。
[0082] 步骤B2:依据初始簇的中心点并按照聚类分析算法对所述价格信息集合进行迭代聚类,直至达到收敛以得到该所述预置簇数的簇的集合。
[0083] 在本步骤中,具体可以按照K-MEANS算法进行迭代聚类,直至收敛时,最终得到了满足预置簇数的簇的集合。
[0084] 步骤B3:从所述簇的集合中选取价格信息足够多的簇作为最终得到的若干簇。
[0085] 在所述簇的集合中选取出价格信息足够多的簇作为最终得到的若干簇,用以后续进行价格信息的计算。
[0086] 步骤507:在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并。
[0087] 步骤C1:按照各个簇的中心点值对所述若干簇进行排序,并获取所述若干簇中包含价格信息最多的最大簇。
[0088] 在进行合并时,需要按照各个簇的中心点值查找到包含价格信息最多的最大簇。
[0089] 步骤C2:按照排序后的顺序合并所述最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。
[0090] 在按照排序后的顺序合并最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。
[0091] 步骤508:按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格信息。
[0092] 步骤D1:判断是否设置了产品参考价格信息,如果是,则进入步骤D2,如果否,则进入步骤D3。
[0093] 步骤D2:当所述若干簇中簇的个数大于1,按照各个簇的中心点值对所述若干簇进行排序之后,第二个簇为最终得到的若干簇,且该第二个簇包含的价格信息个数大于最终得到的若干簇中总价格信息个数的0.4倍时,则将该第二个簇的平均价格信息作为该类产品的平均价格信息。
[0094] 步骤D3:按照所述合并后的价格信息簇中计算所述簇的加权平均价格信息。
[0095] 步骤509:当接收到产品关键词时,将与该产品关键词对应的产品类的平均价格信息进行显示。
[0096] 需要说明的是,在本实施例中的所述步骤509之后还可以包括:
[0097] 步骤510:将查询得到的固定时间段内的平均价格信息采用曲线图进行示意。
[0098] 参考图6所示,为与图4相对应的产品“诺基亚5230”在过去三个月内的价格信息的趋势示意图。
[0099] 在本实施例中,除了可以提升服务器的运行性能之外,还可以将某个产品的价格信息采用趋势图的方式向用户进行示意,同时采用的聚类分析分析算法中的K-MEANS算法,更能增加平均价格信息计算过程的准确性,这样就更进一步的提升用户查询产品价格时的精确度,从而进一步的提升服务器的运行性能。
[0100] 参考图7所示,为了便于本领域技术人员对本申请的理解,这里对于第二产品类中的价格信息进行产品的平均价格信息的计算,给出一个具体的例子,在该例子中将重点讲解得到了第二产品类之后平均价格信息的计算过程,可以包括以下步骤:
[0101] 步骤701:当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤。
[0102] 有某一产品的n个商品的价格集合A={a1,a2,…,an},对具有标示价格信息的产品,通过标示价格信息Pref进行价格信息的过滤,其中假设预置的价格比例范围为[Slow,Shigh),则可以依据所述标示价格信息Pref计算出标示价格范围[Plow,Phigh),其中,Plow=Pref·Slow,Phigh=Pref·Shigh。在产品类中的产品具有标示价格信息时,可以采用[Plow,Phigh)对价格信息进行过滤,以得到过滤后的价格信息集合Aref:Aref={ai|ai∈[Plow,Phigh],i=1…n}。具体的,[Slow,Shigh)可以取值为[0.5,2)。
[0103] 步骤702:再依据过滤后得到的产品价格信息获取本次过滤的过滤强度,判断所述过滤强度是否低于某一预设阈值,如果是,则仍旧采用过滤前的价格信息,并进入步骤703;如果否,则将本次过滤后的价格信息作为过滤后的价格信息集合,进入步骤704。
[0104] 再依据该得到的价格信息集合进行过滤强度的计算,计算公式为:s=Size(Aref)/Size(A),如果过滤强度s低于有效阈值Svalid,则认为按标示价格信息的过滤失败,则仍旧采用过滤前的价格信息,即Aref=A。其中,Svalid可以取值为0.5。
[0105] 步骤703:当产品类中的产品不具有标示价格信息,或者采用标示价格信息过滤失败时,采用该产品所属类目的预置类目价格范围信息对所述价格信息进行过滤,以得到过滤后的价格信息集合。
[0106] 在产品类中的产品没有标示价格信息,或者采用标示价格信息过滤失败时,可以使用预先设定的产品所属的类目的价格上下限范围信息来做数据清洗。对于产品所属的类目,设置有价格上下限范围[CPlow,CPhigh],其中,CPlow为价格下限信息,CPhigh为价格上限信息,采用该价格上下限信息用来标定类目下商品的有效价格区间,若产品的价格信息超出该价格上下线范围时就认为该价格信息属于无效价格信息,最终得到价格信息集合:Aref={ai|ai∈[CPlow,CPhigh],i=1…n}。
[0107] 步骤704:依据所述过滤后的价格信息集合的平均值和预置的簇的总数选取初始簇的中心点。
[0108] 在实际计算过程中,需要根据所述价格信息集合的均值选取初始簇的中心点,假设m为预置的簇的总数,则中心点位置为:
[0109] C={ci|Center(ci)=2i·E(Aref)/m,i=1,…,m}。
[0110] 步骤705:依据初始簇的中心点并按照聚类分析算法对所述价格信息集合进行迭代聚类,直至达到收敛得到该所述预置个数的簇的集合。
[0111] 在实际中可以按照K-MEANS算法进行迭代聚类,直至收敛时即可得到簇的集合Cres。在本步骤中,判断迭代收敛的条件可以为:两次迭代的中心点的距离平方和小于阈值tdis,例如,经过K次的迭代,最近的两个中心点集合Ck-1,Ck的中心点,则在满足下列条件的时候: 簇的集合Cres就为Ck。需要说明的是,上述条件中的tdis=0.00001。
[0112] 步骤706:从所述簇的集合中选取价格信息足够多的簇作为最终得到的若干簇。
[0113] 在本步骤则需要从簇的集合中保留包含足够多价格信息的簇,需要说明的是,一般情况
下,预先设定tmin为0.05。
[0114] 步骤707:按照各个簇的中心点值对所述若干簇进行排序,并获取所述若干簇中包含价格信息最多的最大簇。
[0115] 对留下的簇按照中心点的值进行排序。找出包含元素最多的簇cb。
[0116] 步骤708:按照排序后的顺序合并所述最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。
[0117] 接着再找出最大簇左右邻近的簇并进行合并,直到合并后的最大簇包含的价格信息的总数比例大于阈值tc1,即是满足如下条件:
[0118] 需要说明的是,目前阈值tc1一般设定为0.05。
[0119] 步骤709:判断产品类中的产品设置了产品参考价格信息,如果是,则进入步骤710,如果否,则进入步骤711。
[0120] 步骤710:当所述若干簇中簇的个数大于1,当按照各个簇的中心点值对所述若干簇进行排序之后,第二个簇为最终得到的若干簇,且该第二个簇包含的价格信息个数大于最终得到的若干簇中总价格信息个数的0.4时,则将该第二个簇的平均价格信息作为该类产品的平均价格信息。
[0121] 如果产品类中的产品设置了产品参考价格信息,Ckeep包含的簇个数大于1,并且按簇包含的价格信息的个数对簇的集合进行排序,且排序之后第2个簇属于Ckeep,且该第2个簇包含的价格信息个数大于该价格信息集合中价格信息个数的0.4时,则将该第2个簇的平均价格信息作为该产品类的参考价格。
[0122] 步骤711:按照所述合并后的价格信息簇中的价格信息计算所述簇的加权平均价格信息。
[0123] 使用Cmain中的簇计算加权平均:
[0124]
[0125] 其中,l、r分别是按中心值升序排列过且最后保留的簇的左边界和右边界,Count(ci)是指这个簇中包含元素的总数,ai,j是指簇的元素,在本例子中即是价格信息,而b是包含元素最多的中心簇。在例子中,一般设置m=10,假如一次聚类中得到元素最多的簇为第6个,然后找这个簇左右的邻近簇进行合并,直到合并之后该簇中包含的价格信息的个数足够多。假设最终得到左边界的簇位置为3,和右边界的簇位置为8,然后就可以带入上述公式计算当前产品类在其具有的销售属性下的平均价格信息。
[0126] 需要说明的是,在本例子中计算得到的平均价格信息即为该产品在该销售属性下的平均价格信息,采用本例子计算得到的产品的平均价格信息能够结合产品的标示价格信息和在网上交易平台的成交价格信息,通过对产品的价格信息运用聚类分析方法,使得本例子的方法计算出的价格信息能够真实的反映出该产品合理的价格信息,进一步的,还能够通过过滤虚假产品信息,更能改善产品价格计算的合理性。
[0127] 对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
[0128] 与上述本申请一种基于网上交易平台的数据处理方法实施例一所提供的方法相对应,参见图8,本申请还提供了一种基于网上交易平台的数据处理装置实施例一,在本实施例中,该装置可以包括:
[0129] 检索模块801,用于依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息。
[0130] 分类模块802,用于按照产品的产品属性和销售属性对所述产品进行分类,以得到多个产品类,相同的产品类中的产品具有相同的产品属性和销售属性;所述销售属性为除了所述产品属性之外对产品的价格产生影响的属性。
[0131] 计算价格模块803,用于分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息,所述价格信息为各类产品在其对应的销售属性下的价格信息。
[0132] 所述计算价格模块803具体可以包括:过滤子模块901、分组子模块902、合并子模块903和计算子模块904。
[0133] 所述过滤子模块901,用于按照预置的价格范围信息对所述一个产品类中的产品的价格信息进行过滤。
[0134] 所述过滤子模块901具体在实际应用中可以包括:
[0135] 第一过滤子模块,用于当所述产品类中的产品不具有标示价格信息时,采用该产品所属类目的预置类目价格范围信息对所述价格信息进行过滤,以得到过滤后的价格信息集合。
[0136] 第二过滤子模块,用于当所述产品类中的产品具有标示价格信息时,依据预置的价格比例范围信息计算得到标示价格范围信息,并依据该标示价格范围信息对所述一个产品类中的产品的价格信息进行过滤;
[0137] 判断子模块,用于依据过滤后得到的产品价格信息获取本次过滤的过滤强度,判断所述过滤强度是否低于某一预设阈值,如果是,则仍旧采用过滤前的价格信息,如果否,则将本次过滤后的价格信息作为过滤后的价格信息集合。
[0138] 所述分组子模块902,用于将过滤后该产品类所包括的价格信息按照聚类分析算法和预置个数分为若干簇。
[0139] 所述分组子模块902在实际应用中具体可以包括:
[0140] 选取子模块,用于依据所述过滤后的价格信息集合的平均值和预置簇的总数选取初始簇的中心点。
[0141] 聚类子模块,用于依据初始簇的中心点并按照聚类分析算法对所述价格信息集合进行迭代聚类,直至达到收敛得到该所述预置个数的簇的集合。
[0142] 获取簇子模块,用于从所述簇的集合中选取价格信息足够多的簇作为最终得到的若干簇。
[0143] 所述合并子模块903,用于在所述若干簇价格信息中将价格信息最多的价格信息簇与其临近价格信息簇进行合并。
[0144] 所述合并子模块903在实际应用中具体可以包括:
[0145] 排序子模块,用于按照各个簇的中心点值对所述若干簇进行排序,并获取所述若干簇中包含价格信息最多的最大簇。
[0146] 合并子模块,用于按照排序后的顺序合并所述最大簇的临近簇,直至合并后的最大簇所包含的价格信息的总数满足预设阈值。
[0147] 所述计算子模块904,用于按照合并后的价格信息簇中的多个价格信息计算该合并后的价格信息簇的平均价格信息。
[0148] 所述计算子模块在实际应用中具体可以用于:判断是否设置了产品参考价格信息,如果是,则当所述若干簇中簇的个数大于1,当按照各个簇的中心点值对所述若干簇进行排序之后,第二个簇为最终得到的若干簇,且该第二个簇包含的价格信息个数大于最终得到的若干簇中总价格信息个数的0.4时,则将该第二个簇的平均价格信息作为该类产品的平均价格信息;如果否,则按照所述合并后的价格信息簇中计算所述簇的加权平均价格信息。
[0149] 显示模块804,用于当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。
[0150] 本实施例所述的装置可以集成到网上交易平台的服务器上,也可以单独作为一个实体与网上交易平台服务器相连,另外,需要说明的是,当本申请所述的方法采用软件实现时,可以作为网上交易平台的服务器新增的一个功能,也可以单独编写相应的程序,本申请不限定所述方法或装置的实现方式。
[0151] 本实施例中公开的数据处理装置可以更为合理真实的反映出某个产品的价格信息,从而在方便用户查看价格信息的同时,也减少了用户与网上交易平台服务器之间的交互次数和重复查询操作,提升了网上交易平台服务器的运行性能。
[0152] 与上述本申请一种基于网上交易平台的数据处理方法实施例二所提供的方法相对应,参见图10,本申请还提供了一种基于网上交易平台的数据处理装置的优选实施例二,在本实施例中,该装置具体可以包括:
[0153] 检索模块801,用于依据某个类目信息,从数据库中检索得到该类目下的产品信息,所述产品信息包括产品标识和产品价格信息。
[0154] 虚假产品识别模型模块1001,用于对所述产品采用虚假产品识别模型进行过滤,以得到过滤掉虚假商品的产品信息。
[0155] 所述分类模块802,在实际应用中具体可以包括:
[0156] 第一分类子模块1002,用于按照所述产品信息中的产品标识将产品进行第一次分类,以得到多个第一产品类,所述第一产品类中的产品具有相同的产品属性。
[0157] 第二分类子模块1003,用于分别对所述多个第一产品类按照该类产品中的销售属性进行第二次分类,以得到多个第二产品类,所述第二产品类具有相同的销售属性。
[0158] 计算价格模块803,用于分别对各个产品类中的产品采用聚类分析算法计算得到对应各类产品的各种价格信息。
[0159] 保存对应关系模块1004,用于将各个产品类的产品信息与计算得到的价格信息之间的对应关系保存至数据库中。
[0160] 显示模块804,用于当接收到产品关键词时,将与该产品关键词对应的产品类的价格信息进行显示。
[0161] 同时,本申请实施例还公开一种网上交易平台的服务器,该服务器的处理器(例如CPU)上可以集成本申请实施例公开的任意一种数据处理装置,而处理器与服务器中其他各个部件的连接关系是本领域技术人员所公知的内容,在此不再赘述。
[0162] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0163] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0164] 以上对本申请所提供的一种基于网上交易平台的数据处理方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈