首页 / 专利库 / 商业 / 上市时间 / 一种数据处理方法及装置

一种数据处理方法及装置

阅读:921发布:2020-05-14

专利汇可以提供一种数据处理方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 实施例 公开了一种 数据处理 方法及装置,涉及 电子 商务技术领域,能够减少 数据库 在建立索引过程中所耗时间,从而减少计算资源消耗。本发明的方法包括:获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于表示商品信息的各数据表的lucene文件;获取数据表的主键,并根据主键从生成的lucene文件中读取对应于所获取的主键的数据;根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向 指定 存储区域提交。本发明适用于快速创建检索。,下面是一种数据处理方法及装置专利的具体信息内容。

1.一种数据处理方法,其特征在于,包括:
获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述表示商品信息的各数据表的lucene文件;
获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据;
根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交;
所述表示商品信息的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表;
所述获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据,包括:
获取所述商品主表中记载的商品唯一标识;
查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基本属性数据、商品价格数据和商品库存数据;
运算设备先读取所述商品价格信息表中的数据,并得到表示商品价格的文本信息,根据所述文本信息进行索引并创建索引文件,作为所述商品价格信息表的lucene文件;
数据表的主键为唯一标识字段的集合,商品基本属性lucene文件中对应于主键的数据为:商品的产地、生产日期、上市时间的文本信息;商品价格信息lucene文件中对应于主键的数据为:表示商品价格的文本信息;商品库存信息lucene文件中对应于主键的数据为:表示商品库存数量、库存地点、库存时间的文本信息;
lucene文件和关联结果存储至运算设备的存储器中,数据库再将检索请求转发给运算设备,运算设备向数据库返还lucene文件和关联结果中有关商品的商品信息;
运算设备通过接口向数据库发送请求以获取用于加工成lucene文件以及关联关系的原始表项,数据库查询得到运算设备所请求获取的原始表项并通过接口发送给运算设备;
运算设备同时接收用户终端发送的检索请求并向用户终端返还lucene文件和关联结果中有关商品的商品信息;
运算设备中存储数据库中各原始表项的存储地址,运算设备直接根据存储地址从数据库中读取原始表项,并加工成lucene文件和关联关系;
运算设备将关联结果提交至solrCloud,用户终端通过solrCloud检索商品信息。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交,包括:
根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;
将所述关联结果提交至solrcloud。
3.根据权利要求1所述的数据处理方法,其特征在于,还包括:
根据接收到的查询请求,确定与所述查询请求关联的主键;
根据与所述查询请求关联的主键,从所述指定存储区域读取数据。
4.根据权利要求1-3中任意一项所述的数据处理方法,其特征在于,还包括:
当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据所在数据表的主键;
读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。
5.根据权利要求1-3中任意一项所述的数据处理方法,其特征在于,还包括:
当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表;
将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。
6.一种数据处理装置,其特征在于,包括:
预处理模,用于获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述表示商品信息的各数据表的lucene文件;
提取模块,用于获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据;
分析模块,用于获取根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交;
所述表示商品信息的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表;
所述提取模块,具体用于获取所述商品主表中记载的商品唯一标识;
查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基本属性数据、商品价格数据和商品库存数据;
运算设备先读取所述商品价格信息表中的数据,并得到表示商品价格的文本信息,根据所述文本信息进行索引并创建索引文件,作为所述商品价格信息表的lucene文件;
数据表的主键为唯一标识字段的集合,商品基本属性lucene文件中对应于主键的数据为:商品的产地、生产日期、上市时间的文本信息;商品价格信息lucene文件中对应于主键的数据为:表示商品价格的文本信息;商品库存信息lucene文件中对应于主键的数据为:表示商品库存数量、库存地点、库存时间的文本信息;
lucene文件和关联结果存储至运算设备的存储器中,数据库再将检索请求转发给运算设备,运算设备向数据库返还lucene文件和关联结果中有关商品的商品信息;
运算设备通过接口向数据库发送请求以获取用于加工成lucene文件以及关联关系的原始表项,数据库查询得到运算设备所请求获取的原始表项并通过接口发送给运算设备;
运算设备同时接收用户终端发送的检索请求并向用户终端返还lucene文件和关联结果中有关商品的商品信息;
运算设备中存储数据库中各原始表项的存储地址,运算设备直接根据存储地址从数据库中读取原始表项,并加工成lucene文件和关联关系;
运算设备将关联结果提交至solrCloud,用户终端通过solrCloud检索商品信息。
7.根据权利要求6所述的数据处理装置,其特征在于,所述分析模块,具体用于根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;并将所述关联结果提交至solrcloud。
8.根据权利要求7所述的数据处理装置,其特征在于,还包括:查询模块,用于根据接收到的查询请求,确定与所述查询请求关联的主键;并根据与所述查询请求关联的主键,从所述指定存储区域读取数据。
9.根据权利要求6-7中任意一项所述的数据处理装置,其特征在于,还包括第一更新模块,用于当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据所在数据表的主键;读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。
10.根据权利要求6-7中任意一项所述的数据处理装置,其特征在于,还包括第二更新模块,用于当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表;并将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。

说明书全文

一种数据处理方法及装置

技术领域

[0001] 本发明涉及电子商务技术领域,尤其涉及一种数据处理方法及装置。

背景技术

[0002] 近年来,电子商务行业发展迅猛,市场上的大部分商品都已能通过在线平台进行交易。为了能够扩大在线平台的交易范围,增强交易业务能,需要较高性能的数据库系统来管理商品信息。为了保证在线平台的稳定运行,大部分电商偏向于采用架构成熟的数据库,如关系数据库。
[0003] 由于一个商品往往包含很多属性,例如:品牌名称、类目名称等基本属性,库存、价格、销售状态、销售区域、卖点等销售属性。在关系数据库中,商品的每一种属性会以数据表的形式进行存储,对于同一商品的不同属性数据,需要记录不同数据表的关联关系,并根据关联关系建立索引,以便于顾客及电商能够快速查询商品信息。
[0004] 针对每一个商品的商品信息,数据库都需要先关联记载商品属性数据的各项数据表,再通过数数据表间的关联关系查询这一个商品的属性数据,之后再建立索引。但是在实际应用中,由于商品数量巨大,数据库必须处理海量的商品信息,索引准备工作的耗时很长且占用计算资源很多。

发明内容

[0005] 本发明的实施例提供一种数据处理方法及装置,能够减少数据库在建立索引过程中所耗时间,从而减少计算资源消耗。
[0006] 为达到上述目的,本发明的实施例采用如下技术方案:
[0007] 第一方面,本发明的实施例提供一种数据处理方法,数据处理方法,包括:
[0008] 获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述表示商品信息的各数据表的lucene文件;
[0009] 获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据;
[0010] 根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交。
[0011] 结合第一方面,在第一方面的第一种可能的实现方式中,所述表示商品信息的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。
[0012] 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据,包括:
[0013] 获取所述商品主表中记载的商品唯一标识;
[0014] 查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基本属性数据、商品价格数据和商品库存数据。
[0015] 结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交,包括:
[0016] 根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;
[0017] 将所述关联结果提交至solrcloud。
[0018] 结合第一方面,在第一方面的第四种可能的实现方式中,还包括:
[0019] 根据接收到的查询请求,确定与所述查询请求关联的主键;
[0020] 根据与所述查询请求关联的主键,从所述指定存储区域读取数据。
[0021] 结合第一方面或第一方面的第一至四种可能的实现方式,在第五种可能的实现方式中,还包括:
[0022] 当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据所在数据表的主键;
[0023] 读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。
[0024] 结合第一方面或第一方面的第一至四种可能的实现方式,在第六种可能的实现方式中,还包括:
[0025] 当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表;
[0026] 并将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。
[0027] 第二方面,本发明的实施例提供一种数据处理装置,包括:预处理模,用于获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述表示商品信息的各数据表的lucene文件;
[0028] 提取模块,用于获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据;
[0029] 分析模块,用于获取根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交。
[0030] 结合第二方面,在第二方面的第一种可能的实现方式中,所述表示商品信息的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。
[0031] 结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,所述提取模块,具体用于获取所述商品主表中记载的商品唯一标识;
[0032] 查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基本属性数据、商品价格数据和商品库存数据。
[0033] 结合第二方面的第二种可能的实现方式,在第三种可能的实现方式中,所述分析模块,具体用于根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;并将所述关联结果提交至solrcloud。
[0034] 结合第二方面,在第二方面的第四种可能的实现方式中,还包括:查询模块,用于根据接收到的查询请求,确定与所述查询请求关联的主键;并根据与所述查询请求关联的主键,从所述指定存储区域读取数据。
[0035] 结合第二方面或第二方面的第一至四种可能的实现方式,在第五种可能的实现方式中,还包括第一更新模块,用于当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据所在数据表的主键;读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。
[0036] 结合第二方面或第二方面的第一至四种可能的实现方式,在第六种可能的实现方式中,还包括第二更新模块,用于当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表;并将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。
[0037] 本发明实施例提供的数据处理方法及装置,能够将现有数据库中数据表转化为相应的lucene文件,再按照商品主表中的主键从lucene文件中获取商品信息,以便用于用户检索。本发明在处理海量商品时,通过商品主表的主键和商品信息生成用于用户检索的lucene文件以及关联结果,避免了针对每一个商品的关联关系建立索引的方式,减少索引准备工作所耗时间,从而减小计算资源的占用。附图说明
[0038] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0039] 图1为本发明实施例提供的运算设备的结构示意图;
[0040] 图2为本发明实施例提供的数据处理方法的流程图
[0041] 图3为本发明实施例提供的具体实例的示意图;
[0042] 图4a-4d为本发明实施例提供的具体实例的系统架构示意图;
[0043] 图5为本发明实施例提供的另一种数据处理方法的流程图;
[0044] 图6a-6b为本发明实施例提供的再一种数据处理方法的流程图;
[0045] 图7为本发明实施例提供的数据处理装置的结构示意图。

具体实施方式

[0046] 为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0047] 本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
[0048] 本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0049] 在下文的描述中,将以包括触控显示器的智能终端为实施例,其显示器上配置有可触控界面。在以下详细描述中,许多具体细节被示出以提供对本发明的深入了解。然而,本发明可能在没有这些具体细节的情况下被实施对于本领域的普通技术人员将是显而易见的。在其他情况下,众所周知的方法、规程、部件、电路和网络未被详细描述以免不必要地模糊实施例的各个方面。
[0050] 本发明所揭示的数据处理方法可以由一台单独的设备作为执行主体执行,或整合于各种不同的运算设备中,诸如服务器、工作站、超级计算机等。如图1所示为根据本发明一个具体实施方式的运算设备。所述运算设备包括输入单元、处理器单元、通信单元、存储单元、外设单元等组件。这些组件通过一条或多条总线进行通信。本领域技术人员可以理解,图中示出的运算设备的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0051] 输入单元用于实现用户与运算设备的交互和/或信息输入到运算设备中。例如,输入单元可以接收用户输入的数字或字符信息,以产生与用户设置或功能控制有关的信号输入。在本发明具体实施方式中,输入单元可以是触控面板,也可以是其他人机交互界面,例如实体输入键、麦克等,还可是其他外部信息撷取装置,例如摄像头等。
[0052] 处理器单元为运算设备的控制中心,利用各种接口和线路连接整个运算设备的各个部分,通过运行或执行存储在存储单元内的软件程序和/或模块,以及调用存储在存储单元内的数据,以执行运算设备的各种功能和/或处理数据。所述处理器单元可以由集成电路(Integrated Circuit,简称IC)组成,例如可以由单颗封装的IC所组成,也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说,处理器单元可以仅包括中央处理器(Central Processing Unit,简称CPU),也可以是GPU、数字信号处理器(Digital Signal Processor,简称DSP)、及通信单元中的控制芯片(例如基带芯片)的组合。在本发明实施方式中,CPU可以是单运算核心,也可以包括多运算核心。
[0053] 所述通信单元用于建立通信信道,使运算设备通过所述通信信道以连接至存储商品信息的数据库,并从数据库的远程服务器下媒体数据。由于需要处理海量的商品信息,因此在优选方案中应该采用具备较高传输带宽的通信方式以及与该通信方式相应类型的通信单元。例如:LC、SC、SFP等接口的光纤网卡。所述通信单元也可以包括无线局域网(Wireless Local Area Network,简称wireless LAN)模块、蓝牙模块、基带(Base Band)模块等通信模块,以及所述通信模块对应的射频(Radio Frequency,简称RF)电路,用于进行无线局域网络通信、蓝牙通信、红外线通信及/或蜂窝式通信系统通信,例如宽带码分多重接入(Wideband Code Division Multiple Access,简称W-CDMA)及/或高速下行封包存取(High Speed Downlink Packet Access,简称HSDPA)。所述通信模块用于控制运算设备中的各组件的通信,并且可以支持直接内存存取(Direct Memory Access)。
[0054] 存储单元可用于存储软件程序以及模块,处理单元通过运行存储在存储单元的软件程序以及模块,从而执行运算设备的各种功能应用以及实现数据处理。存储单元主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序,比如数据提交下载程序、数据分析程序等等;数据存储区可存储从数据库的服务器下载的商品信息、数据表等。在本发明具体实施方式中,存储单元可以包括易失性存储器,例如非挥发性动态随机存取内存(Nonvolatile Random Access Memory,简称NVRAM)、相变化随机存取内存(Phase Change RAM,简称PRAM)、磁阻式随机存取内存(Magetoresistive RAM,简称MRAM)等,还可以包括非易失性存储器,例如至少一个磁盘存储器件、电子可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM)、闪存器件,例如反或闪存(NOR flash memory)或是反及闪存(NAND flash memory)。非易失存储器储存处理单元所执行的操作系统及应用程序。所述处理单元从所述非易失存储器加载运行程序与数据到内存并将数字内容储存于大量储存装置中。所述操作系统包括用于控制和管理常规系统任务,例如内存管理、存储设备控制、电源管理等,以及有助于各种软硬件之间通信的各种组件和/或驱动器
[0055] 需要说明的是,也可以借助外部存储设备作为运算设备存储单元或是与存储单元结合用于存储运算设备的数据,例如:通过通信单元与分布式存储设备进行数据交互,将下载得到的待处理的商品信息存储在分布式存储设备中,并排队等待处理器单元采用本发明实施例提供的数据处理方法进行处理并得到lucene文件及各lucene文件之间的关联结果。或者,也可以通过通信单元将数据处理过程中的中间数据或临时数据存储在分布式存储设备中。本实施例所述的lucene文件基于lucene得到,Lucene指的是apache软件基金会发布的一个开放源代码的全文检索引擎工具包,该工具包基于一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,以及部分文本分析引擎。
[0056] 电源用于给运算设备的不同部件进行供电以维持其运行。作为一般性理解,所述电源可以是内置的电池,例如常见的锂离子电池、镍氢电池等,也包括直接向运算设备供电的外接电源,例如AC适配器等。在本发明的一些实施方式中,所述电源还可以作更为广泛的定义,例如还可以包括电源管理系统、充电系统、电源故障检测电路、电源转换器或逆变器、电源状态指示器(如发光二极管),以及与运算设备的电能生成、管理及分布相关联的其他任何组件。
[0057] 本发明实施例提供一种如图2所示的数据处理方法,包括:
[0058] 101,获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述表示商品信息的各数据表的lucene文件。
[0059] 其中,运算设备可以从数据库中读取用于表示商品信息的数据表,例如:可以直接从在线交易平台的数据库中读取数据表;也可以从数据库的数据备份系统中读取数据表,以避免增加数据库的传输压力。其中,若运算设备是一台单独的设备,则可以通过运算设备的通信单元,通过有线或无线网络从数据库或数据备份系统读取数据表。若运算设备集成在数据库或数据备份系统的服务器中,则可以从数据库的存储设备或数据备份系统的存储设备读取。
[0060] 在本实施例中,表示商品信息的数据表可以包括:商品主表和表示商品属性的数据表。其中,商品主表中至少包括商品唯一标识、所属商家等数据。数据库中为已登记的商品自动分配的识别码,每一个商品的识别码与任一其他商品不同,该种识别码可以称为商品唯一标识;或者也可以将商品名称、型号、类型信息等数据的组合作为商品唯一标识。表示商品属性的数据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。需要说明的是,在本实施例中,将记录了用于描述商品的性质、形态、销售情况等方面的数据的数据表称为表示商品属性的数据表,比如:上述的商品基本属性表、商品价格信息表和商品库存信息表,但并不仅限于此。商品基本属性表具体可以包括商品的产地、生产日期、上市时间(该型产品投入市场的时间)等数据。
[0061] 对于表示商品信息的各数据表,运算设备生成分别对应于每一个数据表的lucene文件,例如:对应于商品基本属性表的商品基本属性lucene文件、对应于商品价格信息表的商品价格信息lucene文件和对应于商品库存信息表的商品库存信息lucene文件等。以商品价格信息表为例:运算设备可以先读取商品价格信息表中的数据,并直接得到或通过对数据转化得到表示商品价格的文本信息。并利用基于Lucene的软件包根据文本信息进行索引并创建索引文件,作为商品价格信息表的lucene文件。所得到的对应于表示商品信息的各数据表的lucene文件可以存储在运算设备的存储器中,或是提交至数据库中开辟的专用存储空间。
[0062] 102,获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据。
[0063] 数据表的主键为数据表中具有唯一性的字段,即数据表中任意两条记录不具有相同的主键字段。可以理解的,运算设备从获取数据表中获取的主键应为由多条主键字段组成的集合。在本实施例中,可以将商品唯一标识作为主键,则运算设备获取的是商品主表中所有商品的唯一标识字段的集合。
[0064] 在本实施例中,各数据表中的数据以文本信息的形式分别加入各个数据表的lucene文件中,以商品唯一标识作为主键为例:数据表的主键为商品1至商品10的唯一标识字段的集合,则商品基本属性lucene文件中对应于主键的数据为:商品1-10的产地、生产日期、上市时间等商品基本属性的文本信息;商品价格信息lucene文件中对应于主键的数据为:表示商品1-10价格的文本信息;商品库存信息lucene文件中对应于主键的数据为:表示商品1-10库存数量、库存地点、库存时间等方面的文本信息。
[0065] 103,根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交。
[0066] 其中,运算设备向指定存储区域提交的数据包括:由表示商品信息的数据表加工得到的lucene文件,以及lucene文件之间的关联关系。
[0067] lucene文件之间的关联关系可以表示为lucene文件各自的标识字符(比如:可以将主表的ID作为该由表加工得到的lucene文件的标识字符、lucene文件生成时的编号等)与主键的字符的集合。lucene文件各自的标识字符与主键的字符的集合即可作为本实施例中的关联结果。需要说明的是,关联结果中还可以包括商品基本属性、价格和库存等其他商品信息,以便于可以根据关联结果快速得到某些商品信息。
[0068] 在本实施例中,以商品唯一标识作为主键为例:运算设备将商品1-商品10的唯一标识字段的集合,以及分别表示商品1-10的商品基本属性、价格和库存的文本信息合并作为关联结果,以商品主表的ID作为文件标识,以便检索阶段通过ID检索到主表所示商品。
[0069] 本发明实施例提供的数据处理方法,能够将现有数据库中数据表转化为相应的lucene文件,再按照商品主表中的主键从lucene文件中获取商品信息,以便用于用户检索。本发明在处理海量商品时,通过商品主表的主键和商品信息生成用于用户检索的lucene文件以及关联结果,避免了针对每一个商品的关联关系建立索引的方式,减少索引准备工作所耗时间,从而减小计算资源的占用。
[0070] 作为一种实现方式,步骤102的具体可以实现为:
[0071] 1011,获取所述商品主表中记载的商品唯一标识。
[0072] 其中,商品唯一标识可以是数据库在将商品信息写入数据表时,分配的商品编号。如图3所示,商品主表中记载了商品编号和所属商家名称,其中商品编号在主表中具有唯一性,可以作为主键。
[0073] 1012,查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询到的lucene文件中读取商品属性数据。
[0074] 其中,商品属性数据至少包括:商品基本属性数据、商品价格数据和商品库存数据。以如图3所示为例:商品基本属性lucene文件、商品价格信息lucene文件和商品库存信息lucene文件为步骤101中运算设备分别根据商品基本属性表的、商品价格信息表的和商品库存信息表得到的,而在商品基本属性表的、商品价格信息表的和商品库存信息表中,商品编号为主键,则上述3个数据表与商品主表具有相同主键,运算设备从上述3个lucene文件中分别读取商品基本属性、价格和库存数据。
[0075] 商品主表的主键已存在于数据库中,运算设备无需重新设置lucene文件的识别信息,并且在实际应用中,lucene文件具有读取速度快的特点,利用商品主表的主键确定lucene文件并从中读取商品属性数据,进一步减少了加工得到lucene文件及关联结果所需时间。
[0076] 作为一种实现方式,步骤103的具体可以实现为:根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;将所述关联结果提交至solrcloud。
[0077] 在本实施例的优选方案中,在生成lucene文件以及关联结果后,也可以将关联结果提交solrCloud,其中,SolrCloud指的是Solr4.0版本以后,Solr的基于Zookeeper一种部署方式,Solr是一种采用Java5开发,基于Lucene的全文搜索服务器,ZooKeeper是一种分布式的,开放源码的分布式应用程序协调服务技术。如图4a所示,对于运算设备集成在数据库中的场景,运算设备可将得到的lucene文件以及关联结果传输至其他存储设备中开辟的专用存储空间,以便于数据库接收到商品的检索请求后,运算设备或数据库从其他存储设备中读取所查商品的lucene文件以及关联结果,并向用户返还有关该商品的商品基本属性、价格和库存等信息。其中,其他存储设备可以包括:盘、共享的存储设备、分布式存储系统以及其他能支持运算设备或数据库进行数据读写的存储设备或存储系统。
[0078] 可选的,如图4b所示,lucene文件以及关联结果也可以存储至运算设备的存储器中,数据库在将检索请求转发给运算设备,运算设备向数据库返还lucene文件以及关联结果中有关商品的商品信息,从而减小数据库的传输压力,需要说明的是,在图4b所示的场景中运算设备与数据库之间可以通过数据传输接口相连,运算设备通过接口向数据库发送请求以获取用于加工成lucene文件以及关联关系的原始表项(即表示商品信息的数据表),数据库查询得到运算设备所请求获取的原始表项并通过该接口发送给运算设备;如图4c所示,运算设备同时也可直接接收用户终端发送的检索请求并向用户终端返还lucene文件以及关联结果中有关商品的商品信息,从而进一步减小数据库的传输压力,需要说明的是,需要说明的是,在图4c所示的场景中运算设备与数据库之间可以直接进行数据读写操作,即运算设备中存储数据库中各原始表项的存储地址,因而运算设备直接根据存储地址从数据库中读取原始表项,并加工成lucene文件以及关联关系;如图4d所示,运算设备也可以将关联结果提交至solrCloud,以便用户终端通过solrCloud检索商品信息,从而利用已有solrCloud,减小数据库和运算设备的传输压力。运算设备将关联结果提交至solrCloud,同时可以将lucene文件存储在运算设备中,或是如图4d所示的提交并存储在其他存储设备中。在生成lucene文件以及关联结果之后,还可以包括商品信息的检索步骤,如图5所示,还可以包括:
[0079] 104,根据接收到的查询请求,确定与所述查询请求关联的主键。
[0080] 在本实施例中,主键为商品主表中的商品唯一标示(比如:商品编号),用户终端所发送的查询请求用于查询某一种商品的属性信息,查询请求中包括商品名称、所属商家等信息。执行检索步骤的设备(比如:运算设备)根据查询请求确定所需查询商品的唯一标示,作为与查询请求关联的主键。
[0081] 105,根据与所述查询请求关联的主键,从所述指定存储区域读取数据。
[0082] 本实施例中,lucene文件以及关联结果包括主键和对应于主键的数据。执行检索步骤的设备获取与所述查询请求关联的主键对应的lucene文件以及关联结果,具体可以实现为:检测所存储的lucene文件以及关联结果的主键中,是否存在由查询请求确定得到的商品唯一标示,若存在,则该lucene文件以及关联结果为与所述查询请求关联的主键对应的lucene文件以及关联结果。
[0083] 需要说明的是,在本实施例中执行检索步骤的设备应为存储lucene文件以及关联结果的设备,结合如图4a-4d所示的方案,图4a中执行检索步骤的设备为数据库,图4b、图4c中执行检索步骤的设备为运算设备,图4d中执行检索步骤的设备为solrCloud。lucene文件以及关联结果可以存储在数据库以外的设备中,减少了数据库在商品查询过程中的传输压力。
[0084] 在生成lucene文件以及关联结果之后,还可以包括商品信息的增量更新过程,如图6a所示,还可以包括:
[0085] 106a,当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据所在数据表的主键。
[0086] 以商品编号为主键为例:商品价格信息表出现增量数据,运算设备获取商品价格信息表的主键,并查询具有相同主键的商品基本属性表、商品库存信息表和商品主表。需要说明的是,这里所获取的主键可以包括数据表中所有的商品编号,也可以只包括增量数据所对应的商品编号。
[0087] 107a,读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。
[0088] 运算设备重新生成所确定的数据表的lucene文件,用以替换原lucene文件;或者根据增量数据,生成符合lucene文件的代码信息,并更新至所确定的数据表的lucene文件。若lucene文件以及关联结果存储于solrCloud,则运算设备更新lucene文件,并根据增量数据原子更新至solrCloud。
[0089] 根据具体应用环境的不同,本发明实施例中的增量更新过程,还可以实现为如图6b所示的流程:
[0090] 106b,当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表。
[0091] 107b,将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。
[0092] 运算设备也可实时检测缓冲队列中是否出现增量数据,若出现增量数据,则原子更新至存储lucene文件的设备,以及关联结果的solrCloud。
[0093] 通过上述数据处理方法生成lucene文件以及关联结果之后,若出现增量数据,能够同步更新至lucene文件及lucene文件以及关联结果,避免现有技术中重新建立索引的数据更新方式,减少更新索引所耗时间,从而减小数据更新过程中计算资源的占用。
[0094] 本发明实施例还提供一种如图7所示的数据处理装置70,其中包括:
[0095] 预处理模块71,用于获取表示商品信息的数据表,并根据数据表中的数据分别生成对应于所述表示商品信息的各数据表的lucene文件。
[0096] 提取模块72,用于获取数据表的主键,并根据所述主键从生成的lucene文件中读取对应于所获取的主键的数据。
[0097] 分析模块73,用于获取根据对应于所述主键的数据,组建所生成的lucene文件之间的关联,并向指定存储区域提交。
[0098] 其中,所述表示商品信息的数据表包括:商品主表和表示商品属性的数据表,所述表示商品属性的数据表至少包括:商品基本属性表、商品价格信息表和商品库存信息表。
[0099] 进一步的,所述提取模块72,具体用于获取所述商品主表中记载的商品唯一标识。查询得到将所述商品唯一标识作为主键的数据表的lucene文件,并从所查询到的lucene文件中读取商品属性数据,所述商品属性数据至少包括:商品基本属性数据、商品价格数据和商品库存数据。
[0100] 所述分析模块73,具体根据所述商品唯一标识将各项商品属性数据加工并得到关联结果;并将所述关联结果提交至solrcloud。
[0101] 进一步的,装置70还包括:查询模块75,用于根据接收到的查询请求,确定与所述查询请求关联的主键;并根据与所述查询请求关联的主键,从所述指定存储区域读取数据。
[0102] 进一步的,装置70还包括第一更新模块76,用于当检测到所述表示商品信息的数据表出现增量数据时,获取所述增量数据所在数据表的主键;读取所确定的数据表的数据,并更新至所述所确定的数据表的lucene文件。
[0103] 可选的,装置70还包括第二更新模块77,用于当缓冲队列中出现增量数据时,确定与所述增量数据关联的数据表;并将所述增量数据更新至与所述增量数据关联的数据表的lucene文件。
[0104] 本发明实施例提供的数据处理装置,能够将现有数据库中数据表转化为相应的lucene文件,再按照商品主表中的主键从lucene文件中获取商品信息,以便用于用户检索。本发明在处理海量商品时,通过商品主表的主键和商品信息生成用于用户检索的lucene文件以及关联结果,避免了针对每一个商品的关联关系建立索引的方式,减少索引准备工作所耗时间,从而减小计算资源的占用。
[0105] 本技术领域技术人员可以理解,本发明可以涉及用于执行本申请中所述操作中的一项或多项操作的设备。所述设备可以为所需的目的而专设计和制造,或者也可以包括通用计算机中的已知设备,所述通用计算机有存储在其内的程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘硬盘、光盘、CD-ROM、和磁光盘)、随即存储器(RAM)、只读存储器(ROM)、电可编程ROM、电可擦ROM(EPROM)、电可擦除可编程ROM(EEPROM)、闪存、磁性卡片或光线卡片。可读介质包括用于以由设备(例如,计算机)可读的形式存储或传输信息的任何机构。例如,可读介质包括随即存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光学存储介质、闪存装置、以电的、光的、声的或其他的形式传播的信号(例如载波、红外信号、数字信号)等。
[0106] 本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。
[0107] 本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
[0108] 以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈