首页 / 专利库 / 商业 / 电子商务 / 用于垂直搜索的企业位置信息获取分析及存储方法

用于垂直搜索的企业位置信息获取分析及存储方法

阅读:2发布:2021-12-23

专利汇可以提供用于垂直搜索的企业位置信息获取分析及存储方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及互联网信息处理领域,特别涉及用于垂直搜索的企业 位置 信息获取分析及存储方法。本发明方法通过调用公用平台的数据 接口 获取到企业的地理信息,通过至少两个地图平台上获取的信息来进行相关验证,以获得更加准确的地理经纬度信息;将获取到的信息存储于分布式文件系统中;并使用ElasticSearch来建立对应的索引文件。为企业地理区位分析、查询、业务拓展、价值挖掘以及隐藏的地域、地理商业价值的分析和挖掘提供数据获取、存储和搜索的技术 支撑 。ElasticSearch满足分布式全文搜索的需要,搜索性能稳定、可靠、快速,可实现实时搜索,满足建立亿数量级别的企业地理信息搜索的需要。,下面是用于垂直搜索的企业位置信息获取分析及存储方法专利的具体信息内容。

1.用于垂直搜索的企业位置信息获取分析及存储方法,其特征在于,根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,并将企业信息和获取到的经纬度信息存储于分布式文件系统中;建立包含企业名称、经度和纬度字段的索引映射格式;将存储于分布式文件系统中的企业信息和对应的经纬度信息导入索引中。
2.如权利要求1所述的方法,其特征在于,所述分布式文件系统为HDFS。
3.如权利要求1所述的方法,其特征在于,使用ElasticSearch来建立索引。
4.如权利要求1所述的方法,其特征在于,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。
5.如权利要求4所述的方法,其特征在于,所述数据相互验证和补全,包含以下实现步骤:
(ST1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;
(ST2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;
(ST3)所述数据相互验证和补全,适用以下规则条件:
A、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;
B、选择从平台获取到的数据信息中,可信较高的对应经纬度信息为企业的经纬度数据;
C、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。
6.如权利要求5所述的方法,其特征在于,所述数据相互验证和补全过程通过Mapreduce并行处理。
7.如权利要求1至6之一所述的方法,其特征在于,所述方法包含以下实现步骤:
(1)通过网络爬虫来获取企业名称和对应的地址信息;
(2)根据企业地址信息调用地图平台接口来获取对应的企业的地理经纬度信息;
(3)将获取到的企业名称、企业地址和企业经度信息、企业纬度信息存储于HDFS分布式文件系统中;
(4)创建ElasticSearch索引格式,所述索引存储的字段包含企业名称、企业地址和企业经度信息、企业纬度信息;
(5)将HDFS分布式文件系统中所存储的企业名称、企业地址和企业经度信息、企业纬度信息导入索引之中,形成基于ElasticSearch的企业地理信息索引文件。
8.如权利要求7所述的方法,其特征在于,所述步骤(5)中,用Mapreduce计算批量读取企业名称、企业地址和企业经度信息、企业纬度信息文件写入索引中。
9.如权利要求8所述的方法,其特征在于,所述步骤(5)中,按照索引映射格式把每条企业信息数据的:企业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入索引的lon,企业地理信息纬度对应写入索引的lat。

说明书全文

用于垂直搜索的企业位置信息获取分析及存储方法

技术领域

[0001] 本发明涉及互联网信息处理领域,特别涉及用于垂直搜索的企业位置信息获取分析及存储方法。

背景技术

[0002] 以信息技术发展为代表的社会进步,数据信息的积累以级数速度增长,网络技术的发展促进了信息的传播和积累,网络信息数据涵盖了社会、经济、政治、行业、企业、组织、个人活动的方方面面,数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难
题,在海量的数据里面,如何精确的获得人们关心的信息成为迫切解决的问题,在巨大的市场需求面前,互联网搜索和大数据分析成为当今互联网应用的热;各种搜索引擎也应运
而生,其中垂直搜索引擎是针对某一个行业的专业搜索引擎,相对通用搜索引擎的信息量
大、查询不准确、深度不够等缺点,垂直搜索通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,具有“专业”、“精准”、“深度挖掘”的特点,且具有行业色彩。然而目前市场针对企业的垂直搜索还比较鲜见。
[0003] 而企业信息是数据分析的重要一环;在数据分析中具有重要的意义,由于企业作为社会经济中最重要的活动主体,在经济中扮演着重要的色,对于企业信息的整理和分
析可以了解企业的背景、勾勒出企业活动的生产情况、经营状况、人员信息、投资情况、股东构成、企业资质、资产规模、资产增长情况以及异常情况。这些信息对于监控企业发展状态和防范企业经营险具有极其重要的意义,而在企业的信息中地理信息是相当重要的一
环,对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘都大有裨益。
[0004] 现有的公用地理信息地图系统,没有公开的专门的搜索企业以及企业关系的搜索平台,只有酒店,餐馆、景点等的专门搜索;大而全的通用搜索,突出不了专注企业搜索的意义;更搜索不了以某个位置为中心的周围的不知道名字的企业。所以结合已有的大数据量
的企业信息,建立专门的企业地理信息系统对针对企业信息大数据分析的公司是必要的需
求。
[0005] 而要建立这样的系统,首先要做的就是集合企业数据,建立企业位置信息高效的获取和存储系统。

发明内容

[0006] 本发明的目的在于克服现有技术中所存在的上述不足,提供用于垂直搜索的企业位置信息获取分析及存储方法。通过使用企业基本信息来获取企业地理信息;在获取的地
理信息上建立适当的存储模型和查询模型,为基于地理位置的企业信息查询提供基础
[0007] 为了实现上述发明目的,本发明提供了以下技术方案:
[0008] 用于垂直搜索的企业位置信息获取分析及存储方法,根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相
互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,并将企业
信息和获取到的经纬度信息存储于分布式文件系统中;建立包含企业名称、经度和纬度字
段的索引映射格式;将存储于分布式文件系统中的企业信息和对应的经纬度信息导入索引
中。
[0009] 进一步的,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。
[0010] 具体的,所述数据相互验证和补全,包含以下实现步骤:
[0011] (ST1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;
[0012] (ST2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;
[0013] (ST3)对不一致的数据按照各个开放平台返回结构的分数排序,取可信值分数较高的;并按照各个开放平台之间地图坐标系的区别,分别计算相对应的值。所述数据相互验证和补全,适用以下规则条件:
[0014] A、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;
[0015] B、选择从平台获取到的数据信息中,可信较高的对应经纬度信息为企业的经纬度数据;
[0016] C、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。
[0017] 作为一种优选,所述分布式系统为HDFS。
[0018] 作为一种优选,使用ElasticSearch来建立搜索索引。
[0019] 作为一种优选,所述数据相互验证和补全过程通过Mapreduce并行处理来实现。
[0020] 作为一种优选,所述方法包含以下实现步骤:
[0021] (1)通过网络爬虫来获取企业名称和对应的地址信息;
[0022] (2)根据企业地址信息调用地图平台接口来获取对应的企业地理经纬度信息;
[0023] (3)将获取到的企业名称、企业地址和企业经度信息、企业纬度信息存储于HDFS分布式文件系统中;
[0024] (4)创建ElasticSearch索引格式,所述索引存储的字段包含企业名称、企业地址和企业经度信息、企业纬度信息;
[0025] (5)将HDFS分布式文件系统存储的企业名称、企业地址和企业经度信息、企业纬度信息导入索引之中,形成基于ElasticSearch的企业地理信息索引文件。
[0026] 进一步的,所述步骤(5)中,用Mapreduce计算批量读取企业名称、企业地址和企业经度信息、企业纬度信息文件,按照索引映射格式把每条企业信息数据的:企业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入索引的lon,企业地理信息纬度对应写入索引的lat。
[0027] 与现有技术相比,本发明的有益效果:本发明提供用于垂直搜索的企业位置信息获取分析及存储方法,本发明方法通过已获取的企业地址信息调用公开数据平台的接口获
得对应的企业地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相互
验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,提高了企业
经纬度信息采集的结果的准确性;并且本发明将获取到的企业信息(包括:名称、地址、地理经纬度信息)存储于分布式文件夹系统中,在此基础上使用适合分布式全文搜索的
ElasticSearch来建立搜索的索引文件,为专门针对企业的垂直搜索提供了数据获取、数据存储和数据搜索的技术基础,能够满足建立亿数量级别的企业地理信息搜索的需要;为用
户使用Web端口访问和查询企业相关信息提供了便利。本发明方法专门针对企业来进行地
理信息的获取和索引构建,弥补了现有公开地图平台中没有专门针对企业地理信息服务的
缺失;在企业地理区位分析、查询、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的使用价值。
附图说明:
[0028] 图1为本发明地理信息数据的获取及分析过程示意图。
[0029] 图2为本发明企业位置信息获取、存储和索引建立的实现步骤示意图。
[0030] 图3为本发明方法实施例1的实施流程示意图。

具体实施方式

[0031] 下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本
发明的范围。
[0032] 本发明提供用于垂直搜索的企业位置信息获取分析及存储方法。通过使用企业基本信息来获取企业地理信息;并通过从至少两家地图平台获取的数据进行相互验证和相互
补全,确保了经纬度数据的准确性,在获取的地理信息上建立适当的存储模型和查询模型,为基于地理位置的企业信息查询提供基础。
[0033] 为了实现上述发明目的,本发明提供了以下技术方案:
[0034] 用于垂直搜索的企业位置信息获取分析及存储方法,根据企业地址调用地图平台接口获取企业的地理经纬度信息,通过从至少两家地图平台获取到的经纬度数据来进行相
互验证和补全,找出可信度较高的经纬度信息作为企业对应的地理经纬度信息,并将企业
信息和获取到的经纬度信息存储于分布式文件系统中;建立包含企业名称、经度和纬度字
段的索引映射格式;将存储于分布式文件系统中的企业信息和对应的经纬度信息导入索引
中。
[0035] 本发明方法建立专门针对企业的地理信息获取和存储索引,弥补了现有地图平台缺乏专门针对企业信息地图信息服务的缺失;而且本发明方法通过至少两个地图平台获取
的数据来相互印证和数据补全,保证了获取到地理信息的准确性,为针对企业的垂直搜索
提供了基础。对于企业本身的区域关联、业务拓展、价值挖掘,以及整体经济的区域分类,隐藏的地域、地理商业价值的分析和挖掘具有重要的意义。
[0036] 进一步的,所述地图平台包括:第一地图平台、第二地图平台和,或第三地图平台。目前公开的地图数据平台很多,根据企业地址在公开数据平台上自动获取企业的经纬度信
息,快速便捷,成本较低;为数据深度分析和再加工利用应用创造了前提条件。仅仅从一家平台上获取的数据存在较大的数据不准确的风险,通过调用多家平台来获取目标企业的地
理经纬度信息,并且通过多家平台的数据来相互验证和补全则可以极大的提高数据获取的
质量,为后期的数据使用提供更加准确的数据源。
[0037] 具体的,所述数据相互验证和补全,包含如图1所示的以下实现过程:
[0038] (ST1)调用第一地图平台接口,获得企业第一经度数据和第一纬度数据;
[0039] (ST2)调用第二地图平台接口,获得企业第二经度数据和第二纬度数据;
[0040] (ST3)所述数据相互验证和补全,适用以下规则条件:
[0041] A、如果从第一地图平台获取的经纬度数据完整,而从第二地图平台获取到的经纬度数据有缺失,则选择第一经度数据和第一纬度数据作为企业的地理经纬度信息;
[0042] B、选择从平台获取到的数据信息中,根据可信度来排序,选择可信较高的对应经纬度信息为企业的经纬度数据;
[0043] C、比较第一经度数据和第二经度数据,得到差值数据1,比较第一纬度数据和第二纬度数据,得到差值数据2,如果差值数据1和差值数据2均在设置的阈值内,则可选择将第一经度数据、第一纬度数据或者第二经度数据、第二纬度数据作为企业的地理经纬度数据。上述规则条件按顺序适用。
[0044] 进一步的,所述分布式系统为HDFS。HDFS作为Hadoop下面的分布式文件系统,具有高度容错性,适合部署在廉价的机器上,运行和维护成本较低。同时HDFS非常适合用于大规模数据集;采用HDFS来存储待处理数据可以满足海量数据存储,高容错性的需要,为云计算和批量处理提供文件存储基础。
[0045] 进一步的,本发明方法使用ElasticSearch来建立索引,ElasticSearch是一个基于Lucene的搜索服务器,提供了一个分布式多用户能的全文搜索引擎,基于RESTful web接口,方便用户通过web接口来搜索和读取数据。ElasticSearch设计用于云计算中,搜索性能稳定,可靠,快速,能够满足实时搜索的需要;安装使用方便,易于扩展,通过扩展机器建立集群,能适应大数据时代数据量增长和机器量整数平行增长的要求。
[0046] 进一步的,本发明方法包含如图2所示的以下实现步骤:
[0047] (1)通过网络爬虫来获取企业名称和对应的地址信息;并将获取到的企业名称和对应地址信息存储于HDFS分布式文件系统中。互联网中包含广泛丰富的信息来源,从互联
网中根据需要爬取相关信息,并将获取的信息进行深度处理,为信息的精细化处理和深度
应用提供途径。并且将从互联网中采集的海量数据存储于HDFS分布式文件系统中,为数据
的批量存储和读取提供了前提。
[0048] (2)根据企业地址信息调用地图平台接口来获取对应的企业地理经纬度信息;
[0049] (3)将获取到的企业名称、企业地址和企业经度信息、企业纬度信息存储于HDFS分布式文件系统中;
[0050] (4)创建ElasticSearch索引格式,所述索引存储的字段包含企业名称、企业地址和企业经度信息、企业纬度信息;
[0051] (5)用Mapreduce云计算批量读取企业名称、企业地址和企业经度信息、企业纬度信息文件,按照索引映射格式把每条企业信息数据的:企业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入索引的lon,企业地理信息纬度对应写入索引的lat。云计算平台的大数据处理框架例如Hadoop体系下的MapReduce和Spark等,通过将任务自动切分,分配到多个节点处理,分而自治的方式,可以实现海量数据的并行的处理,极大的提高了数据的处理效率。
[0052] 实施例1
[0053] 从网络上根据字段设置爬取到企业名称和对应的地址信息,例如企业名称为成都ABCD科技有限公司,地址为:成都市天府大道中段xx号,根据企业地址信息调用第一地图平台接口获取到企业地址对应的地理经纬度信息为:{″status″:0,″result″:{″location″:
{″lng″:105.07392899855,″lat″:36.555138880016},″pr ecise″:1,″confidence″:80,″level″:″\u5546\u52al\u5927\u53a6″}}从返回信息可以获取到可信度为:80,经度为
105.07392899855,纬度为36.555138880016。
[0054] 调用第二地图平台接口获取到企业地址对应的地理经纬度信息为:{″status″:″1″,″info″:″OK″,″infocode″:″1000″,″count″:″1″,″geocodes″:[{″formatted_a ddress″:″四川省成都市武侯区某某广场B座″,″province″:″四川省,″citycode″:″028″,″city″:″成都市″,″district″:″武侯区″,″township″:[],″neighborhood″:{″name″:[],″type″:[]},″building″:{″name″:[],″type″:[]},″adcode″:″510107″,″street″:″天府大道中段″,″number″:″xx号″,″location″:″104.067139,30.548830″,″level″:″门牌号″}]}。从上述返回信息可以获取到:可信度为门牌号,经度为105.067139,纬度为
36.548830。
[0055] 上述两个平台获取到的数据均完整,则适用规则B,根据两个平台的获取数据的可信度来进行排序,比如说将第二地图平台的″level″:″门牌号″,对应的转化为“可信度:
99”,较通过第一地图平台获取的“可信度:80”的可信度更高,则选择第二地图平台获取到的经度为105.067139,纬度为36.548830作为:“成都ABCD科技有限公司、成都市天府大道中段xx号”对应的经纬数据。将获取到的经纬度信息存储于HDFS分布式文件系统中,以上过程完成了经纬度信息的获取和存储过程。
[0056] 安装部署ElasticSearch,创建ElasticSearch索引映射格式
[0057] a.按照需求索引将要存储的字段包括:_id(唯一标识),企业名称,企业地址,企业经度,企业纬度
[0058] b.根据上面需要保存的json格式的索引映射文件addr.json内容为:
[0059]
[0060]
[0061]
[0062] c.通过Resutful命令提交准备的映射文件到集群,建立索引格式。
[0063] Mapreduce云计算导入企业地理信息进入索引,用Mapreduce云计算批量读取存储于HDFS分布式文件系统中的企业信息文件,按照索引映射格式把每条企业信息数据的:企
业名称对应写入索引的name,企业地址对应写入索引的addr,企业地理信息经度对应写入
索引的lon,企业地理信息纬度对应写入索引的lat。上述数据的获取、存储已经建立索引的流程如图3所示。
[0064] 原始数据文件:
[0065] 成都ABCD科技有限公司 成都市天府大道中段xx号
[0066] 获取到经纬度信息的企业文件:
[0067] 成都ABCD科技有限公司 成都市天府大道中段xx号
[0068] 105.067139 36.548830
[0069] 建立的ElasticSearch文件程序片段如下:
[0070] {
[0071] · ″_index″:″addrs″,
[0072] · ″_type″:″addr″,
[0073] · ″_version″:1,
[0074] · ″_score″:1,
[0075] · ″_source″:{
[0076] ο″id″:″17312216″,
[0077] o″name″:″成都ABCD科技有限公司″,
[0078] o″addr″:″成都市天府大道中段xx号″,
[0079] ο″lon″:105.067139,
[0080] ο″lat″:36.548830,
[0081] o″ident″:″|_|成都ABCD科技有限公司″
[0082] }
[0083] }
[0084] 经过上述过程建立起了企业名称、地址、地理信息的数据存储,并且建立了相应的索引,为相关的企业搜索提供了基础。可以看出以上仅为一个简单示例来说明数据的获取和索引的建立过程,实际上在大数据处理中针对的是千万级或者数亿级的海量目标来进行
上述过程的操作和实现,本发明方法采用云计算平台下的分布式存储系统,满足了海量数
据的存储和快速读取的需要;并且选用ElasticSearch来建立索引格式,ElasticSearch建
立索引快速、稳定,适于扩展;并使用云计算框架下的Mapreduce将存储于HDFS分布式文件系统中的数据批量读取到索引之中,处理速度极快、效率显著、通过使用ElasticSearch可以建立亿数量级别的企业地理信息搜索的需要,为建立全量企业地理信息检索提供技术支
撑。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈