首页 / 专利库 / 电脑编程 / 算法 / 一种无监督学习的空间信号源和室内位置关联的方法

一种监督学习的空间信号源和室内位置关联的方法

阅读:728发布:2021-06-06

专利汇可以提供一种监督学习的空间信号源和室内位置关联的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种 无 监督学习 的空间 信号 源和室内 位置 关联的方法,包含以下步骤,步骤一:搭建关系型 数据库 ;步骤二:收集店铺信息;步骤三:训练 数据采集 ;步骤四: 训练数据 预处理;步骤五:训练数据分类;步骤六:人工标注;步骤七:服务部署。本发明降低了对采集数据 质量 , 算法 计算精确度和地图精确度这三项要求。同时,使得店铺 定位 精度 提高,算法计算时间缩短,系统计算的 服务器 需求降低,减省地图的维护成本。,下面是一种监督学习的空间信号源和室内位置关联的方法专利的具体信息内容。

1.一种监督学习的空间信号源和室内位置关联的方法,其特征是:包含以下步骤,步骤一:搭建关系型数据库, 对GIS基础信息和语料库分别进行建表,GIS基础信息包括地点、楼层和店铺名称,语料库包括样本语料库和目标语料库;
步骤二:收集店铺信息,通过网络脚本,获取各大商场官网,本地生活网站中记录的店铺信息,并将收集到的店铺信息结构化后录入到关系型数据库内;
步骤三:训练数据采集,派采集人员到若干个商场采集空间信号数据,并将采集到的空间信号数据录入到关系型数据库内;
步骤四:训练数据预处理:将训练数据取重->去重,清洗,转换;
步骤五:训练数据分类:对采集到的数据使用无监督学习算法进行分类,将分类后的数据进行文本向量化(BOW+tf-idf),使用余弦相似度算法匹配出最相近的店铺;
步骤六:人工标注:对于步骤五中分类度低的训练数据,进行人工判断——是否对应到店铺,如果人工判断为有效数据,人工标注店铺信息;
步骤七:服务部署:将训练后的训练无监督分类器部署到服务器,开放定位接口供其他服务调用。
2.根据权利要求1所述的一种无监督学习的空间信号源和室内位置关联的方法,其特征是:步骤二中收集到的店铺信息的主要参数有,中文名称、英文名称、别名、缩写、类别、简介要求项2。
3.根据权利要求1所述的一种无监督学习的空间信号源和室内位置关联的方法,其特征是:步骤四对训练数据的预处理,是通过结合空间信号名称的多样性,处理多种形式的数据,包括拼音、中文、英文、多音字、变体字。
4.根据权利要求1所述的一种无监督学习的空间信号源和室内位置关联的方法,其特征是:步骤四中的训练数据清洗,即过滤掉没有名称的信号,训练数据转换即将WI-FI/蓝牙名称分词,拼音转换、中英文转换。

说明书全文

一种监督学习的空间信号源和室内位置关联的方法

技术领域

[0001] 本发明涉及数据处理方法、通信数据处理领域,具体涉及一种无监督学习的空间信号源和室内位置关联的方法。

背景技术

[0002] 目前,采集人员使用采集App,在室内采集WIFI/蓝牙等传感器信号,需要详细记录采集过的位置,并保证采集的覆盖率。定位时,使用室内定位算法,结合用户手机采集到的传感器数据,计算出室内位置,如果想知道用户所在的店铺,还需要有精确的地图信息。这个过程依赖采集数据的质量,算法的精确程度,和地图的准确率。现场采集,有采集人员作弊的险,采集不规范的风险,采集手机质量不合格的风向等。定位算法,本身算法难度较高,结合输入数据的多样性,对算法的质量有较高要求。地图精确度,地图绘制本身是一件很专业的事情,成本较高。地图信息也需要长期维护,商场内店铺信息变更频繁,如果数据未及时更新,影响定位的准确率。

发明内容

[0003] 鉴于现有技术中的上述缺陷或不足,期望提供一种无监督学习的空间信号源和室内位置关联的方法。
[0004] 根据本申请实施例提供的技术方案,一种无监督学习的空间信号源和室内位置关联的方法,包含以下步骤,步骤一:搭建关系型数据库, 对GIS基础信息和语料库分别进行建表,GIS基础信息包括地点、楼层和店铺名称,语料库包括样本语料库和目标语料库;
步骤二:收集店铺信息,通过网络脚本,获取各大商场官网,本地生活网站中记录的店铺信息,并将收集到的店铺信息结构化后录入到关系型数据库内;
步骤三:训练数据采集,派采集人员到若干个商场采集空间信号数据,并将采集到的空间信号数据录入到关系型数据库内;
步骤四:训练数据预处理:将训练数据取重->去重,清洗,转换;
步骤五:训练数据分类:对采集到的数据使用无监督学习算法进行分类,将分类后的数据进行文本向量化(BOW+tf-idf),使用余弦相似度算法匹配出最相近的店铺;
步骤六:人工标注:对于步骤五中分类度低的训练数据,进行人工判断——是否对应到店铺,如果人工判断为有效数据,人工标注店铺信息;
步骤七:服务部署:将训练后的训练无监督分类器部署到服务器,开放定位接口供其他服务调用。
[0005] 本发明中,步骤二中收集到的店铺信息的主要参数有,中文名称、英文名称、别名、缩写、类别、简介。
[0006] 本发明中,步骤四对训练数据的预处理,是通过结合空间信号名称的多样性,处理多种形式的数据,包括拼音、中文、英文、多音字、变体字。
[0007] 本发明中,步骤四中的训练数据清洗,即过滤掉没有名称的信号,训练数据转换即将WI-FI/蓝牙名称分词,拼音转换、中英文转换。
[0008] 综上所述,本申请的有益效果:本发明降低了对采集数据质量,算法计算精确度和地图精确度这三项要求。首先,不需要采集人员去现场采集;其次,不需要很复杂的定位算法,只需要基本的语义分析算法。再次,不需要准确的地图信息。
[0009] 同时,本发明还具有以下几点优点:1. 店铺定位精度从业界平均20%提高到85%。
[0010] 2. 算法计算时间从秒级提升到纳秒级。
[0011] 3. 系统计算的服务器需求从8CPU,16G降低到2CPU,4G。
[0012] 4. 不需要地图的维护成本。附图说明
[0013] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本发明方法流程图

具体实施方式

[0014] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
[0015] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0016] 一种无监督学习的空间信号源和室内位置关联的方法,包含以下步骤,步骤一:搭建关系型数据库, 对GIS基础信息和语料库分别进行建表,GIS基础信息包括地点、楼层和店铺名称,语料库包括样本语料库和目标语料库;步骤二:收集店铺信息,通过网络脚本,获取各大商场官网,本地生活网站中记录的店铺信息,并将收集到的店铺信息结构化后录入到关系型数据库内;
步骤三:训练数据采集,派采集人员到若干个商场采集空间信号数据,并将采集到的空间信号数据录入到关系型数据库内;
步骤四:训练数据预处理:将训练数据取重->去重,清洗,转换;
步骤五:训练数据分类:对采集到的数据使用无监督学习算法进行分类,将分类后的数据进行文本向量化(BOW+tf-idf),使用余弦相似度算法匹配出最相近的店铺;
步骤六:人工标注:对于步骤五中分类度低的训练数据,进行人工判断——是否对应到店铺,如果人工判断为有效数据,人工标注店铺信息;
步骤七:服务部署:将训练后的训练无监督分类器部署到服务器,开放定位接口供其他服务调用。
[0017] 步骤二中收集到的店铺信息的主要参数有,中文名称、英文名称、别名、缩写、类别、简介。
[0018] 步骤四对训练数据的预处理,是通过结合空间信号名称的多样性,处理多种形式的数据,包括拼音、中文、英文、多音字、变体字。
[0019] 步骤四中的训练数据清洗,即过滤掉没有名称的信号,训练数据转换即将WI-FI/蓝牙名称分词,拼音转换、中英文转换。
[0020] 实施例1收集店铺信息的步骤如下:使用网络脚本,抓取某生活类网站的热店铺列表,筛选出如下信息:店铺名、简称、缩写、类别、地址、电话、所在商场、所在楼层。将这些信息结构化后,保存在数据库中。然后将这些信息做中英文转换+拼音转换,保存在目标语料库中。
[0021] 如:店铺“悦诗风吟”,在目标语料库中会保存成[“悦诗风吟”,“yueshifengyin”,“ysfy”,“innisfree”]。
[0022] 实施例2训练数据采集方法:使用定制的采集App,让采集人员在商场内按设计好的路线巡场一遍,会得到一份完整的Wifi分布列表,由于同样的Wifi在不同位置扫描到的强度会有差异,我们根据Rssi的值,保留每个Ap的最强数据。
[0023] APP:手机软件,主要指安装在智能手机上的软件,完善原始系统的不足与个性化。使手机完善其功能,为用户提供更丰富的使用体验的主要手段。
[0024] Wifi:在中文里又称作“行动热点”,是Wi-Fi联盟制造商的商标做为产品的品牌认证,是一个创建于IEEE 802.11标准的无线局域网技术。
[0025] Rssi:Received Signal Strength Indication接收的信号强度指示,无线发送层的可选部分,用来判定链接质量,以及是否增大广播发送强度,通过接收到的信号强弱测定信号点与接收点的距离,进而根据相应数据进行定位计算的一种定位技术。如无线传感的ZigBee网络CC2431芯片的定位引擎就采用的这种技术、算法。接收机测量电路所得到的接收机输入的平均信号强度指示。这一测量值一般不包括天线增益或传输系统的损耗。
[0026] AP:Access Point,网络接入点,无线AP(Access Point):即无线接入点,它用于无线网络的无线交换机,也是无线网络的核心。无线AP是移动计算机用户进入有线网络的接入点,主要用于宽带家庭、大楼内部以及园区内部,可以覆盖几十米至上百米。无线AP(又称会话点或存取桥接器)是一个包含很广的名称,它不仅包含单纯性无线接入点(无线AP),同样也是无线路由器(含无线网关、无线网桥)等类设备的统称。
[0027] 部分训练数据采集过滤后如表1,表1以wifi实际采集训练数据距离,与蓝牙数据格式完全相同。
[0028]Bssid:可理解为wifi名称。
[0029] Ssid:路由器mac地址。
[0030] Rssi:信号强度。
[0031] 实施例3训练数据预处理方法:对采集Wifi名称进行分词处理,首先过滤掉特殊符号,用空格替换,例如:下划线,中划线,逗号,句号,特殊字符,emoji等。在过滤掉特殊意义的短语,例如:
5G,guest,office,staff,CMCC等。将处理好的数据保存到样本语料库表。
[0032] 实施例4训练数据分类方法:使用样本语料库作为训练集,使用BOW的VSM方案提取特征向量,大致流程如下:分词→提取关键词→计算TF-IDF,以向量的形式替换原文本→文本相似度的问题转变为计算向量相似度。最后用K-Means聚类的方法进行非监督学习。BOW模型的优点在于,对于一个文档,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现。
[0033] 聚类结束后,对各个分类文本使用模糊搜索算法,查找目标语料库中出现的店铺,并将该分类级绑定到店铺中。使用余弦相似度判断匹配效果。
[0034] BOW模型,Bag-of-words model (BoW model) 最早出现在NLP和IR领域。该模型忽略掉文本的语法和语序, 用一组无序的单词(words)来表达一段文字或一个文档。 近年来,  BoW模型被广泛应用于计算机视觉中。  与应用于文本的BoW类比,图像的特征(feature)被当作单词(Word)。
[0035] VSM,向量空间模型(Vector Space Model,简称VSM),是一个把文本文件表示为标识符(比如索引)向量的代数模型。它应用于信息过滤、信息检索、索引以及相关排序。
[0036] BOW的VSM方案是基于VSM(Vector Space Model,向量空间模型)的BOW(Bag Of Words,词袋表示方法),是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。
[0037] TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。
[0038] 计算tf-idf(term frequency–inverse document frequency),是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。
[0039] k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
[0040] 实施例5人工标注方法:对于低匹配度的分类级,通过人工方式判断,是否是店铺wifi。某些wifi/蓝牙名称不具备明显特征,一般是某些店铺的特殊缩写,我们会通过人工的方式,根据这个信号所在的位置对比地图上附近的店铺,找到最可能的店铺进行标注。例如:某个信号叫“Hi”,无法通过无监督学习算法匹配到店铺,那就找扫描到这个信号的商场地图,发现有一家海底捞在附近,而海底捞的logo为“Hi”,于是就标注为这是海底捞的wifi。
[0041] GIS即地理信息系统(Geographic Information System或 Geo-Information system,GIS)有时又称为“地学信息系统”。它是一种特定的十分重要的空间信息系统。它是在计算机硬、软件系统支持下,对整个或部分地球表层、空中和地下空间中的有关地理分布数据进行采集、储存、管理、运算、分析、显示和描述的技术系统。GIS解决本申请室内位置判定的问题,简单的说是通过手机扫描到的wifi或蓝牙信号快速判断出这个人在哪个店铺。
[0042] 余弦相似度,又称为余弦相似性,是通过计算两个向量的夹余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。注意这上下界对任何维度的向量空间中都适用,而且余弦相似性最常用于高维正空间。例如在信息检索中,每个词项被赋予不同的维度,而一个维度由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。另外,它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,会用到它来度量集群内部的凝聚
[0043] 蓝牙技术是一种无线数据和语音通信开放的全球规范,它是基于低成本的近距离无线连接,为固定和移动设备建立通信环境的一种特殊的近距离无线技术连接。蓝牙使今天的一些便携移动设备和计算机设备能够不需要电缆就能连接到互联网,并且可以无线接入互联网。
[0044] 本发明降低定位店铺的难度;降低数据维护成本;定位准确率高,尤其是判断用户的进店行为;降低系统的计算成本,对服务器要求低;算法使用无监督分类学习方法,人工过程较少;对文本的预处理,结合空间信号名称的多样性,我们会处理多种形式的数据,包括拼音,中文,英文,多音字,变体字等等;店铺信息包含特殊字段,比如缩写,别名,昵称等。
[0045] 以上描述仅为本申请的较佳实施例以及对所运用技术原理等方案的说明。同时,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈