首页 / 专利库 / 人工智能 / 音乐信息检索 / 一种兴趣点信息检索的方法和装置、及导航设备

一种兴趣点信息检索的方法和装置、及导航设备

阅读:687发布:2020-05-18

专利汇可以提供一种兴趣点信息检索的方法和装置、及导航设备专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种兴趣点 信息检索 的方法及装置,该方法包括:接收用户输入的兴趣点信息,确定该兴趣点信息的检索关键词,根据该检索关键词,确定 数据库 中的各兴趣点信息的相似度,根据该各兴趣点信息的相似度,进行检索。通过上述方法,由于在确定检索关键词与数据库中的各兴趣点信息的相似度的时候,通过地标 建筑物 、道路名以及社区名,和正则表达式的方式更能够准确表达检索关键词与数据库中的各兴趣点信息的中文意思,因此,可以有效的提高兴趣点信息检索的准确率。,下面是一种兴趣点信息检索的方法和装置、及导航设备专利的具体信息内容。

1.一种兴趣点信息检索方法,其特征在于,包括:
接收用户输入的兴趣点信息;
确定所述兴趣点信息的检索关键词;
根据所述检索关键词,计算数据库中的各兴趣点信息的相似度;
根据所述各兴趣点信息的相似度,进行兴趣点信息检索。
2.如权利要求1所述的方法,其特征在于:
所述确定所述兴趣点信息的检索关键词进一步包括:
对所述兴趣点信息进行预处理,根据词性,对预处理后的兴趣点信息进行分词;根据预设的词语筛选索引表,确定出不包含在所述词语筛选索引表中的分词;根据预设的错别字索引表,对确定出的不包含在所述词语筛选索引表中的分词进行错别字检查,确定所述兴趣点信息的检索关键词。
所述对所述兴趣点信息进行预处理进一步包括:
去除所述兴趣点信息的特殊符号;将所述兴趣点信息的字体转换成预设的字体。
3.如权利要求1所述的方法,其特征在于:
1)所述兴趣点信息为兴趣点名称时,根据所述检索关键词,计算数据库中的各兴趣点信息的相似度,进一步包括:
针对数据库中的每个兴趣点信息,判断所述检索关键词与该兴趣点信息是否相同;
若相同,则所述检索关键词与该兴趣点信息的相似度为1;
若不同,则判断所述检索关键词与该兴趣点信息是否存在包含关系,并根据预设的正则表达式,判断所述检索关键词与该兴趣点信息的相似度;
2)所述兴趣点信息为兴趣点地址时,根据所述检索关键词,计算数据库中的各兴趣点信息的相似度,进一步包括:
去除所述兴趣点信息的行政区划;
针对数据库中的每个兴趣点信息,判断去除行政区划的检索关键词与该兴趣点信息是否相同;
若是,则所述检索关键词与该兴趣点信息的相似度为1;
若否,则根据所述检索词与该兴趣点信息中所包含的地标建筑物、道路名或社区名,确定所述检索词与该兴趣点信息的相似度。
4.如权利要求3所述的方法,其特征在于,当检索关键词与该兴趣点信息不存在包含关系时,或者当所述检索词和/或该兴趣点信息未包含地标建筑物、道路名和社区名中的任何一个时,所述方法还包括:
将所述检索关键词与该兴趣点信息中字符长度短的作为待分词信息,并将所述检索关键词与该兴趣点信息中字符长度长的作为待匹配信息;
根据词性,对待分词信息进行分词处理;
针对分词处理后的每个分词,将该分词与待匹配信息进行匹配,确定该分词出现在待匹配信息中的个数,确定该分词在待匹配信息中的个数与该分词的字符长度的乘积,并将该乘积作为该分词的子相似度;
确定每个分词的子相似度之和,并将之和作为所述检索关键词与该兴趣点信息的相似度。
5.如权利要求1-4任一项所述的方法,其特征在于,还包括:
根据计算得到兴趣点信息的相似度更新地图数据;
将相似度超过预设的阈值的兴趣点信息输出并反馈给用户。
6.一种兴趣点信息检索装置,其特征在于,包括:
接收模,用于接收用户输入的兴趣点信息;
关键词确定模块,用于确定所述兴趣点信息的检索关键词;
相似度确定模块,用于根据所述检索关键词,计算数据库中的各兴趣点信息的相似度;
检索模块,用于根据所述各兴趣点信息的相似度,进行兴趣点信息检索。
7.如权利要求6所述的装置,其特征在于:
所述关键词确定模块进一步用于,对所述兴趣点信息进行预处理,根据词性,对预处理后的兴趣点信息进行分词,根据预设的词语筛选索引表,确定出不包含在所述词语筛选索引表中的分词,根据预设的错别字索引表,对确定出的不包含在所述词语筛选索引表中的分词进行错别字检查,确定所述兴趣点信息的检索关键词;和/或,
所述关键词确定模块进一步用于,去除所述兴趣点信息的特殊符号,将所述兴趣点信息的字体转换成预设的字体。
8.如权利要求7所述的装置,其特征在于:
所述兴趣点信息为兴趣点名称时,所述相似度确定模块进一步用于,针对数据库中的每个兴趣点信息,判断所述检索关键词与该兴趣点信息是否相同,若是,则所述检索关键词与该兴趣点信息的相似度为1,若否,则判断所述检索关键词与该兴趣点信息是否存在包含关系,并根据预设的正则表达式,判断所述检索关键词与该兴趣点信息的相似度;
所述兴趣点信息为兴趣点地址时,所述相似度确定模块进一步用于,去除所述兴趣点信息的行政区划,针对数据库中的每个兴趣点信息,判断去除行政区划的检索关键词与该兴趣点信息是否相同,若是,则所述检索关键词与该兴趣点信息的相似度为1,若否,则根据所述检索词与该兴趣点信息中所包含的地标建筑物、道路名或社区名,确定所述检索词与该兴趣点信息的相似度;
和/或,所述相似度确定模块还用于,当检索关键词与该兴趣点信息不存在包含关系时,或者当所述检索词和/或该兴趣点信息未包含地标建筑物、道路名和社区名中的任何一个时,将所述检索关键词与该兴趣点信息中字符长度短的作为待分词信息,并将所述检索关键词与该兴趣点信息中字符长度长的作为待匹配信息,根据词性,对待分词信息进行分词处理,针对分词处理后的每个分词,将该分词与待匹配信息进行匹配,确定该分词出现在待匹配信息中的个数,确定该分词在待匹配信息中的个数与该分词的字符长度的乘积,并将该乘积作为该分词的子相似度,确定每个分词的子相似度之和,并将之和作为所述检索关键词与该兴趣点信息的相似度。
9.如权利要求6-8任一项所述的装置,其特征在于,所述检索模块进一步用于:将相似度超过预设的阈值的兴趣点信息输出并反馈给用户。
10.一种导航设备,其特征在于,包括:
数据模块,用于存储并更新电子地图数据,该电子地图数据为根据权利要求6-9任一项所述的兴趣点信息检索装置处理后的导航电子地图数据;
搜索模块,用于根据用户指令执行搜索操作并输出搜索结果;
导航模块,用于根据得到的导航指令为用户提供二维/三维路径规划及导航服务;
娱乐模块,用于提供游戏、音乐及其他影音娱乐项目;
通信模块,用于获取更新的地图数据、动态交通信息、一对一或群组的语音/视频通讯;
信息入口模块,用于接收用户通过触屏或按键手动输入的指令;
智能语音交互模块,用于接收用户语音指令、进行语音唤醒和语音控制,以及用于语音输出执行所述用户语音指令的结果;
分析模块,用于对所述用户语音指令进行语音识别、语意分析及指令转换,并用于通知相应的模块执行识别出来的用户语音指令;其中,所述用户语音指令为任意语种的任意一种句型的表达;
显示模块,用于显示所述搜索模块提供的搜索结果,所述导航模块提供的导航路径、所述数据模块提供的地图数据、以及所述通信模块提供的动态交通信息,采用语音、二维/三维图示、和/或文字的方式显示;
趣驾操作系统,用于为上述各模块提供运行环境和支持;
传感系统,用于监测车辆状态和路况信息,为所述趣驾操作系统提供实时动态信息。

说明书全文

一种兴趣点信息检索的方法和装置、及导航设备

技术领域

[0001] 本申请涉及电子地图生产技术领域,尤其涉及一种兴趣点(Point of Interest,POI)信息检索的方法及装置。

背景技术

[0002] 随着计算机的不断进步和发展,电子地图已经被越来越多的应用到人们的日常生活中,人们可以通过在电子地图获得所需的地理位置信息。
[0003] 目前,为了更好的为用户提供导航服务,会采集大量的兴趣点信息,并将采集到的兴趣点信息添加到在电子地图中,每个兴趣点信息包含名称、地址、电话,坐标等,后续,用户想要去哪个兴趣点,可通过在电子地图输入关键词来检索该兴趣点信息。
[0004] 现有的兴趣点信息检索,首先需要获取用户在地址栏输入的关键词,根据该关键词在数据库中遍历已存储的兴趣点信息,针对每个已存储的兴趣点信息,计算关键词与该兴趣点信息的相似度,将相似度最高的兴趣点信息返回给用户。
[0005] 但是,本发明发明人发现:计算关键词与兴趣点信息的相似度是通过编辑距离算法,即,确定将关键词通过增加、删除、替换编辑成与兴趣点信息一致的步骤数,该步骤数即为相似度,步骤数越少相似度越高,反之相似度越低,由于中文表达是以词为基础的,这种算法不适合中文意思的比较,如,假设关键词为邮电局,邮电局与邮政管理局通过编辑距离算法计算出的编辑距离为3,邮电局与电局通过编辑距离算法计算出的编辑距离为1,会将包含水电局的兴趣点信息返回给用户,而实际上邮电局与邮政管理局指的是同一个意思,因此,现有的兴趣点信息检索的准确率较低。

发明内容

[0006] 有鉴于此,本申请实施例提供一种兴趣点信息检索方法及装置,能够有效的提高兴趣点信息检索的准确率。
[0007] 为解决上述技术问题,本申请实施例公开一种兴趣点信息检索方法,该方法包括:
[0008] 接收用户输入的兴趣点信息;
[0009] 确定所述兴趣点信息的检索关键词;
[0010] 根据所述检索关键词,计算数据库中的各兴趣点信息的相似度;
[0011] 根据所述各兴趣点信息的相似度,进行兴趣点信息检索。
[0012] 为了实现上述兴趣点信息检索方法,本申请实施例公开一种兴趣点信息检索装置,该装置包括:
[0013] 接收模,用于接收用户输入的兴趣点信息;
[0014] 关键词确定模块,用于确定所述兴趣点信息的检索关键词;
[0015] 相似度确定模块,用于根据所述检索关键词,计算数据库中的各兴趣点信息的相似度;
[0016] 检索模块,用于根据所述各兴趣点信息的相似度,进行兴趣点信息检索。
[0017] 本申请实施例公开一种兴趣点信息检索方法及装置,该方法包括:接收用户输入的兴趣点信息,确定该兴趣点信息的检索关键词,根据该检索关键词,计算数据库中的各兴趣点信息的相似度,根据该各兴趣点信息的相似度,进行兴趣点信息检索。通过上述方法,由于在确定检索关键词与数据库中的各兴趣点信息的相似度的时候,通过地标建筑物、道路名以及社区名,和正则表达式的方式更能够准确表达检索关键词与数据库中的各兴趣点信息的中文意思,因此,可以有效的提高兴趣点信息检索的准确率。附图说明
[0018] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0019] 图1为本申请实施例提供的兴趣点信息检索方法的流程示意图;
[0020] 图2为本申请实施例提供的兴趣点信息检索装置结构示意图;
[0021] 图3为本发明实施例中POI名称相似度的计算流程示意图;
[0022] 图4为本申请实施例中POI名称相似度的另一计算流程示意图;
[0023] 图5为本申请实施例中POI地址相似度的计算流程示意图;
[0024] 图6为本发明实施例中POI地址相似度的另一计算流程示意图;
[0025] 图7为本发明实施例提供的导航设备的组成框图

具体实施方式

[0026] 为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0027] 图1为本申请实施例提供的兴趣点信息检索过程,包括以下步骤:
[0028] S101:接收用户输入的兴趣点信息。
[0029] 为了更好的为用户提供导航服务,会采集大量的兴趣点信息,并将采集到的兴趣点信息添加到在电子地图中,每个兴趣点信息包含名称、地址、电话,坐标中的一个或多个,后续,用户想要查找哪个兴趣点,可通过在电子地图输入关键词来检索该兴趣点信息。
[0030] 而用户想要查找哪个兴趣点信息,首先需要在客户端的搜索栏输入兴趣点信息,如,输入西安亚米公寓酒店,也即,客户端接收用户输入的兴趣点信息,并进行后续的处理。
[0031] 在此需要说明的是,用户输入的兴趣点信息可以是兴趣点名称,或者兴趣点地址,或者兴趣点电话。
[0032] S102:确定所述兴趣点信息的检索关键词。
[0033] 其中,由于用户输入的兴趣点信息中有的字或词并不影响兴趣点信息的语义,也就是去掉有些字或词的兴趣点信息所表达出的意思会与用户输入的兴趣点信息表达的意思一致,因此,为了提高检索效率,则可以确定该兴趣点信息中的检索关键词。
[0034] 而本申请实施例提供了一种确定该兴趣点信息中的检索关键词的方式,具体如下:
[0035] 首先对该兴趣点信息进行预处理,再根据词性,对预处理后的兴趣点信息进行分词,得到各分词。
[0036] 在此需要说明的是,本申请在对该兴趣点信息进行预处理时,可以去除该兴趣点信息中所包含的特殊符号,将该兴趣点信息的字体转换成预设的字体,如,预设的字体为简体,字母为小写字母,则如果兴趣点信息的字体中包含有繁体字,应把繁体字转换成简体字,如果兴趣点信息包含大写字母,应把大写字母转换成小写字母,整个预处理的过程以及方式不仅仅局限于以上两种方式,也可以包含其他的方式,如,将全字符变成半角字符,只要能够使得无论用户输入什么,在分词之前都能保证兴趣点信息的格式一致即可。另外,在对兴趣点信息进行分词处理的时候,如果兴趣点中的某些词是未登记词,其中,未登记词指的是没有预先在数据库中记录过的词语,因此,程序在遇到未登记词时则不能将该未登记词当作一个词分离出来,而在分词的时候会将未登记词直接将每个字作为一个词分离出来,但是,实际上,未登记词也是一个词语,因此,在本申请中,当兴趣点信息中包含未登记词时,可先将未登记词中的每个字作为一个词分离出来,后续,在根据未登记词的粘合处理算法,将未登记词中分离出来的每个字直接粘合在一起,例如,用户输入的兴趣点信息“西安亚米公寓酒店”,将“西安亚米公寓酒店”进行分词处理后,得到:“西安”“亚”“米”“公寓”“酒店”,假设“亚米”为未登记词,因此,程序根据未登记词的粘合处理算法,将“亚”“米”进行粘合处理,得到“亚米”,因此,最后的分词结果“西安”“亚米”“公寓”“酒店”。
[0037] 上述实施例中,在得到各分词之后,根据预设的词语筛选索引表,确定出不包含在该词语筛选索引表中的分词,例如,假设预设的词语筛选索引表如表1所示:
[0038]
[0039]
[0040] 表1
[0041] 根据表1,确定出不包含在该表1中的分词,“西安”“亚米”。
[0042] 进一步的,在确定出不包含在该词语筛选索引表中的分词后,还需要根据预设的错别字索引表,对确定出的不包含在该词语筛选索引表中的分词进行错别字检查,确定该兴趣点信息的检索关键词,
[0043] 假设确定出不包含在该词语筛选索引表中的分词为“佳人”“形像”,根据正误对照表确定“形像”为错别字,其对应的正确字为“形象”,因此,确定该兴趣点信息的检索关键词为“佳人”“形象”。
[0044] 在此需要说明的是,由于数据来源的多样性,在拼写方面会存在错别字,错别字一般分为两种:一种是拼音相同字不同,一种是拼音不同字相似,可针对上述两种情况建立错别字索引表。另外,为了增加检索的广度,减少因为未登记词的错别字而产生的遗漏,需要增加检索关键词的拼音检索,也就是说,直接根据检索关键词的拼音来进行检索,而不是根据具体的字来进行检索。
[0045] 在此还需要说明的是,如果某个兴趣点信息经过分词处理和未登记词算法处理后,没有得到检索关键词,则需要将该兴趣点信息整体作为检索关键词。
[0046] S103:根据所述检索关键词,计算数据库中的各兴趣点信息的相似度。
[0047] 当确定出检索关键词后,需要根据该检索关键词在数据库中进行搜索,计算检索关键词与数据库中存储的每个兴趣点信息之间的相似度。
[0048] 例如,当用户输入的兴趣点信息为兴趣点名称时,针对数据库中的每个兴趣点信息,判断该检索关键词与该兴趣点信息是否相同;
[0049] 若是,则该检索关键词与该兴趣点信息的相似度为1;
[0050] 若否,则判断检索关键词与该兴趣点信息是否存在包含关系,若是,则通过预设的正则表达式,确定该检索关键词与该兴趣点信息的相似度,若否,通过相似度计算公式来确定该检索关键词与该兴趣点信息的相似度。
[0051] 在此需要说明的是,上述判断去掉修饰词后的检索关键词与该兴趣点信息是否存在包含关系指的是,如果该兴趣点信息中的连续几个字符组成的字符串与检索关键词是完全相同的,则去掉修饰词后的检索关键词与该兴趣点信息存在包含关系,反之,去掉修饰词后的检索关键词与该兴趣点信息不存在包含关系。当该检索关键词与该兴趣点信息存在包含关系,则通过预设的正则表达式,确定该检索关键词与该兴趣点信息的相似度,本申请提供的正则表达式如下:
[0052] 第一种正则表达式:相同部分+**+店,表示的是如果该检索关键词与该兴趣点信息中的某些字符的位置和内容与预设的正则表达式中的相同部分的字符的位置和内容一致,且该检索关键词中最后的一个字符为店或该兴趣点信息中的最后的一个字符为店,则该检索关键词与该兴趣点信息的相似度为1,其中,“**”表示相同部分后面有字符,但是不限定字符的多少以及字符的内容,例如,肯德基肯与德基西单大厦店。
[0053] 第二种正则表达式:相同部分+**,表示的是如果该检索关键词与该兴趣点信息中的某些字符的位置和内容与预设的正则表达式中的相同部分的字符的位置和内容一致,且,相同部分后面有字符,但是不限定字符的多少以及字符的内容,则该检索关键词与该兴趣点信息的相似度为0.5,例如,中航酒店与中航酒店游泳馆。
[0054] 第三种正则表达式:**+相同部分,表示的是如果该检索关键词与该兴趣点信息中的某些字符的位置和内容与预设的正则表达式中的相同部分的字符的位置和内容一致,且,相同部分前面有字符,但是不限定字符的多少以及字符的内容,则该检索关键词与该兴趣点信息的相似度为1,例如,志愿者协会与崇文街道志愿者协会。
[0055] 第四种正则表达式:**+相同部分+**,表示的是如果该检索关键词与该兴趣点信息中的某些字符的位置和内容与预设的正则表达式中的相同部分的字符的位置和内容一致,且,相同部分的前面和后面有字符,但是不限定字符的多少以及字符的内容,则该检索关键词与该兴趣点信息的相似度需要通过相似度计算公式进行计算,例如,丰联广场与西城丰联广场电商体验店。
[0056] 进一步的,由于检索关键词与该兴趣点信息中存在一些不影响语义的干扰词,但是会影响在确定检索关键词与该兴趣点信息的包含关系,如,“七天连酒店”和“七天酒店”,其中,“连锁”的有无并不影响“七天连锁酒店”所要表达的意思,因此在本申请中,在判断出检索关键词与该兴趣点信息不存在包含关系时,可根据预先建立的干扰词索引表,去掉该检索关键词中的干扰词,并判断去掉干扰词的检索关键词与该兴趣点信息是否相同,若是,该检索关键词与该兴趣点信息的相似度为1,若否,则判断去掉干扰词的检索关键词与该兴趣点信息是否存在包含关系,若是,则通过预设的正则表达式,确定该检索关键词与该兴趣点信息的相似度,若否,通过相似度计算公式来确定该检索关键词与该兴趣点信息的相似度。
[0057] 在此需要说明的是,上述提到的干扰词是指存在检索关键词中间且不影响检索词意思表达的词语,如,全国、主题、国际、连锁、养生、有限、责任、专业、时尚、精致、精品、味、休闲、世纪、时代等,干扰词还包括修饰词,如,形容词。
[0058] 由于兴趣点信息的表达没有严格的规定,对同一个兴趣点信息的表述各不相同,如,名称缩写或者简称均表示同一个兴趣点信息,因此,在本申请中,当判断去掉干扰词的检索关键词与该兴趣点信息不存在包含关系,则需要根据预先建立的近义词表,对该检索关键词进行近义词替换,并判断替换后的检索关键词与该兴趣点信息是否相同,若是,则该检索关键词与该兴趣点信息的相似度为1,若否,则判断替换后的检索关键词与该兴趣点信息是否存在包含关系,若是,则通过预设的正则表达式,确定该检索关键词与该兴趣点信息的相似度,若否,则通过相似度公式确定该检索关键词与该兴趣点信息的相似度。
[0059] 在此需要说明的是,在根据预先建立的近义词表,对该检索关键词进行近义词替换的时候可以是根据去掉干扰词后的检索关键词在预设近义词表中查找去掉干扰词后的检索关键词对应的近义词,并进行替换,也可以是直接根据检索关键词在预设近义词表中查找检索关键词对应的近义词。
[0060] 另外,当用户输入的是兴趣点信息为兴趣点地址时,首先需要去除该兴趣点信息的行政区划,再针对数据库中的每个兴趣点信息,判断去除行政区划的检索关键词与该兴趣点信息是否相同,若是,则所述检索关键词与该兴趣点信息的相似度为1;
[0061] 若否,则根据所述检索词与该兴趣点信息中所包含的地标建筑物、道路名或社区名,确定所述检索词与该兴趣点信息的相似度。
[0062] 进一步的,本申请提供了一种根据所述检索词与该兴趣点信息中所包含的地标建筑物、道路名或社区名,确定所述检索词与该兴趣点信息的相似度具体方式,具体如下:
[0063] 确定所述检索关键词与该兴趣点信息是否均包含地标建筑物,若是,则分别提取所述检索关键词与该兴趣点信息包含的地标建筑物,根据提取出的地标建筑物确定所述检索关键词与该兴趣点信息的相似度,若否,则确定所述检索关键词与该兴趣点信息是否均包含道路名,若是,则分别提取所述检索关键词与该兴趣点信息包含的道路名,根据提取出的道路名确定所述检索关键词与该兴趣点信息的相似度,若否,则确定所述检索关键词与该兴趣点信息是否均包含社区名,若是,则分别提取所述检索关键词与该兴趣点信息包含的社区名,根据提取出的社区名确定所述检索关键词与该兴趣点信息的相似度,若否,则通过相似度计算公式确定所述检索关键词与该兴趣点信息的相似度。
[0064] 在此需要说明的是,分别提取所述检索关键词与该兴趣点信息包含的地标建筑物,并对提取出的地标建筑物进行比对,首先对两个地标建筑物的名称进行比对,由于地标建筑物的名称的表达没有严格的规定,对同一个地标建筑物的名称的表述各不相同,如,名称缩写或者简称均表示同一个地标建筑物的名称,因此,在本申请中,可以根据预先建立的地标建筑物的名称的别称与正规名称对照表,判断两个地标建筑物的名称是否相同,如果提取出的两个地标建筑物的名称不相同,则该检索关键词与该兴趣点信息的相似度为0,如果提取出的两个地标建筑物的名称相同,则将二者的地标建筑物的楼层号进行比对,如果一个有楼层号一个没有楼层号,则该检索关键词与该兴趣点信息的相似度为0.5,如果两个都有楼层号,且楼层号相同,则该检索关键词与该兴趣点信息的相似度为1,如果两个都有楼层号,且楼层号不相同,则该检索关键词与该兴趣点信息的相似度为0。
[0065] 另外,需要进行说明的是,如果没有检索关键词与兴趣点信息有一个不包含地标建筑物,则确定所述检索关键词与该兴趣点信息是否均包含道路名,如果均包含则分别提取所述检索关键词与该兴趣点信息包含的道路名,并对提取出的道路名进行比对,首先需要对两个道路名中名称进行比对,由于道路名的名称的表达没有严格的规定,对同一个道路名的名称的表述各不相同,如,名称缩写或者简称均表示同一个道路名的名称,因此,在本申请中,可以根据预先建立的道路名的名称的别称与正规名称对照表,判断两个道路名的名称是否相同,如果提取出的两个道路名中的名称不相同,则该检索关键词与该兴趣点信息的相似度为0,如果提取出的两个道路名中的名称相同,则将二者的道路名中的门牌号进行比对,如果一个有门牌号一个没有门牌号,则该检索关键词与该兴趣点信息的相似度为0.5,如果两个都有门牌号,且门牌号相同,则该检索关键词与该兴趣点信息的相似度为1,如果两个都有门牌号,且门牌号不相同,则该检索关键词与该兴趣点信息的相似度为0。
[0066] 此外,需要进行说明的是,如果没有检索关键词与兴趣点信息有一个不包含道路名,则确定所述检索关键词与该兴趣点信息是否均包含社区名,如果均包含则分别提取所述检索关键词与该兴趣点信息包含的社区名,并对提取出的社区名进行比对,首先需要对两个社区名中名称进行比对,由于社区名的名称的表达没有严格的规定,对同一个社区名的名称的表述各不相同,如,名称缩写或者简称均表示同一个社区名的名称,因此,在本申请中,可以根据预先建立的社区名的名称的别称与正规名称对照表,判断两个社区名的名称是否相同,如果提取出的两个社区名中的名称不相同,则该检索关键词与该兴趣点信息的相似度为0,如果提取出的两个社区名中的名称相同,则将二者的社区名中的门牌号进行比对,如果一个有门牌号一个没有门牌号,则该检索关键词与该兴趣点信息的相似度为0.5,如果两个都有门牌号,且门牌号相同,则该检索关键词与该兴趣点信息的相似度为1,如果两个都有门牌号,且门牌号不相同,则该检索关键词与该兴趣点信息的相似度为0。
[0067] 另外,上述给出的具体的相似度的数值可根据实际情况预先来进行设定,并不是唯一不变的,只是一种实施方式而已。
[0068] 其中,当所述检索词和/或该兴趣点信息未包含地标建筑物、道路名和社区名中的任何一个时,或者当检索关键词与该兴趣点信息不存在包含关系时,可以使用上述提到的相似度公式来确定检索关键词与兴趣点信息的相似度,说明如下:
[0069] 将该检索关键词与该兴趣点信息中字符长度短的作为待分词信息,并将该检索关键词与该兴趣点信息中字符长度长的作为待匹配信息,根据词性,对待分词信息进行分词处理,针对分词处理后的每个分词,将该分词与待匹配信息进行匹配,确定该分词出现在待匹配信息中的个数,确定该分词在待匹配信息中的个数与该分词的字符长度的乘积,并将该乘积作为该分词的子相似度,确定每个分词的子相似度之和,并将之和作为该检索关键词与该兴趣点信息的相似度。
[0070] 在此需要说明的是,如果检索关键词中不包含地标建筑物、道路名和社区名中的任何一个时,只是一些描述性的词语,还可根据近义词替换以及循环对比等方式直接度量检索关键词与数据库中的各兴趣点信息的相似度。
[0071] S104:根据所述各兴趣点信息的相似度,进行兴趣点信息检索。
[0072] 在检索关键词与数据库中存储的各兴趣点信息之间的相似度后,在本申请中,可以将相似度超过预设的阈值的兴趣点信息返回给用户。
[0073] 通过上述方法,由于在确定检索关键词与数据库中的各兴趣点信息的相似度的时候,通过地标建筑物、道路名以及社区名,和正则表达式的方式更能够准确表达检索关键词与数据库中的各兴趣点信息的中文意思,因此,可以有效的提高兴趣点信息检索的准确率。
[0074] 参照图2和图3所示,对上述POI名称相似度处理方法做进一步说明:
[0075] 1)预处理兴趣点名称,去除特殊符号,去除行政区划,并将繁体转换成简体,全角转半角,大写转小写。
[0076] 2)判断两个兴趣点名称是否完全相同,如果相同,两个兴趣点名称的相似度为1.[0077] 3)判断两个兴趣点名称是否存在包含关系,如果存在包含关系则:
[0078] 两个兴趣点名称的包含关系符合正则表达式,“相同部分+**+店”,则二者的相似度为1,举例,肯德基西单大厦店与肯德基。
[0079] 两个兴趣点名称的包含关系符合正则表达式,“相同部分+**”,则二者的相似度为0.5,举例,中航酒店游泳馆与中航酒店。
[0080] 两个兴趣点名称的包含关系符合正则表达式,“**+相同部分”,则二者的相似度为1,举例,崇文门街道志愿者协会与志愿者协会。
[0081] 两个兴趣点名称的包含关系符合正则表达式,“**+相同部分+**”,则二者的相似度需要用相似度计算公式计算,举例,西城丰联广场电商体验店与丰联广场。
[0082] 4)间接包含关系相似度计算;由于名称中存在修饰词和名称简称或省略,对意思的表达不影响,但是会干扰相似度的计算,为此我们必须事先登陆这些修饰词并按照如下的情况处理:
[0083] a)名称中间存在修饰词的相似度计算,这些修饰性的干扰词多是一些形容词性质的,比如,七天连锁酒店和七天酒店,百盛坊时尚火锅店和百盛坊火锅店,“连锁”,“时尚”属于修饰性的词语不影响核心语义的表达,故此算法认为二者相似度为1。
[0084] b)名称前缀相似度计算,前缀词一般也是修饰性的形容词,不影响核心语义的表达,比如精品便宜坊烤鸭和便宜坊烤鸭。前缀词“精品”不影响核心意思的表达,二者的相似度为1.
[0085] c)名称后缀相似度计算,后缀词一般都是省略,比如,乐天玛特超市神威大街店和乐天玛特神威大街店,此时后缀词的省略不影响语义的表达,二者的相似度为1.
[0086] 不存在包含关系的两个兴趣点名称进行干扰词处理,干扰词是指存在名称中间且不影响兴趣点名称意思表达的词,常见如,全国、主题、国际、连锁、养生、有限、责任、专业、时尚、精致、精品、风味、休闲、世纪、时代等,重复流程1)中步骤3)判断;
[0087] 5)配置近义词知识库的相似度计算;由于兴趣点名称的表达没有严格的规定,对同一兴趣点的表述各不相同,为此我们需要事先整理通用的近义词知识库,如下表所示,下表中同一行的词语表达的意思相同,所以相似度为1,比如:昌平邮政管理局和昌平邮局,算法认为二者的相似度为1;军都山滑俱乐部和军都山滑雪场,算法认为二者的相似度也为1。将兴趣点名称中的词用近义词替换,重复步骤3)的判断。
[0088] 6)配置错别字知识库的相似度计算;由于在语言表达和传播的过程中,难免出现错别字,这就造成了名称相似度计算的误差,为此我们要事先登记常用错别字知识库。如下表所示,下表中每行的字在名称中是通用的。如果出现,则可以互换,比如度假村和渡假村,算法认为二者的相似度为1。
[0089] 7)相似度计算,比较两个兴趣点名称,将名称较短的进行分词处理,然后根据分词结果将每个词在名称较长的名称中遍历循环,如果找到相同的词,标记位置,以此记下位置的个数及词的长度,计算位置与长度的乘积然后求和,此值越大就表明二者的相似度越高。
[0090] 参照图4和图5所示,对上述POI地址相似度处理方法做进一步说明:
[0091] 1)预处理兴趣点地址,去除特殊符号,并将繁体转换成简体,全角转半角,大写转小写。
[0092] 2)判断两个兴趣点地址是否完全相同,如果相同,两个兴趣点地址的相似度为1。
[0093] 3)去除地址中的行政区划关键词,例如北京市海淀学院路1号,去除后为学院路1号。
[0094] 4)兴趣点地址相似度计算,首先需要提取地址中的特征向量,地址的特征一般包含道路名、社区名、地标建筑、数字号码,然后根据地址特征来比较两个地址的相似度,其提取的顺序为地标建筑物、道路名、社区名。
[0095] a)地标建筑特征比较。根据全国地标建筑物表将地址中含有的地标建筑提取出来,然后再提取楼层号或者房间号进行对比,表中NAME2,NAME3,NAME1为地标建筑物的别称,例如:
[0096] 广州市天河区总统数码港4楼与广州市天河区总统数码港,都含有地标建筑“总统数码港”,但一方确实楼层好,故地址相似度为0.5。
[0097] 广州市天河区总统数码港4楼与广州市天河区总统数码港四层,都含有地标建筑“总统数码港”,且都在相同楼层,故地址相似度为1.
[0098] 广州市天河区总统数码港4楼与广州市天河区总统数码港五层,都含有地标建筑“总统数码港”,但不在相同楼层,此地址相似度为0,但存疑标记。
[0099] b)道路名特征比较。根据全国道路名表将地址中的道路名提取出来,然后再根据门牌号码进行对比,表中NAME2,NAME3,NAME1为道路名的别称,例如:
[0100] 北京市西城区德胜门外大街32号和北京市西城区德外大街,提取道路名“德外大街”、“德胜门外大街”,但二者同义,一方地址不存在门牌号码,故地址相似度为0.5。
[0101] 北京市西城区德胜门外大街32号和北京市西城区德胜门外大街32,均含有道路名“德胜门外大街”,且门牌号码相同,故地址相似度为1。
[0102] 北京市西城区德胜门外大街32号和北京市西城区德胜门外大街38,均含有道路名“德胜门外大街”,但门牌号码不相同,故地址相似度为0,但存疑标记。
[0103] c)社区名特征比较。根据全国社区名表将地址中的社区名提取出来,然后再根据楼栋号码进行对比,表中NAME2,NAME3,NAME1为社区名的别称,例如:
[0104] 朝阳市凯通花园12号楼底商与朝阳市凯通花园,均含有社区名“凯通花园”,但是后者没有楼栋号,故地址相似度为0.5.
[0105] 朝阳市凯通花园12号楼底商与朝阳市凯通花园12号楼,均含有社区名“凯通花园”,且楼栋号相同,故地址相似度为1.
[0106] 朝阳市凯通花园12号楼底商与朝阳市凯通花园23,均含有社区名“凯通花园”,但是二者楼栋号不同,故地址相似度为0.但存疑标记。
[0107] 需要说明的是,对于地址中的道路名、地标建筑和社区名,如果多个同时存在,其表达应该趋于一致,但是有时候会出现表述误差,这时候应该根据少数服从多数的原则或根据兴趣点提供的换算距离来计算地址的相似度。
[0108] 如果地址中不含有特征意义的关键词,只是一些描述性的词语,那只能根据分词,近义词替换,循环对比等方式直接度量两个地址的相似度。
[0109] 以上为本申请实施例提供的兴趣点信息检索方法,基于同样的思路,本申请实施例还提供一种兴趣点信息检索装置,如图6所示。
[0110] 图6为本申请实施例提供的一种兴趣点信息检索装置结构示意图,包括:
[0111] 接收模块601,用于接收用户输入的兴趣点信息;
[0112] 关键词确定模块602,用于确定所述兴趣点信息的检索关键词;
[0113] 相似度确定模块603,用于根据所述检索关键词,计算数据库中的各兴趣点信息的相似度;
[0114] 检索模块604,用于根据所述各兴趣点信息的相似度,进行兴趣点信息检索。
[0115] 所述关键词确定模块602进一步用于,对所述兴趣点信息进行预处理,根据词性,对预处理后的兴趣点信息进行分词,根据预设的词语筛选索引表,确定出不包含在所述词语筛选索引表中的分词,根据预设的错别字索引表,对确定出的不包含在所述词语筛选索引表中的分词进行错别字检查,确定所述兴趣点信息的检索关键词。
[0116] 所述关键词确定模块602进一步用于,去除所述兴趣点信息的特殊符号,将所述兴趣点信息的字体转换成预设的字体。
[0117] 所述兴趣点信息为兴趣点名称,所述相似度确定模块603进一步用于,针对数据库中的每个兴趣点信息,判断所述检索关键词与该兴趣点信息是否相同,若是,则所述检索关键词与该兴趣点信息的相似度为1,若否,则判断所述检索关键词与该兴趣点信息是否存在包含关系,并根据预设的正则表达式,判断所述检索关键词与该兴趣点信息的相似度;
[0118] 所述兴趣点信息为兴趣点地址,所述相似度确定模块603进一步用于,去除所述兴趣点信息的行政区划,针对数据库中的每个兴趣点信息,判断去除行政区划的检索关键词与该兴趣点信息是否相同,若是,则所述检索关键词与该兴趣点信息的相似度为1,若否,则根据所述检索词与该兴趣点信息中所包含的地标建筑物、道路名或社区名,确定所述检索词与该兴趣点信息的相似度。
[0119] 所述相似度确定模块603还用于,当检索关键词与该兴趣点信息不存在包含关系时,或者当所述检索词和/或该兴趣点信息未包含地标建筑物、道路名和社区名中的任何一个时,将所述检索关键词与该兴趣点信息中字符长度短的作为待分词信息,并将所述检索关键词与该兴趣点信息中字符长度长的作为待匹配信息,根据词性,对待分词信息进行分词处理,针对分词处理后的每个分词,将该分词与待匹配信息进行匹配,确定该分词出现在待匹配信息中的个数,确定该分词在待匹配信息中的个数与该分词的字符长度的乘积,并将该乘积作为该分词的子相似度,确定每个分词的子相似度之和,并将之和作为所述检索关键词与该兴趣点信息的相似度。
[0120] 所述检索模块604进一步用于,将相似度超过预设的阈值的兴趣点信息返回给用户。
[0121] 此外,本发明实施例提供了一种导航设备,如图7所示,该导航设备包括:数据模块705、搜索模块710、导航模块715、娱乐模块720、通信模块725、车载趣驾操作系统700、传感系统750以及用户交互模块。可选地,用户交互模块包括信息入口模块730、智能语音交互模块735、分析模块740及显示模块745。其中:
[0122] 数据模块705,用于存储并更新电子地图数据,该电子地图数据为上述任一相关实施例中公开的导航电子地图数据的制作系统处理后的导航电子地图数据;
[0123] 搜索模块710,用于根据用户指令执行搜索操作并输出搜索结果;
[0124] 导航模块715,用于根据得到的导航指令为用户提供二维/三维路径规划及导航服务;
[0125] 娱乐模块720,用于提供游戏、音乐及其他影音娱乐项目;通信模块725,用于获取更新的地图数据、动态交通信息、一对一或群组的语音/视频通讯;
[0126] 信息入口模块730,用于接收用户通过触屏或按键手动输入的指令;
[0127] 智能语音交互模块735,用于接收用户语音指令、进行语音唤醒和语音控制,以及用于语音输出执行用户语音指令的结果;
[0128] 分析模块740,用于对用户语音指令进行语音识别、语意分析及指令转换,并用于通知相应的模块执行识别出来的用户语音指令;其中,用户语音指令为任意语种的任意一种句型的表达;
[0129] 显示模块745,用于显示搜索模块提供的搜索结果,导航模块提供的导航路径、数据模块提供的地图数据、以及通信模块提供的动态交通信息,采用语音、二维/三维图示、和/或文字的方式显示;
[0130] 车载趣驾操作系统700,用于为上述各模块提供运行环境和支持;
[0131] 传感系统750,用于监测车辆状态和路况信息,为所述趣驾操作系统提供实时动态信息。
[0132] 需要说明的是,由于前述任一实施例所述的导航电子地图数据的制作方法及系统具有上述技术效果,因此,采用了前述任一实施例所述的导航电子地图数据的制作方法及系统的导航设备也应具备相应的技术效果,其具体实施过程与上述实施例类似,兹不赘述。
[0133] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0134] 内存可能包括计算机可读介质中的非永久性存储器随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
[0135] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0136] 还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0137] 本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0138] 以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈