首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 请求书 / 发明名称 / 一种兴趣点POI名称的中文分词方法及装置

一种兴趣点POI名称的中文分词方法及装置

阅读:1019发布:2020-05-23

专利汇可以提供一种兴趣点POI名称的中文分词方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种兴趣点POI名称的中文分词方法及装置,所述方法包括:获得对预定POI名称总样本处理后得到的分词词典,分词词典包括有从预定POI名称总样本的POI名称中提取的关键词以及各个关键词在预定POI名称总样本中的词频;对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在预定POI名称总样本中的词频,将词频最高的关键词作为单字的分词结果。通过该POI名称的中文分词方法及装置解决了POI名称分词时某一单字出现的切分歧义的问题,使切分结果更合理,保证了分词的准确性。,下面是一种兴趣点POI名称的中文分词方法及装置专利的具体信息内容。

1.一种兴趣点POI名称的中文分词方法,其特征在于,包括:
获得对预定POI名称总样本处理后得到的分词词典,所述分词词典包括有从所述预定POI名称总样本的POI名称中提取的关键词以及各个关键词在所述预定POI名称总样本中的词频;
对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若所述第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在所述预定POI名称总样本中的词频,将词频最高的关键词作为所述单字的分词结果。
2.根据权利要求1所述的方法,其特征在于,在所述第一POI名称中包括有非中文字符时,所述方法还包括:
对第一POI名称进行半处理,提取所述第一POI名称中所有的非中文字符组并标记所述非中文字符组的位置,并将所述非中文字符组添加至所述第一分词结果。
3.根据权利要求1所述的方法,其特征在于,所述获得第一分词结果之后,所述方法还包括:
判断所述第一分词结果中的关键词中,是否有不存在于所述分词词典中的未登录词;
若是,则统计所述未登录词在预定POI名称总样本中的词频,当所述未登录词的频率高于预设阈值时,将所述未登录词添加到分词词典。
4.根据权利要求1所述的方法,其特征在于,所述对待分词的第一POI名称进行全切分,获得第一分词结果的步骤包括:
根据最大匹配法将所述第一POI名称与所述分词词典进行匹配,得到第一匹配结果;
根据分词单字最少原则对所述第一匹配结果进行修正,得到第一分词结果。
5.根据权利要求1所述的方法,其特征在于,所述分词词典还包括:全国道路名库以及街区名称配置表。
6.一种兴趣点POI名称的中文分词装置,其特征在于,包括:
获取模,用于获得对预定POI名称总样本处理后得到的分词词典,所述分词词典包括有从所述预定POI名称总样本的POI名称中提取的关键词以及各个关键词在所述预定POI名称总样本中的词频;
第一分词模块,用于对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若所述第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在所述预定POI名称总样本中的词频,将词频最高的关键词作为所述单字的分词结果。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二分词模块,用于对第一POI名称进行半角处理,提取所述第一POI名称中所有的非中文字符组并标记所述非中文字符组的位置,并将所述非中文字符组添加至所述第一分词结果。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所述分词模块获得的第一分词结果中的关键词中,是否有不存在于所述分词词典中的未登录词;
统计及添加模块,用于若所述判断模块的判断结果为是,则统计所述未登录词在预定POI名称总样本中的词频,当所述未登录词的频率高于预设阈值时,将所述未登录词添加到分词词典。
9.根据权利要求6所述的装置,其特征在于,所述第一分词模块包括:
匹配单元,用于根据最大匹配法将所述第一POI名称与所述分词词典进行匹配,得到第一匹配结果;
修正单元,用于根据分词单字最少原则对所述第一匹配结果进行修正,得到第一分词结果。
10.根据权利要求6所述的装置,其特征在于,所述分词词典还包括:全国道路名库以及街区名称配置表。

说明书全文

一种兴趣点POI名称的中文分词方法及装置

技术领域

[0001] 本发明涉及分词技术领域,特别是指一种兴趣点POI名称的中文分词方法及装置。

背景技术

[0002] 随着互联网的飞速发展,人们可以接触的信息也在急剧膨胀,海量的信息为人们提供资源获取便利的同时,由于各类的混杂也带来了信息筛选的不便,由此通过引入分词技术,即可使人们得到经过信息筛选整理的更为准确且合理的资源,给人们的工作和生活带来更大的便利,同时使效率得到大幅度提高。由于中文词语之间没有分隔,基于现有的中文分词技术在兴趣点(POI)名称分词应用上存在词组切分歧义的问题,这使得分词结果与实际含义存在偏差,对之后的信息处理、检索带来直接影响。

发明内容

[0003] 本发明要解决的技术问题是提供一种兴趣点POI名称的中文分词方法及装置,以解决POI名称的中文分词中出现切分歧义的问题。
[0004] 一方面,本发明的实施例提供一种兴趣点POI名称的中文分词方法,包括:
[0005] 获得对预定POI名称总样本处理后得到的分词词典,分词词典包括有从预定POI名称总样本的POI名称中提取的关键词以及各个关键词在预定POI名称总样本中的词频;
[0006] 对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在预定POI名称总样本中的词频,将词频最高的关键词作为单字的分词结果。
[0007] 其中,在所述第一POI名称中包括有非中文字符时,上述方法还包括:
[0008] 对第一POI名称进行半处理,提取第一POI名称中所有的非中文字符组并标记非中文字符组的位置,并将非中文字符组添加至第一分词结果。
[0009] 其中,所述获得第一分词结果之后,上述方法还包括:
[0010] 判断第一分词结果中的关键词中,是否有不存在于分词词典中的未登录词;
[0011] 若是,则统计未登录词在预定POI名称总样本中的词频,当未登录词的频率高于预设阈值时,将未登录词添加到分词词典。
[0012] 其中,上述对待分词的第一POI名称进行全切分,获得第一分词结果的步骤包括:
[0013] 根据最大匹配法将第一POI名称与分词词典进行匹配,得到第一匹配结果;
[0014] 根据分词单字最少原则对第一匹配结果进行修正,得到第一分词结果。
[0015] 其中,上述分词词典还包括:全国道路名库以及街区名称配置表。
[0016] 另一方面,为实现上述方法,本发明实施例还提供一种兴趣点POI名称的中文分词装置,包括:
[0017] 获取模,用于获得对预定POI名称总样本处理后得到的分词词典,分词词典包括有从预定POI名称总样本的POI名称中提取的关键词以及各个关键词在预定POI名称总样本中的词频;
[0018] 第一分词模块,用于对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在预定POI名称总样本中的词频,将词频最高的关键词作为单字的分词结果。
[0019] 其中,上述装置还包括:
[0020] 第二分词模块,用于对第一POI名称进行半角处理,提取第一POI名称中所有的非中文字符组并标记非中文字符组的位置,并将非中文字符组添加至第一分词结果。
[0021] 其中,上述装置还包括:
[0022] 判断模块,用于判断分词模块获得的第一分词结果中的关键词中,是否有不存在于分词词典中的未登录词;
[0023] 统计及添加模块,用于若判断模块的判断结果为是,则统计未登录词在预定POI名称总样本中的词频,当未登录词的频率高于预设阈值时,将未登录词添加到分词词典。
[0024] 其中,上述第一分词模块包括:
[0025] 匹配单元,用于根据最大匹配法将第一POI名称与分词词典进行匹配,得到第一匹配结果;
[0026] 修正单元,用于根据分词单字最少原则对第一匹配结果进行修正,得到第一分词结果。
[0027] 其中,上述分词词典还包括:全国道路名库以及街区名称配置表。
[0028] 本发明的上述技术方案至少包括以下有益效果:
[0029] 本发明的上述技术方案通过根据POI名称中某一单字切分可得到的不同关键词在分词词典中的词频,将词频最高的关键词作为单字的分词结果,解决了POI名称分词时某一单字出现的切分歧义的问题,使切分结果更合理,保证了分词的准确性。
附图说明
[0030] 为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0031] 图1表示本发明方法实施例POI名称的中文分词方法的流程示意图;
[0032] 图2表示本发明装置实施例POI名称的中文分词装置的一种结构示意图;
[0033] 图3表示本发明装置实施例POI名称的中文分词装置的另一种结构示意图;
[0034] 图4表示本发明装置实施例POI名称的中文分词装置的又一种结构示意图;
[0035] 图5表示本发明一具体实施例POI名称的中文分词方法的流程示例。

具体实施方式

[0036] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0037] 方法实施例
[0038] 请参见图1,其示出的是本发明方法实施例POI名称的中文分词方法的流程示意图,本发明方法实施例提供的兴趣点POI名称的中文分词方法,可以包括:
[0039] 步骤S101,获得对预定POI名称总样本处理后得到的分词词典,分词词典包括有从POI名称总样本的预定POI名称中提取的关键词以及各个关键词在预定POI名称总样本中的词频。
[0040] 上述实施例中,通过对预定POI名称总样本进行整理处理,得到用于POI名称分词的分词词典,这里,对于预定POI名称总样本的整理处理可以为人工整理方式,在该实施例中不对具体处理方式作限定;该分词词典包括从预定POI名称总样本的POI名称中提取的关键词以及各关键词基于预定POI名称总样本的词频,这里,提取的关键词可以根据基于预定POI名称的预先定义的属性进行提取并根据预先定义的属性存储到分词词典中。
[0041] 另外,预定POI名称总样本是通过预先采集收录的POI名称集合,该预定POI名称总样本的POI名称基数足够大,且范围足够广,这里,本发明实施例对该预定POI名称总样本的采集及收录方法不做限定。
[0042] 步骤S102,对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在预定POI名称总样本中的词频,将词频最高的关键词作为单字的分词结果。
[0043] 上述实施例中,在对待分词的第一POI名称进行全切分的过程中,如果某一单字可以根据不同切分方式可以得到多种不同的关键词,即该单字的切分具有歧义,则根据该多种关键词在分词词典中记录的在预定POI名称总样本中的词频,通过词频可获知在预定POI名称总样本中,多种关键词的使用频率,将词频最高的关键词作为单字的分词结果,以此可以得到第一POI名称中该单字准确性较高的切分结果。例如:对“复北大药房东汉阳路店”进行全切后为:“复”,“北大”,“大药房”,“药房”,“东汉阳路”,“店”,这里,单字“大”根据不同切分方式可以得到不同的关键词“北大”和“大药房”,根据关键词“北大”和“大药房”在预定POI名称总样本中的词频对切分结果进行确认,可以得到分词词典中两个关键词的词频分别为“213”和“43782”,由此可以确认单字“大”的切分结果为“大药房”。
[0044] 其中,在本发明方法实施例的一种可能的实现方式中,在所述第一POI名称中包括有非中文字符时,上述方法还包括:
[0045] 对第一POI名称进行半角处理,提取第一POI名称中所有的非中文字符组并标记非中文字符组的位置,并将非中文字符组添加至第一分词结果。
[0046] 这里,当待分词的第一POI名称中包括有非中文字符时,对该第一POI名称进行半角处理,提取第一POI名称中所有的非中文字符组,并标记非中文字符组的位置,将非中文字符组添加至第一分词结果,该标记的位置则作为第一POI名称中剩余中文字符切分时的自然分界符。
[0047] 其中,在本发明方法实施例的一种可能的实现方式中,所述获得第一分词结果之后,上述方法还包括:
[0048] 判断第一分词结果中的关键词中,是否有不存在于分词词典中的未登录词;
[0049] 若是,则统计未登录词在预定POI名称总样本中的词频,当未登录词的频率高于预设阈值时,将未登录词添加到分词词典。
[0050] 上述实施例中,对第一分词结果中的未登录词进行判断,并对未登录词基于预定POI名称总样本进行词频统计,当该未登录词的词频高于预设阈值时,将该未登录词添加到分词词典中,以此扩充分词词典的关键词。
[0051] 其中,上述步骤S102中,对待分词的第一POI名称进行全切分,获得第一分词结果的步骤可以包括:
[0052] 将第一POI名称根据最大匹配法与分词词典进行匹配,得到第一匹配结果;根据分词单字最少原则对第一匹配结果进行修正,得到第一分词结果。
[0053] 上述实施例中,根据最大匹配法将第一POI名称与分词词典中的关键词进行匹配,以此得到对应匹配了分词词典的关键词的第一匹配结果;然后根据分词单字最少原则将第一匹配结果中未得到匹配的相邻单字进行合并作为切分结果,从而对第一匹配结果进行修正,得到第一分词结果。例如,对“新洋大药房”进行匹配可得第一匹配结果:“新/洋/大药房”,然后根据分词单字最少原则对该第一匹配结果进行修正可得第一分词结果:“新洋/大药房”。另外,在该实施例中,最大匹配法可以选用正向最大匹配法、逆向最大匹配法以及双向最大匹配法中一种或者多种匹配法。
[0054] 其中,上述分词词典还包括:全国道路名库以及街区名称配置表。
[0055] 综上,本发明方法实施例提供的POI名称的中文分词方法通过根据POI名称中某一单字切分可得到的不同关键词在分词词典中的词频,将词频最高的关键词作为单字的分词结果,解决了POI名称分词时某一单字出现的切分歧义的问题,使切分结果更合理,保证了分词的准确性。
[0056] 下面,再通过本发明一个具体实施示例,对本发明作更为详细的描述。
[0057] 请参见图5,其示出的是本发明一具体实施例POI名称的中文分词方法的流程示例。该具体实施例POI名称的中文分词方法的步骤包括:
[0058] a、根据预定POI名称总样本中POI名称的特点提取关键词,如“胜达五金电器日杂工具商行”,需要提取出关键词“五金”,“电器”,“日杂”,“工具”,“商行”,并将这些关键词按照预设的属性存储到分词词典,预设的属性包括:词性、是否是品牌、是否是场所等,同时将各关键词基于预定POI名称总样本的词频对应添加到分词词典,存储形式如下表:
[0059]IDCODE NAME LOCTION ADJECTIVE BRAND NOUN FREQUENCY
K00270 电影院 Y N N Y 2065345
K00271 肯德基 N N Y Y 7844
K00272 五金 N N N Y 48732
K00273 公司 Y N N Y 884245
K00274 快捷 N Y N N 1045623
[0060] 另外,在该分词词典中添加全国道路名库以及街区名称配置表。
[0061] b、对待分词的第一POI名称进行预处理。将待分词的POI名称进行半角处理,记录POI名称中的各种分割符号,比如破折号、括号等分词标记,提取其中的英文单词和数字等,并标记位置。
[0062] c、对待分词的第一POI名称进行中文分词处理。按照正向最大匹配算法将POI名称进行全切分,例如:“复北大药房东汉阳路店”基于分词词典全切后为:“复”、“北大”、“大药房”、“药房”、“东汉阳路”、“店”,(这里,根据全国道路名库,对于道路名“东汉阳路”不进行拆分);对于分词中出现的歧义通过词频进行分析处理,根据“北大”在预定POI总样本内的词频是“213”,而“大药房”的词频是“43782”,所以结果是:“大药房”,第一匹配结果为“复/北/大药房/东汉阳路/店”;根据分词单字最少原则对该第一匹配结果进行修正,得到第一分词结果为:“复北/大药房/东汉阳路/店”。
[0063] d、未登录词处理。判断第一分词结果中是否有不存在于分词词典中的未登录词,若有,对于未登陆词基于预定POI名称总样本进行词频统计,当词频达到预定阈值,就将该未登录词添加到分词词典中。
[0064] 装置实施例
[0065] 请参见图2,其示出的是本发明装置实施例POI名称的中文分词装置的一种结构示意图。为实现上述方法实施例,本发明装置实施例提供一种兴趣点POI名称的中文分词装置,可以包括:
[0066] 获取模块210,用于获得对预定POI名称总样本处理后得到的分词词典,分词词典包括有从预定POI名称总样本的POI名称中提取的关键词以及各个关键词在预定POI名称总样本中的词频;
[0067] 第一分词模块220,用于对待分词的第一POI名称进行全切分,获得第一分词结果,其中,若第一POI名称中的同一单字在不同切分方式下具有多种关键词,则根据不同切分方式下得到的关键词在预定POI名称总样本中的词频,将词频最高的关键词作为单字的分词结果。
[0068] 其中,在图2的基础上,参见图3,其示出的是本发明装置实施例POI名称的中文分词装置的另一种结构示意图,上述装置还可以包括:
[0069] 第二分词模块230,用于对第一POI名称进行半角处理,提取第一POI名称中所有的非中文字符组并标记非中文字符组的位置,并将非中文字符组添加至第一分词结果。
[0070] 其中,在图2的基础上,参见图4,其示出的是本发明装置实施例POI名称的中文分词装置的又一种结构示意图,上述装置还可以包括:
[0071] 判断模块240,用于判断分词模块获得的第一分词结果中的关键词中,是否有不存在于分词词典中的未登录词;
[0072] 统计及添加模块250,用于若判断模块的判断结果为是,则统计未登录词在预定POI名称总样本中的词频,当未登录词的频率高于预设阈值时,将未登录词添加到分词词典。
[0073] 其中,上述第一分词模块220可以包括:
[0074] 匹配单元,用于根据最大匹配法将第一POI名称与分词词典进行匹配,得到第一匹配结果;
[0075] 修正单元,用于根据分词单字最少原则对第一匹配结果进行修正,得到第一分词结果。
[0076] 其中,上述分词词典还包括:全国道路名库以及街区名称配置表。
[0077] 本发明的上述装置实施例提供的POI名称的中文分词装置与上述方法实施例属于同一构思,其具体实现过程详见方法实施例,为避免重复,这里不再赘述。
[0078] 综上所述,本发明的上述实施例提供的POI名称的中文分词方法和装置通过根据POI名称中某一单字切分可得到的不同关键词在分词词典中的词频,将词频最高的关键词作为单字的分词结果,解决了POI名称分词时某一单字出现的切分歧义的问题,使切分结果更合理,保证了分词的准确性。
[0079] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
[0080] 需要说明的是,对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必需的。
[0081] 另外,在发明实施例中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈