首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 请求书 / 发明名称 / 一种公司名称匹配方法、装置、终端设备及存储介质

一种公司名称匹配方法、装置、终端设备及存储介质

阅读:643发布:2020-05-11

专利汇可以提供一种公司名称匹配方法、装置、终端设备及存储介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种公司名称匹配方法、装置、终端设备及存储介质。所述方法包括:确定公司名称集合中各公司名称间的相似度;从所述公司名称集合中提取相似度大于对应的 阈值 的公司名称,得到第一集合;基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。利用该方法,能够提高公司名称匹配的精确度。,下面是一种公司名称匹配方法、装置、终端设备及存储介质专利的具体信息内容。

1.一种公司名称匹配方法,其特征在于,包括:
确定公司名称集合中各公司名称间的相似度;
从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;
基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称,包括:
确定所述第一集合中各公司名称间的地址相似度;
将所述第一集合中地址相似度大于地址阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
3.根据权利要求1所述的方法,其特征在于,所述相似度包括名称相似度和/或邻居相似度。
4.根据权利要求3所述的方法,其特征在于,所述从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合,包括:
从所述公司名称集合中提取名称相似度大于对应的阈值的公司名称,得到第二集合,所述名称相似度对应的阈值为名称阈值;
基于所述第二集合,得到第一集合。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二集合,得到第一集合,包括:
确定所述第二集合中各公司名称间的邻居相似度;
基于所述名称相似度和所述邻居相似度,确定综合相似度;
从所述第二集合中提取所述综合相似度大于对应的阈值的公司名称,得到第一集合,所述综合相似度大于对应的阈值为综合阈值。
6.根据权利要求5所述的方法,其特征在在于,所述基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称,包括:
基于地址相似度和所述综合相似度,确定目标相似度;
将所述第一集合中目标相似度大于目标阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
7.根据权利要求1所述的方法,其特征在于,所述公司名称集合具有相同的关键字。
8.一种公司名称匹配装置,其特征在于,包括:
第一确定模,用于确定公司名称集合中各公司名称间的相似度;
得到模块,用于从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;
第二确定模块,用于基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
9.一种终端设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

说明书全文

一种公司名称匹配方法、装置、终端设备及存储介质

技术领域

[0001] 本发明实施例涉及数据处理技术领域,尤其涉及一种公司名称匹配方法、装置、终端设备及存储介质。

背景技术

[0002] 中国消费贷的市场不断扩大,团伙欺诈的险也越来越高。在对消费贷风险进行识别时,通常基于用户的基本信息构建关系网络,以挖掘快贷背景下的公司与人,人与人之间的隐藏关联,从而发现异常群体、尽早识别集中性风险。
[0003] 在确定隐藏关联的过程中,公司名称是网络中比较关键的信息。但是由于用户的基本信息(包括公司名称、公司地址、联系人和手机号)都是由用户填写,在用户填写公司名称时存在大量的公司名称不规范、与实际公司名称不一致的情况,从而导致实际相同的公司名称因填写不规范而无法关联。

发明内容

[0004] 本发明实施例提供了一种公司名称匹配方法、装置、终端设备及存储介质,以提高公司名称匹配的精确度。
[0005] 第一方面,本发明实施例提供了一种公司名称匹配方法,包括:
[0006] 确定公司名称集合中各公司名称间的相似度;
[0007] 从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;
[0008] 基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
[0009] 进一步的,所述基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称,包括:
[0010] 确定所述第一集合中各公司名称间的地址相似度;
[0011] 将所述第一集合中地址相似度大于地址阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
[0012] 进一步的,所述相似度包括名称相似度和/或邻居相似度。
[0013] 进一步的,所述从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合,包括:
[0014] 从所述公司名称集合中提取名称相似度大于对应的阈值的公司名称,得到第二集合,所述名称相似度对应的阈值为名称阈值;
[0015] 基于所述第二集合,得到第一集合。
[0016] 进一步的,所述基于所述第二集合,得到第一集合,包括:
[0017] 确定所述第二集合中各公司名称间的邻居相似度;
[0018] 基于所述名称相似度和所述邻居相似度,确定综合相似度;
[0019] 从所述第二集合中提取所述综合相似度大于对应的阈值的公司名称,得到第一集合,所述综合相似度大于对应的阈值为综合阈值。
[0020] 进一步的,所述基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称,包括:
[0021] 基于地址相似度和所述综合相似度,确定目标相似度;
[0022] 将所述第一集合中目标相似度大于目标阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
[0023] 进一步的,所述公司名称集合具有相同的关键字。
[0024] 第二方面,本发明实施例还提供了一种公司名称匹配装置,包括:
[0025] 第一确定模,用于确定公司名称集合中各公司名称间的相似度;
[0026] 得到模块,用于从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;
[0027] 第二确定模块,用于基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
[0028] 第三方面,本发明实施例还提供了一种终端设备,包括:
[0029] 一个或多个处理器;
[0030] 存储装置,用于存储一个或多个程序;
[0031] 所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的方法。
[0032] 第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的方法。
[0033] 本发明实施例提供了一种公司名称匹配方法、装置、终端设备及存储介质,首先确定公司名称集合中各公司名称间的相似度;然后从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;最后基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。利用上述技术方案,能够提高公司名称匹配的精确度。附图说明
[0034] 图1为本发明实施例一提供的一种公司名称匹配方法的流程示意图;
[0035] 图2为本发明实施例二提供的一种公司名称匹配方法的流程示意图;
[0036] 图3为本发明实施例三提供的一种公司名称匹配装置的结构示意图;
[0037] 图4为本发明实施例四提供的一种终端设备的结构示意图。

具体实施方式

[0038] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0039] 在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0040] 本发明使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”。
[0041] 实施例一
[0042] 图1为本发明实施例一提供的一种公司名称匹配方法的流程示意图,该方法可适用于对公司名称进行匹配的情况,该方法可以由公司名称匹配装置来执行,其中该装置可由软件和/或硬件实现,并一般集成在终端设备上,在本实施例中终端设备包括但不限于:手机、电脑和个人数字助理等设备。
[0043] 如图1所示,本发明实施例一提供的一种公司名称匹配方法,包括如下步骤:
[0044] S110、确定公司名称集合中各公司名称间的相似度。
[0045] 在本实施例中,公司名称集合可以为包括至少两个公司名称的集合。本发明可以确定公司名称集合中相互匹配的公司名称,相互匹配的公司名称可以认为对应一家公司。
[0046] 在进行公司名称匹配时,本步骤可以先确定公司名称集合中各公司名称间的相似度。此处不对计算相似度的方式进行限定。本领域基于人员可以选用任一计算相似度的手段计算各公司名称的相似度,以便于从公司名称集合中初选出匹配度较高的公司名称。
[0047] 在一个实施例中,相似度包括名称相似度和/或邻居相似度。名称相似度可以为基于公司名称计算的相似度,如余弦相似度。邻居相似度可以为基于与公司名称关联的信息计算的相似度,如基于邻居节点加权得到的相似度。
[0048] S120、从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合。
[0049] 确定相似度后,本步骤可以基于相似度和对应的阈值,确定第一集合。不同的相似度对应有不同的阈值,如名称相似度对应有名称阈值;邻居相似度对应有邻居阈值;基于名称相似度和邻居相似度确定的综合相似度对应有综合阈值。此处不对各阈值的确定方式进行限定,本领域技术人员可以根据实际情况确定,如可以通过大数据统计得到,也可以基于模型训练得到。
[0050] 本步骤在得到第一集合时,可以直接将公司名称集合中相似度大于对应阈值的公司名称汇总得到第一即可。在相似度为名称相似度时,本步骤可以直接将公司名称集合中名称相似度大于名称阈值的公司名称,汇总得到第一集合;在相似度为邻居相似度时,本步骤可以直接将公司名称集合中邻居相似度大于邻居阈值的公司名称,汇总得到第一集合;在相似度为综合相似度时,本步骤可以将公司名称集合中综合相似度大于综合阈值的公司名称,汇总得到第一集合。综合相似度可以基于名称相似度和邻居相似度确定。在相似度包括名称相似度和邻居相似度时,本申请也可以先从公司名称集合中提取名称相似度大于名称阈值的公司名称,再提取邻居相似度大于邻居阈值的公司名称,汇总得到第一集合。
[0051] S130、基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
[0052] 地址相似度可以认为是基于公司名称对应的地址确定的相似度。在得到第一集合后,为了进一步提高公司名称的匹配精度,本步骤可以进一步基于地址相似度对公司名称进行筛选,确定相互匹配的公司名称。
[0053] 具体的,本申请可以直接基于地址相似度,从第一集合中提取相互匹配的公司名称;也可以将地址相似度结合如下至少之一相似度,确定相互匹配的公司名称:名称相似度、邻居相似度和综合相似度。如为地址相似度和如下至少之一相似度:名称相似度、邻居相似度和综合相似度设置不同的权重,以确定相互匹配的公司名称。
[0054] 本发明实施例一提供的一种公司名称匹配方法,首先确定公司名称集合中各公司名称间的相似度;然后从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;最后基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。利用上述方法,能够提高公司名称匹配的精确度。
[0055] 在上述实施例的基础上,提出了上述实施例的变型实施例,在此需要说明的是,为了使描述简要,在变型实施例中仅描述与上述实施例的不同之处。
[0056] 在一个实施例中,所述相似度包括名称相似度和/或邻居相似度。
[0057] 在一个实施例中,所述基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称,包括:
[0058] 确定所述第一集合中各公司名称间的地址相似度;
[0059] 将所述第一集合中地址相似度大于地址阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
[0060] 本发明在确定地址相似度时,可以基于各公司名称对应的地址,确定余弦相似度,并将确定出的余弦相似度确定为地址相似度。确定出第一集合中各公司名称的地址相似度后,可以从第一集合中提取地址相似度大于地址阈值的公司名称,提取出的公司名称可以认为是相互匹配的公司名称。
[0061] 在一个实施例中,所述公司名称集合具有相同的关键字。
[0062] 本申请中公司名称集合可以具有相同的关键字,以提升确定相互匹配的公司名称的效率。
[0063] 实施例二
[0064] 图2为本发明实施例二提供的一种公司名称匹配方法的流程示意图,本实施例二在上述各实施例的基础上进行优化。本实施例将从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合,进一步具体化为:从所述公司名称集合中提取名称相似度大于对应的阈值的公司名称,得到第二集合,所述名称相似度对应的阈值为名称阈值;
[0065] 基于所述第二集合,得到第一集合。
[0066] 在上述优化的基础上,将基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称,具体优化为:基于地址相似度和所述综合相似度,确定目标相似度;
[0067] 将所述第一集合中目标相似度大于目标阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。本实施例尚未详尽的内容请参考实施例一。
[0068] 如图2所示,本发明实施例二提供的一种公司名称匹配方法,包括如下步骤:
[0069] S210、确定公司名称集合中各公司名称间的相似度。
[0070] S220、从所述公司名称集合中提取名称相似度大于对应的阈值的公司名称,得到第二集合,所述名称相似度对应的阈值为名称阈值。
[0071] 本实施例在确定第一集合时可以先从公司名称集合中提取名称相似度大于对应的阈值的公司名称,得到第二集合,以基于第二集合得到第一集合。
[0072] S230、基于所述第二集合,得到第一集合。
[0073] 在确定第二集合后,本步骤可以直接将第二集合确定为第一集合;也可以对第二集合中的各公司名称再次进行处理,得到第一集合。
[0074] 此处不对再次进行处理的手段进行限定,如进行邻居相似度计算,以进一步筛选得到第一集合。
[0075] 在一个实施例中,所述基于所述第二集合,得到第一集合,包括:
[0076] 确定所述第二集合中各公司名称间的邻居相似度;
[0077] 基于所述名称相似度和所述邻居相似度,确定综合相似度;
[0078] 从所述第二集合中提取所述综合相似度大于对应的阈值的公司名称,得到第一集合,所述综合相似度大于对应的阈值为综合阈值。
[0079] 本发明可以基于第二集合中各公司名称的共同邻居数据,确定邻居相似度。如,本发明可以基于复杂网络中邻居节点加权的公司名称相似度计算方法确定邻居相似度。
[0080] S240、基于地址相似度和综合相似度,确定目标相似度。
[0081] 为了确定第一集合中相互匹配的公司名称,本步骤可以基于地址相似度和综合相似度,确定目标相似度,如为地址相似度和综合相似度设置不同的权重,将地址相似度乘以对应权重后加上综合相似度乘以对应的权重的结果确定为目标相似度。目标相似度可以认为是结合地址相似度和综合相似度确定的相似度。
[0082] 综合相似度可以基于名称相似度和邻居相似度确定。如为名称相似度和邻居相似度设置不同的权重,以确定综合相似度。
[0083] S250、将所述第一集合中目标相似度大于目标阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
[0084] 确定目标相似度后,本步骤可以直接汇总第一集合中目标相似度大于目标阈值的公司名称,得到相互匹配的公司名称。
[0085] 目标阈值可以为对应目标相似度的阈值。此处不对目标阈值的确定手段进行限定,可以参见本申请中其余阈值的确定手段。
[0086] 以下对本发明进行示例性描述,本发明提供的公司名称匹配方法可以认为是一种基于复杂网络的公司名称对齐方法。
[0087] 目前在进行公司名称对齐时,依赖标准的公司名称库进行匹配。然而,借助公司名称标准库的对齐方法需要动态维护一个完备的标准公司名称库,且只有用户规范填写的公司名称才能匹配公司名称库中的公司名称,而用户不规范填写的公司名称依然不能匹配。
[0088] 本申请提供了一种结合地址模糊匹配的公司名称对齐方法,可以很大程度上利用公司地址信息,提高公司名称对齐的精确度。
[0089] 本发明在进行公司名称匹配时依赖的技术包括复杂网络和文本相似度计算。其中,复杂网络定义为具有自组织、自相似、吸引子、小世界、无标中部分或全部信息的具有动学复杂性、网络进化、构复杂、多样性等特性的网络称为复杂网络。文本相似度计算是自然语言处理任务中比较重要的技术,一般通过将自然语言形式的文本转化成向量形式,然后借助各种向量距离计算方法来实现文本的相似度计算。
[0090] 本申请在计算邻居相似度时,按照一定权重将复杂网络中的邻居相似度加入到公司名称对齐(即匹配)。主要是在基于关键字的公司名称相似度计算(即名称相似度计算)的基础上,将复杂网络中的邻居相似度(两个公司名称节点所具有相同的节点的个数)按照一定的权重添加到相似度的计算中来,得到最终的相似度评分。
[0091] 具体的,基于复杂网络中邻居节点加权的公司名称相似度计算方法,首先计算公司名称之间的余弦相似度得分,再计算两个公司名称在网络中节点拥有的共同邻居数目作为邻居相似度得分,对以上两个得分加权计算得到公司名称之间的最后相似度得分。然后依据相似度计算分数总体情况,根据专家经验设定阈值,对于相似度得分超过阈值的两个公司名称,判定同属一个公司,完成公司名称对齐。
[0092] 本专利提出的结合地址模糊匹配的公司名称对齐方法,在基于专家经验设定阈值(即目标阈值)的基础上,增加自动化判断决策层,即针对相似度得分超过阈值的两个公司名称再借助公司地址信息进行辅助验证,最终判断是否对齐。该专利方法能充分的利用公司地址信息、有效的提高公司名称对齐的精确度,很好的解决了以上的问题。
[0093] 本发明在进行公司名称匹配时,主要包括如下步骤:基于关键字的公司名称余弦相似度计算、基于复杂网络中邻居节点加权的公司名称相似度计算方法、基于专家经验的公司名称对齐和基于地址模糊匹配的交叉核验。
[0094] 具体的,基于关键字的公司名称余弦相似度计算(即计算名称相似度)包括:
[0095] 1.关键字抽取:首先通过提取公司名称中的关键字作为索引,将具有相同的关键字的公司名称构建集合。因此后面只在集合内部进行相似度的计算。
[0096] 2.公司名称向量化:其次将公司名称看作一个(文本)句子,对句子进行中文分词处理,然后利用tf-idf(词频-逆文档序)算法将词语进行数值化转换表示,最后完成公司名称句子的向量化。
[0097] 3.余弦相似度计算:然后计算向量与向量之间的余弦距离,即利用计算两个公司名称向量的余弦相似度,并保存相似度得分。
[0098] 示例性的,假设两个公司名称可以表示为S1,S2,分别对应的句子向量为X1,X2,θ1是两个向量对应的余弦,因此公司名称的相似度得分Y1计算公式如下:
[0099]
[0100] 设定阈值T1,只对上述得分Y1超过该阈值T1(即名称阈值)的两个公司名称节点再进行基于复杂网络中邻居节点加权的公司名称相似度计算。
[0101] 基于复杂网络中邻居节点加权的公司名称相似度计算方法包括如下步骤:
[0102] 1.网络结构定义:通过复杂网络技术构建包含公司、地址、客户、手机号、联系人等实体以及对应公司-地址、公司-手机、客户-公司、客户-公司地址、客户-家庭地址、客户-手机、客户-联系人、联系人-手机等关系的快贷的复杂网络。
[0103] 2.数据采集:依据构建的网络结构分别从客户基本信息,客户关系信息,人行征信身份信息、人行征信配偶信息、客户工作信息等不同的数据来源中采集抽取客户、公司、联系人等基本有效信息。
[0104] 3.数据清洗:原始的数据因为多种原因会导致部分数据存在着空缺、重复、异常等情况,因此在利用数据构建网络之前需要配置数据清洗规则,对数据进行清洗。
[0105] 4.网络构建:按照定义的网络结构抽取实体-关系对并构建网络。
[0106] 5.邻居相似度计算:通过计算网络中的两个公司名称节点拥有的共同邻居数目X3,进行加权计算得到公司名称的邻居相似度Y2,公式如下:
[0107] Y2=∑X3
[0108] 将上述两个步骤的得分进行加权综合得到公司名称的最终相似度得分,公式如下:
[0109] Y3=aY1+bY2
[0110] 其中,Y1和a分别是基于关键字的公司名称余弦相似度计算得分以及对应的权重;Y2和b分别是基于复杂网络中邻居节点相似度得分以及对应的权重。
[0111] 在基于专家经验的公司名称对齐时,依据相似度计算分数总体情况,根据专家经验设定阈值T2(即目标阈值),只对公式名称相似度计算得分Y3超过阈值T2的公式名称对做基于地址模糊匹配的交叉核验计算。
[0112] 基于地址模糊匹配的交叉核验时,针对相似度得分超过阈值的两个公司名称再进行公司地址相似度计算,假设两个公司地址可以表示为S3,S4,分别对应的句子向量为X3,X4,θ2是两个向量对应的余弦,因此公司地址的相似度得分Y4计算公式如下:
[0113]
[0114] 因此,经过结合地址模糊匹配的交叉核验的最终相似度得分Y,计算公式如下:
[0115] Y=cY3+dY4
[0116] 当Y没有超过该阈值T2,则判定这两个公司名称不是同一家公司,对齐失败。本方法认为虽然两个公司名称相似,但是计算得到的公司地址相似度低,那么这两个公司同属于一家公司的可能性就会大幅降低,对齐失败。
[0117] 反之当Y超过该阈值T2,判定公司名称对齐成功。
[0118] 本发明在快贷集中性风险识别场景下,结合地址模糊匹配的交叉验证提高了公司名称对齐精确度。具体的,通过统一的视将公司名称相似度计算、复杂网络和地址模糊匹配统一起来,在基于复杂网络中邻居节点加权的公司名称相似度计算方法的基础上,添加一层地址模糊匹配的自动化判决策略,能够有效的提高公司名称对齐的精确度。
[0119] 本发明实施例二提供的一种公司名称匹配方法,具体化了得到第一集合和确定相互匹配的公司名称的操作。利用该方法,能够基于名称相似度和综合相似度更加准确的确定相互匹配的公司名称,提升公司名称匹配的精确度。
[0120] 实施例三
[0121] 图3为本发明实施例三提供的一种公司名称匹配装置的结构示意图,该装置可适用于匹配公司名称的情况,其中该装置可由软件和/或硬件实现,并一般集成在终端设备上。
[0122] 如图3所示,该装置包括:第一确定模块31、得到模块32和第二确定模块33;
[0123] 其中,第一确定模块31,用于确定公司名称集合中各公司名称间的相似度;
[0124] 得到模块32,用于从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;
[0125] 第二确定模块33,用于基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
[0126] 在本实施例中,该装置首先通过第一确定模块31确定公司名称集合中各公司名称间的相似度;其次通过得到模块32从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;最后通过第二确定模块33基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
[0127] 本实施例提供了一种公司名称匹配装置,能够提高公司名称匹配的精确度。
[0128] 进一步的,第二确定模块33具体用于:
[0129] 确定所述第一集合中各公司名称间的地址相似度;
[0130] 将所述第一集合中地址相似度大于地址阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
[0131] 进一步的,所述相似度包括名称相似度和/或邻居相似度。
[0132] 进一步的,得到模块32具体用于:
[0133] 从所述公司名称集合中提取名称相似度大于对应的阈值的公司名称,得到第二集合,所述名称相似度对应的阈值为名称阈值;
[0134] 基于所述第二集合,得到第一集合。
[0135] 进一步的,得到模块32基于所述第二集合,得到第一集合,包括:
[0136] 确定所述第二集合中各公司名称间的邻居相似度;
[0137] 基于所述名称相似度和所述邻居相似度,确定综合相似度;
[0138] 从所述第二集合中提取所述综合相似度大于对应的阈值的公司名称,得到第一集合,所述综合相似度大于对应的阈值为综合阈值。
[0139] 进一步的,第二确定模块33具体用于:
[0140] 基于地址相似度和所述综合相似度,确定目标相似度;
[0141] 将所述第一集合中目标相似度大于目标阈值的公司名称,确定为所述第一集合中相互匹配的公司名称。
[0142] 进一步的,所述公司名称集合具有相同的关键字。
[0143] 上述公司名称匹配装置可执行本发明任意实施例所提供的公司名称匹配方法,具备执行方法相应的功能模块和有益效果。
[0144] 实施例四
[0145] 图4为本发明实施例四提供的一种终端设备的结构示意图。如图4所示,本发明实施例四提供的终端设备包括:一个或多个处理器41和存储装置42;该终端设备中的处理器41可以是一个或多个,图4中以一个处理器41为例;存储装置42用于存储一个或多个程序;
所述一个或多个程序被所述一个或多个处理器41执行,使得所述一个或多个处理器41实现如本发明实施例中任一项所述的方法。
[0146] 所述终端设备还可以包括:输入装置43和输出装置44。
[0147] 终端设备中的处理器41、存储装置42、输入装置43和输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
[0148] 该终端设备中的存储装置42作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例一或二所提供的方法对应的程序指令/模块(例如,附图3所示的公司名称匹配装置中的模块,包括:第一确定模块31、得到模块32和第二确定模块33)。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块,从而执行终端设备的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
[0149] 存储装置42可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储装置42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0150] 输入装置43可用于接收输入的数字或字符信息,以及产生与终端设备的用户设置以及功能控制有关的键信号输入。输出装置44可包括显示屏等显示设备。
[0151] 并且,当上述终端设备所包括一个或者多个程序被所述一个或者多个处理器41执行时,程序进行如下操作:
[0152] 确定公司名称集合中各公司名称间的相似度;
[0153] 从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;
[0154] 基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
[0155] 实施例五
[0156] 本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行本申请提供的公司名称匹配方法,该方法包括:
[0157] 确定公司名称集合中各公司名称间的相似度;
[0158] 从所述公司名称集合中提取相似度大于对应的阈值的公司名称,得到第一集合;
[0159] 基于所述第一集合中各公司名称的地址相似度,确定所述第一集合中相互匹配的公司名称。
[0160] 可选的,该程序被处理器执行时还可以用于执行本发明任意实施例所提供的公司名称匹配方法。
[0161] 本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0162] 计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0163] 计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(Radio Frequency,RF)等等,或者上述的任意合适的组合。
[0164] 可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0165] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈