首页 / 专利库 / 专利权 / 专利合作条约 / 第I章 / 国际申请 / 请求书 / 发明名称 / 中文企业名称的识别方法

中文企业名称的识别方法

阅读:130发布:2020-05-12

专利汇可以提供中文企业名称的识别方法专利检索,专利查询,专利分析的服务。并且一种中文企业名称的识别方法,包括以下步骤:建立企业名称 知识库 和企业名称概率知识库,企业名称知识库中包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,企业名称概率知识库中包括企业名称左邻词概率知识和企业名称左邻词概率知识;扫描文本,对文本进行分词;分别完成以地名饰名开头的企业名称识别和无地名饰名开头的企业名称识别。利用本 发明 所述的中文企业名称的识别方法可以加快文档识别中的速度,且提高了企业名称识别的准确率。,下面是中文企业名称的识别方法专利的具体信息内容。

1.一种中文企业名称的识别方法,包括以下步骤:
A、建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
B、通过以下步骤统计资讯新闻数据得到企业名称左邻词概率知识:
(1)建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
(2)建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识;
(3)扫描文本,对文本进行中文分词;
(4)当文本扫描中出现地名词汇时,继续扫描其后面的词,若在2-5个汉字以后出现行业饰名词汇且行业饰名后面紧邻出现企业通名词汇时,触发企业名称识别;
(5)判断上述地名词汇和行业饰名词汇之间的汉字是否包含企业专名禁止词汇,如果包含则终止识别,不包含则汇总计算这些汉字构成企业专名的概率,形成专名概率加权计算结果;
(6)判断专名概率加权结果是否大于阈值,大于阈值则认定当前从地名到最后的企业通名之间的整个中文片段为中文企业名,小于则终止识别;
(7)识别结果组织输出为“以地名饰名开头的企业名称”;
建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识和企业名称左邻词概率知识;
C、扫描文本,对文本进行中文分词;
D、当扫描到行业饰名词汇出现时,继续扫描其后是否紧邻出现企业通名词汇,如果紧邻出现,且当前词汇没有被识别为“以地名饰名开头的企业名称”,则触发企业名称识别;
E、以行业饰名词汇为起点,逐个词汇往左扫描,判断左侧词汇是否存在于企业专名禁止词汇,如果存在则终止识别;
F、获得步骤E中的左侧词汇中汉字,并汇总加权计算它们构成企业专名的概率,同时获得该词汇更左侧词语的“企业名称左邻词概率”,根据隐尔科夫概率模型,计算当前的左侧词汇做为专名的整个企业名称的识别概率;
G、继续往左侧扫描一个词汇,将这个左侧词汇和步骤E的词汇合并在一起做为企业专名看待,重复步骤F,直到专名汉字个数大于5则终止;
H、G步骤中获得的多个识别概率,剔除概率值小于阈值的结果,选择最大的一组结果,做为最终识别结果;
I、最终识别结果组织输出。

说明书全文

中文企业名称的识别方法

技术领域

[0001] 本发明涉及互联网的技术领域,具体说是一种通过确定左右边界而实现的中文企业名称的识别方法。

背景技术

[0002] 未登录词识别是自然语言处理中一项关键技术,在信息抽取信息检索、自动问答、机器翻译等领域中已得到广泛的应用。在对互联网上的信息进行收集时,需采集中文企业名称,中文企业名称是未登录词的一种,具有构成成分复杂、数量巨大、名称不断变化更新、无法穷举等特点,被认为是专用名词当中最难识别的,给自然语言处理、尤其是翻译和机器理解带来很大困扰。
[0003] 对于中文企业名称的识别,国内的研究主要有:利用隐尔科夫模型并结合概率估值公式来评价在真实文本中构成企业名称的能;基于层叠条件随机场模型的中文机构名自动识别算法;基于类语言模型的中文机构名称自动识别方法等。
[0004] 在中文企业名称中,往往存在多个不同的词或短语,组成比较丰富,企业名称中用字和用词的随意性和名称长度的不确定性,都导致了中文企业名称的识别过程较为困难,识别率也不高。
[0005] 发明内容
[0006] 本发明要解决的技术问题是提供一种通过确定左右边界而实现的中文企业名称的识别方法。
[0007] 本发明为解决公知技术中存在的技术问题所采取的技术方案是:
[0008] 本发明的中文企业名称的识别方法,包括以下步骤:
[0009] A、建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
[0010] B、建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识;
[0011] C、扫描文本,对文本进行中文分词;
[0012] D、当文本扫描中出现地名词汇时,继续扫描其后面的词,若在2-5个汉字以后出现行业饰名词汇且行业饰名后面紧邻出现企业通名词汇时,触发企业名称识别;
[0013] E、判断上述地名词汇和行业饰名词汇之间的汉字是否包含企业专名禁止词汇,如果包含则终止识别,不包含则汇总计算这些汉字构成企业专名的概率,形成专名概率加权计算结果;
[0014] F、判断专名概率加权结果是否大于阈值,大于阈值则认定当前从地名到最后的企业通名之间的整个中文片段为中文企业名,小于则终止识别;
[0015] G、识别结果组织输出为“以地名饰名开头的企业名称”。
[0016] 本发明的中文企业名称的识别方法,包括以下步骤:
[0017] A、建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
[0018] B、统计资讯新闻数据得到企业名称左邻词概率知识;建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识和企业名称左邻词概率知识;
[0019] C、扫描文本,对文本进行中文分词;
[0020] D、当扫描到行业饰名词汇出现时,继续扫描其后是否紧邻出现企业通名词汇,如果紧邻出现,且当前词汇没有被识别为“以地名饰名开头的企业名称”,则触发企业名称识别;
[0021] E、以行业饰名词汇为起点,逐个词汇往左扫描,判断左侧词汇是否存在于企业专名禁止词汇,如果存在则终止识别;
[0022] F、获得步骤E中的左侧词汇中汉字,并汇总加权计算它们构成企业专名的概率,同时获得该词汇更左侧词语的“企业名称左邻词概率”,根据隐马尔科夫概率模型,计算当前的左侧词汇做为专名的整个企业名称的识别概率;
[0023] G、继续往左侧扫描一个词汇,将这个左侧词汇和步骤E的词汇合并在一起做为企业专名看待,重复步骤F,直到专名汉字个数大于5则终止;
[0024] H、G步骤中获得的多个识别概率,剔除概率值小于阈值的结果,选择最大的一组结果,做为最终识别结果;
[0025] I、最终识别结果组织输出。
[0026] 本发明具有的优点和积极效果是:
[0027] 本发明的中文企业名称的识别方法,包括以下步骤:建立企业名称知识库和企业名称概率知识库,企业名称知识库中包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,企业名称概率知识库中包括企业名称左邻词概率知识和企业名称左邻词概率知识;扫描文本,对文本进行分词;分别完成以地名饰名开头的企业名称识别和无地名饰名开头的企业名称识别。利用本发明所述的中文企业名称的识别方法可以加快文档识别中的速度,且提高了企业名称识别的准确率。

具体实施方式

[0028] 以下结合实施例对本发明进行详细说明:
[0029] 本发明的中文企业名称的识别方法,包括以下步骤:
[0030] A、建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
[0031] B、建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识;“单个汉字组成企业专名的概率知识”,这个由常见的3600多个汉字构成,在1000万以上的企业名录中,统计得到每一个汉字组成企业专名的概率;
[0032] C、扫描文本,对文本进行中文分词;
[0033] D、当文本扫描中出现地名词汇时,继续扫描其后面的词,若在2-5个汉字(企业专名通常是2-5个字)以后出现行业饰名词汇且行业饰名后面紧邻出现企业通名词汇时,触发企业名称识别;
[0034] E、判断上述地名词汇和行业饰名词汇之间的汉字是否包含企业专名禁止词汇,如果包含则终止识别,不包含则汇总计算这些汉字构成企业专名的概率,形成专名概率加权计算结果;
[0035] F、判断专名概率加权结果是否大于阈值,大于阈值则认定当前从地名到最后的企业通名之间的整个中文片段为中文企业名,小于则终止识别;
[0036] G、识别结果组织输出为“以地名饰名开头的企业名称”。
[0037] 本发明的中文企业名称的识别方法,包括以下步骤:
[0038] A、建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
[0039] B、统计资讯新闻数据得到企业名称左邻词概率知识;建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识和企业名称左邻词概率知识;
[0040] C、扫描文本,对文本进行中文分词;
[0041] D、当扫描到行业饰名词汇出现时,行业饰名可以同时出现多个,如“天源浩业房地产经纪有限公司”,也可能出现地名饰名,如“信和财富投资管理(北京)有限公司”,继续扫描其后是否紧邻出现企业通名词汇,如果紧邻出现,且当前词汇没有被识别为“以地名饰名开头的企业名称”,则触发企业名称识别;
[0042] E、以行业饰名词汇为起点,逐个词汇往左扫描,判断左侧词汇是否存在于企业专名禁止词汇,如果存在则终止识别;
[0043] F、获得步骤E中的左侧词汇中汉字,并汇总加权计算它们构成企业专名的概率,同时获得该词汇更左侧词语的“企业名称左邻词概率”,根据隐马尔科夫概率模型,计算当前的左侧词汇做为专名的整个企业名称的识别概率;
[0044] G、继续往左侧扫描一个词汇,将这个左侧词汇和步骤E的词汇合并在一起做为企业专名看待,重复步骤F,直到专名汉字个数大于5则终止;
[0045] H、G步骤中获得的多个识别概率,剔除概率值小于阈值的结果,选择最大的一组结果,做为最终识别结果;
[0046] I、最终识别结果组织输出。
[0047] 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例公开如上,然而,并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当然会利用揭示的技术内容作出些许更动或修饰,成为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均属于本发明技术方案的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈