专利汇可以提供中文企业名称的识别方法专利检索,专利查询,专利分析的服务。并且一种中文企业名称的识别方法,包括以下步骤:建立企业名称 知识库 和企业名称概率知识库,企业名称知识库中包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,企业名称概率知识库中包括企业名称左邻词概率知识和企业名称左邻词概率知识;扫描文本,对文本进行分词;分别完成以地名饰名开头的企业名称识别和无地名饰名开头的企业名称识别。利用本 发明 所述的中文企业名称的识别方法可以加快文档识别中的速度,且提高了企业名称识别的准确率。,下面是中文企业名称的识别方法专利的具体信息内容。
1.一种中文企业名称的识别方法,包括以下步骤:
A、建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
B、通过以下步骤统计资讯新闻数据得到企业名称左邻词概率知识:
(1)建立企业名称知识库,包括地名词集、企业通名词集、行业饰名词集和企业专名禁止词集,各词集分别对应包括地名词汇、企业同名词汇、行业饰名词汇和企业专名禁止词汇;
(2)建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识;
(3)扫描文本,对文本进行中文分词;
(4)当文本扫描中出现地名词汇时,继续扫描其后面的词,若在2-5个汉字以后出现行业饰名词汇且行业饰名后面紧邻出现企业通名词汇时,触发企业名称识别;
(5)判断上述地名词汇和行业饰名词汇之间的汉字是否包含企业专名禁止词汇,如果包含则终止识别,不包含则汇总计算这些汉字构成企业专名的概率,形成专名概率加权计算结果;
(6)判断专名概率加权结果是否大于阈值,大于阈值则认定当前从地名到最后的企业通名之间的整个中文片段为中文企业名,小于则终止识别;
(7)识别结果组织输出为“以地名饰名开头的企业名称”;
建立企业名称概率知识库,包括单个汉字组成企业专名的概率知识和企业名称左邻词概率知识;
C、扫描文本,对文本进行中文分词;
D、当扫描到行业饰名词汇出现时,继续扫描其后是否紧邻出现企业通名词汇,如果紧邻出现,且当前词汇没有被识别为“以地名饰名开头的企业名称”,则触发企业名称识别;
E、以行业饰名词汇为起点,逐个词汇往左扫描,判断左侧词汇是否存在于企业专名禁止词汇,如果存在则终止识别;
F、获得步骤E中的左侧词汇中汉字,并汇总加权计算它们构成企业专名的概率,同时获得该词汇更左侧词语的“企业名称左邻词概率”,根据隐马尔科夫概率模型,计算当前的左侧词汇做为专名的整个企业名称的识别概率;
G、继续往左侧扫描一个词汇,将这个左侧词汇和步骤E的词汇合并在一起做为企业专名看待,重复步骤F,直到专名汉字个数大于5则终止;
H、G步骤中获得的多个识别概率,剔除概率值小于阈值的结果,选择最大的一组结果,做为最终识别结果;
I、最终识别结果组织输出。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种股东名称关联匹配的方法和装置 | 2020-05-13 | 272 |
一种股东名称关联匹配的方法和装置 | 2020-05-13 | 897 |
操作装置、图像形成装置和操作方法 | 2020-05-11 | 135 |
网络拓扑隐藏方法和设备 | 2020-05-12 | 275 |
显示装置 | 2020-05-13 | 137 |
显示装置 | 2020-05-13 | 673 |
一种翻译方法及系统 | 2020-05-11 | 602 |
POI名称规范性评估方法、装置、设备和存储介质 | 2020-05-12 | 257 |
一种兴趣点名称的挖掘方法、装置、电子设备及存储介质 | 2020-05-12 | 815 |
名称标准化方法、装置、介质及电子设备 | 2020-05-11 | 974 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。