首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 请求书 / 发明名称 / 用于在文档中识别中文物种名称的方法与系统

用于在文档中识别中文物种名称的方法与系统

阅读:518发布:2020-05-11

专利汇可以提供用于在文档中识别中文物种名称的方法与系统专利检索,专利查询,专利分析的服务。并且本 发明 提供一种用于在文档中识别中文物种名称的方法及其系统。所述方法包括接收包含中文物种名称的文档;识别所述文档中的中文物种名称字段;识别非物种名称字段;基于所识别的中文物种名称字段和非物种名称字段合并以得到所述中文物种名称。本发明的具体实施方式可以有效地从科技文献中识别中文物种名称。,下面是用于在文档中识别中文物种名称的方法与系统专利的具体信息内容。

1.一种在文档中识别中文生物物种名称的方法,其特征在于该方法包括:接收包含中文物种名称的文档,识别所述文档中的中文物种名称字段,识别所述文档中的非物种名称字段,基于所识别的中文物种名称字段向两端扩展、合并以得到所述完整的中文物种名称步骤。
2.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述非物种名称字段在基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称中作为终止符。
3.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述识别所述文档中的中文物种名称字段步骤包括:对所述文档进行分句,基于物种名称字典匹配所述文档的分句中出现的所有中文物种名称,记录所述中文物种名称字段的位置信息。
4.如权利要求3所述的一种在文档中识别中文生物物种名称的方法,其特征在于在识别所述文档中的中文物种名称字段步骤中,当同一分句中出现一个以上物种名称片段时,检查物种名称片段位置信息之间是否存在包含关系,响应于多个物种名称片段存在包含关系,保留最长的物种名称片段及位置信息。
5.如权利要求1所述的一种在文档中识别中文生物物种名称的方法,其特征在于其中所述识别所述文档中的非中文物种名称字段步骤包括:对所述文档进行分词,检查每个分词是否在非中文物种名称字段字典中,响应于所述分词在非中文物种名称字段字典中,确定所述分词为非中文物种名称字段,记录所述非物种名称字段的位置信息。
6.如权利要求1所述的一种在文档中识别中文物种名称的方法,其特征在于其中所述基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称步骤包括:从所述中文物种名称字段位置向前后两端扩展直至遇到非物种名称片段为止,以获得所述生物物种名称。
7.如权利要求3或5所述的一种在文档中识别物种名称的方法,其特征在于,所述位置信息由所述任一物种名称片段或非物种名称片段在所述文档中的起始位置和结束位置组成。
8.如权利要求3所述的一种在文档中识别中文生物物种名称的方法,其特征在于,该方法还包括以下步骤至少之一:
从已有的中文物种名称生成中文物种名称片段字典,包括物种中文学名、俗名、栽培驯化后的品种名称;或者,基于非生物领域的中文文档,收集出现频率较高的词,形成非物种名称片段字典。
9.一种在文档中识别中文物种名称的系统,包括:
接收装置,用于接收包括中文物种名称的文档;
识别装置一,用于识别所述文档中的中文物种名称字段;
识别装置二,用于识别所述文档中的非物种名称片段;
合并装置,用于基于所识别的中文物种名称字段向两端扩展、合并以得到所述完整的中文物种名称。
10.权利要求1或9所述的一种在文档中识别中文物种名称的方法或系统在从科技文献中识别中文物种名称中的应用。

说明书全文

用于在文档中识别中文物种名称的方法与系统

技术领域:

[0001] 本发明整体上涉及计算机信息处理技术领域,特别地,涉及一种用于在文档中识别中文物种名称的方法与系统。技术背景:
[0002] 目前,随着生物多样性领域的科学技术发展,涉及生物学领域的各类书籍、科技论文以及专利文献等日益增多。在这些文献的计算机深度处理中,生物物种中文名称识别技术显得非常重要。源于中文语义及构词的复杂性,生物物种中文名结构复杂,其书写格式多样或不规范等原因,目前还没有一种用于在文档中识别中文物种名称的技术或方法,在计算机处理生物类科技文献时,需要一种用于文档中识别生物物种名称的方法与系统。发明内容:
[0003] 本发明一方面提供一种用于在文档中识别中文物种名称的方法,步骤包括:接收包含中文物种名称的文档;识别所述文档中的中文物种名称字段;识别非物种名称字段;基于所识别的中文物种名称字段向两端扩展,扩展到非物种名称字段终止,合并物种名称字段以得到所述中文物种名称。
[0004] 本发明另一方面提供一种用于在文档中识别中文物种名称的系统,如图2所示,装置包括:接收装置,用于接收包含中文物种名称的文档;识别装置一,用于识别所述文档中的中文物种名称片段;识别装置二,用于识别所述文档中的非物种名称片段;以及合并装置,用于基于所识别的中文物种名称片段向两端扩展以得到所述完整的中文物种名称。
[0005] 本发明的具体实施方式可以有效地从科技文献中识别中文物种名称。
[0006] 为了实现上述目的,本发明提供了如下的技术方案:
[0007] 一种在文档中识别中文物种名称的方法,该方法包括:接收包含中文物种名称的文档,识别所述文档中的中文物种名称字段,识别所述文档中的非物种名称字段,基于所识别的中文物种名称字段和非物种名称字段,扩展、合并以得到所述完整中文物种名称步骤。
[0008] 如所述的一种在文档中识别中文物种名称的方法,其中所述识别所述文档中的非物种名称字段步骤包括:对所述文档进行分词,检查每个分词是否在非中文物种名称字段字典中,响应于所述分词在非中文物种名称字段字典中,确定所述分词为非中文物种名称字段,记录所述非中文物种名称字段的位置信息。
[0009] 如所述的一种在文档中识别中文物种名称的方法,其中所述识别文档中的中文物种名称字段步骤包括:对所述文档进行分句,基于中文物种名称字典匹配所述文档的分句中出现的所有中文物种名称,记录所述中文物种名称字段的位置信息。
[0010] 如所述的一种在文档中识别中文生物物种名称的方法,所述位置信息由所述任一物种名称片段或非物种名称片段在所述文档中的起始位置和结束位置组成。
[0011] 如所述的一种在文档中识别中文物种名称的方法,其中所述非物种名称字段在基于所识别的中文物种名称字段向两端扩展,以得到所述完整中文物种名称中作为终止符。
[0012] 如所述的一种在文档中识别中文生物物种名称的方法,其中所述基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称步骤包括:从所述生物物种名称字段位置向前后两端扩展直至遇到非生物物种名称片段为止,以获得所述生物物种名称。
[0013] 如所述的一种在文档中识别中文生物物种名称的方法,在识别所述文档中的中文物种名称字段步骤中,当同一分句中出现一个以上物种名称片段时,检查物种名称片段位置信息之间是否存在包含关系,响应于多个物种名称片段存在包含关系,保留最长的物种名称片段及位置信息。
[0014] 如所述的一种在文档中识别中文物种名称的方法,该方法还包括以下步骤至少之一:
[0015] 从已有的生物学领域中文物种名称生成中文物种名称片段字典,包括物种中文学名、俗名、栽培驯化后的品种名称;或者,基于非生物学领域的中文文档,例如数学、物理学、法学、社会学、心理学、管理学等;收集出现频率较高的词,形成非生物物种名称片段字典。
[0016] 本发明还提供了所述的一种在文档中识别中文物种中文名称的方法与系统用于从科技文献中识别中文物种名称。
[0017] 本发明的方法主要步骤包括接收包含中文物种名称的文档,识别所述文档中的中文物种名称字段,识别非物种名称字段,基于所识别的中文物种名称字段和非物种名称字段扩展、合并以得到所述完整的我中文物种名称。本发明的具体实施方式可以有效地从科技文献中识别中文物种名称。附图说明
[0018] 图1:本发明用于在文档中识别中文物种名称的具体实施方式示意图。
[0019] 图2:本发明用于在文档中识别中文物种名称的系统构成示意图。
[0020] 图3:本发明用于在文档中识别中文物种名称的计算机设备结构框架图。具体实施方式:
[0021] 为了对本发明实施例的特征和优点进行详细说明,将参照附图1、2、3,对本发明的实质性内容进行更进一步的描述,但并不以此来限定本发明。
[0022] 实施例1:
[0023] 本发明的一种在文档中识别中文生物物种中文名称的系统,如图2所示,该系统包括下述装置:
[0024] 接收装置,用于接收包括生物物种名称的文档;
[0025] 识别装置一,用于识别所述文档中的中文物种名称字段;
[0026] 识别装置二,用于识别所述文档中的非物种名称片段;
[0027] 合并装置,用于基于所识别的中文物种名称字段向两端扩展以得到所述完整中文物种名称。
[0028] 以上所有装置的实施过程,各个步骤可以以任何顺序或者同时执行,除非从上下文能够清楚判断某个步骤的实施必须依赖于上一个步骤。此外,步骤之间可以有时间间隔。
[0029] 图1示出了本发明用于在文档中识别中文物种拉丁学名的具体实施方式。
[0030] 在步骤101中接收包括中文物种名称的文档。该文档可以是各种文件格式。比如可以是纯文本txt文件,也可以是word文件、pdf文件、XML文件、excel文件、扫描图片等。对于不是纯文本格式的文档,可以对该文档进行预处理以形成纯文本文件。
[0031] 在步骤102中,识别所述文档中的中文物种名称字段,其中所述中文物种名称是指用于生物学领域中文物种命名的各种科学名称、俗称。如杜鹃、白花杜鹃、大白花杜鹃、杜鹃花叶山茶等。
[0032] 识别文档中的中文物种名称字段、辅助词字段和种下等级加词字段可以通过与事先建立起来的中文物种名称字典、辅助词字典和种下等级加词字典进行精确和模糊匹配,当然本领域技术人员也可以基于本申请考虑到其它任何适合的识别方式。其中,可以从已有的生物学领域中文物种名录生成中文物种名称字典。
[0033] 图3示意性的呈现了可以实现本发明的计算机系统结构框架图。图3中所示的计算机系统包括CPU(中央处理器)、RAM(随机存取存储器)、ROM(只读存储器)、系统总线硬盘控制器键盘控制器、串行接口控制器、并行接口控制器、显示器控制器、硬盘、键盘、串行外部设备、并行外部设备和显示器。在这些部件中,与系统总线相连的有CPU、RAM、ROM、硬盘控制器、键盘控制器,串行接口控制器,并行接口控制器和显示器控制器。硬盘与硬盘控制器相连,键盘与键盘控制器相连,串行外部设备与串行接口控制器相连,并行外部设备与并行接口控制器相连,以及显示器与显示器控制器相连。
[0034] 本发明的流程图或者流程图中的每个框图步骤都可以由计算机程序实现。用于执行本发明的操作的计算机程序,可以以一种或多种程序设计语言的任何组合来编写,所述程序设计语言包括面向对象的程序设计语言—例如Java、C++之类,还包括常规的过程式程序设计语言—例如”C”语言、Fortran语言或类似的程序设计语言。计算机程序可以完全地或部分的在用户个人计算上执行、也可作为一个独立的软件包运行、也可在个人移动设备上执行。
[0035] 图3中的流程图和流程图中的每个框图,揭示了按照本发明的系统、方法和计算机程序产品的可能实现的功能、体系架构和操作流程。在这点上,流程图或流程图中的每个框图可以代表一个模、程序段、或源代码的一部分,所述模块、程序段、或源代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行程序。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈