首页 / 专利库 / 人工智能 / 词性标注 / 一种专利文本自动分析的系统及方法

一种专利文本自动分析的系统及方法

阅读:447发布:2021-08-28

专利汇可以提供一种专利文本自动分析的系统及方法专利检索,专利查询,专利分析的服务。并且本 发明 提出一种 专利 文本自动分析的系统,包括专家知识处理器,本体处理器,语言 知识库 ,专家知识库,和本体知识库,所述专家知识处理器、本体处理器的工作关系是并列关系,所述专家知识库和本体知识库也为并列关系。本发明还提出一种专利文本自动分析的方法,借助语言知识库,利用专家知识处理器对专利 数据库 中的专利全文数据进行提取和结构化表示,生成专家知识库,并对专家知识库进行自动更新;借助语言知识库,利用本体处理器从专利数据库中的专利全文数据中提取本体、识别本体关系,生成本体知识库,并对本体知识库进行自动更新。,下面是一种专利文本自动分析的系统及方法专利的具体信息内容。

1.一种专利文本自动分析的系统,其特征在于,包括:
专家知识处理器,用于对专利数据库中的专利全文数据进行提取和结 构化表示,生成专家知识库,并对专家知识库进行自动更新;
本体处理器,用于从专利数据库中的专利全文数据中提取本体、识别 本体关系,生成本体知识库,并对本体知识库进行自动更新;
语言知识库,用于提供一个用户检索式的语言分析和它的正式语义表 示,协助专家知识处理器和本体处理器工作;
专家知识库,是解决技术问题的解决方案知识库,来源于许多文本文 档,主要来源于专利数据,经专家知识处理器处理后生成;
本体知识库,包含周围世界的一定知识,用不同知识领域的许多词语 以及这些词语的语义关系来表示,经本体处理器处理后生成;
所述专家知识处理器、本体处理器的工作关系是并列关系,所述专家 知识库和本体知识库也为并列关系。    
2.根据权利要求1所述的系统,其特征在于,所述专家知识处理器 包括:
预处理器,用于进行词形识别和句子拆分;
词法处理器,用于标注出词性;
句法处理器,用于识别句法结构;
语义处理器,用于标注出各主要句法结构所表示的语义,从而得到标 注有复杂语言信息的专利文本;
自然语言合成器,用于生成一个结构化的知识条目,将其导入到专家 知识库,并建立或更新语义索引。
3.根据权利要求2所述的系统,其特征在于,所述语义索引是基于主 词-动词-参数-对象(SVPO)格式的。
4.根据权利要求1所述的系统,其特征在于,所述本体处理器包括:
预处理器,用于进行词形识别和句子拆分;
本体识别器,用于提取本体;
关系识别器,用于识别本体关系;
本体更新器,用于将本体导入本体论知识库,并对本体论知识库进行 自动更新。
5.根据权利要求1所述的系统,其特征在于,所述本体更新器还能 够实现对所获取本体在本体论知识库中的检测和定位
6.根据权利要求1所述的系统,其特征在于,所述词语的语义关系 至少包括同义关系、种属关系和关联关系。
7.根据权利要求1所述的系统,其特征在于,所述专家知识库中的 解决方案,表示为主词-动词-参数-对象(SVPO)格式。
8.根据权利要求1所述的系统,其特征在于,所述语言知识库至少 包含分析的规则,词形还原词典,语言逻辑,和名词词组的分类,能够提 供进行专利文本的语言分析所需的词语知识和语言结构知识,而且能够提 供用户检索请求所对应的正式的语义表示。
9.根据权利要求1所述的系统,其特征在于,所述专利数据库是与语 种无关的数据库,贮存一定数量的专利文本。
10.根据权利要求1所述的系统,其特征在于,所述专利数据库是专 利全文数据库或专利权利要求书数据库。
11.一种专利文本自动分析的方法,其特征在于,包括以下步骤:
借助语言知识库,利用专家知识处理器对专利数据库中的专利全文数 据进行提取和结构化表示,生成专家知识库,并对专家知识库进行自动更 新;
借助语言知识库,利用本体处理器从专利数据库中的专利全文数据中 提取本体、识别本体关系,生成本体知识库,并对本体知识库进行自动更 新。
12.根据权利要求11所述的方法,其特征在于,所述获取专家知识 库步骤包括:
预处理器进行词形识别和句子拆分;
词法处理器标注出词性;
句法处理器识别句法结构;
语义处理器标注出各主要句法结构所表示的语义,从而得到标注有复 杂语言信息的专利文本;
自然语言合成器生成一个结构化的知识条目,将其导入到专家知识 库,并建立或更新语义索引。
13.根据权利要求12所述的方法,其特征在于,所述语义索引是基于 主词-动词-参数-对象(SVPO)格式的。
14.根据权利要求11所述的方法,其特征在于,所述获取本体知识 库步骤包括:
预处理器进行词形识别和句子拆分;
本体识别器提取本体;
关系识别器识别本体关系;
本体更新器对本体论知识库进行自动更新。
15.根据权利要求11所述的方法,其特征在于,所述本体更新器还 能够实现对所获取本体在本体论知识库中的检测和定位。
16.根据权利要求11所述的方法,其特征在于,所述专家知识库中 的解决方案,表示为主词-动词-参数-对象(SVPO)格式。
17.根据权利要求11所述的方法,其特征在于,所述语言知识库至 少包含分析的规则,词形还原词典,语言逻辑,和名词词组的分类,能够 提供进行专利文本的语言分析所需的词语知识和语言结构知识,而且能够 提供用户检索请求所对应的正式的语义表示。
18.根据权利要求11所述的方法,其特征在于,所述专利数据库是 与语种无关的数据库,贮存一定数量的专利文本。
19.根据权利要求11所述的方法,其特征在于,所述专利数据库是 专利全文数据库或专利权利要求书数据库。

说明书全文

技术领域

发明涉及一种对专利文本(特别是发明专利申请及授权公开文本) 进行自动分析的系统和方法,能够用于改善用户查询效果。

背景技术

专利法所称的发明,是指对产品、方法或者其改进所提出的新的技术 方案。由于具有一定的法律文件特性,专利文献体现出形式规范、语言严 谨的语言特点,而其冗长的篇幅、繁复的格大大降低了专利的可理解性 和知识共享效能。利用自然语言技术对专利进行处理,能够起到提高专利 使用效率、提升专利使用效能的作用。
专利文本的格式与书写方法比较统一和固定,用语也较为规范。专利 文献中经常包含一些固定句型,这些句型模板适合机器的自动处理。而专 利用语的规范性使得在专利中进行知识发现成为可能。
已有的专利文本分析技术包括:专利文本翻译、专利信息抽取、专利 分类与聚类、专利自动文摘、专利生成、专利价值评估以及提高专利可读 性等。目前以上技术多处于实验阶段,尚未有成熟的商用产品产生。
中国专利公告号CN99813079,发明名称为“具有知识生成能的文档 语义分析选择”的申请公开了一种基于计算机的软件系统和方法,用于在 语义上处理用户输入的自然语言请求,以识别和存储语言的主语-动作- 宾语(SAO)结构,采用这个结构作为关键词/短语来搜索本地和基于 万维网数据库,以便下载候选自然语言文档,将候选文档文本在语义上 处理为候选文档SAO结构,并只选择和存储其SAO结构包括与所存储 的请求SAO结构的匹配的相关文档。进一步的特征包括分析在相关文档 SAO结构之间的关系,并根据这种关系生成可以产生新的知识概念和思 想以供显示给用户的新的SAO结构,并根据相关文档SAO结构产生和 显示自然语言概要。虽然其提出的文档SAO表示法简化了文档表示,有 利于提高文档查准率并能利用SAO自动生成文档概要,但其不足之处是 匹配法使得查全率无法保证。
中国专利申请号为200410078337.0,发明名称为“使用本体论和用户 查询处理技术解决问题的方法”的申请公开了一种在语义处理中,基 于本体论方法对知识/数据进行表示和处理,从而解决技术问题的一种系 统、方法和计算机程序。语义处理模块的基本部件包括一个语义知识库、 一个本体论知识库,和/或一个专家知识库。所述方法包括存贮一个结构 化描述的或者半结构化描述的用户检索式,对非结构化的检索式进行语义 分析形成检索式的一种正式语义表示式,对正式的语义检索式进行语义扩 展,扩展后的检索式用于在专家知识库中查找相关的解决方案,并且根据 语义关系对找到的解决方案进行分类。虽然所述的系统能够实现对用户查 询请求的解析和查询扩展,给出的查询结果能够较大限度地满足用户的需 求。但其仍存在不足之处:所述的专家知识库、本体论知识库作为核心计 算资源,其构建如果依靠人工方式,将是异常复杂和繁难的,包含巨量工 作,管理和维护也是一大问题。

发明内容

本发明的目的是提供一种专利文本自动分析的系统和方法,所述系统 和方法旨在利用自然语言处理技术对专利全文数据进行处理,提供专家知 识库、本体论知识库所需的数据知识,尽可能降低专家知识库、本体论知 识库的获得成本和维护成本。
本发明提出一种对专利文本(尤指发明专利)进行自动分析的系统, 主要包括一个语言处理系统,这个系统的基本部件包括一个语言知识库1、 一个专家知识库2、一个本体论知识库3、一个专家知识处理器10、一个本 体处理器11。本发明能够基于专利数据获取两大特定知识库即专家知识库 2、本体论知识库3,从而为解决(但不限于)发明问题或者用户的技术问 题提供知识层面的支撑,实现对专利数据库8中的专利全文进行处理。
所述语言知识库1能够提供一个用户检索式的语言分析和它的正式语 义表示,即由“Verb(动词)-Parameter(参数)-Object(对象)(VPO)”所 体现的技术问题解决方式。所述的语言知识库1可以包含,但不限于分析 的规则,词形还原词典,语言逻辑,和名词词组的分类,能够提供进行专 利文本的语言分析所需的词语知识和语言结构知识,且能够提供用户检索 请求所对应的正式的语义表示。专利文本的格式与书写方法比较统一和固 定,用语也较为规范。专利文本中经常包含一些固定句型,如“本发明的 目的是X”,“权利要求N所述的X,其特征是Y”,其中X、Y可以是任意词 语或句子,N是任意数词组合。这些句型模板适合机器的自动处理,是构 成语言知识库1的重要组成部分。
所述专家知识库2是指是为解决技术问题的解决方案知识库,它来源 于许多文本文档,主要来源于专利数据,经专家知识处理器10处理后生成。 专家知识库2中的解决方案,可表示为SVPO(主词-动词-参数-对象)格式, 其中S是主词,或者说是vpo所定义的技术功能的解决方案。
所述本体论知识库3包含周围世界的一定知识,用不同知识领域的许 多词语(概念和动词)以及这些词语的语义关系来表示,例如:同义关系、 种属关系(也叫分层关系)、关联关系。
所述专家知识处理器10、本体处理器11同为语言处理器系统的组成部 分,其工作关系是并列关系。
所述专家知识处理器10是一种提取专利核心内容,进而建立结构化 的专家知识库2的装置,专家知识库2作为技术问题解决方案的载体,为 应用层的知识使用提供数据资源支撑。所述专家知识处理器10包括预处 理器,用于进行词形识别和句子拆分;词法处理器,用于标注出词性;句 法处理器,用于识别句法结构;语义处理器,用于标注出各主要句法结构 所表示的语义,从而得到标注有复杂语言信息的专利文本;自然语言合成 器,用于生成一个结构化的知识条目,将其导入到专家知识库,并建立/ 更新基于SVPO的语义索引。专家知识处理器10的功能是对专利全文数据 进行提取和结构化表示,从而得到所需的专家知识库2。
所述专家知识处理器10的工作过程可表述如下:对于专利数据库8中 的一篇专利文本,在语言知识库1的指导下,经过专家知识处理器10中的 预处理器12、词法处理器13、句法处理器14、语义处理器15,得到标注有 复杂语言信息的专利文本,进而,通过自然语言合成器16,生成所需的解 决方案知识库,导入到专家知识库2,并建立/更新基于SVPO的语义索引。
所述本体处理器11是一种自动识别知识本体及本体间关系,并实现 动态更新本体论知识库3的装置,本体论知识库3为应用层的语义扩展和 知识组织提供支持。所述本体处理器11包括预处理器,用于进行词形识 别和句子拆分;本体识别器,用于提取本体;关系识别器,用于识别本体 关系;本体更新器,用于对本体论知识库进行自动更新。本体处理器11 的功能是从专利全文数据中提取本体、识别本体关系,并对本体论知识库 3进行自动更新。
所述本体处理器11的工作过程可表述如下:对于专利数据库8中的 一篇专利文本,在语言知识库1的指导下,经过本体处理器11中的预处 理器17、本体识别器18、关系识别器19,得到该文本所包含的本体(概 念和动词)和文本内的本体间关系,经由本体更新器20,将本体导入本体 论知识库3。本体更新器20将实现对所获取本体在本体论知识库中的检测 和定位
所述专利数据库8可以是语种无关的数据库,贮存一定数量的专利文 本。它可以是专利全文数据库,也可以是专利权利要求书数据库。在语种 方面,既可以是英文专利,也可以是中文专利。
本发明提出一种对专利文本(尤指发明专利)进行自动分析的方法, 包括:
借助语言知识库,利用专家知识处理器对专利数据库中的专利全文数 据进行提取和结构化表示,生成专家知识库,并对专家知识库进行自动更 新;
借助语言知识库,利用本体处理器从专利数据库中的专利全文数据中 提取本体、识别本体关系,生成本体知识库,并对本体知识库进行自动更 新。
所述获取专家知识库步骤包括:预处理器进行词形识别和句子拆分; 词法处理器标注出词性;句法处理器识别句法结构;语义处理器标注出各 主要句法结构所表示的语义,从而得到标注有复杂语言信息的专利文本; 自然语言合成器生成一个结构化的知识条目,将其导入到专家知识库,并 建立或更新语义索引。所述语义索引是基于主词-动词-参数-对象(SVPO) 格式的。所述专家知识库中的解决方案,表示为主词-动词-参数-对象 (SVPO)格式。
所述获取本体知识库步骤包括:预处理器进行词形识别和句子拆分; 本体识别器提取本体;关系识别器识别本体关系;本体更新器对本体论知 识库进行自动更新。所述本体更新器还能够实现对所获取本体在本体论知 识库中的检测和定位。
所述语言知识库至少包含分析的规则,词形还原词典,语言逻辑,和 名词词组的分类,能够提供进行专利文本的语言分析所需的词语知识和语 言结构知识,而且能够提供用户检索请求所对应的正式的语义表示。
所述专利数据库是与语种无关的数据库,贮存一定数量的专利文本。 是专利全文数据库或专利权利要求书数据库。
应用本发明所述技术方案,可以实现:
1)对专利文本的自动提取,辅助生成专家知识库(解决方案);
2)自动识别专利中出现的本体和技术术语,确定本体和术语之间的 关系类型,并实现对本体论知识库的动态更新。
3)基于1)所建立的专家知识库、2)所获得的本体论知识库,可以 为实现智能解决方案搜索等重要应用提供支撑。
附图说明
图1表示根据本发明的一个实施例,语言处理器系统的模块工作关系 图;
图2表示根据本发明的一个实施例,专家知识库的一个例子片段
图3表示根据本发明的一个实施例,本体论知识库的一个例子片段;
图4表示根据本发明实施成果的一种典型应用即知识检索的主要流程 图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明进一步详细说明。
本发明的一个实施例提供了一种基于专利数据库的知识获取系统和 方法。在一个实施例中,语言处理器系统提供为发现精确和完全解决方案 而采用的搜索技术所需的专家知识库2和本体论知识库3。
图1是根据本发明的一个实施例,提供实现精确和完全搜索技术所需 的专家知识库2和本体论知识库3。如图1所示,专家知识处理器10接收 来自专利数据库8中的一篇专利文本,借助语言知识库1,用预处理器12 对其进行词形识别和句子拆分,接着用词法处理器13标注出词性,接着 使用句法处理器14识别句法结构,以此为基础,使用语义处理器15标注 出各主要句法结构所表示的语义,从而得到标注有复杂语言信息的专利文 本,进而,通过自然语言合成器16,生成一个结构化的知识条目,即所需 的解决方案知识,将其导入到专家知识库2,并建立/更新基于SVPO的语 义索引。
在一个实施例中,专利数据库8贮存一定数量的专利文本。每篇专利 文本均具备特定的结构,以美国专利为例,包括“Title”、“Abstract”、“Issue Date”、“Claims”等必须内容和字样。此外,本发明所述的专利数据库8 要求每篇专利文本具有较高代表性并在所属技术领域和/或解决方案上彼 此不同。
在一个实施例中,语言知识库可以包含,分析的规则,词形还原词典, 语言逻辑,和名词词组的分类,能够提供进行专利文本的语言分析所需的 词语知识和语言结构知识。以专利文本作为分析对象的语言结构知识,是 对专利特有语言逻辑和表达方式的描述,例如:“本发明的目的是X”, “权利要求N所述的X,其特征是Y”,其中X、Y可以是任意词语或句 子,N是任意数词组合。语言知识库为专利文本处理提供支撑。
图2所示的是专家知识库2的一个片段/示例,体现了专家知识库2 的结构和内容。一个知识条目的生成,即为专家知识处理器的处理过程。
专家知识库2中的每个知识条目均代表一个解决方案。研究表明,大 多数发明都可以表示为一种称为“技术功能”的格式,也就是VPO格式, 它表示了一个问题的正式特性。作为对该知识条目的语义表达,每个解决 方案都是用一个自然语言的句子表示,包括四个字段,对应着“SVPO”的 基本功能。S表示问题的一个解决方案,问题有VPO表示,其中V表示动 词,P表示参数,O表示对象。如图2所示的知识条目“Calcium sulfate prevents absorption of fat”,其SVPO表示为:
SVPO:S(Calcium sulfate)V(prevent)P(absorption)O (fat)。
图3所示的是本体论知识库3的一个片段,体现了本体论知识库3的 结构和内容。本体论知识库可以是不同知识领域的词语分层数据库,在此 所用的“词语”表示一个概念。本体论知识库的词语之间的关系,包括三 种,分别是同义关系、种属关系和关联关系。
同义关系是指在给定的上下文中表示相同含义的或者两个词法结构之 间的语义关系,包括直接同义词,如“clear”、“rectify”、“purify”、 “refine”等,也包括句法同义词,为表示相同(或相近)含义的不同的 句法结构,如“dehydrate”、“decrease relative humidity”等。
种属关系,亦称父类关系/子类关系,指给定一组概念的父类概念/子类 概念的两个词或者两个词法结构之间的语义关系。如: “water->channel”、“water->bay”、“physical thing->water”等。
关联关系,指彼此之间具有关联关系的两个词或者两个词法结构之间的 语义关系。具有关联关系的两个词或者词法结构,具有相同的父类关系, 是同一父类概念下的子类概念,如“channel<->bay”。
在一个实施例中,在本体处理器11中,从一篇专利文本中提取到的本体 和关系将提交给本体更新器20,由该模块实现对新本体和关系、已有本体、 关系之间的对比,从而完成本体论知识库的更新。具体地,若从一篇专利 文本中获取到两个本体“territorial waters”和“waterfall”,本体 更新器20将对二本体是否已存在于本体库进行判断,并将其定位到本体库 中,定位后即可获知各自的上位词、同义词,如“territorial waters”、 “waterfall”的上位词都是“water”,“waterfall”的同义词是“falls”。
本发明的一个实施例所得到的成果,即所述专家知识库2和本体论知 识库3,应用于知识检索的流程图,如图4所示。
图4表示根据本发明实施成果的一种典型应用即知识检索的主要流 程图,是用于解决发明问题和用户技术问题的语言处理模块的结构和功能 框图,体现出专家知识库2、本体论知识库3的一种典型应用。
在一个实施例中,语言知识库可以包含,分析的规则,词形还原词典, 语言逻辑,和名词词组的分类,能够提供进行专利文本的语言分析所需的 词语知识和语言结构知识,且能够提供用户检索请求所对应的正式的语义 表示。在语言知识库1的帮助下,能够提供用户检索请求所对应的正式的 语义表示-verb(动词)-parameter(参数)-object(对象)(vpo); 在本体论知识库3的帮助下,能够完成对用户检索式的解析和语义扩展, 并对检索到的解决方案进行分类;在专家知识库2的帮助下,能够确定特 定检索式的解决方案。在一个实施例中,图4所示的针对用户请求的语言 处理模块的输出是根据语义排列的这些解决方案。
下面是图4所示的对用户检索式的处理过程:
例如检索式:How to measure thickness of ice
结构化形式:V(measure)P(thickness)O(ice)
一个经过分析的用户检索式可以是VPO结构,如上例。该结构会被提交 给检索扩充模块,使用本体论的分层结构完成语义扩展,以使尽可能多地 检索到与问题相关的解决方案。
VPO的检索式使用任何可变的方式进行扩展。相应地要进行如下扩展:
同义词扩展(对动词、参数和对象进行扩展);
种属扩展(上下为扩展,只对对象进行扩展);和/或
关联扩展(只对对象进行扩展)
同义词扩展时,用户检索式的每个词都被同义词替代,如上例:
结构化形式:V(measure)P(thickness)O(ice)
输出(同义词扩展):
V(measure,detect,gage,gauge,log,measure out,meter,quantify, register)
P(没有同义词)
O(water ice)
种属扩展是把检索式中的术语用术语的分层关系来替代。有两种种属扩 展,一种是自底向上(由特例到通用),如
结构化形式:V(measure)P(thickness)O(ice)
输出(种属扩展之自底向上,只对对象进行父关系扩展):
O(dimension)
另一种扩展是自顶向下(由通用到特例),如
结构化形式:V(measure)P(thickness)O(ice)
输出(种属扩展之自底向上,只对对象进行子关系扩展):
O(half thickness,half-value thickness,half-thickness)
种属检索可以检索到更特例、更通用或者更多相关的解决方案。
关联关系是把检索词用关联关系来替代。如:
例如检索式:How to measure thickness of ice
结构化形式:V(measure)P(thickness)O(ice)
输出(只将对象O进行关联扩展)
O(creaminess,soupiness,critical thickness,……)
对解决方案检索的目标是根据扩展后的检索式在专家知识库2中查找解 决方案,并根据查找的结果罗列解决方案,搜索引擎比较专家知识库2中 的VPO字段和扩展后的检索式。这些字段的对应关系将检索出相关的解决 方案。由于这些结果的性质,需要根据语义关系对其进行分类,结果为:
(1)精确方案:这些解决方案的VO/VPO字段与检索式初始形成的VO/VPO 完全吻合。
例如:V(heat)O(water)
解决方案:S(coil)V(increase)P(temperature)O(water)
(2)特例方案:这些解决方案的VO/VPO字段中的至少一个是检索式中 相关字段的一个特例。
例如:V(measure)P(thickness)O(ice)
解决方案:S(ultrasonic probe)V(measure)P(thickness)O(frost)
(3)通用方案:
例如:V(neutralize)O(hydrochloric acid)
解决方案:S(alkali)V(neutralize)O(acid)
(4)类比方案:
例如:V(neutralize)O(hydrochloric acid)
解决方案:S(alkali)V(neutralize)O(nitric acid)
在上面的例子中,S代表“主题词”或问题的解决思路。
本发明所述的实施例都是本发明实施时的一种特殊情况,本发明的保护 范围不仅限于此。
本发明所述的处理、计算、判定等等都是对数据的一种操作和转换。
本发明的实施例包括完成这些操作的设备。
尽管上面描述了本发明的一些实施例,但应该理解的是这些实施例都是 本发明实施的一些具体例子,不应该是本发明保护范围的限制。本发明的 保护范围不应由说明书的描述所限定,而应该由权利要求书和它们的等效 物限定。本领域的熟练技术人员根据上述的描述和说明对本发明实施例所 做的改动,都应该本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈