首页 / 专利库 / 人工智能 / 词性标注 / 非命名实体对象抽取方法、装置、电子设备及存储介质

命名实体对象抽取方法、装置、电子设备及存储介质

阅读:627发布:2020-05-13

专利汇可以提供命名实体对象抽取方法、装置、电子设备及存储介质专利检索,专利查询,专利分析的服务。并且本 申请 提供一种非 命名实体 对象 抽取 方法、装置、 电子 设备及存储介质。该方法包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行 词性标注 ,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。本申请 实施例 通过综合词性标注、依存句法分析和命名实体的识别模型来对非命名实体对象进行识别,提高了识别的准确性。,下面是命名实体对象抽取方法、装置、电子设备及存储介质专利的具体信息内容。

1.一种非命名实体对象抽取方法,其特征在于,包括:
获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行分词处理,包括:
利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐尔可夫模型进行训练获得。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息,包括:
从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数;
根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息;
根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率;
将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个特征词进行依存句法分析,包括:
利用Stanford coreNLP对所述多个特征词进行依存句法分析。
5.根据权利要求1所述的方法,其特征在于,在利用命名实体识别模型对多个特征词进行分析之前,所述方法还包括:
获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;
利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。
6.根据权利要求1所述的方法,其特征在于,所述利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词,包括:
利用命名实体识别模型从多个特征词中获得命名实体对应的特征词;
将所述命名实体对应的特征词删除,获得所述初选特征词。
7.根据权利要求1所述的方法,其特征在于,所述根据所述初选特征词的词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词,包括:
根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:
将所述初选特征词中的非名词剔除,获得剔除后初选特征词;
从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。
8.一种非命名实体对象抽取装置,其特征在于,包括:
文本获取模,用于获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
词性标注模块,用于对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
关系分析模块,用于对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
实体分析模块,用于利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
目标词确定模块,用于根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。

说明书全文

命名实体对象抽取方法、装置、电子设备及存储介质

技术领域

[0001] 本申请涉及对象抽取技术领域,具体而言,涉及一种非命名实体对象抽取方法、装置、电子设备及存储介质。

背景技术

[0002] 在现在大数据技术和计算机基础得到高速提升的背景下,人工智能(Artificial Intelligence,AI)被推上了技术顶峰,而AI中桂冠则是自然语言处理(natural language processing,NLP),在NLP任务有一项特别的任务称作命名实体识别(Named Entity Recognition,NER),主要是从一段句子中抽取涉及命名实体,如:人名、地名、组织机构名等。这些命名实体之所以可以抽取出来,终其原因是由于这些名词有很高的内聚性,而和上下文的关联性并不是太强。
[0003] 目前在工业界针对抽取非命名实体的抽取,只是将命名实体抽取的方法直接借鉴过来,无论其模型是通过统计学判定、词性标注还是通过神经网络,共同原始依然是根据互信息来判断当前词是否为待抽取的实体。这种非命名实体抽取的方式抽取结果不够准确。发明内容
[0004] 本申请实施例的目的在于提供一种非命名实体对象抽取方法、装置、电子设备及存储介质,用以解决现有技术中对非命名实体抽取不够准确的问题。
[0005] 第一方面,本申请实施提供一种非命名实体对象抽取方法,包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0006] 本申请实施例通过综合词性标注、依存句法分析和命名实体的识别模型来对非命名实体对象进行识别,提高了识别的准确性。
[0007] 进一步地,所述对所述待处理文本进行分词处理,包括:利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐尔可夫模型进行训练获得。本申请实施例通过利用隐马尔科夫模型训练获得的分词模型对待处理文本进行分词,能够获得准确的分词。
[0008] 进一步地,所述对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息,包括:从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数;根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息;根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率;将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。本申请实施例通过预先对每个特征词进行词性标注,然后根据词性信息构建路径,从构建的多条路径中选择最优的目标路径,从而提高了词性标注的准确性,进而提高了对非命名实体识别的准确性。
[0009] 进一步地,所述对所述多个特征词进行依存句法分析,包括:利用Stanford coreNLP对所述多个特征词进行依存句法分析。本申请实施例通过Stanford coreNLP获得了各个特征词之间的依存关系。
[0010] 进一步地,在利用命名实体识别模型对多个特征词进行分析之前,所述方法还包括:获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。本申请实施例通过构建命名实体识别模型可以准确地从多个特征词中识别命名实体,进而可以获得非命名实体。
[0011] 进一步地,所述利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词,包括:利用命名实体识别模型从多个特征词中获得命名实体对应的特征词;将所述命名实体对应的特征词删除,获得所述初选特征词。本申请实施例通过删除确定为命名实体的特征词,缩小了非命名实体对象的识别范围。
[0012] 进一步地,所述根据所述初选特征词的词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词,包括:根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:将所述初选特征词中的非名词剔除,获得剔除后初选特征词;从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。本申请实施例通过预设规则从初选特征中再次筛选获得非命名实体对象,提高了非命名实体对象的识别准确性。
[0013] 另一方面,本申请实施例提供一种非命名实体对象抽取装置,包括:
[0014] 文本获取模,用于获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
[0015] 词性标注模块,用于对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
[0016] 关系分析模块,用于对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
[0017] 实体分析模块,用于利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
[0018] 目标词确定模块,用于根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0019] 第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,[0020] 所述处理器和所述存储器通过所述总线完成相互间的通信;
[0021] 所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
[0022] 第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:
[0023] 所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
[0024] 本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

[0025] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0026] 图1为本申请实施例提供一种非命名实体对象抽取方法流程示意图;
[0027] 图2为本申请实施例提供一种词性标注的流程示意图;
[0028] 图3为本申请实施例提供的装置结构示意图;
[0029] 图4为本申请实施例提供的电子设备实体结构示意图。

具体实施方式

[0030] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0031] 命名实体(named entity)所谓的命名实体就是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。所谓非命名实体首先是一种实体,在自然语言中实体是指一种有别与其他词的可独立存在的对象,该对象一般是以名词形式表示,在实体中所谓非命名实体指的是除命名实体(人名、地名、组织结构名等)之外,且合乎具体业务需求的实体,该需求依业务不同和发生变化。如:美白、暗黄、熬夜、补等词。
[0032] 命名实体的判断准则是判断词与词之间的互信息(一个词中包含另一个词的信息量是多少),即如果前一个字是“蝙”,则下一个字有99%可能性是“蝠”。这种方法对于命名实体的识别是非常有效的。但是对于非命名实体,如抽取“美白”这个词,效果就不是非常好,因为在和“美”组成的词语中,如:“美好”、“美丽”、“美貌”、“美食”等等,“美白”只是其中一个中可能而已。如果采用抽取命名实体的方式抽取非命名实体,那么抽取的准确率较低。
[0033] 为解决上述问题,本申请实施例提供一种非命名实体对象抽取方法,如图1所示,该方法包括:
[0034] 步骤101:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;
[0035] 步骤102:对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;
[0036] 步骤103:对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;
[0037] 步骤104:利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;
[0038] 步骤105:根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0039] 下面针对上述步骤101-步骤105进行详细说明,应当说明的是,执行下述各方法实施例的执行主体为抽取装置,该抽取装置可以是台式电脑、笔记本电脑平板电脑、智能手机以及智能穿戴式电子设备等。
[0040] 在步骤101中,获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词。
[0041] 其中,待处理文本可以是一句中文句子,也可以是一段中文段落或一篇中文文章。为了能够更加准确、快速的对非命名实体对象进行抽取,若待处理文本为一段中文段落或一篇中文文章,那么可以将中文段落或文章划分成多个句子。在划分时,可以根据段落或文章中的句号进行划分。
[0042] 在划分成一个个句子之后,对每个句子进行分词处理,获得多个特征词。其中,中文分词是指将一个汉字序列切分成一个一个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。分词方法有多种,大致可以分为三大类,即基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。不同的分词方法对同一文本进行分词获得的结果可能不同。例如:待处理文本为:杭州西湖景很好,是旅游胜地!基于统计的分词方法分词后获得的结果可以为:杭州|西湖|风景|很|好||是|旅游|胜地|!基于理解的分词方法对应的分词结果为:杭州|西湖|风景|很|好|,|是|旅游胜地|!每个特征词通过“|”进行分割。
[0043] 在步骤102中,对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息。
[0044] 词性是词汇基本的语法属性,词性标注,又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。词性标注的方法可以分为基于规则和基于统计的方法,例如:基于最大熵的词性标注、基于统计最大概率输出词性和基于隐马尔可夫模型(Hidden Markov Model,HMM)。
[0045] 可以理解的是,一个特征词可能有多个词性,例如:“一把青菜”中的“把”有三个词性,即名词、动词和习用词(尚未成为成语)。但是在其对应的句子中,只有一个词性,因此,通过词性标注可以确定每个特征词对应的目标词性信息。
[0046] 在步骤103中,对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系。
[0047] 其中,句法分析是确定句子的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给予形式化的定义;另一方面是句法分析技术,即根据给定的句法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系。
[0048] 依存句法通过分析语言单位内成分之前的依存关系解释其句法结构,主张句子中核心动词是支配其他成分的中心成分。而它却不受其他任何成分的支配,所有受支配成分都以某种关系从属于支配者。
[0049] 通过依存句法分析,可以获得每个特征词与上下文的关系。可以理解的是,上下文是指该特征词与其他特征词之间的关系,例如:主谓关系、动宾关系、间宾关系、定中关系、状中结构、并列关系等等。可以理解的是,可以采用Stanford coreNLP工具对多个特征词进行依存句法分析。
[0050] 在步骤104中,利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词。
[0051] 其中,命名实体识别模型可以从待处理文本中识别出命名性指称项。狭义上,是识别出人名、地名和组织机构名这三类命名实体。当然,在特定领域中,会相应地定义领域内的各种实体类型。命名实体识别的方法有多种,例如:基于规则的方法、基于特征模板的方法、基于神经网络的方法等,命名实体识别模型可以基于上述方法构建。
[0052] 应当说明的是,在利用命名实体识别模型对多个特征词进行分析后,可以从待处理文本中抽取命名实体,并将剩下的特征词作为非命名实体的初选特征词。
[0053] 在步骤105中,根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0054] 其中,在获得初选特征词之后,初选特征词中可能包含一些既不属于命名实体的特征词,又不属于非命名实体的特征词,因此,需要根据初选特征词的目标词性信息以及初选特征词与上下文的关系进一步筛选,获得目标特征词。
[0055] 本申请实施例通过综合词性标注、依存句法分析和命名实体的识别模型来对非命名实体对象进行识别,提高了识别的准确性。
[0056] 在上述实施例的基础上,所述对所述待处理文本进行分词处理,包括:
[0057] 利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐马尔可夫模型进行训练获得。
[0058] 在具体的实施过程中,在隐马尔可夫模型中,我们不知道模型经过的状态序列,只知道状态的概率函数,即,观察到的事件是状态的随机函数,因此,该模型是一个双重的随机过程。其中,模型的状态转换过程是不可观察的,即隐蔽的,可观察事件的随机过程是隐蔽的观察状态转换过程的随机函数。隐马尔可夫模型可以用五个元素来描述,包括2个状态集合和三个概率矩阵:
[0059] (1)隐含状态S
[0060] 这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到,(例如S1,S2,S3等等)。
[0061] (2)可观测状态O
[0062] 在模型中与隐含状态相关联,可通过直接观测而得到。(例如O1,O2,O3等等,可观测状态的数目不一定要和隐含状态的数目一致。
[0063] (3)初始状态概率矩阵π
[0064] 表示隐含状态在初始时刻t=1的概率矩阵,(例如t=1时,P(S1)=p1,P(S2)=P2,P(S3)=p3,则初始状态概率矩阵π=[p1 p2 p3]。
[0065] (4)隐含状态转移概率矩阵A
[0066] 描述了HMM模型中各个状态之间的转移概率。其中Aij=P(Sj|Si),1≤i,j≤N,表示在t时刻、状态为Si的条件下,在t+1时刻状态是Sj的概率。
[0067] (5)观测状态转移概率矩阵B
[0068] 令N代表隐含状态数目,M代表可观测状态数目,则Bij=P(Oi|Sj),1≤i≤M,1≤j≤N表示在t时刻、隐含状态是sj条件下,观察状态为Oi的概率。
[0069] 在对隐马尔可夫模型进行训练时,可以采用四个隐含状态,分别为'S','B','M','E',分别表示为单字成词,词组的开头,词组的中间,词组的结尾。通过标注好的分词训练集,可以得到HMM的各个参数,然后使用维特比算法来解释测试集,得到分词结果。
[0070] 本申请实施例通过隐马尔可夫模型训练获得的分词模型对待处理文本进行分词,能够获得准确的分词。
[0071] 在上述实施例的基础上,本申请实施例提供一种词性标注的流程示意图,如图2所示,包括:
[0072] 步骤201:从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数。
[0073] 在具体的实施过程中,先从待标注的LOB语料库中选出来部分语料,叫做训练语料。其中,一个训练语料可以为一个句子,也可以是一段文字等。对训练语料中的每个语料逐词进行词性的人工标注,获得每个语料词对应的词性信息,以及该语料词被标记为对应词性信息的次数。
[0074] 在构建完成训练语料之后,可以从该训练语料中获取每个特征词分别对应的词性信息。例如:待处理文本为:一把青菜,分词后的特征词分别为:一|把|青菜,“一”对应的词性信息为处所词(s),“把”对应的词性信息为名词(n)、动词(v)和习用语(l),“青菜”对应的词性信息为名词(n)。
[0075] 步骤202:根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息。
[0076] 在具体的实施过程中,将多个特征词的词性信息进行排列组合,构成多条路径,接着上面的例子,可以构建三条路径,分别是:s-n-n;s-v-n;s-l-n,可以看出,每条路径都包括多个特征词分别对应的一个词性信息。
[0077] 步骤203:根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率。
[0078] 在具体的实施过程中,仍接着上述举例,第一条路径的概率计算公式为:P(s,n,n|一,把,青菜)=P(一|s)*P(把|n)*P(青菜|n),第二条路径的概率计算公式为:P(s,v,n|一,把,青菜)=P(一|s)*P(把|v)*P(青菜|n),第三条路径的概率计算公式为:P(s,l,n|一,把,青菜)=P(一|s)*P(把|l)*P(青菜|n)。
[0079] 其中:
[0080] 步骤204:将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。
[0081] 在具体的实施过程中,在计算获得每条路径对应的概率值后,将概率值最大的哪条路径作为目标路径,目标路径中每个特征词对应的词性信息为目标词性信息。
[0082] 本申请实施例通过根据各特征词的词性信息构建多条路径,然后从多条路径中选择一条概率值最大的,以获得每个特征词对应的目标词性信息,消除了兼类词歧义,提高了对词性标注的准确性。
[0083] 在上述实施例的基础上,在利用命名实体识别模型对多个特征词进行分析之前,所述方法还包括:
[0084] 获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;
[0085] 利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。
[0086] 在具体的实施过程中,预先收集多个属于命名实体的特征词,和多个属于非命名实体的特征词,应当说明的是,在收集特征词时,可以根据待处理文本所涉及的领域进行收集,尽量多的收集与待处理文本所处领域的命名实体和非命名实体。并且,属于命名实体的特征词的数量可以与非命名实体的特征词的数量相当,或者属于命名实体的特征词的数量占总特征词数量的2/3等。属于命名实体的特征词构成正样本,属于非命名实体的特征词构成了负样本。
[0087] 在训练时,将属于命名实体的特征词和属于非命名实体的特征词作为输入,输入到神经网络模型中,该神经网络模型输出对应输入的预测结果,利用预测结果和输入的特征词对应的标签(命名实体或非命名实体)对神经网络中的参数进行调整,最终获得训练完成的命名实体识别模型。
[0088] 在获得训练好的命名实体识别模型后,该命名实体识别模型能够较准确的抽取到属于命名实体的特征词。因此,可以利用该命名实体识别模型对待处理文本对应的多个特征词进行识别,获得多个属于命名实体的特征词。然后将属于命名实体的特征词删除处理,剩下的即为属于非命名实体的初选特征词。
[0089] 在上述实施例的基础上,所述根据所述初选特征词的词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词,包括:
[0090] 根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:
[0091] 将所述初选特征词中的非名词剔除,获得剔除后初选特征词;
[0092] 从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。
[0093] 在具体的实施过程中,由于初选特征词是通过命名实体识别模型抽取出命名实体后剩下的特征词,因此,初选特征词中可能包含有一些既不是命名实体,又不是非命名实体的特征词,例如:代词、连词等。因此,需要对初选特征词进行再次筛选。在筛选时,可以按照如下规则进行:
[0094] (1)非命名实体对应的特征词应当是名词,因此,将初选特征词中词性不是名词的特征词剔除;
[0095] (2)根据每个剔除后初选特征词与上下文的关系,将与主语存在定中结构或状中结构的特征词作为目标特征词,以及将与宾语存在定中结构或状中结构的特征词作为目标特征词。
[0096] 例如:“这款化妆品的美白效果真是好啊”,通过句法分析可以得到,“效果”和“美白”是补充关系,而两者都是对名词“化妆品”的形容词修饰关系,即“定中结构(ATT)”,所以可以将“美白”提取出来,作为目标特征词。
[0097] 应当说明的是,对于不同领域,不同场景,其对应的规则可能不同,例如:对词性的要求,对上下文关系的要求等,因此,可以根据实际需求对上述预设规则进行调整,本申请实施例不对预设规则的具体内容进行限定。
[0098] 本申请实施例通过将词性标注、依存句法分析和命名实体识别进行组合,提取和甄别自然语言中非命名实体,相较于目前直接使用命名实体识别方式判断,提高了抽取的精度
[0099] 图3为本申请实施例提供的装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括:文本获取模块301、词性标注模块302、关系分析模块303、实体分析模块304和目标词确定模块305,其中:
[0100] 文本获取模块301用于获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;词性标注模块302用于对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;关系分析模块303用于对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;实体分析模块304用于利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;目标词确定模块305用于根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0101] 在上述实施例的基础上,文本获取模块301具体用于:
[0102] 利用分词模型对所述待处理文本进行分词处理;其中,所述分词模型为通过已经分词的文本对隐马尔可夫模型进行训练获得。
[0103] 在上述实施例的基础上,词性标注模块302具体用于:
[0104] 从训练语料中获得每个特征词对应的至少一个词性信息;其中,所述训练语料中包括多个语料,以及每个语料中语料词对应的词性信息,以及所述语料词被标记为所述词性信息的次数;
[0105] 根据多个特征词分别对应的词性信息构建多条路径,其中,每条路径包括每个特征词的一个词性信息;
[0106] 根据每条路径中对应的每个特征词的词性信息,以及所述特征词被标记为所述词性的次数,计算所述路径的概率;
[0107] 将概率值最大的路径作为目标路径;其中,所述目标路径中每个特征词对应的词性信息为目标词性信息。
[0108] 在上述实施例的基础上,关系分析模块303具体用于:
[0109] 利用Stanford coreNLP对所述多个特征词进行依存句法分析。
[0110] 在上述实施例的基础上,该装置还包括模型训练模块,用于:
[0111] 获取训练集,所述训练集包括多个属于命名实体的特征词和多个属于非命名实体的特征词;
[0112] 利用属于命名实体的特征词和属于非命名实体的特征词对神经网络模型进行训练,获得所述命名实体识别模型。
[0113] 在上述实施例的基础上,实体分析模块304具体用于:
[0114] 利用命名实体识别模型从多个特征词中获得命名实体对应的特征词;
[0115] 将所述命名实体对应的特征词删除,获得所述初选特征词。
[0116] 在上述实施例的基础上,关系分析模块303具体用于:
[0117] 根据所述初选特征词、所述初选特征词的词性信息以及所述初选特征词与上下文的关系,利用预设规则从所述初选特征词中确定目标特征词;其中,所述预设规则包括:
[0118] 将所述初选特征词中的非名词剔除,获得剔除后初选特征词;
[0119] 从所述剔除后初选特征词中选择与主语存在定中结构或状中结构的特征词,以及选择与宾语存在定中结构或状中结构的特征词,获得目标特征词。
[0120] 综上所述,本申请实施例通过将词性标注、依存句法分析和命名实体识别进行组合,提取和甄别自然语言中非命名实体,相较于目前直接使用命名实体识别方式判断,提高了抽取的精度。
[0121] 图4为本申请实施例提供的电子设备实体结构示意图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;其中,
[0122] 所述处理器401和存储器402通过所述总线403完成相互间的通信;
[0123] 所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0124] 处理器401可以是一种集成电路芯片,具有信号处理能。上述处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0125] 存储器402可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
[0126] 本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0127] 本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待处理文本,并对所述待处理文本进行分词处理,获得多个特征词;对所述多个特征词进行词性标注,获得每个特征词对应的目标词性信息;对所述多个特征词进行依存句法分析,获得每个特征词与上下文的关系;利用命名实体识别模型对多个特征词进行分析,获得非命名实体的初选特征词;根据所述初选特征词的目标词性信息以及所述初选特征词与上下文的关系从所述初选特征词中确定目标特征词。
[0128] 在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0129] 另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0130] 再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0131] 在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0132] 以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈