首页 / 专利库 / 电脑零配件 / 计算机系统 / 软件 / 一种关系分类的方法和模型

一种关系分类的方法和模型

阅读:555发布:2023-05-26

专利汇可以提供一种关系分类的方法和模型专利检索,专利查询,专利分析的服务。并且本 申请 提供一种关系分类的方法和模型,该方法包括:获取待处理的输入文本;对输入文本进行预处理;获取训练好的分类模型,训练好的分类模型包括依次连接的特征工程模 块 、Bi-LSTM模型以及分类器;将目标实体以及输入文本的 基础 特征的向量化表示输入到分类模型中;通过特征工程模块确定输入文本的实体特征的向量化表示;实体特征的向量化表示包括目标实体的 位置 特征的向量化表示和基础特征的向量化表示;通过Bi-LSTM模型基于实体特征的向量化表示确定输入文本的高层特征的向量化表示;通过分类器基于高层特征的向量化表示得到目标实体之间的关系。该方法提高了关系分类的准确性。,下面是一种关系分类的方法和模型专利的具体信息内容。

1.一种关系分类的方法,其特征在于,包括:
获取待处理的输入文本;
对所述输入文本进行预处理,以确定所述输入文本中待确定关系的目标实体以及所述输入文本的基础特征的向量化表示;
获取训练好的分类模型,所述训练好的分类模型包括依次连接的特征工程模、Bi-LSTM模型以及分类器;
将所述目标实体以及所述输入文本的基础特征的向量化表示输入到所述训练好的分类模型中;
通过所述特征工程模块确定所述输入文本的实体特征的向量化表示;所述实体特征的向量化表示中包括所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示;
通过所述Bi-LSTM模型基于所述实体特征的向量化表示确定所述输入文本的高层特征的向量化表示;
通过所述分类器基于所述高层特征的向量化表示得到所述目标实体之间的关系。
2.根据权利要求1所述的方法,其特征在于,通过所述特征工程模块确定所述输入文本的实体特征的向量化表示,包括:
基于所述目标实体和所述输入文本的基础特征确定所述目标实体的位置特征;
将所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示组合,得到所述输入文本的实体特征的向量化表示。
3.根据权利要求1或2所述的方法,其特征在于,所述训练好的分类模型还包括:自注意制模块,在通过所述分类器基于所述高层特征的向量化表示得到所述目标实体之间的关系,所述方法还包括:
通过所述自注意力机制模块基于所述高层特征的向量化表示确定所述输入文本的句子级特征的向量化表示;
对应的,通过所述分类器基于所述高层特征的向量化表示得到所述目标实体之间的关系,包括:
通过分类器基于所述句子级特征的向量化表示得到所述目标实体之间的关系。
4.根据权利要求3所述的方法,其特征在于,通过所述自注意力机制模块基于所述高层特征的向量化表示确定所述输入文本的句子级特征的向量化表示,包括:
对所述高层特征的向量化表示进行多次自注意力计算,得到所述输入文本的句子级特征的向量化表示。
5.根据权利要求3所述的方法,其特征在于,在获取待处理的输入文本之前,所述方法还包括:
获取训练数据集;所述训练数据集中包括训练文本、所述训练文本中的样本实体、所述样本实体之间的标注关系、以及所述训练文本的基础特征的向量化表示;
获取特征工程模块,所述特征工程模块用于基于所述训练数据集确定所述训练文本的实体特征的向量化表示;所述实体特征的向量化表示中包括所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示;
基于所述训练文本的实体特征的向量化表示对初始的Bi-LSTM模型进行训练,得到训练好的用于确定所述训练文本的高层特征的向量化表示的Bi-LSTM模型;
获取自注意力机制模块,所述自注意力机制模块用于确定所述训练文本的句子级特征的向量化表示;
获取分类器,所述分类器用于基于所述句子级特征的向量化表示得到所述样本实体之间的关系;
依次连接所述特征工程模块、所述训练好的Bi-LSTM模型、所述自注意力机制模块以及所述分类器,得到所述训练好的分类模型并存储。
6.根据权利要求5所述的方法,其特征在于,获取训练数据集,包括:
获取训练文本;
对所述训练文本进行分词,得到分词结果;
根据所述分词结果确定所述训练文本的基础特征的向量化表示;
标注所述训练文本中的样本实体以及所述样本实体之间的关系;
根据所述训练文本、所述训练文本中的样本实体、所述样本实体之间的标注关系、以及所述训练文本的基础特征的向量化表示得到所述训练数据集。
7.一种关系分类的模型,其特征在于,包括:
特征工程模块,用于基于待处理的输入文本中待确定关系的目标实体以及所述输入文本的基础特征的向量化表示确定所述输入文本的实体特征的向量化表示;所述实体特征的向量化表示中包括所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示;
Bi-LSTM模型,用于基于所述实体特征的向量化表示确定所述输入文本的高层特征的向量化表示;
分类器,用于基于所述高层特征的向量化表示得到所述目标实体之间的关系。
8.根据权利要求7所述的模型,其特征在于,所述模型还包括:自注意力机制模块;
所述自注意力机制模块用于基于所述高层特征的向量化表示确定所述输入文本的句子级特征的向量化表示;
所述分类器还用于基于所述句子级特征的向量化表示得到所述目标实体之间的关系。
9.根据权利要求7或8所述的模型,其特征在于,
所述特征工程模块还用于:基于所述目标实体和所述输入文本的基础特征确定所述目标实体的位置特征;
将所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示组合,得到所述输入文本的实体特征的向量化表示。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-6任一所述的方法。

说明书全文

一种关系分类的方法和模型

技术领域

[0001] 本申请涉及计算机领域,具体而言,涉及一种关系分类的方法和模型。

背景技术

[0002] 关系分类指的是给定输入文本(如一个句子),指定输入文本中的两个实体(如两个词语),判断这两个实体之间是什么关系。因为关系集合已经预先定义好了,即关系在预先已经定义好了,所以这个任务实质上是一个分类任务,因此叫做关系分类。
[0003] 现有技术中,关系分类通过特征向量提取和分类器实现,但是现有的特征向量提取一般通过神经网络模型分析上下文关系等方式实现,这种特征提取方式所提取出的特征并不能全面的反映实体的特征,因此,依据该特征所进行的关系分类的准确度较低。发明内容
[0004] 本申请实施例的目的在于提供一种关系分类的方法和模型,用以提高关系分类的准确度。
[0005] 第一方面,本申请实施例提供一种关系分类的方法,包括:获取待处理的输入文本;对所述输入文本进行预处理,以确定所述输入文本中待确定关系的目标实体以及所述输入文本的基础特征的向量化表示;获取训练好的分类模型,所述训练好的分类模型包括依次连接的特征工程模、Bi-LSTM模型以及分类器;将所述目标实体以及所述输入文本的基础特征的向量化表示输入到所述训练好的分类模型中;通过所述特征工程模块确定所述输入文本的实体特征的向量化表示;所述实体特征的向量化表示中包括所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示;通过所述Bi-LSTM模型基于所述实体特征的向量化表示确定所述输入文本的高层特征的向量化表示;通过所述分类器基于所述高层特征的向量化表示得到所述目标实体之间的关系。
[0006] 在本申请实施例中,通过特征工程模块先确定实体特征的向量化表示,其中包含了位置特征的向量化表示,再通过Bi-LSTM模型进行进一步的特征提取,最后再通过分类器确定目标实体之间的关系。与现有技术相比,加入了特征工程模块,对位置特征进行了提取,所提取到特征更全面,更能充分表达实体的特征,进而使最终得到的关系也更准确,提高了关系分类的准确性。
[0007] 作为一种可能的实现方式,通过所述特征工程模块确定所述输入文本的实体特征的向量化表示,包括:基于所述目标实体和所述输入文本的基础特征的向量化表示确定所述目标实体的位置特征的向量化表示;将所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示组合,得到所述输入文本的实体特征的向量化表示。
[0008] 在本申请实施例中,特征工程模块先基于目标实体和基础特征的向量化表示确定位置特征的向量化表示,再与基础特征的向量化表示进行组合,得到的实体特征的向量化表示中既包含基础特征又包含位置特征,进而使提取的特征更加全面。
[0009] 作为一种可能的实现方式,所述训练好的分类模型还包括:自注意制模块,在通过所述分类器基于所述高层特征的向量化表示得到所述目标实体之间的关系,所述方法还包括:通过所述自注意力机制模块基于所述高层特征的向量化表示确定所述输入文本的句子级特征的向量化表示;对应的,通过所述分类器基于所述高层特征的向量化表示得到所述目标实体之间的关系,包括:通过分类器基于所述句子级特征的向量化表示得到所述目标实体之间的关系。
[0010] 在本申请实施例中,除了通过特征工程模块的位置特征的提取,在提取出高级特征后,还可以进一步通过自注意力机制模块提取更深层次的特征,自注意力机制能够提取到依存句法特征和相对核心谓词依赖特征,使最终提取出的特征更多和更全面,进一步提高关系分类的准确性。
[0011] 作为一种可能的实现方式,通过所述自注意力机制模块基于所述高层特征的向量化表示确定所述输入文本的句子级特征的向量化表示,包括:对所述高层特征向量进行多次自注意力计算,得到所述输入文本的句子级特征的向量化表示。
[0012] 在本申请实施例中,在进行句子级特征的提取时,基于高层特征向量进行多次自注意力计算,能够提取出更多的句子信息。
[0013] 作为一种可能的实现方式,在获取待处理的输入文本之前,所述方法还包括:获取训练数据集;所述训练数据集中包括训练文本、所述训练文本中的样本实体、所述样本实体之间的关系标注、以及所述训练文本的基础特征的向量化表示;获取特征工程模块,所述特征工程模块用于基于所述训练数据集确定所述训练文本的实体特征的向量化表示;所述实体特征的向量化表示中包括所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示;基于所述训练文本的实体特征的向量化表示对初始的Bi-LSTM模型进行训练,得到训练好的用于确定所述训练文本的高层特征的向量化表示的Bi-LSTM模型;获取自注意力机制模块,所述自注意力机制模块用于确定所述训练文本的句子级特征的向量化表示;获取分类器,所述分类器用于基于所述句子级特征的向量化表示得到所述样本实体之间的关系;依次连接所述特征工程模块、所述训练好的Bi-LSTM模型、所述自注意力机制模块以及所述分类器,得到所述训练好的分类模型并存储。
[0014] 在本申请实施例中,在使用训练好的分类模型之前,对分类模型的各个模块以及模型进行训练或者定义,使最终训练好的分类模型能够直接用于关系分类。
[0015] 作为一种可能的实现方式,获取训练数据集,包括:获取训练文本;对所述训练文本进行分词,得到分词结果;根据所述分词结果确定所述训练文本的基础特征的向量化表示;标注所述训练文本中的样本实体以及所述样本实体之间的关系;根据所述训练文本、所述训练文本中的样本实体、所述样本实体之间的标注关系、以及所述训练文本的基础特征的向量化表示得到所述训练数据集。
[0016] 在本申请实施例中,对于训练数据集,通过预处理,使分类模型能够基于训练数据集进行训练,实现关系分类的目的。
[0017] 第二方面,本申请实施例提供一种关系分类的模型,包括:特征工程模块,用于基于待处理的输入文本中待确定关系的目标实体以及所述输入文本的基础特征的向量化表示确定所述输入文本的实体特征的向量化表示;所述实体特征的向量化表示中包括所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示;Bi-LSTM模型,用于基于所述实体特征的向量化表示确定所述输入文本的高层特征的向量化表示;分类器,用于基于所述高层特征的向量化表示得到所述目标实体之间的关系。
[0018] 在本申请实施例中,通过特征工程模块先确定实体特征的向量化表示,其中包含了位置特征的向量化表示,再通过Bi-LSTM模型进行进一步的特征提取,最后再通过分类器确定目标实体之间的关系。与现有技术相比,分类模型中加入了特征工程模块,对位置特征进行了提取,所提取到特征更全面,更能充分表达实体的特征,进而使最终得到的关系也更准确,提高了分类模型的准确性。
[0019] 作为一种可能的实现方式,所述模型还包括:自注意力机制模块;所述自注意力机制模块用于基于所述高层特征的向量化表示确定所述输入文本的句子级特征的向量化表示;所述分类器还用于基于所述句子级特征的向量化表示得到所述目标实体之间的关系。
[0020] 作为一种可能的实现方式,所述特征工程模块还用于:基于所述目标实体和所述输入文本的基础特征的向量化表示确定所述目标实体的位置特征的向量化表示;将所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示组合,得到所述输入文本的实体特征的向量化表示。
[0021] 第三方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如第一方面的以及第一方面的任意可能的实现方式中所述的方法中的步骤。附图说明
[0022] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0023] 图1为本申请实施例提供的关系分类的方法的流程图
[0024] 图2为本申请实施例提供的自注意力机制模块结构示意图;
[0025] 图3为本申请实施例提供的关系分类的模型的第一种实施方式的结构示意图;
[0026] 图4为本申请实施例提供的关系分类的模型的第二种实施方式的结构示意图。
[0027] 图标:200-关系分类的模型;201-特征工程模块;202-分类器;203-自注意力机制模块。

具体实施方式

[0028] 下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
[0029] 请参照图1,为本申请实施例提供的关系分类的方法的流程图,如图1所示,该方法包括:
[0030] 步骤101:获取待处理的输入文本。
[0031] 步骤102:对输入文本进行预处理,以确定输入文本中待确定关系的目标实体以及输入文本的基础特征的向量化表示。
[0032] 步骤103:获取训练好的分类模型。
[0033] 步骤104:将目标实体以及输入文本的基础特征的向量化表示输入到训练好的分类模型中。
[0034] 步骤105:通过特征工程模块确定输入文本的实体特征的向量化表示。实体特征的向量化表示中包括目标实体的位置特征的向量化表示和基础特征的向量化表示。
[0035] 步骤106:通过Bi-LSTM模型基于实体特征的向量化表示确定输入文本的高层特征的向量化表示。
[0036] 步骤107:通过分类器基于高层特征的向量化表示得到目标实体之间的关系。
[0037] 接下来结合步骤101-步骤107对该关系分类的方法的实施方式作介绍。
[0038] 在步骤101中,对于待处理的输入文本,可以包括多个待分类的输入文本,该输入文本例如可以是句子或者句段等。
[0039] 此外,本申请实施例所提供的关系分类的方法可以应用于服务器,也可以应用于客户端,客户端可以是例如应用程序,电子设备(电脑、手机等)。当应用于服务器时,用户可能在客户端上发起输入文本的关系分类的请求,然后由客户端根据该请求将待处理的输入文本发送给服务器,此时步骤101可以包括获取客户端发送的待处理的输入文本,在服务器执行步骤101-步骤107,即得到了对应的关系后,再反馈给客户端。当应用于客户端时,用户可以直接在客户端上输入待处理的输入文本,因此步骤101可以包括获取用户输入的待处理的输入文本,在客户端执行步骤101-步骤107后,即得到了对应的关系后,再进行反馈(如直接显示)。
[0040] 在步骤102中,对输入文本进行预处理可以包括:对输入文本做分词处理,得到分词结果;基于分词结果得到输入文本对应的基础特征的向量化表示;对输入文本进行目标实体的标注。
[0041] 其中,分词处理可以通过各种分词工具实现,例如:jieba;Stanford NLP;Hanlp等。当分词处理后,一个句子或者句段被分为多个词语,可以通过词向量产生模型基于得到的多个词语对应的向量化表示,该向量化表示之间代表各个词语,因此可以作为输入文本对应的基础特征的向量化表示。其中,词向量产生模型可以是word2vec(Word to vector,文字转向量)模型,word2vec是一种用来产生词向量的相关模型,这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。在word2vec中词袋模型假设下,不需要考虑词的顺序。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。因此,利用训练好的word2vec模型可以进行词向量的产生。那么对应的,在使用word2vec模型之前,可以先对其进行训练,训练的方式比较简单,将大量的分好词的语料包输入到初始的word2vec模型中进行多次训练(如100次)即可。
[0042] 对于词向量,本质上就是一串数值,举例来说,假设输入文本为:XXXX(电影名字)是一部由XXX(导演名字)执导的,XX(演员1名字)、YY(演员2名字)主演的影片。对其进行分词后,可得到的分词结果为:{XXXX;是;一部;由;XXX;执导;XX;YY;主演;的影片},那么其中的各个分词都可以表示为通过0和1组成的向量,如XXXX=00001,其他分词类似。
[0043] 进一步的,在得到词向量后,对待确定的关系的目标实体进行标注。需要注意的是,对目标实体进行标注和产生词向量之间没有必然的联系,因此,这两个步骤的顺序不分先后,即也可以先标注目标实体,再进行词向量的产生。在进行标注时,采用人工标注的方式,即将输入文本反馈给用户,使用户标注需要确定关系的目标实体,举例来说,假设在输入文本:“XXXX(电影名字)是一部由XXX(导演名字)执导的,XX、YY主演的影片”中,包括的实体有:XXXX(电影名字);XXX(导演名字);XX(演员1名字);YY(演员2名字),那么可以标注的目标实体可以为:XXXX(电影名字)和XXX(导演名字);XXXX(电影名字)和XX(演员1名字)或YY(演员2名字)等,标注的目标实体即为需要确定关系的实体,如标注的是XXXX(电影名字)和XXX(导演名字),那么就需要确定电影与导演之间的关系。
[0044] 对于步骤103,训练好的分类模型中包括:依次连接的特征工程模块、Bi-LSTM模型以及分类器,可以理解,特征工程模块的输入为整个分类模型的输入,特征工程模块的输出为Bi-LSTM模型的输入,Bi-LSTM模型的输出为分类器的输入,分类器的输出为整个分类模型的输出。
[0045] 在获取到训练好的分类模型后,进一步的,在步骤104中,将步骤102确定的目标实体以及基础特征的向量化表示输入到训练好的分类模型中。
[0046] 进一步的,在步骤105中,通过特征工程模块确定输入文本的实体特征的向量化表示。其中,实体特征的向量化表示中包括目标实体的位置特征的向量化表示和基础特征的向量化表示。
[0047] 对于特征工程模块,特征是数据中抽取出来的对结构预测有用的信息,可以是文本或者数据,在本申请实施例中,通过特征向量表示,而特征工程的目的是筛选出更好的特征,获取更好的数据。特征工程可以具有多种功能,如特征选择、组合特征等,特征选择可以理解为从多种特征中挑选出一些对结果预测最有用的特征,组合特征理解为将特征进行拼接,得到组合的特征。
[0048] 在本申请实施例中,采用先选择某种特征,再将某种特征与原始的特征进行组合的方式,因此,在特征工程模块中,确定实体特征的向量化表示包括:基于目标实体和输入文本的基础特征确定目标实体的位置特征;将目标实体的位置特征的向量化表示和基础特征的向量化表示组合,得到输入文本的实体特征的向量化表示。
[0049] 在确定标注的目标实体之间的关系时,在对词性特征进行选择时,也关注了目标实体词本身以及前后两个词的词性,据此可以充分表达出词性特征,在词汇特征这方面主要考虑四个部分:目标实体1;目标实体2;目标实体1前后两个词的词性;目标实体2前后两个词的词性。在数据预处理时,只能获取到基础特征的向量化表示,但是仅靠基础特征的向量化表示,并不能得到完整的特征信息,因此,可以基于基础特征的向量化表示,将每个词与两个目标实体之间的相对距离进行组合得到一个位置特征,再将位置特征与基础特征进行组合,得到最终的特征的向量化表示。其中,在计算每个词与两个目标实体之间的相对距离时,可以将各自的向量化表示之间的差值作为相对距离。举例来说,假设词语一与目标实体的相对距离为0010,词语二与目标实体的相对距离为0110,那么将两个相对距离进行组合,得到位置特征的向量化表示为:00100110,再将位置特征的向量化表示与原来目标实体的向量化表示(如为:00001)进行组合,最终得到目标实体的向量化表示为:00000100100110,其他目标实体以及其他词语的实体特征的向量化表示也采用同样的方式进行计算。
[0050] 在本申请实施例中,特征工程模块先基于目标实体和基础特征的向量化表示确定位置特征的向量化表示,再与基础特征的向量化表示进行组合,得到的实体特征的向量化表示中既包含基础特征又包含位置特征,进而使提取的特征更加全面。
[0051] 进一步的,在步骤106中,通过Bi-LSTM模型基于实体特征的向量化表示确定输入文本的高层特征的向量化表示。
[0052] 对于Bi-LSTM模型,LSTM的全称是Long Short-Term Memory(长短期记忆),它是RNN(Recurrent Neural Network,循环神经网络)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。Bi-LSTM是Bi-directional Long Short-Term Memory(双向长短期记忆)的缩写,是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。因此,通过训练好的Bi-LSTM模型可以提取输入文本中的上下文关系特征,即输入文本的高层特征。
[0053] 对于Bi-LSTM模型,LSTM是RNN的一种变体,它通过引入控单元克服RNN长期依赖问题从而缓解梯度消失。一个LSTM单元由三个门组成,分别是输入门,遗忘门和输出门。其中,对于遗忘门:作用对象:细胞状态。作用:将细胞状态中的信息选择性的遗忘。在语言模型的例子中,基于已经看到的预测下一个词。在这个问题中,细胞状态可能包含当前主语的类别,因此正确的代词可以被选择出来。当看到新的主语,希望忘记旧的主语。例如,他今天有事,所以我…,当处理到“我”的时候选择性的忘记前面的“他”,或者说减小这个词对后面词的作用。对于输入门:作用对象:细胞状态。作用:将新的信息选择性的记录到细胞状态中。继续基于语言模型的例子,希望增加新的主语的类别到细胞状态中,来替代旧的需要忘记的主语。例如:他今天有事,所以我…,当处理到“我”这个词的时候,就会把主语我更新到细胞中去。输出门:作用对象:隐层ht。在语言模型的例子中,因为就看到了一个代词,可能需要输出与一个动词相关的信息。例如,可能输出是否代词是单数还是复数,这样如果是动词的话,也可以知道动词需要进行的词形变化。例如:上面的例子,当处理到“我”这个词的时候,可以预测下一个词,是动词的可能性较大,而且是第一人称。会把前面的信息保存到隐层中去。三个门是一种互斥合作的关系,通过互斥合作判断输入,控制输出。
[0054] 以特征(即实体特征的向量化表示),如(e={e1,e2....eT})作为输入,将t作为当前时刻,ht-1表示前一时刻隐层状态值,ct-1表示前一时刻细胞单元状态值,计算第t时刻词对应的LSTM各个状态值:
[0055] it=σ(Wxiet+Whiht-1+Wcict+bi)
[0056] ft=σ(Wxfet+Whfht-1+Wcfct-1+bf)
[0057] gt=tanh(Wxcet+Whcht-1+Wccct+bo)
[0058] ct=itgt+ftct-1
[0059] ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
[0060] ht=ottanh(ct)
[0061] 其中,ht-1表示前一时刻隐层状态值,ct-1表示前一时刻细胞单元状态值,ht为t时刻LSTM隐层状态的输出值,其他的为中间计算值,it为输入门,ft为遗忘门,ot为输出门。
[0062] 通过以上计算,最终得到t时刻LSTM隐层状态的输出值为ht。将前向LSTM中t时刻隐层状态值记为f-ht,将后向LSTM中t时刻隐层状态的输出值记为b-ht,则最终Bi-LSTM第t时刻输出值为:ht=f-ht+b-ht。需要注意的是,在整个计算过程中,都是基于特征的向量化表示进行计算,因此,在计算过程中涉及到的各个输入或者输出值指代的都是特征的向量化表示。
[0063] 进一步的,在步骤107中,通过分类器基于高层特征的向量化表示得到目标实体之间的关系。
[0064] 其中,分类器可以是SoftMax分类器,使用SoftMax函数计算每一个类别的条件概率,然后选取条件概率最大值所对应的类别作为预测输出类别。需要注意的是,分类器输出的虽然是一个关系类别,但关系类别是事先已经定义好的,一个关系类别可以表示一种关系,因此,输出的关系类别即为目标实体之间的关系。以前述实施例中的例子为例,假设目标实体是XXXX(导演名字)和XXX(电影名字),那么最后得到的关系可以是导演关系,代表目标实体1是目标实体2的导演;又假设目标实体是XXX(电影名字)和XX(演员1),那么最后得到的关系可以是演员关系,代表目标实体1的演员的是目标实体2。
[0065] 当然,除了SoftMax分类器,还可以采用SVM(Support Vector Machine,支持向量机)、Naive Bayes(朴素贝叶斯)等机器学习中常用的分类方式进行分类关系的预测。
[0066] 通过步骤101-步骤107,特征工程模块先确定实体特征的向量化表示,其中包含了位置特征的向量化表示,再通过Bi-LSTM模型进行进一步的特征提取,最后再通过分类器确定目标实体之间的关系。与现有技术相比,加入了特征工程模块,对位置特征进行了提取,所提取到特征更全面,更能充分表达实体的特征,进而使最终得到的关系也更准确,提高了关系分类的准确性。
[0067] 在本申请实施例中,除了通过特征工程模块进行位置特征的提取,在提取出高级特征后,即在步骤106后,还可以进一步通过自注意力机制模块提取更深层次的特征,因此,训练好的分类模型还包括:自注意力机制模块,在步骤106后,该方法还包括:通过自注意力机制模块基于高层特征的向量化表示确定输入文本的句子级特征的向量化表示。对应的,步骤107包括:通过分类器基于句子级特征的向量化表示得到目标实体之间的关系。
[0068] 自注意力机制,英文名为self-attention,当输入一个句子到self-attention模块中时,那么里面的每个词都要和该句子中的所有词进行Attention计算。目的是学习句子内部的词依赖关系,捕获句子的内部结构。结合到本申请实施例中,当输入高层特征的向量化表示,基于高层特征的向量化表示,进行self-attention计算,得到更多的上下文信息,进而获取到更多层面的特征,得到句子级特征的向量化表示。
[0069] 在本申请实施例中,可采用Multi-head(多次)attention模型,Multi-head attention模型结构可以如图2所示,先进行多次selfattention计算,然后再通过拼接和映射层进行拼接和映射。对于单次self-attention计算.使用符号H表示一个矩阵,它由Bi-LSTM模型所有时刻输出的向量(即向量化表示[h1,h2,...hT])组成。使用符号r表示该层最终的输出值,计算过程如下:
[0070]
[0071]
[0072] 其中, dh是隐藏层节点数,w是一个参数向量。w,r, 的维度分别是dh,T,dh经过self-attention计算,可以得到单次attention输出特征值为:
[0073] h*=tanh(r)
[0074] Multi-head attention计算,即进行k次selfattention计算。
[0075] 在本申请实施例中,除了通过特征工程模块的位置特征的提取,在提取出高级特征后,还可以进一步通过自注意力机制模块提取更深层次的特征,自注意力机制能够提取到依存句法特征和相对核心谓词依赖特征,使最终提取出的特征更多和更全面,进一步提高关系分类的准确性。
[0076] 在本申请实施例中,在正式进行关系分类之前,应先对分类模型进行训练,然后再存储,进而在进行关系分类时,可以直接获取训练好的分类模型进行关系分类,因此,在步骤101之前,该方法还包括:获取训练数据集;训练数据集中包括训练文本、训练文本中的样本实体、样本实体之间的标注关系、以及训练文本的基础特征的向量化表示;获取特征工程模块,特征工程模块用于基于训练数据集确定训练文本的实体特征的向量化表示;实体特征的向量化表示中包括目标实体的位置特征的向量化表示和基础特征的向量化表示;基于训练文本的实体特征的向量化表示对初始的Bi-LSTM模型进行训练,得到训练好的用于确定训练文本的高层特征的向量化表示的Bi-LSTM模型;获取自注意力机制模块,自注意力机制模块用于确定训练文本的句子级特征的向量化表示;获取分类器,分类器用于基于句子级特征的向量化表示得到样本实体之间的关系;依次连接特征工程模块、训练好的Bi-LSTM模型、自注意力机制模块以及分类器,得到训练好的分类模型并存储。
[0077] 需要注意的是,该实施方式对应的是在分类模型包括自注意力机制模块时的训练过程。当分类模型不包括自注意力机制模块时,在该实施方式中,可以不包括获取自注意力机制模块,并且,分类器的作用也是基于Bi-LSTM模型输出的高层特征的向量化表示得到样本实体之间的关系,对应的,最后连接时,依次连接特征工程模块、训练好的Bi-LSTM模型以及分类器。
[0078] 此外,在前述实施例中提到,关系分类的方法可以应用于服务器或者客户端,那么对应的,若该方法应用于服务器,在存储训练好的模型时,可以直接将训练好的模型存储在服务器上。若该方法应用于客户端,在存储训练好的模型时,一种是可以将训练好的模型存储到服务器上,对应的步骤103包括:获取服务器上存储的预先训练好的分类模型。另一种是可以将训练好的模型进行自己存储,不通过服务器进行存储。
[0079] 进一步的,在训练过程中,获取训练数据集可以包括:获取训练文本;对训练文本进行分词,得到分词结果;根据分词结果确定训练文本的基础特征的向量化表示;标注训练文本中的样本实体以及样本实体之间的关系;根据训练文本、训练文本中的样本实体、样本实体之间的关系标注、以及训练文本的基础特征的向量化表示得到所述训练数据集。
[0080] 其中,获取的训练文本可以是从大量的文本数据中随机挑选出的预设数量的文本。对训练文本进行分词,得到分词结果,也可以通过前述实施例中介绍的分词工具实现。确定基础特征的向量化表示可以通过前述实施例中介绍的词向量产生模型:Word2vec实现。标注训练文本中的样本实体以及样本实体之间的关系,可以通过人工标注实现,即将训练文本反馈给用户,以使用户对训练文本中的样本实体以及样本实体之间的关系进行标注。与前述实施例中进行正式的关系的分类不同的是,在训练时,需要进行关系的标注,相当于为样本设置标签,这样分类模型才能根据训练数据集进行训练。
[0081] 需要注意的是,上述的训练过程,与前述实施例中的应用训练好的分类模型进行关系分类时的处理过程,两个过程中各个模型和模块的实施方式是相同的,不同的是训练时需要对关系进行标注,而应用时不需要对关系进行标注,因此,涉及到训练过程中各个模型和模块的实施方式在此不再重复介绍。
[0082] 进一步的,在将分类模型训练好以后,还可以对分类模型进行测试和评估,一种可选的实施方式是:通过测试文本集对训练好的分类模型进行测试,将分类模型输出的结果与正确的结果进行比对,根据比对的结果对模型进行评估。其中,测试文本集中可以包括从训练数据集中筛选出的训练文本以及对应的样本实体;正确的结果可以是在训练数据集中对样本实体的标注关系。进一步的,比对的结果可以以评估准确率的形式体现,例如,一共有100个测试文本集,模型输出的评估结果中有98个是正确的,那么模型的评估准确率可以为98%。在对训练好的分类模型完成评估后,还可以生成模型的评估报告,提供给建模人员进行参考,以对训练好的分类模型进行进一步改进。
[0083] 基于同一发明构思,请参照图3,本申请实施例中还提供一种关系分类的模型200,包括特征工程模块201、Bi-LSTM模型以及分类器202。
[0084] 其中,特征工程模块201,用于基于待处理的输入文本中待确定关系的目标实体以及所述输入文本的基础特征的向量化表示确定所述输入文本的实体特征的向量化表示;所述实体特征的向量化表示中包括所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示。
[0085] Bi-LSTM模型,用于基于所述实体特征的向量化表示确定所述输入文本的高层特征的向量化表示。
[0086] 分类器202,用于基于所述高层特征的向量化表示得到所述目标实体之间的关系。
[0087] 可选的,请参照图4,关系分类的模型200还包括:自注意力机制模块203,用于基于所述高层特征的向量化表示确定所述输入文本的句子级特征的向量化表示。分类器202还用于基于所述句子级特征的向量化表示得到所述目标实体之间的关系。
[0088] 可选的,特征工程模块201还用于:基于所述目标实体和所述输入文本的基础特征确定所述目标实体的位置特征;将所述目标实体的位置特征的向量化表示和所述基础特征的向量化表示组合,得到所述输入文本的实体特征的向量化表示。
[0089] 图3和图4所示的关系分类的模型200中的各个模块或者模型与前述实施例中的分类模型中的模块或者模型对应,因此,各个模块或者模型的实施方式与前述实施例中的介绍也一一对应,为了说明书的简洁,在此不再重复介绍。
[0090] 基于同一发明构思,本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行本申请实施例所提供的关系分类的方法中的任意步骤。
[0091] 在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0092] 另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0093] 再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0094] 在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0095] 以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈