首页 / 专利库 / 人工智能 / 人工神经网络 / 前馈神经网络 / 意图识别方法、装置、电子设备及可读存储介质

意图识别方法、装置、电子设备及可读存储介质

阅读:139发布:2020-05-14

专利汇可以提供意图识别方法、装置、电子设备及可读存储介质专利检索,专利查询,专利分析的服务。并且本 申请 提供一种意图识别方法、装置、 电子 设备及可读存储介质,涉及语言处理技术领域。该方法包括:获取待识别的输入文本;通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量;通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量;通过意图 预测模型 基于所述第二语义向量确定所述输入文本对应的意图类别。该方案通过三个模型相互配合,依次来对输入文本进行语义特征提取,使得其能够获取更多的输入文本中的上下文信息以及更深的语义关系,得到更多的有效信息,从而可以有效提高对输入文本的意图预测的准确性。,下面是意图识别方法、装置、电子设备及可读存储介质专利的具体信息内容。

1.一种意图识别方法,其特征在于,用于对输入文本进行意图识别,所述方法包括:
获取待识别的输入文本;
通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,其中,所述第一语义向量表征所述输入文本中每个词的语义信息;
通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,其中,所述第二语义向量表征所述每个词在所述输入文本中的上下文语义信息;
通过意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别。
2.根据权利要求1所述的方法,其特征在于,所述语言模型包括嵌入层和M个编码层,M为大于等于2的整数,所述通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,包括:
通过所述嵌入层对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的字向量、句向量以及位置向量,并将所述字向量、所述句向量以及所述位置向量进行相加获得词嵌入向量;
通过第一个编码层对所述词嵌入向量进行语义编码,获得所述输入文本对应的第一编码向量,所述第一编码向量包括所述每个词对应的编码向量;
依次取i为2到M,通过第i个编码层对第i-1编码向量继续进行语义编码,获得第i编码向量,直到i取M时,获得第M编码向量,所述第M编码向量为所述输入文本对应的第一语义向量。
3.根据权利要求2所述的方法,其特征在于,每个编码层包括自注意层、前馈神经网络层和残差层,所述通过第i个编码器对第i-1编码向量继续进行语义编码,获得第i编码向量,包括:
通过所述自注意力层对所述第i-1编码向量采取注意力机制计算获得第i输出向量;
通过所述残差层将所述第i-1编码向量与所述第i输出向量进行求和归一化,获得第i归一化向量;
通过所述前馈神经网络层对所述第i归一化向量进行语义特征提取,获得第i语义特征向量
通过所述残差层将所述第i语义特征向量与所述第i归一化向量进行求和归一化,获得第i编码向量。
4.根据权利要求1所述的方法,其特征在于,所述特征提取模型为双向长短期记忆神经网络Bi-LSTM模型,所述通过所述特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,包括:
基于当前时刻所述Bi-LSTM模型中的LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得遗忘的输出值;
基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输入门的输出值;
基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过tanh函数计算获得临时LSTM单元细胞状态的值;
基于所述遗忘门的输出值、所述输入门的输出值、所述临时LSTM单元细胞状态的值以及上一时刻LSTM单元细胞状态的值计算获得当前时刻LSTM单元细胞状态的值;
基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输出门的输出值;
根据所述输出门的输出值以及所述当前时刻LSTM单元细胞状态的值获得当前时刻隐含状态的输出向量;
根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的前向LSTM网络的输出向量;
根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的后向LSTM网络的输出向量;
将所述前向LSTM网络的输出向量与所述后向LSTM网络的输出向量进行拼接,获得所述Bi-LSTM模型输出的第二语义向量。
5.根据权利要求1所述的方法,其特征在于,所述意图预测模型为卷积神经网络模型,所述卷积神经网络模型包括卷积层、最大池化层以及全连接层,所述通过所述意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别,包括:
通过所述卷积层将所述第二语义向量与卷积核做点积运算,通过所述最大池化层提取局部最大值,以进行高维语义特征提取,获得语义特征向量;
通过所述全连接层计算获得所述语义特征向量属于各个意图类别的概率,并基于所述概率获得所述输入文本对应的意图类别。
6.根据权利要求1-5任一所述的方法,其特征在于,所述方法还包括:
对所述输入文本进行识别,从所述意图类别对应的数据库中查找与所述输入文本匹配的问题文本;
根据所述问题文本从所述数据库中获取对应的回复文本,将所述回复文本作为对所述输入文本的回复。
7.根据权利要求1-5任一所述的方法,其特征在于,所述方法还包括:
将所述语言模型、所述特征提取模型以及所述意图预测模型形成的意图识别模型封装为应用服务接口,以通过所述应用服务接口调用所述意图识别模型对输入文本进行意图识别。
8.一种意图识别装置,其特征在于,用于对输入文本进行意图识别,所述装置包括:
文本获取模,用于获取待识别的输入文本;
第一语义向量获取模块,用于通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,其中,所述第一语义向量表征所述输入文本中每个词的语义信息;
第二语义向量获取模块,用于通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,其中,所述第二语义向量表征所述每个词在所述输入文本中的上下文语义信息;
意图类别确定模块,用于通过意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7任一所述的方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7任一所述的方法。

说明书全文

意图识别方法、装置、电子设备及可读存储介质

技术领域

[0001] 本申请涉及语言处理技术领域,具体而言,涉及一种意图识别方法、装置、电子设备及可读存储介质。

背景技术

[0002] 随着人工智能技术的不断发展,基于意图识别的应用场景也越来越多,例如,智能客服、智能问答、智能助理、智能机器人等领域中均涉及到意图识别。
[0003] 现有技术中,一般采用传统机器学习算法进行意图识别,如随机森林、逻辑回归、分类器等方法,然而,这些方法其是根据结构化数据特征维度的数值或类别进行分类,使得在进行意图识别时,识别准确率较低。发明内容
[0004] 本申请实施例的目的在于提供一种意图识别方法、装置、电子设备及可读存储介质,用以改善现有技术中意图识别准确率较低的问题。
[0005] 第一方面,本申请实施例提供了一种意图识别方法,用于对输入文本进行意图识别,所述方法包括:
[0006] 获取待识别的输入文本;
[0007] 通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,其中,所述第一语义向量表征所述输入文本中每个词的语义信息;
[0008] 通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,其中,所述第二语义向量表征所述每个词在所述输入文本中的上下文语义信息;
[0009] 通过意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别。
[0010] 在上述实现过程中,可通过三个模型相互配合,依次来对输入文本进行语义特征提取,使得其能够获取更多的输入文本中的上下文信息以及更深的语义关系,得到更多的有效信息,从而可以有效提高对输入文本的意图预测的准确性。
[0011] 可选地,所述语言模型包括嵌入层和M个编码层,M为大于等于2的整数,所述通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,包括:
[0012] 通过所述嵌入层对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的字向量、句向量以及位置向量,并将所述字向量、所述句向量以及所述位置向量进行相加获得词嵌入向量;
[0013] 通过第一个编码层对所述词嵌入向量进行语义编码,获得所述输入文本对应的第一编码向量,所述第一编码向量包括所述每个词对应的编码向量;
[0014] 依次取i为2到M,通过第i个编码层对第i-1编码向量继续进行语义编码,获得第i编码向量,直到i取M时,获得第M编码向量,所述第M编码向量为所述输入文本对应的第一语义向量。
[0015] 在上述实现过程中,通过语言模型可以更好地提取输入文本中各个词的语义信息。
[0016] 可选地,每个编码层包括自注意层、前馈神经网络层和残差层,所述通过第i个编码器对第i-1编码向量继续进行语义编码,获得第i编码向量,包括:
[0017] 通过所述自注意力层对所述第i-1编码向量采取注意力机制计算获得第i输出向量;
[0018] 通过所述残差层将所述第i-1编码向量与所述第i输出向量进行求和归一化,获得第i归一化向量;
[0019] 通过所述前馈神经网络层对所述第i归一化向量进行语义特征提取,获得第i语义特征向量
[0020] 通过所述残差层将所述第i语义特征向量与所述第i归一化向量进行求和归一化,获得第i编码向量。
[0021] 在上述实现过程中,语言模型可以利用每一个编码层对向量进行编码,即可利用每一个编码层的参数对输入文本进行特征提取,从而可有效提取各个词之间的关联特征。
[0022] 可选地,所述特征提取模型为双向长短期记忆神经网络Bi-LSTM模型,所述通过所述特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,包括:
[0023] 基于当前时刻所述Bi-LSTM模型中的LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得遗忘的输出值;
[0024] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输入门的输出值;
[0025] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过tanh函数计算获得临时LSTM单元细胞状态的值;
[0026] 基于所述遗忘门的输出值、所述输入门的输出值、所述临时LSTM单元细胞状态的值以及上一时刻LSTM单元细胞状态的值计算获得当前时刻LSTM单元细胞状态的值;
[0027] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输出门的输出值;
[0028] 根据所述输出门的输出值以及所述当前时刻LSTM单元细胞状态的值获得当前时刻隐含状态的输出向量;
[0029] 根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的前向LSTM网络的输出向量;
[0030] 根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的后向LSTM网络的输出向量;
[0031] 将所述前向LSTM网络的输出向量与所述后向LSTM网络的输出向量进行拼接,获得所述Bi-LSTM模型输出的第二语义向量。
[0032] 在上述实现过程中,利用Bi-LSTM模型可以更好的处理单词序列之间的上下文依赖关系,从而可以提取出输入文本中每个词更深层次的语义信息。
[0033] 可选地,所述意图预测模型为卷积神经网络模型,所述卷积神经网络模型包括卷积层、最大池化层以及全连接层,所述通过所述意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别,包括:
[0034] 通过所述卷积层将所述第二语义向量与卷积核做点积运算,通过所述最大池化层提取局部最大值,以进行高维语义特征提取,获得语义特征向量;
[0035] 通过所述全连接层计算获得所述语义特征向量属于各个意图类别的概率,并基于所述概率获得所述输入文本对应的意图类别。
[0036] 在上述实现过程中,利用卷积神经网络模型可以剔除输入文本中冗余的信息,只提取其重要的特征信息,从而使得在进行意图类别预测时准确率更高。
[0037] 可选地,所述方法还包括:
[0038] 对所述输入文本进行识别,从所述意图类别对应的数据库中查找与所述输入文本匹配的问题文本;
[0039] 根据所述问题文本从所述数据库中获取对应的回复文本,将所述回复文本作为对所述输入文本的回复。
[0040] 在上述实现过程中,根据意图类别以及输入文本获得对应的回复文本,从而可以及时对用户的输入作出回应,提高用户体验。
[0041] 可选地,所述方法还包括:
[0042] 将所述语言模型、所述特征提取模型以及所述意图预测模型形成的意图识别模型封装为应用服务接口,以通过所述应用服务接口调用所述意图识别模型对输入文本进行意图识别。
[0043] 在上述实现过程中,通过将意图识别模型封装为应用服务接口,以便于其他用户可直接通过该应用服务接口即可使用意图识别模型。
[0044] 第二方面,本申请实施例提供了一种意图识别装置,用于对输入文本进行意图识别,所述装置包括:
[0045] 文本获取模,用于获取待识别的输入文本;
[0046] 第一语义向量获取模块,用于通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,其中,所述第一语义向量表征所述输入文本中每个词的语义信息;
[0047] 第二语义向量获取模块,用于通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,其中,所述第二语义向量表征所述每个词在所述输入文本中的上下文语义信息;
[0048] 意图类别确定模块,用于通过意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别。
[0049] 可选地,所述语言模型包括嵌入层和M个编码层,M为大于等于2的整数,所述第一语义向量获取模块,用于:
[0050] 通过所述嵌入层对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的字向量、句向量以及位置向量,并将所述字向量、所述句向量以及所述位置向量进行相加获得词嵌入向量;
[0051] 通过第一个编码层对所述词嵌入向量进行语义编码,获得所述输入文本对应的第一编码向量,所述第一编码向量包括所述每个词对应的编码向量;
[0052] 依次取i为2到M,通过第i个编码层对第i-1编码向量继续进行语义编码,获得第i编码向量,直到i取M时,获得第M编码向量,所述第M编码向量为所述输入文本对应的第一语义向量。
[0053] 可选地,每个编码层包括自注意力层、前馈神经网络层和残差层,所述第一语义向量获取模块,用于:
[0054] 通过所述自注意力层对所述第i-1编码向量采取注意力机制计算获得第i输出向量;
[0055] 通过所述残差层将所述第i-1编码向量与所述第i输出向量进行求和归一化,获得第i归一化向量;
[0056] 通过所述前馈神经网络层对所述第i归一化向量进行语义特征提取,获得第i语义特征向量;
[0057] 通过所述残差层将所述第i语义特征向量与所述第i归一化向量进行求和归一化,获得第i编码向量。
[0058] 可选地,所述特征提取模型为双向长短期记忆神经网络Bi-LSTM模型,所述第二语义向量获取模块,用于:
[0059] 基于当前时刻所述Bi-LSTM模型中的LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得遗忘门的输出值;
[0060] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输入门的输出值;
[0061] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过tanh函数计算获得临时LSTM单元细胞状态的值;
[0062] 基于所述遗忘门的输出值、所述输入门的输出值、所述临时LSTM单元细胞状态的值以及上一时刻LSTM单元细胞状态的值计算获得当前时刻LSTM单元细胞状态的值;
[0063] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输出门的输出值;
[0064] 根据所述输出门的输出值以及所述当前时刻LSTM单元细胞状态的值获得当前时刻隐含状态的输出向量;
[0065] 根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的前向LSTM网络的输出向量;
[0066] 根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的后向LSTM网络的输出向量;
[0067] 将所述前向LSTM网络的输出向量与所述后向LSTM网络的输出向量进行拼接,获得所述Bi-LSTM模型输出的第二语义向量。
[0068] 可选地,所述意图预测模型为卷积神经网络模型,所述卷积神经网络模型包括卷积层、最大池化层以及全连接层,所述意图类别确定模块,用于:
[0069] 通过所述卷积层将所述第二语义向量与卷积核做点积运算,通过所述最大池化层提取局部最大值,以进行高维语义特征提取,获得语义特征向量;
[0070] 通过所述全连接层计算获得所述语义特征向量属于各个意图类别的概率,并基于所述概率获得所述输入文本对应的意图类别。
[0071] 可选地,所述装置还包括:
[0072] 回复模块,用于对所述输入文本进行识别,从所述意图类别对应的数据库中查找与所述输入文本匹配的问题文本;根据所述问题文本从所述数据库中获取对应的回复文本,将所述回复文本作为对所述输入文本的回复。
[0073] 可选地,所述装置还包括:
[0074] 接口封装模块,用于将所述语言模型、所述特征提取模型以及所述意图预测模型形成的意图识别模型封装为应用服务接口,以通过所述应用服务接口调用所述意图识别模型对输入文本进行意图识别。
[0075] 第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
[0076] 第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
[0077] 本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

[0078] 为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0079] 图1为本申请实施例提供的一种电子设备的结构示意图;
[0080] 图2为本申请实施例提供的一种意图识别方法的流程图
[0081] 图3为本申请实施例提供的一种BERT模型的结构示意图;
[0082] 图4为本申请实施例提供的一种Bi-LSTM模型的结构示意图;
[0083] 图5为本申请实施例提供的一种意图识别装置的结构框图

具体实施方式

[0084] 下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0085] 本申请实施例提供一种意图识别方法,该方法通过语言模型、特征提取模型以及意图预测模型这三个模型来对输入文本进行语义特征提取,使得其能够获取更多的输入文本中的上下文信息以及更深的语义关系,得到更多的有效信息,从而可以有效提高对输入文本的意图预测的准确性。
[0086] 下面结合附图对本申请实施例提供的意图识别方法进行详细介绍。
[0087] 请参照图1,图1为本申请实施例提供的一种电子设备的结构示意图,所述电子设备可以包括:至少一个处理器110,例如CPU,至少一个通信接口120,至少一个存储器130和至少一个通信总线140。其中,通信总线140用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口120用于与其他节点设备进行信令或数据的通信。存储器130可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器130可选的还可以是至少一个位于远离前述处理器的存储装置。存储器130中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器110执行时,电子设备执行下述图2所示方法过程。例如,存储器130可以用于存储输入文本、语义向量、语言模型、特征提取模型以及意图预测模型等数据,处理器110在进行意图识别时,可以从存储器130中获取输入文本,然后再获取语言模型,通过语言模型对输入文本进行词嵌入向量转换,获得第一语义向量,该第一语义向量也可暂存于存储器130中,处理器110则可再获取特征提取模型对第一语义向量进行语义特征提取,获得第二语义向量,该第二语义向量也可暂存于存储器130中,处理器110再获取意图预测模型进行意图类别预测,从而可获得输入文本所属的意图类别。
[0088] 请参照图2,图2为本申请实施例提供的一种意图识别方法的流程图,该方法用于对输入文本进行意图识别,包括如下步骤:
[0089] 步骤S110:获取待识别的输入文本。
[0090] 本申请实施例可应用于多个不同的场景,如各个领域的智能客服问答、机器人交互、自助服务等场景,本申请实施例对此不做具体限制。在机器人交互场景下,上述的电子设备即可为机器人,在智能客服问答以及自助服务场景下,上述的电子设备即可为用户终端。
[0091] 为了便于对本申请实施例的理解,本申请实施例中以智能客服问答为例进行说明,这种情景下,用户可以在电子设备中输入想要互动或询问的信息,然后通过电子设备识别用户的意图,然后可基于用户的意图向用户反馈对应的信息,以完成问答服务。
[0092] 此时,输入文本可以是指用户在电子设备中直接输入的文字信息或者由语音信息转换成的文字信息,即为了便于后续的处理,在用户输入语音信息时,电子设备还可以先对语音信息进行识别,然后转换成对应的文字信息再进行后续的处理。
[0093] 步骤S120:通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量。
[0094] 语言模型用于对输入文本进行词嵌入向量转换,通过语言模型进行词嵌入向量转换时,是指将输入文本中的每个词转换成固定长度的向量表示,从而便于进行数学处理。
[0095] 其中,词嵌入是将词的稀疏向量表示转换为密集、连续的向量空间,是能够识别词之间的相似性及指代关系,由此,可通过语言模型将输入文本进行词嵌入向量转换后获得第一语义向量,该第一语义向量则表征输入文本中每个词的语义信息。
[0096] 其中,语言模型可以为Word2Vec、GloVe、深度双向变换器表征(Bidirectional Encoder Representations from Transformer,BERT)模型等模型。
[0097] 步骤S130:通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量。
[0098] 虽然语言模型在一定程度上能够提取输入文本中每个词的语义信息,但是为了进一步发掘上下文序列依赖信息,提高对输入文本进行意图类别识别的准确性,则继续提取输入文本中每个词的上下文语义信息,即通过特征提取模型对第一语义向量进行语义特征提取,可获得输入文本对应的第二语义向量,该第二语义向量即可表征每个词在输入文本中的上下文语义信息。
[0099] 其中,特征提取模型是可用于进行语义特征提取的模型,例如特征提取模型可以为长短期记忆网络(Long Short-Term Memory,LSTM)模型或者双向长短期记忆网络模型(Bidirectional Long Short-Term Memory,Bi-LSTM)等。
[0100] 步骤S140:通过意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别。
[0101] 在获得输入文本的深度语义信息后,可以通过意图预测模型基于第二语义向量确定输入文本对应的意图类别。
[0102] 其中,意图类别可以根据实际情况进行分类,如否定意图、肯定意图、疑问意图等多个意图类别。
[0103] 意图预测模型具体可以为分类器模型,其可基于第二语义向量对输入文本进行意图类别分类,输出输入文本属于每个意图类别的概率,由此基于概率确定输入文本的真正意图类别。
[0104] 例如,意图预测模型可以输出输入文本属于否定意图的概率,输入肯定意图的概率以及属于疑问意图的概率,则在确定各个意图类别的概率后,可将概率最大的意图类别作为输入文本所属的最终的意图类别。
[0105] 在上述实现过程中,可以通过语言模型对输入文本进行词嵌入向量转换,获得输入文本对应的第一语义向量,该第一语义向量表征输入文本中每个词的语义信息,然后再通过特征提取模型对第一语义向量进行语义特征提取,获得输入文本对应的第二语义向量,第二语义向量表征每个词在输入文本中的上下文语义信息,再通过意图预测模型基于第二语义向量确定输入文本对应的意图类别,由此,该方案可通过三个模型相互配合,依次来对输入文本进行语义特征提取,使得其能够获取更多的输入文本中的上下文信息以及更深的语义关系,得到更多的有效信息,从而可以有效提高对输入文本的意图预测的准确性。
[0106] 另外,上述的语言模型、特征提取模型以及意图预测模型均是预先进行训练后的模型,由于不同的场景下用户的意图可能不同,所以为了准确识别用户的意图,可以针对不同的场景对上述的模型进行训练,使得其可以在不同的场景下对用户的意图进行准确识别。当然,在不同的领域中,其训练样本数据不同,例如,针对保险领域,其具有较多的专业词,则在对模型进行训练时,获取的训练样本中可以包含有较多的专业词,从而可以使得模型在应用过程中可以准确识别出输入文本的意图类别。
[0107] 作为一种示例,为了更好地提取输入文本中每个词的语义信息,本申请实施例中的语言模型可以采用BERT模型,BERT模型相比与普通的词嵌入向量生成方法更加精确,可以有效解决一词多义及未登录词的问题。
[0108] 也就是说,可通过BERT模型对输入文本进行词嵌入向量转换,获得输入文本对应的第一语义向量。
[0109] BERT模型是基于Transformer的双向编码器表征,其根基就是Transformer,其中双向的意思就是表示该BERT模型在处理一个词的时候,能考虑到该词前面和后面词汇的信息,从而获取上下文的语义。BERT模型的目标是利用大规模无标注语料训练,获得文本的包含丰富语义信息的向量表示,即BERT模型可以对输入文本中的每个词进行向量化表示,以获取输入文本的语义特征。BERT模型的主要输入是文本中各个词的原始词向量,该向量既可以随机初始化,也可以利用Word2Vector等算法进行预训练以作为初始值,BERT模型的输出是文本中各个词融合了全文语义信息后的向量表示。
[0110] BERT模型对输入文本进行向量转换的过程中,BERT模型可以先通过查询字向量表将输入文本中的每个字转换为一维向量,然后BERT模型还可以获得输入文本的文本向量,该文本向量的取值是BERT模型在训练过程中自动学习,用于刻画输入文本的全局语义信息,并与字的语义信息相融合。另外,由于出现在输入文本不同位置的字所携带的语义信息存在差异,所以BERT模型还可以获取输入文本中的字出现在输入文本不同位置时的位置向量,即BERT模型对不同位置的字分别附加一个位置向量以作区分。
[0111] 所以,BERT模型可以先获得输入文本的字向量、句向量和位置向量,然后将这些向量进行加和,再对其进行语义分析,因此BERT模型输出由字/词向量转换而来的向量能够包含更为准确的语义信息。
[0112] 请参照图3,作为一种示例,语言模型包括嵌入层和M个编码层,M为大于或等于2的整数,嵌入层用于将输入文本转换为上述的字向量、位置向量以及句向量,然后将这三个向量之和形成的词嵌入向量输入至编码层,由编码层对词嵌入向量进行语义编码,获得对应的编码向量。
[0113] 可以理解地,若语言模型为BERT模型,则其一般包括12个编码层,当然,其编码层的数量也可以根据实际需求进行删减或增加,即BERT模型可以包括更少或更多数量的编码层。
[0114] 在对BERT模型进行训练的过程中,可以应用遮蔽语言模型(Masked Language Model)随机遮蔽语料中15%的汉字,基于序列中未被遮蔽的汉字预测遮蔽汉字,得到字向量词嵌入模型,则可通过字向量词嵌入模型获得输入文本的字向量;应用下句预测(Next Sentence Prediction,NSP)将成对的句子作为输入,预测其中第二个句子是否是第一个句子的下一句,通过Transformer模型对句向量进行深度编码,得到句向量词嵌入模型,则可通过句向量词嵌入模型获得输入文本的句向量;将每个字在句子中的位置通过位置编码公式计算获得位置编码,位置编码公式如下:
[0115]
[0116]
[0117] 其中pos表示汉字的位置信息,i用来表达编码维度,dmodel是模型最大序列长度,本实施例中dmodel可以为512,则i为0到255。
[0118] 其中,编码层即为Transformer编码器,编码层用于提取语义信息。嵌入层对输入文本进行词嵌入向量转换获得词嵌入向量后输入至第一个编码层,由第一个编码层对词嵌入向量进行语义编码,获得第一编码向量,该第一编码向量包括每个词对应的编码向量。每个编码层均对编码向量进行语义编码,即依次取i为2到M,通过第i个编码层对第i-1编码向量继续进行编码,获得第i编码向量,直到i取M时,获得第M编码向量,第M编码向量即为输入文本对应的第一语义向量。
[0119] 例如,在获得第一编码向量后,将第一编码向量输入第2个编码层继续进行语义编码,获得第二编码向量,然后将第二编码向量输入第3个编码层继续进行语义编码,依次对编码向量进行编码,最终获得第M编码向量。
[0120] 其中,每个编码层包括自注意力层、前馈神经网络层和残差层。自注意力层可以很好的捕捉输入文本中词与词的指代关系,各个自注意力层之间以前馈神经网络层和残差层连接,用于求和归一化,以提高模型拟合效率并防止梯度消失的问题。
[0121] 可以理解地,每个编码层具有相同的网络结构,输入文本经嵌入层进行向量转换后,输入自注意力层,可通过自注意力层对第i-1编码向量采取注意力机制计算获得第i输出向量,即通过自注意力层融合注意力头信息的输出向量,该输出向量反映输入文本中其他词对当前词的影响程度,一个注意力头对应一个输出向量,若有12个这样的注意力头,则由这12个注意力头拼接成一个总的输出向量,每个词对应输出向量中的一个行向量。
[0122] 其中,通过自注意力层对第i-1编码向量采取注意力机制计算获得第i输出向量,其计算过程如下:
[0123]
[0124] 其中,Attention是自注意力层计算公式,Q是对模型进行训练过程中获得的权重与输入的编码向量进行相乘获得的查询向量,K,是对模型进行训练过程中获得的权重与输入的编码向量进行相乘获得的键向量,V是对模型进行训练过程中获得的权重与输入的编码向量进行相乘获得的值向量,dk为经验常量。其核心思想是计算输入文本中每个词对这输入文本中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了输入文本中不同词之间的关联性以及重要程度,则可再利用这些相互关联来调整每个词的重要性就可以获得每个词新的表达向量,这个新的表达向量不仅蕴含了该词本身的语义,还蕴含了该词所指代或包含的其他词的语义,因此能获得输入文本中每个词更加全面的语义信息。
[0125] 为了提取原始向量中更多的特征信息,自注意力层与前馈神经网络层之间设有残差层,通过残差层将第i-1编码向量与第i输出向量矩阵进行求和归一化,获得第i归一化向量。
[0126] 前馈神经网络层对所述第i归一化向量进行语义特征提取,获得第i语义特征向量,即前馈神经网络层可将第i归一化向量与其隐藏层权重相乘并与偏置项加和再经由激活函数处理,获得第i语义特征向量,计算公式为:S=Relu(xb+w),其中,S为第i语义特征线路,Relu为激活函数,x为第i归一化向量,b为权重,w为偏置项。
[0127] 通过所述残差层将所述第i语义特征向量与所述第i归一化向量进行求和归一化,从而获得第i编码向量,然后输出至下一个编码层继续按照上述方式进行编码。
[0128] 在上述实现过程中,语言模型可以利用每一个编码层对向量进行编码,即可利用每一个编码层的参数对输入文本进行特征提取,从而可有效提取各个词之间的指代特性。
[0129] 在上述过程中通过BERT模型能够提取出输入文本中每个词的语义信息,但是为了融入上下文的语义信息,还需采用特征提取模型继续对语言模型的输出向量进行特征提取。本申请实施例中,特征提取模型可以采用Bi-LSTM模型,Bi-LSTM模型可以更好的处理单词上下文序列之间的顺序关系,所以其可以提取出输入文本中每个词在上下文语境中更深层次的语义信息。
[0130] 因此,在通过上述语言模型获得输入文本对应的第一语义向量后,为了进一步提取输入文本中每个词的上下文语义信息,则还可继续通过特征提取模型对输入文本进行语义特征提取。如图4所示,图4为Bi-LSTM模型的结构示意图,Bi-LSTM模型包含两个相互独立的长短期记忆网络,即前向LSTM网络和后向LSTM网络,其输入序列顺序相反,所以,针对一个输入文字序列,其可以获得两个隐含状态序列输出,然后Bi-LSTM模型通过将两个隐含状态序列输出的向量集合按词进行拼接(Concat)得到一个向量,再将其进行输出。
[0131] Bi-LSTM模型实际上是前向LSTM和后向LSTM的组合,所以其内部数据处理过程跟LSTM模型的数据处理过程类似,即通过Bi-LSTM模型对第一语义向量进行语义特征提取,获得输入文本对应的第二语义向量的过程如下:
[0132] 基于当前时刻Bi-LSTM模型中的LSTM单元中输入的所述第一语义向量与上一时刻LSTM单元的隐含层输出的第二语义向量通过sigmod函数计算获得遗忘门的输出值。
[0133] 其中,上述过程可以采用公式ft=σ(Wf·[ht-1,xt]+bf)表示,ft即为遗忘门的输出值,xt为当前时刻的LSTM单元的输入的第一语义向量,ht-1为前一时刻的LSTM单元的隐含层输出的第二语义向量,Wf为遗忘门单元状态的权值矩阵,bf为遗忘门单元状态的偏置向量。
[0134] 然后再基于当前时刻Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输入门的输出值。
[0135] 其中,该过程可以采用公式it=σ(Wi·[ht-1,xt]+bi)表示,it即为输入门的输出值,σ为sigmoid激活函数,Wi为输入门单元状态的权值矩阵,bi为输入门单元状态的偏置向量。
[0136] 基于当前时刻Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻LSTM单元的隐含层输出的第二语义向量通过tanh函数计算获得临时LSTM单元细胞状态的值。
[0137] 其中,该过程可以采用公式 表示, 即为临时LSTM单元细胞状态的值,tanh为双曲正切函数,Wc为Bi-LSTM单元状态的权值矩阵,bc为LSTM单元状态的偏置向量。
[0138] 基于所述遗忘门的输出值、所述输入门的输出值、所述临时LSTM单元细胞状态的值以及上一时刻LSTM单元细胞状态的值计算获得当前时刻LSTM单元细胞状态的值。
[0139] 其中,该过程可以采用公式 表示,Ct即为当前时刻LSTM单元细胞状态的值,Ct-1为上一时刻LSTM单元细胞状态的值。
[0140] 然后再基于当前时刻Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输出门的输出值。
[0141] 其中,该过程可以采用公式ot=σ(WO·[ht-1,xt]+bo)表示,it即为输出门的输出值,σ为sigmoid激活函数,WO为输出门单元状态的权值矩阵,bo为输出门单元状态的偏置向量。
[0142] 根据输出门的输出值以及当前时刻LSTM单元细胞状态的值获得当前时刻隐含状态的输出向量。
[0143] 其中,该过程可以采用如下公式表示:
[0144] ht=ot*tanh(Ct)
[0145] ot为输出门单元的输出,ht为当前时刻隐含状态的输出向量。
[0146] 根据各个时刻隐含状态的输出向量获得Bi-LSTM模型中的前向LSTM网络的输出向量。
[0147] 针对前向LSTM网络,可以按照上述过程获得各个时刻隐含状态的输出向量,由此可获得隐含状态序列作为前向LSTM网络的输出向量
[0148] 根据各个时刻隐含状态的输出向量获得Bi-LSTM模型中的后向LSTM网络的输出向量。
[0149] 针对后向LSTM网络,可以按照上述过程获得各个时刻隐含状态的输出向量,由此可获得隐含状态序列作为后向LSTM网络的输出向量
[0150] 将前向LSTM网络的输出向量与后向LSTM网络的输出向量进行拼接,即可获得Bi-LSTM模型输出的第二语义向量。
[0151] 其中,第二语义向量可以表示为
[0152] 上述过程中,可以通过Bi-LSTM模型中的LSTM网络中的遗忘门控制之前输入的序列信息的保留程度,输入门控制当前序列单元的影响程度,两个LSTM网络能够充分考虑正序和逆序信息,挖掘上下文特征,生成两个隐含状态序列向量集合,然后将两个向量集合按词拼接即可获得最后的第二语义向量。
[0153] 由此,按照上述方式可获得第二语义向量,获得的第二语义向量中包含了各个词的语义特征。例如,输入的第一语义向量序列集合记为x=(x1,x2,x3,x4,x5),每个词向量输入Bi-LSTM模型中的前向LSTM网络后分别得到五个隐含状态向量集合每个词向量输入Bi-LSTM模型中的后向LSTM网络后分别得到五
个隐含状态向量集合 然后将前向、后向LSTM网络的输出进行拼
接得到Bi-LSTM模型的输出,即第二语义向量集合
记为 由此,
可基于上述算法获得Bi-LSTM模型输出的第二语义向量。
[0154] 在上述实现过程中,利用Bi-LSTM模型可以更好的处理单词序列之间的关系,从而可以提取出输入文本中每个词在上下文中更深层次的语义信息。
[0155] 在获得包含有丰富语义信息的第二语义向量后,再通过意图预测模型基于第二语义向量对输入文本的意图类别进行识别。在本申请实施例中,意图预测模型可以为卷积神经网络模型,卷积神经网络模型可以对分类有帮助的特征进行很好的提取,然后对提取出的特征进行池化操作后,得到最终的分类特征表示,然后使用全连接层将类别概率进行归一化,从而可获得输入文本最终所属的意图类别。
[0156] 作为一种示例,卷积神经网络模型包括卷积层、最大池化层和全连接层,通过卷积层将第二语义向量与卷积核做点积运算,通过最大池化层提取局部最大值,以进行高维语义抽象特征提取,获得语义特征向量,然后通过全连接层计算获得语义特征向量属于各个意图类别的概率,并基于所述概率获得输入文本对应的意图类别。
[0157] 例如,设第二语义向量为X=[x1,x2,x3,x4,x5,x6],训练得出的卷积核为F=[f1,f2,f3],则卷积操作过程为:
[0158] Y1=x1*f1+x2*f2+x3*f3;
[0159] Y2=x2*f1+x3*f2+x4*f3;
[0160] Y3=x3*f1+x4*f2+x5*f3;
[0161] Y4=x4*f1+x5*f2+x6*f3;
[0162] 卷积输出为Y=[Y1,Y2,Y3,Y4],设将卷积输出进行1*2最大池化操作,则最终输出为Y’=[max(Y1,Y2),max(Y3,Y4)],再进入全连接层,经softmax归一化得到最终概率分布。
[0163] 具体地,通过卷积层可以把冗余信息去除,提取最重要的特征,能够在一定程度上防止过拟合,提高预测结果的泛化能力。
[0164] 另外,在智能客服问答领域中,可以在获得输入文本对应的意图类别后,获取对输入文本的回复文本,然后可以将所述回复文本作为对输入文本的回复反馈给用户。
[0165] 其获取回复文本的过程可以为:为了快速获得对应的回复文本,可以针对每种意图类别均建立对应的数据库,则可以在确定意图类别后,对输入文本进行识别,从该意图类别对应的数据库中查找与输入文本匹配的问题文本,然后根据问题文本从数据库中获取对应的回复文本,将该回复文本即作为对输入文本的回复。
[0166] 例如,若意图类别为疑问时,则可对输入文本进行识别,然后从疑问类别对应数据库中查找与输入文本匹配的问题文本,其中,问题文本可以是与输入文本相同的文本,也可以是指与输入文本相似度较高的文本,如可以将输入文本中的每个字符与各个问题文本中的每个字符进行相似度匹配,由此可获得满足一定相似度的问题文本。数据库中针对每个问题文本均设置有对应的回复文本,所以在查找到对应的问题文本后,可基于问题文本获得其对应的回复文本,回复文本可以为一个或多个,在回复文本为多个时,可以将这多个回复文本作为对输入文本的回复一同反馈给用户,也可以任意选择其中一个回复文本作为对输入文本的回复反馈给用户。
[0167] 其中,数据库中预先设置有对应领域中不同意图类别对应的各个问题文本以及其对应的回复文本,然后反馈给用户,反馈的方式可以通过语音播报回答的方式,也可以是文字回答的方式,若未查找到对应的问题文本时,则可向用户反馈默认信息,如不回复或者回复无法识别的提示信息等,从而可以及时对用户的输入作出回应,提高用户体验。
[0168] 另外,为了便于其他用户直接采用本申请实施例提供的意图识别方法,还可以将语言模型、特征提取模型以及意图预测模型形成的意图识别模型封装为应用服务接口,以通过应用服务接口调用该意图识别模型对输入文本进行意图识别。
[0169] 可以理解地,该应用服务接口可以为http接口,即该意图识别模型可以形成一http链接地址,在用户需要调用该意图识别模型进行意图识别时,可以直接在网页中输入对应的http链接地址,通过GET或POST方式传递输入文本,从而可将获得的输入文本输入至意图识别模型中进行识别,以获得对应的意图类别即可。
[0170] 在上述实现过程中,通过将意图识别模型封装为应用服务接口,以便于其他用户可直接通过该应用服务接口即可使用意图识别模型。
[0171] 请参照图5,图5为本申请实施例提供的一种意图识别装置200的结构框,该装置200可以是电子设备上的模块、程序段或代码。应理解,该装置200与上述图2方法实施例对应,能够执行图2方法实施例涉及的各个步骤,该装置200具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
[0172] 可选地,所述装置200包括:
[0173] 文本获取模块210,用于获取待识别的输入文本;
[0174] 第一语义向量获取模块220,用于通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,其中,所述第一语义向量表征所述输入文本中每个词的语义信息;
[0175] 第二语义向量获取模块230,用于通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,其中,所述第二语义向量表征所述每个词在所述输入文本中的上下文语义信息;
[0176] 意图类别确定模块240,用于通过意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别。
[0177] 可选地,所述语言模型为包括嵌入层和M个编码层,M为大于等于2的整数,所述第一语义向量获取模块220,用于:
[0178] 通过所述嵌入层对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的词嵌入向量;
[0179] 通过所述嵌入层对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的字向量、句向量以及位置向量,并将所述字向量、所述句向量以及所述位置向量进行相加获得词嵌入向量;
[0180] 通过第一个编码层对所述词嵌入向量进行语义编码,获得所述输入文本对应的第一编码向量,所述第一编码向量包括所述每个词对应的编码向量;
[0181] 依次取i为2到M,通过第i个编码层对第i-1编码向量继续进行语义编码,获得第i编码向量,直到i取M时,获得第M编码向量,所述第M编码向量为所述输入文本对应的第一语义向量。
[0182] 可选地,每个编码层包括自注意力层、前馈神经网络层和残差层,所述第一语义向量获取模块220,用于:
[0183] 通过所述自注意力层对所述第i-1编码向量采取注意力机制计算获得第i输出向量;
[0184] 通过所述残差层将所述第i-1编码向量与所述第i输出向量进行求和归一化,获得第i归一化向量;
[0185] 通过所述前馈神经网络层对所述第i归一化向量进行语义特征提取,获得第i语义特征向量;
[0186] 通过所述残差层将所述第i语义特征向量与所述第i归一化向量进行求和归一化,获得第i编码向量。
[0187] 可选地,所述特征提取模型为双向长短期记忆神经网络Bi-LSTM模型,所述第二语义向量获取模块230,用于:
[0188] 基于当前时刻所述Bi-LSTM模型中的LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得遗忘门的输出值;
[0189] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输入门的输出值;
[0190] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过tanh函数计算获得临时LSTM单元细胞状态的值;
[0191] 基于所述遗忘门的输出值、所述输入门的输出值、所述临时LSTM单元细胞状态的值以及上一时刻LSTM单元细胞状态的值计算获得当前时刻LSTM单元细胞状态的值;
[0192] 基于当前时刻所述Bi-LSTM模型中的所述LSTM单元中输入的所述第一语义向量与上一时刻所述LSTM单元的隐含层输出的第二语义向量通过sigmoid函数计算获得输出门的输出值;
[0193] 根据所述输出门的输出值以及所述当前时刻Bi-LSTM单元细胞状态的值获得当前时刻隐含状态的输出向量;
[0194] 根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的前向LSTM网络的输出向量;
[0195] 根据各个时刻隐含状态的输出向量获得所述Bi-LSTM模型中的后向LSTM网络的输出向量;
[0196] 将所述前向LSTM网络的输出向量与所述后向LSTM网络的输出向量进行拼接,获得所述Bi-LSTM模型输出的第二语义向量。
[0197] 可选地,所述意图预测模型为卷积神经网络模型,所述卷积神经网络模型包括卷积层、最大池化层以及全连接层,所述意图类别确定模块240,用于:
[0198] 通过所述卷积层将所述第二语义向量与卷积核做点积运算,通过所述最大池化层提取局部最大值,以进行高维语义特征提取,获得语义特征向量;
[0199] 通过所述全连接层计算获得所述语义特征向量属于各个意图类别的概率,并基于所述概率获得所述输入文本对应的意图类别。
[0200] 可选地,所述装置200还包括:
[0201] 回复模块,用于对所述输入文本进行识别,从所述意图类别对应的数据库中查找与所述输入文本匹配的问题文本;根据所述问题文本从所述数据库中获取对应的回复文本,将所述回复文本作为对所述输入文本的回复。
[0202] 可选地,所述装置200还包括:
[0203] 接口封装模块,用于将所述语言模型、所述特征提取模型以及所述意图预测模型形成的意图识别模型封装为应用服务接口,以通过所述应用服务接口调用所述意图识别模型对输入文本进行意图识别。
[0204] 本申请实施例提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图2所示方法实施例中电子设备所执行的方法过程。
[0205] 本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,包括:获取待识别的输入文本;通过语言模型对所述输入文本进行词嵌入向量转换,获得所述输入文本对应的第一语义向量,其中,所述第一语义向量表征所述输入文本中每个词的语义信息;通过特征提取模型对所述第一语义向量进行语义特征提取,获得所述输入文本对应的第二语义向量,其中,所述第二语义向量表征所述每个词在所述输入文本中的上下文语义信息;通过意图预测模型基于所述第二语义向量确定所述输入文本对应的意图类别。
[0206] 综上所述,本申请实施例提供一种意图识别方法、装置、电子设备及可读存储介质,该方法通过三个模型相互配合,依次来对输入文本进行语义特征提取,使得其能够获取更多的输入文本中的上下文信息以及更深的语义关系,得到更多的有效信息,从而可以有效提高对输入文本的意图预测的准确性。
[0207] 在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0208] 另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0209] 再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0210] 在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
[0211] 以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈