首页 / 专利库 / 企业组织 / 商业智能 / 一种基于深度学习的问答匹配方法

一种基于深度学习的问答匹配方法

阅读:1016发布:2020-06-02

专利汇可以提供一种基于深度学习的问答匹配方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于 深度学习 的问答匹配方法,主要包括两个步骤:1)利用长短期记忆网络(LSTM:Long Short-Term Memory)和 卷积神经网络 (CNN:Convolutional Neural Network)两种深层次的 深度神经网络 ,充分学习问题和答案文本的词序以及句子局部特征;2)基于注意 力 机制(AM:Attention Mechanism)的 池化 方式选择出语义匹配最好的关键词。与现有方法相比,本发明具有特征工程工作量低、跨领域性强以及准确度较高等优点,能够有效应用于 商业智能 客服 机器人 、自动驾驶、互联网医疗、在线论坛以及社区问答等领域。,下面是一种基于深度学习的问答匹配方法专利的具体信息内容。

1.一种基于深度学习的问答匹配方法,其特征在于,包括如下步骤:
步骤1:对于问答文本集合中的每对问题和答案文本,首先基于Word2vec工具分别将它们转化为问题词向量和答案词向量,然后对于问题词向量和答案词向量,分别利用长短期记忆网络(LSTM:Long Short-Term Memory)进行问题和答案文本词序特征的学习,并将各自LSTM网络的输出向量接入到卷积神经网络(CNN:Convolutional Neural Network)中来提取问题和答案文本更深层的词语特征。
步骤2:基于步骤1中得到问题和答案文本的词语特征,计算出问题和答案文本的匹配程度矩阵,并对该矩阵做基于注意机制的池化操作,选取问题和答案文本中语义最相关的若干个关键词。然后,把这些关键词输入到LSTM网络中进行训练,从而得到问题和答案文本的最终语义特征向量。根据计算语义特征向量的空间距离得到问答文本对之间的匹配分数,正确的答案匹配分数高,非正确的答案匹配分数低,从而选取最大的值作为问题的答案。
2.如权利要求1所述的方法,其特征在于,给出了具体的实施例技术方案。

说明书全文

一种基于深度学习的问答匹配方法

技术领域

[0001] 本发明涉及计算机应用技术领域,尤其涉及一种基于深度学习的问答匹配技术。

背景技术

[0002] 智能问答系统主要解决问句的真实意图分析、问句与答案之间的匹配关系,理解以自然 语言形式描述的用户提问,并通过检索异构语料库或问答知识库返回简洁、精确的匹配正确 答案。问答系统处理框架包括问句理解,信息检索,答案生成三个组成部分。依据用户问题 的所属数据领域,问答系统可分为面向限定域的问答系统、面向开放域的问答系统、以及面 向常用问题集(frequent asked questions,FAQ)的问答系统。本发明主要阐述基于检索式的问 答系统的处理框架方法。
[0003] 传统问答系统中构建的机器学习模型基本属于浅层模型,需要依赖人工构造基本特征, 存在着主观性误差,缺少对不同领域数据处理的泛化能。研究人员不得不进行针对性的数 据标注,并且需要依据研究人员的观察和经验来提取模型所需的有效特征。这种特征提取方 式不仅工作量巨大,特征质量较差,匹配准确度不高,而且还要往往需要借助引入诸如语义 词典(WordNet),语义知识库(Freebase)等外部语义资源。比如,问句分类过程中常用的 基于支持向量机(SVM)的分类模型,答案抽取使用的基于条件随机场(CRF)的序列标注 模型,以及候选答案验证过程中使用的基于逻辑回归(LR)的问答匹配模型等。
[0004] 随着深度学习技术在图像分类、语音识别等任务上被深入探索并取得了突出的效果,表 现出了优异的表示特征学习能力。深度学习主要以深度神经网络为主,在自然语言处理领域 上主要集中在对词语、句子和篇章的表示学习以及相关应,使用一种名为词嵌入(Word Embedding)或词向量的新型向量表示,模型主要以递归神经网络(Recursive Neural Network)、 循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network, CNN)的句子建模。在问答系统领域上,深度学习方法可以抽象出问题和答案的本质信息的 表示以及问句答案间的语义匹配关系,另外在问答语句匹配的过程中,一般是句子中某些关 键语义的词语能够决定是否能够正确匹配,可以考虑舍弃一些对匹配关系无用的词语。所以 基于注意力机制的池化(Pooling)方式可以选择出问答对中匹配关系最好的词语,从而能够 提高问答句子的匹配准确率。基于注意力机制模型在自然语言处理任务中表现出较好的研究 成果,譬如,在机器翻译上Encoder-Decoder模型,Bahdanau等人借用注意力机制根据目标 输出词语,计算一个中间语义向量来生成源词语的注意力权值,语义关系越相近的一对源词 语和目标词语,注意力权值就越大,这种机制也符合人类的注意力思维,对目标信息的提取 进行进步的重点关注。结合深度神经网络学习模型以及注意力机制可以学习到语句中深层的 语法和语义信息特征,选取出问答对中的适合于语义匹配的关键词,从而能够问答匹配的准 确性。
[0005] 然而,我们发现,上述现有方法主要存在特征工程工作量巨大、跨领域性较弱以及准确 度不高等明显缺陷

发明内容

[0006] 本发明的目的就是为了解决上述现有方法存在的缺陷,提出一种基于深度学习的问答匹 配技术,其主要处理流程如图1所示:
[0007] 本发明可以通过以下技术方案来实现,主要包括两个步骤:
[0008] 步骤1:对于问答文本集合中的每对问题和答案文本,首先基于Word2vec工具分别将它 们转化为问题词向量和答案词向量,然后对于问题词向量和答案词向量,分别利用长短期记 忆网络(LSTM:Long Short-Term Memory)进行问题和答案文本词序特征的学习,并将各自 LSTM网络的输出向量接入到卷积神经网络(CNN:Convolutional Neural Network)中来提取 问题和答案文本更深层的词语特征。
[0009] 步骤2:基于步骤1中得到问题和答案文本的词语特征,计算出问题和答案文本的匹配 程度矩阵,并对该矩阵做基于注意力机制的池化操作,选取问题和答案文本中语义最相关的 若干个关键词。然后,把这些关键词输入到LSTM网络中进行训练,从而得到问题和答案文 本的最终语义特征向量。根据计算语义特征向量的空间距离得到问答文本对之间的匹配分数, 正确的答案匹配分数高,非正确的答案匹配分数低,从而选取最大的值作为问题的答案。
[0010] 本发明具有以下优点:
[0011] 1、本发明相比于传统的方法,不需要依赖复杂且耗时的人工特征构造工程,效率较高。
[0012] 2、本发明基于预训练词向量和深度神经网络学习模型,在语料充足的情况下,能够充分 学习文本的句法,语法和语义特征,模型具有很好的灵活性和鲁棒性。
[0013] 3、本发明借助注意力机制方法,能够学习到问答对语义匹配的关键词语,丢弃一些非关 键词的干扰影响,从而能够提高问答匹配的准确性。附图说明
[0014] 图1本发明的处理流程图

具体实施方式

[0015] 基于本发明概括的技术方案,以下进一步给出实施例技术方案,详细过程及细节如下:
[0016] 在步骤1中,对于问答文本集合中的每对问题和答案文本,本发明首先基于Word2vec工 具分别将它们转化为问题词向量和答案词向量,从而得到问答文本集合所对应的问题词向量 矩阵Q=(q1,q2,…,ql)和答案词向量A=(a1,a2,…,am),其中l和m分别为问答文本集合 中题和答案的数量,qi(1≤i≤l)为第i个问题所对应的列向量,aj(1≤j≤m)为第j个答案所对应的 列向量。
[0017] 接着,本发明把问题词向量矩阵Q和答案词向量A输入到LSTM网络中去训练学习词序 序列的语义特征信息。为了便于并行矩阵的计算,本发明中输入的长度选定一个最大值,句 子中的词语较少则用0补充,大于最大的词语长度的句子则会截掉,模型中所有权重W和偏 置b随机初始化为U(-0.05,+0.05)均匀分布。
[0018] 在学习过程中,本发明首先通过LSTM网络内部的遗忘ft来决定LSTM网络从细胞单 元(cell)状态中丢弃哪些信息,同时,t时刻的词语会读取t-1个隐藏层的输出ht-1和当前时 刻输入词向量qt,以及输入一个在0到1之间的偏置bf,并传递给t-1时刻的细胞单元状态 Ct-1,其计算方式为:ft=σ(Wf[qt,ht-1]+bf),其中σ为Sigmoid激励函数,Wf为 遗忘门权重矩阵。其次,本发明通过输入门it来决定什么值需要进行更新,其计算公式表示 为:it=σ(Wi[qt,ht-1]+bi),其中σ为Sigmoid激励函数,Wi为输入门权重矩阵,bi为0 到1之间的偏置。然后,本发明根据Tanh非线性激活函数来创建候选值 其计算公式表  示为:
其中Wc为候选权重矩阵,bc为0到1之间的偏 置。在此基础
上,本发明更新t时刻的细胞单元内部状态Ct,其计算公式为: 
最后,本发明计算并获取输出门的向量为Ot,其计算公式为: Ot=σ(Wo[qt,ht-1]+bo),其中σ为Sigmoid激励函数,Wo为输出门权重矩阵,bo为0 到1之间的偏置,以及LSTM网络隐藏层的输出值ht,其计算公式为: ht=Ot*tanh(Ct)。特别,为了能够让t时刻的输入包括在它之前和之后的信息,在 在学习过程中,本发明使用双向长短期记忆神经网络(BLSTM:
Bidirectional Long Short-Term Memory)将输入序列从正向和反向都输入,在t时刻的输出为两个方向隐层输出 和 的 叠加,即表示为:
[0019] 接着,本发明把LSTM网络的输出结果作为输入到CNN网络中,去学习更深层次的句子 n-gram局部特征信息。我们设定卷积窗口大小为k,相邻的词向量拼接矩阵为Z,卷积核数为 c,那么卷积的过程如下:
[0020] G=f(W Z+b),
[0021] 其中,f是ReLU激活函数,W和b为随机正态分布初始化U(0,0.05)的权重矩阵和偏置。 经过卷积操作后,我们可以得到问题文本的深层词向量矩阵DQ和答案文本的深层词向量矩 阵DA。
[0022] 在步骤2中,本发明首先针对步骤1中获得的问题文本深层词向量矩阵DQ和答案文本 深层词向量矩阵DA,计算问答文本对中每对词之间的一个匹配程度矩阵S,计算方式如下:
[0023] S(i,j)=Tanh(DQi⊙ADj)
[0024] 其中Tanh为非线性激活函数,DQi表示问题文本中第i个词向量,DAj表示答案文本中 第j个词向量,⊙为向量点乘,S(i,j)表示问题文本第i个词与答案文本第j个词之间的语 义匹配分数。接着,本发明对匹配程度矩阵S做行级的最大池化,并生成向量gq,其中第 i个值 表示问题文本第i个词对答案的重要性程度,同时,对匹配程度矩阵S做列级的最 大池化,并生成向量ga,其中第j个值 表示答案文本第j个词对问题的重要性程度。然 后,本发明分别对gq和ga选取最大的p个值,分别把这p个值对应的词语重新输入到 LSTM网络中,并选取最后时刻的隐藏层输出,分别得到维度为h的语义特征向量Oq和Oa, 从而根据Oq与Oa来计算向量间的空间距离值作为问题文本和答案文本匹配的程度,其计算 方式为:
[0025]
[0026] 其中||Oq||和||Oa||分别为Oq和Oa的长度。最终,本发明依据答案文本中与问题文本之间 的匹配分数,选取最大的值作为问题的正确答案。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈