一种改进的基于深度学习的自然语言特征精确提取方法

专利类型 发明授权 法律事件 公开; 实质审查; 授权; 权利转移;
专利有效性 有效专利 当前状态 授权
申请号 CN201610464036.4 申请日 2016-06-23
公开(公告)号 CN106095733B 公开(公告)日 2019-01-25
申请人 闽江学院; 申请人类型 学校
发明人 张福泉; 第一发明人 张福泉
权利人 闽江学院 权利人类型 学校
当前权利人 福州果集信息科技有限公司 当前权利人类型 企业
省份 当前专利权人所在省份:福建省 城市 当前专利权人所在城市:福建省福州市
具体地址 当前专利权人所在详细地址:福建省福州市闽侯县上街镇溪源宫路200号 邮编 当前专利权人邮编:350108
主IPC国际分类 G06F17/20 所有IPC国际分类 G06F17/20
专利引用数量 3 专利被引用数量 0
专利权利要求数量 1 专利文献类型 B
专利代理机构 福州元创专利商标代理有限公司 专利代理人 蔡学俊;
摘要 本 发明 涉及种改进的基于 深度学习 的自然语言特征精确提取方法。该方法在对自然语言进行 基础 分析时,采用最大熵方法建立自然语言的条件最大熵模型,并以此为基础,采用IFS 算法 选取自然语言属性特征,通过对自然语言属性特征进行匹配,选取与实际相符的特征,采用深度学习方法对自然语言特征进行精确的提取。本发明方法采用改进的提取方法进行自然语言特征提取时,相比传统的提取方法其提取准确度提高,误差率降低,具有定的实用性。
权利要求

1.一种改进的基于深度学习的自然语言特征精确提取方法,其特征在于:包括如下步骤,
S1:采用最大熵方法建立自然语言的条件最大熵模型;
S2:在步骤S1建立的条件最大熵模型的基础上,采用IFS算法进行自然语言属性特征的选择;
S3:对自然语言属性特征进行匹配,获取实际的自然语言特征,通过深度学习方法,获取自然语言特征的协方差矩阵,从而准确的提取自然语言特征;
所述步骤S1的具体实现过程如下:
假设,自然语言训练样本属性集合为(x1,y1),(x2,y2),...,(xN,yN),则其概率分布如下:
式中,C(x,y)是自然语言训练样本属性集(x,y)在训练样本时出现的次数;当指数函数f(x,y)在经验分布中的期望值为所需的自然语言时,可求出此时的期望值为:
在整个概率分布中f(x,y)除了表示样本特征f在某个特定的(x,y)的取值,还表示整个样本特征函数f;则条件最大熵模型可通过约束相应的特征函数f的期望值来实现,且模型必须与期望值保持一致;在模型p(y|x)中,特征f的期望值为:
其中,p(x)是训练样本中的经验分布,此时我们称特征在模型中的期望值为特征的模型期望,简称特征期望;且此时的期望值与自然语言经验期望值相同,且满足以下约束条件:
其中,N(d)表示存在的单个自然语言的个数;N(d,w)为w约束条件下单个自然语个数;
当无自然语言出现时,取0;
在满足约束条件后,采用拉格朗日乘法对约束条件进行优化,建立自然语言的条件最大熵模型,具体如下:
首先设置原始的约束优化问题,表达式为
式中,H(p)为单个自然语言属性集p出现的次数;
然后在每个自然语言属性特征fi引入一个参数λi,λi为拉格朗日算子;且p(y|x)是条件概率,使得拉格朗日函数趋于均衡的状态,即使∑yp(y|x)=1;同时为每个样本实例x引入一个参数k(x),使函数解处于最优;那么拉格朗日函数可定义为:
式中:p(fi)为单个自然语言属性集P在i时刻的期望值, 为单个自然语言属性集P在i时刻的估计值;
将式(6)中的λ固定,计算没有约束的拉格朗日函数Λ(p,λ)的最大值,用pλ(y|x)来表示Λ(p,λ)取最大时的分布p(y|x),ψ(λ)表示最大值,那么:
ψ(λ)=Λ(pλ,λ)                               (8)
当 时,可解得:
把pλ(y|x)带入∑yp(y|x)=1,可得条件最大值:
其中: 为样本特征值,λi为样本特征fi的权重,λ表示所有λi
的集合,则得到条件最大熵模型可表示为:
由此可知,条件最大熵模型即为自然语言训练样本属性的对数似然比最大的符合指数分布的模型;
所述步骤S2的具体实现过程如下:
条件最大熵模型可以转换为:
式中:fi表示第i个自然语言属性特征,λi是对应特征权重,Z(x)为归一化因子;假设,那么,条件概率p(y|x)可表示
为:
p(y|x)=sum(y|x)/Z(x)                                        (13)此时,需要对增益计算进行重新推导,进行属性特征选择,则得到的属性特征为:
对属性特征进行简单的求导运算,对属性特征进行选择,结果如下:
式中,sums∪f为自然语言属性集s与自然语言属性集f的和集,zs∪f为自然语言属性集s与自然语言属性集f的和集的最优解,α(y|x)为求导后的特征在特定时间的取值;
上述过程实现了对自然语言属性特征进行选择,为实现自然语言精确提取方法的改进提供了基础依据;
所述步骤S3的具体实现过程如下:
假设,自然语言有M个属性,分别为a1,a2,…,aM,则属性ai的取值范围为(1,2,...,ni),其中ni为第i属性值数,那么,为了简化特征,只考虑属性合取的特征,可表示为:
f=(v1,v2,...,vi,t)                                           (16)其中,vi∈{0}∪(1,2,...,ni),vi=0意味着第i个属性可以忽略,t是属性特征的目标概念类,t∈{1,2,...,Y};若在属性特征向量表示中,把可忽略的属性特征省略,即为稀疏向量表示;则有条件部分的特征f可表示为:
f=(j1:vj1,j2:vj2,...,jk:vjk,t)                             (17)其中:k称为属性特征维数,表示属性特征中非零的个数,ji∈{1,2,...,M}是属性特征中非零属性特征的编号,vji∈{1,2,...,ni}为非零属性的值;所以,为了计算p(y|x),必须找到与之相互匹配的所有自然语言特征,结果如下所示:
mfs(x)=∪mfs(x,y)                                       (18)
在此基础上,采用深度学习法对自然语言特征进行提取,首先对自然语言特征进行规(1) (2) (m)
整化,假设自然语言特征样本为{x ,x ,...,x },m为样本数,维数为n, 表示第j个自然语言特征值,则其均值为:
规整化后的原始自然语言特征均值为:
深度学习方法过程中,自然语言特征的协方差矩阵,表达式为:
∑为自然语言特征样本x的协方差矩阵,对矩阵∑计算特征值Λ和特征向量U,表达式分别如下所示:
Λ=[λ1,λ2,...,λn]                                           (22)U=[u1,u2,...,un]                                            (23)最终得到的自然语言特征表达式为:
xpca=[u1,u2,...,up]Td                                       (24)其中:T为常数,d为特征维数;
根据上述的自然语言特征表达式,即可准确的提取自然语言特征。

说明书全文

一种改进的基于深度学习的自然语言特征精确提取方法

技术领域

[0001] 本发明涉及一种改进的基于深度学习的自然语言特征精确提取方法。

背景技术

[0002] 自然语言通常是指一种自然地随文化演化的语言,是一种为某些特定目的而创造[1,2]的语言。具有一定的认识性和不确定性 。随着计算机技术的不断发展,用自然语言与计算机进行通信,是人们长期以来所追求的目标[3,4]。因为跟们可以用自己最习惯的语言来使用计算机,不需要花费大量的时间和精去学习各种计算机语言[5,6]。人们也可以通过它进一步了解人类语言能力和智能机制,对自然语言进行研究是实现人与计算机之间进行有效[7]
通信的基础,是计算机科学领域与人工智能领域中一个重要方向 。在对自然语言进行研究时,如何精确的提取自然语言特征成为了该领域亟待解决的问题,受到了广大学者的关注,也出现了很多好的方法[8,9]。
[0003] 其中,文献[10]提出基于互联网自然标注资源的自然语言特征提取方法,该方法从标注资源的定义和基本类型,基于自然标注资源的计算、方法层面上的初步思考等三方面进行了分析,最后在最大限度地集成起来,实现自然语言特征的提取,但是存在提取时间长,杂质多的问题。文献[11]提出基于主题词提取的自然语言特征提取方法,该方法将索要提取的自然语言主题及自身的关键词相结合,作为反应自然语言特征的特征词,然后应用传统的方法对自然语言特征进行获取。该方法可以快速的提取自然语言特征,但是存在特征提取误差大、精度低的问题。文献[12]提出基于知识图谱的自然语言特征提取方法,该方法利用知识图谱呈现的统计结果,求出自然语言间的相似性,从中在提取资源语言特征,该方法虽然能够实现对自然语言特征的提取,但是提取特征容易受到主观性带来的误差,导致提取精度低的问题。
[0004] 针对上述问题的产生,提出基于深度学习的自然语言特征精确提取方法。采用最大熵方法建立自然语言的条件最大熵模型,并以此为基础,采用IFS算法选取自然语言属性特征,通过对自然语言属性特征进行匹配,选取与实际相符的特征,采用深度学习方法对自然语言特征进行精确的提取。实验结果证明,采用改进的提取方法进行自然语言特征提取时,相比传统的提取方法其提取准确度提高,误差率降低。
[0005] 参考文献:
[0006] [1]许坤,冯岩松,赵东岩,等.面向知识库的中文自然语言问句的语义理解[J].北京大学学报:自然科学版,2014,50(1):85-92.
[0007] [2]Selway M,Grossmann G,Mayer W,et al.Formalising natural language specifications using a cognitive linguistic/configuration based approach[J].Information Systems,2015,54:59-68.
[0008] [3]俞士汶,朱学锋,耿立波.自然语言处理技术与语言深度计算[J].中国社会科学,2015(3):127-135.
[0009] [4]Safari L,Patrick J D.Restricted natural language based querying of clinical databases[J].Journal of Biomedical Informatics,2014,52:338-353.[0010] [5]朱国进,郑宁.基于自然语言处理的算法知识名称发现[J].计算机工程,2014,40(12):126-131.
[0011] [6]Ren J,Zabalza J,Marshall S,et al.Effective Feature Extraction and Data Reduction in Remote Sensing Using Hyperspectral Imaging[Applications Corner][J].IEEE Signal Processing Magazine,2014,31(31):149-154.
[0012] [7]陈恩红,邱思语,许畅,等.单词嵌入——自然语言的连续空间表示[J].数据采集与处理,2014,29(1):19-29.
[0013] [8]Quan C,Ren F.Unsupervised product feature extraction for feature-oriented opinion determination[J].Information Sciences,2014,272(8):16-28.[0014] [9]Chatterji B N.Feature Extraction Methods for Character Recognition[J].Iete Technical Review,2015,3(1):9-22.
[0015] [10]葛玮,吴佳.基于计算机智能识别技术的自然语言处理模型设计[J].无线互联科技,2014(9):40-40.
[0016] [11]曾以成,陈雨莺,毛燕湖,等.基于经验模态分解结合傅氏变换与Wigner分布的Mel频率倒谱系数提取[J].湘潭大学自然科学学报,2015,37(2):20-26.。

发明内容

[0017] 本发明的目的在于针对上述存在问题,提供一种改进的基于深度学习的自然语言特征精确提取方法,该方法相比传统的提取方法其提取准确度提高,误差率降低。
[0018] 为实现上述目的,本发明的技术方案是:一种改进的基于深度学习的自然语言特征精确提取方法,包括如下步骤,
[0019] S1:采用最大熵方法建立自然语言的条件最大熵模型;
[0020] S2:在步骤S1建立的条件最大熵模型的基础上,采用IFS算法进行自然语言属性特征的选择;
[0021] S3:对自然语言属性特征进行匹配,获取实际的自然语言特征,通过深度学习方法,获取自然语言特征的协方差矩阵,从而准确的提取自然语言特征。
[0022] 在本发明一实施例中,所述步骤S1的具体实现过程如下:
[0023] 假设,自然语言训练样本属性集合为(x1,y1),(x2,y2),...,(xN,yN),则其概率分布如下:
[0024]
[0025] 式中,C(x,y)是自然语言训练样本属性集(x,y)在训练样本时出现的次数;当指数函数f(x,y)在经验分布中的期望值为所需的自然语言时,可求出此时的期望值为:
[0026]
[0027] 在整个概率分布中f(x,y)除了表示样本特征f在某个特定的(x,y)的取值,还表示整个样本特征函数f;则条件最大熵模型可通过约束相应的特征函数f的期望值来实现,且模型必须与期望值保持一致;在模型p(y|x)中,特征f的期望值为:
[0028]
[0029] 其中, 是训练样本中的经验分布,此时我们称特征在模型中的期望值为特征的模型期望,简称特征期望;且此时的期望值与自然语言经验期望值相同,且满足以下约束条件:
[0030]
[0031] 其中,c表示单个自然语言属性集w出现的次数,N(d)表示存在的单个自然语言的个数;N(d,w)为w约束条件下单个自然语个数;当无自然语言出现时,取0;
[0032] 在满足约束条件后,采用拉格朗日乘法对约束条件进行优化,建立自然语言的条件最大熵模型,具体如下:
[0033] 首先设置原始的约束优化问题,表达式为
[0034]
[0035] 式中,H(p)为单个自然语言属性集p出现的次数;
[0036] 然后在每个自然语言属性特征fi引入一个参数λi,λi为拉格朗日算子;且p(y|x)是条件概率,使得拉格朗日函数趋于均衡的状态,即使∑yp(y|x)=1;同时为每个样本实例x引入一个参数k(x),使函数解处于最优;那么拉格朗日函数可定义为:
[0037]
[0038] 式中:p(fi)为单个自然语言属性集P在i时刻的期望值, 为单个自然语言属性集P在i时刻的估计值;
[0039] 将式(6)中的λ固定,计算没有约束的拉格朗日函数Λ(p,λ)的最大值,用pλ(y|x)来表示Λ(p,λ)取最大时的分布p(y|x),ψ(λ)表示最大值,那么:
[0040]
[0041] ψ(λ)=Λ(pλ,λ)   (8)
[0042] 当 时,可解得:
[0043]
[0044] 把pλ(y|x)带入∑yp(y|x)=1,可得条件最大值:
[0045]
[0046] 其中: 为样本特征值,λi为样本特征fi的权重,λ表示所有λi的集合,则得到条件最大熵模型可表示为:
[0047]
[0048] 由此可知,条件最大熵模型即为自然语言训练样本属性的对数似然比最大的符合指数分布的模型。
[0049] 在本发明一实施例中,所述步骤S2的具体实现过程如下:
[0050] 条件最大熵模型可以转换为:
[0051]
[0052] 式中:fi表示第i个自然语言属性特征,λi是对应特征权重,Z(x)为归一化因子;假设, 那么,条件概率p(y|x)可表示为:
[0053] p(y|x)-sum(y|x)/Z(x)   (13)
[0054] 此时,需要对增益计算进行重新推到,进行属性特征选择,则得到的属性特征为:
[0055]
[0056] 对属性特征进行简单的求导运算,对属性特征进行选择,结果如下:
[0057]
[0058] 式中,sums∪f为自然语言属性集s与自然语言属性集f的和集,zs∪f为自然语言属性集s与自然语言属性集f的和集的最优解,α(y|x)为求导后的特征在特定时间的取值;
[0059] 上述过程实现了对自然语言属性特征进行选择,为实现自然语言精确提取方法的改进提供了基础依据。
[0060] 在本发明一实施例中,所述步骤S3的具体实现过程如下:
[0061] 假设,自然语言由M个属性,分别为a1,a2,…,aM,则属性ai的取值范围为(1,2,...,ni),其中ni为第i属性值数,那么,为了简化特征,只考虑属性合取的特征,可表示为:
[0062] f=(v1,v2,...,vi,t)   (16)
[0063] 其中,vi∈{0}∪(1,2,...,ni),vi=0意味着第i个属性可以忽略,t是属性特征的目标概念类,t∈{1,2,...,Y};若在属性特征向量表示中,把可忽略的属性特征省略,即为稀疏向量表示;则有条件部分的特征f可表示为:
[0064] f=(j1:vj1,j2:vj2,...,jk:vjk,t)   (17)
[0065] 其中:k称为属性特征维数,表示属性特征中非零的个数,ji∈{1,2,...,M}是属性特征中非零属性特征的编号,vji∈{1,2,...,ni}为非零属性的值;所以,为了计算p(y|x),必须找到与之相互匹配的所有自然语言特征,结果如下所示:
[0066] mfs(x)=∪mfs(x,y)   (18)
[0067] 在此基础上,采用深度学习法对自然语言特征进行提取,首先对自然语言特征进行规整化,假设自然语言特征样本为{x(1),x(2),...,x(m)},m为样本数,维数为n, 表示第j个自然语言特征值,则其均值为:
[0068]
[0069] 规整化后的原始自然语言特征均值为:
[0070]
[0071] 深度学习方法过程中,自然语言特征的协方差矩阵,表达式为:
[0072]
[0073] ∑为自然语言特征样本x的协方差矩阵,对矩阵∑计算特征值Λ和特征向量U,表达式分别如下所示:
[0074] Λ=[λ1,λ2,...,λn]   (22)
[0075] U=[u1,u2,...,un]   (23)
[0076] 最终得到的自然语言特征表达式为:
[0077] xpca=[u1,u2,...,up]Td   (24)
[0078] 其中:T为常数,d为特征维数;
[0079] 根据上述的自然语言特征表达式,即可准确的提取自然语言特征。
[0080] 相较于现有技术,本发明具有以下有益效果:本发明方法采用最大熵方法建立自然语言的条件最大熵模型,并以此为基础,采用IFS算法选取自然语言属性特征,通过对自然语言属性特征进行匹配,选取与实际相符的特征,采用深度学习方法对自然语言特征进行精确的提取;实验结果证明,采用改进的提取方法进行自然语言特征提取时,相比传统的提取方法其提取准确度提高,误差率降低,具有一定的实用性。附图说明
[0081] 图1为本发明方法流程图
[0082] 图2为不同算法下特征提取时间对比图。
[0083] 图3为不同算法下特征提取误差率对比图。
[0084] 图4为不同算法下特征提取准确率对比图。

具体实施方式

[0085] 下面结合附图,对本发明的技术方案进行具体说明。
[0086] 如图1所示,本发明的一种改进的基于深度学习的自然语言特征精确提取方法,其特征在于:包括如下步骤,
[0087] S1:采用最大熵方法建立自然语言的条件最大熵模型,具体实现如下:
[0088] 假设,自然语言训练样本属性集合为(x1,y1),(x2,y2),...,(xN,yN),则其概率分布如下:
[0089]
[0090] 式中,C(x,y)是自然语言训练样本属性集(x,y)在训练样本时出现的次数;当指数函数f(x,y)在经验分布中的期望值为所需的自然语言时,可求出此时的期望值为:
[0091]
[0092] 在整个概率分布中f(x,y)除了表示样本特征f在某个特定的(x,y)的取值,还表示整个样本特征函数f;则条件最大熵模型可通过约束相应的特征函数f的期望值来实现,且模型必须与期望值保持一致;在模型p(y|x)中,特征f的期望值为:
[0093]
[0094] 其中, 是训练样本中的经验分布,此时我们称特征在模型中的期望值为特征的模型期望,简称特征期望;且此时的期望值与自然语言经验期望值相同,且满足以下约束条件:
[0095]
[0096] 其中,c表示单个自然语言属性集w出现的次数,N(d)表示存在的单个自然语言的个数;N(d,w)为w约束条件下单个自然语个数;当无自然语言出现时,取0;
[0097] 在满足约束条件后,采用拉格朗日乘法对约束条件进行优化,建立自然语言的条件最大熵模型,具体如下:
[0098] 首先设置原始的约束优化问题,表达式为
[0099]
[0100] 式中,H(p)为单个自然语言属性集p出现的次数;
[0101] 然后在每个自然语言属性特征fi引入一个参数λi,λi为拉格朗日算子;且p(y|x)是条件概率,使得拉格朗日函数趋于均衡的状态,即使∑yp(y|x)=1;同时为每个样本实例x引入一个参数k(x),使函数解处于最优;那么拉格朗日函数可定义为:
[0102]
[0103] 式中:p(fi)为单个自然语言属性集P在i时刻的期望值, 为单个自然语言属性集P在i时刻的估计值;
[0104] 将式(6)中的λ固定,计算没有约束的拉格朗日函数Λ(p,λ)的最大值,用pλ(y|x)来表示Λ(p,λ)取最大时的分布p(y|x),ψ(λ)表示最大值,那么:
[0105]
[0106] ψ(λ)=Λ(pλ,λ)   (8)
[0107] 当 时,可解得:
[0108]
[0109] 把pλ(y|x)带入∑yp(y|x)=1,可得条件最大值:
[0110]
[0111] 其中: 为样本特征值,λi为样本特征fi的权重,λ表示所有λi的集合,则得到条件最大熵模型可表示为:
[0112]
[0113] 由此可知,条件最大熵模型即为自然语言训练样本属性的对数似然比最大的符合指数分布的模型。
[0114] S2:在步骤S1建立的条件最大熵模型的基础上,采用IFS算法进行自然语言属性特征的选择,具体实现如下:
[0115] 条件最大熵模型可以转换为:
[0116]
[0117] 式中:fi表示第i个自然语言属性特征,λi是对应特征权重,Z(x)为归一化因子;假设, 那么,条件概率p(y|x)可表示为:
[0118] p(y|x)-sum(y|x)/Z(x)   (13)
[0119] 此时,需要对增益计算进行重新推到,进行属性特征选择,则得到的属性特征为:
[0120]
[0121] 对属性特征进行简单的求导运算,对属性特征进行选择,结果如下:
[0122]
[0123] 式中,sums∪f为自然语言属性集s与自然语言属性集f的和集,zs∪f为自然语言属性集s与自然语言属性集f的和集的最优解,α(y|x)为求导后的特征在特定时间的取值;
[0124] 上述过程实现了对自然语言属性特征进行选择,为实现自然语言精确提取方法的改进提供了基础依据。
[0125] S3:对自然语言属性特征进行匹配,获取实际的自然语言特征,通过深度学习方法,获取自然语言特征的协方差矩阵,从而准确的提取自然语言特征,具体实现如下:
[0126] 假设,自然语言由M个属性,分别为a1,a2,…,aM,则属性ai的取值范围为(1,2,...,ni),其中ni为第i属性值数,那么,为了简化特征,只考虑属性合取的特征,可表示为:
[0127] f=(v1,v2,...,vi,t)   (16)
[0128] 其中,vi∈{0}∪(1,2,...,ni),vi=0意味着第i个属性可以忽略,t是属性特征的目标概念类,t∈{1,2,...,Y};若在属性特征向量表示中,把可忽略的属性特征省略,即为稀疏向量表示;则有条件部分的特征f可表示为:
[0129] f=(j1:vj1,j2:vj2,...,jk:vjk,t)   (17)
[0130] 其中:k称为属性特征维数,表示属性特征中非零的个数,ji∈{1,2,...,M}是属性特征中非零属性特征的编号,vji∈{1,2,...,ni}为非零属性的值;所以,为了计算p(y|x),必须找到与之相互匹配的所有自然语言特征,结果如下所示:
[0131] mfs(x)=∪mfs(x,y)   (18)
[0132] 在此基础上,采用深度学习法对自然语言特征进行提取,首先对自然语言特征进(1) (2) (m)行规整化,假设自然语言特征样本为{x ,x ,...,x },m为样本数,维数为n, 表示第j个自然语言特征值,则其均值为:
[0133]
[0134] 规整化后的原始自然语言特征均值为:
[0135]
[0136] 深度学习方法过程中,自然语言特征的协方差矩阵,表达式为:
[0137]
[0138] ∑为自然语言特征样本x的协方差矩阵,对矩阵∑计算特征值Λ和特征向量U,表达式分别如下所示:
[0139] Λ=[λ1,λ2,...,λn]   (22)
[0140] U=[u1,u2,...,un]   (23)
[0141] 最终得到的自然语言特征表达式为:
[0142] xpca=[u1,u2,...,up]Td   (24)
[0143] 其中:T为常数,d为特征维数;
[0144] 根据上述的自然语言特征表达式,即可准确的提取自然语言特征。
[0145] 以下对本发明的实现方案进行具体阐述。
[0146] 本发明的一种改进的基于深度学习的自然语言特征精确提取方法,包括如下:
[0147] 1 自然语言基础分析
[0148] 1.1 建立自然语言的调节最大熵模型
[0149] 在对自然语言进行基础分析时,采用最大熵方法建立条件最大熵模型,为获取自然语言特征提供基础依据。
[0150] 假设,自然语言训练样本属性集合为(x1,y1),(x2,y2),...,(xN,yN),则其概率分布如下:
[0151]
[0152] 式中,C(x,y)是自然语言训练样本属性集(x,y)在训练样本时出现的次数;当指数函数f(x,y)在经验分布中的期望值为所需的自然语言时,可求出此时的期望值为:
[0153]
[0154] 在整个概率分布中f(x,y)除了表示样本特征f在某个特定的(x,y)的取值,还表示整个样本特征函数f;则条件最大熵模型可通过约束相应的特征函数f的期望值来实现,且模型必须与期望值保持一致;在模型p(y|x)中,特征f的期望值为:
[0155]
[0156] 其中, 是训练样本中的经验分布,此时我们称特征在模型中的期望值为特征的模型期望,简称特征期望;且此时的期望值与自然语言经验期望值相同,且满足以下约束条件:
[0157]
[0158] 其中,c表示单个自然语言属性集w出现的次数,N(d)表示存在的单个自然语言的个数;N(d,w)为w约束条件下单个自然语个数;当无自然语言出现时,取0;
[0159] 在满足约束条件后,采用拉格朗日乘法对约束条件进行优化,建立自然语言的条件最大熵模型,具体如下:
[0160] 首先设置原始的约束优化问题,表达式为
[0161]
[0162] 式中,H(p)为单个自然语言属性集p出现的次数;
[0163] 然后在每个自然语言属性特征fi引入一个参数λi,λi为拉格朗日算子;且p(y|x)是条件概率,使得拉格朗日函数趋于均衡的状态,即使∑yp(y|x)=1;同时为每个样本实例x引入一个参数k(x),使函数解处于最优;那么拉格朗日函数可定义为:
[0164]
[0165] 式中:p(fi)为单个自然语言属性集P在i时刻的期望值, 为单个自然语言属性集P在i时刻的估计值;
[0166] 将式(6)中的λ固定,计算没有约束的拉格朗日函数Λ(p,λ)的最大值,用pλ(y|x)来表示Λ(p,λ)取最大时的分布p(y|x),ψ(λ)表示最大值,那么:
[0167]
[0168] ψ(λ)=Λ(pλ,λ)   (8)
[0169] 当 时,可解得:
[0170]
[0171] 把pλ(y|x)带入∑yp(y|x)=1,可得条件最大值:
[0172]
[0173] 其中: 为样本特征值,λi为样本特征fi的权重,λ表示所有λi的集合,则得到条件最大熵模型可表示为:
[0174]
[0175] 由此可知,条件最大熵模型即为自然语言训练样本属性的对数似然比最大的符合指数分布的模型。
[0176] 1.2 自然语言属性特征的选择
[0177] 在获取条件最大熵模型的基础上,采用IFS算法(Incremental Feature Selection algorithm,简称IFS算法)进行自然语言属性特征的选择。
[0178] 条件最大熵模型可以转换为:
[0179]
[0180] 式中:fi表示第i个自然语言属性特征,λi是对应特征权重,Z(x)为归一化因子;假设, 那么,条件概率p(y|x)可表示为:
[0181] p(y|x)-sum(y|x)/Z(x)   (13)
[0182] 此时,需要对增益计算进行重新推到,进行属性特征选择,则得到的属性特征为:
[0183]
[0184] 对属性特征进行简单的求导运算,对属性特征进行选择,结果如下:
[0185]
[0186] 式中,sums∪f为自然语言属性集s与自然语言属性集f的和集,zs∪f为自然语言属性集s与自然语言属性集f的和集的最优解,α(y|x)为求导后的特征在特定时间的取值;
[0187] 上述过程实现了对自然语言属性特征进行选择,为实现自然语言精确提取方法的改进提供了基础依据。
[0188] 2 改进自然语言提取方法的实现
[0189] 传统的基于主题词提取的自然语言特征提取方法,通过将索要提取的自然语言主题及自身的关键词相结合,作为反应自然语言特征的特征词,对自然语言进行提取,存在提取结果不准确,效率低的问题。提出基于深度学习的自然语言特征精确提取方法,在对自然语言属性特征进行选择的基础上,进行属性特征匹配,并根据匹配结果对自然语言进行提取。
[0190] 假设,自然语言由M个属性,分别为a1,a2,…,aM,则属性ai的取值范围为(1,2,...,ni),其中ni为第i属性值数,那么,为了简化特征,只考虑属性合取的特征,可表示为:
[0191] f=(v1,v2,...,vi,t)   (16)
[0192] 其中,vi∈{0}∪(1,2,...,ni),vi=0意味着第i个属性可以忽略,t是属性特征的目标概念类,t∈{1,2,...,Y};若在属性特征向量表示中,把可忽略的属性特征省略,即为稀疏向量表示;则有条件部分的特征f可表示为:
[0193] f=(j1:vj1,j2:vj2,...,jk:vjk,t)   (17)
[0194] 其中:k称为属性特征维数,表示属性特征中非零的个数,ji∈{1,2,...,M}是属性特征中非零属性特征的编号,vji∈{1,2,...,ni}为非零属性的值;所以,为了计算p(y|x),必须找到与之相互匹配的所有自然语言特征,结果如下所示:
[0195] mfs(x)=∪mfs(x,y)   (18)
[0196] 在此基础上,采用深度学习法对自然语言特征进行提取,首先对自然语言特征进(1) (2) (m)行规整化,假设自然语言特征样本为{x ,x ,...,x },m为样本数,维数为n, 表示第j个自然语言特征值,则其均值为:
[0197]
[0198] 规整化后的原始自然语言特征均值为:
[0199]
[0200] 深度学习方法过程中,自然语言特征的协方差矩阵,表达式为:
[0201]
[0202] ∑为自然语言特征样本x的协方差矩阵,对矩阵∑计算特征值Λ和特征向量U,表达式分别如下所示:
[0203] Λ=[λ1,λ2,...,λn]   (22)
[0204] U=[u1,u2,...,un]   (23)
[0205] 最终得到的自然语言特征表达式为:
[0206] xpca=[u1,u2,...,up]Td   (24)
[0207] 其中:T为常数,d为特征维数;
[0208] 综上所述,通过对选择的自然语言属性特征进行匹配,获取实际的自然语言特征,通过深度学习方法,获取自然语言特征的协方差矩阵,可准确的提取自然语言特征。
[0209] 3 实验结果分析
[0210] 为了验证提出的基于深度学习的自然语言特征精确提取方法的有效性,需要进行一次实验分析,自然语言来自CoNLL2000的共享任务,其训练集为wsj 15-18,测试集为wsj20;其中,自然语言特征为800个,实验环境为1.13GhzCPU和768MB内存的计算机上进行。
[0211] 在自然语言特征量一定的情况下,采用改进的特征提取方法、文献[6]所用的提取方法及文献[7]所用的方法进行特征提取时间、误差率及准确率3方面的对比,对比结果如图2、图3,图4所示:
[0212] 由图2可知,采用文献[6]所用的提取方法时,其所需时间约为0.82s,而在特征量为300~600时一直处于波动状态,可知其稳定行较差;采用文献[7]所用的提取方法时,其所需提取时间约为1.63s,虽然在特征量为500~600个时提取时间有所下降,但会随着特征量的增加,提取时间也会随之增加采用改进的提取方法时,在特征量为500~700时,虽然出现了较大的波动,但是比文献[6]所用的提取方法及文献[7]所用的提取方法所需时间要短,约为0.51s,具有一定优势。
[0213] 在特征量一定的情况下,以误差率为指标进行自然语言提取误差率方面的对比实验,误差率公式如下式(25)所示:
[0214]
[0215] 对比结果如图3所示。
[0216] 由图3可知,采用文献[6]所用的提取方法时,其特征提取误差率约为21.3%,且在特征量为300~400,500~600,之处处于上升状态,虽然在特征量为400~500之处有所降低,但是其整体误差率一直处于上升状态;文献[7]所用的提取方法,其误差率约为34.8%,且会随着特征量的增加,误差率也有相应幅度的增加;改进的提取方法,其提取误差约为12.54%,虽然在特征量为500~800之处误差率有一定程度的提高,但比文献[6]所用的提取方法及文献[7]所用的提取方法存在的误差要小,具有一定的优越性。
[0217] 为了进一步证明改进方法提取的准确性,在特征量一定的情况下,采用不同的方法进行提取准确率方面的对比实验,结果如图4所示:
[0218] 由图4可知,采用文献[6]所用的特征提取方法时,其提取准确率约为71.24%,且在特征量为300~700时出现多次波动,稳定性较差;采用文献[7]所用的特征提取方法时,其提取准确率约为78.46%,虽然在特征量为400~800时其特征提取准确度一直处于上升状态,但上升程度较小;采用改进的特征提取方法时,其准确率约为95.7%,虽然随着特征量的增加多次出现准确率下降的问题,但是其整体准确率要比文献[6]、[7]所用的特征提取方法的准确率要高,具有一定的优势。
[0219] 4 总结
[0220] 针对自然语言特征提取一直存在提取误差大、效率低的问题,提出基于深度学习的自然语言特征精确提取方法,采用最大熵方法建立自然语言的条件最大熵模型,并以此为基础,采用IFS算法选取自然语言属性特征,通过对自然语言属性特征进行匹配,选取与实际相符的特征,采用深度学习方法对自然语言特征进行精确的提取。实验结果证明,采用改进的提取方法进行自然语言特征提取时,相比传统的提取方法其提取准确度提高,误差率降低,具有一定的实用性。
[0221] 以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
QQ群二维码
意见反馈