首页 / 专利库 / 人工智能 / 情感极性 / 一种自然语言处理方法和装置

一种自然语言处理方法和装置

阅读:309发布:2020-05-12

专利汇可以提供一种自然语言处理方法和装置专利检索,专利查询,专利分析的服务。并且本 申请 提供了一种 自然语言处理 方法,能够准确地判别词的 情感极性 。该方法包括:获取待处理词,该待处理词由M个字组成;确定该M个字中m个待处理字的极性特征信息,该m个待处理字中的第i个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性;根据该m个待处理字的极性特征信息,确定该待处理词的极性 特征向量 ,该极性特征向量包括与n个情感极性一一对应的n组分量;根据该待处理词的极性特征向量,通过预设的分类器,确定并输出该待处理词的情感极性;其中,M、m、n、i、j均为正整数,M≥m,i为[1,m]中的任意值,j为[1,n]中的任意值。,下面是一种自然语言处理方法和装置专利的具体信息内容。

1.一种自然语言处理方法,其特征在于,包括:
获取待处理词,所述待处理词由M个字组成;
确定所述M个字中m个待处理字的极性特征信息,所述m个待处理字中的第i个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,所述第i个字的第j个极性特征值由预存的词典中的目标词的数量与包括所述第i个字的全部词的数量的比值确定,所述目标词为包含所述第i个字的全部词中具有第j个极性特征值对应的情感极性的词;
根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,所述极性特征向量包括与n个情感极性一一对应的n组分量,所述n组分量中的第j组分量由所述m个待处理字中每个字的第j个极性特征值确定;
根据所述待处理词的极性特征向量,通过预设的分类器,确定并输出所述待处理词的情感极性;
其中,M、m、n、i、j均为正整数,M≥m,i为[1,m]中的任意值,j为[1,n]中的任意值。
2.根据权利要求1所述的方法,其特征在于,在m>1的情况下,所述根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,包括:
将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量,所述n组分量中的第j组分量包括m个极性特征值,所述m个极性特征值由所述m个待处理字中每个字的第j个极性特征值组合得到。
3.根据权利要求2所述的方法,其特征在于,在M>m的情况下,所述方法还包括:
从所述M个字中确定所述m个待处理字,所述m个待处理字中任意一个字的极性特征值中的最大值大于剩余的M-m个字中任意一个字的任意一个极性特征值。
4.根据权利要求2所述的方法,其特征在于,所述将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量,包括:
按照所述m个待处理字在所述待处理词中的排布顺序,将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量。
5.根据权利要求1所述的方法,其特征在于,在m>1的情况下,所述根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,包括:
在[1,n]范围内对x遍历取值,通过以下任意一种方式确定所述待处理词的极性特征向量中的所述n组分量中的第x组分量:
对所述m个待处理字中的每个字的第x个极性特征值求平均值,
对所述m个待处理字中的每个字的第x个极性特征值求和,或者,
对所述m个待处理字中的每个字的第x个极性特征值求最大值;
将所述n组分量组合得到所述待处理词的极性特征向量;
其中,x为正整数。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
将所述待处理词作为已处理词,加入所述词典中。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
从所述词典中获取训练样本,所述训练样本包括Y个已知情感极性的词,每个词包括m个待处理字;
利用所述训练样本对所述分类器进行训练,其中,所述训练包括:
确定所述训练样本中的第y个词所包含的m个待处理字的极性特征信息,所述m个待处理字中的第s个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,所述第s个字的第t个极性特征值由所述词典中的目标词的数量与包括所述第s个字的全部词的数量的比值得到,所述目标词为包含所述第s个字的全部词中具有第t个极性特征值对应的情感极性的词;
根据所述第y个词中所述m个待处理字的极性特征信息,确定第y个词的极性特征向量,所述第y个词的极性特征向量包括与所述n个情感极性一一对应的n组分量,所述n组分量中的第t组分量由所述m个待处理字中每个字的第t个极性特征值确定;
利用所述第y个词的情感极性和确定得到的所述第y个词的极性特征向量,训练所述分类器;
其中,Y、y、s、t均为正整数,y为[1,Y]中的任意值,s为[1,m]中的任意值,t为[1,n]中的任意值。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
将所述待处理词作为已处理词,并将所述已处理词作为所述训练样本,以对所述分类器进行所述训练。
9.一种自然语言处理装置,其特征在于,包括:
获取单元,用于获取待处理词,所述待处理词由M个字组成;
确定单元,用于确定所述M个字中m个待处理字的极性特征信息,所述m个待处理字中的第i个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,所述第i个字的第j个极性特征值由预存的词典中的目标词的数量与包括所述第i个字的全部词的数量的比值确定,所述目标词为包含所述第i个字的全部词中具有第j个极性特征值对应的情感极性的词;
所述确定单元还用于根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,所述极性特征向量包括与n个情感极性一一对应的n组分量,所述n组分量中的第j组分量由所述m个待处理字中每个字的第j个极性特征值确定;
所述确定单元还用于根据所述待处理词的极性特征向量,通过预设的分类器,确定所述待处理词的情感极性;
通信单元,用于输出所述待处理词的情感极性;
其中,M、n、m、i、j均为正整数,M≥m,i为[1,m]中的任意值,j为[1,n]中的任意值。
10.根据权利要求9所述的装置,其特征在于,在m>1的情况下,所述确定单元具体用于:将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量,所述第j组分量包括m个极性特征值,所述m个极性特征值由所述m个待处理字中每个字的第j个极性特征值组合得到。
11.根据权利要求10所述的装置,其特征在于,在M>m的情况下,所述确定单元还用于:
从所述M个字中确定所述m个待处理字,所述m个待处理字中任意一个字的极性特征值中的最大值大于剩余的M-m个字中任意一个字的任意一个极性特征值。
12.根据权利要求10所述的装置,其特征在于,所述确定单元具体用于:
按照所述m个待处理字在所述待处理词中的排布顺序,将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量。
13.根据权利要求9所述的装置,其特征在于,在m>1的情况下,所述确定单元具体用于:
在[1,n]范围内对x遍历取值,通过以下任意一种方式确定所述待处理词的极性特征向量中的所述n组分量中的第x组分量:
对所述m个待处理字中的每个字的第x个极性特征值求平均值,
对所述m个待处理字中的每个字的第x个极性特征值求和,或者,
对所述m个待处理字中的每个字的第x个极性特征值求最大值;
将所述n组分量组合得到所述待处理词的极性特征向量;
其中,x为正整数。
14.根据权利要求9至13中任一项所述的装置,其特征在于,所述装置还包括词典扩展单元,用于将所述待处理词作为已处理词,并将所述已处理词加入所述词典中。
15.根据权利要求9至13中任一项所述的装置,其特征在于,所述获取单元还用于从所述词典中获取训练样本,所述训练样本包括Y个已知情感极性的词,每个词包括m个待处理字;
所述装置还包括训练单元,用于利用所述训练样本对所述分类器进行训练,其中,所述训练包括:
确定所述训练样本中的第y个词所包含的m个待处理字的极性特征信息,所述m个待处理字中的第s个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,所述第s个字的第t个极性特征值由所述词典中的目标词的数量与包括所述第s个字的全部词的数量的比值得到,所述目标词为包含所述第s个字的全部词中具有第t个极性特征值对应的情感极性的词;
根据所述第y个词中所述m个待处理字的极性特征信息,确定第y个词的极性特征向量,所述第y个词的极性特征向量包括与所述n个情感极性一一对应的n组分量,所述n组分量中的第t组分量由所述m个待处理字中每个字的第t个极性特征值确定;
利用所述第y个词的情感极性和确定得到的所述第y个词的极性特征向量,训练所述分类器;
其中,Y、y、s、t均为正整数,y为[1,Y]中的任意值,s为[1,m]中的任意值,t为[1,n]中的任意值。
16.根据权利要求15所述的装置,其特征在于,所述获取单元还用于将所述待处理词作为已处理词,并将所述已处理词作为所述训练样本;
所述训练单元还用于利用所述已处理词,对所述分类器进行所述训练。
17.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行权利要求1至8中任一项所述的自然语言处理方法。

说明书全文

一种自然语言处理方法和装置

技术领域

[0001] 本申请涉及信息处理领域,并且更具体地,涉及一种自然语言处理方法和装置。

背景技术

[0002] 自然语言处理(natural language processing,NLP)是一让计算机理解并处理人类自然语言的技术,也是实现人工智能的重要技术手段。其中,情感分析(sentiment analysis,SA)是自然语言处理的一个分支,通过对文本所持有的主观情感进行分析,做出情感极性的判别,例如,做出正面、负面的判断,或者,识别出文本表达的喜怒哀乐等情绪。
[0003] 在文本的情感分析过程中,往往需要识别句子中有情感倾向的词(或者称,具有情感极性的词,以下,简称情感词),进而通过语法规则分析短语或句子的情感状态。因此,对于情感词的情感倾向的判断是否准确影响着对短语、句子的情感状态判断的准确性。虽然,当前技术中已经针对情感词构建了情感词典,来帮助情感词的情感倾向的判断,但是随着社交领域网络的飞速发展,越来越多的新的情感词被创造出来。尤其是中文、日文等有着基本汉字的语言,其词汇可以由任意的两个或多个字组合生成。因此,急需提供一种方法,能够准确地对新生的情感词的情感极性做出判断。发明内容
[0004] 本申请提供一种自然语言处理方法和装置,能够准确地对新生的情感词的情感极性做出判断。
[0005] 第一方面,提供了一种自然语言处理方法,包括:
[0006] 获取待处理词,所述待处理词由M个字组成;
[0007] 确定所述M个字中m个待处理字的极性特征信息,所述m个待处理字中的第i个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,所述第i个字的第j个极性特征值由预存的词典中的目标词的数量与包括所述第i个字的全部词的数量的比值确定,所述目标词为包含所述第i个字的全部词中具有第j个极性特征值对应的情感极性的词;
[0008] 根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,所述极性特征向量包括与n个情感极性一一对应的n组分量,所述n组分量中的第j组分量由所述m个待处理字中每个字的第j个极性特征值确定;
[0009] 根据所述待处理词的极性特征向量,通过预设的分类器,确定并输出所述待处理词的情感极性;
[0010] 其中,M、n、m、i、j均为正整数,M≥m,i为[1,m]中的任意值,j为[1,n]中的任意值。
[0011] 因此,本申请实施例通过根据待处理词中至少部分字的极性特征信息确定待处理词的极性特征向量,并基于极性特征向量进行情感极性判别,充分利用了字与词之间的联系,有利于提高待处理词的情感极性判别的准确性。
[0012] 并且,本申请实施例提供的自然语言处理方法对于情感极性的维度没有限制,用于可以根据自身需求,使用相应的分类器来进行情感极性判别,因此有利于提高用户体验。
[0013] 结合第一方面,在第一方面的某些实现方式中,在m>1的情况下,所述根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,包括:
[0014] 将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量,所述第j组分量包括m个极性特征值,所述m个极性特征值由所述m个待处理字中每个字的第j个极性特征值组合得到。
[0015] 其中,为了与各个情感极性的维度相对应,在组合的过程中,可以将第i个字的第1个极性特征值连接于第i-1个字的第n个极性特征值,也就是,将后一个字的首个极性特征值连接于前一个字的末个极性特征值。
[0016] 在本申请实施例中,可以将多个待处理字的极性特征信息中的极性特征值组合成待处理词的极性特征向量的方法简称为串接。
[0017] 本申请实施例通过将待处理词中的至少部分字的极性特征信息串接,由此确定得到的待处理词的情感极性向量包含了至少部分字的极性特征信息,考虑到了该待处理词中至少部分字的情感极性,并且相比于字的极性特征信息具有更多维数的极性特征值,使得分类器能够基于较多维数的极性特征值来判别待处理词的情感极性,有利于得到较为准确地判别结果。
[0018] 可选地,在M>m的情况下,所述方法还包括:
[0019] 从所述M个字中确定所述m个待处理字,所述m个待处理字中任意一个字的极性特征值中的最大值大于剩余的M-m个字中任意一个字的任意一个极性特征值。根据M个字中每个字的极性特征信息中的最大值来筛选m个待处理字,也就是优先考虑了对待处理词的情感极性影响较大的字,因此,对待处理词的情感极性判别的影响较小。
[0020] 可选地,所述将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量,包括:
[0021] 按照所述m个待处理字在所述待处理词中的排布顺序,将所述m个待处理字的极性特征信息中的极性特征值组合成所述待处理词的极性特征向量。
[0022] 因此,根据m个待处理字在待处理词中的排布顺序来串接m个极性特征值所得到的对应于n个情感极性的n组分量,充分考虑了字与词之间的联系,并且考虑到了字在词中的排布顺序可能带来的情感极性的差异,基于这种方式得到的词的极性特征向量有利于分类器对词的情感极性做出准确的判别,从而提高了判别的准确性。
[0023] 结合第一方面,在第一方面的某些实现方式中,在m>1的情况下,所述根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,包括:
[0024] 在[1,n]范围内对x遍历取值,通过以下任意一种方式确定所述待处理词的极性特征向量中的所述n组分量中的第x组分量:
[0025] 对所述m个待处理字中的每个字的第x个极性特征值求平均值,
[0026] 对所述m个待处理字中的每个字的第x个极性特征值求和,或者,
[0027] 对所述m个待处理字中的每个字的第x个极性特征值求最大值;
[0028] 将所述n组分量组合得到所述待处理词的极性特征向量;
[0029] 其中,x为正整数。
[0030] 由此得到的n组分量中的每组分量包括一个极性特征值,每个极性特征值对应一个情感极性,且第j组分量中的极性特征值是由m个待处理字中的第j个极性特征值计算得到。
[0031] 因此,这种方式考虑到了待处理词中每个字的极性特征信息,并且对于更多维度的情感极性判别来说,处理过程更加方便,更加适用于对待处理词基于更多维度的情感极性的判别,而基于更多维度的情感极性的判别同样也有利于提供判别的准确性。
[0032] 结合第一方面,在第一方面的某些实现方式中,所述方法还包括:
[0033] 将所述待处理词作为已处理词,加入所述词典中。
[0034] 通过将经分类器判别后的词加入到词典中,实现了对词典的自动扩展,而无需通过专业人员人工收集情感词,大大提高了构建词典的效率。同时,对词典的扩展也就是对训练样本的扩展,从而实现了训练样本的自动扩展。
[0035] 结合第一方面,在第一方面的某些实现方式中,所述方法还包括:
[0036] 从所述词典中获取训练样本,所述训练样本包括Y个已知情感极性的词,每个词包括m个待处理字;
[0037] 利用所述训练样本对所述分类器进行训练,其中,所述训练包括:
[0038] 确定所述训练样本中的第y个词所包含的m个待处理字的极性特征信息,所述m个待处理字中的第s个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,所述第s个字的第t个极性特征值由所述词典中的目标词的数量与包括所述第s个字的全部词的数量的比值得到,所述目标词为包含所述第s个字的全部词中具有第t个极性特征值对应的情感极性的词;
[0039] 根据所述第y个词所包含的所述m个待处理字的极性特征信息,确定第y个词的极性特征向量,所述第y个词的极性特征向量包括与所述n个情感极性一一对应的n组分量,所述n组分量中的第t组分量由所述m个待处理字中每个字的第t个极性特征值确定;
[0040] 利用所述第y个词的情感极性和确定得到的所述第y个词的极性特征向量,训练所述分类器;
[0041] 其中,Y、y、s、t均为大于或等于1的正整数,y为[1,Y]中的任意值,s为[1,m]中的任意值,t在[1,n]中遍历取值。
[0042] 因此,本申请实施例通过机器学习的方法训练分类器,并在训练的过程中,根据字的极性特征值确定词的极性特征向量,并利用词的极性特征向量和已知的情感极性训练分类器,充分考虑到字与词之间的联系。基于这样的方式训练得到的分类器在用于词的情感极性判别时,能够得到较为准确的判别结果。
[0043] 结合第一方面,在第一方面的某些实现方式中,所述方法还包括:
[0044] 将所述已处理词作为训练样本,对所述分类器进行所述训练。
[0045] 因此,通过扩展后的训练样本对分类器再次进行训练,可以实现对分类模型中参数的优化,更有利于提高判决结果的准确性。
[0046] 结合第一方面,在第一方面的某些实现方式中,所述方法还包括:
[0047] 将所述待处理词作为已处理词,并将所述已处理词加入所述词典中;
[0048] 将所述已处理词作为训练样本,对所述分类器进行所述训练。
[0049] 也就是说,在对待处理词进行了情感极性的判别后,可以将该待处理词作为已处理词加入词典中,以实现对词典的自动扩展。并且加入词典的已处理词可以作为新的训练样本,再次对分类器进行训练,以实现对分类器的更新。
[0050] 第二方面,提供了一种自然语言处理装置,用于执行第一方面或第一方面任一种可能的实现方式。具体地,该自然语言处理处理装置可以包括用于执行第一方面或第一方面任一种可能的实现方式中的方法的单元。
[0051] 第三方面,提供了一种自然语言处理装置,包括:存储器、处理器和通信接口,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述自然语言处理装置执行上述第一方面或第一方面任一种可能实现方式中的方法。
[0052] 具体地,所述处理器用于:
[0053] 获取待处理词,所述待处理词由M个字组成;
[0054] 确定所述M个字中m个待处理字的极性特征信息,所述m个待处理字中的第i个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,所述第i个字的第j个极性特征值由预存的词典中的目标词的数量与包括所述第i个字的全部词的数量的比值确定,所述目标词为包含所述第i个字的全部词中具有第j个极性特征值对应的情感极性的词;
[0055] 根据所述m个待处理字的极性特征信息,确定所述待处理词的极性特征向量,所述极性特征向量包括与n个情感极性一一对应的n组分量,所述n组分量中的第j组分量由所述m个待处理字中每个字的第j个极性特征值确定;
[0056] 根据所述待处理词的极性特征向量,通过预设的分类器,确定所述待处理词的情感极性;
[0057] 所述通信接口用于输出所述待处理词的情感极性。
[0058] 第四方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序(也可以称为代码,或指令),当所述计算机程序在计算机上运行时,使得所述计算机执行上述第一方面或第一方面中任一种可能实现方式中的方法。
[0059] 第五方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序包括用于执行第一方面或第一方面任一种可能实现方式的方法的指令。
[0060] 本申请实施例通过根据待处理词中的至少部分字在至少一个维度的极性特征值确定待处理词的极性特征向量,并通过分类器基于多个维度进行情感极性的判别。基于上述技术方案,构造出的待处理词的极性特征向量能够充分利用字与词之间的联系,有利于提高情感极性判别的准确性。并且对于情感极性的维度没有限制,用户可以根据自身需求,使用相应的分类器来进行情感极性分析,因此,有利于提高用户体验。附图说明
[0061] 图1是本申请实施例提供的自然语言处理方法所适用的系统架构的示意图;
[0062] 图2是本申请实施例提供的自然语言处理方法的示意性流程图
[0063] 图3是本申请另一实施例提供的训练分类器的方法的示意性流程图;
[0064] 图4是本申请实施例提供的自然语言处理装置的示意性框图
[0065] 图5是本申请实施例提供的自然语言处理装置的结构性示意图;
[0066] 图6是本申请实施例提供的分类器训练装置的示意性框图;
[0067] 图7是本申请实施例提供的分类器训练装置的结构性示意图。

具体实施方式

[0068] 下面将结合附图,对本申请中的技术方案进行描述。
[0069] 为了便于理解本申请实施例,首先对本申请中涉及到的几个名词作简单说明。
[0070] 1、情感分析
[0071] 针对某具体文本所带的主观情感色彩进行分析和判别。具体地,情感分析可以根据文本所表达的含义和情感信息将文本分为褒扬或贬义的两种或多种类型。情感极性分类是对文本所表达的情感的正负面(也就是褒扬、贬义)或者更多类型进行分析判定。在本申请中,可以将每一个情感类型称为一个情感极性(polarity)。例如,可以包括褒扬、贬义两种类型,也可以包括喜、怒、哀、乐四种类型,还可以包括乐(happy)、好(like)、哀(sad)、惊(surprise)、怒(angry)、惧(fear)、恶(disgust)七种类型。
[0072] 2、词典
[0073] 词典可以是具有某种共同属性的词的集合。例如,带情感色彩的词构成情感词典,带脏话色彩的词构成脏词词典,表示地名的词构成地名词典等。
[0074] 3、语料
[0075] 语料也称为自由文本,其可以是字、词语、句子、片段、文章等及其任意组合。
[0076] 4、分类器(classifier)
[0077] 分类器是利用各种分类算法对语料进行类别判定的工具。
[0078] 5、训练样本
[0079] 利用分类算法构建分类器时,所需要使用样本对该分类器进行参数训练,这些样本称为训练样本。例如,对于分类类别为两类的分类器(可称为二分类器),需要两种类别的样本,分别为正训练样本和负训练样本。
[0080] 6、正训练样本
[0081] 正训练样本指的是构建二分类器时,用来组成训练集中具有正情感极性的样本,即用来组成正训练集。
[0082] 7、负训练样本
[0083] 负训练样本指的是构建二分类器时,用来组成训练集中具有负情感极性的样本,即用来组成负训练集。
[0084] 图1是本申请实施例提供的自然语言处理方法和装置所适用的通信系统10的示意图。如图1所示,该通信系统10可以包括服务端设备11。服务端设备11可以用于对获取到的数据(即,情感词,例如,待处理语料或者训练样本)进行情感分析。一种可能的设计是,服务端设备11中可以部署有分类器,当服务端设备11获取到的数据后,可以通过分类器来判别情感词的情感极性。在本申请实施例中,该服务端设备11可用于确定字的极性特征信息、词的极性特征向量以及词的情感极性判别,该服务端设备11还可用于训练分类器。下文中会结合具体的实施例详细说明该服务端设备11的具体功能。
[0085] 可选地,该通信系统10还包括数据收集设备12,用于获取待处理的数据,并将该待处理的数据传输至服务端设备11。具体地,数据收集设备12可以通过人工输入或网络查找等方式,获取待处理的数据。
[0086] 可选地,该通信系统10还包括客户端设备13,用于利用来自服务端设备11的处理结果,进行下一步的自然语言处理,例如,利用服务端设备11的处理结果对语料(例如,短语、句子、段落等)进行情感分析。
[0087] 应理解,以上列举的服务端设备、数据收集设备以及客户端设备的功能仅为示例,不应对本申请构成任何限定,数据收集设备以及客户端设备的功能也可以由服务端设备来实现,本申请对此不作限定。
[0088] 另外,还应理解,本申请对于服务端设备、数据收集设备以及客户端设备的部署并未特别限定。例如,服务端设备、数据收集设备以及客户端设备可以部署于不同的物理设备中,由不同的物理设备分别实现服务端设备、数据收集设备以及客户端设备相应的功能,部署于不同物理设备中的服务端设备、数据收集设备以及客户端设备之间可以通过网络连接。或者,服务端设备、数据收集设备以及客户端设备可以部署于同一物理设备中,通过该物理设备实现服务端设备、数据收集设备以及客户端设备三者的功能。或者,数据收集设备以及客户端设备也可以集成于相同或不同的终端设备内,分别与终端设备合一部署在一台物理设备上,由物理设备实现各自的功能。
[0089] 应理解,图1中示出的通信系统仅为示例性说明,而不应对本申请构成任何限定。本申请对于服务端设备和客户端设备的数量以及部署方式并未特别限定。例如,服务端设备可以为一个,也可以为多个,即,多个服务端设备可以构成服务器集群。
[0090] 在本申请实施例中,服务端设备的构成可以包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。由于服务端设备需要提供高可靠的服务,因此,在处理能稳定性、可靠性、安全性、可扩展性以及可管理性等方面可能要求更高。
[0091] 应理解,终端设备也可以称为用户设备(user equipment,UE)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。本申请的实施例中的终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality,VR)终端设备、增强现实(Augmented Reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请中将前述终端设备及可设置于前述终端设备的芯片统称为终端设备。
[0092] 还应理解,当服务端设备、数据收集设备以及客户端设备部署于不同的物理设备中时,服务端设备、数据收集设备和客户端设备之间可以通过例如,以太网(例如,通过光纤等通信线缆实现)等网络,直接地通信。或者,该服务端设备、数据收集设备和客户端设备之间也可以通过由一个或多个网络设备构成的转发网络,间接地通信;或者,该服务端设备、数据收集设备和客户端设备可以通过无线接入网通信。
[0093] 并且,上述无线接入网可以采用各种通信系统,例如:全球移动通信(Global System of Mobile communication,GSM)系统、码分多址(Code Division Multiple Access,CDMA)系统、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)系统、通用分组无线业务(General Packet Radio Service,GPRS)、长期演进(Long Time Evolution,LTE)系统、先进的长期演进(LTE-Advanced,LTE-A)系统、LTE频分双工(Frequency Division Duplex,FDD)系统、LTE时分双工(Time Division Duplex,TDD)、通用移动通信系统(Universal Mobile Telecommunication System,UMTS)、全球互联微波接入(Worldwide Interoperability for Microwave Access,WiMAX)通信系统、下一代通信系统(例如,第五代(fifth-generation,5G)通信系统)、多种接入系统的融合系统,或演进系统等。其中,5G系统也可以称为新一代无线接入技术(new radio access technology,NR)系统。
[0094] 还应理解,图1所示的通信系统只是本申请实施例的一种可能的应用场景,不应对本申请构成任何限定。例如,该通信系统还可以包括其他设备。
[0095] 情感分析具有巨大的商业价值和公共服务价值。微博以及各种论坛中的文本可以是情感分析的语料来源。企业可以通过消费者对某件产品的评论或观点进行情感分析获取消费者对产品的评价,例如,通过对电影评论、音乐评论的情感分析,可以掌握消费者的喜好;政府可以通过对新闻评论进行情感分析获取群众对某新闻事件的态度等等。
[0096] 随着社交领域网络的飞速发展,越来越多的新的词被创造出来。这些新词很多都是带有情感色彩的,或者说,是具有情感极性的。因此,需要提供一种方法,能够对新生的情感词进行情感极性分析。
[0097] 另一方面,随着新的情感词的产生,情感词典也需要维护和更新。因此,词典构建技术应运而生。词典构建技术可以从语料中自动发现情感词并找出其情感极性从而对词典进行扩展。但是,目前的词典构建技术,例如逐点互信息(pointwise mutual information,PMI)法、词典释义法等,在分析情感词的情感极性时准确度不高。然而,情感词典作为情感分析的依据,如果不能够保证较高的准确性,必然会影响到对短语、句子、甚至段落和文章的情感分析的准确性。
[0098] 有鉴于此,本申请提供一种自然语言处理方法,能够对获取到的情感词的情感极性进行分析,并做出准确的判断。
[0099] 为便于理解,首先简单介绍对语料进行情感分析的过程。
[0100] 这里,语料可以为上文中列举的微博以及各种论坛中的文本,可以是字、词、短语、句子、段落、文章以及上述列举的任意组合。假设获取到的语料为由一个或多个情感词汇构成的短语、句子、段落或者文章,则可以从每一个情感词的情感极性开始分析,继而根据情感词的情感极性对短语、句子、段落以及文章进行情感分析。
[0101] 应理解,以上介绍的对语料进行情感分析的过程仅为一种可能的实现方式,而不应对本申请构成任何限定。本申请主要针对基础情感词的情感分析,提出了一种自然语言处理方法。
[0102] 以下,结合图2详细说明本申请实施例提供的自然语言处理方法。
[0103] 需要说明的是,本申请实施例提供的自然语言处理方法可以由部署有分类器的自然语言处理装置执行,例如,该自然语言处理装置可以为图1中示出的服务端设备11。
[0104] 另外,由于本申请实施例通过使用分类器来判别情感词的情感极性,而对于一个预先配置的分类器来说,情感分析所基于的情感极性以及情感极性的维数是确定的,例如,可以预先设定分类器基于两个维度(例如,正极性、负极性)来判别情感词的情感极性,也可以设定分类器基于更多个维度来判别情感词的情感极性。本申请对于情感极性的维数不作限定。但需要注意的是,一旦分类器被预先配置了情感极性以及情感极性的维数,分类器就会基于配置好的情感极性以及情感极性的维数进行情感分析,而不能基于其他维数或者其他类型的情感极性进行情感分析。在下面的实施例中,假设分类器中情感极性的维数已经被预先配置。
[0105] 还需要说明的是,以下仅以汉语为例详细说明了本申请实施例的方法,但这不应对本申请构成任何限定,本申请提供的方法同样适用于日语、韩语等语言。在这类语言中,词汇可以由两个字或者多个字自由组合、随时生成,并且生成的词汇的意思与单个字的意思较为相关。
[0106] 图2是本申请实施例提供的自然语言处理方法200的示意性流程图。如图2所示,该方法200可以包括步骤210至步骤240。
[0107] 在步骤210中,自然语言处理装置获取待处理词,该待处理词由M个字组成。
[0108] 具体地,该待处理词为未被收录在情感词典中的情感词,例如,可以为网络中新创造出的情感词。在获取到待处理词之后,可以将该待处理词拆成M个字。例如,将待处理词“墨宝”拆分为2个字“墨”和“宝”。
[0109] 在步骤220中,确定M个字中m个待处理字的极性特征信息。其中,M≥m≥1,M、m均为整数。
[0110] 具体地,字的极性特征信息可以由这个字在各个情感极性维度的极性特征值组合得到。并且,每个字的极性特征信息中包括n个极性特征值,则n个特征值与n个情感极性一一对应。其中,n≥1,且n为整数。
[0111] 这里,第i个字的第j个极性特征值表示在预存的词典中包含该第i个字的全部词中具有第j个极性特征值对应的情感极性的词的数量与全部词的数量的比值。其中,i为[1,m]中的任意值,j为[1,n]中的任意值。
[0112] 举例来说,假设n=2,即,字的极性特征值包括正极性和负极性两个维度的极性特征值。在预存的词典中,包含“墨”的词一共有20个,其中,正极性(即褒义词,例如在情感词典中标注的极性可以为“1”)的词有11个,负极性(即贬义词,例如在情感词典中标注的极性可以为“2”)的词有8个,中性词(即褒贬两性,例如在情感词典中标注的极性可以为“3”)有1个。由于n=2,则“墨”的极性特征信息中包含两个极性特征值,第一个极性特征值可对应于正极性,第二个极性特征值可对应于负极性,通过计算可以得到“墨”的第一个极性特征值为0.55,第二个极性特征值为0.4,则可以得到“墨”的极性特征信息表示为二维向量(0.55,0.4)。
[0113] 其中,m≤M,也就是说,自然语言处理装置可以确定该待处理词中的至少部分字的极性特征信息。该m的值可以根据分类器的预设维数(假设为N,N大于1,且N为正整数)来确定,后文中会结合具体的步骤详细说明M和m的关系。
[0114] 在步骤230中,根据该m个待处理字的极性特征信息,确定该待处理词的极性特征向量。
[0115] 即,根据该待处理词中的至少部分字的极性特征信息,确定该待处理词的极性特征向量。通过步骤230确定得到的该待处理词的极性特征向量可以包括n组分量,与上述n个情感极性一一对应。其中,每组分量包括至少一个极性特征值,第j组分量所包含的至少一个极性特征值可以由m个待处理字中每个字的第j个极性特征值确定,故该待处理词的极性特征向量可以包括至少n个极性特征值。
[0116] 这里,需要注意的是,n表示的是字的极性特征信息中所包含的极性特征值的个数,或者说,该字的极性特征信息所对应的情感极性的维数。与之对应地,N表示的是分类器进行情感极性判别的维数。在本申请实施例中,n≤N。例如,当分类器基于正、负极性两个维度对待处理词进行情感极性判别时,字的极性特征信息可以通过正、负极性两个维度的极性特征值来表示,即,字的极性特征信息包括两个极性特征值,也就是n=2,N=2,详见上文中示例;或者,字的极性特征信息也可以只通过其中任意一个极性的极性特征值来表示,而另一个极性的极性特征值的估计值是可以推算出来的,即,字的极性特征信息仅包括一个极性特征值,也就是n=1,N=2。
[0117] 仍以“墨宝”为例,当分类器基于正、负极性两个维度对待处理词进行情感极性判别时,字的极性特征信息可以通过正极性的极性特征值或者负极性的极性特征值来表示,即,“墨”的极性特征信息可以表示为一维向量(0.55)或者(0.4),由此而得到的词的极性特征向量也是基于同一个情感极性。此情况下,需要预先对分类器进行配置,设定当前输入的词的极性特征向量基于是某个情感极性的维度,以便于分类器做出准确的判别。
[0118] 在本申请实施例中,根据m个待处理字的极性特征信息确定待处理词的极性特征向量,也就是,对m个待处理字中每个待处理字的极性特征信息按照预设的规则进行处理,得到待处理词的极性特征向量。
[0119] 具体地,步骤230中确定待处理词的极性特征向量的过程可以采用以下任意一种方式:
[0120] 方式一、将m个待处理字的极性特征信息中的极性特征值组合成待处理词的极性特征向量。
[0121] 由此得到的该待处理词的极性特征向量包括与n个情感极性一一对应的n组分量,该n组分量中的第j组分量包括m个极性特征值,该m个极性特征值由m个待处理字中每个字的第j个极性特征值组合得到。
[0122] 在本申请实施例中,这种将m个待处理字的极性特征信息中的极性特征值组合成待处理词的极性特征向量的方式,可以简称为,将该m个待处理字的极性特征信息进行串接。
[0123] 其中,为了与各个情感极性的维度相对应,在组合的过程中,可以将第i个字的第1个极性特征值连接于第i-1个字的第n个极性特征值,也就是,将后一个字的首个极性特征值连接于前一个字的末个极性特征值。或者说,保持m个待处理字中每个字的n个极性特征信息的排布顺序不变。
[0124] 方式二、根据该m个待处理字中每个字的n个极性特征值中对应于第x个情感极性的极性特征值,通过以下任意一种方式确定第x组分量中的极性特征值:求和、求平均或者求最大值,其中,x在[1,n]范围内遍历,x为正整数。
[0125] 也就是,在[1,n]范围内对x遍历取值,通过以下任意一种方式确定该待处理词的极性特征向量中的n组分量中的第x组分量:
[0126] 对该m个待处理字中的每个字的第x个极性特征值求平均值,
[0127] 对该m个待处理字中的每个字的第x个极性特征值求和,或者,
[0128] 对该m个待处理字中的每个字的第x个极性特征值求最大值;
[0129] 将该n组分量组合得到该待处理词的极性特征向量。
[0130] 由此得到的该待处理词的极性特征向量包括的n组分量中,每组分量包括一个极性特征值,每个极性特征值可以基于m个待处理字的极性特征信息计算得到。
[0131] 后文中会结合具体的实施例详细说明方式一和方式二。
[0132] 应理解,以上提供的两种不同的实现方式仅为示例,不应对本申请构成任何限定。
[0133] 在步骤240中,根据待处理词的极性特征向量,通过预设的分类器,确定待处理词的情感极性。
[0134] 也就是,将待处理词的极性特征向量输入预设的分类器,以通过分类器确定并输出待处理词的情感极性。
[0135] 具体地,分类器可用于确定待处理词的情感极性,或者说,对待处理词的情感极性做分类。在本申请实施例中,分类器可以利用分类算法对数据(例如,待处理词或者训练样本)进行类别判定。其中,分类算法可以是基于已知情感极性的词进行训练获得的,也可以是基于人工经验设计的规则获得的。
[0136] 步骤250中,输出该待处理词的情感极性。
[0137] 在本申请实施例中,分类器可以配置于自然语言处理装置中,该自然语言处理装置可以仅用于确定待处理词的情感极性。此情况下,分类器在确定了该待处理词的情感极性后,可以通过该自然语言处理装置的通信接口将词的情感极性的判别结果输出给其他装置,例如,客户端设备,以便于其他装置根据该判别结果进行下一步对语料的情感分析。
[0138] 该自然语言处理装置也可以用于进一步根据词的情感极性对语料(例如,短语、句子、段落等)进行情感分析。此情况下,分类器在确定了待处理词的情感极性后,可以将该处理结果输出给该自然语言处理装置中其他用于进行语料情感分析的模或单元。
[0139] 由上文描述可知,该自然语言处理装置可通过不同的实现方式来确定待处理词的极性特征向量。由于采用了不同的实现方式,基于相同的m个待处理字的极性特征信息确定得到的待处理词的极性特征向量所包含的极性特征值的个数可能不同。因此,在确定了所使用的实现方式的情况下,需输入分类器的待处理词的极性特征向量所包含的极性特征值的个数(为便于区分和说明,记作P,可以理解,P≥n,且P为整数)便可以确定,或者说,需输入分类器的待处理词的极性特征向量所包含的极性特征值的个数可以预先设定。在分类器确定了情感极性的维数N的情况下,分类器可以根据预先设定好的输入的词的极性特征向量中各极性特征值与情感极性之间的对应关系,准确地对待处理词的情感极性做出判别。
[0140] 对于一个预先配置好的分类器来说,情感极性判别的维数N以及需要输入该分类器的待处理词的极性特征向量所包含的极性特征值的个数P是可以预先确定的,基于该预先确定的两个参数,可以确定字的极性特征信息所包含的极性特征值的个数n,并基于确定词的极性特征向量的方式,确定待处理字的预设数量m0。
[0141] 但应理解,m0仅为便于说明和理解本申请实施例而引入的一个参数,而不应对本申请构成任何限定。自然语言处理装置在执行该方法200时,或者说,对于一个预先配置好的分类器来说,m0是可以预先定义好的。
[0142] 若采用方式一确定词的极性特征向量,则n≤N,m0=P/n。若采用方式二确定词的极性特征向量,则n=N,m0可以为任意正整数。
[0143] 下面将结合具体的例子详细说明方式一和方式二。
[0144] 方式一:
[0145] 方式一通过采用串接的方式将m(以下示出的几种情况中,在M>m0的情况下,m=m0;在M≤m0的情况下,m=M)个待处理字的极性特征信息组合成待处理词的极性特征向量。由此确定的待处理词的极性特征向量所包含的极性特征值的个数可以为n的整数倍。
[0146] 下面结合不同的情况详细说明采用方式一确定待处理词的极性特征向量的具体过程。
[0147] 在本实施例中,假设分类器中预设的情感极性的维数N为2,分别对应于正极性和负极性这两个维度,若需输入分类器的待处理词的极性特征向量所包含的极性特征值的个数P为4,则待处理词中字的极性特征信息可以包括2个极性特征值;或者,若输入分类器的待处理词的极性特征向量所包含的极性特征值的个数P为2,则待处理词中字的极性特征信息可以包括1个极性特征值。
[0148] 情况a、
[0149] 若需输入分类器的待处理词的极性特征向量包括4个极性特征值,即P=4,字的极性特征信息包括2个极性特征值,即n=2,则m0=P/n=2。若待处理词的字数M为2,则M=m0。在此情况下,可以直接根据该M个字的极性特征信息确定待处理词的极性特征向量,即,m=M。
[0150] 举例来说,待处理词“墨宝”中“墨”的极性特征信息可以表示为(0.55,0.4),“宝”的极性特征信息可以表示为(0.91,0.09),则通过串接的方式,可以得到待处理词“墨宝”的极性特征向量为(0.55,0.4,0.91,0.09)或者(0.91,0.09,0.55,0.4)。其中,(0.55,0.91)为对应于正极性的极性特征值,(0.4,0.09)为对应于负极性的特征值。即,(0.55,0.91)和(0.4,0.09)为“墨宝”的极性特征向量中分别对应于正、负极性的两组分量。每组分量所包含与m个待处理字一一对应的m个极性特征值。
[0151] 由于对字的排列顺序不同,可以会造成整个词的意思以及情感极性完全不一样,例如“故事”和“事故”,前者更倾向于中性词,而后者更倾向于贬义词。因此,将m个待处理字的极性特征信息按照在待处理词中的排布顺序依次串接,得到的待处理词的极性特征向量更有利于分类器对词的情感极性做出准确的判别。
[0152] 可选地,步骤230进一步包括:
[0153] 按照该m个待处理字在该待处理词中的排布顺序,将该m个待处理字的极性特征信息中的极性特征值组合成该待处理词的极性特征向量。
[0154] 也就是说,可以按照m个待处理字在待处理词中的排布顺序对该m个待处理字的极性特征信息进行串接。经过串接后的该待处理词的极性特征向量中的n组分量中,每组分量所包括的m个极性特征值的排布顺序与m个待处理字在待处理词中的排布顺序是相同的。
[0155] 因此,可以进一步得到“墨宝”的极性特征向量为(0.55,0.4,0.91,0.09)。
[0156] 情况b、
[0157] 若需输入分类器的待处理词的极性特征向量包括2个极性特征值,即P=2,字的极性特征信息包括1个极性特征值,即n=1,则m0=P/n=2。若待处理词的字数M为2,M=m0。在此情况下,可以直接根据该M个字的极性特征信息确定待处理词的极性特征向量,即,m=M。
[0158] 仍以待处理词“墨宝”为例,其中,“墨”的极性特征信息可以表示为(0.55),“宝”的极性特征信息可以表示为(0.91),则通过串接的方式,可以得到待处理词“墨宝”的极性特征向量为(0.55,0.91)或(0.91,0.55)。若按照m个待处理字在待处理词中的排布顺序对该m个待处理字的极性特征信息进行串接,可以得到“墨宝”的极性特征向量为(0.55,0.91)。
[0159] 也就是说,本实施例中待处理词的极性特征向量由每个字的某一个情感极性的维度的极性特征值组合得到。此时,虽然n=1,但N=2,分类器仍然可以基于两个情感极性的维度进行情感极性判别。
[0160] 情况c、
[0161] 若需输入分类器的待处理词的极性特征向量包括4个极性特征值,即P=4,字的极性特征信息包括2个极性特征值,即n=2,则m0=P/n=2。若待处理词的字数M为3,则M>m0。在此情况下,可以从该M(M=3)个字中确定m(m=2)个待处理字,即,m<M。
[0162] 举例来说,待处理词“什么鬼”由3个字组成。如果根据这3个字的极性特征信息确定待处理词的极性特征向量,该极性特征向量包括6个极性特征值,与预设的输入分类器的待处理词的极性特征向量的个数4不同。一种可能的实现方式是,可以从M个字中确定m个待处理字,在本实施例中,M=3,m=2。
[0163] 具体地,该2个待处理字可以根据预设的规则确定。例如,规定从待处理词所包含的3个字中选择首字和尾字来构造该待处理词的极性特征向量,或者,规定从该待处理词所包含的3个字中优先选择词性为名词的字,等等。
[0164] 可选地,在M>m的情况下,在步骤220之前,该方法还包括:
[0165] 从该M个字中确定该m个待处理字,该m个待处理字中任意一个字的极性特征值中的最大值大于剩余的M-m个字中任意一个字的任意一个极性特征值。
[0166] 具体地,可以根据该M个字中每个字的n个极性特征值,确定该M个字中每个字的极性特征值的最大值;然后将按照由大到小的顺序排序得到的M个最大值中的前m个值对应的字确定为m个待处理字。
[0167] 或者,将M个字中每个字的n个极性特征值中的最大值按照由大到小的顺序排序,得到M个最大值,并将该M个最大值中的前m个值所对应的字确定为m个待处理字。
[0168] 基于上述方法确定得到的m个待处理字中,任意一个字的n个极性特征值中的最大值大于剩余的M-m个字中任意一个字的任意一个极性特征值。
[0169] 需要注意的是,这里仅为便于说明和理解,以将M个字的极性特征值的最大值进行排序为例来说明该m个待处理字的确定过程。事实上,自然语言处理装置在从M个字中确定m个待处理字的过程中,并不一定会执行排序的动作。因此,上述描述不应对本申请构成任何限定。只要确定得到的m个待处理字中的任意一个字满足极性特征值中的最大值大于剩余的M-m个字中任意一个字的任意一个极性特征值,均应落入本申请要求保护的范围内。
[0170] 以“什么鬼”为例。其中的“什”的极性特征信息可以表示为(0.47,0.53),“么”的极性特征信息可以表示为(0.51,0.49),“鬼”的极性特征信息可以表示为(0.32,0.68)。比较这三个字中每个字的两个极性特征值,可以找到每个字的极性特征值的最大值,分别如下:“什”的极性特征值的最大值为0.53,“么”的极性特征值的最大值为0.51,“鬼”的极性特征值的最大值为0.68。从该三个最大值中选择最大的两个值分别为0.53和0.68,该两个值所对应的字分别为“什”和“鬼”。若按照“什”和“鬼”在“什么鬼”中的排布顺序,可以得到“什么鬼”的极性特征向量可以表示为(0.47,0.53,0.32,0.68)。
[0171] 应理解,在M>m的情况下,从M个字中确定m个待处理字以便于得到包含有预设个数(即,上文中所述的P)的极性特征值的极性特征向量只是一种可能的实现方式,而不应对本申请构成任何限定,本申请也不应限于此。
[0172] 例如,将多个字在各个情感极性的极性特征值两两求平均,也可以得到P个极性特征值组成的该待处理词的极性特征向量。仍以“什么鬼”为例,可以分别对正极性的三个极性特征值(0.47,0.51,0.32)两两求平均得到(0.49,0.415),对负极性的三个极性特征值(0.53,0.49,0.68)两两求平均得到(0.51,0.585),然后串接可以得到“什么鬼”的极性特征向量为(0.49,0.415,0.51,0.585)。在这种情况下,m=M,也就是,需要确定待处理词所包含的M个字中每个字的极性特征信息。
[0173] 情况d、
[0174] 若需输入分类器的待处理词的极性特征向量包括6个极性特征值,即P=6,字的极性特征信息包括2个极性特征值,即n=2,则m0=P/n=3。若待处理词的字数M为2,则M<m0。在此情况下,即便将M个字的极性特征信息串接在一起仍然无法得到6个极性特征值。
[0175] 本申请另提供一种补全的方法,即,在由M个字的极性特征信息组合得到的词的极性特征向量的后面补入至少一个取值为1/P(在本实施例中,P=2,则1/P=0.5)的极性特征值,直到满足待处理词的极性特征向量所包含的极性特征值的个数等于P。
[0176] 仍以待处理词“墨宝”为例,在情况a中已经说明,根据字的极性特征信息可以确定出该词的极性特征向量为(0.55,0.4,0.91,0.09),但仍无法满足需输入分类器的待处理词的极性特征向量所包含的极性特征值的个数6。在本实施例中,通过补全的方法可以得到“墨宝”的极性特征向量为(0.55,0.4,0.91,0.09,0.5,0.5)。因此,在情况d中,m=M。
[0177] 应理解,以上所列举的在不同的情况下确定待处理词的极性特征向量的具体方法仅为可能的实现方式,而不应对本申请构成任何限定。只要根据字的极性特征信息确定待处理词的极性特征向量,使得待处理词的极性特征向量与组成该待处理词的字相关,均应落入本申请的保护范围内。
[0178] 还应理解,以上示例的字的极性特征信息仅为示例性说明,而不应对本申请构成任何限定。
[0179] 方式二:
[0180] 方式二通过采用求平均值、最大值或者求和的方式,根据m(方式二中因对m0并不限制取值,这里为方便理解,不再引入m0,且在方式二中,可以始终满足m=M)个待处理字的极性特征信息确定待处理词的极性特征向量。由此确定的待处理词的极性特征向量中所包含的极性特征值的个数可以与字的极性特征信息中所包含的极性特征值的个数相同,也为n,即,需输入分类器的待处理词的极性特征向量所包含的极性特征值的个数P与n相等。且分类器可以基于输入的待处理词的极性特征向量中的P个值,基于N(N=P)个维度的情感极性进行极性判别。
[0181] 在本实施例中,假设分类器中预设的情感极性的维数为7,即,P=7,分别对应于乐、好、哀、惊、怒、惧和恶这七个维度。则待处理词中字的极性特征信息可以包括7个极性特征值,待处理词的极性特征向量也可以包括7个极性特征值。
[0182] 举例来说,待处理词“雅兴”中“雅”的极性特征信息可以表示为(0.23,0.57,0.02,0.05,0.06,0.00,0.07),“兴”的极性特征信息可以表示为(0.44,0.32,0.04,0.03,0.08,
0.03,0.06)。如果采用求平均的方式来确定待处理词的极性特征向量,则可以得到“雅兴”的极性特征向量为(0.335,0.445,0.03,0.04,0.07,0.015,0.65)。
[0183] 又例如,待处理词“败家子”中“败”的极性特征信息可以表示为(0.03,0.06,0.25,0.02,0.15,0.16,0.33),“家”的极性特征信息可以表示为(0.28,0.37,0.10,0.06,0.04,
0.02,0.13),“子”的极性特征信息可以表示为(0.08,0.21,0.13,0.04,0.12,0.03,0.39)。
如果采用求最大值的方式来确定待处理词的极性特征向量,则可以得到“败家子”的极性特征向量为(0.28,0.37,0.25,0.06,0.15,0.16,0.39)。
[0184] 应理解,以上列举的根据m个待处理字的极性特征信息确定极性特征向量的具体方法仅为示例性说明,而不应对本申请构成任何限定。
[0185] 还应理解,本申请并未对示例的方式一和方式二并未对所使用的场景做出限定。例如,方式一中所示出的基于两个情感极性的维度对待处理词的情感极性做出判别的实施例中,也可以采用方式二来确定待处理词的极性特征向量,同样地,在方式二所示出的基于多个情感极性的维度对待处理词的情感极性做出判别的实施例中,也可以采用方式一来确定待处理词的极性特征向量。
[0186] 可选地,该方法200还包括:
[0187] 将该待处理词作为已处理词,加入词典中。
[0188] 也就是说,通过上述方法完成了对待处理词的情感极性判别后,便可以将该待处理词作为已处理的、已知情感极性的词加入词典中,从而实现了对词典的扩展。
[0189] 可选地,被加入至词典中的上述已处理词可以作为训练样本,用于对字的极性特征信息、词的极性特征向量进行更新,并通过重新训练分类器实现对分类模型中的参数的优化。
[0190] 因此,本申请实施例通过根据待处理词中至少部分字的极性特征信息确定待处理词的极性特征向量,并基于该极性特征向量进行情感极性判别,充分利用了字与词之间的联系,有利于提高待处理词的情感极性判别的准确性。并且,本申请对于情感极性的维度没有限制,用户可以根据自身需求,使用相应的分类器来进行情感极性判别,因此,有利于提高用户体验。
[0191] 另外,本申请提供的分类器可以是通过机器训练得到的,该机器训练过程通过采用机器学习分类算法,学习了大量的训练样本,因此能够对输入的语料进行准确的分析判别,有利于提高判别准确性。
[0192] 以下,将结合图3详细说明训练分类器的具体过程。
[0193] 需要说明的是,本申请实施例提供的训练分类器的方法可以由分类器训练装置执行,该装置中可以部署有分类器。例如,该分类器训练装置可以为图1中示出的服务端设备11,也可以为其他部署有分类器的装置,该分类器在被训练得到后配置在另一装置中。本申请对于分类器训练装置的具体形态并不做限定。
[0194] 还需要说明的是,以下实施例中示出的方法300中的分类器可以为上述方法200中的分类器,因此,该分类器用于情感极性判别的预设维数也可以为N,训练样本中每个字的极性特征信息也可以包括n个极性特征值,由字的极性特征信息确定的词的极性特征向量也可以包括至少n个极性特征值。
[0195] 图3是本申请另一实施例提供的训练分类器的方法300的示意性流程图。如图3所示,该方法300包括步骤310和步骤320。
[0196] 在步骤310中,分类器训练装置从词典中获取训练样本,该训练样本包括Y个已知情感极性的词,每个词包括m个待处理字。
[0197] 具体地,在情感词典中预存有多个已知情感极性的词,该分类器训练装置可以将该多个已知情感极性的词作为训练样本,用于训练分类器。例如,若将分类器设置为基于正、负极性对词进行情感极性判别,则该训练样本可以包括正训练样本和负训练样本。
[0198] 其中,每个词可以包括m个待处理字。该m个待处理字可以为用于当前训练样本的词中所包含的部分或全部的字。换句话说,作为训练样本的词可以包括至少m个字。
[0199] 应理解,m的取值与上文中方法200中所描述的待处理字的个数m的取值相同,在采用不同的实现方式确定词的极性特征向量的情况下,待处理字的预设数量m0可以不同。结合不同的训练样本中所包含的字数,m的取值也可以不同。例如,若采用方法200中的方式一确定词的极性特征向量,待处理字的预设数量m0=P/n,在m0<M的情况下,m=m0;在m0≥M的情况下,m=M;若采用方法200中的方式二确定词的极性特征向量,待处理字的预设数量m0可以为任意正整数,则m也可以为任意正整数。
[0200] 举例来说,正训练样本包括:朝贺、吉祥、一心一意等,负训练样本包括:贪污、怀恨、无理取闹等。
[0201] 又例如,具有“好”这一情感极性的训练样本包括:诗情画意;具有“乐”这一情感极性的训练样本包括:开心;具有“哀”这一情感极性的训练样本包括:悲伤;具有“惊”这一情感极性的训练样本包括:出其不意;具有“怒”这一情感极性的训练样本包括:发怒;具有“惧”这一情感极性的训练样本包括:辩诬;具有“恶”这一情感极性的训练样本包括:厌烦等。
[0202] 在步骤320中,利用训练样本对分类器进行训练。
[0203] 其中,所述训练包括:
[0204] 3201,确定该训练样本中的第y(y为[1,Y]中的任意值],y、Y均为整数)个词所包含的m个待处理字的极性特征信息,该m个待处理字中的第s(s为[1,m]中的任意值,s为整数)个字的极性特征信息包括n个极性特征值,每个极性特征值对应一个情感极性,其中,该第s个字的第t(t为[1,n]中的任意值,t为整数)个极性特征值由该词典中的目标词的数量与包括该第s个字的全部词的数量的比值得到,该目标词为包含该第s个字的全部词中具有第t个极性特征值对应的情感极性的词;
[0205] 3202,根据该第y个词所包含的该m个待处理字的极性特征信息,确定第y个词的极性特征向量,该第y个词的极性特征向量包括与该n个情感极性一一对应的n组分量,该n组分量中的第t组分量由该m个待处理字中每个字的第t个极性特征值确定;
[0206] 3203,利用该第y个词的情感极性和确定得到的该第y个词的极性特征向量,训练该分类器。
[0207] 具体地,分类器训练装置可以根据分类器进行情感极性判别的维度N,字的极性特征信息包括n个极性特征值,在确定了词的极性特征向量的确定方式的情况下,便确定需要输入分类器的词的极性特征向量中所包含的极性特征值的个数P,进而可以确定每个字的极性特征信息所包含的极性特征值的个数。
[0208] 举例来说,若以方法200中的方式一来确定词的极性特征向量,假设分类器的预设维数N=2,需输入的词的极性特征向量中所包含的极性特征值的个数P为4,则可以分别确定以下词中的至少部分字的极性特征信息分别包括2个极性特征值:
[0209] 吉祥:吉(0.93,0.07)、祥(0.87,0.13);
[0210] 朝贺:朝(0.56,0.44)、贺(0.92,0.08);
[0211] 一心一意:从四个字中确定两个字的极性特征信息,心(0.64,0.36)、意(0.73,0.27);
[0212] 贪污:贪(0.33,0.67)、污(0.12,0.88);
[0213] 怀恨:怀(0.64,0.36)、恨(0.05,0.95);
[0214] 无理取闹:从四个字中确定两个字的极性特征信息,理(0.59,0.41)、闹(0.11,0.89)。
[0215] 采用方式一来确定词的极性特征向量,可以分别根据上述列举的各字的极性特征信息得到各词的极性特征向量如下:
[0216] 吉祥:(0.93,0.07,0.87,0.13);
[0217] 朝贺:(0.56,0.44,0.92,0.08);
[0218] 一心一意:(0.64,0.36,0.73,0.27);
[0219] 贪污:(0.33,0.67,0.12,0.88);
[0220] 怀恨:(0.64,0.36,0.05,0.95);
[0221] 无理取闹:(0.59,0.41,0.11,0.89)。
[0222] 应理解,以上列举仅为示例,不应对本申请构成任何限定。
[0223] 同理,若以方法200中的方式二来确定词的极性特征向量,假设分类器的预设维数N=7,需输入的词的极性特征向量中所包含的极性特征值的个数P也为7,则可以分别确定以下词中的每个字的极性特征信息分别包括7个极性特征值。
[0224] 为了简洁,这里不再一一举例说明。
[0225] 应理解,分类器训练装置根据字的极性特征信息确定词的极性特征向量的具体过程可以与方法200中自然语言处理装置在步骤230中根据字的极性特征信息确定待处理词的极性特征向量的具体过程相同,为了简洁,这里省略对该具体过程的详细说明。
[0226] 分类器训练装置可以利用每个词已知的情感极性和根据上述方法确定得到的每个词的极性特征向量,训练得到分类器。
[0227] 具体地,对分类器的训练可以理解为通过分类算法对分类模型中的各参数进行训练的过程。
[0228] 在本申请实施例中,分类器训练装置可以通过机器学习分类算法(例如,支持向量机(support vector machine,SVM),卷积神经网络(convolutional neural network,CNN)或者循环神经网络(recurrent neural network,RNN)等)构建情感极性的分类模型。例如,该分类模型可以是一个线性模型,例如,线性函数,也可以是非线性模型,例如,神经网络模型,还可以是对不同类型模型的组合,本申请对此并不限定。
[0229] 以SVM为例,SVM是一种常用的有监督学习的分类方法。即,首先通过人工标注的方式对获取到的训练样本进行情感极性的标注,然后通过有监督方式的机器学习模型训练从一个训练样本到情感极性的映射。在接收到训练样本后,通过训练样本的极性特征向量和已知的情感极性来对分类模型中的参数进行优化。
[0230] 也就是说,可以将每个词的极性特征向量以及每个词的情感极性作为输入,以得到分类模型中各参数的优化的目的。
[0231] 应理解,以上列举的通过有监督方式的机器学习来训练分类模型的过程可以通过现有技术中的方法来实现,为了简洁,这里省略对该具体过程的详细说明。还应理解,SVM、CNN、RNN仅为有监督方式的机器学习算法中的可能的实现方式,而不应对本申请构成任何限定。本申请对于机器学习的具体方法不作限定。
[0232] 在本申请实施例中,对分类器的训练过程可以是一个更新迭代的过程。在获取到任何一个语料并判别出其情感极性后,分类器训练装置都可以基于这个新获取到的语料对分类器再进行一次训练,以实现对字的极性特征信息的更新、词的极性特征向量的更新以及分类模型中参数的优化。在这种情况下,该分类器训练装置与方法200中的自然语言处理装置可以是同一装置,也可以是具有通信连接的两个装置,本申请对此并不限定。
[0233] 可选地,该方法300还包括:
[0234] 将经分类器判别后的已处理词加入词典中;
[0235] 将该已处理词作为训练样本,以对分类器进行训练。
[0236] 具体地,该经分类器判别后的词可以为上述方法200中的待处理词,在经过上述方法200中的步骤210至步骤240之后,可以得到该待处理词的情感极性。将该待处理词作为已处理词,加入到词典中,以实现对该情感词典的更新,也就是对训练样本的更新,进而基于更新后的训练样本对分类器进行训练,以实现对分类器的更新。
[0237] 应理解,该对分类器的训练过程中在上文中已经结合步骤3201至步骤3203做了详细说明,这里为了简洁,不再赘述。
[0238] 因此,本申请实施例利用已有的情感词典作为训练样本,基于字与词的联系来训练分类器,这种将词典作为训练样本的方法,无需使用大规模预料,并且训练得到的分类器对词的情感极性判别的准确率高。并且,在对新生的情感词的判别之后,将新生的情感词加入情感词典中,从而可以自动扩展词典,也就是自动扩展了训练样本,并通过更新迭代的方式来扩展训练样本,最后基于扩展了的训练样本构建分类模型,一方面可以有效提高分类器对新生的情感词的情感极性判别的准确度,同时还可以省去人工标注的过程。再一方面,该方法无需使用人工设计规则,无需语言领域专业人员参与训练,实现较为方便。
[0239] 以上,结合图2和图3详细说明了本申请实施例提供的方法。以下,结合图4至图7详细说明本申请实施例提供的装置。
[0240] 图4是本申请实施例提供的自然语言处理装置400的示意性框图。如图4所示,该自然语言处理装置400包括:获取单元410、确定单元420和通信单元430。
[0241] 其中,获取单元410用于获取待处理词,该待处理词由M个字组成;
[0242] 确定单元420用于确定该M个字中m个待处理字的极性特征信息,该m个待处理字中的第i个字的极性特征信息包括n个极性特征值,其中,所述第i个字的第j个极性特征值由预存的词典中的目标词的数量与包括所述第i个字的全部词的数量的比值确定,所述目标词为包含所述第i个字的全部词中具有第j个极性特征值对应的情感极性的词;
[0243] 该确定单元420还用于根据该m个待处理字的极性特征信息,确定该待处理词的极性特征向量,该极性特征向量包括与n个情感极性一一对应的n组分量,该n组分量中的第j组分量由该m个待处理字中每个字的第j个极性特征值确定;
[0244] 该确定单元420还用于根据该待处理词的极性特征向量,通过预设的分类器,确定该待处理词的情感极性,该分类器用于确定该待处理词的情感极性;
[0245] 通信单元430用于输出该待处理词的情感极性;
[0246] 其中,M、n、m、i、j均为正整数,M≥m,i为[1,m]中的任意值,j为[1,n]中的任意值。
[0247] 应理解,自然语言处理装置400可以对应于根据本申请实施例的自然语言处理方法200中的自然语言处理装置,该自然语言处理装置400可以包括用于执行图2中自然语言处理方法200的自然语言处理装置执行的方法的模块。并且,该自然语言处理装置400中的各模块和上述其他操作和/或功能分别为了实现图2中自然语言处理方法200的相应流程,具体地,获取单元410用于执行方法200中的步骤210,确定单元420用于执行方法200中的步骤220至步骤240,通信单元430用于执行方法200中的步骤250,各单元执行上述相应步骤的具体过程在方法200中已经详细说明,为了简洁,在此不再赘述。
[0248] 图5是本申请实施例提供的自然语言处理装置500的结构性示意图。如图5所示,该自然语言处理装置500包括:处理器510、存储器520和通信接口530。其中,存储器520中存储有指令,处理器510用于执行存储器520中的指令,当该指令被执行时,该处理器510用于执行上述方法实施例提供的方法,处理器510还用于控制通信接口530与外界进行通信。
[0249] 具体地,自然语言处理装置500可以对应于根据本申请实施例的自然语言处理方法200中的自然语言处理装置,该自然语言处理装置500可以包括用于执行图2中自然语言处理方法200的自然语言处理装置执行的方法的模块。并且,该自然语言处理装置500中的各模块和上述其他操作和/或功能分别为了实现图2中自然语言处理方法200的相应流程。各模块执行上述相应步骤的具体过程在方法200中已经详细说明,为了简洁,在此不再赘述。
[0250] 图6是本申请实施例提供的分类器训练装置600的示意性框图。如图6所示,该分类器训练装置600包括:获取单元610和训练单元620。
[0251] 应理解,分类器训练装置600可以对应于根据本申请实施例的训练分类器的方法300中的分类器训练装置,该分类器训练装置600可以包括用于执行图3中训练分类器的方法300的分类器训练装置执行的方法的模块。并且,该分类器训练装置600中的各模块和上述其他操作和/或功能分别为了实现图3中训练分类器的方法300的相应流程。具体地,获取单元610用于执行方法300中的步骤310,训练单元620用于执行方法300中的步骤320,各单元执行上述相应步骤的具体过程在方法300中已经详细说明,为了简洁,在此不再赘述。
[0252] 图7是本申请实施例提供的分类器训练装置700的结构性示意图。如图7所示,该分类器训练装置700包括:处理器710、存储器720和通信接口730。其中,存储器720中存储有指令,处理器710用于执行存储器720中的指令,当该指令被执行时,该处理器710用于执行上述方法实施例提供的方法,处理器710还用于控制通信接口730与外界进行通信。
[0253] 具体地,分类器训练装置700可以对应于根据本申请实施例的训练分类器的方法300中的分类器训练装置,该分类器训练装置700可以包括用于执行图3中训练分类器的方法300的分类器训练装置执行的方法的模块。并且,该分类器训练装置700中的各模块和上述其他操作和/或功能分别为了实现图3中训练分类器的方法300的相应流程。各模块执行上述相应步骤的具体过程在方法300中已经详细说明,为了简洁,在此不再赘述。
[0254] 本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括计算机程序,当其在计算机上运行时,使得该计算机执行上述方法实施例提供的方法。
[0255] 本申请实施例还提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得该计算机执行上述方法实施例提供的方法。
[0256] 应理解,本申请实施例中,该处理器可以为中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0257] 还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
[0258] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0259] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0260] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0261] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0262] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0263] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0264] 以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈