首页 / 专利库 / 面料 / 整经 / 基于卷积神经网络和词向量相结合的新闻分类方法

基于卷积神经网络和词向量相结合的新闻分类方法

阅读:873发布:2023-03-10

专利汇可以提供基于卷积神经网络和词向量相结合的新闻分类方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种基于 卷积神经网络 和词向量相结合的新闻分类方法,首先将训练文本利用skip‑gram模型训练成分布式词向量表示,然后再将文本矩阵输入卷积神经网络分类器进行训练,模型训练好后就可以得出待测新闻文本的类别。本发明中采用的卷积神经网络不需要提前单独提取文本特征,可以通过整个网络独立完成,本发明操作步骤简便且具有更高的准确率。,下面是基于卷积神经网络和词向量相结合的新闻分类方法专利的具体信息内容。

1.基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,包括以下步骤:
1)准备训练需要的新闻文本数据集,所述数据集需要涵盖所需的所有类别;
2)建立停用词词汇表;
3)对所述步骤1)构建的新闻文本数据集进行分词,然后去除所述停用词词汇表中所包含的词语;
4)将分词处理好的新闻文本数据集按一定比例划分,取占比例最大的作为训练集,比例次之的为验证集,占比例最小的为测试集;
5)采用所述步骤4)划分的训练集通过skip-gram模型训练分布式词向量;
6)将训练集中的新闻文本采用所述步骤5)训练的词向量表示成文本矩阵,采用卷积神经网络训练文本分类器;
7)用所述步骤4)划分的测试集检验所述步骤6)训练的文本分类器,如果没有达到预期效果则返回步骤4)重新训练文本分类器;
8)将待测新闻文本输入训练好的文本分类器,自动输出所属类别。
2.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤1)中,每个类别的新闻数量要一致。
3.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤1)中,所述新闻文本数据集要进行打类别标签处理;所述类别标签采用统一格式,所述类别标签在每条新闻文本的最前面标明,用tab空格将其与新闻文本间隔开。
4.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述停用词词汇表内记载停用词,所述停用词包括语气词,人称代词,虚词和标点符号。
5.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤3)中,采用结巴分词进行分词。
6.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤4)中,选取的划分比例为100:10:5。
7.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤5)中,训练分布式词向量的具体过程如下:
51)先根据训练集建立训练词对,具体为,每个新闻文本从首到尾遍历每一个词,以遍历的当前词为中心,分别向左向右滑动一定距离的词,然后与其周围相邻的词组成词对;
52)训练词对建立好后,将词对中的词用one-hot向量表示,构建一个词汇表,所述词汇表的第一列包含新闻文本数据集中的所有词,并要按出现的顺序依次排好,所述词汇表的行对应的是该词的one-hot向量,每个词的one-hot表示就是该词的位置为1,其余的都是0;
53)将one-hot向量输入卷积神经网络,输入是词对中的第一个词的one-hot表示,输出是词对中的第二个词的one-hot表示;所述神经网络的权值为训练好的词向量。
8.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤6)中,训练文本分类器的具体过程如下:
61)将训练集中的新闻文本采用步骤5)训练好的词向量表示,所有词向量组合起来,所述新闻文本构成一个文本矩阵;
62)用卷积核扫描所述形成的文本矩阵,且卷积核只能上下的移动,卷积表示如下:
ci=f2(W·X+b)
其中,ci是是第i次卷积得到的卷积结果,f2是激活函数,W是卷积核的权值,X是文本矩阵,b是偏置值;
63)将每次卷积的结果组合在一起形成一个新的向量c,C=(c1,c2……cn),cn是第n次卷积得到的结果;
64)将所述步骤63)的卷积输出c进行最大池化操作,提取向量中的最大元素;
65)最大池化层之后经过全连接层,提取文本特征,所述文本特征的数量与最终要分类的类别数相同,具体如下:
yj=f3(W1·P+b1)
其中,yj是新闻文本中包含的第j类的特征,f3是全连接层的激活函数,W1是全连接层的权重矩阵,P是最大池化层的输出,b1是全连接层激活函数的偏置值;
66)采用Softmax函数计算概率,得出所属分类。
9.根据权利要求8所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述卷积核的大小和词向量的长度相同。
10.根据权利要求8所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤66)中,Softmax函数计算概率如下:
其中,L(yj)表示新闻文本属于j类别的概率,N表示所提取的文本特征数。

说明书全文

基于卷积神经网络和词向量相结合的新闻分类方法

技术领域

[0001] 本发明涉及一种基于卷积神经网络和词向量相结合的新闻分类方法,属于信息处理技术 领域。

背景技术

[0002] 传统的文本分类方法的主要流程是人工设计一些特征,从原始文档中提取特征,然后指 定分类器如LR、SVM,训练模型对文章进行分类,比较经典的特征提取方法如频次法、 TF-IDF、互信息方法、N-Gram。这些方法精确度低,操作复杂,需要先提取文本特征再分 类。使用传统的方案对新闻文本进行分类时,往往需要提取多个文本特征再进行文本分类, 因为根据单一的文本特征进行分类准确率达不到预期,所以这大大增加了操作的复杂度。
[0003] 近年来,深度学习的发展带动了很多领域的进展,自然语言处理也因为深度学习的发展 取得了很多的成果。在自然语言处理的很多方面,深度神经网络超过了很多传统的机器学习 方法,其中就包括文本分类问题。卷积神经网络做文本分类的效果已经远远超过了一些传统 的机器学习方法。与传统的方法相比,卷积神经网络处理高维数据较传统的机器学习方法来 讲毫无压。其特有的卷积、池化结构能够提取文本中的特征,并最终结合全连接网络实现 信息的汇总和输出。在提升精度的同时,卷积神经网络也降低了操作的复杂度,方法更简便。

发明内容

[0004] 本发明提供一种基于卷积神经网络和词向量相结合的新闻分类方法,将深度学习中的卷 积神经网络和分布式词向量相结合,先用skip-gram模型训练分布式词向量,再将每条新闻 用词向量表示,进行文本矩阵化。然后利用卷积神经网络训练分类模型,训练好之后就可以 利用该模型判别大量的新闻文本的类别。本发明解决了传统的分类方法存在的诸多问题,具 有更高的准确率,操作步骤更简便。
[0005] 本发明为解决上述技术问题采用以下技术方案:
[0006] 基于卷积神经网络和词向量相结合的新闻分类方法,包括以下步骤:
[0007] 1)准备训练需要的新闻文本数据集,所述数据集需要涵盖所需的所有类别;
[0008] 2)建立停用词词汇表;
[0009] 3)对所述步骤1)构建的新闻文本数据集进行分词,然后去除所述停用词词汇表中所 包含的词语;
[0010] 4)将分词处理好的新闻文本数据集按一定比例划分,取占比例最大的作为训练集,比 例次之的为验证集,占比例最小的为测试集;
[0011] 5)采用所述步骤4)划分的训练集通过skip-gram模型训练分布式词向量;
[0012] 6)将训练集中的新闻文本采用所述步骤5)训练的词向量表示成文本矩阵,采用卷积 神经网络训练文本分类器;
[0013] 7)用所述步骤4)划分的测试集检验所述步骤6)训练的文本分类器,如果没有达到预 期效果则返回步骤4)重新训练文本分类器;
[0014] 8)将待测新闻文本输入训练好的文本分类器,自动输出所属类别。
[0015] 前述的步骤1)中,每个类别的新闻数量要一致。
[0016] 前述的步骤1)中,所述新闻文本数据集要进行打类别标签处理;所述类别标签采用统 一格式,所述类别标签在每条新闻文本的最前面标明,用tab空格将其与新闻文本间隔开。
[0017] 前述的停用词词汇表内记载停用词,所述停用词包括语气词,人称代词,虚词和标点符 号。
[0018] 前述的步骤3)中,采用结巴分词进行分词。
[0019] 前述的步骤4)中,选取的划分比例为100:10:5。
[0020] 前述的步骤5)中,训练分布式词向量的具体过程如下:
[0021] 51)先根据训练集建立训练词对,具体为,每个新闻文本从首到尾遍历每一个词,以遍 历的当前词为中心,分别向左向右滑动一定距离的词,然后与其周围相邻的词组成词对;
[0022] 52)训练词对建立好后,将词对中的词用one-hot向量表示,构建一个词汇表,所述词 汇表的第一列包含新闻文本数据集中的所有词,并要按出现的顺序依次排好,所述词汇表的 行对应的是该词的one-hot向量,每个词的one-hot表示就是该词的位置为1,其余的都是0;
[0023] 53)将one-hot向量输入卷积神经网络,输入是词对中的第一个词的one-hot表示,输 出是词对中的第二个词的one-hot表示;所述神经网络的权值为训练好的词向量。
[0024] 前述的步骤6)中,训练文本分类器的具体过程如下:
[0025] 61)将训练集中的新闻文本采用步骤5)训练好的词向量表示,所有词向量组合起来, 所述新闻文本构成一个文本矩阵;
[0026] 62)用卷积核扫描所述形成的文本矩阵,且卷积核只能上下的移动,卷积表示如下:
[0027] ci=f2(W·X+b)
[0028] 其中,ci是是第i次卷积得到的卷积结果,f2是激活函数,W是卷积核的权值,X是文本 矩阵,b是偏置值;
[0029] 63)将每次卷积的结果组合在一起形成一个新的向量C,C=(c1,c2……cn),cn是第n次 卷积得到的结果;
[0030] 64)将所述步骤63)的卷积输出C进行最大池化操作,提取向量中的最大元素;
[0031] 65)最大池化层之后经过全连接层,提取文本特征,所述文本特征的数量与最终要分类 的类别数相同,具体如下:
[0032] yj=f3(W1·P+b1)
[0033] 其中,yj是新闻文本中包含的第j类的特征,f3是全连接层的激活函数,W1是全连接层 的权重矩阵,P是最大池化层的输出,b1是全连接层激活函数的偏置值;
[0034] 66)采用Softmax函数计算概率,得出所属分类。
[0035] 前述的卷积核的大小和词向量的长度相同。
[0036] 前述的步骤66)中,Softmax函数计算概率如下:
[0037]
[0038] 其中,L(yj)表示新闻文本属于j类别的概率,N表示所提取的文本特征数。
[0039] 本发明所达到的有益效果为:
[0040] (1)本发明方法解决了传统新闻文本分类方法需要提前单独提取文本特征的缺点。
[0041] (2)本发明中采用的卷积神经网络不需要提前单独提取文本特征,可以通过整个网络 独立完成。
[0042] (3)本发明采用卷积层,最大池化层,全连接层决定了其在特征提取的优越性。
[0043] (4)本发明中采用的文本表示方法是分布式词向量表示方法,词向量是利用skip-gram 模型训练的,较以前的one-hot表示方法相比,分布式词向量能更好的反应词与词之间的关 系。附图说明
[0044] 图1是本发明基于卷积神经网络和skip-gram模型相结合的新闻文本分类方法流程图
[0045] 图2是本发明基于卷积神经网络和分布式词向量结合的分类器训练实施步骤图。
[0046] 图3是本发明构建词对的实例示意图。
[0047] 图4是本发明利用的one-hot向量构建图。
[0048] 图5是本发明利用卷积神经网络分类的原理图。
[0049] 图6是本发明分类器最终的实际效果图。
[0050] 图7是本发明的判定新闻类别效果图。

具体实施方式

[0051] 下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而 不能以此来限制本发明的保护范围。
[0052] 本发明提供一种基于卷积神经网络和词向量相结合的新闻分类方法,如图1和图2所示, 具体步骤如下:
[0053] 一、准备训练需要的新闻文本数据集,要涵盖自己所需要的所有类别,比如体育、财经、 房产、家居、教育、科技、时尚、时政、游戏、娱乐等尽可能多的领域。而且每个类别的新 闻数量要一致,要保证数据集的均衡性和全面性。此处以搜狗新闻数据集为例。
[0054] 进一步的,在该步骤中,准备的新闻文本数据集要进行打类别标签处理。类别标签要统 一格式,最好在该条新闻的最前面标明,用tab空格将其与新闻文本间隔开。
[0055] 二、建立停用词词汇表。将一些对新闻类别没有影响的词写在停用词词汇表中,诸如语 气词,人称代词,虚词,还有标点符号等,越全越好。也可以使用网上公开的停用词词汇表, 但是根据数据集所创建的停用词效果会更好。
[0056] 三、对步骤一构建的新闻文本数据集进行分词,然后去除步骤二中建立的停用词词汇表 中的词语。分词可以使用现有的结巴分词技术,去除停用词后无用的词语对分类效果减少很 多,数据集也会变小很多,比如“每晚沿着操场跑步2000米,可以锻炼身体。”,经过去除 停用词后就会变成“跑步可以锻炼身体”。这可以理解为数据集降噪,节省了计算量。
[0057] 四、将分词处理好的新闻文本数据集按100:10:5的比例划分好。其中占比例最大的 作为训练集,比例次之的是验证集,占比例最小的是测试集。训练集是用来训练模型的,验 证集是辅助模型训练更好的调节参数,测试集是用来衡量分类器的好坏的。
[0058] 五、用步骤四划分出来的训练集通过skip-gram模型训练分布式词向量,词向量的维数 可以自己先设定好。具体操作过程如下:
[0059] 51):先根据训练集建立训练词对,按一个新闻文本从首到尾遍历每一个词,以遍历的 当前词为中心,分别向左向右滑动一定距离的词,然后与其周围附近的词组成词对。滑动窗 口可以根据最后的训练效果调整大小,窗口越大构建的词对数就会越多,但是效果并不会越 好,这还要通过每次时间才能找到最合适的窗口大小数。
[0060] 如图3中,训练集中的一个新闻文本为“我爱新闻”,从首个字“我”开始遍历,向右滑动, 得到词对(我,爱),(我,新),然后从“爱”字开始遍历,得到词对(爱,新),(爱,闻), (我,爱),从“新”字开始遍历,得到(新,闻),(爱,新),最终得到(我,爱),(我,新), (爱,新),(爱,闻),(新,闻)这几个词对。
[0061] 52):训练词对建立好后,将词对中的词用one-hot向量表示,就是构建一个词汇表,词 汇表的第一列包含新闻文本数据集中的所有词,这些词要按出现的顺序依次排好,词汇表的 行对应的是该词的one-hot向量,每个词的one-hot表示就是该词的位置为1,其余的都是0; 词汇表和one-hot向量具体示例如图4所示。
[0062] 53):将one-hot向量输入卷积神经网络,输入是词对中的第一个词的one-hot表示,输 出是词对中的第二个词的one-hot表示。训练的过程就是使输入词经过网络不断逼近输出词 的过程,网络层的权值不断更新。词向量就是隐藏层网络的权重;词向量训练原理为:
[0063] O=V·P  (1)
[0064] 其中,O是词对中的第一个词的one-hot表示,P是词对中的第二个词的one-hot表示, 矩阵V是训练网络的权重,也就是训练好的词向量。词向量就是一个反应词与词之间关系的 概率分布,这种关系可以被已有的卷积神经网络捕捉到。
[0065] 六、将新闻文本利用步骤五训练的词向量表示成文本矩阵,然后利用现有的技术搭建卷 积神经网络,把文本矩阵输入设计好的卷积神经网络就可以训练文本分类器,卷积神经网络 是已经存在的网络,可以直接搭建。参见图5,训练文本分类器具体工作过程如下:
[0066] 61):将训练集中的新闻文本用步骤五训练好的词向量表示,所有词向量组合起来,所 以新闻文本就被表示成了文本矩阵;
[0067] 62):用卷积核扫描上述形成的文本矩阵,卷积核大小要根据词向量来设置,保证和词 向量的长度相同,这样就可以扫描完整的词向量不会把词向量分开;
[0068] 文本卷积原理为:
[0069] 卷积核的宽度设置为词向量的长度大小,卷积的时候卷积核只能上下的移动,不能左右 动,这样就不会把一个词向量分开,可以保证每次都会扫描完整的词向量。
[0070] ci=f2(W·X+b)  (2)
[0071] 其中,ci是第i次卷积得到的卷积结果,f2是激活函数,W是卷积核的权值,X是文本矩 阵,b是偏置值。
[0072] 然后将每次卷积的结果组合在一起形成一个新的向量C,这个向量就是卷积提取后的特 征。
[0073] C=(c1,c2……cn)  (3)
[0074] 其中,cn是第n次卷积得到的结果。
[0075] 63):对步骤62)的卷积输出C进行最大池化操作,最大池化就是提取向量中的最大元 素,因为向量中的最大元素代表最多的特征。
[0076] 最大池化原理为:
[0077] 提取每个卷积核卷积得到的C向量中的最大值pi,组成一个新的向量P。
[0078] pi=max(C)  (4)
[0079] P=(p1,p2……pn)  (5)
[0080] 64):最大池化层之后就是全连接层。全连接层会根据最终要分类的类别数,进一步提 取最大池化层的文本特征。待分类类别数有N个,就会提取N个文本特征。文本分类器最终 的实际效果图参见图6。假设待分类的类别数有三种,那么就会提取三维的文本特征: y1,y2,y3。
[0081] 全连接层的工作原理为:
[0082] yj=f3(W1·P+b1)  (6)
[0083] 其中,yj是文本中包含的第j类的特征,f3是全连接层的激活函数,W1是全连接层的权 重矩阵,P是最大池化层的输出,b1是全连接层激活函数的偏置值。
[0084] 65):Softmax函数将特征通过运算得出一个在(0-1)之间的概率值,这一特性在数学 上已经被证实。此处就是利用了softmax函数的这一特性进行文本分类。最后根据softmax 函数求出来的L(yj)值进行分类。如果计算出来的L(yj)值最大,那么就判定该输入新闻文本 为j类。
[0085]
[0086] 其中,L是激活函数,y是经过全连接层处理得到的更精准的特征。
[0087] 七、用测试集检验步骤六训练的文本分类器的准确度,如果效果没有达到预期再重新训 练模型就可以。
[0088] 八、文本分类器训练好后,将待测文本输入文本分类器,文本分类器会自动输出判定属 于哪个类别,有可能是房产也有可能是经济和体育。如果语料库够全的话,可以用来分类所 有平台的新闻。图7为依据本发明方法进行分类后的效果图。
[0089] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说, 在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为 本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈