首页 / 专利库 / 人工智能 / 词性标注 / 一种新的面向文本分类的特征向量权重的方法及装置

一种新的面向文本分类特征向量权重的方法及装置

阅读:289发布:2021-09-11

专利汇可以提供一种新的面向文本分类特征向量权重的方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 涉及计算机科学与技术领域,特别是一种新的面向 文本分类 的 特征向量 权重的方法。文本分类方法中,TF*IDF和TF*IWF被广泛的用来计算特征向量的权重。但是这两种方法都过分的倚重词频,同时又无法表示出向量元素在类别之间分布的不均衡性。这里,我们提出了一种新的权重方法(TF*IWF*DBV)。在TF*IWF方法中引入了DBV和TF的n次方根弥补了方法的不足。实验证明新方法的采用可以将F1测度提高11.8个百分点,充分证明了它的有效性。,下面是一种新的面向文本分类特征向量权重的方法及装置专利的具体信息内容。

1、一种新的面向文本分类特征向量权重的方法,其特征在于,步 骤如下:
a)按领域收集训练语料和测试语料;
b)去除网页文本的一些“垃圾”、分词、词性标注
c)从训练语料中提取出每个领域的词表,同时提取出总词表;
d)根据总词表和领域词表建立用于分类的具有不同关键词数目的信 息词表;
e)使用信息词表和特征向量权重TF*IWF*DBV计算特征向量词权重及 词在不同类别中分布差异 Σ j ( p ij - p i ) 2 / Σ j p ij , 对测试文本进行分 类,计算F1测度,同时优化得到最优值;
f)根据分类结果确定最优的关键词数目。
2、根据权利要求1的方法,其特征在于,步骤e中提到TF*IWF*DBV 特征向量权重算法用于建立向量空间模型。
3、根据权利要求1的方法,其特征在于,步骤e中提到TF*IWF*DBV 特征向量权重算法用于表述变量在不同类之间分布差异性的数学变量 DBV。
4、根据权利要求1的方法,其特征在于,步骤e中提到TF*IWF*DBV 特征向量权重算法引入TF的n次方根。
5、根据权利要求1的方法,其特征在于,步骤f中提到的根据不同 数目关键词下分类准确率变化曲线图确定最佳关键词数目的方法。
6、根据权利要求1的方法,其特征在于:训练语料和测试语料的收 集包括:
一、按照六个领域从网上下载训练语料,去除网页文本的一些“垃圾”、 分词、词性标注;
二、测试语料按照相同的原则从网上下载,整理
7、根据权利要求1的方法,其特征在于:提取各类别的总词表步骤 包括:
从各个词表中选取分别按照词频选取不同数目的关键词,组成10个 关键词表。
8、根据权利要求1的方法,其特征在于:所述分类包括:
步骤1:构造分类器,分别采用TF*IDF启发式权重算法:
W(fi,d)=TF(fi,d)*IDF(fi)=N(fid)*log(N/N(fi)) 和TF*IWF特征向量权重算法:
W(fi,d)=TF(fi,d)*IWF(fi)=N(fid)*(log(M/M(fi)))2 得到词权重计算公式TF*IWF*DBV:
W ( f i , Cj ) = Σ j ( p ij - p i ) 2 / Σ j p ij × ( log ( M / M ( f i ) ) ) 2 × p ij n ,
W ( f i , d ) = Σ j ( p ij - p i ) 2 / Σ j p ij × ( log ( M / M ( f i ) ) ) 2 × p id n
对测试语料进行分类,式中,pij=Tij/Lj,Lj是类Cj含有的所有词的次 数之和,Tij是词i在类Cj中出现的次数;pid=Tid/Ld,Ld文本d含有的所 有词的次数之和,Tid是词i在文本d中出现的次数; p i = Σ j p ij / m , 其中m 是类别数,n取1、2、3或4;
步骤2:采用优化的阀值算法,得到不同关键词数目的分类词表在不 同权重算法下的分类结果;
步骤3:对比分类的结果,找到达到最佳分类效果时的关键词的数目, 至此,最优分类器构造完成。
9、面向文本分类的特征向量权重分类器的装置,其特征在于:由语料 收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置组成, 其中,语料收集及前处理装置、特征抽取装置、分类器、阀值装置、后处 理装置依次串联连接;
语料收集及前处理装置,用于训练语料和测试语料的收集;
特征抽取装置,提取训练语料和测试语料各类别的总词表,用于从各 个词表中选取分别按照词频选取不同数目的关键词,组成关键词表;
分类器,用于对测试语料进行分类;
阀值装置,用于获得不同关键词数目的分类词表在不同权重算法下的 分类结果;
后处理装置,用于对比分类结果,找到达到最佳分类效果时的关键词 的数目。

说明书全文

技术领域

发明涉及计算机科学与技术领域,特别是一种新的面向文本分类特征向量权重的方法及装置。

背景技术

随着科学技术尤其是信息技术的不断发展,人与人之间的交流方式已 经从单纯的面对面交流发展到越来越多的采用“文本”这种语言形式作 为信息载体。最为明显的例子就是数字图书馆和网页文本。毫无疑问, 对这些语言资源的有效管理可以为用户获取信息提供很大的便利。但是 随着网络通信的发展,网上可用文本信息的数量急剧膨胀,甚至可以说 是成指数级增长,如果再像以前那样手工对这些文本进行分类不但费时 费,而且准确率也无法保证,因此自动文本分类技术应运而生。此外, 自动文本分类技术在许多方面都有应用,例如:文档索引的建立、不良 信息的过滤、不同领域信息的分流、主题识别、自动文摘、词义消歧、 智能信息检索以及其他需要对文档进行整理的地方。
从60年代计算机刚刚兴起,人们就认识到了文本分类技术重要性, 并进行了初步的探索和研究,一直到80年代末基本上都是基于规则的知 识工程的方法。这种方法费时费力,准确率也不高,尤其对于不常出现 的关键词很难建立规则,同时还需要一支由语言学家组成的智囊团的支 持。所以随着90年代基于统计的自然语言技术的兴起,机器学习的方法 逐渐被应用到文本分类技术中,并迅速成为主流趋势,出现了各种各样 的基于统计的文本分类方法:k近邻方法、贝叶斯方法、支持向量机、 规则学习方法、相关反馈方法、神经网络方法、决策树等等。根据卡耐 基梅隆大学Yiming Yang报道的结果,基于向量空间模型的支持向量机 方法效果最好,其他几种方法的基础多数也要先建立类和文本的特征向 量。特征向量的建立最常用的方法就是TF*IDF(TF:Term Frequency,IDF: Inverse Document Frequency)方法,以及由它派生的TF*IWF(Term Frequency,IWF:Inverse Word Frequency)方法。但是从已经报道的实验 结果来看,使用这种方法的分类器的准确率都不高,最好的F1测度也就 是85%。基于此,本文作者对TF*IWF方法进行了深入的分析,引入两 个变量(DBV和TF的n次根)对其进行了改进,实验证明改进后分类 准确率提高了11.8个百分点,充分证明了这种改进的有效性。

发明内容

本发明的目的在于提供一种新的面向文本分类的特征向量权重的方法 和一种新的分类器的设计思路。
本发明是以计算机作为工具,根据改进的特征权重算法,采取一定的 选词策略和值器,建立了包含从文本预处理到自动分类,再到分类结 果的后优化等一整套功能的自动分类装置。
本发明为基于统计的文本分类方法提供了一条计算向量权重的途 径。该方法是在TF*IWF方法中引入了DBV变量,并用TF的n次方根 代替了TF,从而得到了改进后的方法,即TF*IWF*DBV(Term Frequency, Inverse Word Frequency,DBV:Dis-banlance Variable)方法。实验证明该方 法可以大大提高文本分类的正确率、召回率和F1测度。
面向文本分类的特征向量权重分类器的装置,由语料收集及前处理装 置、特征抽取装置、分类器、阀值装置、后处理装置组成,其中,语料 收集及前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依 次串联连接。
发明技术方案
面向文本分类的特征向量权重的方法:
用基于TF*IWF*DBV特征向量权重方法计算特征向量并进行文本分 类的步骤:
a)按领域收集训练语料和测试语料;
b)去除网页文本的一些“垃圾”、分词、词性标注
c)从训练语料中提取出每个领域的词表(词、词性、领域内词频), 同时提取出总词表(词、词性、总词频);
d)根据总词表和领域词表建立用于分类的具有不同关键词数目的 信息词表(包括词、词性、词频、IWF、DBV等);
e)使用信息词表和和特征权重算法(TF*IWF*DBV)对测试文本 进行分类,计算F1测度,同时优化得到最优阀值;
f)根据分类结果确定最优的关键词数目。
步骤e中提到的建立文本和类向量空间模型时采用的TF*IWF*DBV 特征向量权重方法。
步骤e中提到的特征向量权重方法中表述变量在不同类之间分布差 异性的数学变量DBV。
步骤e中提到的特征向量权重方法中TF的n次方根的引入。
步骤f中提到的根据不同数目关键词下分类准确率变化曲线图确定 最佳关键词数目的方法。
下面详细说明本发明技术方案中所涉及的各个细节问题。
1、语料选择:
本实验采用的语料包括两部分,一部分是中科院自动化所和Nokia公司 为欧盟合作项目(LC-Star)建立的3087万字的汉语语料库,分六个领 域(体育、娱乐和游戏、财经、新闻、个人交流、消费信息),这一部分 语料作为训练语料;第二部分语料是1119个从网上随意收集的文本(共 807158个汉字),分属于这六个领域,各领域文本数分别为:消费信息 领域(189)、娱乐和游戏领域(320)、财经领域(52)、新闻领域(100)、 个人交流领域(101)、体育领域(357),这一部分语料作为开放的测试 语料。
2、特征选取:
常见的文本分类的特征有字、词、短语、段落、句子、概念以及它们 的N-Gram信息。这里我们采用最常用也是被实验证明为最有效的词作 为文本分类的特征。下面需要确定两个问题:第一,选取什么样的词; 第二,选取多少词。具体步骤如下:
1)提取各类别的总词表,并去掉频率在0.0001%以下的词。这是因 为
对某个类别来讲,出现频率太低的词对该类别几乎没有什么重要 性。
2)从各个词表中选取分别按照词频选取不同数目(100、200、500、 1000、1500、2000、2500、3000、3500、4000)的关键词,根据 分类准确率随关键词数目变化的曲线图,找到最优的关键词数 目。
3、方法的改进
基于TF*IDF启发式权重方法是Salton于1973提出的,其定义是: 特征fi在文本d中的权重W(fi,d):
W(fi,d)=TF(fi,d)*IDF(fi)=N(fid)*log(N/N(fi)) 其中,N(fi)是出现fi的训练文本数,N是总训练文本数,N(fid)是文本d中 出现fi的次数。
在此基础上,Roberto Basili 1999提出了TF*IWF方法,他采用词作 为文本分类的特征,与前者的不同体现在两个方面:(1)后者采用关键 词出现的次数代替了前者中关键词出现的文本数,训练语料中所有词出 现次数之和代替了前者的总训练文本数;(2)后者采用对数平方代替了 前者的对数。
W(fi,d)=TF(fi,d)*IWF(fi)=N(fiD)*(log(M/M(fi)))2
我们提出的对TF*IWF方法的改进方法主要体现在如下两个方面:一 利用TF的n次方根代替TF,从而削弱词权重对词频的倚重,并通过实验 比较了n取1、2、3、4的效果;二是引入了DBV表述词在不同类别中 分布差异性这一属性。
关键词在某类的权重受三个因素影响:一是该词在当前类中的出现频 率,二是该词在总语料中的出现频率,三是该词在不同类别之间出现频 率的差异性。在TF*IWF方法中采用TF来表示第一个因素,原来是指词 次数,这里我们用词频,但是我们知道在同一类别中如果词W1的出现 频率是词W2的两倍并不能说W1对该类的重要性是W2的两倍,直觉上 应当小于两倍。因此为了消弱频率对于词权重过度的影响,我们采用它 的n(n≥1)次方根形式,并对n=1、n=2[P.P.T.M.van Mun]、n=3、n=4等几 种方根情况进行了实验,通过比较分类效果我们找到了TF比较适当的表 示形式。
在TF*IWF方法中采用IWF来表示第二个因素,其原理是总训练语 料中出现次数越少的关键词权重应当越高。但TF*IWF忽略了第三个因 素,关键词在总语料中出现次数多少并不能完全说明该词在分类中的“重 要性”,频率相同的关键词在分类中的“重要性”也是不同的:在各类别 之间分布越均匀,其重要性就越小,反之其重要性就越大。我们又知道 方差是体现数据分布不均衡性的一个数学指标,但从方差公式中可以看 出,方差大小又受到词频大小的影响,为了消除这种影响(因为词频因 素在TF中已经表示了,这里需要得到的只是词频之间的差异性表示), 我们用方差除以该词在各类中词频之和,于是得到式 表示关键词在不同类之间的分布差异性。于是我们得到下面的词权重计 算公式:
W ( f i , Cj ) = Σ j ( p ij - p i ) 2 / Σ j p ij × ( log ( M / M ( f i ) ) ) 2 × p ij n
W ( f i , d ) = Σ j ( p ij - p i ) 2 / Σ j p ij × ( log ( M / M ( f i ) ) ) 2 × p id n
其中,pij=Tij/Lj,Lj是类Cj含有的所有词的次数之和,Tij是词i在类 Cj中出现的次数;pid=Tid/Ld,Ld文本d含有的所有词的次数之和,Tid是 词i在文本d中出现的次数; p i = Σ j p ij / m , 其中m是类别数;理论上n 可以取1,2,3,4。
文本特征向量 和类特征向量
C j = ( W ( w 1 , C j ) , W ( w 2 , Cj ) , · · · W ( w k , Cj ) )
d = ( W ( w 1 , d ) , W ( w 2 , d ) , · · · W ( w k d , d ) )
其中,W(w1,Cj)、W(w1,d)分别是词i在类别Cj、文档d中的权重。k是 总关键词表中关键词数目,kd是文本d中包含的关键词的数目。
Cj和d的相似度函数(这里采用的是线性分类器,严格来讲不是二者 的相似度函数,这里为了表示方便只是借用这个名称):
S ( C i , d ) = C i · d
= ( W ( w 1 , Cj ) , · · · W ( w k , Cj ) ) · ( W ( w 1 , d ) , · · · W ( w k d , d ) )
4、评价函数与阀值的确定
目前,国际上比较流行的判断文本分类器效果的评价函数主要有两种: micro-F1测度及macro-F1测度[Yang,1997]。相比而言前者的使用更广泛 一些,其定义如下:
Nc代表被分类的文本数
Nr代表被拒绝分类的文本数
Ncr代表被分类文本中分类正确的文本数
Ns代表应该被分类的文本数
总正确率: p = Ncr Nc × 100 % 总召回率: r = Ncr Ns × 100 %
评价函数F1测度:
 Y=2rp/(r+p)
一般来说,文本分类器不大可能保证100%对文件正确分类。尤其是 当某个文本与不同类别计算出来的相似度差别不大的时候,错误分类的 概率会比较高,所以有必要设定一个阀值保证在出现这种情况时拒绝分 类,以减小分类的错误率。
Saturnine(2003)曾提到利用两个最大相似分数之间关系作为阀值即 比例阀值,这里根据文本分类的特点采用两个最大相似分数之间差的绝 对值与最大相似分数的比值X来判断是否接受分类。X的值是在0-0.1之 间以0.001为步进单位,以上面提到的评价函数F1测度为标准优化得到 的。对于不同的方法、不同数目的关键词,根据优化方法都可以得到一 个可以使评价函数F1测度最优的X值,此X值即为该条件下的阀值。 于是可以得到下面的公式:
X = ( max C j S ( C j , d ) - sec max C j S ( C j , d ) ) / max S C j ( C j , d )
其中 分别是最大的和次大的Cj和d相似度分 数。
阀值Th的定义:
Th = arg max x ( Y )
5、实验结果
下表中是本实验的结果:

从实验结果可以看到,在各个不同的关键词数目下TF*IWF*DBV算法的 分类效果都要好于TF*IWF算法,当N=3500时,分类的F1值提高11.8 %,充分证明了该方法的有效性。
附图说明
图1是本发明面向文本分类的特征向量权重方法的流程图
图2是本发明自动文本分类器的装置图。

具体实施方式

图1中,面向文本分类的特征向量权重的方法,其具体步骤如下:
步骤S1,训练语料和测试语料的收集,一、按照六个领域(消费信息 领域、娱乐和游戏领域、财经领域、新闻领域、个人交流领域、体育领 域)从网上下载训练语料,去除网页文本的一些“垃圾”、分词、词性标 注,最后得到共3087万字的训练语料。二、测试语料按照相同的原则从 网上下载,整理,共得到1119个测试文本。语料收集以后进行了分词处 理。
步骤S2,
1)各类别的总词表,并去掉频率在0.0001%以下的词。这 是因为对某个类别来讲,出现频率太低的词对该类别几 乎没有什么重要性。
2)个词表中选取分别按照词频选取不同数目(从各领域中 分别选取100、200、500、1000、1500、2000、2500、3000、 3500、4000个关键词)的关键词,组成10个关键词表。
步骤S3,构造分类器,分别采用TF*IWF和TF*IWF*DBV权重算法, 和分类算法对测试语料进行分类。
步骤S4,采用优化的阀值算法,得到不同关键词数目的分类词表在不 同权重算法下的分类结果。
步骤S5,对比分类的结果,找到达到最佳分类效果时的关键词的数目。
图2是本发明自动文本分类器的装置图。是实现本发明面向文本分 类的特征向量权重方法的装置结构。由语料收集及前处理装置、特征 抽取装置、分类器、阀值装置、后处理装置组成,其中,语料收集及 前处理装置、特征抽取装置、分类器、阀值装置、后处理装置依次串 联连接。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈