关键词是各种文本资源的元数据之一。他在文本自动分类、聚类、文本 资源管理、图书管理、文本资源检索等各个方面都有广泛的应用。关键词的 自动抽取效率和
精度直接影响到以元数据组织资源的服务系统的效率与质 量。
PowerPoint电子演示文稿是一种在教育教学活动中被广泛使用的电子演 示文稿格式。它也是网络教育中最常见的格式之一,也常见于授课和讲座过 程中,在教育教学活动中有着不可替代的重要性。对PowerPoint电子演示文 稿提取关键词有利于对教育教学资源进行分类组织,也有利于学习者快速掌 握教学要点,加快学习速度,增强学习的效果。
然而,目前尚未见针对PowerPoint电子演示文稿的关键词抽取研究。通 常常见的关键词自动抽取方法主要面向文本文档,采用的方法有词频统计法、 互信息法、最大熵模型法等等。这些方法没有专
门针对PowerPoint这个广泛 使用而又有特色的格式抽取关键词,没有利用PowerPoint电子演示文稿独有 的格式特征,并且忽略了关键词抽取任务数据的非平衡性特性,其效果也并 不尽如人意。
目前常见的关键词自动抽取方法,主要面向文本文档。对于PowerPoint 电子演示文稿这个在教育活动中被广泛应用的文档格式却没有相应的研究。 若简单的将文本文档的关键词抽取方法在PowerPoint电子样式文稿中进行应 用,则必然导致很多重要的有益信息的丢失,影响关键词抽取的准确度。
本发明的目的在于提供一种PowerPoint电子演示文稿的关键词抽取方 法,提高关键词抽取准确度。
本发明的技术方案是这样实现的:PowerPoint电子演示文稿的关键词抽取 方法步骤如下:
1)PowerPoint电子演示文稿特征表示:将PowerPoint电子演示文稿中 的候选关键词提取出来,并按照所选特征将候选关键词表示为向量形式,具 体步骤如下:
步骤1.1,预处理:利用PowerPoint文档对象模型将PowerPoint电子演 示文稿中文本形式的内容进行提取;
步骤1.2,分词及
词性标注:利用ICTCLAS分词工具,对步骤1.1中提 取出的文本内容进行分词和词性标注;
步骤1.3,候选特征词选择:采用了基于词性的独立词与非独立词结合的 候选关键词选择方法,选取可能的词和词组作为候选关键词;
步骤1.4,特征统计:对预先选择好的特征进行统计,将候选关键词表示 成向量形式;
步骤1.5,候选关键词过滤:按照过滤规则,过滤不合理的候选关键词;
2)训练与预测:以训练集中的候选关键词为输入,应用排序学习的方法 训练出排序模型,并依据此模型对待预测文档中的候选关键词进行预测排序, 最终选出待预测文档的关键词,具体步骤如下:
步骤2.1,候选关键词等级标注:对训练集中的候选关键词进行人工的等 级标注,将候选关键词依照标注规范标注为“推荐”、“可接受”、“不可接受” 三个等级;
步骤2.2,排序模型训练:以等级标注结果为依据,采用非平衡数据的 RankingSVM排序学习方法,训练出排序模型;
步骤2.3,候选关键词排序:利用训练出的排序模型,对待预测文档的候 选关键词进行排序;
步骤2.4,候选关键词选取:根据候选关键词排序结果,选取排序靠前的 候选关键词作为待预测文档的关键词。
所述的候选特征词选择中,采用了基于词性的独立词与非独立词结合的 候选关键词选择办法,具体步骤如下:
Step1:词语按照词性进行分类;
Step2:删除分隔词,并利用分隔词将文档分隔为
词串;
Step3:候选特征词选择模
块读入下一词串,若到达文档末尾则退出此过 程;
Step4:候选特征词选择模块读入下一词语,若当前词是独立词,则将当 前词与选词窗口中的词进行组合,将组合后的词组加入候选关键词集;若 当前词是非独立词,进入step5;
Step5:将当前词推入窗口,最早进入窗口的词推出窗口;
Step6:检查是否到达当前词串末尾;若是,清空窗口转Step3;若否, 转 Step4。
特征统计步骤,采用了三种PowerPoint特有的格式特点作为关键词抽取 特征,具体包括候选关键词是否出现在首页中、是否出现在页面的顶部文本 框中和候选关键词字号,
特征向量格式为
,
上述三种特征的获取步骤如下:
Step1:读取所要处理的文档
Step2:利用PowerPoint文档对象模型中slides集合,获取PowerPoint 中的所有页面;
Step3:判断候选关键词是否在第一个页面中出现,结果作为是否出现在 首页中这个特征,写入特征向量的FirstSlide字段;
Step4:利用PowerPoint文档对象模型中textframe对象获取页面中所有 文本框;
Step5:比较所有文本框的top属性,选择整个PowerPoint文档中top属 性最小的那些文本框作为顶部文本框;
Step6:判断候选关键词是否在这些文本框中出现,结果作为是否出现在 顶部文本框这个特征,写入特征向量的OnTop字段;
Step7:利用PowerPoint文档对象模型中runs函数获取font属性一致的 Textrange,从Textrange中获取候选关键词的font属性;
Step8:根据font属性获取候选关键词的字号,将获取来的原始字号利用 公式 进行归一化,结果填入特征向量FontSize字段 中。
根据候选关键词数据非平衡性和存在重要性偏序关系这个特点,采用了 非平衡数据的RankingSVM排序学习算法,对候选关键词进行排序;
具体实现步骤如下:
Step1:将候选关键词等级标注信息进行数学表示,“推荐”表示为2,“可 接受”表示为1,“不可接受”表示为0;
Step2:将经过上步处理的标注信息和训练数据集的候选关键词向量一起 作为训练数据,交给非平衡RankingSVM排序算法进行模型训练,得到排序 模型;非平衡RankingSVM排序算法优化方程为:
subject to:
其中,r表示偏序关系,ξi,j表示松弛变量,Cr为代价参数;
Step3:将待抽取文档的候选关键词向量作为预测数据,同上步训练产生 的排序模型一起,交给RankingSVM排序算法进行排序,得到候选关键词的 排序结果。
本发明优于以往关键词抽取方法的地方在于:1.它是一个专门针对 PowerPoint电子演示文稿的关键词抽取方法,填补了目前没有专门的 PowerPoint电子演示文稿关键词抽取方法的空白;2.它采用了针对非平衡数 据的排序学习的方法对候选关键词进行排序,一定程度上克服了关键词抽取 任务中的数据非平衡问题,更加符合关键词抽取任务的特点,能有效提高关 键词抽取准确度。
附图说明
图1是特征表示部分的流程图。
图2是候选特征词选择流程图。
图3是训练与预测部分的流程图。
下面结合附图对本发明的内容作进一步详细说明。
PowerPoint电子演示文稿的关键词抽取方法共由两个部分组成,分别是 特征表示部分、训练与预测部分。
一、特征表示部分(参照图1所示)
特征表示部分就是对PowerPoint电子演示文稿中的候选关键词进行选取, 并按照选取的特征进行特征表示,将其特征向量化的过程。
对待处理的PowerPoint电子演示文稿首先进行必要的预处理。这里预处 理包括利用PowerPoint文档对象模型对PowerPoint电子演示文稿进行解析, 从文件中提取slides,从slide中提取shapes。接着对每个shape判断其是否 包含文本框textframe,每一个textframe中是否包含文本。最后利用runs函 数从textframe中获得字体字号信息一致的Textrange,并从所有Textrange中 获得PowerPoint电子演示文稿中的全部文字信息。
接着对上一步获得的文本进行分词和词性标注,将连续的文本转化为按词 分隔,并标注词性的结果。这里分词和词性标注采用了《现代汉语语料库加 工规范——词语切分与词性标注》所定义标准,也就是通常所说的北大标准。
在候选特征词选取步骤中(参照图2所示),本方法采用了基于词性的独 立词与非独立词结合的候选特征词选取办法。这个方法分词结果按照上一步 所标注的词性,划分成三类,别称为独立词,非独立词,分隔词。其中独立 词包括各种名词词性,动词词性的词,其特点在于单个词语可能独立的成为 PowerPoint电子演示文稿的关键词;非独立词包括形容词,副词,及各种前 接、后接成分,这类词的特点在于其不能独立的成为PowerPoint电子演示文 稿的关键词,但是可以与独立词一起组成词组,成为PowerPoint电子演示文 稿的关键词;分隔词包括助词,连词,叹词,拟声词,标点符号等词性的词, 这类词的特征在于其不可能成为PowerPoint电子演示文稿的关键词或者关键 词的一部分,并且在句子中能起到对关键词的分割作用,即关键词只可能出 现在这类词的左侧或者右侧,不可能有跨越这类词组成的词组作为关键词。
具体的三类词的分类标准见下表:
表1三类词的分类标准
词性编 码 词性名称 归类 ag 形语素 分隔词 a 形容词 非独立词 ad 副形词 非独立词 an 名形词 非独立词 b 区别词 独立词 c 连词 分隔词 dg 副语素 非独立词 d 副词 非独立词 e 叹词 分隔词 f 方位词 非独立词
g 语素 分隔词 h 前接成分 非独立词 i 成语 独立词 j 简称略语 独立词 k 后接成分 非独立词 l 习用语 独立词 m 数词 非独立词 ng 名语素 独立词 n 名词 独立词 nr 人名 独立词 ns 地名 独立词 nt 机构团体 独立词 nz 其他专名 独立词 o 拟声词 分隔词 p 介词 分隔词 q 量词 非独立词 r 代词 分隔词 rg 代语素 分隔词 s 处所词 独立词 tg 时语素 独立词 t 时间词 独立词 u 助词 分隔词 vg 动语素 独立词 v 动词 独立词 vd 副动词 分隔词 vn 名动词 独立词 w 标点符号 分隔词 x 非语素字 分隔词 y 语气词 分隔词 z 状态词 非独立词 un 未知词 分隔词
本发明在特征词选择过程中,首先根据上述分类,排除分隔词,并利用 分割词的性质,利用其作为分隔标记,将整段的文本划分为短小的子串。接 着对每一个划分过的子串,按照给定一个窗口大小,逐个检索符合窗口大小 的词和词组作为候选关键词。当读入的一个词为独立词时,将该词和它与窗 口中所有词的搭配作为候选关键词;当读入的词为非独立词时,只将它与窗 口中的词组成的搭配作为候选关键词。最后将新读入的词放入窗口,代替最 早放入窗口中的旧词。例如窗口大小为4,即最多可选出4个词组成词组作 为关键词,窗口中已有的词语为“国际”、“市场”、“营销”“、调研”,从子 串中新读入的词为“策略”则此时选中的候选关键词包括“策略”、“调研策 略”、“营销调研策略”、“市场营销调研策略”,更新后窗口中的词为“市场”、 “营销”“、调研”、“策略”。
在候选关键词选择步骤过后,我们选择出了很多个候选关键词。接下来, 对候选关键词进行特征的统计。本发明选取的候选关键词特征可分为两类: 1.PowerPoint电子演示文稿特有特征;2.传统统计特征。下面就特征选择做 出详细说明。
PowerPoint电子演示文稿特有特征包括:是否在首页中出现,是否在顶 部文本框出现,字号。
PowerPoint电子演示文稿是由许多个页面组成的,在PowerPoint文档对 象模型中被成为slide。通常来说,文档标题、总体介绍、内容综述等总结性 内容多出现在PowerPoint的第一个页面中,而这些总结性内容是最容易包含 文档关键词的地方。因此,本发明将候选关键词是否在PowerPoint电子演示 文稿首页中出现过这一信息进行记录,作为候选关键词特征向量的一维特征, 用于训练和预测。具体的特征获取方式为:首先,利用PowerPoint文档对象 模型中的slides对象获得一个PowerPoint文档的所有页面,接着从该集合对 象中获得位于第一个
位置的slide对象,即首页,然后判断每个候选关键词是 否出现在首页中,若出现记为1,未出现记为0。例如一篇关于市场营销的 PowerPoint电子演示文稿,其首页内容为“市场营销调研策划”,此时就将候 选关键词“市场营销”、“调研”、“策划”三个候选关键词的某一特征位标识 为1,而其他没有在首页出现的候选特征词的对应位标识为0。
PowerPoint电子演示文稿的每一个页面(slide)都包含有若干个可让制 作者输入文字内容的区域,称之为文本框。而对于整个页面进行总结、总述 的内容通常位于页面顶部的文本框中。因此关键词出现在顶部文本框中的概 率要大于一般文本框。鉴于此,本发明将候选关键词是否在页面顶部文本框 中出现这一信息进行记录,作为候选关键词特征向量的一位特征,用于训练 和预测。具体的特征获取方式为:首先,利用PowerPoint文档对象模型中的 slides对象获得一个PowerPoint文档的所有页面,接着对所有页面利用shapes 集合对象获得页面中的所有形状,然后判断每一个shape是否包含textframe, 每个textframe中是否含有文字。对符合判断条件的shape利用其top属性获 得顶部位置,将所有顶部位置进行比较,选出位置最高的那些。最后将包含 在这样的shape中的候选关键词标记为1,其他标记为0。例如,上面说到的 关于市场营销的PowerPoint电子演示文稿的顶部文本框中的内容为“市场营 销信息系统”,此时就将候选关键词“市场营销”、“信息系统”这两个候选关 键词的某一特征位标识为1,其他没有在顶部文本框中出现的候选关键词标 识为0。
通常来说,PowerPoint电子演示文稿制作者为了醒目标识重要性高的内 容,通常对其采用相对较大的字号表示。因此本发明将PowerPoint电子演示 文稿中候选关键词的字号作为一个特征,用于训练和预测。具体的特征获取 步骤为:首先,与上两步一样,从文档中获取slides,从slide中获取shapes, 从shapes中获取textframe;接着利用textframe对象的runs函数,可获得字 体字号信息一致的文本区域(Textrange);然后,利用Font属性就可以获得 出现在不同Textrange中的候选关键词的字号了。由于不同的PowerPoint电 子演示文稿采用的字号整体大小可能不同,这里在获得了候选关键词的绝对 字号后,为获得在单篇文档中相对大小,对绝对字号进行了归一化处理。归 一化公式为:
其中,FontSize为相对字号,FSize 为绝对字号,FSizemin为整个文档中最小的绝对字号,FSizemax为整个文档中最 大的绝对字号。例如,上面说到的关于市场营销的PowerPoint电子演示文稿 的某一页中的内容为“市场营销信息系统”,其中“市场营销”采用宋体五号, “信息”采用宋体一号,“系统”采用宋体五号,则从中选出来的候选关键词 为“市场营销”、“信息”、“系统”,并且会记录他们的字号,归一化后作为一 维特征。
传统统计特征包括:TFIDF,首次出现位置,词长。
TFIDF包括候选特征词的词频信息,文档倒频信息,其计算公式为: TFIDF=TF*IDF。其中TF为候选特征词词频,IDF为候选特征词在文档集中 的倒排
频率。首次出现位置是指候选特征词在单篇文档中第一次出现的位置 信息。词长指的是候选特征词长度。这些特征通常在文本文档的关键词抽取 中使用,PowerPoint作为具有特殊格式的文本文档,这特征对其同样适用。
经过候选关键词选择和特征表示,一篇PowerPoint电子演示文稿被处理 为候选关键词向量的集合。然而,在这个集合中还存在着很多不合理的候选 关键词。因此,需要利用统计特征初步过滤候选关键词,减少候选关键词数 量,为以后的训练和预测减轻负担。本方法在候选关键词过滤步骤中采用了 简单的基于词频的方法,过滤掉词频为1,且没有在PowerPoint电子演示文 稿的首页或顶部文本框中出现过的候选关键词。某个候选关键词词频为1, 很可能是由于该候选关键词是一个不合理的搭配造成的,因此可以将其过滤 掉。这样在保证选取到真正关键词的
基础上,减少了候选关键词数量,为训 练和预测减轻了负担。
二、训练与预测部分(参照图3所示)
经过上面候选关键词选择和特征表示部分,PowerPoint电子演示文稿被处 理成了候选关键词向量的集合。接下来将要对其进行训练和预测,对候选关 键词的重要性进行排序,以便根据需要按照其重要性顺序抽取关键词。
训练和预测部分的整体
框图如图2。总体上分为训练和预测两个部分。
训练部分首先将作为训练数据的PowerPoint电子演示文稿集合按照上一 部分所述的方法,处理成候选关键词向量的集合。接着将选好的候选关键词 进行人工等级标注。在标注部分,训练数据集中的每篇PowerPoint电子演示 文稿的候选关键词被提供给标注工作人员。标注工作人员按照一定的标注规 范,将候选关键词分别标记为“推荐”、“可接受”、“不可接受”三个等级。 其中,“推荐”等级表示该候选关键词应该被推荐成为文档关键词;“可接受” 等级表示该候选关键词虽不是最合适的文档关键词,但它作为文档关键词也 是可接受的;“不可接受”等级表示该候选关键词不适合作为文档关键词。经 过这样的标注之后,训练数据集中的候选关键词就都有了属于自己的等级, 可以用其进行排序模型的训练了。
排序问题是指学习如何给一组对象按照一定标准设定它们之间的相对顺 序,它是在近年来的
机器学习研究中一个很受关注的问题。不同于传统的机 器学习任务——分类和回归,排序问题被定义为将不同对象映射到某种序关 系上。在人们的偏好关系起重要作用的一些领域,排序问题十分普遍。关键 词抽取就是要将人们认为重要性最高的,最能反映文档中心的词语或词组抽 取出来作为文档关键词,它的实质就是按照重要性对候选关键词进行排序。 因此,排序学习方法比分类的方法更符合问题本身的特点,易于取得良好的 效果。对于经过等级标注的训练数据,本方法采用rankingSVM排序算法对 其进行训练。rankingSVM是由Cornell University的Thorsten Joachim于2002 年提出的一种以
支持向量机为基础的排序学习算法,该方法比较成熟,执行 效率相对较高,因此本方法选取它作为排序学习方法。
训练数据集经过rankingSVM排序算法的训练,将会生成一个排序模型, 该模型将用于对未知文档的预测。当有关键词未知的PowerPoint电子演示文 稿输入时,本方法首先对新的文档进行候选关键词选择和特征表示,之后根 据上面训练所得到的排序模型,即可将候选关键词向量按照其重要性偏序关 系进行排序,达到排序目的。
关键词抽取任务跟普通机器学习任务不同的是,关键词抽取任务中存在 着数据
不平衡的问题。数据不平衡指一类数据的数量明显多于另一类数据的 数量,普通的机器学习算法可能做出对多的那一类数据有利的判断,尽管实 际任务中我们往往关心的是数量较少的那一类数据。这种数据不平衡问题在 很大程度上会影响到排序的效果,进而影响到关键词抽取的准确度。为解决 这一问题,本抽取方法采用了针对非平衡数据的改进排序方法,将不同的重 要性等级间赋予不同的代价参数,使排序算法在学习的过程中给予真正的关 键词更多的重视,从而提高排序的准确度,提高关键词抽取效果。改进将原 有的rankingSVM优化方程变化为:
subject to:
其中,r表示偏序关系。从优化方程上看,优化方程为不同的重要性等 级定义了不同的代价参数Cr,而不是像原rankingSVM算法用了统一的C。 由于不同代价参数的存在,排序算法将给予更重要性等级高的数据错排的情 况给予更大的惩罚,由此给予高重要性等级的候选关键词更多重视,改善排 序算法在非平衡数据上的效果。
排序后的候选关键词接着进行关键词的选取。关键词的选取可以根据用 户的需要从重要性最高的候选关键词中选择若干个,作为整个PowerPoint电 子演示文稿的关键词,返回给用户完成整个关键词抽取过程。