提取文本主题词是很多网络应用都需要面临的技术问题。例如,在基于 内容的
网络广告应用中,需要提取用户当前浏览的网页内容的主题词,然后
向该用户发送与该主题词相关的广告;在
搜索引擎建立索引时,需要提取搜 索到的各个文本的主题词,然后根据从各个文本提取到的主题词建立各个文 本的索引,从而提高检索效率;在基于内容的
文本分类中,也需要提取能够 反映文本内容的主题词,然后根据提取到的主题词进行文本分类。
目前,提取文本主题词的普遍方法是:首先建立大规模语料库,其中存 储有大量的文本,根据大规模语料库建立语言词库,该语言词库中涵盖了从 大规模语料库中统计得到的现有词。在提取待处理文本的主题词时,对待处 理文本进行分词处理,将待处理文本分成现有词的组合序列,例如,采用通 用的基于二元词模型的方法对待处理文本中的各个句子进行切分。然后将待 处理文本中的现有词在所述大规模语料库中的词频或者文档
频率或者逆文 档频率(TFIDF),在词频或者文档频率或者TFIDF在第一预定范围内时, 将相应现有词提取为待处理文本的主题词。
可见,
现有技术根据基于大规模语料库得到的语言词库来对待处理文本 进行分词处理,并从待处理文本中分出的现有词在所述大规模语料库中的词 频或者文档频率或者TFIDF来提取主题词。
然而,在实际的网络应用中,常常会出现很多现有的语言库没有收录的新词,例如"霸王面,,、"北漂一族,,、"啃老"等,而这些新词作为文本 的主题词的概率又很高。
可见, 一旦能够表达待处理文本主题的词(下文简称待处理文本的主题 词)不在已有的语言库中,由于无法根据现有的语言库从待处理文本中分出 该主题词,因此,也不可能从待处理文本中提取该出题词,导致提取的主题
i司不全面。 发明内容
有鉴于此,本发明
实施例的目的在于提供一种提取文本主题词的方法, 以提高提取的主题词的全面性。
为达到上述目的,本发明实施例的技术方案具体是这样实现的: 一种提取文本主题词的方法,该方法包括: 将待处理文本切分成现有词的组合序列;
对于每一待处理文本,查找并提取在该待处理文本中的出现频率大于预定 频率的候选字符串,根据该候选字符串的前缀和/或后缀的成词概率,从候选字 符串中过滤出新词;
根据新词和所述组合序列中的现有词在所述待处理文本中的出现频率,从 所述现有词和所述新词中提取所述待处理文本的主题词。
由上述技术方案可见,本发明在将待处理文本分成现有词的组合序列后, 对于每一待处理文本,查找并提取在该待处理文本中的出现频率大于预定频率 的候选字符串,根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串 中过滤出新词,根据现有词和新词在所述待处理文本中的出现概率,从所述现 有词和新词中提取该待处理文本的主题词。
由于本发明在提取主题词之前进行了基于局部特征的新词发现,即,对于 每一待处理文本,都统计该待处理文本中重复次数大于预定频率的候选字符串, 并根据候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词, 该新词是基于每一个待处理文本得到的,而非基于大规模语料库得到,因此,能够更有针对性地体现待处理文本的主题,通过从该新词中提取主题词,可以 提高提取的主题词的全面性。
附图说明
图1是本发明提供的提取文本主题词的方法
流程图。 具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举 实施例,对本发明进一步详细"i兌明。
图1是本发明提供的提取文本主题词的方法流程图。
其中,步骤101〜102用于提取待处理文本,并对待处理文本进行分词处 理和
词性标注,步骤101〜102可以采用现有技术实现。 步骤103〜104用于从待处理文本中发现新词。
步骤105用于从待处理文本包含的现有词和新词中提取文本主题词。步 骤105可以采用现有技术中将出现频率在第一预定范围内的词作为主题词 的方案实现,也可以采用本发明提供的主题词聚类方法实现。
下面结合图1对本发明的方法进行详细介绍。
如图l所示,本发明提供的提取文本主题词的方法包括:
步骤IOI,提取待处理文本。
本步骤中,从含有链接信息、广告信息、标语信息、导航信息、
版权信 息等垃圾信息的待处理对象中提取待处理文本。其中的待处理对象例如可以 是网页、
电子邮件等。
具体地,可以利用待处理对象中的链接信息和文本信息的比例,从待处 理对象中去除链接信息、广告信息、标语信息、导航信息、版权信息等垃圾 信息,从而提取出待处理文本。
例如,对网页(HTML文档)形式的待处理对象进行解析,建立文档对 象模型(DOM)树。DOM树是采用树结构表示的一种数据结构,具有便于操作
访问、便于恢复和纠错原始网页的优点,是现有技术中从待处理对象中 提取文本信息的一种常用方法。
由于通常的内容型网页中所包含的文本信息较多,而链接信息较少,因
此,可以采用自底向上的方法查找该DOM树中包含最大文本的
节点。由于
该最大文本节点中未能包含待处理对象的全部文本信息,因此需要对该最大 文本节点进行扩展,以寻找到该待处理对象的所有文本信息。具体地,从该 最大文本节点向其
父节点扩展,对于扩展到的每个节点,根据该节点的上下 文文本的信息增益、文本增益和链接文本增益的比例特征来判断该节点是文
本节点还是链接节点,如果该节点的信息增益小于第二预定
阈值(例如0.65 ) 且文本增益和链接文本增益的比例大于第三预定阈值(例如0.5),则从该 节点向其父节点扩展,直至找到该DOM数的所有文本节点。
对于最大文本节点内部,采用自顶向下的方式进行分析,寻找该最大文 本节点内部包含儿
子节点最多的子树,即最大扇出子树节点,然后对每个扇 出子树节点进行分析,判断每个子树
块是否是链接块以及是否具有连续的结 构符号等。如果判断出子树快是链接块,则删除该子树快,否则予以保留。 判断出最大扇出子树节点的各个子树块之间是否有连续的结构符号后,对于 有连续的结构符号的各个子树块予以保留,对于没有连续的结构符号的各个 子树块予以删除。由于有连续的结构符号的各个子树块彼此之间是语义内聚 的,最大文本块节点是待处理对象的正文,因此,从最大文本块节点自顶向 下扩展找到的各个具有连续结构符号的子树块也是正文,不包含噪声信息, 通过保留最大扇出子树节点中具有连续结构符号的子树块,删除不具有连续 结构符号的子树块,可以去除最大扇出子树节点中的噪声信息。其中,每个
大于第四预定阈值(例如2),则判定该子树快是链接块,予以删除,否则 予以保留。每个子树块是否具有连续的结构符号的判断依据是各个子树块之 间的结构相似性,如果两个子树块之间的结构是相似的,则判定这两个子树 块有连续的结构符号。通过从最大文本节点开始寻找到该DOM树的所有文本节点,同时,将 最大文本节点内部的链接块等非文本块删除,即实现了从待处理对象中提取 待处理文本。
步骤102,对待处理文本进行分词处理和词性标注。
本步骤中,将待处理文本分成现有词的组合序列。具体可以采用现有技 术中的分词方法实现,例如,采用通用的基于二元词模型的方法对待处理文 本中的各个句子进行切分。
本发明还可以对从待处理文本中分出的各个现有词进行词性标注。具体 地,可以采用目前通用的基于隐
马科夫(HMM)模型的方法来进行词性标 注,该方法是将每个词w的词性看作是HMM的隐含状态,通过定义该每个 词w在每个隐含状态下的转移概率,即定义该每个词在词性"和词性12之 间的转移概率p(t2/t,),以及在词性t的情况下、属于该每个词w的发射概率 p(w/t),根据转移概率p(Vt,)和发射概率p(w/t),利用维特比(Vertbi)
算法 对从待处理文本中分出的各个现有词进行词性标注。
步骤103,查找在待处理文本中重复次数大于预定频率的候选字符串。
本步骤中,可以以字符为单位查找候选字符串,也可以以词为单位查找 候选字符串。
其中,如果以字符为单位查找候选字符串,则步骤102与步骤103的顺 序可互换,如果以词为单位查找候选字符串,则本步骤中,在从步骤102中 分出的现有词序列
基础上,以所述现有词为单位查找候选字符串。
以词为单位查找候选字符串与不对待处理文本进行分词而直接以字符 为单位查找候选字符串相比,能够减小查找到的候选字符串是垃圾串的概 率。比如,如果待处理文本中包含"英国奥运代表团和美国奥运代表团等多 国奥运代表团抵达北京"这一字符串,如果不对该字符串进行分词而直接以 字为单位查找候选字符串,则将查找到重复了 3次的候选字符串"国奥运代 表团,,,显然,"国奥运代表团"这一候选字符串是不合理的,应为垃圾字 符串;如果对"英国奥运代表团和美国奥运代表团等多国奥运代表团抵达北京,,这一字符串首先进行分词处理,将其分成现有词的组合序列"英国/奥 运/代表团/和/美国/奥运/代表团/等/多国/奥运/代表团/抵达/北京",然后以现 有词为单位查找候选字符串,则可以只查找到"奥运代表团,,这一候选字符 串,从而减小了查找到垃圾字符串的概率。
本步骤中,可以采用后缀树算法查找候选字符串。后缀树算法是目前进
行串频统计最高效的算法,它以O(n)的时间建立,并以O(n)的时间遍历找 出所有的重复子串,其中,n代表待处理对象的长度、即含有的字符数,O(n) 代表与n呈线性关系的函数值。
后缀树算法实际上是将一个字符串的所有后缀建立起一棵带有压缩路 径的后缀树(Trie),以字符串"abab#,,为例,从该字符串的根节点到每一 个叶子节点都代表一个后缀,分别是"abab#,, 、 "bab#,, 、 "ab#,, 、 "b#,, 和"#,,。为了在空间上真正达到O(N)的要求,内部表示时,边的表示只能 以区间的形式给出,比如(O, l)就是指的"ab" , (2, -l)就是指的"ab#,, 等等。
建立了这样的后缀树以后,只需要遍历该后缀树的所有非叶子节点,那 么从该后缀树的根节点到这些非叶子节点所经历的路径便是一个重复两次 以上的字符串,该字符串重复的频率(即串频)就是该节点后代中的叶子个 数。例如,在字符串"abab#,,中,可以查找出重复了两次的字符串"ab"。
经过本步骤,可以从待处理文本中查找出重复次数大于预定频率的候选 字符串。
步骤104,根据候选字符串的前缀和/或后缀的成词概率,从候选字符串 中过滤出新词。
通过步骤103从待处理文本中查找出候选字符串后,由于有很多候选字 符串含有较多的噪声,并不是所有的候选字符串都是有实际意义的新词,因 此,还需要步骤103中查找出的候选字符串进行垃圾过滤,从候选字符串中 过滤出新词。其中,有实际意义的新词是指不含有噪声、与待处理文本的主 题关联程度较大的字符串。通常,候选字符串中所包含的噪声通常是由于候选字符串向前组合了前 缀或者向后组合了后缀造成的,即,由前缀冗余或者后缀冗余造成的。例如, 由于前缀冗余造成的垃圾字符串"的唐古拉,,和由于后缀冗余造成的垃圾字 符串"抽象艺术的"。
本发明通过总结垃圾字符串自身所固有的规律,采用相应的信息处理技 术对候选字符串进行垃圾信息处理,从所有的候选字符串中过滤出新词。
如上所述,候选字符串中的垃圾字符串通常是由于出现了前缀冗余或者 后缀冗余现象而导致的。其中的前缀冗余和后缀冗余通常是由于候选字符串 中字符的前缀成词概率和后缀成词概率较低造成的。所述字符的前缀成词概
率是指,该字符作为前缀时,与其他词或字符形成有实际意义的新词的概率; 所述字符的后缀成词概率是指,该字符作为后缀时,与其他词或者字符形成 有实际意义的新词的概率。
在步骤104中,即根据候选字符串的前缀和/或后缀的成词概率,从候 选字符串中过滤出新词。具体地,本发明通过预先统计各个词或者字符的前 缀和/或后缀成词概率,采用词典匹配、模板匹配、基于候选字符串中各个 字符的
位置信息的精细化处理、以及基于各个候选字符串之间的信息关联程 度的精细化处理等技术手段来对候选字符串进行处理,从而从候选字符串中 过滤出新词。
下面对采用上述技术手段从候选字符串中过滤出新词的具体方法进行 详细介绍。
方法一 ,采用词典匹配的方法从候选字符串中过滤出新词。 在方法一中,首先根据各个字符位于前缀位置的成词概率和位于后缀位
置的成词概率,形成新词过滤词典,在从候选字符串中过滤新词时,判断候
选字符串的前缀和/或后缀是否在相应的新词过滤词典中,根据判断结果从
候选字符串中过滤出新词。
具体地,新词过滤词典可以包4舌头词词典和/或尾词词典和/或多元组垃
圾词典和/或尾字字典。其中的头词词典由处于前缀位置时的成词概率不满足第 一 预定条件的
字符组成;尾词词典由处于后缀位置时的成词概率不满足第二预定条件的字 符组成;多元组垃圾词典,是预先根据由三个以上现有词组合成的多元组字 符串与该多元组字符串所在文本主题的关联程度,将关联程度不满足预定条
件的多元组字符串中处于非前缀位置和非后缀位置的词组成的;尾字字典由 能够作为现有词的后缀、从而与现有词共同形成表示名称的词的字符组成。 其中的头词词典和/或尾词词典和/或多元组垃圾词典和/或尾字字典,通 常由文本主题词提取程序或者装置的设计人员通过对大规模语料库进行统 计得到。
下面对应用头词词典和/或尾词词典和/或多元组垃圾词典和/或尾字字
典从候选字符串中过滤新词的方法进行举例说明。
对于头词词典和尾词词典, 一般来说,表示连接关系的词、量词、叹词
等非实意词与文本主题的关联程度较小,因此,可以将这类非实意词写入头 词词典和尾词词典中,例如,将"把"、"比"、"副"、"个"等字符写
入头词词典或尾词词典中。
在从候选字符串中过滤新词时,如果候选字符串的前缀和/或后缀是所 述头词词典和/或尾词词典中的字符,则从该候选字符串中过滤掉该前缀和/ 或后缀,将过滤后的字符串作为新词,或者采用其他信息处理方法对过滤后 的字符串进行进一步的处理,将进一步处理后的候选字符串作为新词。这里 的进一步处理可以采用后文所述的方法二至方法四中的任意一种或多种方 法实现。
对于多元组垃圾词典,预先根据由三个以上现有词组合成的多元组字符 串与该多元组字符串所在文本的主题的关联程度,将所述关联程度较小的多 元组字符串中,位于非前缀位置且非后缀位置的字符或者现有词组成。该多 元组垃圾词典通常由相关设计人员根据大规模语料库总结
整理得到。例如, 多元组字符串"村民告诉记者,,、"老虎被他"以及"海洋使得我们"与相 应文本的主题的关联程度较小,因此,将"告诉"、"被"和"使得"写入
15多元组垃圾词典中。在才艮据该多元组垃;及词典/人候选字符串中过滤新词时, 如果候选字符串是由三个以上(含三个)的现有词组成的多元组字符串,则 判断该多元组字符串中位于非前缀位置且非后缀位置的现有词是否在多元 组垃圾词典中,若是,则判定该候选字符串是垃圾字符串,过滤掉该候选字 符串不将其作为新词,否则,将该候选字符串作为新词。
对于尾字字典, 一般来说,很多与文本主题关联程度较大的词都是表示 实体名称的词,而^艮多表示实体名称的词都是由现有词加上后缀字符组成 的,本发明根据文本主题信息与该文本中所含有的表示实体名称的词之间这 种固有的联系,以及表示实体名称的词之间固有的规律,通过将能够作为现 有词的后缀、从而形成表示实体名称的词的字符写入相应的尾字字典,利用 该尾字字典对候选字符串进行过滤,从而得到新词。具体地,判断候选字符 串是否由现有词和后缀字符组成,如果是,判断该后缀字符是否在所述尾字 字典中,如果是,将该候选字符串作为新词,否则,过滤掉该候选字符串, 不将其作为新词。
例如"五台山,,、"大悲寺"、"北京市"、"越野车,,等词分别由现 有词"五台"、"大悲"、"北京,,、"越野"和后缀字符"山,,、"寺,,、 "市"、"车,,组成,将所述的后缀字符"山"、"寺"、"市"、"车" 写入尾字字典中,如果候选字符串由现有词和后缀字符組成,例如由"哈尔 滨,,和"市"组成,且该后缀字符出现在尾字字典中,则将该候选字符串作
为新词,或者采用其他信息处理方法对过滤后的字符串进行进一步的处理,
将进一步处理后的候选字符串作为新词;如果候选字符串由现有词和后缀字
符组成,且该后缀字符没有出现在尾字字典中,则过滤掉该候选字符串不将 其作为新词。
方法二,采用模板匹配的方法从候选字符串中过滤出新词。 在该方法二中,所采用的模板是预先设定好的,包括前缀词性垃圾模板 和后缀词性垃圾模板,具体地,根据每一种词性的词位于前缀位置时的成词
概率,形成前缀词性垃圾模板;根据每一种词性的词位于后缀位置时的成词概率,形成后缀词性垃圾模板;对候选字符串进行词性标注,将候选字符串前缀
的词性与前缀垃圾词性模板进行匹配,将候选字符串后缀的词性与后缀垃圾词 性模板进行匹配,将匹配到的前缀和后缀从所述字符串中过滤掉,直至过滤后 的候选字符串前缀的词性与前缀垃圾词性模板不匹配、且候选字符串后缀的词 性与后缀垃圾词性模板不匹配,将该过滤后的候选字符串作为新词。
由于在步骤102中已对从待处理文本中分出的现有词进行了词性标注, 因此,在本步骤中采用方法二从候选字符串中过滤新词时,无需再重新对候 选字符串进行词性标注,如果在步骤102中没有对从待处理文本中分出的现 有词进行词性标注,则,本步骤中采用方法二从候选字符串中过滤新词时, 需要对候选字符串中包含的各个现有词进行词性标注。
下面对方法二进行举例说明:例如,时间词、介词、后接成分、叹词、 量词、助词、语气词等词性的词作为前缀时的成词概率较低,因此,可以将 这些词性作为前缀垃圾词性才莫板;时间词、副词、叹词、前接成分、介词、 助词、语气词、连词等词性的词作为后缀时的成词概率较低,因此,可以将 这些词性作为后缀垃圾词性模板。如果候选字符串的前两个词或者后两个词 是数词+量词的组合形式、或者介词+名词的组合形式、或者副词+动词的组 合形式,则这些组合与待处理文本的主题的关联程度一般较小,则可以将这 些组合作为前缀垃圾词性模板或者后缀垃圾词性模板。当候选字符串的前缀 和/或后缀与该前缀垃圾词性模板或者后缀垃圾词性模板匹配时,从候选字 符串中过滤掉相应的前缀和/或后缀,将过滤后的候选字符串作为新词,或 者采用其他信息处理方法对过滤后的字符串进行进一步的处理,将进一步处 理后的候选字符串作为新词,例如采用下文所述的方法三或方法四进行所述 的进一步处理。
方法三,采用基于候选字符串中各个字符的位置信息的精细化处理方法 从候选字符串中过滤出新词。
在该方法三中,本发明根据各个字符位于候选字符串的不同位置的概率 值不同的思想,采用基于各个字符在候选字符串中的位置信息和所述概率
17值,计算候选字符串的位置成词概率值,根据该位置成词概率值从候选字符 串中过滤出新词。
具体地,统计该候选字符串的前缀在待处理文本中出现的前缀总次数,以 及该前缀出现在当前待处理文本的所有候选字符串的前缀位置的次数,用所述 出现在前缀位置的次数除以所述前缀总次数得到该前缀的前缀位置成词概率。
统计该候选串的后缀在待处理文本中出现的后缀总次数,以及该后缀出现 在当前待处理文本的所有候选串的后缀位置的次数,用所述出现在后缀位置的 次数除以所述后缀总次数得到该后缀的后缀位置成词概率。
用候选字符串的前缀位置成词概率和后缀位置成词概率的乘积作为该候选 字符串的位置成词概率。
用候选字符串的位置成词概率除以该候选字符串去掉前缀后的位置成词概 率得到第一商值,用候选字符串的位置成词概率除以该候选字符串去掉后缀后 的位置成词概率得到第二商值,判断第一商值和第二商值是否均不小于第五预 定阈值,若是,将该候选字符串作为新词,否则,过滤掉该候选字符串。
例如,对于候选字符串W = ClC2... Cn-lCn,其中的q至Cn均是现有词,C,
是候选字符串W的前缀,Cn是候选字符串W的后缀,则将尸(q,0)-^^作为候
选字符串w的前缀位置成词概率,其中,N(c,)是现有词c,位于候选字符串 的首字位置时该候选字符串在待处理文本中的重复次数,AYc,)表示现有词
c,在待处理文本中出现的总次数;将P(q,l)-^^作为候选字符串w的后缀
•】)
位置成词概率,其中,iV(、)是现有词d位于候选字符串的尾字位置时该候 选字符串在待处理文本中的重复次数。则候选字符串w的位置成词概率为 尸(咖尸(c,,O"尸(c",l)。
将候选字符串W的前缀C,去掉,然后计算新的字符串C2......Cn的位置
成词概率尸&2,0)*尸(&,1)。计算户(C,,0)?(Cn,l)/尸(C2,0r尸(C^1)、即p(C, ,0)/p(C2,0)是
否小于第六预定阈值,候选字符串去掉后缀Cn后的位置成词概率与没有去掉后缀Cn的位置成词概率的比值(p(Cl,0)*p(Cn,l) )/( p(d,O)求p(Cn小l))、即p(Cn,l)) /p(Cn小l)是否小于第六预定阈值,当p(C,,0)/p(C2,0)和p(Cn,l)) /p(C^ ,l)任意之 一小于第六预定阈值时,过滤掉该候选字符串不将其作为新词,在 p(C,,0)/p(C2,0)和p(Cn,l)) /p(Cn—,,l)均不小于第六预定阈值时,才将该候选字符 串W作为新词。
其中,尸(&0) = ,;, N(C2"是现有词C2位于候选字符串的首字位置时
该候选字符串在待处理文本中的重复次数,A^ca)表示现有词C2在待处理文 本中出现的总次数。
方法四,采用基于各个候选字符串之间的信息关联程度的精细化处理方 法从候选字符串中过滤出新词。
在该方法四中,采用的是基于
置信度的冗余消除方法从候选字符串中过滤 出新词,即,当各个候选字符串之间的信息关联程度较大时,可以只从候选字 符串中选择一部分作为新词,而其他部分则可以作为冗余信息过滤掉。所述的 冗余通常是由于某些候选字符串是其他候选字符串的前缀或者后缀造成的,例 如,候选字符串"北京"、"奥运会"和"北京奥运会"中的"奥运会"可能 成为后缀冗余,而"北京,,可能称为前缀冗余。
因此,在该方法四中,通过消除前缀冗余和/或后缀冗余来从候选字符串中 过滤出新词。
具体地,当第一候选字符串的前缀也是当前待处理文本的候选字符串时, 用第 一候选字符串的前缀在当前待处理文本中出现的总次数除以该第 一候选字 符串在当前待处理文本中的出现次数,当所得商大于第七预定阈值时,将该第 一候选字符串作为新词且不将该第 一候选字符串的前缀作为新词,当所得商小 于第七预定阈值时,将该第一候选字符串的前缀作为新词且不将该第 一候选字 符串作为新词。
例如,假设从当前待处理文本中查找到候选字符串w,和w2,,通过对
W,和W2 4姿照字典序进4亍排歹'J ,并将W!和W2进行匹配,得知Wi是W2的前
19缀,那么,W!的前缀冗余置信度为/^(^,2) = ^^,其中,/(w,)和/(w"分
/(>,)
别是候选字符串W,和W2在当前待处理文本中的出现次数(包括单独以候选 字符串形式出现在待处理文本中的次数和出现在当前待处理文本的其他候 选字符串中的次数),由于候选字符串W,被包含在候选字符串W2中,因此, 冗余置信度DC(W,,W2)大于0而小于1。
并且,如果DC(W,,W2)越高,则说明候选字符串W,和W2在当前待处理 文本中出现的次数就越接近,说明W!的前缀
冗余度越高,因此,当DC(W,,W2)
高于第七预定阈值时,过滤掉候选字符串w,,不将候选字符串w,作为新词。
如果DC(WbW2)越低,则说明候选字符串W,和W2在当前待处理文本中出现 的次凄t相差越远,说明W2在当前待处理文本中出现的次凄t较少,W2相对于 W^的冗余度较高,因此,当DC(W^W2)低于第七预定阈值时,过滤掉候选字 符串w2,不将w2作为新词。
或者,当第二候选字符串的前缀和/或后缀也是当前待处理文本的候选字符 串时,用不相互包含且具有相同前缀和/或后缀的第二候选字符串在当前待处理 文本中出现的总次数,除以所述前缀和/或后缀以候选字符串形式出现在当前待 处理文本中的次数,当所得商大于第八预定阈值时,不将所述前缀和/或后缀作
为新词。
其中,所述不相互包含且具有相同前缀和/或后缀的候选字符串的选取方法
可以为:
将各个候选字符串按照字典序进行排列,对于每个候选字符串,从该候选
字符串开始向后依次选取预定数目的候选字符串;或者,将各个候选字符串按 照逆字典序进行排列,对于每个候选字符串,从该候选字符串开始向后依次选 取预定数目的候选字符串。其中,如何根据字典序和逆字典序对候选字符串进 行排列属于现有技术。
例如,假设候选字符串w是候选字符串Sj (i是自然数,i=l、 2.......j,
j是以候选字符串w为前缀的候选字符串的总个数)的前缀,则候选字符串W的前缀冗余度^0)是A(W):^-。如果W(W)大于预定数值,则过
滤掉候选字符串W,不将W作为新词。
比如,对于候选字符串"细胞"、"树突状细胞"、"树突细胞"和"树
枝状细胞,,,其在待处理文本中出现的次数依次为62次、40次、15次和4 次。当按照字典序对这四个候选字符串进行排序时,其顺序为"细胞"、"树 突细胞"、"树突状细胞,,和"树枝状细胞",当从候选字符串"细胞"开 始向后取3个候选字符串来计算"细胞"的前缀冗余度时,"细胞"这一候 选字符串的前缀冗余度应为(40+15+4)/62=0.952〉0.95 ,则删除候选字符串 "细胞,,。
通过对候选字符串按照字典序或者逆字典序进行排列,从中选取预定数 目的候选字符串用来进行前缀冗余过滤和后缀冗余过滤,能够提高进行前缀 冗余过滤和后缀冗余过滤的速度。
上述对候选字符串进行处理,进而过滤出新词的方法可以只用其一,也 可以各种方法组合使用,组合的各个方法的处理顺序可调。
通过步骤103〜104,可以针对每个待处理文本中发现该待处理文本中包 含的、未^皮现有词典收录的新词。
步骤105,根据现有词和新词在待处理文本中的出现频率,从所述现有 词和新词中提取待处理文本的主题词。
的主题词:其一,直接根据现有词和新词在待处理文本中的出现次数,将出 现次数排在前预定数目位的现有词或新词作为主题词;其二,采用本发明提 供的主题词自聚类方法从现有词和新词中提取主题词。
由于在实际应用中,待处理文本中很多现有词或新词的出现频率虽然很 高,但是其与该待处理文本的主题的关联程度并不高,如果按照现有技术中 直接根据词的出现次数从现有词和新词中提取主题词,会导致提取的主题词不准确,采用本发明提供的主题词自聚类方法从现有词和新词中提取主题词 可以解决这一问题。
通常,待处理文本的标题、段落首句和段落尾句中出现的词与该待处理 文本的主题的关联程度较大,因此,本发明提供的主题词自聚类方法结合现 有词和新词在待处理文本中的位置信息和出现频率信息,从现有词和新词中 选取主题词聚类中心,然后计算其他候选主题词与该主题词聚类中心的距 离,根据该距离从所有候选主题词中聚类出主题词。
具体地,根据现有词和新词在待处理文本中的出现频率,将出现频率大于 预定阈值的现有词和新词作为候选主题词;根据候选主题词在待处理文本中的
出现位置,从所述候选主题词中选择主题词聚类中心;计算候选主题词与所述 主题词聚类中心的距离,将距离大于预定阈值的所述候选主题词聚类为主题词。 其中,通常选取出现在待处理文本中的标题或段落首句或段落尾句中、且 出现频率大于预定凝:值的现有词或新词作为主题词聚类中心。 候选主题词与主题词聚类中心之间的距离的计算方法可以为: 预先建立主题词训练库,统计所述候选主题词与主题词聚类中心在所述主 题词训练库中同一文档的预定长度字符串内共现的文档频率,以及所述候选主 题词和所述主题词聚类中心在所述主题词训练库的文档中各自出现的文档频 率,用所述共现的文档频率除以所述各自出现的文档频率的乘积,当所得商大 于预定阈值时,将所述候选主题词聚类为主题词。
其中,在计算候选主题词Wi和主题词聚类中心W2之间的距离时,如果候
选主题词Wl和主题词聚类中心w2均是现有词,则候选主题词Wl与主题词聚类
中心W2之间的距离是l0g,尸(^,W2);如果候选主题词Wi与主题词聚类中心W2
尸0!)尸(M^)
中有一方或者两方是新词,则候选主题词W,与主题词聚类中心W2之间的距离
是maxlog2尸(W,,),其中,w,和w,分别是新词wt和W2所包含的现有词,也 就是说,当w!和w2是新词时,将组成该新词的现有词在所述主题词训练库中
22文档的预定长度字符串内出现的最高文档频率作为该新词在所述主题词训练库 中文档的预定长度字符串内出现的文档频率。
综上,候选主题词w,与主题词聚类中心w2之间的距离尸M/(w,, w2)是: iW(^,w2)^log2尸(w"〜2),其中w,和w2是现有词;
formula see original document page 23PM/Opw2) = maxlog2-^~,其中w,和w2是新词,w,是组成
formula see original document page 23新词>^的现有词,wy是组成新词w2的现有词。
其中P(W,, W2)是候选主题词W,和W2的共现频率。该共现概率的含义是, 如果词Wi和W2出现在同一文本的连续几个句子中,而且这连续几个句子的 字数小于一定长度(例如150个汉字),则W,和W2同现,并且,在一个文 档中,W,出现多次或W2出现多次或W!与W2共现多次的,均计为出现一次。
步骤105中,通过从新词中提取待处理文本的主题词,因此,能够提高 提取主题词的全面性,通过采用自聚类方法提取主题词,能够提高提取主题 词的准确性。
如果步骤103以字符为单位查找候选字符串,则从候选字符串中过滤出 的新词可能就是现有词,针对该问题,本发明提出:如果以字符为单位查找 候选字符串,则在过滤出新词后,将新词与现有词词典进行匹配,若匹配到 现有词,则将该新词和从待处理文本中切分出的、与该新词相同的现有词保 留其一。
另外,本发明还进一步提供了对提取的主题词进行排序的方法,以使得 主题词的排列顺序体现各个主题词与文本主题的关联程度。 对主题词进行排序的方法包括两个步骤:
步骤l:预先建立词汇重要度词典,该步骤是从待处理文本中提取主题 词的准备步骤,通常在对待处理文本进行处理之前预先完成。
本步骤中,预先按照文本内容所涉及的领域,建立不同领域的文本训练库,对每一领域的文本训练库中的文本进行分词处理,统计分出的现有词在各个文 本训练库中的出现频率,将在某一领域的文本训练库中的出现频率与在其他领 域的文本训练库中的出现频率之间的差异大于第九预定阈值的现有词,作为该 某一领域的领域词写入词汇重要度词典,将在各个领域的文本训练库中的出现 频率之间的差异小于第十预定阈值的现有词,作为无关停用词写入词汇重要度
词典,将除去领域词和无关停用词以外的其他现有词作为普通词写入词汇重要 度词典。其中的无关停用词是指无法体现出其自身所属领域的词,或者说,当
文章中出现了无关停用词时,无法根据该无关停用词判断该文章的主题所属的领域。
对词汇重要度词典中的词汇分别赋予重要度权值:其中,无关停用词的重 要度为O,普通词的词汇重要度权值为P『,log^/^log^^,领域词的
词汇重要度权值为i5)^ =maXjP)^+log《*log^^。其中,《代表普通
《
词f^在所有领域的文本训练库中出现的频率,max^/^代表各个普通词在所
有领域的文本训练库中出现的文档频率中最大的文档频率,^;代表普通词
『,在所有领域的文本训练库中出现的文档频率;max尸『,代表所有普通词
的词汇重要度权值中最大的重要度权值,《代表领域词『,在所有领域的文 本训练库中出现的频率,max《代表各个领域词在所有领域的文本训练库
中出现的文档频率中最大的文档频率,^/;代表领域词^在所有领域的文本
训练库中出现的文档频率。
步骤2:查询/人待处理文本中确定出的主题词在词汇重要度词典中的初始 重要度权值,根据查询出的初始重要度权值对确定出的主题词进行排序。本步 骤在对每一待处理文本进行处理的过程中执行,具体地,在从该待处理文本中 提取出主题词后执行。
本步骤中,根据查询出的初始重要度权值对确定出的主题词进行排序具体包括:
将主题词中的新词所包含的各个现有词在词汇重要度词典中的初始重要度
权值相加,所得结果是该新词在当前待处理文本中的初始重要度权值;根据主 题词的初始重要度权重,以及该主题词在待处理文本中出现的次数和/或位置和 /或该主题词的词性,计算该主题词在待处理文本中的重要度权重值,根据计算 出的重要度权重值对主题词进行排序。
在根据主题词的初始重要度权重,以及该主题词在待处理文本中出现的次 数和/或位置和/或该主题词的词性,计算该主题词在待处理文本中的重要度权重 值时,可以用主题词在该待处理文本中的初始重要度权值乘以该候选主题词在 该待处理文本中的词频,和/或,在该主题词出现在待处理文本的标题中时,乘 以标题加权值&(w),和/或,在该主题词出现在待处理文本的首句时,乘以位
置加权值AO),和/或,在该主题词是新词时,乘以该新词所包含的现有词中
属于名词的个数对应的名词加权值~0),用最终的乘积结果作为该主题词在
待处理文本中的重要度权重值。
计算出各个主题词在当前待处理文本中的重要度权重后,通常按照重要 度权重由大到小的顺序对各个主题词进行排序。
经验而定,或者,通过建立相应的参数测试样本库,对预先
选定的成词概率 和/或阈值进行测试,根据测试得到的误判率和/或漏检率等指标更新所述成 词概率和/或阈值,将所述指标满足要求时的成词概率和/或阈值作为最终的 成词概率和/或阈值的取值。
由于本发明在提取文本主题词时,针对每一待处理文本均进行了新词发 现的操作,因此,不仅能够从当前待处理文本的现有词中提取出主题词,还 能够从针对每一待处理文本发现的新词中提取出主题词,提高了提取的主题 词的全面性。
进一步地,在针对每一待处理文本进行新词发现时,并非简单地将所有重复次数大预定频率的字符串均作为新词,而是将其作为候选字符串,进一 步根据候选字符串的前缀和/或后缀的成词概率从候选字符串中过滤出新 词,避免了将包含有垃圾信息的候选字符串提取为主题词,提高了提取文本 主题词的准确性。
另外,当根据自聚类方法从候选主题词中提取主题词时,可以避免将出 现频率较高而与待处理文本主题关联程度较低的词提取为主题词,提高提取 文本主题词的准确性。
通过本发明方法提取主题词后,即可以利用提取的主题词对待处理文本 进行网络广告推广、建立搜索引擎、实现文本聚类和热点
跟踪等网络应用。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护 范围,凡在本发明的精神和原则之内所做的任何
修改、等同替换、改进等, 均应包含在本发明的保护范围之内。