首页 / 专利库 / 专利权 / 第II章 / 大规模文本逐次二分的层次聚类方法

大规模文本逐次二分的层次聚类方法

阅读:422发布:2020-05-13

专利汇可以提供大规模文本逐次二分的层次聚类方法专利检索,专利查询,专利分析的服务。并且本 发明 属文本信息技术领域,具体涉及一种大规模文本的聚类方法。其核心内容有图嵌入和聚类。其步骤包括:文本的向量空间表示;两两文本的相似度计算;将图嵌入到维空间,并用K-means或层次聚类 算法 ,将文本聚两类;并逐次二分,直到满足要求,对图不再做切分为止。本发明方法分类效果好,速度快,优于目前常用的谱 聚类算法 和K-means算法。,下面是大规模文本逐次二分的层次聚类方法专利的具体信息内容。

1、一种大规模文本逐次二分的层次聚类方法,其特征在于具体步骤如下:文本的向 量空间表示;两两文本的相似度计算;图嵌到一维空间,并使用K-means或层次聚类算法, 对图进行聚类,将图分为两类;再逐次二分,直到满足要求,对图不再做切分,其中:
(1)文本的向量空间表示:
假设有n篇文章,一共出现了m个词,则每篇文章用一个m维的向量表示,n篇文章 构成了m×n的矩阵,记为M,Mij表示第i个单词在第j篇文章中的tfidf值: M ij = tf ij × log n df i , 其中tfij表示第i个词在第j篇文章中出现的频率,dfi表示包含第i个词的文章数;将文本 表示成向量之后,再做归一化处理:
X ij = M ij Σ i = 1 m M ij 2
(2)图的计算:
计算两两文本之间的相似度,其相似度矩阵用S表示;其中文中的相似度是两个文本 的向量间的夹余弦,并且无向图的n个节点是由n篇文本所构成,节点之间边的权重是 两个文本之间的相似度;
(3)分割:
a)将图嵌入到一维空间:计算矩阵L=D×S×D,其中D是一个对角阵, D ii = 1 Σ j = 1 n S ij ,接着 计算L的次大特征值对应的特征向量y,则y的分量yi就表示了第i篇文档在一维空间上 的位置
b)分割:求向量y的均值y’,如果yi>0,则将第i篇文档分到第一类,否则分到第二 类;
(4)判别:
如果得到的子图中的边的最小权重超过一个预先给定的值,则认为经分割以后的子图 中所有的文档已经属于同一个话题,不做切分;否则回到第(3)步。

说明书全文

技术领域

发明属文本信息技术领域,具体涉及一种大规模文本的聚类方法。

背景技术

随着互联网的普及,越来越多的人喜欢用网络来作为发表言论的媒体。很多论坛, 博客,聊天室都提供了丰富的舆论信息,如何用计算机自动分析这些信息成为一个十分重 要的问题。文本聚类是一种可以利用计算机自动将文本信息归类的技术,经过聚类之后, 属于同一个话题的那些文章将被归为同一个类,从而方便用户查找阅读。目前主要有以下 一些文本聚类方法:
1、K-means是一种快速的基于优化准则的聚类算法。该算法一开始随机找k个初始的 类中心。接着将每个文本分配到中心离它最近的那个类中,得到每篇文本的类别后,重新 计算每个类的中心。如此反复迭代,直到类中心的变化不再明显为止。该方法的优点是速 度快,但可能得到聚类结果不是很理想,而且类的个数需要人工事先给定。
2、层次聚类算法,开始将每个文本看作一个类,接着,每次合并两个最相似的类, 直到类的个数为1为止。类与类之间的相似度用在这两个类中最相似的两个文本的相似度 表示。这个方法的优点是,一开始可以不知道类的个数,通过不断合并,构成了一棵树, 用户可以根据自己的需要,得到相应的分类体系。这个方法的优点是,一开始类的个数不 需要人工指定,但缺点是聚类效果很差。
3、谱聚类算法,计算文本两两之间的相似度,这样n篇文本构成了含n个节点的无 向图,节点之间边的权重就是这两个文本之间的相似度。谱聚类算法试图将该图嵌入到一 个低维的空间上去,使得图中权值较大的边能尽可能的保留,而权值较小的边则可以忽略。 得到每个文本的低维空间表示后,可以用上述两种算法的任意一个进行聚类。该算法的优 点是聚类效果较好,缺点是速度很慢。

发明内容

本发明的目的提出一种聚类效果好,计算速度快的大规模文本的聚类算法。
本发明提出的大规模文本的聚类方法,是吸取了上述第二第三种算法的优点。并进行 改进而成的算法。它的核心技术有两部分组成:图嵌入和聚类。第一部分技术和谱聚类算 法相似,需要将图嵌入到一个低维的空间上,不同的是,这里低维空间的维数规定为一维。 实际上此时就是对所有的文本作了一个排序。接着用K-means或者层次聚类算法将文本聚 成两类。即对图进行逐次二分。所谓的“逐次二分”即是对得到的子图继续进行“二分”, 直到得到的每个子图足够紧密则停止分割。
具体步骤包括:文本的向量空间表示;两两文本的相似度计算;图嵌到一维空间,并 使用K-means或层次聚类算法,对图进行聚类,将图分为两类;再逐次二分,直到满足要 求,对图不再做切分。
本发明的优点如下:
由于“逐次二分”的层次聚类算法是一种改进算法,所以它的优点可以从与现有算法 的比较中得出。
1、类的个数不需要人的事先指定。相对于K-means算法中需要人工指定类的个数,“逐 次二分”的层次聚类算法只需要预先定一个值作为停止分割条件,与层次聚类算法相同。 这在实际应用中是十分方便的。
2、效果好。由于“逐次二分”的层次聚类算法采用了图嵌入,所以其聚类结果明显 好于K-means和层次聚类算法,与谱聚类算法十分相近。
3、速度快。在谱聚类算法中,降维消耗了大量的时间,特别是如果类的个数特别多, 那么所降的维数也相应增大,此时谱聚类算法的时间开销将非常大。而K-means的聚类时 间复杂度与类的个数是成正比的,在类的个数十分大的时候也会消耗大量的时间。而在“逐 次二分”法中,每次将文本分成两类,所需要降的维数是最小的一维,而且得到k个类只 需要作log k次操作,这与谱聚类算法和K-means算法相比,优势是十分明显的。
综上所述,“逐次二分”的层次聚类算法具有自动、效果好、快速的特性,是一种更 优秀的文本聚类算法。

具体实施方式

基本流程是将文本表示成空间向量后,计算出两两文本之间的相似度,得到图,并用 “逐次二分”的层次聚类算法进行聚类。
1、文本的向量空间表示。
假设现在有n篇文章,一共出现了m个词。则每篇文章用一个m维的向量表示,n篇 文章构成了m×n的矩阵,记为M。Mij表示第i个单词在第j篇文章中的tfidf值: M ij = tf ij × log n d f i , 其中tfij表示第i个词在第j篇文章中出现的频率,dfi表示包含第i个词 的文章数。为了消除文本长短的差异,将文本表示成向量之后,再做归一化处理,每个向 量除以其模长:
X ij = M ij Σ i = 1 m M ij 2
这样,就将文本表示成了空间中一个模长为1的向量了。
2、图的计算。
计算两两文本之间的相似度。两个文本之间的相似度。即两个文本的向量间的夹余 弦。n篇文本构成了含n个节点的无向图,节点之间边的权重就是这两个文本之间的相似 度。其相似度矩阵用S表示。
3、分割:
a)将图嵌入到1维空间:计算矩阵L=D*S*D,其中D是一个对角阵,接着 计算L的次大特征值对应的特征向量y。则y的分量yi就表示了第i篇文档在一维空间上 的位置
b)分割:求向量y的均值y’,如果yi>0,则将第i篇文档分到第一类,否则分到第二 类。
4、判别:
如果得到的子图中的边的最小权重超过一个预先给定的值,则认为该图中所有的文档 已经属于同一个话题,不做切分;否则回到第3步。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈