专利汇可以提供大规模文本逐次二分的层次聚类方法专利检索,专利查询,专利分析的服务。并且本 发明 属文本信息技术领域,具体涉及一种大规模文本的聚类方法。其核心内容有图嵌入和聚类。其步骤包括:文本的向量空间表示;两两文本的相似度计算;将图嵌入到维空间,并用K-means或层次聚类 算法 ,将文本聚两类;并逐次二分,直到满足要求,对图不再做切分为止。本发明方法分类效果好,速度快,优于目前常用的谱 聚类算法 和K-means算法。,下面是大规模文本逐次二分的层次聚类方法专利的具体信息内容。
1、一种大规模文本逐次二分的层次聚类方法,其特征在于具体步骤如下:文本的向 量空间表示;两两文本的相似度计算;图嵌到一维空间,并使用K-means或层次聚类算法, 对图进行聚类,将图分为两类;再逐次二分,直到满足要求,对图不再做切分,其中:
(1)文本的向量空间表示:
假设有n篇文章,一共出现了m个词,则每篇文章用一个m维的向量表示,n篇文章 构成了m×n的矩阵,记为M,Mij表示第i个单词在第j篇文章中的tfidf值: 其中tfij表示第i个词在第j篇文章中出现的频率,dfi表示包含第i个词的文章数;将文本 表示成向量之后,再做归一化处理:
(2)图的计算:
计算两两文本之间的相似度,其相似度矩阵用S表示;其中文中的相似度是两个文本 的向量间的夹角余弦,并且无向图的n个节点是由n篇文本所构成,节点之间边的权重是 两个文本之间的相似度;
(3)分割:
a)将图嵌入到一维空间:计算矩阵L=D×S×D,其中D是一个对角阵, ,接着 计算L的次大特征值对应的特征向量y,则y的分量yi就表示了第i篇文档在一维空间上 的位置;
b)分割:求向量y的均值y’,如果yi>0,则将第i篇文档分到第一类,否则分到第二 类;
(4)判别:
如果得到的子图中的边的最小权重超过一个预先给定的值,则认为经分割以后的子图 中所有的文档已经属于同一个话题,不做切分;否则回到第(3)步。
本发明属文本信息技术领域,具体涉及一种大规模文本的聚类方法。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种采用多策略自动生成摘要的网络新闻概要系统 | 2020-05-13 | 630 |
三体式的基于车辆的对象追踪和通知系统 | 2020-05-27 | 216 |
重放装置以及记录方法 | 2020-05-15 | 170 |
大规模文本逐次二分的层次聚类方法 | 2020-05-13 | 422 |
从文档到排名短语的语义分析 | 2020-05-17 | 752 |
安全储存系统以及用于安全储存的方法 | 2020-05-11 | 890 |
用于停车计时器实施的手持装置 | 2020-05-12 | 562 |
电子书的显示方法、装置及计算机程序产品 | 2020-05-12 | 428 |
用于在外科手术中产生第一皮肤切口并沿所述切口的边沿进行标记的装置 | 2020-05-21 | 32 |
印章去除方法及设备 | 2020-05-11 | 447 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。