首页 / 专利库 / 人工智能 / 语言建模 / 基于LDA融合模型和多层聚类的新闻话题检测方法

基于LDA融合模型和多层聚类的新闻话题检测方法

阅读:1019发布:2020-08-08

专利汇可以提供基于LDA融合模型和多层聚类的新闻话题检测方法专利检索,专利查询,专利分析的服务。并且本 发明 属于 数据挖掘 、 自然语言处理 和 信息检索 领域,为提出新闻话题检测方法,针对基于TF-IDF向量空间 算法 语义方面的 缺陷 ,和文本层次聚类时间复杂度和准确度的缺陷,对大量新闻文本的特征提取、表示建模、相似度计算以及快速准确的文本聚类方法进行改进。本发明,基于LDA融合模型和多层聚类的新闻话题检测方法,步骤如下:步骤一:使用向量空间模型VSM构建相似度模型;步骤二:最终得到准确的参数设置;步骤三:使两种文本模型有机的融合;步骤四:判断该话题是否为新话题;步骤五:计算相似度,直到所有文档聚类结束;步骤六:在步骤五 基础 上加入AHC的ISP&AH 聚类算法 。本发明主要应用于设计制造场合。,下面是基于LDA融合模型和多层聚类的新闻话题检测方法专利的具体信息内容。

1.一种基于LDA融合模型和多层聚类的新闻话题检测方法,其特征是,步骤如下:
步骤一:使用向量空间模型VSM构建相似度模型,VSM模型每一维度表示对应词的权重向量,对于两个向量d1、d2,用余弦相似度计算方法计算他们两者间的相似度,余弦值越是趋向于1,表示两个向量夹角越大;余弦值趋向于0,也就意味着两个向量方向越是一致,相似度越高;
步骤二:使用LDA构建主题模型,利用吉布斯Gibbs方法进行抽样,对模型的各项参数进行计算,通过迭代样本值方式来实现对于马尔科夫链的构建,并使得其最终达到收敛,最终得到准确的参数设置;
步骤三:将LDA潜在主题模型和VSM空间向量模型结合,在整个聚类算法运行前,通过文本-主题关系矩阵,融合基于TF-IDF权值方法的VSM模型,将VSM模型求得的相似度与LDA模型求得的相似度进行线性表示,并且加权求和得到最终相似度值,使两种文本模型有机的融合;
步骤四:使用基于单遍聚类算法Single-Pass将文本数据进行VSM建模,特征词权重赋予的方式采用TF-IDF方法,从而将报道表征成一个一个的向量形式。然后将文档流与聚类过程中全部话题进行相似度计算,通过将计算的相似度与预先设定的阈值进行对比,判断该话题是否为新话题;
步骤五:使用ISP聚类算法:在步骤四Single-Pass算法的基础上增加缓存文档流,将步骤四相似度中小于预先设定阈值的相似度放到缓存文档流中,并重新计算相似度,直到所有文档聚类结束;
步骤六:在步骤五基础上加入AHC的ISP&AH聚类算法:计算每个文档之间的相似度,建立一个关于文档与文档的相似度矩阵,然后合并矩阵中两个相似度值最大的文档为一个话题集合,用这个新的话题类取代被合并的两个旧的文档,重新迭代化计算相似度矩阵并再次合并,最终达到满足停止条件时停止。
2.如权利要求1所述的基于LDA融合模型和多层聚类的新闻话题检测方法,其特征是,还包括验证步骤,单独使用VSM构建相似度模型、单独使用LDA构建主题模型和将LDA与VSM相结合的方法的进行对比,并通过计算F-Measure对三种方法进行有效性评估,F-Measure的计算如公式(1)所示:
F-Measure=2×Precision×Recall/(Precision+Recall)  (1)
如公式(1)所示,Precision表示准确率,Recall表示召回率,Precision是指正确检索的相关文档数与检索的总文档数的比,Recall是指正确检索的相关文档数与实际上的相关文档数的比,F-Measure的值越大,表示预测结果越好。
3.如权利要求1所述的基于LDA融合模型和多层聚类的新闻话题检测方法,其特征是,一个实例中的具体步骤如下:
步骤S0101:使用TF-IDF构建VSM相似度模型,文本内容长短不一会造成权重分配上的不均衡显现,进而使得相似度计算上出现偏差,因此还需要将文本向量归一化表示;
步骤S0201:使用LDA构建主题模型:采用Gibbs抽样方法对模型的各项参数进行计算,实现对于马尔科夫链的构建,最终得到的准确参数设置,那么对于两个不同的文本di和dj,计算基于潜在主题向量的LDA主题模型相似度SimLDA(di,dj);
步骤S0301:将LDA潜在主题模型和VSM空间向量模型结合,计算基于TF-IDF权重向量模型的相似度SimTFIDF(di,dj),并结合SimLDA(di,dj)将以上两种文本相似度进行线性组合,得到融合两种结果的最终相似度,如公式(2)所示;
Sim(di,dj)=λ×SimTFIDF(di,dj)+(1-λ)×SimLDA(di,dj)  (2)
其中λ为自定义的线性影响因子,通过其影响值将基于TF-IDF计算权值的VSM模型与基于主题的LDA模型按特定的比例进行线性改变并加权求和;
步骤S0401:使用Single-Pass聚类算法,将文本数据进行VSM建模,用TF-IDF方法赋予特征词权重,将文本表征为向量形式;
步骤S0402:将文本流与聚类过程全部文档进行相似度计算,取得相似度最大值MaxSim,并记录对应话题TopicMax,将MaxSim与预先设定的阈值进行对比,若MaxSim大于阈值,则为TopicMax,否则为新话题;
步骤S0501:使用ISP聚类算法,在步骤S0402的基础上增加缓存文档流,将相似度小于阈值的文档加入缓存流,对缓存流的文章重新聚类,若计算的相似度大于阈值,则更新话题,否则将该文档视为新话题,直到所有文档聚类结束;
步骤S0601:加入AHC的ISP&AH聚类算法,首先将新闻文本中高相似度的话题聚在一起,然后,通过层次聚类方法在初步聚类结果上进行二次聚类,将相似度高的话题进一步融合,达到提高准确率和召回率的目的。

说明书全文

基于LDA融合模型和多层聚类的新闻话题检测方法

技术领域

[0001] 本发明属于数据挖掘自然语言处理信息检索领域,涉及监测技术和网络信息过滤技术,尤其是文本分析和话题检测方法。具体讲,涉及基于潜在狄里克雷分布(Latent Dirichlet Allocation,LDA)融合模型和多层聚类的新闻话题检测方法。

背景技术

[0002] 话题检测与跟踪(Topic Detection and Tracking,TDT)是早些年从事件的检测与跟踪(Event Detection and Tracking,EDT)演变而来,是一项在没有人工干预的情况下自动对新闻报道进行内容识别、挖掘和组织分类的技术。基于词频-反文档频率(Term Frequency–Inverse Document Frequency,TF-IDF)的向量空间模型(Vector Space Model,VSM)在文本表示方面展现出强大的能。向量空间模型是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及关联规则。相对于标准布尔数学模型,向量空间模型是基于线性代数的简单模型,其词组的权重不是二元的,允许计算文档和索引之间的连续相似度,允许其根据可能的相关性来进行文档排序,并且允许局部匹配。
[0003] 但是空间向量模型也有缺点。空间向量模型不适用于较长的文件,因为它的相似值因为过小的内积和过高的维数而不理想。并且因为基于统计学的出发点使得这种方式忽略了文本语义之间的关联性,导致语义敏感度不佳。除此之外,其词组在文档中出现的顺序在向量中无法表示,其权重是直观上获得的而不够正式。
[0004] 基于单遍聚类算法(Single-Pass)的话题检测与跟踪框架为TDT的研究奠定了基础。Single-pass算法采用增量聚类的方式将文本向量与已有话题内的报道进行比对,计算文本相似度进行匹配。若与某个话题类别匹配,则把该文本归入该话题,若该文本域所有话题类别的相似度均小于某一阈值,则将该文本表示成新的种子话题。
[0005] 单遍聚类算法也存在一定缺陷。由于Single-Pass算法对于新闻文本的输入顺序较为敏感,导致当新闻文本的数量不断提升时,算法的聚类效果却随之降低,准确度方面稍有欠缺。文本的层次聚类算法效果好,但是O(n2)的时间复杂度和超高内存耗费制约着该算法。

发明内容

[0006] 为克服现有技术的不足,本发明旨在提出基于LDA融合模型和多层聚类的新闻话题检测方法,针对基于TF-IDF向量空间算法语义方面的缺陷,和文本层次聚类时间复杂度和准确度的缺陷,对大量新闻文本的特征提取、表示建模、相似度计算以及快速准确的文本聚类方法进行改进。本发明采用的技术方案是,基于LDA融合模型和多层聚类的新闻话题检测方法,步骤如下:
[0007] 步骤一:使用向量空间模型VSM构建相似度模型,VSM模型每一维度表示对应词的权重向量,对于两个向量d1、d2,用余弦相似度计算方法计算他们两者间的相似度,余弦值越是趋向于1,表示两个向量夹越大;余弦值趋向于0,也就意味着两个向量方向越是一致,相似度越高;
[0008] 步骤二:使用LDA构建主题模型,利用吉布斯Gibbs方法进行抽样,对模型的各项参数进行计算,通过迭代样本值方式来实现对于尔科夫链的构建,并使得其最终达到收敛,最终得到准确的参数设置;
[0009] 步骤三:将LDA潜在主题模型和VSM空间向量模型结合,在整个聚类算法运行前,通过文本-主题关系矩阵,融合基于TF-IDF权值方法的VSM模型,将VSM模型求得的相似度与LDA模型求得的相似度进行线性表示,并且加权求和得到最终相似度值,使两种文本模型有机的融合;
[0010] 步骤四:使用基于单遍聚类算法Single-Pass将文本数据进行VSM建模,特征词权重赋予的方式采用TF-IDF方法,从而将报道表征成一个一个的向量形式。然后将文档流与聚类过程中全部话题进行相似度计算,通过将计算的相似度与预先设定的阈值进行对比,判断该话题是否为新话题;
[0011] 步骤五:使用ISP聚类算法:在步骤四Single-Pass算法的基础上增加缓存文档流,将步骤四相似度中小于预先设定阈值的相似度放到缓存文档流中,并重新计算相似度,直到所有文档聚类结束;
[0012] 步骤六:在步骤五基础上加入AHC的ISP&AH聚类算法:计算每个文档之间的相似度,建立一个关于文档与文档的相似度矩阵,然后合并矩阵中两个相似度值最大的文档为一个话题集合,用这个新的话题类取代被合并的两个旧的文档,重新迭代化计算相似度矩阵并再次合并,最终达到满足停止条件时停止。
[0013] 还包括验证步骤,单独使用VSM构建相似度模型、单独使用LDA构建主题模型和将LDA与VSM相结合的方法的进行对比,并通过计算F-Measure对三种方法进行有效性评估,F-Measure的计算如公式(1)所示:
[0014] F-Measure=2×Precision×Recall/(Precision+Recall)  (1)
[0015] 如公式(1)所示,Precision表示准确率,Recall表示召回率,Precision是指正确检索的相关文档数与检索的总文档数的比,Recall是指正确检索的相关文档数与实际上的相关文档数的比,F-Measure的值越大,表示预测结果越好。
[0016] 一个实例中的具体步骤如下:
[0017] 步骤S0101:使用TF-IDF构建VSM相似度模型,文本内容长短不一会造成权重分配上的不均衡显现,进而使得相似度计算上出现偏差,因此还需要将文本向量归一化表示;
[0018] 步骤S0201:使用LDA构建主题模型:采用Gibbs抽样方法对模型的各项参数进行计算,实现对于马尔科夫链的构建,最终得到的准确参数设置,那么对于两个不同的文本di和dj,计算基于潜在主题向量的LDA主题模型相似度SimLDA(di,dj);
[0019] 步骤S0301:将LDA潜在主题模型和VSM空间向量模型结合,计算基于TF-IDF权重向量模型的相似度SimTFIDF(di,dj),并结合SimLDA(di,dj)将以上两种文本相似度进行线性组合,得到融合两种结果的最终相似度,如公式(2)所示;
[0020] Sim(di,dj)=λ×SimTFIDF(di,dj)+(1-λ)×SimLDA(di,dj)  (2)[0021] 其中λ为自定义的线性影响因子,通过其影响值将基于TF-IDF计算权值的VSM模型与基于主题的LDA模型按特定的比例进行线性改变并加权求和;
[0022] 步骤S0401:使用Single-Pass聚类算法,将文本数据进行VSM建模,用TF-IDF方法赋予特征词权重,将文本表征为向量形式;
[0023] 步骤S0402:将文本流与聚类过程全部文档进行相似度计算,取得相似度最大值MaxSim,并记录对应话题TopicMax,将MaxSim与预先设定的阈值进行对比,若MaxSim大于阈值,则为TopicMax,否则为新话题;
[0024] 步骤S0501:使用ISP聚类算法,在步骤S0402的基础上增加缓存文档流,将相似度小于阈值的文档加入缓存流,对缓存流的文章重新聚类,若计算的相似度大于阈值,则更新话题,否则将该文档视为新话题,直到所有文档聚类结束;
[0025] 步骤S0601:加入AHC的ISP&AH聚类算法,首先将新闻文本中高相似度的话题聚在一起,然后,通过层次聚类方法在初步聚类结果上进行二次聚类,将相似度高的话题进一步融合,达到提高准确率和召回率的目的。
[0026] 本发明的特点及有益效果是:
[0027] 本发明采用的融合的方法对于模型的准确建立有着明显的推动作用。
[0028] 本发明将基于统计的方法和基于语义主题的方法融合为一体,互相补足,达到了提高文本聚类质量的目的。多层聚类的新闻话题检测结合ISP聚类算法和层次聚类算法,进行多层次、更深入的聚类。通过改进Single-Pass聚类算法,对新闻文本进行话题初步聚类,得到高聚合、低粒度的话题集合结果,既使其能满足下一次聚类的要求,又在一定程度上提高聚类效果。附图说明:
[0029] 图1整体示意图。
[0030] 图2三组实验建模聚类的F-Measure对比折线图。

具体实施方式

[0031] 本发明提出一种基于LDA融合模型和多层聚类的新闻话题检测的方法,包含以下步骤:
[0032] 步骤一:使用VSM构建相似度模型。VSM模型每一维度表示对应词的权重向量,对于两个向量d1、d2,用余弦相似度计算方法计算他们两者间的相似度。余弦值越是趋向于1,表示两个向量夹角越大;余弦值趋向于0,也就意味着两个向量方向越是一致,相似度越高。
[0033] 步骤二:使用LDA构建主题模型。吉布斯(Gibbs)抽样是生成马尔科夫链的一种方法,利用Gibbs方法进行抽样,对模型的各项参数进行计算,通过迭代样本值方式来实现对于Markov链的构建,并使得其最终达到收敛,最终得到准确的参数设置。
[0034] 步骤三:将LDA潜在主题模型和VSM空间向量模型结合。在整个聚类算法运行前,通过文本-主题关系矩阵,融合基于TF-IDF权值方法的VSM模型,将VSM模型求得的相似度与LDA模型求得的相似度进行线性表示,并且加权求和得到最终相似度值,使两种文本模型有机的融合。
[0035] 步骤四:使用传统Single-Pass聚类算法。将文本数据进行VSM建模,特征词权重赋予的方式采用TF-IDF方法,从而将报道表征成一个一个的向量形式。然后将文档流与聚类过程中全部话题进行相似度计算。通过将计算的相似度与预先设定的阈值进行对比,判断该话题是否为新话题。
[0036] 步骤五:使用ISP聚类算法。在步骤四Single-Pass算法的基础上增加缓存文档流。将步骤四相似度中小于预先设定阈值的相似度放到缓存文档流中,并重新计算相似度。直到所有文档聚类结束。
[0037] 步骤六:在步骤五基础上加入AHC的ISP&AH聚类算法。计算每个文档之间的相似度,建立一个关于文档与文档的相似度矩阵,然后合并矩阵中两个相似度值最大的文档为一个话题集合,用这个新的话题类取代被合并的两个旧的文档,重新迭代化计算相似度矩阵并再次合并,最终达到满足停止条件时停止。
[0038] 实验通过单独使用VSM构建相似度模型、单独使用LDA构建主题模型和将LDA与VSM相结合的方法的进行对比。并通过计算F-Measure对三种方法进行有效性评估。F-Measure的计算如公式(1)所示。
[0039] F-Measure=2×Precision×Recall/(Precision+Recall)  (1)
[0040] 如公式(1)所示,Precision表示准确率,Recall表示召回率,Precision是指正确检索的相关文档数与检索的总文档数的比,Recall是指正确检索的相关文档数与实际上的相关文档数的比,F-Measure的值越大,表示预测结果越好。
[0041] 由图2所示,使用VSM构建相似度模型和使用LDA构建主题模型在5个话题上的F-Measure有高有底,说明这两种建模方法各有侧重,但VSM+LDA的融合模型的F-Measure均为最大。实验表明,融合的方法对于模型的准确建立有着明显的推动作用。
[0042] 同时,为了研究改进的算法对聚类效果的作用,本发明通过计算准确率、召回率和F-Measure,对只使用传统Single-Pass聚类算法、只使用ISP聚类算法和加入AHC的ISP&AH聚类算法三组实验进行性能衡量。
[0043] 基于LDA融合模型将LDA主题模型的语义关系利用起来,引入到新闻文本领域。将基于统计的方法和基于语义主题的方法融合为一体,互相补足,达到提高文本聚类质量的目的。多层聚类的新闻话题检测结合ISP聚类算法和层次聚类算法,进行多层次、更深入的聚类。通过改进Single-Pass聚类算法,对新闻文本进行话题初步聚类,得到高聚合、低粒度的话题集合结果,既使其能满足下一次聚类的要求,又在一定程度上提高聚类效果。
[0044] 本发明提供了一种基于LDA融合模型和多层聚类的新闻话题检测研究方法,如图1所示,为本发明具体实施例的整体示意图,包括:
[0045] 步骤S0101:使用TF-IDF构建VSM相似度模型。文本内容长短不一会造成权重分配上的不均衡显现,进而使得相似度计算上出现偏差,因此还需要将文本向量归一化表示如公式(2)所示。
[0046] 步骤S0201:使用LDA构建主题模型。采用Gibbs抽样方法对模型的各项参数进行计算,实现对于Markov链的构建,最终得到的准确参数设置。那么对于两个不同的文本di和dj,计算基于潜在主题向量的LDA主题模型相似度SimLDA(di,dj)。
[0047] 步骤S0301:将LDA潜在主题模型和VSM空间向量模型结合。计算基于TF-IDF权重向量模型的相似度SimTFIDF(di,dj),并结合SimLDA(di,dj)将以上两种文本相似度进行线性组合,得到融合两种结果的最终相似度,如公式(2)所示。
[0048] Sim(di,dj)=λ×SimTFIDF(di,dj)+(1-λ)×SimLDA(di,dj)  (2)[0049] 其中λ为自定义的线性影响因子,通过其影响值将基于TF-IDF计算权值的VSM模型与基于主题的LDA模型按特定的比例进行线性改变并加权求和。
[0050] 步骤S0401:使用传统Single-Pass聚类算法。将文本数据进行VSM建模,用TF-IDF方法赋予特征词权重,将文本表征为向量形式。
[0051] 步骤S0402:将文本流与聚类过程全部文档进行相似度计算,取得相似度最大值MaxSim,并记录对应话题TopicMax。将MaxSim与预先设定的阈值进行对比,若MaxSim大于阈值,则为TopicMax,否则为新话题。
[0052] 步骤S0501:使用ISP聚类算法。在步骤S0402的基础上增加缓存文档流,将相似度小于阈值的文档加入缓存流,对缓存流的文章重新聚类。若计算的相似度大于阈值,则更新话题,否则将该文档视为新话题,直到所有文档聚类结束。
[0053] 步骤S0601:加入AHC的ISP&AH聚类算法。首先将新闻文本中高相似度的话题聚在一起。然后,通过层次聚类方法在初步聚类结果上进行二次聚类,将相似度高的话题进一步融合,达到提高准确率和召回率的目的。
[0054] 本发明所述的一种基于LDA融合模型和多层聚类的新闻话题检测方法,弥补了基于TF-IDF的向量空间模型在文本表示方面忽略了文本语义之间的关联性的缺点,提高了文本聚类质量。同时,通过改进Single-Pass聚类算法,对新闻文本进行话题初步聚类和层次聚类弥补了层次聚类算法时间复杂度高的缺点和传统Single-Pass算法聚类准确度较低的缺点。为文本分析和话题检测方提供了一种有效的方法。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈