首页 / 专利库 / 电脑零配件 / 接口 / 用户界面 / 基于种子词的微博文本层次主题发现方法及系统

基于种子词的微博文本层次主题发现方法及系统

阅读:151发布:2024-02-29

专利汇可以提供基于种子词的微博文本层次主题发现方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 提出一种基于 种子 词的微博文本层次主题发现方法,包括以下步骤:从互联网上获取数据信息,其中,数据信息包括微博文本;对微博文本进行分析以获取种子词簇,并将种子词簇作为先验知识;对微博文本进行层次主题聚类以生成层次主题模型;以及将先验知识集成至层次主题模型中以对微博文本层次主题进行发现。本发明 实施例 的方法能够快速的从海量的微博文本中挖掘文本的层次主题及话题分布,并且便于发布话题之间的层次粒度关系。本发明还提供了一种基于种子词的微博文本层次主题发现系统。,下面是基于种子词的微博文本层次主题发现方法及系统专利的具体信息内容。

1.一种基于种子词的微博文本层次主题发现方法,其特征在于,包括以下步骤:
从互联网上获取数据信息,其中,所述数据信息包括微博文本;
对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;
对所述微博文本进行层次主题聚类以生成层次主题模型;以及
将所述先验知识集成至所述层次主题模型中以对所述微博文本层次主题进行发现,其中,所述将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档,wd表示第d篇文档的单词集合。
2.根据权利要求1所述的基于种子词的微博文本层次主题发现方法,其特征在于,通过网络爬虫从互联网获取数据信息。
3.根据权利要求1所述的基于种子词的微博文本层次主题发现方法,其特征在于,所述对所述微博文本进行分析以获取种子词簇,进一步包括:
按照预定规则从所述微博文本中抽取名词或名词短语;
通过定义规则对所述名词或名词短语进行剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子词;
根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作为先验知识。
4.根据权利要求1-3任一项所述的基于种子词的微博文本层次主题发现方法,其特征在于,所述层次主题模型为变参的模型。
5.一种基于种子词的微博文本层次主题发现系统,其特征在于,包括:
用户界面,所述用户界面模块用于为用户提供图形化的操作界面,以使用户浏览所需的微博文本层次主题分析结果;
数据库接口模块,所述数据库接口模块用于为所述发现系统提供数据库读写接口;
功能模块,所述功能模块包括:
数据信息获取子模块,所述数据信息获取子模块用于从互联网上获取数据信息,其中,所述数据信息包括微博文本;
先验知识获取子模块,所述先验知识获取子模块用于对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;
主题模型子模块,所述主题模型子模块用于对所述微博文本进行层次主题聚类以生成层次主题模型;
集成子模块,所述集成子模块用于将所述先验知识集成至所述层次主题模型中以对所述微博文本的层次主题进行发现,其中,所述集成子模块将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档,wd表示第d篇文档的单词集合。
6.根据权利要求5所述的基于种子词的微博文本层次主题发现系统,其特征在于,所述数据信息获取子模块通过网络爬虫从互联网获取数据信息。
7.根据权利要求5所述的基于种子词的微博文本层次主题发现系统,其特征在于,所述先验知识获取模块用于按照预定规则从所述微博文本中抽取名词或名词短语,并通过定义规则对所述名词或名次短语进行剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子词,并根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作为先验知识。
8.根据权利要求5-7任一项所述的基于种子词的微博文本层次主题发现系统,其特征在于,所述层次主题模型为变参的模型。

说明书全文

基于种子词的微博文本层次主题发现方法及系统

技术领域

[0001] 本发明涉及计算机应用技术与互联网技术领域,特别涉及一种基于种子词的微博文本层次主题发现方法及系统。

背景技术

[0002] 随着互联网的不断普及和web2.0的飞速发展,互联网所传达的公众对于社会事件,热点人物以及电商产品的评论信息受到了各方的特别关注。基于信息传播的特点,互联
网具有多模态信息的交互性,能够快速有效地传播网民观点,从而形成一定的社会舆情导
向,因而它在信息的传播速度、信息的实效性、社会影响以及舆论导向等方面与传统媒体
相比有很大的优越性。用户现在也不仅仅是充当一个简单的信息浏览者的色,更多的时
候,用户也是一个信息的发布者。例如论坛、博客、评论网站、邮件、微博等都给Web2.0时代
的用户提供了一个发布信息,表达自己观点场所。于是,互联网上开始产生了大量的含有主
观色彩的信息,尤其是微博的出现,使得大量用户习惯在微博上发布自己的观点,这点观点
可以是用户针对某个社会事件所持有的看法,也可以是讨论某些和兴趣相关的话题,还有
可能是一些毫无意义的内容。随着用户的增长和发布的微博的数量的增加,媒体、厂商和政
府都逐渐开始重视起用户在微博中发表的观点和看法。比如,厂商可以通过微博了解用户
对产品的各方面评论,政府和媒体可以了解用户对于某些事件的看法。然后,随着微博文本
数量的增加,使得人工去收集并分析整理相关的微博变得极度困难,费时费力,且效率低
下。

发明内容

[0003] 本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
[0004] 为此,本发明的一个目的在于提出一种基于种子词的微博文本层次主题发现方法,该方法能够快速的从海量的微博文本中挖掘文本的层次主题及话题分布,并且便于发
布话题之间的层次粒度关系。
[0005] 本发明的另一个目的在于提供一种基于种子词的微博文本层次主题发现系统。
[0006] 为了实现上述目的,本发明第一方面的实施例提出了一种基于种子词的微博文本层次主题发现方法,包括以下步骤:从互联网上获取数据信息,其中,所述数据信息包括微
博文本;对所述微博文本进行分析以获取种子词簇,并将所述种子词簇作为先验知识;对所
述微博文本进行层次主题聚类以生成层次主题模型;以及将所述先验知识集成至所述层次
主题模型中以对所述微博文本层次主题进行发现。
[0007] 根据本发明实施例的基于种子词的微博文本层次主题发现方法,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主
题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以
对微博文本层次主题进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快
速、自动地得到当前微博文本的话题分布,省时省力。另外,该方法通过建立当前微博文本
的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度
下微博用户所关注的不同的话题,因此,该方法便于发布话题之间的层次粒度关系。
[0008] 另外,根据本发明上述实施例的基于种子词的微博文本层次主题发现方法还可以具有如下附加的技术特征:
[0009] 在一些示例中,通过网络爬虫从互联网获取数据信息。
[0010] 在一些示例中,所述对所述微博文本进行分析以获取种子词簇,进一步包括:按照预定规则从所述微博文本中抽取名词或名词短语;通过定义规则对所述名词或名次短语进
剪枝去噪处理以得到与所述微博文本相关的名词或名词短语,并将与所述微博文本相关
的名词或名词短语作为种子词;根据相似程度将高度相关的种子词进行合并,以得到种子
词簇,并将所述种子词簇作为先验知识。
[0011] 在一些示例中,所述将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
[0012] p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
[0013] 其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前
文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
[0014] 在一些示例中,所述层次主题模型为变参的模型。
[0015] 本发明第二方面的实施例提供了一种基于种子词的微博文本层次主题发现系统,包括:用户界面,所述用户界面模块用于为用户提供图形化的操作界面,以使用户浏览
所需的微博文本层次主题分析结果;数据库接口模块,所述数据库接口模块用于为所述发
现系统提供数据库读写接口;功能模块,所述功能模块包括:数据信息获取子模块,所述数
据信息获取子模块用于从互联网上获取数据信息,其中,所述数据信息包括微博文本;先验
知识获取子模块,所述先验知识获取子模块用于对所述微博文本进行分析以获取种子词
簇,并将所述种子词簇作为先验知识;主题模型子模块,所述主题模型子模块用于对所述微
博文本进行层次主题聚类以生成层次主题模型;集成子模块,所述集成子模块用于将所述
先验知识集成至所述层次主题模型中以对所述微博文本的层次主题进行发现。
[0016] 根据本发明实施例的基于种子词的微博文本层次主题发现系统,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主
题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以
对微博文本层次主题进行发现。因此,该系统无需对当前的微博文本进行人工分析,即可快
速、自动地得到当前微博文本的话题分布,省时省力。另外,该系统通过建立当前微博文本
的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度
下微博用户所关注的不同的话题,因此,该系统便于发布话题之间的层次粒度关系。
[0017] 另外,根据本发明上述实施例的基于种子词的微博文本层次主题发现系统还可以具有如下附加的技术特征:
[0018] 在一些示例中,所述数据信息获取子模块通过网络爬虫从互联网获取数据信息。
[0019] 在一些示例中,所述先验知识获取模块用于按照预定规则从所述微博文本中抽取名词或名词短语,并通过定义规则对所述名词或名次短语进行剪枝去噪处理以得到与所述
微博文本相关的名词或名词短语,并将与所述微博文本相关的名词或名词短语作为种子
词,并根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并将所述种子词簇作
为先验知识。
[0020] 在一些示例中,所述集成子模块将所述先验知识集成至所述层次主题模型,可通过如下公式实现:
[0021] p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
[0022] 其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前
文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
[0023] 在一些示例中,所述层次主题模型为变参的模型。
[0024] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
[0025] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0026] 图1是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的流程图;
[0027] 图2是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的原理示意图;
[0028] 图3是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的基于先验的层次主题模型结构示意图;以及
[0029] 图4是根据本发明一个实施例的基于种子词的微博文本层次主题发现系统的结构示意图。

具体实施方式

[0030] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0031] 以下结合附图描述根据本发明实施例的基于种子词的微博文本层次主题发现方法及系统。
[0032] 图1是根据本发明一个实施例的基于种子词的微博文本层次主题发现方法的流程图。如图1所示,根据本发明一个实施例的基于种子词的微博文本层次主题发现方法,包括
以下步骤:
[0033] 步骤S101,从互联网上获取数据信息,其中,数据信息包括微博文本。具体而言,在本发明的一个实施例中,通过网络爬虫从互联网上获取数据信息。作为一个具体的示例,结
合图2所示,主要是从互联网上获取大量全面的针对不同事件,特定用户群体等发布的微博
文本,以便进行主题挖掘与分析。数据信息主要是基于新浪微博的API通过网络爬虫从新浪
微博上爬取,并保存到相应数据库。抓取的数据信息包括微博本文、发布者信息等。另外,网
络爬虫会定期抓取新的数据信息以保证数据的完整性与实时性。从而,通过这个步骤可以
形成主题挖掘的数据集,能用来进行下一步的分析。
[0034] 步骤S102,对微博文本进行分析以获取种子词簇,并将种子词簇作为先验知识。其中,在本发明的一个实施例中,该步骤进一步包括:按照预定规则从微博文本中抽取名词或
名词短语,通过定义规则对该名词或名词短语进行剪枝去噪处理以得到与微博文本相关的
名词或名词短语,并将与微博文本相关的名词或名词短语作为种子词,进一步根据相似程
度将高度相关的种子词进行合并,以得到种子词簇,并将该种子词簇作为先验知识。其中,
在上述示例中,预定规则例如为从微博文本中提取频繁出现的名词或名词短语。定义规则
即定义一些合适的短语规则,例如包括:形容词+名词、名词+名词、代词/动词/形容词/名词
+“的”+名词、名词+“的”+动词等形式。
[0035] 作为一个具体示例,本发明的实施例可以提取一些种子词簇,作为合适的先验知识,以便集成到现有的层次主题模型中。首先需要抽取当前微博文本中经常被提及的一些
概念,例如:在雅安地震的事件中,部分微博文本可能是提及雅安地震,而其他一部分微博
文本可能提及余震相关,还有某些微博文本可能提及救援等相关的。而为了提取微博用户
经常提及到的词语,可以提取频繁出现的名词或者名词短语,然后进行处理,从而得到当前
微博文本中用户主要主题提及的词语,再通过定义规则进行剪枝去除噪声,从而提取出频
繁被描述的和当前微博相关的一些事件等特征作为种子词。在此基础上,对提取出的种子
词根据相似的程度进行合并,合并某些高度相关的种子词(例如:“救援”,“帐篷”等都是相
近的概念),就可以得到相似的种子词簇,并将该种子词簇作为先验知识。
[0036] 更为详细地,在一些示例中,主要基于概念提取进行相关种子词的抽取。而针对中文文本的一些特殊性,本发明的实施例主要通过关联规则挖掘的方法提取出微博文本中频
繁出现的名词或名词短语,再通过定义规则进行剪枝去除噪声,从而提取出频繁被描述的
对象特征。由于本发明实施例主要希望提取一些种子词的热点概念都是名词或者名词性短
语为主,同时这类名词性短语具有规律性特征。根据这些特征,可定义所提取的名词性短语
的语法形式(例如为:形容词+名词、名词+名词、代词/动词/形容词/名词+“的”+名词、名词+
“的”+动词等形式),也即定义规则。进一步地,根据这些语法形式识别和划分成名词性短
语,进而提取。经过对上述名词性短语的提取,得到热点概念集合最原始的候选集合。再通
过频繁项集提取从热点概念集合最原始的候选集合中提取用户最为关注、评论最多的名词
或者名词短语,作为热点概念候选集。通过频繁项提取,虽然获取了用户提及最为频繁的名
词或名词短语,但这些频繁项不一定是相关的概念。其中存在那些在任何领域都被高频率
提到的常用词语(commonwords),而这些词语都是与文本主题无意义的频繁项,应该剔除。
因此再对非评论对象属性、特征或者相关概念的频繁项进行剪枝,通过分别对频繁项集中
的单字单词、多字单词(至少含有两个汉字的中文单词)和名词性短语进行剪枝,就能得到
概念集合。
[0037] 进一步地,经过概念提取后,从原始文本信息中获取了最为相关的热点概念。为了让这些概念作为种子词更好的指导聚类,则基于相关度,诸如Overlap,PMI等,针对提取的
词,提取合适的must-links,cannot-links,再基于提取的must-links,cannot-links进行
聚类,合并等操作,即可得到种子词簇。
[0038] 步骤S103,对微博文本进行层次主题聚类以生成层次主题模型。其中,在本发明的一个实施例中,层次主题模型为变参的模型。
[0039] 具体而言,主题模型是当前比较常用的一个文本挖掘的模型,可以独立处理很多文本挖掘的问题,也可以从本文中提取合适的先验知识,以配合其他的模型。在社交网络
中,主题模型经常应用于微博的文本挖掘中,对微博的文本的主题进行挖掘。然而,传统的
主题模型是一个监督学习算法,需要用户自己输入合适的主题数目,同时,它假设主题之
间是相互独立的,因此,也很难对主题之间的关系进行进一步的分析。而根据约束聚类的思
想,已经存在的先验知识可以更好的提升聚类算法的效果,因此,将主题模型从一个无监督
的模型转换成一个基于约束的先验知识的半监督模型(即层次主题模型)是一个非常合适
的方式。
[0040] 步骤S104,将先验知识集成至层次主题模型中以对微博文本层次主题进行发现。
[0041] 具体而言,在本发明的一个实施例中,在提取了合适的种子词簇作为先验知识后,需要根据之前的新的过程集成对应的种子词簇,因此,需要将先验知识集成至对应层次主
题模型的采样中,具体采样可通过公式如下实现:
[0042] p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
[0043] 其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前
文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
[0044] 在上式中,若当期的路径节点包含当前的文档所对应的种子词,则δ(wd,cd)为1,否则δ(wd,cd)为0。而当前的硬约束可以进一步的通过引入松弛变量η'被放缩成软约束。当η'
为1时为硬约束,η'为0时则为无约束状态,η'在0至1之间时为软约束。
[0045] 综上,在本发明的一些示例中,使用基于先验知识的层次主题模型进行微博的层次主题挖掘。相比于传统的主题模型,基于先验的主题模型有着如下的优势:(1)通过集成
自动挖掘的先验知识,从而提取聚类效果。(2)层次主题模型为变参的模型,不需要输入主
题的数目即可自动挖掘合适的主题数。(3)可以很好的发现主题之间的层次关系。(4)从应
用层面上来说,不需要进行诸如停用词,常用词(common words)过滤等预处理。
[0046] 具体而言,传统的层次主题模型是基于嵌套的中国餐馆过程(nested Chinese Restaurant Process),为了使其更好的集成已有的先验知识,本发明的实施例对嵌套的中
国餐馆过程进行了延伸:
[0047] 假设某个城市,有无限个餐馆,每个餐馆里面有着无限张的桌子。与此同时,有N个顾客按照标记{1,…,N}进入这个城市。假定该城市有一个餐馆被默认为是“根”(节点)餐
馆,每个顾客都会从根餐馆进入,然后选择一张桌子,该桌子对应着城市里的下一个餐馆。
这个过程迭代进行多次。现假定当前根餐馆的一部分桌子有一些“特色菜”,同时一部分顾
客手中有一份想吃的“特色菜菜单”,当这一部分顾客进入根餐馆的时候,他们会根据一定
的概率选择包含有他们“菜单”中的“特色菜”的桌子;而另一部分顾客,则会用中国餐馆过
程(CRP)去选择一张桌子。
[0048] 作为一个具体的例子,图3为一个三层的基于种子词簇的层次主题模型。如图3所示,黑体、下划线的部分为预先提取的种子词簇。第二个黑色的节点为预定义的节点,也即
对应的种子词簇的先验知识。除此之外,由于层次主题模型是一个变参的模型,因此,还可
以发现非先验的主题,从图3中可看到,会有一些非先验的主题也可以被挖掘。
[0049] 根据本发明实施例的基于种子词的微博文本层次主题发现方法,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主
题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以
对微博文本层次主题进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快
速、自动地得到当前微博文本的话题分布,省时省力。另外,该方法通过建立当前微博文本
的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度
下微博用户所关注的不同的话题,因此,该方法便于发布话题之间的层次粒度关系。
[0050] 本发明还提供了一种基于种子词的微博文本层次主题发现系统。图4为根据本发明一个实施例的基于种子词的微博文本层次主题发现系统的结构示意图。如图4所示,根据
本发明一个实施例的基于种子词的微博文本层次主题发现系统400,包括:用户界面模块
410、数据库接口模块420和功能模块430。
[0051] 具体而言,用户界面模块410用于为用户提供一个图像化的用户操作界面,以方便用户浏览其所需的微博文本层次主题分析结果,例如用户感兴趣的人群或者对应的一些热
事件的层次主题分析结果。
[0052] 数据库接口模块420用于为发现系统400提供数据库读写接口,以方便系统中各个不同的功能模块进行数据的I/O操作。
[0053] 功能模块430包括:数据信息获取子模块4301、先验知识获取子模块4302、主题模型子模块4303和集成子模块4304。
[0054] 其中,数据信息获取子模块4301用于从互联网上获取数据信息,其中,数据信息包括微博文本。具体而言,在本发明的一个实施例中,通过网络爬虫从互联网上获取数据信
息。作为一个具体的示例,结合图2所示,主要是从互联网上获取大量全面的针对不同事件,
特定用户群体等发布的微博文本,以便进行主题挖掘与分析。数据信息主要是基于新浪微
博的API通过网络爬虫从新浪微博上爬取,并保存到相应数据库。抓取的数据信息包括微博
本文、发布者信息等。另外,网络爬虫会定期抓取新的数据信息以保证数据的完整性与实时
性。从而,通过这个步骤可以形成主题挖掘的数据集,能用来进行下一步的分析。
[0055] 先验知识获取子模块4302用于对微博文本进行分析以获取种子词簇,并将该种子词簇作为先验知识。更为具体地,在本发明的一个实施例中,先验知识获取子模块4302按照
预定规则从微博文本中抽取名词或名词短语,并通过定义规则对该名词或名词短语进行剪
枝去噪处理以得到与微博文本相关的名词或名词短语,并将与微博文本相关的名词或名词
短语作为种子词,进一步根据相似程度将高度相关的种子词进行合并,以得到种子词簇,并
将该种子词簇作为先验知识。其中,在上述示例中,预定规则例如为从微博文本中提取频繁
出现的名词或名词短语。定义规则即定义一些合适的短语规则,例如包括:形容词+名词、名
词+名词、代词/动词/形容词/名词+“的”+名词、名词+“的”+动词等形式。
[0056] 作为一个具体示例,先验知识获取子模块4302可以提取一些种子词簇,作为合适的先验知识,以便集成到现有的层次主题模型中。首先需要抽取当前微博文本中经常被提
及的一些概念,例如:在雅安地震的事件中,部分微博文本可能是提及雅安地震,而其他一
部分微博文本可能提及余震相关,还有某些微博文本可能提及救援等相关的。而为了提取
微博用户经常提及到的词语,可以提取频繁出现的名词或者名词短语,然后进行处理,从而
得到当前微博文本中用户主要主题提及的词语,再通过定义规则进行剪枝去除噪声,从而
提取出频繁被描述的和当前微博相关的一些事件等特征作为种子词。在此基础上,对提取
出的种子词根据相似的程度进行合并,合并某些高度相关的种子词(例如:“救援”,“帐篷”
等都是相近的概念),就可以得到相似的种子词簇,并将该种子词簇作为先验知识。
[0057] 更为详细地,在一些示例中,先验知识获取子模块4302主要基于概念提取进行相关种子词的抽取。而针对中文文本的一些特殊性,先验知识获取子模块4302主要通过关联
规则挖掘的方法提取出微博文本中频繁出现的名词或名词短语,再通过定义规则进行剪枝
去除噪声,从而提取出频繁被描述的对象特征。由于本发明实施例主要希望提取一些种子
词的热点概念都是名词或者名词性短语为主,同时这类名词性短语具有规律性特征。根据
这些特征,可定义所提取的名词性短语的语法形式(例如为:形容词+名词、名词+名词、代
词/动词/形容词/名词+“的”+名词、名词+“的”+动词等形式),也即定义规则。进一步地,根
据这些语法形式识别和划分成名词性短语,进而提取。经过对上述名词性短语的提取,得到
热点概念集合最原始的候选集合。再通过频繁项集提取从热点概念集合最原始的候选集合
中提取用户最为关注、评论最多的名词或者名词短语,作为热点概念候选集。通过频繁项提
取,虽然获取了用户提及最为频繁的名词或名词短语,但这些频繁项不一定是相关的概念。
其中存在那些在任何领域都被高频率提到的常用词语(commonwords),而这些词语都是与
文本主题无意义的频繁项,应该剔除。因此再对非评论对象属性、特征或者相关概念的频繁
项进行剪枝,通过分别对频繁项集中的单字单词、多字单词(至少含有两个汉字的中文单
词)和名词性短语进行剪枝,就能得到概念集合。
[0058] 进一步地,经过概念提取后,从原始文本信息中获取了最为相关的热点概念。为了让这些概念作为种子词更好的指导聚类,则基于相关度,诸如Overlap,PMI等,针对提取的
词,提取合适的must-links,cannot-links,再基于提取的must-links,cannot-links进行
聚类,合并等操作,即可得到种子词簇。
[0059] 主题模型子模块4303用于对微博文本进行层次主题聚类以生成层次主题模型。其中,在本发明的一个实施例中,层次主题模型为变参的模型。
[0060] 具体而言,主题模型是当前比较常用的一个文本挖掘的模型,可以独立处理很多文本挖掘的问题,也可以从本文中提取合适的先验知识,以配合其他的模型。在社交网络
中,主题模型经常应用于微博的文本挖掘中,对微博的文本的主题进行挖掘。然而,传统的
主题模型是一个无监督学习算法,需要用户自己输入合适的主题数目,同时,它假设主题之
间是相互独立的,因此,也很难对主题之间的关系进行进一步的分析。而根据约束聚类的思
想,已经存在的先验知识可以更好的提升聚类算法的效果,因此,将主题模型从一个无监督
的模型转换成一个基于约束的先验知识的半监督模型(即层次主题模型)是一个非常合适
的方式。
[0061] 集成子模块4304用于将先验知识集成至层次主题模型中以对微博文本层次主题进行发现。
[0062] 具体而言,在本发明的一个实施例中,在提取了合适的种子词簇作为先验知识后,需要根据之前的新的过程集成对应的种子词簇,因此,集成子模块4304将先验知识集成至
对应层次主题模型的采样中,具体采样可通过公式如下实现:
[0063] p(cd|w,c-d,z,η,γ)∝(η'δ(wd,cd)+1-η')p(cd|cd,γ)p(wd|c,w-d,z,η),
[0064] 其中,δ(wd,cd)为一个指示器函数,用于表示当前路径上的节点和文档之间的关系,η'为松弛变量,cd表示当前文档所采样的路径,w表示当前文档的单词集合,z表示当前
文档选择的主题集合,η和γ为超参数,负号表示排除当前的文档。
[0065] 在上式中,若当期的路径节点包含当前的文档所对应的种子词,则δ(wd,cd)为1,否则δ(wd,cd)为0。而当前的硬约束可以进一步的通过引入松弛变量η'被放缩成软约束。当η'
为1时为硬约束,η'为0时则为无约束状态,η'在0至1之间时为软约束。
[0066] 综上,在本发明的一些示例中,使用基于先验知识的层次主题模型进行微博的层次主题挖掘。相比于传统的主题模型,基于先验的主题模型有着如下的优势:(1)通过集成
自动挖掘的先验知识,从而提取聚类效果。(2)层次主题模型为变参的模型,不需要输入主
题的数目即可自动挖掘合适的主题数。(3)可以很好的发现主题之间的层次关系。(4)从应
用层面上来说,不需要进行诸如停用词,常用词(common words)过滤等预处理。
[0067] 具体而言,传统的层次主题模型是基于嵌套的中国餐馆过程(nested Chinese Restaurant Process),为了使其更好的集成已有的先验知识,本发明的实施例对嵌套的中
国餐馆过程进行了延伸:
[0068] 假设某个城市,有无限个餐馆,每个餐馆里面有着无限张的桌子。与此同时,有N个顾客按照标记{1,…,N}进入这个城市。假定该城市有一个餐馆被默认为是“根”(节点)餐
馆,每个顾客都会从根餐馆进入,然后选择一张桌子,该桌子对应着城市里的下一个餐馆。
这个过程迭代进行多次。现假定当前根餐馆的一部分桌子有一些“特色菜”,同时一部分顾
客手中有一份想吃的“特色菜菜单”,当这一部分顾客进入根餐馆的时候,他们会根据一定
的概率选择包含有他们“菜单”中的“特色菜”的桌子;而另一部分顾客,则会用中国餐馆过
程(CRP)去选择一张桌子。
[0069] 另外,作为具体的示例,该发现系统400的上述用户界面模块410、数据库接口模块420和功能模块430均在Windows下用Python、java等语言开发实现。进一步地,基于上述开
发平台,该发现系统400的部署运行需要如下几个层级运行环境的支撑。首先在操作系统
层,发现系统400需要在Windows XP或其兼容的操作系统平台之上运行,同时还需要程序运
行支撑环境,也就是java和Python运行支撑环境。当具备了上述支撑环境时,该发现系统
400即可正常运行。而用户只需要通过网页浏览器访问系统就能浏览自己感兴趣的人群或
者对应的一些热门事件的层次主题分析结果,或者自己感兴趣的产品的评论分析结果。
[0070] 根据本发明实施例的基于种子词的微博文本层次主题发现系统,从互联网上获取微博文本,并对微博文本进行分析以获取种子词簇,即先验知识,并对微博文本进行层次主
题聚类以生成层次主题模型,并进一步将先验知识(即种子词簇)集成至层次主题模型中以
对微博文本层次主题进行发现。因此,该系统无需对当前的微博文本进行人工分析,即可快
速、自动地得到当前微博文本的话题分布,省时省力。另外,该系统通过建立当前微博文本
的话题的层次关系,可以更清晰的从海量微博文本中发现当前的话题层次,理解更细粒度
下微博用户所关注的不同的话题,因此,该系统便于发布话题之间的层次粒度关系。
[0071] 在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0072] 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者
隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三
个等,除非另有明确具体的限定。
[0073] 在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内
部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员
而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0074] 在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在
第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示
第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第
一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
[0075] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特
点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不
必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任
一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技
术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结
合和组合。
[0076] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述
实施例进行变化、修改、替换和变型。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈