首页 / 专利库 / 数学与统计 / 解析法 / 文本分析 / 一种基于电路图元素隐喻的主题演化可视化方法

一种基于电路图元素隐喻的主题演化可视化方法

阅读:1017发布:2020-07-31

专利汇可以提供一种基于电路图元素隐喻的主题演化可视化方法专利检索,专利查询,专利分析的服务。并且本 发明 属于数据 可视化 分析领域,具体涉及一种基于 电路 图元素隐喻的主题演化可视化方法。包括:数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA 算法 对文本集合进行处理, 抽取 主题,并记录与主题对应的词、文本以及时间和地点信息;以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例等。该方法主要能够展示主题的内容、主题的强度随时间的变化及主题与主题间的演化关系以方便用户对主题的演化过程进行分析,还可展示各时段内同一主题强度的地理分布。,下面是一种基于电路图元素隐喻的主题演化可视化方法专利的具体信息内容。

1.一种基于电路图元素隐喻的主题演化可视化方法,其特征在于,包括如下步骤:
(1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;
(2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;
(3)在同一时段内抽取的同一主题下的词盘就近排布;
(4)以元件图标表示主题,即主题框,主题框包围同一主题内的词盘,表示词盘在选定时间段内属于同一主题,以框宽度表示主题强度,即本时段内包含该主题的文档数,以框高度表示主题包含的词量;
(5)以“+”“-”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向;
(6)在每个词出现的位置出现标识,左侧以圆矩形显示词的内容;
(7)以电路图中电路走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇,词连接线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述两段词连接线,在第一段和第三段词连接线上标识词强度,即出现这个词的数量。

说明书全文

一种基于电路图元素隐喻的主题演化可视化方法

技术领域

[0001] 本发明属于数据可视化分析领域,具体涉及一种基于电路图元素隐喻的主题演化可视化方法。

背景技术

[0002] 主题演化是指主题随时间的变化过程,是当今的一个研究热点,可广泛应用于文本挖掘、舆情分析、科研热点分析等领域。其主要任务是应用主题演化算法发现文档集合中主题变化趋势。主题演化研究的结果多以概率等数学形式表现,不易理解,尤其主题间的深化关系不易被发现。于是,需要一种可视化的分析方法来展示并帮助分析主题演化过程。
[0003] 现有主题演化可视化方法主要采用堆叠图(Stacked Chart)、冲击图(Alluvial Diagram)等形式如Themeriver、TestFlow、NEViewer等可视化方法,其特点是能够表现出主题随时间的演化过程和主题的演化关系,但只能表现主题相对强度;堆叠图强调主题演化过程,采用连续图形表现离散量,易产生误解;另外上述各个方法对主题数量多、联系复杂的情况,尤其是小强度主题表现不够清晰,存在小强度主题易被覆盖的问题,同时对组成主题的词表现不清晰或未进行表现。对此,本发明提出一种新的、基于电路图隐喻的主题演化可视化方法来解决上述问题。

发明内容

[0004] 本发明的目的是提供一种更清晰的基于电路图元素隐喻的主题演化可视化方法。
[0005] 本发明的目的是这样实现的:
[0006] (1)数据预处理,对文本数据进行预处理,进行分词、去停词操作,将文本集合处理成词库;采用LDA算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点信息;
[0007] (2)以焊盘图标隐喻主题中的词,即词盘,词盘采用空心饼图形式表示,表示在此时间段内此词所处的地理分布比例;
[0008] (3)在同一时段内抽取的同一主题下的词盘就近排布;
[0009] (4)以元件图标表示主题,即主题框,主题框包围同一主题内的词盘,表示词盘在选定时间段内属于同一主题,以框宽度表示主题强度,即本时段内包含该主题的文档数,以框高度表示主题包含的词量;
[0010] (5)以“+”“-”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向;
[0011] (6)在每个词出现的位置出现标识左侧以圆矩形显示词的内容;
[0012] (7)以电路图中电路走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇,词连接线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述两段词连接线,在第一段和第三段词连接线上标识词强度,即出现这个词的数量。
[0013] 本发明的有益效果在于:
[0014] 该方法主要能够展示主题的内容、主题的强度随时间的变化及主题与主题间的演化关系以方便用户对主题的演化过程进行分析,还可展示各时段内同一主题强度的地理分布。本发明有效解决了现有主题演化可视化方法中的强度表示不清晰、复杂主题关系表示不够清晰以及小强度主题易被掩盖等问题。附图说明
[0015] 图1为本发明步骤图;
[0016] 图2为本发明具体实施过程图;
[0017] 图3为本发明词盘所处的地理分布图。

具体实施方式

[0018] 下面结合附图对本发明做进一步描述。
[0019] 一种基于电路图元素隐喻的主题演化可视化方法,其实施包括如下步骤:
[0020] 步骤1,数据预处理,对文本数据进行预处理,首先进行分词、去停词等操作,将文本集合处理成词库;然后采用诸如LDA等算法对文本集合进行处理,抽取主题,并记录与主题对应的词、文本以及时间和地点等信息;
[0021] 步骤2,以焊盘图标隐喻主题中的词,此处可称之为“词盘”,词盘采用空心饼图形式表示,如图2中标号1所示,可表示在此时间段内此词所处的地理分布比例,如图3所示。
[0022] 步骤3,在同一时段内抽取的同一主题下的词盘就近排布,如图3所示;
[0023] 步骤4,以元件图标(矩形框)表示主题,此处可称之为“主题框”,主题框包围同一主题内的词盘,表示其在选定时间段内属于同一主题,以框宽度表示主题强度(本时段内包含该主题的文档数),如图2中标号2所示;
[0024] 步骤5,以“+”“-”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向,如图2中标号3和2中标号4所示;
[0025] 步骤6,在每个词出现的位置出现标识左侧以圆角矩形显示词的内容,如图2中标号5所示;
[0026] 步骤7,以电路图中电路走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇,词连接线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述2段词连接线,如图2中标号6所示,并在第一段和第三段词连接线上标识词强度(即出现这个词的数量),如图2中标号7所示。
[0027] 包括步骤2中所述以焊盘图标隐喻主题中包括的词,词盘采用空心饼图形式表示,可表示在此时间段内此词所处的地理分布比例。
[0028] 包括步骤4中所述以元件图标(矩形框)表示主题,此处可称之为“主题框”,主题框包围同一主题内的词盘,表示其在选定时间段内属于同一主题,以框宽度表示主题强度(本时段内包含该主题的文档数),以框高度表示主题包含的词量。
[0029] 包括步骤5中所述采用“+”“-”符号表示词在主题中的出现和消亡,以电路图中电流由正极向负极流动隐喻主题的演化方向。
[0030] 包括步骤7中所述以电路图中电路连走线隐喻不同时间段主题间词汇的演化关系,即用走线连接不同时间段里的相同词汇。
[0031] 词连接走线分三段绘制,第一段由源词盘发出,第三段连至目的词盘,中间段连接上述2段词连接线,并在第一段和第三段词连接线上标识词强度(即出现这个词的数量)。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈