首页 / 专利库 / 人工智能 / 情感极性 / 一种保留非结构化文本语义的文本可视化方法

一种保留非结构化文本语义的文本可视化方法

阅读:228发布:2020-05-16

专利汇可以提供一种保留非结构化文本语义的文本可视化方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种保留非结构化文本语义的社交媒体文本 可视化 方法,包括如下步骤:步骤S101,对输入本文进行分词、过滤、 词性标注 、获取依赖关系;步骤S102,基于词性标注与词汇间的依赖关系,构建句法二叉树,计算每条文本的 情感极性 ,将文本集划分为正、负两类;步骤S103,分别对正负两类文本,基于词频与词汇在每条文本中的共现关系,生成词汇序列模式,保留语义;步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩;步骤S105,采用布局 算法 ,展现序列模式内、序列模式间的语义关系;步骤S106,引入交互设计,使用户可关注局部细节。采用本发明的方法,实现对社交媒体文本的可视化,清晰呈现文本的情感取向、观点语义与舆论支持度,有效呈现文本信息,有助于 文本分析 。,下面是一种保留非结构化文本语义的文本可视化方法专利的具体信息内容。

1.一种保留非结构化文本语义的社交媒体文本可视化方法,其特征在于包括如下步骤:
步骤S101,对输入本文进行分词、过滤、词性标注和词汇间依赖关系的获取;
步骤S102,基于词性标注与词汇间的依赖关系,构建句法二叉树,计算每条文本的情感极性,将文本集划分为正、负两类;
步骤S103,分别对正负两类文本,基于词频和词汇在每条文本中的共现关系,生成词汇序列模式,保留语义;
步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩;
步骤S105,采用布局算法,展现序列模式内、序列模式间的语义关系;
步骤S106,引入交互设计,使用户可关注局部细节;
2.根据权利要求1所述的一种保留非结构化文本语义的社交媒体文本可视化方法,其特征在于所述步骤S102中计算单条文本情感极性的具体方法为:首先利用句法分析器进行句法分析,得到词语之间的依赖关系和单个词汇的情感极性,再基于所得依存关系,为句子构建句法二叉树结构,利用词语间的依赖关系和规则的方法,将句子情感判断转化为基于树的符号计算。
3.根据权利要求1所述的一种保留非结构化文本语义的社交媒体文本可视化方法,其特征在于所述步骤S102中构建句法二叉树的具体方法为:第一步,创建空栈,读入句首词汇;第二步,若下一个词汇不存在,跳转至第五步,否则,读入下一个词汇;第三步,读取栈顶两个节点的依存关系,若存在依存关系,则生成父节点,并依据情感计算规则计算父节点的词性,进入下一步;若不存在依存关系,则跳转到第二步;第四步,若此时栈内多余两个节点,则跳转至第三步,否则,跳转至第二步;第五步,输出栈内节点的情感极性,即整条文本的情感极性。
4.根据权利要求1所述的一种保留非结构化文本语义的社交媒体文本可视化方法,其特征在于所述步骤S103中生成词汇序列模式的具体方法为:初始状态下,序列模式生成树的唯一序列是给定的,每次运行后,最高频的序列模式都会出栈,寻找比它多一个单词的子序列模式,新的序列模式作为原模式树原模式结点的左孩子,原先的模式序列变成自己的右孩子,原先模式序列的频度被分为两部分,即包含新的序列模式的部分,和不包含新的序列模式的部分,如此循环,直到剩余所需可视词汇数变为0。
5.根据权利要求1所述的一种保留非结构化文本语义的社交媒体文本可视化方法,其特征在于所述步骤S104中分配可视空间、设计可视界面的具体方法为:正负极性的两类文本中,权重较大的位于上方,权重小的位于下方,并占据与权重比相应的面积比例,正负文本集采用不同色彩的边连接节点,并使用字体大小和透明度来二次编码出现频率
6.根据权利要求1所述的一种保留非结构化文本语义的社交媒体文本可视化方法,其特征在于所述步骤S105中布局算法的具体方法为:序列模式的平布局先后与在序列模式中的先后顺序一致,若两个模式序列同属于一个模式序列的子序列,则布局时垂直排列。
7.根据权利要求1所述的一种保留非结构化文本语义的社交媒体文本可视化方法,其特征在于所述步骤S106交互设计的具体方法为,模型初始状态下展示所有序列模式的复合图,当用户将鼠标聚焦于某一词语时,与它同属于一个序列模式的词汇会被高亮,其余词汇会被加上阴影,借此来清晰展现某一个序列模式的语义,同时,模型会通过一个浮层来显示包含该序列模式且权重最高的文本,以披露更多细节信息。

说明书全文

一种保留非结构化文本语义的文本可视化方法

技术领域

[0001] 本发明涉及一种数据可视化技术领域,特别是涉及一种保留非结构化文本语义的文本可视化方法。

背景技术

[0002] 数据可视化技术所涉及的传统学科有科学可视化和信息可视化,目的是从大数据中掘取信息、洞察知识,并以一种直观的方式展现出来。在可视化技术中,文本信息的可视化是一个重要研究分支。文本信息可视化是为了将大量文本中蕴含的语义特征(例如词语出现频率、词语重要程度、文本的逻辑结构、多文本的主题聚类、主题的动态变化趋势等)形象、直观地展现出来。
[0003] 典型的本文可视化技术有word clouds(或tag clouds),将提取出的关键字按照一定规则进行排序(例如:词频),再根据一定的规律排列、布局,通过设置不同的字号、色彩或是字体等图形属性加以区分,实现对关键词的可视化。在能够很好地感知主题热度后,科研热点转向展示文本所蕴含的语义,即其逻辑结构和叙述模式。自此,一系列的文本语义结构可视化模型被提出,例如:DAViewer用树的形式展现某一文本的叙述结构,实现语义的可视化,与此同时,列表展现文本间的相似性统计、文本的修辞结构和具体的文本内容;DocuBurst则将文本的语义结构用放射状圆环来展示。
[0004] 现有可视模型在一定程度上取得了良好的成果,但或关注感知整体内容,或关注反应文本本身语义,限制了文本分析。故发明提出一种新型可视化结构,既能够感知情感走势,又能够保留非结构化文本自身的语义内容,并以直观、形象的方式展示给用户,便于舆情分析者或是普通用户更好地感知文本信息。

发明内容

[0005] 有鉴于此,本发明设计了一种保留非结构化文本语义的文本可视化方法,包括如下步骤:
[0006] 步骤S101,对输入本文进行分词、过滤、词性标注和词汇间依赖关系的获取;
[0007] 步骤S102,基于词性标注与词汇间的依赖关系,计算每条文本的情感极性,将文本集划分为正、负两类;
[0008] 步骤S103,分别对正负两类文本,基于词频和词汇在每条文本中的共现关系,生成词汇序列模式,保留语义;
[0009] 步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩;
[0010] 步骤S105,采用布局算法,展现序列模式内、序列模式间的语义关系;
[0011] 步骤S106,引入交互设计,使用户可关注局部细节。
[0012] 步骤S102中计算单条文本情感极性的具体方法为:首先利用句法分析器进行句法分析,得到词语之间的依赖关系和单个词汇的情感极性,再基于所得依存关系,为句子构建句法二叉树结构,利用词语间的依赖关系和规则的方法,将句子情感判断转化为基于树的符号计算。
[0013] 步骤S102中构建句法二叉树的具体方法为:第一步,创建空栈,读入句首词汇;第二步,若下一个词汇不存在,跳转至第五步,否则,读入下一个词汇;第三步,读取栈顶两个节点的依存关系,若存在依存关系,则生成父节点,并依据情感计算规则计算父节点的词性,进入下一步;若不存在依存关系,则跳转到第二步;第四步,若此时栈内多余两个节点,则跳转至第三步,否则,跳转至第二步;第五步,输出栈内节点的情感极性,即整条文本的情感极性。
[0014] 步骤S103中生成词汇序列模式的具体方法为:初始状态下,序列模式生成树的唯一序列是给定的,每次运行后,最高频的序列模式都会出栈,寻找比它多一个单词的子序列模式,新的序列模式作为原模式树原模式结点的左孩子,原先的模式序列变成自己的右孩子,原先模式序列的频度被分为两部分,即包含新的序列模式的部分,和不包含新的序列模式的部分,如此循环,直到剩余所需可视词汇数变为0。
[0015] 步骤S104中分配可视空间、设计可视界面的具体方法为:正负极性的两类文本中,权重较大的位于上方,权重小的位于下方,并占据与权重比相应的面积比例,正负文本集采用不同色彩的边连接节点,并使用字体大小和透明度来二次编码出现频率。
[0016] 步骤S105中布局算法的具体方法为:采用力导向布局,序列模式的平布局先后与在序列模式中的先后顺序一致,若两个模式序列同属于一个模式序列的子序列,则布局时垂直排列。
[0017] 步骤S106交互设计的具体方法为,模型初始状态下展示所有序列模式的复合图,当用户将鼠标聚焦于某一词语时,与它同属于一个序列模式的词汇会被高亮,其余词汇会被加上阴影,借此来清晰展现某一个序列模式的语义,同时,模型会通过一个浮层来显示包含该序列模式且权重最高的文本,以披露更多细节信息。附图说明
[0018] 后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中以伪代码的形式介绍了本方法的步骤流程及主要算法。本领域技术人员应该理解,这些附图未必是可直接执行的。本发明的目标及特征考虑到如下结合附图的描述将更加明显,附图中:
[0019] 图1为根据本发明实施例的保留非结构化文本语义的文本可视化方法的可视算法流程图
[0020] 图2为根据本发明实施例的句法二叉树构建算法。
[0021] 图3为根据本发明实施例的词汇序列模式生成算法。

具体实施方式

[0022] 为了使得本发明能够针对其发明要点更加明显易懂,下面将结合附图和实例对本发明作进一步的说明。在下面的描述中阐述了很多细节和具体实例,提供这些实例是为了能够更透彻地理解本发明,并且能够将本发明完整形象地传达给本领域的技术人员。虽然本发明能够以很多不同于此的描述的其它方式实施,但是本领域技术人员可以在不违背本发明内涵的情况下做相应的推广,因此本发明不受下面公开的具体实例及具体附图所限制。
[0023] 虽然本发明已经参考特定的说明性实施例进行了描述,但是不会受到这些实施例的限定而仅仅受到附加权利要求的限定。本领域技术人员应当理解可以在不偏离本发明的保护范围和精神的情况下对本发明的实施例能够进行改动和修改
[0024] 图1展示了本发明一个实施例的保留非结构化文本语义的文本可视化方法的可视算法流程图。包括以下步骤:步骤S101,对输入本文进行分词、过滤、词性标注。步骤S102,基于词性标注与词汇间的依赖关系,构建句法树,依据计算规则由底向上计算父节点的情感极性,直至跟节点,即为该条文本的情感极性,将文本集划分为正、负两类。步骤S103,分别对正负两类文本,基于词频和词汇在每条文本中的共现关系,生成词汇序列模式,保留语义。步骤S104,基于正负文本集所占权重,分配可视空间,设计可视字体、色彩。步骤S105,采用布局算法,展现序列模式内、序列模式间的语义关系。步骤S106,引入交互设计,使用户可关注局部细节。
[0025] 本实施中采用了现有的分词工具对文本进行分词、停顿词的过滤、词性标注和词汇间依赖关系的获取,采用力导向方法,基于d3.js和cola.js进行可视图的绘制。
[0026] 图2展示了本发明一个实施例句法二叉树的构建算法。算法的输入为经过分词的单条文本和文本词汇间的依赖关系,输出为该条文本的情感极性。算法分为五步,第一步创建空栈,读入句首词汇。第二步,若下一个词汇不存在,跳转至第五步,否则,读入下一个词汇。第三步,读取栈顶两个节点的依存关系,若存在依存关系,则生成父节点,并依据情感计算规则计算父节点的词性,进入下一步;若不存在依存关系,则跳转到第二步。第四步,若此时栈内多余两个节点,则跳转至第三步,否则,跳转至第二步。第五步,输出栈内节点的情感极性,即整条文本的情感极性。
[0027] 优选实施例中涉及的情感计算规则为:在单句中,为正向情感词汇标记为1,负向情感词汇标记为-1,中性词标记为0,程度词标记为*,否定词标记为!。计算时,0与*不改变极性,!改变极性为反向,正负极性相遇时,取左侧极性。在复句中,转折词标记为R,普通连词标记为L,L不改变极性,R则取右侧极性。
[0028] 图3展示了本发明一个实施例的结高频词汇序列生成算法。算法的输入为初始序列模式s,规则化后的文本集D和可视图需要呈现的词汇数N,输出为高频词汇序列模式L。算法的主要思想是构建一棵序列模式生成树,初始状态下,序列模式生成树的唯一序列是给定的。每次运行后,最高频的序列模式都会出栈,寻找比它多一个单词的序列模式。新的序列模式作为原模式树原模式结点的左孩子。原先的模式序列变成自己的右孩子。原先模式序列的频度被分为两部分,即包含新的序列模式的部分,和不包含新的序列模式的部分。因此,原始的文本集是不断被分割的,它不断地生成叶子模式序列,直到剩余所需可视词汇数变为0。
[0029] 虽然本发明已经参考特定的说明性实施例进行了描述,但是不会受到这些实施例的限定而仅仅受到附加权利要求的限定。本领域技术人员应当理解可以在不偏离本发明的保护范围和精神的情况下对本发明的实施例能够进行改动和修改。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈