首页 / 专利库 / 人工智能 / 情感计算 / 一种文本情感测量方法和装置

一种文本情感测量方法和装置

阅读:210发布:2020-05-11

专利汇可以提供一种文本情感测量方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种文本情感测量方法和装置,包括:对所测量对象的文本文字数据进行收集;对收集的对象数据进行数据预处理,将对象数据转换为适用于策略模型学习的格式化数据;对格式化数据进行模型训练、验证评估,得到策略模型;根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入文本情感测量模型中,得出预测结果。本发明根据检测对象的在不同情感状态下所表现出的状态(如文本评论的倾向性)不同,设计一个文本情感自动化测量的方法和装置,该方法和装置可为人工测量提供参考,进而提升测量准确率和效率。,下面是一种文本情感测量方法和装置专利的具体信息内容。

1.一种文本情感测量方法,其特征在于,包括:
对所测量对象的文本文字数据进行收集;
对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;
对所述格式化数据进行模型训练、验证评估,得到策略模型;
根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;
对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。
2.如权利要求1所述的文本情感测量方法,其特征在于,所述文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息;
所述对象上下文信息包括:对象位置上下文信息和对象时间上下文信息。
3.如权利要求1所述的文本情感测量方法,其特征在于,所述数据预处理包括:数据清洗、数据集成、数据归约和数据变化。
4.如权利要求1所述的文本情感测量方法,其特征在于,所述对所述格式化数据进行模型训练、验证评估,得到策略模型;包括:
选取多个机器学习模型和/或深度学习模型;
计算各模型在统计数据上的误差,选择误差最小的模型作为策略模型。
5.如权利要求1所述的文本情感测量方法,其特征在于,还包括:
对所述预测结果进行可视化
通过进行预测的文本文字数据,进一步优化所述策略模型。
6.一种文本情感测量装置,其特征在于,包括:
数据收集模,用于对所测量对象的文本文字数据进行收集;
数据预处理模块,用于对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;
模型训练模块,用于对所述格式化数据进行模型训练、验证评估,得到策略模型;
对象文本情况测量模块,用于根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。
7.如权利要求6所述的文本情感测量装置,其特征在于,所述文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息;
所述对象上下文信息包括:对象位置上下文信息和对象时间上下文信息。
8.如权利要求6所述的文本情感测量装置,其特征在于,所述数据预处理包括:数据清洗、数据集成、数据归约和数据变化。
9.如权利要求6所述的文本情感测量装置,其特征在于,所述对所述格式化数据进行模型训练、验证评估,得到策略模型;包括:
选取多个机器学习模型和/或深度学习模型;
计算各模型在统计数据上的误差,选择误差最小的模型作为策略模型。
10.如权利要求6所述的文本情感测量装置,其特征在于,还包括:
数据可视化模块,用于对所述预测结果进行可视化;
模型优化模块,用于通过进行预测的文本文字数据,进一步优化所述策略模型。

说明书全文

一种文本情感测量方法和装置

技术领域

[0001] 本发明涉及人工智能技术领域,具体涉及一种文本情感测量方法和装置。

背景技术

[0002] 随着移动应用的发展,信息数据量的爆炸增长,大数据时代正式到来,对于人类人格/性格/情感的测量方式越来越广泛。如:根据面部表情、肢体动作、语音信号以及文本评论来测量人物情感。
[0003] 目前图像、语音识别测量已趋近成熟,但在文本情感测量方面较为匮乏,无论是在心理学的学术领域,还是在私营部,都对这一领域有着浓厚的兴趣。例如,许多雇主希望更多地了解潜在雇员的个性,以便更好地管理公司文化。另一方面,通过人工智能与大数据的结合得出的结果有可能比目前可用的测量方法更准确,这一点可以从以下事实得到证明:
[0004] 由训练有素的心理学家进行的情感测量的复测错误率目前徘徊在50%左右;即,在两种不同的情况下进行两次测量,得到不同的分类的概率大约是二分之一;其准确率较低、人工测量成本较高。

发明内容

[0005] 针对当前文本情感测量研究较少且人工测量成本较高的问题,本发明提供一种文本情感测量方法和装置,通过该文本情感测量方法和装置可为人工测量提供参考,进而提升测量准确率。
[0006] 本发明公开了一种文本情感测量方法,包括:
[0007] 对所测量对象的文本文字数据进行收集;
[0008] 对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;
[0009] 对所述格式化数据进行模型训练、验证评估,得到策略模型;
[0010] 根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;
[0011] 对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。
[0012] 作为本发明的进一步改进,所述文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息;
[0013] 所述对象上下文信息包括:对象位置上下文信息和对象时间上下文信息。
[0014] 作为本发明的进一步改进,所述数据预处理包括:数据清洗、数据集成、数据归约和数据变化。
[0015] 作为本发明的进一步改进,所述对所述格式化数据进行模型训练、验证评估,得到策略模型;包括:
[0016] 选取多个机器学习模型和/或深度学习模型;
[0017] 计算各模型在统计数据上的误差,选择误差最小的模型作为策略模型。
[0018] 作为本发明的进一步改进,还包括:
[0019] 对所述预测结果进行可视化
[0020] 通过进行预测的文本文字数据,进一步优化所述策略模型。
[0021] 本发明还公开了一种文本情感测量装置,包括:
[0022] 数据收集模,用于对所测量对象的文本文字数据进行收集;
[0023] 数据预处理模块,用于对收集的对象数据进行数据预处理,将所述对象数据转换为适用于策略模型学习的格式化数据;
[0024] 模型训练模块,用于对所述格式化数据进行模型训练、验证评估,得到策略模型;
[0025] 对象文本情况测量模块,用于根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入所述文本情感测量模型中,得出预测结果。
[0026] 作为本发明的进一步改进,所述文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息;
[0027] 所述对象上下文信息包括:对象位置上下文信息和对象时间上下文信息。
[0028] 作为本发明的进一步改进,所述数据预处理包括:数据清洗、数据集成、数据归约和数据变化。
[0029] 作为本发明的进一步改进,所述对所述格式化数据进行模型训练、验证评估,得到策略模型;包括:
[0030] 选取多个机器学习模型和/或深度学习模型;
[0031] 计算各模型在统计数据上的误差,选择误差最小的模型作为策略模型。
[0032] 作为本发明的进一步改进,还包括:
[0033] 数据可视化模块,用于对所述预测结果进行可视化;
[0034] 模型优化模块,用于通过进行预测的文本文字数据,进一步优化所述策略模型。
[0035] 与现有技术相比,本发明的有益效果为:
[0036] 本发明根据检测对象的在不同情感状态下所表现出的状态(如文本评论的倾向性)不同,设计一个文本情感自动化测量的方法和装置,该方法和装置可为人工测量提供参考,进而提升测量准确率和效率。附图说明
[0037] 图1为本发明一种实施例公开的文本情感测量方法和装置的框架流程图
[0038] 图2为本发明实施例1公开的文本情感测量方法的流程图。

具体实施方式

[0039] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040] 下面结合附图对本发明做进一步的详细描述:
[0041] 如图1所示,本发明提供一种文本情感测量方法,包括:
[0042] 步骤1、对所测量对象的文本文字数据进行收集、统计整理;其中,[0043] 文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息,对象上下文信息包括:对象位置上下文信息和对象时间上下文信息;
[0044] 统计整理指对测量出的数据格式化进行储存,储存方式以数据库、表格等形式借助计算机存储机制存储。
[0045] 步骤2、对收集的对象数据进行数据预处理,将对象数据转换为适用于策略模型学习的格式化数据;其中,
[0046] 由于真实世界中,数据通常是不完整、不一致或分布不均的,如缺少某些感兴趣的属性值、包含代码或名称的差异或乐观情感比例大于抑郁情感比例;以上的数据缺点会极大的影响到数据分析的结果,故必须要对数据进行预处理。
[0047] 本发明所采用的数据预处理包括:数据清洗、数据集成、数据归约和数据变化;其中:
[0048] 数据清洗包括缺失值处理、光滑噪声数据、识别或删除离群点;其中,缺失值处理包括删除缺失值、均值填补法、热卡填充法、K-有序最邻近、基于贝叶斯的方法等;
[0049] 数据集成指使用多个数据存储体进行统一存储,对象数据往往分布于不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程;数据集成包含实体识别、冗余属性识别,其中,实体识别用来统一不同源数据的矛盾之处,常见形式包含:同名异义、异名同义、单位统一;冗余属性识别的常见形式包含:同一属性多次出现、同一属性命名不一致导致重复等;
[0050] 数据归约指用指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容),通过数据规约可降低无意义数据对建模的影响,提高建模准确性,节省模型训练时间,降低存储成本;数据归约包括:属性规约和数值规约;
[0051] 数据变化指对数据进行规范化处理,将数据转为适用于策略模型学习的形式。
[0052] 步骤3、对格式化数据进行模型训练、验证评估,得到策略模型;其中,[0053] 上述步骤分为训练、验证两步,根据机器学习模型优缺点,选择适合对象场景的最佳模型;通用方法为选取多个模型,计算各自模型的在统计数据上的误差,选择误差最小的模型;模型训练中通过参数调整使得模型表现最优。其中:
[0054] 本发明推荐常用的模型方法大体分为机器学习、深度学习两大类。
[0055] 常用机器学习模型包括决策树算法(C4.5、ID3、CART算法等)、K-Means算法、支持向量机(SVM)算法、Apriori算法、最大期望算法(EM)、K最邻近算法、朴素贝叶斯(Naive Bayesian Model,NBC)、Adaboost算法。
[0056] 常用深度学习模型包括:CNN、RNN、LSTM、Transormer经典模型,以及基于以上模型的改进模型,如:LSTM、GRU、EMLo、GPT和BERT模型等。
[0057] 参数调优方法包括:手动调优、网格搜索、随机搜索、基于贝叶斯调参等。手动调优指研究人员根据自身专业背景知识与经验相结合对参数进行调整;网格搜索指先固定一个参数,对其他参数依次进行随机搜索;随机搜索指在N维参数空间按分布策略随机取值,该方法的优势在于减少在非核心纬度上的时间与空间消耗;基于贝叶斯调参指通过计算相同对象数据下的后验概率,选取最高模型策略,该方法适用于选择简单模型策略。
[0058] 步骤4、当模型训练完成后,根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入文本情感测量模型中,得出预测结果;其中,
[0059] 在调用模型前,与预处理流程中的步骤相同,对所需识别对象的文本文字数据进行数据预处理,预处理后的数据调用策略模型,得出文本情感测量结果。
[0060] 步骤5、对预测结果进行可视化;其中,
[0061] 可视化包括:调、区域分布图、柱状分布图和饼状分布图。
[0062] 步骤6、通过进行预测的文本文字数据,进一步优化策略模型;其中,[0063] 随着对象数据量的增长,将进行预测的文本文字数据再次应用于模型优化中,提升模型准确度;
[0064] 步骤7、对于有标记的对象文本数据的交叉验证集进行交叉验证误差计算,根据误差大小判断本装置此次测量的准确度,同时进行策略模型学习,进一步优化策略模型。
[0065] 如图1所示,本发明提供一种文本情感测量装置,包括:
[0066] 数据收集模块,用于对所测量对象的文本文字数据进行收集、统计整理;其中,[0067] 文本文字数据包括:对象社交平台文章与评论、对象购物平台数据和对象上下文信息,对象上下文信息包括:对象位置上下文信息和对象时间上下文信息;
[0068] 统计整理指对测量出的数据格式化进行储存,储存方式以数据库、表格等形式借助计算机存储机制存储。
[0069] 数据预处理模块,用于对收集的对象数据进行数据预处理,将对象数据转换为适用于策略模型学习的格式化数据;其中,
[0070] 由于真实世界中,数据通常是不完整、不一致或分布不均的,如缺少某些感兴趣的属性值、包含代码或名称的差异或乐观情感比例大于抑郁情感比例;以上的数据缺点会极大的影响到数据分析的结果,故必须要对数据进行预处理。
[0071] 本发明所采用的数据预处理包括:数据清洗、数据集成、数据归约和数据变化;其中:
[0072] 数据清洗包括缺失值处理、光滑噪声数据、识别或删除离群点;其中,缺失值处理包括删除缺失值、均值填补法、热卡填充法、K-有序最邻近、基于贝叶斯的方法等;
[0073] 数据集成指使用多个数据存储体进行统一存储,对象数据往往分布于不同的数据源中,数据集成就是将多个数据源合并存放在一个一致的数据存储(如数据仓库)中的过程;数据集成包含实体识别、冗余属性识别,其中,实体识别用来统一不同源数据的矛盾之处,常见形式包含:同名异义、异名同义、单位统一;冗余属性识别的常见形式包含:同一属性多次出现、同一属性命名不一致导致重复等;
[0074] 数据归约指用指在尽可能保持数据原貌的前提下,最大限度地精简数据量(完成该任务的必要前提是理解挖掘任务和熟悉数据本身内容),通过数据规约可降低无意义数据对建模的影响,提高建模准确性,节省模型训练时间,降低存储成本;数据归约包括:属性规约和数值规约;
[0075] 数据变化指对数据进行规范化处理,将数据转为适用于策略模型学习的形式。
[0076] 模型训练模块,用于对格式化数据进行模型训练、验证评估,得到策略模型;其中,[0077] 上述步骤分为训练、验证两步,根据机器学习模型优缺点,选择适合对象场景的最佳模型;通用方法为选取多个模型,计算各自模型的在统计数据上的误差,选择误差最小的模型;模型训练中通过参数调整使得模型表现最优。其中:
[0078] 本发明推荐常用的模型方法大体分为机器学习、深度学习两大类。
[0079] 常用机器学习模型包括决策树算法(C4.5、ID3、CART算法等)、K-Means算法、支持向量机(SVM)算法、Apriori算法、最大期望算法(EM)、K最邻近算法、朴素贝叶斯(Naive Bayesian Model,NBC)、Adaboost算法。
[0080] 常用深度学习模型包括:CNN、RNN、LSTM、Transormer经典模型,以及基于以上模型的改进模型,如:LSTM、GRU、EMLo、GPT和BERT模型等。
[0081] 参数调优方法包括:手动调优、网格搜索、随机搜索、基于贝叶斯调参等。手动调优指研究人员根据自身专业背景知识与经验相结合对参数进行调整;网格搜索指先固定一个参数,对其他参数依次进行随机搜索;随机搜索指在N维参数空间按分布策略随机取值,该方法的优势在于减少在非核心纬度上的时间与空间消耗;基于贝叶斯调参指通过计算相同对象数据下的后验概率,选取最高模型策略,该方法适用于选择简单模型策略。
[0082] 对象文本情况测量模块,用于当模型训练完成后,根据所需识别对象的文本文字数据,选择合适的策略模型作为文本情感测量模型;对所需识别对象的文本文字数据进行预处理后,输入文本情感测量模型中,得出预测结果;其中,
[0083] 在调用模型前,与预处理流程中的步骤相同,对所需识别对象的文本文字数据进行数据预处理,预处理后的数据调用策略模型,得出文本情感测量结果。
[0084] 数据可视化模块,用于对预测结果进行可视化;其中,
[0085] 可视化包括:调云、区域分布图、柱状分布图和饼状分布图。
[0086] 模型优化模块,用于通过进行预测的文本文字数据,进一步优化策略模型;其中,[0087] 随着对象数据量的增长,将进行预测的文本文字数据再次应用于模型优化中,提升模型准确度。
[0088] 偏差计算与优化模块,用于对于有标记的对象文本数据的交叉验证集进行交叉验证误差计算,根据误差大小判断本装置此次测量的准确度,同时进行策略模型学习,进一步优化策略模型。
[0089] 实施例1:
[0090] 如图2所示,本发明提供一种文本情感测量方法和装置,包括:
[0091] 步骤1、对文本情感测量装置所需的各类情感状态下的评论数据、位置数据、对象上下文数据等特征数据进行收集。
[0092] 步骤2、对上层统计收集的信息进行预处理,通常情况下原始数据集与一般对象数据集群的大致均匀分布相比严重不成比例,需对每一种情感类型进行部分清理,人为使对象测试集反映了一般人群中每种类型的比例,以防止由于测试对象集中类的倾斜表示而对结果产生任何误解;
[0093] 具体包括:
[0094] 步骤2.1、对比例处理后的对象文本数据选择性去词,由于对象文本数据必定存在部分无用文本,如数据点实例包含指向网站的链接,删除此类所有数据点。该装置期望输入值全部为意义数据,故对对象文本中的“停止单词”进行优化,同时为保证模型学习的公平性,去除包含显著标识对象情感类型的对象文本数据;
[0095] 步骤2.2、对选择性去词后的对象文本数据词元化转换。常用的文本数据存在多个近义词元,故对文本数据进行词元转换;
[0096] 步骤2.3、对词元化转换后的对象文本数据进行标记。标记对象文本中最常见的n个单词。最常见的单词变成了1,第二常见的单词变成了2,直到n,此时文本转换成整数列表的形式;
[0097] 步骤2.4、对以上对象文本处理后的数据进行填充,使其都具备相同的数字标记长度。此时预处理模块完成。
[0098] 步骤3、根据对象数据类型选择合适的策略模型,在对象数据类型较为复杂的情况下,可根据实际情况训练多个弱分类器,如技术方案中的机器学习算法,如决策树算法C4.5,用信息增益率来选择属性,在树构造过程中进行剪枝;由于情感类型数据大多为二分类数据,故SVM(支持向量机)算法较为常用;Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),接着将弱分类器集合起来,构成一个更为强壮的最终分类器(强分类器)。Adaboost算法通过改变数据分布来实现的,根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次得到的分类器最后融合起来,作为最后的决策分类器。
[0099] 本装置推荐采用长短是记忆网络(Long Short Term Memory Network,LSTM)循环神经网络进行训练。由于情感测量通常需要根据文本上下文语义分析,传统神经网络对上次网络的持久性记忆较为匮乏,之后的循环神经网络(RNN)可连接先前的信息到当前的测量任务上,由于语义上下文联系的不确定性,当时间间隔不断增大时,RNN会丧失测量到连接如此远信息的能。LSTM循环神经网络是一种改进的循环神经网络,可解决RNN无法处理上下文长距离依赖的问题。同时参数设置上加强地理位置、天气等对象上下文信息比重。
[0100] 步骤4、根据测量结果生成准确度评分和混淆矩阵;
[0101] 步骤5、数据可视化。本步骤旨在借助于图形化手段,清晰有效地传达与沟通信息。通过对对象文本情感测量结果的可视化分析,能够更加有效进行决策定制;
[0102] 步骤6、策略模型优化,根据对象文本数据积累,进一步优化策略模型,进一步提升模型准确度。
[0103] 本发明的优点为:
[0104] 本发明根据检测对象的在不同情感状态下所表现出的状态(如文本评论的倾向性)不同,设计一个文本情感自动化测量的方法和装置,该方法和装置可为人工测量提供参考,进而提升测量准确率和效率。
[0105] 以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈