首页 / 专利库 / 电脑编程 / 算法 / 一种基于量子理论的多模态情感分析方法

一种基于量子理论的多模态情感分析方法

阅读:754发布:2021-09-19

专利汇可以提供一种基于量子理论的多模态情感分析方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种基于量子理论的多模态 情感分析 方法,包括:构建多模态情感语料集;选取训练集和测试集,并分别对训练集和测试集进行预处理;对预处理之后的文本和图像,提取出各自的特征,分别构建文本 密度 矩阵和图像密度矩阵;将训练集中的文本密度矩阵和图像密度矩阵,输入 随机森林 分类器,训练得到文本情感分类模型和图像情感分类模型;将测试集语料的文本矩阵和图像矩阵输入文本和图像情感分类模型,进行情感类别分类,计算出各自的预测概率;运用多模态决策融合方法将文本预测概率和图像预测概率加权融合,最终计算出每个多模态样本的分类准确率。,下面是一种基于量子理论的多模态情感分析方法专利的具体信息内容。

1.一种基于量子理论的多模态情感分析方法,其特征在于:它包括如下步骤:
(1):利用“爬虫”技术,收集并构建多模态情感语料集,该语料集的总样本数为2*N,包含N个主观性文本和一一对应的N张主观性图片;
(2):从多模态情感语料集中,选取训练集和测试集,并分别对训练集和测试集进行预处理,去除每个文本的停留词、标点符号及统一设置每张图像的尺寸;
(3):对预处理之后的文本和图像,提取出各自的特征,分别构建文本密度矩阵ρtext和图像密度矩阵ρimage,均是n*n的矩阵,其中,n是每个单词向量的维数,方法如下:
第一步:运用glove工具得到每个文本中单词的词向量wi,然后归一化:
第二步:提取训练集中所有图像的尺度不变特征变换特征;运用K-means算法聚集SIFT特征得到K个聚类中心,构建出包含K个单词的词典;运用图像中单词的词向量si,然后归一化
第三步:基于外积操作,分别构建每个文本单词和单词的投影序列;
第四步:得到整个文本和图像的投影序列之后,运用最大似然估计MLE方法训练出密度矩阵;
第五步:运用全局收敛算法,计算出似然函数ζ(ρ)的最优解,即得出最终的文本密度矩阵和图像密度矩阵;
(4):将训练集中的文本密度矩阵和图像密度矩阵,输入随机森林分类器,训练得到文本情感分类模型和图像情感分类模型;
(5):将测试集语料的文本矩阵和图像矩阵输入文本和图像情感分类模型,进行情感类别分类,计算出各自的预测概率;
(6):运用多模态决策融合方法将文本预测概率Ptext和图像预测概率Pimage加权融合,最终计算出每个多模态样本的分类准确率,记为Pfinal,方法如下:
第一步:本发明将多模态情感分析过程类比作量子双缝干涉实验,利用波函数进行多模态分析:
其中,ψfinal(x),ψtext(x),ψimage(x)分别表示最终的情感分类、文本情感、图像情感的波函数;α,β是任意的参数,满足α2+β2=1,Ptext是文本的预测概率,Pimage是图像的预测概率,cosθ表示模态之间的干涉强度,cosθ∈[-1,+1];
第二步:计算每个多模态文档的正、负标签预测概率如下:
其中, 表示该文档正标签(+1)的预测概率, 表示该文档负标签(-1)的预测概
率; 表示文本正标签(+1)的预测概率, 是对应图像正标签(+1)的预测概率, 表示文本负标签(-1)的预测概率, 表示图像负标签(-1)的预测概率;如果 那
么预测标签是+1,否则是-1;最终得到多模态文档每个样本的预测结果。

说明书全文

一种基于量子理论的多模态情感分析方法

技术领域

[0001] 本发明涉及多模态情感分类技术领域,特别是涉及一种多模态情感分析方法。

背景技术

[0002] 随着互联网和社交网络的迅速发展,越来越多的用户喜欢在社交平台上(如微博、Facebook、Flickr等)发表评论和分享自己的观点,成为用户日常生活中获取信息的主要来源之一。不同于以往的只通过文本形式传递信息,用户越来越倾向于使用多种媒体形式(如文本加上图像,文本加上歌曲,文本加上视频等)共同表达他们的情感。相比于单一模态,多模态能够表达更加准确和更直观的情感信息。另一方面,分析多模态主观性文档的重要性已经被社会各行各业认识到,它可以帮助产品商改善产品,帮助政府了解民众的喜好等。因此,多模态情感分析不仅具有重要的理论意义,而且蕴含巨大的社会价值。本发明主要研究社交平台中最普遍的多模态文档情感,即图像-文本情感分析技术。
[0003] 目前,针对文本的情感分析技术发展已经较为成熟,涌现出许多杰出的成果。另外一方面,由于图像处理领域存在着一个著名的难题,“语义鸿沟”,即机器获取的图像的视觉特征与人类对图像的理解的不一致性,导致低层特征与高层语义之间的距离,同时,图像情感相比于文本情感牵涉到更深奥的抽象性和主观性。图像情感分析虽然成果较为丰富,现在仍旧是一个挑战性的任务。因此,反映在多模态情感分析技术上,如何发展优秀的多模态表示模型是一个值得探索的课题。
[0004] 进一步地,理论上,多模态情感分析不仅是一个分类任务,同样是一个复杂而主观的认知过程。不同的模态纠缠在一起共同表达作者的情感,不同模态的信息会同时影响用户最终的决策过程,表现为对不同模态不同的阅读顺序,可能产生不同的情感判断,促使用户的认知状态产生干涉现象。这种认知干涉现象无法用经典概率理论解释,却可以通过量子概率理论建模。已有的多模态情感分析技术主要围绕着提取多模态特征和训练优秀的分类器,没有从认知的层面看待多模态情感分析,更没有考虑和建模这种模态间的干涉效应。
[0005] 现在,量子概率理论已经被研究者们证明可以作为一种数学框架描述信息检索中的查询词和文档,取得了初步性的成果。

发明内容

[0006] 本发明所要解决的技术问题是克服现有技术的不足而提供一种多模态情感分析方法。本发明搭建一个基于社交平台的多模态情感语料集,分别从图像和文本中提取特征信息,构建密度矩阵,运用随机森林分别训练文本和图像情感分类模型,并利用基于量子理论的多模态决策融合方法融合每种模态的预测结果,最终得到更加准确的分类结果。本发明的目的是通过以下技术方案来实现的:
[0007] 一种基于量子理论的多模态情感分析方法,其特征在于:它包括如下步骤:
[0008] (1):利用“爬虫”技术,收集并构建多模态情感语料集,该语料集的总样本数为2*N,包含N个主观性文本和一一对应的N张主观性图片;
[0009] (2):从多模态情感语料集中,选取训练集和测试集,并分别对训练集和测试集进行预处理,去除每个文本的停留词、标点符号及统一设置每张图像的尺寸;
[0010] (3):对预处理之后的文本和图像,提取出各自的特征,分别构建文本密度矩阵ρtext和图像密度矩阵ρimage,均是n*n的矩阵,其中,n是每个单词向量的维数,方法如下:
[0011] 第一步:运用glove工具得到每个文本中单词的词向量wi,然后归一化:
[0012] 第二步:提取训练集中所有图像的尺度不变特征变换特征;运用K-means算法聚集SIFT特征得到K个聚类中心,构建出包含K个单词的词典;运用图像中单词的词向量si,然后归一化
[0013] 第三步:基于外积操作,分别构建每个文本单词和单词的投影序列;
[0014] 第四步:得到整个文本和图像的投影序列之后,运用最大似然估计MLE方法训练出密度矩阵;
[0015] 第五步:运用全局收敛算法,计算出似然函数ζ(ρ)的最优解,即得出最终的文本密度矩阵和图像密度矩阵;
[0016] (4):将训练集中的文本密度矩阵和图像密度矩阵,输入随机森林分类器,训练得到文本情感分类模型和图像情感分类模型;
[0017] (5):将测试集语料的文本矩阵和图像矩阵输入文本和图像情感分类模型,进行情感类别分类,计算出各自的预测概率;
[0018] (6):运用多模态决策融合方法将文本预测概率Ptext和图像预测概率Pimage加权融合,最终计算出每个多模态样本的分类准确率,记为Pfinal。
[0019] 优选地,步骤(6)的方法如下:
[0020] 第一步:本发明将多模态情感分析过程类比作量子双缝干涉实验,利用波函数进行多模态分析:
[0021]
[0022] 其中,ψfinal(x),ψtext(x),ψimage(x)分别表示最终的情感分类、文本情感、图像情感的波函数;α,β是任意的参数,满足α2+β2=1,Ptext是文本的预测概率,Pimage是图像的预测概率,cosθ表示模态之间的干涉强度,cosθ∈[-1,+1];
[0023] 第二步:计算每个多模态文档的正、负标签预测概率如下:
[0024]
[0025]
[0026] 其中, 表示该文档正标签(+1)的预测概率, 表示该文档负标签(-1)的预测概率; 表示文本正标签(+1)的预测概率, 是对应图像正标签(+1)的预测概率,表示文本负标签(-1)的预测概率, 表示图像负标签(-1)的预测概率;如果那么预测标签是+1,否则是-1;最终得到多模态文档每个样本的预测结果。
[0027] 本发明的有益效果是:
[0028] (1)搭建一个有效的多模态数据语料集,克服了当前多模态情感语料集匮乏的困境;
[0029] (2)基于量子概率理论,抽取多模态特征,构建出密度矩阵,蕴含丰富的语义信息。
[0030] (3)基于量子干涉理论提出多模态决策融合方法,能够让机器模拟人类决策分类,建模模态间的干涉现象,提高多模态情感分类的准确率。附图说明
[0031] 图1为本发明的方法流程图
[0032] 图2为多模态量子表示模型的流程图;
[0033] 图3为多模态情感分析与量子干涉的类比图;
[0034] 图4为不同分类算法的ROC曲线实验对比结果。

具体实施方式

[0035] 下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。图1显示了本方法提出的基于量子理论的多模态情感分析方法的流程;图2显示了多模态量子表示模型的流程图;图3显示了多模态情感分析与量子干涉的类比图;图4显示了最终不同算法之间的情感分类的对比结果。具体步骤如下:
[0036] (1):基于著名的情感词典SentiWordNet,选取127个蕴含正情感和负情感的关键词,构成情感词表,其中正情感词数是62,如happy(开心)、smiling(微笑)等,负情感词数65,如sad(悲伤)、murder(谋杀)等。
[0037] (2):基于Flickr平台采集数据,建立多模态数据集,方法如下:
[0038] 第一步:用这些情感词分别查询Flickr,运用beautifulsoup工具,在Flickr社交平台检索出的多模态文档中,用相应情感词的极性标注检索的多模态文档的极性,收集并构建多模态情感语料集,该语料集的总样本数为2*99000,包含99000个主观性文本和一一对应的99000张主观性图片,其中正情感样本总数为99400,负情感样本总数为98600。
[0039] 第二步:从第一步中构建的多模态情感语料集中,随机选取80%*99000个文本和80%*99000张对应的图像作为训练集,剩下20%*99000个文本及对应的图像划分为测试集,并分别对训练集和测试集进行预处理,去除每个文本的停留词、标点符号等无用词汇,将各个图像的尺寸统一缩小为原来的50%。
[0040] (3):对预处理之后的文本和图像,运用多模态量子表示模型提取出各自的特征,构建密度矩阵ρtext和ρimage,均是n*n的矩阵,其中,n是每个(视觉)单词的向量的维数。假设每个文本表示为D={w1,w2,...,wi,…,wm},m是文本中单词的数量,如图2所示。方法如下:
[0041] 第一步:运用glove工具得到每个文本中单词的100维的词向量wi,然后归一化,即[0042] 第二步:提取训练集中所有图像的128维SIFT(尺度不变特征变换)特征L个;运用K-means算法聚集L个SIFT特征得到K(设置K=128)个聚类中心,每个聚类中心就是一个视觉单词,每个单词则是一个128维的SIFT向量;构建一个包含K个视觉单词的词典,每个图像的SIFT特征都可以映射为词典中的视觉单词,假定图像表示为I={s1,s2,…,si,…,st};运用图像中视觉单词的词向量si,然后归一化
[0043] 第三步:采用外积操作,利用下面的公式构建每个文本单词和图像视觉单词的投影Πi:
[0044] Πi=|wi>
[0045] Πi=|si>
[0046] 然后每个文档的投影序列则是:ΠD={Π1,Π2,...,Πm};每个图像的投影序列为:ΠI={Π1,Π2,...,Πt}。
[0047] 第四步:得到整个文本和图像的投影序列之后ΠD和ΠI,运用最大似然估计(MLE)方法训练出密度矩阵,首先表示出似然函数ζ(ρ)(似然函数的意义为得到该文档的概率):
[0048]
[0049] 其中,ρ是密度矩阵,tr是计算矩阵的迹。
[0050] 由于log函数是单调的,因此目标函数F(ρ)可以定义为:
[0051] 其中,tr(ρ)=1,ρ≥0。
[0052] 第五步:运用全局收敛算法,该算法通过迭代更新ρ和目标函数F(ρ)的值,并定义出每次迭代过程中的搜索方向D:
[0053]
[0054] 其中 q(t)和 均被定义为:
[0055]
[0056]
[0057]
[0058]
[0059] 最终,每次迭代的更新规则是:ρk+1=ρk+tkDk。
[0060] 其中,t称作步长,t∈[0,1],q(t)≥1,fi是每个单词的词频。当目标函数的值变化在0.0001之内时,迭代终止,输出最终的密度矩阵。
[0061] (4):将训练集中的文本密度矩阵ρtext和图像密度矩阵ρimage,输入随机森林分类器,设置训练参数,如决策树棵数、最大深度等,训练得到文本情感分类模型Mtext和图像情感分类模型Mimage。
[0062] (5):将测试集语料的文本矩阵和图像矩阵输入文本和图像情感分类模型Mtext,Mimage,进行情感类别分类,计算出各自的正标签(+1)和负标签(-1)的预测概率 和[0063] (6):运用多模态决策融合方法将文本正、负标签预测概率 和图像正、负标签预测概率 加权融合,最终计算该多模态文档的正、负标签分类准确率如果 那么预测标签分为+1,否则是-1,如图3所示,方法如下:
[0064] 第一步:受量子干涉理论启发,本发明将多模态情感分析过程类比作量子双缝干涉实验,利用波函数推导整个多模态分析的过程:
[0065]
[0066] 其中,ψfinal(x),ψtext(x),ψimage(x)分别表示最终的情感分类、文本情感、图像情感的波函数。α,β是任意的参数,满足α2+β2=1,Ptext是文本的预测概率,Pimage是图像的预测概率,Pfinal是多模态文档的预测概率,cosθ表示模态之间的干涉强度,cosθ∈[-1,+1]。
[0067] 第二步:最后计算每个多模态文档的正、负标签预测概率如下:
[0068]
[0069]
[0070] 其中, 表示该文档正标签(+1)的预测概率, 表示该文档负标签(-1)的预测概率。 表示文本正标签(+1)的预测概率, 是对应图像正标签(+1)的预测概率,表示文本负标签(-1)的预测概率, 表示图像负标签(-1)的预测概率。如果那么预测标签是+1,否则是-1。
[0071] 最终得到多模态文档每个样本的预测结果,对比测试标签,计算出分类准确率,对比单模态文本模型、单模态图像模型、特征拼接模型、最大投票决策融合模型,统计出ROC曲线图,可以非常直观的观察到本发明可以明显的提升多模态情感分析模型的效果,如图4所示。
[0072] 本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈