首页 / 专利库 / 地基 / 基础 / 短视频数据标签推荐方法、装置、计算机设备和存储介质

短视频数据标签推荐方法、装置、计算机设备和存储介质

阅读:327发布:2021-09-19

专利汇可以提供短视频数据标签推荐方法、装置、计算机设备和存储介质专利检索,专利查询,专利分析的服务。并且本 申请 涉及一种短视频数据标签推荐方法、装置、计算机设备和存储介质,通过获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;分别提取情感特征矩阵以及内容特征矩阵;通过预设情感共同空间获取情感特征矩阵对应的多模态融合情感 特征向量 ,通过预设内容共同空间获取内容特征矩阵对应的多模态融合内容特征向量;获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数;根据匹配分数推荐标签。本申请通过融合多模态短视频数据在不同模态下的情感特征与内容特征,而后获取融合后特征与标签的匹配结果,根据匹配结果为多模态短视频数据推荐标签,可以有效为短视频推荐标签。,下面是短视频数据标签推荐方法、装置、计算机设备和存储介质专利的具体信息内容。

1.一种短视频数据标签推荐方法,包括:
获取多模态短视频数据,提取所述多模态短视频数据中的图像数据、音频数据以及文本数据;
分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵,分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵;
通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量;
获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数;
根据所述匹配分数为所述多模态短视频数据推荐标签。
2.根据权利要求1所述的方法,其特征在于,所述获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数之前,还包括:
获取训练数据集,获取所述训练数据集中多模态短视频数据对应各标签;
对未用空格隔开的短语形式的标签自动分词;
获取通过分词得到的标签中各单词的glove词向量;
获取所述各glove词向量的词向量平均值,将所述词向量平均值作为所述标签对应的预设标签语义。
3.根据权利要求1所述的方法,其特征在于,所述获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据包括:
获取多模态短视频数据;
分离所述多模态短视频数据的图像模态数据以及音频模态数据;
提取所述图像模态数据中的关键数据,将所述关键帧数据作为图像数据;
将所述音频模态数据分割为各音频片段,将所述各音频片段作为音频数据;
将所述多模态短视频数据对应的文本模态数据作为文本数据。
4.根据权利要求3所述的方法,其特征在于,所述分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵,分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵包括:
通过预设ResNet-152特征提取器提取所述图像数据内各关键帧对应的内容特征向量,根据所述各关键帧对应的内容特征向量构建所述图像数据对应的内容特征矩阵;
通过预设CNN特征提取器提取所述图像数据内各关键帧对应的情感特征向量,根据所述各关键帧对应的情感特征向量构建所述图像数据对应的情感特征矩阵;
通过预设SoundNet CNN特征提取器提取所述音频数据内各音频片段对应的内容特征向量,根据各音频片段对应的内容特征向量构建所述音频数据对应的内容特征矩阵;
通过预设Librosa工具库提取所述音频数据内各音频片段对应的各基础声学特征,根据所述基础声学特征获取所述音频数据内各音频片段对应的情感特征向量,根据各音频片段对应的情感特征向量构建所述音频数据对应的情感特征矩阵;
获取所述文本数据内各单词对应的glove词向量,将所述各单词对应的glove词向量作为各单词对应的内容特征向量,根据所述各单词对应的内容特征向量构建所述文本数据对应的内容特征矩阵;
通过预设CoreNLP工具提取所述文本数据对应的情感特征矩阵。
5.根据权利要求4所述的方法,其特征在于,所述通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量包括:
获取各所述情感特征矩阵对应情感特征向量,所述图像数据的情感特征矩阵对应情感特征向量根据所述图像数据内各关键帧对应的情感特征向量的平均值获取,所述音频数据的情感特征矩阵对应情感特征向量根据所述音频数据内各音频片段对应的情感特征向量的平均值获取;
通过多层感知机分别将所述图像数据、所述音频数据以及所述文本数据对应的情感特征向量映射至情感共同空间,通过对齐损失函数对齐调整映射至所述情感共同空间的情感特征向量,获取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵对应的多模态融合情感特征向量;
将所述图像数据、所述音频数据以及所述文本数据对应的内容特征矩阵内的各内容特征向量输入预设双向LSTM神经网络,获取各内容特征向量对应的前向隐状态向量以及后向隐状态向量;
通过自注意机制,根据所述各内容特征向量对应的前向隐状态向量以及后向隐状态向量,获取各内容特征向量对应的内容特征权重;
根据所述图像数据、所述音频数据以及所述文本数据对应的内容特征矩阵,以及所述各内容特征向量对应的内容特征权重,获取所述图像数据、所述音频数据以及所述文本数据对应的内容特征向量,通过对齐损失函数对齐调整所述图像数据、所述音频数据以及所述文本数据对应的内容特征向量,获取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵对应的多模态融合内容特征向量。
6.根据权利要求5所述的方法,其特征在于,所述获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数包括:
拼接预设标签语义对应的标签语义特征向量、所述多模态融合情感特征向量以及所述多模态融合内容特征向量;
通过多层感知机,进行多模态融合情感特征、多模态融合内容特征以及与标签语义特征的交互,获取交互特征向量;
根据所述交互特征向量获取所述多模态短视频数据与所述标签的匹配分数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述匹配分数为所述多模态短视频数据推荐标签包括:
当所述匹配分数大于或等于预设分数阈值时,为所述多模态短视频数据推荐所述标签语义对应的标签。
8.一种短视频数据标签推荐装置,其特征在于,所述装置包括:
模态数据提取模,用于获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;
特征提取模块,用于分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵,分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵;
特征融合模块,用于通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量;
特征匹配模块,用于获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数;
标签推荐模块,用于根据所述匹配分数为所述多模态短视频数据推荐标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

说明书全文

短视频数据标签推荐方法、装置、计算机设备和存储介质

技术领域

[0001] 本申请涉及计算机技术领域,特别是涉及一种短视频数据标签推荐方法、装置、计算机设备和存储介质。

背景技术

[0002] 当今时代是互联网的时代,据报道,现今全球网民数量达到了40亿。同时,由于移动设备的普及和短视频制作槛的降低,短视频作为一种新的生活故事记录和分享方式正日益受到人们的青睐。与此同时,Vine、Snapchat、抖音、快手等短视频平台和应用近年来也获得了前所未有的增长。与文字和图片相比,由于短视频中嵌入的信息更加直观、生动,观看短视频逐渐成为了越来越多人休闲娱乐的首选。
[0003] 然而,面对层出不穷的新发布的短视频,如何快速、准确地找到想要的内容往往是一项非常艰巨的任务。为了解决这个问题,一个可行的策略是给短视频添加hashtag(标签),这样用户就可以通过平台上的关键词快速匹配自己想要的内容。然而,现有的标签自动推荐方法主要集中应用于纯文本以及文本结合图像方向,这些推荐方法并不适用于短视频领域的标签推荐。发明内容
[0004] 基于此,有必要针对现有标签推荐方法并不适用于短视频标签推荐领域的问题,提供一种能应用于短视频领域的短视频数据标签推荐方法、装置、计算机设备和存储介质。
[0005] 一种短视频数据标签推荐方法,所述方法包括:
[0006] 获取多模态短视频数据,提取所述多模态短视频数据中的图像数据、音频数据以及文本数据;
[0007] 分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵,分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵;
[0008] 通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量;
[0009] 获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数;
[0010] 根据所述匹配分数为所述多模态短视频数据推荐标签。
[0011] 一种短视频数据标签推荐装置,所述装置包括:
[0012] 模态数据提取模,用于获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;
[0013] 特征提取模块,用于分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵,分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵;
[0014] 特征融合模块,用于通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量;
[0015] 特征匹配模块,用于获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数;
[0016] 标签推荐模块,用于根据所述匹配分数为所述多模态短视频数据推荐标签。
[0017] 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0018] 获取多模态短视频数据,提取所述多模态短视频数据中的图像数据、音频数据以及文本数据;
[0019] 分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵,分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵;
[0020] 通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量;
[0021] 获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数;
[0022] 根据所述匹配分数为所述多模态短视频数据推荐标签。
[0023] 一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0024] 获取多模态短视频数据,提取所述多模态短视频数据中的图像数据、音频数据以及文本数据;
[0025] 分别提取所述图像数据、所述音频数据以及所述文本数据的情感特征矩阵,分别提取所述图像数据、所述音频数据以及所述文本数据的内容特征矩阵;
[0026] 通过预设情感共同空间获取各所述情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各所述内容特征矩阵对应的多模态融合内容特征向量;
[0027] 获取预设标签语义与所述多模态融合情感特征向量以及所述多模态融合内容特征向量的匹配分数;
[0028] 根据所述匹配分数为所述多模态短视频数据推荐标签。
[0029] 上述短视频数据标签推荐方法、装置、计算机设备和存储介质,通过获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;分别提取图像数据、音频数据以及文本数据的情感特征矩阵,分别提取图像数据、音频数据以及文本数据的内容特征矩阵;通过预设情感共同空间获取各情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各内容特征矩阵对应的多模态融合内容特征向量;获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数;根据匹配分数为多模态短视频数据推荐标签。本申请通过融合多模态短视频数据在不同模态下的情感特征与内容特征,而后获取融合后特征与标签的匹配结果,根据匹配结果为多模态短视频数据推荐相应标签,可以有效为短视频推荐相应标签。附图说明
[0030] 图1为一个实施例中短视频数据标签推荐方法的应用环境图;
[0031] 图2为一个实施例中短视频数据标签推荐方法的功能示意图;
[0032] 图3为一个实施例中短视频数据标签推荐方法的流程示意图;
[0033] 图4为一个实施例中图3中步骤S100的子流程示意图;
[0034] 图5为一个实施例中图3中步骤S500的子流程示意图;
[0035] 图6为一个实施例中图3中步骤S700的子流程示意图;
[0036] 图7为一个实施例中短视频数据标签推荐方法的总体流程结构示意图;
[0037] 图8为一个实施例中短视频数据标签推荐装置的结构框图
[0038] 图9为一个实施例中计算机设备的内部结构图。

具体实施方式

[0039] 为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0040] 本申请提供的标签推荐方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与标签推荐服务器104进行通信。终端102可以提交多模态短视频数据至标签推荐服务器104,标签推荐服务器104可以获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;分别提取图像数据、音频数据以及文本数据的情感特征矩阵以及内容特征矩阵;通过预设情感共同空间获取图像数据、音频数据以及文本数据的情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取图像数据、音频数据以及文本数据的内容特征矩阵对应的多模态融合内容特征向量;获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数;根据匹配分数为多模态短视频数据推荐标签。并将标签反馈给到终端102。本申请的短视频数据标签推荐方法的示意图如图2所示,图2中,对于两个内容几乎相同的短视频,其表达情感的标签却存在部分标签表达的含义相反的情况,本申请的方案通过多模态短视频的各模态数据,不仅可以为其推荐内容标签,还可以同时推荐情感标签,达到更准确的推荐效果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0041] 在一个实施例中,如图3所示,提供了一种短视频数据标签推荐方法,以该方法应用于图1中的标签推荐服务器端为例进行说明,包括以下步骤:
[0042] S100,获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据。
[0043] 其中多模态短视频数据具体是指同时包含有图像、音频以及文本的短视频数据,特别的,标签推荐服务器可以根据多模态短视频数据的属性对其进行清洗。比如,对于不同时包含有图像、音频以及文本三个模态的短视频数据,服务器可以直接反馈一个推荐失败消息至终端,此外,对于视频时长低于预设时长阈值的短视频数据,由于特征较少,进行标签推荐的偏差较大,服务器也可以直接反馈一个推荐失败消息至终端,而不进行标签推荐。服务器可以首先接收终端提交的多模态短视频数据,而后从多模态短视频数据中分离出图像数据、音频数据以及文本数据。
[0044] 如图4所示,在其中一个实施例中,步骤S100包括:
[0045] S110,获取多模态短视频数据。
[0046] S130,分离多模态短视频数据的图像模态数据以及音频模态数据。
[0047] S150,提取图像模态数据中的关键数据,将关键帧数据作为图像数据。
[0048] S170,将音频模态数据分割为各音频片段,将各音频片段作为音频数据。
[0049] S190,将多模态短视频数据对应的文本模态数据作为文本数据。
[0050] 多模态短视频数据对应的文本数据一般为短视频所附的文本数据,并未与图像数据与音频数据融合。提取各模态数据的过程首先可以从融合的短视频数据中分离出图像模态数据与音频模块数据,在其中一个实施例中,服务器可以使用FFmpeg(Fast Forward Moving Picture Experts Group,快进动态图像专家组)工具将短视频的图像模态和音频模态相互分离。并从图像模态数据提取出关键帧数据,将其作为多模态短视频数据对应的图像数据,在其中一个实施例中,服务器可以以预设的时间跨度,从分离后的图像模态流中提取图片作为关键帧数据,如对于一个长度为6s的短视频数据,可以以0.5s的时间跨度,从图像模态流中提取12张图片作为关键帧数据。类似的,服务器可以将音频模态数据分割为各音频片段,并将音频片段作为音频数据。而多模态短视频数据对应的文本模态数据则用户在上传多模态短视频数据中附带的文本数据,即用户发布短视频时主动添加的评论文本数据,可以直接将其作为文本数据。可以通过不同的方法来准确提取多模态数据内各个模态的具体数据。
[0051] S300,分别提取图像数据、音频数据以及文本数据的情感特征矩阵,分别提取图像数据、音频数据以及文本数据的内容特征矩阵。
[0052] 具体的,服务器可以分别使用一个向量来代一个关键帧的情感特征以及内容特征,图像数据中的各个关键帧对应的向量则构成了图像数据对应的情感特征矩阵以及内容特征矩阵。同理可以获取音频数据中每一段音频对应的情感特征向量以及内容特征向量,构成音频数据对应的情感特征矩阵以及内容特征矩阵。以及获取文本数据中每一个单词对应的内容特征向量,构成文本数据对应的内容特征矩阵,同时获取文本数据对应的情感特征矩阵。
[0053] 在其中一个实施例中,步骤S300具体包括:
[0054] 通过预设ResNet-152特征提取器提取图像数据内各关键帧对应的内容特征向量,根据各关键帧对应的内容特征向量构建图像数据对应的内容特征矩阵。
[0055] 对于提取图像数据的内容特征,可以使用在ImageNet数据集上预训练好的ResNet-152作为特征提取器,对于每个关键帧可以得到一个2048维的内容特征向量,而后可以根据各关键帧对应的内容特征向量构建图像数据对应的内容特征矩阵。如对于一个包含12个关键帧的短视频数据,其图像数据对应的内容特征矩阵为:2048*12的矩阵。
[0056] 通过预设CNN特征提取器提取图像数据内各关键帧对应的情感特征向量,根据各关键帧对应的情感特征向量构建图像数据对应的情感特征矩阵。
[0057] 对于提取图像数据的情感特征,使用的是在SentiBank这个数据集上预训练好的CNN网络作为特征提取器,对于每一个关键帧数据,得到的原始输出对应的是2089个形容词-名词对的概率(例如:“cute girls”、“funny animals”),考虑到同一形容词对应的形容词-名词对所表达的情感几乎相同,我们将形容词相同的形容词-名词对的概率进行了合并,以降低得到的特征的维数。最后,对于每一个关键帧,得到一个231维的情感特征向量。(注:对于每一个关键帧,,原始得到的是每个形容词-名词对对应一个概率,所以特征的初始维数是2089,通过合并相同形容词对应的形容词-名词对的概率之后,降维后得到一个
231维的特征向量),而后根据各个关键帧对应的情感特征向量构建图像数据对应的情感特征矩阵。如对于一个包含12个关键帧的短视频,得到的图像数据对应的情感特征矩阵为:
231*12的矩阵
[0058] 通过预设SoundNet CNN特征提取器提取音频数据内各音频片段对应的内容特征向量,根据各音频片段对应的内容特征向量构建音频数据对应的内容特征矩阵。
[0059] 对于提取音频数据的内容特征,可以使用SoundNet CNN进行特征提取,得到一个1024维的特征向量,而后根据各音频片段对应的内容特征向量构建音频数据对应的内容特征矩阵。如对于一个包含6个音频片段的短视频,得到的音频数据对应的内容特征矩阵为:
1024*6的矩阵
[0060] 通过预设Librosa工具库提取音频数据内各音频片段对应的各基础声学特征,根据基础声学特征获取音频数据内各音频片段对应的情感特征向量,根据各音频片段对应的情感特征向量构建音频数据对应的情感特征矩阵。
[0061] 对于提取音频数据的情感特征,可以使用Librosa这个python工具库,提取每个音频片段的过零率、梅尔频谱系数、振幅等基础声学特征,得到一个512的特征向量,作为音频片段的情感特征。而后根据各音频片段对应的情感特征向量构建音频数据对应的情感特征矩阵。即可以将音频片段的基础声学特征构建的向量作为音频数据内各音频片段对应的情感特征向量。如对于一个包含6个音频片段的短视频,得到的音频数据对应的情感特征矩阵为:512*6的矩阵
[0062] 获取文本数据内各单词对应的glove词向量,将各单词对应的glove词向量作为各单词对应的内容特征向量,根据各单词对应的内容特征向量构建文本数据对应的内容特征矩阵。
[0063] 对于提取文本数据的内容特征,可以获得文本数据中每个单词对应的glove词向量,对于文本数据中的每个单词,得到的是一个300维的特征向量。而对于每个短视频,还需要进行文本对齐,通过统计,发现大多数短视频对应的文本的单词数一般在10个左右,因此,将多于10个单词的文本进行截断,不足10个单词的文本,特征向量中进行补0,可以单词对应的glove词向量作为各单词对应的内容特征向量,根据各单词对应的内容特征向量构建文本数据对应的内容特征矩阵。对于一个短视频,得到的文本数据对应的内容特征矩阵为:300*10的矩阵。
[0064] 通过预设CoreNLP工具提取文本数据对应的情感特征矩阵。
[0065] 对于提取文本数据的情感特征,可以借助CoreNLP工具提取文本对应的情感特征,对于每个短视频对应的文本,得到一个5维向量,它分别对应于非常消极、消极、中性、积极和非常积极的概率。可以将该5维向量作为文本数据对应的情感特征矩阵。对于一个短视频,得到的文本数据对应的情感特征矩阵为:5*1的矩阵。服务器可以通过各种工具有效地提取分离后的多模态数据对应的情感特征以及内容特征。
[0066] S500,通过预设情感共同空间获取各情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各内容特征矩阵对应的多模态融合内容特征向量。
[0067] 其中,多模态融合情感特征向量是指将各个模态的情感特征向量进行融合后获取的特征向量,而多模态融合内容特征向量是指将各个模态的内容特征向量进行融合后获取的特征向量。在分别提取出短视频三个模态对应的情感特征数据以及内容特征数据后,可以通过共同空间,实现短视频三个模态的表征之间的差异最小化,进行不同模态特征间的信息融合和信息补充,而后进行标签推荐。
[0068] 如图5所示,在其中一个实施例中,步骤S500包括:
[0069] S510,获取图像数据、音频数据以及文本数据的情感特征矩阵对应情感特征向量,图像数据的情感特征矩阵对应情感特征向量根据图像数据内各关键帧对应的情感特征向量的平均值获取,音频数据的情感特征矩阵对应情感特征向量根据音频数据内各音频片段对应的情感特征向量的平均值获取。
[0070] 对于每个多模态短视频数据,其图像数据和音频数据的情感是在其每个关键帧或者音频片段上提取的,因此其情感特征是由每个关键帧、音频片段上提取情感特征组成的的一个时间序列。首先将图像数据和音频数据的情感特征时间序列取平均,得到情感特征矩阵对应情感特征向量,以适应之后多层感知机的学习。而图像数据的情感特征矩阵对应情感特征向量根据图像数据内各关键帧对应的情感特征向量的平均值获取,音频数据的情感特征矩阵对应情感特征向量根据音频数据内各音频片段对应的情感特征向量的平均值获取。如对于一个情感特征矩阵
[0071] 其对应的情感特征向量为 将这一步得到的情感特征向量分别表示为: 其中 表示图像数据对应的情感特征向量, 表示音频
数据对应的情感特征向量, 表示文本数据对应的情感特征向量。
[0072] S530,通过多层感知机分别将图像数据、音频数据以及文本数据对应的情感特征向量映射至情感共同空间,通过对齐损失函数对齐调整映射至情感共同空间的情感特征向量,获取图像数据、音频数据以及文本数据的情感特征矩阵对应的多模态融合情感特征向量。
[0073] 在获取各模态数据对应的情感特征向量后,可以将情感特征向量分别经过各自的多层感知机(三个多层感知机为并行关系),分别将其情感特征映射到一个预设情感共同空间中。通过多层感知机后的图片、音频、文本模态数据对应的的情感特征向量表示为:且
[0074]
[0075]
[0076]
[0077] 其中,fv()、fa()、ft()分别表示每个模态数据的情感特征向量经过多层感知机学到的由原始特征空间映射到情感共同空间的映射函数。而后通过对齐损失函数使得短视频在情感共同空间中,三个模态的特征差异尽量小,由此使得不同模态上的信息得以相互传递,共同调整。下述的内容共同空间对应的模态数据互补学习过程中所使用的对齐损失函数也与情感共同空间所使用的对齐损失函数相同。其中对齐损失函数如下所示:
[0078]
[0079] 其中, 表示第i个短视频的m模态在k(k∈(s,c))共同空间中的特征,s即sentiment,s共同空间表示情感共同空间,c即content,c共同空间表示内容共同空间。在通过对齐函数调整之后,可以将图像数据、音频数据、文本数据三个模态的情感特征向量拼接得到多模态融合情感特征向量。多模态融合情感特征向量可以用公式表示, 表示向量连接操作。
[0080] S550,将图像数据、音频数据以及文本数据对应的内容特征矩阵内的各内容特征向量输入预设双向LSTM神经网络,获取各内容特征向量对应的前向隐状态向量以及后向隐状态向量。
[0081] 对于每个短视频的每个模态的内容特征,都可以理解为是一组时间序列。可以使用 表示第i个短视频的第m个模态时刻t上的内容特征向量。将每个模态的时序内容特征输入到并行的预设双向LSTM神经网络中,以捕获每个模态的时序信息。每个双向LSTM神经网络接受的输入为: 得到的输出为一个前向隐状态向量 )和一个后向隐状态向量 ),每个模态经过各自的双向LSTM之后的隐层特征向量表示为前向隐状态向量和后向隐状态向量的拼接,表示为:
整个双向LSTM神经网络的学习过程可以表示为:
[0082]
[0083]
[0084]
[0085] m∈{v,a,t}
[0086] 其中LSTMf表示双向LSTM的前向学习过程,LSTMb表示表示双向LSTM的后向学习过程,两个过程是在双向LSTM神经网络中同时完成的。
[0087] S570,通过自注意机制,根据各内容特征向量对应的前向隐状态向量以及后向隐状态向量,获取各内容特征向量对应的内容特征权重。
[0088] 而后将得到的每个模态的时序隐藏层特征经过两次次线性变换求得每个时刻上特征的权重
分布。这一步目的是通过自注意力机制给不同时刻上的隐藏层得到的特征分配不同的权重,特征越重要,分配的权重也会更大,由此捕获各个模态中的更重要的信息,以及过滤干扰和冗余信息。具体的,对于第i个视频的m模态,其t时刻的内容特征向量对应的权重计算过程如下:
[0089]
[0090]
[0091]
[0092] 其中ReLU和Softmax为激活函数。
[0093] S590,根据图像数据、音频数据以及文本数据对应的内容特征矩阵,以及各内容特征向量对应的内容特征权重,获取图像数据、音频数据以及文本数据对应的内容特征向量,通过对齐损失函数对齐调整图像数据、音频数据以及文本数据对应的内容特征向量,获取图像数据、音频数据以及文本数据的内容特征矩阵对应的多模态融合内容特征向量。
[0094] 在得到权重之后,可以根据权重来获取内容特征矩阵对应内容特征向量,具体可以通过公式:
[0095]
[0096] 其中 表示映射共同空间后的内容特征矩阵对应的内容特征向量, 表示t时刻的内容特征向量对应的权重, 表示t时刻的内容特征向量。
[0097] 比如一个内容特征矩阵为 即其中个时刻的内容特征向量为 以及而各时刻内容特征向量的权重为1/2,1/3,1/6,则该内容特征矩阵对应的内容特征向量为 而后可以通过上述的对齐损失函数对得到的映射共同空间后的内容特征向量进行调整,使得短视频在内容共同空间中,三个模态的特征差异尽量小,由此使得不同模态上的信息得以相互传递,共同调整。在通过对齐函数调整之后,可以将图像、音频以及文本三个模态的内容特征向量直接拼接得到多模态融合内容特征向量。多模态融合内容特征向量可以用公式 表示。通过多模态特征向量的融合可以有效提高标签推
荐的准确率。
[0098] S700,获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数。
[0099] 匹配分数用于体现标签语义与多模态短视频数据的匹配度,在得到三个模态对应的多模态融合情感特征向量以及多模态融合内容特征向量,可以将其与预设的各个标签语义进行匹配,获得各个标签语义与多模态短视频数据的匹配分数。
[0100] 如图6所示,在其中一个实施例中,步骤S700包括:
[0101] S720,拼接预设标签语义对应的标签语义特征向量、多模态融合情感特征向量以及多模态融合内容特征向量。
[0102] 在获取匹配分数时,首先需要拼接标签语义对应的标签语义特征向量与得到的多模态融合情感特征向量以及多模态融合内容特征向量。具体的,得到第i个短视频和第j个标签融合后的特征表示为xi,t:
[0103]
[0104] 其中 表示多模态融合情感特征向量,表示多模态融合内容特征向量,h表示标签语义特征向量。
[0105] S740,通过多层感知机,进行多模态融合情感特征、多模态融合内容特征以及与标签语义特征的交互,获取交互特征向量。
[0106] 而后可以通过多层感知机,进行短视频中的各个特征与标签语义特征的交互。得到经过多重非线性变换之后的短视频和标签语义特征交互之后的特征向量ol。多重非线性变换的过程具体表示如下:
[0107] o1=ReLU(W1xi,j+b1)
[0108] o2=ReLU(W2o1+b2)
[0109] …
[0110] ol=ReLU(Wlol-1+bl)
[0111] 其中ReLU为激活函数
[0112] S760,根据交互特征向量获取多模态短视频数据与标签的匹配分数。
[0113] 而后可以基于交互特征向量来直接获取多模态短视频数据与标签的匹配分数,匹配过程可以用如下公式表示:
[0114]
[0115] 其中sigmoid为激活函数,输出的匹配分数具体可以为[0,1]之间的匹配概率。通过匹配分数,可以更加直观地表示标签推荐的结果。
[0116] 在其中一个实施例中,步骤S700之前还包括:获取训练数据集,获取训练数据集中多模态短视频数据对应各标签;对未用空格隔开的短语形式的标签自动分词;获取通过分词得到的标签中各单词的glove词向量;获取各glove词向量的词向量平均值,将词向量平均值作为标签对应的预设标签语义。
[0117] 训练数据集具体是指用于对标签推荐方法涉及的相应模型进行训练所使用到的一些多模态短视频数据,这些短视频数据已被预先分配了对应的标签,在提取标签语义时,可以对未用空格隔开的短语形式的标签自动分词。而后获得通过分词得到的标签中每个单词的glove词向量,并将各个单词的词向量取平均,得到一个300维的向量,作为整个标签的词向量,即申请中的预设标签语义。具体的,可以先使用进行分词处理,本申请中对英文形式表示的相应标签进行自动分词时,可以从前往后进行单词匹配,最常用的单词进行优先匹配,匹配成功就截取出来,再进行后续继续匹配。此外,本申请在应用于对其他语言形式的标签进行处理推荐时,可以直接通过对应自然语言处理的方式,得到标签的语义信息,再通过最后的拼接,进行对应形式语言标签的推荐。
[0118] S900,根据匹配分数为多模态短视频数据推荐标签。具体的,S900包括当匹配分数大于或等于预设分数阈值时,为多模态短视频数据推荐标签语义对应的标签。
[0119] 在得到匹配分数之后,可以将匹配分数与预设的分数阈值进行比较,匹配分数越大,表明匹配的概率越高,可以基于比较结果判断当前的标签与当前的多模态短视频是否匹配,而后可以为多模态短视频数据推荐标签语义对应的标签。推荐的标签内容一般包含有内容类的标签和情感类的标签。其中预设的分数阈值一般为0.5。本申请的短视频数据标签推荐方法的整体流程可以参照图7所示。
[0120] 特别的,本申请的多模态短视频数据推荐的过程可以通过一个神经网络模型来实现,该神经网络模型包含上述过程中所用到的各个模型,训练过程涉及的模型主要为情感共同空间学习过程以及内容共同空间学习过程中涉及到的神经网络模型,即本申请的步骤S500至步骤S900的过程中使用到的模型。可以先获取用于训练模型的数据集,而后把整个数据集按比例80%、10%、10%的比例分割成训练集、验证集和测试集三部分。训练集用于整个神经网络模型的训练,用来调整超参数,然后利用验证集验证当前训练集下训练好的神经网络模型和其对应的超参数的性能。测试集仅用于测试最终模型的效果,以确定模型的实际预测能力和最优参数。神经网络模型训练过程中所使用到的交叉熵损失函数具体为:
[0121]
[0122] 其中, 为第i个短视频数据和第j个标签组成的短视频-标签对(xi,yj)的预测匹配分数。si,j为(xi,yj)的目标分数。S表示所有用来训练的正短视频-标签对以及负短视频-标签对的集合。对于正确配对的短视频-标签对,其目标分数si,j取值为1,否则取值为0。
[0123] 而后用可以通过Adam优化算法迭代训练,在模型训练过程中重复进行多模态特征向量的融合步骤以及匹配分数据获取的步骤,即本申请的步骤S500-步骤S900中的步骤,以反向更新网络参数,直到网络整体损失函数L收敛。
[0124] L=Lalignment+Lprediction
[0125] 使用验证集验证当前设置的超参数下,使用训练集训练好的网络模型在验证集上的效果,并进行超参数的调整。重复上述过程,直到模型在验证集上误差最小。此时的超参数可以认为是最优超参数。最后使用测试集测试最终模型的泛化能力。确定模型在未知数据集上的推荐效果。
[0126] 上述短视频数据标签推荐方法,通过获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;分别提取图像数据、音频数据以及文本数据的情感特征矩阵,分别提取图像数据、音频数据以及文本数据的内容特征矩阵;通过预设情感共同空间获取各情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各内容特征矩阵对应的多模态融合内容特征向量;获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数;根据匹配分数为多模态短视频数据推荐标签。本申请通过融合多模态短视频数据在不同模态下的情感特征与内容特征,而后获取融合后特征与标签的匹配结果,根据匹配结果为多模态短视频数据推荐相应标签,可以有效为短视频推荐相应标签。
[0127] 应该理解的是,虽然图3-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0128] 在一个实施例中,如图8所示,提供了一种短视频数据标签推荐装置,包括:
[0129] 模态数据提取模块100,用于获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据。
[0130] 特征提取模块300,用于分别提取图像数据、音频数据以及文本数据的情感特征矩阵,分别提取图像数据、音频数据以及文本数据的内容特征矩阵。
[0131] 特征融合模块500,用于通过预设情感共同空间获取各情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各内容特征矩阵对应的多模态融合内容特征向量。
[0132] 特征匹配模块700,用于获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数。
[0133] 标签推荐模块900,用于根据匹配分数为多模态短视频数据推荐标签。
[0134] 在其中一个实施例中,还包括标签语义获取模块,用于:获取训练数据集,获取训练数据集中多模态短视频数据对应各标签;对未用空格隔开的短语形式的标签自动分词;获取通过分词得到的标签中各单词的glove词向量;获取各glove词向量的词向量平均值,将词向量平均值作为标签对应的预设标签语义。
[0135] 在其中一个实施例中,模态数据提取模块100具体用于:获取多模态短视频数据;分离多模态短视频数据的图像模态数据以及音频模态数据;提取图像模态数据中的关键帧数据,将关键帧数据作为图像数据;将音频模态数据分割为各音频片段,将各音频片段作为音频数据;将多模态短视频数据对应的文本模态数据作为文本数据。
[0136] 在其中一个实施例中,特征提取模块300具体用于:通过预设ResNet-152特征提取器提取图像数据内各关键帧对应的内容特征向量,根据各关键帧对应的内容特征向量构建图像数据对应的内容特征矩阵;通过预设CNN特征提取器提取图像数据内各关键帧对应的情感特征向量,根据各关键帧对应的情感特征向量构建图像数据对应的情感特征矩阵;通过预设SoundNet CNN特征提取器提取音频数据内各音频片段对应的内容特征向量,根据各音频片段对应的内容特征向量构建音频数据对应的内容特征矩阵;通过预设Librosa工具库提取音频数据内各音频片段对应的各基础声学特征,根据基础声学特征获取音频数据内各音频片段对应的情感特征向量,根据各音频片段对应的情感特征向量构建音频数据对应的情感特征矩阵;获取文本数据内各单词对应的glove词向量,将各单词对应的glove词向量作为各单词对应的内容特征向量,根据各单词对应的内容特征向量构建文本数据对应的内容特征矩阵;通过预设CoreNLP工具提取文本数据对应的情感特征矩阵。
[0137] 在其中一个实施例中,特征融合模块500具体用于:获取图像数据、音频数据以及文本数据的情感特征矩阵对应情感特征向量,图像数据的情感特征矩阵对应情感特征向量根据图像数据内各关键帧对应的情感特征向量的平均值获取,音频数据的情感特征矩阵对应情感特征向量根据音频数据内各音频片段对应的情感特征向量的平均值获取;通过多层感知机分别将图像数据、音频数据以及文本数据对应的情感特征向量映射至情感共同空间,通过对齐损失函数对齐调整映射至情感共同空间的情感特征向量,获取图像数据、音频数据以及文本数据的情感特征矩阵对应的多模态融合情感特征向量;将图像数据、音频数据以及文本数据对应的内容特征矩阵内的各内容特征向量输入预设双向LSTM神经网络,获取各内容特征向量对应的前向隐状态向量以及后向隐状态向量;通过自注意力机制,根据各内容特征向量对应的前向隐状态向量以及后向隐状态向量,获取各内容特征向量对应的内容特征权重;根据图像数据、音频数据以及文本数据对应的内容特征矩阵,以及各内容特征向量对应的内容特征权重,获取图像数据、音频数据以及文本数据对应的内容特征向量,通过对齐损失函数对齐调整图像数据、音频数据以及文本数据对应的内容特征向量,获取图像数据、音频数据以及文本数据的内容特征矩阵对应的多模态融合内容特征向量。
[0138] 在其中一个实施例中,特征匹配模块900具体用于:拼接预设标签语义对应的标签语义特征向量、多模态融合情感特征向量以及多模态融合内容特征向量;通过多层感知机,进行多模态融合情感特征、多模态融合内容特征以及与标签语义特征的交互,获取交互特征向量;根据交互特征向量获取多模态短视频数据与标签的匹配分数。
[0139] 在其中一个实施例中,标签推荐模块900具体用于:当匹配分数大于或等于预设分数阈值时,为多模态短视频数据推荐标签语义对应的标签。
[0140] 关于短视频数据标签推荐装置的具体限定可以参见上文中对于短视频数据标签推荐方法的限定,在此不再赘述。上述短视频数据标签推荐装置中的各个模块可全部或部分通过软件硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0141] 在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种短视频数据标签推荐方法。
[0142] 本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0143] 在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
[0144] 获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;
[0145] 分别提取图像数据、音频数据以及文本数据的情感特征矩阵,分别提取图像数据、音频数据以及文本数据的内容特征矩阵;
[0146] 通过预设情感共同空间获取各情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取各内容特征矩阵对应的多模态融合内容特征向量;
[0147] 获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数;
[0148] 根据匹配分数为多模态短视频数据推荐标签。
[0149] 在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
[0150] 获取多模态短视频数据,提取多模态短视频数据中的图像数据、音频数据以及文本数据;
[0151] 分别提取图像数据、音频数据以及文本数据的情感特征矩阵以及内容特征矩阵;
[0152] 通过预设情感共同空间获取图像数据、音频数据以及文本数据的情感特征矩阵对应的多模态融合情感特征向量,通过预设内容共同空间获取图像数据、音频数据以及文本数据的内容特征矩阵对应的多模态融合内容特征向量;
[0153] 获取预设标签语义与多模态融合情感特征向量以及多模态融合内容特征向量的匹配分数;
[0154] 根据匹配分数为多模态短视频数据推荐标签。
[0155] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
[0156] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0157] 以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈