专利汇可以提供基于多模态字典学习的短视频分类方法、系统及介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了基于多模态字典学习的短视频分类方法、系统及介质,并将其应用到短视频场景预测问题中,包括以下步骤:离线部分:依据少量标记样本,构建树形引导多模态字典学习,得到初始化的多模态字典给以及相应的稀疏表示;基于学习到的多模态稀疏表示,为每一个模态训练一个短视频场景分类器;在线部分:实时的对新来的短视频样本进行场景预测或者强化字典学习模型。对于新来的短视频,如果有场景标记,就用来强化字典学习模型;如果场景没有被标记,就用离线部分训练学习的分类器对场景类别预测。,下面是基于多模态字典学习的短视频分类方法、系统及介质专利的具体信息内容。
1.基于多模态字典学习的短视频分类方法,其特征是,包括:
离线部分:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的多模态特征;对每一模态特征均构建基于场景类别树的当前模态字典;将当前模态特征映射到基于场景类别树的当前模态字典上,得到当前模态特征的稀疏表示;构建当前模态分类器,利用基于当前模态特征的稀疏表示对当前模态分类器进行训练,得到训练好的当前模态分类器;
在线部分:对于无场景标记的短视频测试样本,提取某模态测试特征;
将所述某模态测试特征映射到基于场景类别树的对应模态字典上,得到对应模态测试特征的稀疏表示;将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中,输出分类结果;将所有模态的分类结果进行融合,得到短视频测试样本的场景。
2.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述离线部分的具体步骤为:
对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的视觉训练特征、声音训练特征和文本训练特征;
基于所有的视觉训练特征构建基于场景类别树的视觉模态字典;将每一个视觉训练特征映射到基于场景类别树的视觉模态字典上,得到视觉训练特征的稀疏表示;构建视觉模态分类器,利用基于视觉训练特征的稀疏表示对视觉模态分类器进行训练,得到训练好的视觉模态分类器;
基于所有的声音训练特征构建基于场景类别树的声音模态字典;将每一个声音训练特征映射到基于场景类别树的声音模态字典上,得到声音训练特征的稀疏表示;构建声音模态分类器,利用基于声音训练特征的稀疏表示对声音模态分类器进行训练,得到训练好的声音模态分类器;
基于所有的文本训练特征构建基于场景类别树的文本模态字典;将每一个文本训练特征映射到基于场景类别树的文本模态字典上,得到文本训练特征的稀疏表示;构建文本模态分类器,利用基于文本训练特征的稀疏表示对文本模态分类器进行训练,得到训练好的文本模态分类器。
3.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述在线部分的具体步骤为:
对于无场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,
将视觉测试特征映射到基于场景类别树的视觉模态字典上,得到视觉测试特征的稀疏表示;将视觉测试特征的稀疏表示输入到训练好的视觉模态分类器中,输出第一分类结果;
将声音测试特征映射到基于场景类别树的声音模态字典上,得到声音测试特征的稀疏表示;将声音测试特征的稀疏表示输入到训练好的声音模态分类器中,输出第二分类结果;
将文本测试特征映射到基于场景类别树的文本模态字典上,得到文本测试特征的稀疏表示;将文本测试特征的稀疏表示输入到训练好的文本模态分类器中,输出第三分类结果;
将第一分类结果、第二分类结果和第三分类结果进行融合,得到最终的分类结果,即短视频测试样本的场景类别。
4.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述场景类别树是Foursquare网站生成的,Foursquare API可以将短视频的拍摄场地信息映射到一个场景类别,并且将所有的场景类别组织为树状结构的分类体系。
5.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述场景类别树,是将短视频的场景类别划分为树形结构 假设该树形结构 包括T个叶子节点,每个叶子节点表示一种短视频场景类别,树中的节点集合为 对每一个中间节点 都存在一个场景类别集合 该集合包含所有属于中间节点v的叶子结点ti;给定N个短视频,每一个短视频均有M种模态,并且N个短视频均具有场景标签,每个场景标签属于短视频场景类别树的T个叶子结点中的一个;根据短视频的场景标签,即可得知该短视频所归属的叶子节点。
6.如权利要求2所述的基于多模态字典学习的短视频分类方法,其特征是,构建基于场景类别树的视觉模态字典、构建基于场景类别树的声音模态字典或构建基于场景类别树的文本模态字典采用的方式为:
步骤(11):构建模型:
其中, 为节点v上的短视频的第m个模态的稀疏表示;
K表示稀疏特征表示的维度; 表示属于中间节点v的叶子节点数目; 为字典第m个模态的字典Dm的第k列,即第k个字典元素;ev是预先定义的常数值,设置为节点v的子节点的个数;
步骤(12):采用交替方向迭代法对步骤(11)的模型进行求解得到相应模态的字典Dm以及相应模态的稀疏表示Am。
7.如权利要求3所述的基于多模态字典学习的短视频分类方法,其特征是,所述在线部分的具体步骤还包括:
对于有场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,基于视觉测试特征、声音测试特征和文本测试特征对视觉模态字典、声音模态字典和文本模态字典进行补充更新。
8.基于多模态字典学习的短视频分类系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一项方法所述的步骤。
9.一种计算机可读存储介质,其特征是,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一项方法所述的步骤。
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
一种基于深度强化学习的机动通信网智能规划方法 | 2020-05-08 | 882 |
基于改进直流潮流算法的电网无功潮流调整方法及装置 | 2020-05-12 | 141 |
基于强化学习的机器学习模型预测时机估计模型 | 2020-05-11 | 139 |
一种基于λ-回报的异策略多智能体强化学习协作方法 | 2020-05-11 | 89 |
用于控制或调节技术系统的方法 | 2020-05-12 | 965 |
一种城市快速路智慧交通管控方法和系统 | 2020-05-13 | 694 |
神经网络的生成方法、生成装置和电子设备 | 2020-05-08 | 665 |
一种基于LeNet和SSD的点触式验证码自动识别方法 | 2020-05-11 | 42 |
一种多层级发电厂实时对标优化方法 | 2020-05-13 | 206 |
电子系统、非暂时性计算机可读记录媒体及计算装置 | 2020-05-13 | 732 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。