专利汇可以提供一种多模态信息融合的足球视频事件检测与语义标注方法专利检索,专利查询,专利分析的服务。并且本 发明 公开一种多模态信息融合的 足球 视频事件检测与语义标注方法,包括:利用 潜在语义分析 方法检测互联网赛况报道文本描述语句的事件类型;检测足球视频中级语义对象,划分场地区域并进行攻防转换分析,确定视频事件 片段 的边界;根据中圈和哨声检测结果确定比赛开始时间,利用 贝叶斯网络 实现攻防片段的初始语义分类;在文本描述中的粗粒度时间信息的约束下,根据文本和视频片段的语义同步文本描述和视频事件,实现足球视频事件的语义标注。本发明方法融合互联网文本信息和视频内在视听特征分析足球视频,提高了视频事件及其边界检测的准确率,实现了足球视频内容的富语义标注,为建立基于语义的视频索引机制打下坚实的 基础 。,下面是一种多模态信息融合的足球视频事件检测与语义标注方法专利的具体信息内容。
1.一种多模态信息融合的足球视频事件检测与语义标注方法,其特征在于,包括以下
步骤:
(1)从互联网上爬取足球比赛对应的赛况报道文本,利用预先建立的LSA模型计算赛
况报道文本中各语句的潜在语义空间查询向量;并计算该查询向量与各种文本事件类型的
潜在语义空间向量的余弦相似度,将其归类为具有最大相似度的事件类别;
(2)检测足球比赛对应视频中的多种中级语义对象,所述中级语义对象包括球门、球场
标志线、中圈以及哨声;并划分场地区域;
(3)根据场地区域划分结果进行攻防转换分析,确定视频事件片段的边界;
(4)根据中圈和哨声检测结果确定比赛开始时间,利用贝叶斯网络实现攻防视频事件
片段的初始语义分类;
(5)在文本描述中的粗粒度时间信息的约束下,根据步骤(1)中得到的文本事件类型
和步骤(4)中得到攻防视频事件片段的初始语义分类同步文本描述和视频事件片段,实现
足球视频事件的富语义标注。
2.根据权利要求1所述的多模态信息融合的足球视频事件检测与语义标注方法,其特
征在于,所述步骤(1)中利用预先建立的LSA模型计算赛况报道文本中各语句的潜在语义
空间查询向量,具体包括:
步骤(1.1.1):将互联网上爬取的赛况报道文本作为训练语料,对所有的训练语料进
行分词;
步骤(1.1.2):去除训练语料中的无关词汇,包括停词、球员和球队名词;
步骤(1.1.3):构建词条-文档矩阵Xm×n;其中矩阵Xm×n的行对应词条,列对应事件文
档,即m表示词条的数目,n为语料库中事件类型的数目,Xm×n中每个元素为词条在其对应
事件类型中的tf-idf权重,tf表示词条在相应事件训练语料中出现的频次,idf为词条的
倒排文档频率;
步骤(1.1.4):利用下式对词条-文档矩阵Xm×n进行奇异值分解;
式中,T为列正交矩阵,T中的每一列称为左奇异向量;S为对角矩阵,其对角线上的元
素为由大到小降序排列的非负奇异值;D为正交矩阵;
步骤(1.1.5):选取矩阵Sn×n的前k个最大奇异值,k<n,并选取前k个最大奇异值分
别对应于矩阵Tm×n和矩阵Dn×n中的列向量,通过下式计算词条-文档矩阵Xm×n的低阶近似
矩阵
步骤(1.1.6):构建训练语料事件集的潜在语义矩阵En×k如下:
En×k=Dn×k×Sk×k
En×k的每一行即表示相应类型的事件在潜在语义空间中的坐标。
3.根据权利要求2所述的多模态信息融合的足球视频事件检测与语义标注方法,其特
征在于,所述步骤(1)中计算该查询向量与各种文本事件类型的潜在语义空间向量的余弦
相似度,将其归类为具有最大相似度的事件类别,具体包括:
步骤(1.2.1):对输入的赛况报道文本进行事件描述语句分割(Event Description
Sentence Segmentation,EDSS),在赛况报道中每一个句子用来描述一个事件,这里根据中文句子的结束标记即句号、感叹号来实现EDSS;
步骤(1.2.2):把每个事件描述语句看做一个查询文档,根据训练阶段建立的词条-文
档矩阵Xm×n中词条的排序构建该查询文档的查询向量Xq,Xq的每个元素为相应词条在该查
询文档中出现的频次;
步骤(1.2.3):将查询向量Xq映射到潜在语义空间,得到其潜在语义表达向量Dq;
步骤(1.2.4):计算Dq和第i类事件Ei的相似度sim(Dq,Ei):
式中,Ei为矩阵En×k第i行的行向量,即第i类事件在潜在语义空间的表示;j为向量
Dq和Ei相应位置元素的下标;
步骤(1.2.5):选择和查询向量Dq具有最大相似度的潜在语义事件向量 并将Dq归
类为 对应的事件类型,表示为
4.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注
方法,其特征在于,所述步骤(2)中检测中圈的步骤包括:
步骤(2.1.1):在检测到的球场线中选取角度在[80°,100°],长度大于H/3的直线
作为球场中垂线HL,这里H为输入图像帧F的高度;
步骤(2.1.2):旋转图像帧F使得HL垂直,旋转后的图像表示为Fr;根据直线检测结
果,可以检测到椭圆的上下候选水平切线,设一共检测到m对候选水平切线;对于第i对候
选水平切线TLup,i、TLdown,i与中垂线HL的交点分别为pup,i(xup,i,yup,i),pdown,i(xdown,i,ydown,i),则圆心(xc,i,yc,i)和短半轴bi可以计算如下:
xc,i=(xup,i+xdown,i)/2
yc,i=(yup,i+ydown,i)/2
bi=(ydown,i-yup,i)/2
步骤(2.1.3):图像帧中椭圆的长轴ai和短轴bi之间满足比例关系 α和
β分别长短轴比率的下限和上限;设椭圆Eα,i(xc,i,yc,i,aα,i,bα,i)和Eβ,i(xc,i,yc,i,aβ,i,bβ,i),其中aα,i=α×bi,aβ,i=β×bi,bα,i=bi-δ,bβ,i=bi+δ;对于 如果d(p,Eα,i)>0&d(p,Eβ,i)<0,则p∈Si,Si={si,1,si,2,si,3,…,si,n}表示候选样本点集合,n为样本点的个数;
步骤(2.1.4):对于每个样本点s∈Si,计算其对应的长半轴的值,则得到椭圆长半轴
ai的解空间为Ai={ai,1,ai,2,ai,3,…,ai,n};设ai,max=max(Ai),ai,min=min(Ai),在区间[ai,min,ai,max]上以σ等间隔统计累积直方图HTi,σ为经验值;设j表示直方图HTi中间隔的下标,indexi=arg maxj(HTi),则长半轴ai计算如下:
步骤(2.1.5):经过上述步骤估计出的椭圆表示为Ei(xc,i,yc,i,ai,bi),统计Ei在图像Fr上的可见部分的弧长Li;根据测度函数M(E)对估计椭圆Ei进行校验,M(E)定义如下:
其中,椭圆Ein,i(xc,i,yc,i,ai-δ,bi-δ)和Eout,i(xc,i,yc,i,ai+δ,bi+δ)分别为Ei的内椭圆和外椭圆;设i*=arg maxi(Mi(Ei)),如果 则 即为检测到的椭圆,否则
没有检测到椭圆。
5.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注
方法,其特征在于,所述步骤(2)中的检测哨声的步骤包括:
步骤(2.2.1):设置音频帧长FrameLen和帧移FrameInc参数;
步骤(2.2.2):读入音频片段进行预加重处理,以减少尖锐噪声影响,提升高频信号;
步骤(2.2.3):将音频片段分帧,以利用音频信号短时平稳的特性,并对音频帧加汉明
窗,以减少频谱泄露;
步骤(2.2.4):根据下式对音频信号进行短时傅里叶变换,得到其语谱图;式中,x(m)
为音频信号序列,w(n)为实数窗序列;
步骤(2.2.5):基于Ostu自适应阈值对音频片段语谱图二值化;
步骤(2.2.6):利用Hough变换检测二值图像中的直线段;
步骤(2.2.7):遍历检测到的所有直线段,如果在3000Hz至4500Hz频率之间存在持续
时间超过0.1秒的直线段,则认为该音频片段为哨声片段;否则为非哨声片段。
6.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注
方法,其特征在于,所述步骤(2)中划分场地区域具体包括:
采用决策树划分场地区域,将场地划分为左边球门区LGZ,左边角球区LCZ,右边球门
区RGZ,右边角球区RCZ,中圈区域MCZ和其他区域OZ。
7.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注
方法,其特征在于,所述步骤(3)中视频事件边界通过攻防转换分析和事件时域转换模式
来确定,视频事件边界起始于PB片段最后一个攻防转换点,结束于特写镜头或回放镜头。
8.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注
方法,其特征在于,所述步骤(4)根据中圈和哨声确定比赛起始时间:
在足球视频的开始时间段内,如果有中圈持续出现一段时间,并且随后有长哨声被检
测到,则认为哨声被检测到的时间就是比赛起始时间。
9.根据权利要求1至3任一项所述的多模态信息融合的足球视频事件检测与语义标注
方法,其特征在于,所述步骤(4)中利用贝叶斯网络实现攻防片段的初始语义分类,具体包括:
根据下述特征:回放场景持续时间(RPD),精彩度(EXC),远镜头比率(FVR),球门比率
(GMR),哨声(WHS)和标题条(CAP),利用贝叶斯网络将足球视频攻防片段分类为进球、射门和犯规三种类型。
10.根据权利要求1至3任一项所述的一种多模态信息融合的足球视频事件检测与语
义标注方法,其特征在于,所述步骤(5)中根据文本和视频片段的语义同步文本和视频事
件,具体包括如下步骤:
步骤(5.1):对于第k个文本事件TEk(tk,ck,pk,dk),其中,tk表示第k个文本事件的时
间,ck表示第k个文本事件的类型,pk表示第k个文本事件相关的球员及球员所属队伍信
息,dk表示第k个文本事件的语义描述,根据下式计算该文本事件在视频中的参考帧索引
rfk;
rfk=GST+tk×60×fr
其中,GST为步骤(4)中检测到的比赛起始时间,fr为视频的帧率;
步骤(5.2):从参考帧rfk分别向前和向后查找3个攻防片段作为候选视频事件片段;
步骤(5.3):对于第i个候选视频事件片段,提取观察值Oi,作为贝叶斯网络的输入证
据,计算第i个候选视频事件片段属于ck的概率pi(ck|Oi));
步骤(5.4):根据下式从候选视频事件片段中选取和TEk事件类型一致的,具有最大概
率的视频片段作为最佳匹配事件片段;
式中,i*表示和TEk最匹配的攻防片段;
步骤(5.5):在文本事件TEk和视频事件片段i*之间建立对应关系,得到语义标注结
果,表示为Ak(tk,sfk,efk,ck,pk,dk),其中
标题 | 发布/更新时间 | 阅读量 |
---|---|---|
指令生成方法、智能键盘和存储介质 | 2020-05-13 | 143 |
一种钢琴学习系统 | 2020-05-14 | 514 |
实时对象识别监测方法及存储介质 | 2020-05-13 | 850 |
一种关联书本与电子资源的系统 | 2020-05-12 | 596 |
一种便携式帕金森病运动迟缓监测干预装置及方法 | 2020-05-11 | 503 |
一种基于表情、语音和眼动特征的多模态测谎方法 | 2020-05-13 | 426 |
文章推荐方法、装置、设备及存储介质 | 2020-05-13 | 600 |
一种书写内容的识别方法及电子设备 | 2020-05-08 | 65 |
一种可观看电脑画面的电视机 | 2020-05-12 | 394 |
一种带式振膜的励磁扬声器 | 2020-05-14 | 817 |
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。