利用关联规则技术的视频新闻单元划分方法专利检索-音乐符号工艺品专利检索查询-专利查询网

利用关联规则技术的视频新闻单元划分方法

阅读：312发布：2020-10-18

专利汇可以提供利用关联规则技术的视频新闻单元划分方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种利用关联规则挖掘技术的视频新闻单元自动划分方法。视频新闻节目由独立的新闻单元组成，本方法对视频新闻节目新闻单元进行划分和还原。方法首先检测和符号化视频中出现的典型的视音频事件生成事件数据流，并在数据流中引入事件的时序特征，根据事件的时序特征把视频转换成为相关事件对应的数据流；定义时序支持度和置信度，应用关联规则挖掘方法，发现数据流中和新闻单元相关的符号序列；最后，通过序列的搜索和匹配确定事件流中新闻单元对应的视频片断。本发明采用的方法有较小的时间复杂度和较高检测精度，适合大数据量的新闻视频的自动分析。，下面是利用关联规则技术的视频新闻单元划分方法专利的具体信息内容。

权利要求

1.一种利用关联规则挖掘技术的视频新闻单元自动划分方法，其特征在于它包括视频节目中音频、视频事件的检测和事件流中关联规则挖掘匹配两部分，步骤包括：
1)主持人镜头检测，利用DOG算子和Hough变换对主持人口播帧的灰度图像进行边缘检测，利用通用模板和彩色直方图法检测主持人镜头。
2)音频事件识别，利用短时能量、过零率等音频特征来对音频进行分类；并利用以Mel倒谱参数(MFCC)为特征，基于向量量化模型的算法来识别语音非语音、主持人更换等事件。
3)事件序列生成，事件在时序上的关系把原始的视音频数据转换为视音频事件序列。
4)序列的关联挖掘，对于生成的混合事件序列，本发明利用数据挖掘中的关联分析和序列挖掘技术，发现新闻单元对应的序列模式，并通过对序列搜索和匹配划分新闻单元。
5)序列匹配，按模式中项的顺序依次在事件流中搜索满足时序阈值的匹配项，直到整个模式被匹配。
2.根据权利要求1所述的基于DOG算子和Hough变换的主持人镜头检测计算，其特征包括以下步骤：
利用图像和一个二维DOG函数的卷积结果可以分析图像某些特征，其中包括对线条的检测，DOG算子是由一个宽的正向Gaussian函数与一个窄的负向Gaussian函数相加求得。
取这两个Gaussian函数的方差之比σ1∶σ2≈1.6。
用DOG算子作用于图像信号，可以得到信号与DOG函数的卷积，卷积后将会在线条的边缘上生成垂直于边缘线的、类似二维高斯一阶方向导数的差分能量堆积。通过检测局部极值来提取线条信号的骨架信息。
Hough变换可以有效地完成模板匹配。算法把物体的边界形状编码成表，以便有效地进行读取操作，其中物体上的一点被选为参考点。对于每一个在(x，y)处并具有梯度角θ的图像梯度点，参考点可能的位置有下面的方程(2)给出：
a＝x-r(θ)cos(α(θ))
b＝y-r(θ)sin(α(θ)) 2
其中，(a，b)是边界上的点，(x，y)是一参考点，r是点(a，b)到参考点(x，y)的距离，是θ的函数。给每一个可能的参考点的位置一个增量，参数空间的峰值位置是物体位置的一个估计。
3.根据权利要求1所述的利用短时能量、过零率等音频特征来对音频进行分类，并利用以Mel倒谱参数(MFCC)为特征，基于向量量化模型的算法来识别语音非语音、主持人更换等事件，特征包括计算方法如下：
首先是静音与非静音的判别。静音与非静音的特征相对明显，较容易识别。利用音频短时能量和过零率特征可以有效的识别静音，如果短时段的短时能量和过零率低于一个事先设定的阈值，则认为该段为静音。
第二步，语音与环境音识别。利用以高斯径向函数为核函数的支持向量机构造分类器。
SVM分类器为二分类器，首先，根据前面特征分析，过零率、短时能量和频谱流是识别语音的有效特征，以这三个特征为分量组成特征向量，构造SVM，识别语音与非语音。
音频流是连续的，通常音频类型不会频繁或突然交替的改变。基于这个特性，利用下述准则，对识别了类型的短时段进行平滑处理，尽可能的消除错误识别。
假设s1，s2，s3是三个相邻的短时段，如果s1和s3属于同一个音频类型，而s2与s1，s3类型不同，则认为s2的类型判断错误，s2应与s1，s3类型相同。比如，s1，s3是非语音s2是语音，则s2分类错误，其应该是非语音。
假设s1，s2，s3是三个相邻的短时段，如果他们的分类各不相同，则认为s2的分类应该与s1相同。比如：s1是语音s2是音乐s3是环境音，则规定s2应与s1分类一致，s2应为语音。
经过平滑处理，就得到了标注了类型的短时段序列，将相邻的相同类别的短时段合并在一起，就得到了最终的分段。
4.根据权利要求1所述的混合事件序列的构造，其特征包括以下方法：
根据事件在时序上的关系把原始的视音频数据转换为视音频事件序列。在转换时把其中的主持人更换和解说更换事件分别并入向后相邻的主持人和解说事件。每一个事件具有三个属性：事件类型、开始时间和结束时间。为了方便处理，用符号Xi表示序列中不同类型的事件，若干个Xi组成的序列称作事件流或数据流。事件流中的事件是新闻单元划分的重要线索，利用数据挖掘技术来发现事件流中与新闻单元划分相关的知识。
通常，在处理事件流时有两种方案：对视音频事件分别单独处理或先把视音频事件流合并再对合并后的混合事件流处理。前者需要两个事件流进行实现同步，对两个流中的事件起止点有一定限制，本发明把视频和音频事件流合并为一个混合事件流，并且约定当视频事件和音频事件开始时间相同时，视频事件出现在事件流的前面。
为了在混合事件流中保持事件的时域信息，把事件流中相邻的两个事件之间的时序关系归纳为三种情形，假设E1(t11，t12)和E2(t21，t22)是两个相邻的事件和各自的开始结束时间，那么它们的关系可以是：
相邻，如果t12≥t21；
或重叠，如果t11≥t21并且t12＜t22；
或包含，如果t11≥t21并且t12≥t22
并且定义相邻事件的时序间隔：
这样，可以把一个新闻节目转化为视音频事件的混合流。
5.根据权利要求1所述序列的关联挖掘，对于生成的混合事件序列，并通过对序列搜索和匹配划分新闻单元，其特征包括以下方法：
按模式中项的顺序依次在事件流中搜索满足时序阈值的匹配项，直到整个模式被匹配，如果在匹配过程中某个项无法匹配，则向前移动，重新开始匹配过程。
利用递归调用搜索可能的匹配，只可能在两种情况下搜索停止，1)匹配成功；2)完全遍历各种可能的匹配情况。该算法不会遗漏任何可能的匹配，克服了“等待匹配”的局限。
该算法的复杂度取决于待匹配序列的数目、事件流的长度和各个序列的长度，递归深度则仅和模式长度有关。

说明书全文

利用关联规则技术的视频新闻单元划分方法

技术领域

[0001] 本发明涉及多媒体、视频处理和视频分析，模式识别领域。

背景技术

[0002] 计算机与网络技术的发展，为信息提供了大容量的存储载体、高速度的运算处理和快速有效的传递手段。图像、声音、视频等多媒体数据逐渐成为信息处理领域的主要媒体形式。特别是视音频数据，由于能记录、再现空间和时间信息，给人以直观的视听感受，使人们以更自然方式获得来自外部世界的信息，越来越受到人们的重视。

[0003] 正因为如此，视音频信息资源的生产和积累在以惊人的速度增加。以全球电视节目为例，据加州大学伯克利分校信息管理与系统学院的“How Much Information”项目的统计，2003年全球拥有电视台21264个，每年播出的节目达7000万小时，按每小时300MB数据量计算，每年播出的电视节目的数据量将达到2100TB之巨，而且这个数量还在每年增长；如果包括Internet、报纸等其他发布形式，这个数字还将大大增加。

[0004] 面对如此巨大的音视频数据量，人们感觉到了“信息过载”，人们关注“如何从中找出自己感兴趣的信息”要甚于“有没有自己感兴趣的信息”。目前的各种信息检索、过滤、提取技术大多是围绕这个目的展开的。但是，由于信息数量太大，与一个主题相关的信息往往孤立地分散在很多不同的地方并且出现在不同的时间，仅仅通过这些孤立的信息，人们对某些事件难以做到全面的把握。一般的检索工具都是基于关键词的，返回的信息冗余度过高，很多不相关的信息仅仅是因为含有指定的关键词就被作为结果返回了，因此人们迫切地希望拥有一种工具，能够自动把相关主题的信息汇总供人查阅。

[0005] 对于视频信息处理的关注正从低层特征转向视频内容中高层语义的分析。然而，寻找通用的视频内容中高层语义的分析和理解方法是非常困难的，但对于特定领域的视频，如新闻、体育、电影等，结合相应的领域知识，将会使底层特征与高层语义建立某种联系变的相对简单。新闻视频是一种非常重要和常见的视频类型，无论在结构或内容上都有着显明的特征，这些特征为分析新闻视频的高层语义提供了可能。

[0006] 本方法包括以下内容：

[0007] 1.主持人镜头检测

[0008] 图像看成颜色随二维空间的变化，利用图像和一个二维DOG函数的卷积结果可以分析图像某些特征，其中包括对线条的检测。DOG算子是由一个宽的正向Gaussian函数与一个窄的负向Gaussian函数相加求得，二维DOG函数如(1)定义。取这两个Gaussian函数的方差之比σ1∶σ2≈1.6。

[0009]

[0010] Hough变换可以有效地完成模板匹配。算法把物体的边界形状编码成表，以便有效地进行读取操作，其中物体上的一点被选为参考点。对于每一个在(x，y)处并具有梯度角θ的图像梯度点，参考点可能的位置有下面的方程(2)给出：

[0011] a＝x-r(θ)cos(α(θ))

[0012] b＝y-r(θ)sin(α(θ)) 2

[0013] 其中，(a，b)是边界上的点，(x，y)是一参考点，r是点(a，b)到参考点(x，y)的距离，是θ的函数。给每一个可能的参考点的位置一个增量，参数空间的峰值位置是物体位置的一个估计。

[0014] 彩色直方图交运算取两个直方图中相应bin中像素数的最小值的和，然后求它与总像素数的比值。这个比值在0和1之间，越是接近1表明两副图像越相似。

[0015]

[0016] 其中Sim(A，B)∈[0，1]表示相似度，A和B分别为两幅图像的彩色直方图，n为彩色直方图bin的个数，而Ai(Y，U，V)和Bi(Y，U，V)则分别是直方图中第i个bin中的像素数。

[0017] 将式(3)改写成式(4)，将图像任意划分成多个矩形区域，然后给每个区域赋予一个[0，1]的权重，对于不关心的区域，赋予其权重为0，对于关心的区域，可根据重要性赋予(0，1)之间的值。式(4)中，r表示将图像划分成的区域数，wj则是第j区域的权重且其他参数和式(3)相同。

[0018]

[0019] 2.音频事件识别

[0020] 利用短时能量、过零率等音频特征来对音频进行分类；并利用以Mel倒谱参数(MFCC)为特征，基于向量量化模型的算法来区分说话人。本发明通过类似方法确定音频类型，并在此基础上实现语音非语音、主持人更换等事件的检测。

[0021] 将音频分为静音，环境音，语音三个类型。通过分类器对每个短时段进行类型识别，并标注其类型。分类处理由两个步骤组成，首先判别静音和非静音；然后再把非静音分类为语音和环境音。

[0022] 3.说话人区分

[0023] 本发明以Mel倒谱参数(MFCC)为语音特征，利用基于向量量化模型的算法来区分说话人。基于VQ的说话人识别系统是目前最常用的方法。首先，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码书；再利用VQ算法计算平均失真测度，从而判断说话人是谁或者判断说话人是不是所声称的人。在本发明的应用中，并不需要对语音中说话人进行识别，只是需要检测连续的语音信号中说话人的变化，算法采用欧氏距离测度来计算平均失真测度。

[0024] MFCC参数是基于人的听觉特性利用人听觉的临界带效应，在Mel标度频率域提取出来的倒谱特征参数。

[0025] MFCC参数的提取过程如下：

[0026] 对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换(DFT)，获得频谱分布信息。

[0027] 设语音信号的DFT为：

[0028]

[0029] 式中x(n)为输人的语音信号，N表示傅立叶变换的点数。

[0030] 再求频谱幅度的平方，得到能量谱。

[0031] 将能量谱通过一组Mel尺度的三角形滤波器组。定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，一般多采用三角滤波器，中心频率为f(m)，m＝1，2，…，M。

[0032] 计算每个滤波器组输出的对数能量：

[0033]

[0034] 其中Hm(k)为第m个三角滤波器的频率响应。

[0035] 经离散余弦变换(DCT)得到MFCC系数：

[0036]

[0037] MFCC系数个数通常取12-16，常常不用0阶倒谱系数，因为它反映的是频谱能量，在一般识别系统中，将C(0)称为能量系数，并不作为倒谱系数。

[0038] 进行检测时，首先计算语音的倒谱特征，设置信号窗的长度，记此长度为N，利用窗口的前N-1个数据计算最后进入窗口的数据与此码本的平均距离，如果这个平均小于门限就认为不存在说话人的变化，窗口向前一个数据；否则就认为是最近进入窗口的语音段的说话人发生了变化，窗口向前移动N个数据。反复执行上述过程，直到信号结束。

[0039] 4.事件序列生成

[0040] 在检测视音频事件后，根据事件在时序上的关系把原始的视音频数据转换为视音频事件序列。在转换时把其中的主持人更换和解说更换事件分别并入向后相邻的主持人和解说事件。这样，每一个事件具有三个属性：事件类型、开始时间和结束时间。为了方便处理，用符号Xi表示序列中不同类型的事件，若干个Xi组成的序列称作事件流或数据流。例如，{X1，X2，…，XL}或{X}表示一个事件流，其中Xi(i＝1，2，...，L)表示事件。由第二节分析可知，事件流中的事件是新闻单元划分的重要线索，因此，新闻单元的结构特征必然会反映在事件流中，利用数据挖掘技术来发现事件流中与新闻单元划分相关的知识。

[0041] 通常，在处理事件流时有两种方案：对视音频事件分别单独处理或先把视音频事件流合并再对合并后的混合事件流处理。前者需要两个事件流进行实现同步，对两个流中的事件起止点有一定限制，本发明把视频和音频事件流合并为一个混合事件流，并且约定当视频事件和音频事件开始时间相同时，视频事件出现在事件流的前面。

[0042] 为了在混合事件流中保持事件的时域信息，把事件流中相邻的两个事件之间的时序关系归纳为三种情形，假设E1(t11，t12)和E2(t21，t22)是两个相邻的事件和各自的开始结束时间，那么它们的关系可以是：

[0043] 相邻，如果t12≥t21；

[0044] 或重叠，如果t11≥t21并且t12＜t22；

[0045] 或包含，如果t11≥t21并且t12≥t22

[0046] 并且定义相邻事件的时序间隔：

[0047]

[0048] 这样，把一个新闻节目转化为视音频事件的混合流。

[0049] 5.序列的关联挖掘

[0050] 对于生成的混合事件序列，本发明利用数据挖掘中的关联分析和序列挖掘技术，发现新闻单元对应的序列模式，并通过对序列搜索和匹配划分新闻单元。

[0051] 在关联分析中，支持度和置信度是关联挖掘的关键属性。考虑到事件的时间约束，定义事件的时序距离(Temporal Distance，TD)：

[0052]

[0053] 其中，Ei(i＝2，..n-1)为E1和En之间的所有事件。时序距离较小的两个事件的关联程度要高于时序距离较大的事件。支持度仅考虑模式出现的次数，并不考虑模式中项之间的时序距离的因素，为了利用事件之间时序关系中包含的信息，本发明引入时序距离阈值(TDT)和时序支持度(TS)。

[0054] 时序距离阈值是指在一个事件序列{X}中，相邻事件的时序距离的上限，用{X}TDT＝T表示{X}是满足时序阈值为T的序列。

[0055] 时序支持度则是事件流中相邻项满足时序阈值的序列的支持度，用TS{X}TDT＝T表示，当TDT＝∞，简记为TS{X}。定义如下：

[0056]

[0057] 其中N({X}TDT＝T)表示满足TDT＝T的序列{X}在事件流中出现的次数。

[0058] 由于给定TDT＝T和事件流{X}＝{X1，X2，…，XL}，定义置信度为：

[0059]

[0060] 目标是要在混合事件流中发现各种可能的新闻单元对应的序列。算法首先在事件序列中找出满足时序支持度和置信度的长度为1的序列，在此基础上开始以个逐层搜索的迭代过程。

[0061] 6.序列匹配

[0062] 在事件流中匹配候选序列会因为时序距离的引入变得复杂。一个解决方法是“等待匹配”(waiting-and-matching)算法，该算法按模式中项的顺序依次在事件流中搜索满足时序阈值的匹配项，直到整个模式被匹配，如果在匹配过程中某个项无法匹配，则向前移动，重新开始匹配过程。

[0063] 由于在事件流中可能存在某个片断会匹配多个序列情况，但符合实际的划分只有一个。因此，应该让置信度高的序列优先匹配。在算法执行前，首先对所有的序列按置信度从大到小排列，使高置信度序列具有高优先值。

[0064] 该算法的复杂度取决于待匹配序列的数目、事件流的长度和各个序列的长度，递归深度则仅和模式长度有关。模式是新闻单元结构特征的反映，一般情况下序列模式的长度不超过10，并且其长度和视频长度无关；序列个数目则反映了新闻单元结构的变化，也与视频长度基本无关多，可以看做是常数，因此，可该算法具有较小的时间复杂度。

[0065] 本发明具有的有益的效果是：

[0066] (1)提出了一种以视频，包括伴音数据中典型事件为线索，将视频流数据转换为事件流，从而建立一种从视频物理特征到语义内容的转换，利用对事件流中的规律自动划分视频新闻中的新闻单元。

[0067] (2)提出了新闻视频中主持人镜头的2阶段检测方法，首先采用推广的Hough方法检测视频帧画面中的曲线特点，通过和一个通用模板的比较，识别主持人镜头；再利用已识别的主持人镜头画面，采用彩色直方图交运算匹配方法快速识别同类主持人镜头。由于的推广的Hough算法复杂性远低于彩色直方图交运算，从而大大减少了匹配时间，提高了算法的实时性

[0068] (3)提出了一种基于关联挖掘理论数据挖掘算法，利用该算法发现特定的序列模式，再利用发现的序列模式匹配要处理的新闻视频对应的符号序列，从而确定新闻单元；根据新闻视频的特点提出了包含事件时域特征的支持度和可信度。附图说明

[0069] 图1本发明算法的基本步骤示意图

[0070] 图2步骤2新闻单元的原始视频转换成混合事件流，*表示同时发生相应得变更事件，字母

[0071] 代表事件，数字表示和相邻的事件之间的时序间隔。

[0072] 图3步骤4中事件流种序列匹配实例，其中待匹配序列为{ABDEC}。

[0073] 图4、适量量化(VQ)过程示意图。

[0074] 图5语音与非语音识别过程示意图。

[0075] 图6静音与非静音识别过程示意图。

[0076] 本发明分析了新闻视频单元的一般特征和新闻视频中语义特征的提取方法后，利用新闻视频中特定的视音频事件的特点和规律，提出了一个基于数据关联挖掘技术的新闻视频单元划分方法。首先，检测视频中出现的典型的视音频特征，这些特征包括主持人镜头检测、主持人变更、静音、播音等等，并符号化这些事件，并在数据流中引入事件的时序特征，根据事件的时序特征把视频转换成为相关事件对应的数据流；接着，定义时序支持度和置信度，应用关联规则挖掘方法，发现数据流中和新闻单元相关的符号序列；最后，通过序列的搜索和匹配确定事件流中新闻单元对应的视频片断。

[0077] 具体实施的技术方案及步骤如下：

[0078] 1.主持人镜头检测

[0079] 图像看成颜色随二维空间的变化，利用图像和一个二维DOG函数的卷积结果可以分析图像某些特征，其中包括对线条的检测。DOG算子是由一个宽的正向Gaussian函数与一个窄的负向Gaussian函数相加求得，二维DOG函数如(1)定义。取这两个Gaussian函数的方差之比σ1∶σ2≈1.6。

[0080]

[0081] 用DOG算子作用于图像信号，可以得到信号与DOG函数的卷积，卷积后将会在线条的边缘上生成垂直于边缘线的、类似二维高斯一阶方向导数的差分能量堆积。通过检测局部极值来提取线条信号的骨架信息。

[0082] Hough变换可以有效地完成模板匹配。算法把物体的边界形状编码成表，以便有效地进行读取操作，其中物体上的一点被选为参考点。对于每一个在(x，y)处并具有梯度角θ的图像梯度点，参考点可能的位置有下面的方程(2)给出：

[0083] a＝x-r(θ)cos(α(θ))

[0084] b＝y-r(θ)sin(α(θ)) 2

[0085] 其中，(a，b)是边界上的点，(x，y)是一参考点，r是点(a，b)到参考点(x，y)的距离，是θ的函数。给每一个可能的参考点的位置一个增量，参数空间的峰值位置是物体位置的一个估计。

[0086] 彩色直方图交运算(Color Histogram Intersection)，首先取两个直方图中相应bin中像素数的最小值的和，然后求它与总像素数的比值。这个比值在0和1之间，越是接近1表明两副图像越相似。

[0087]

[0088] 其中Sim(A，B)∈[0，1]表示相似度，A和B分别为两幅图像的彩色直方图，n为彩色直方图bin的个数，而Ai(Y，U，V)和Bi(Y，U，V)则分别是直方图中第i个bin中的像素数。

[0089] 当采用式(3)进行相似度的比较时，对图像中物体的运动以及分布不敏感，而对光照以及物体的颜色变化较为敏感，但这些特点不适于进行主持人帧的模板匹配。于是将式(3)改写成式(4)，即可将图像任意划分成多个矩形区域，然后给每个区域赋予一个[0，1]的权重，对于不关心的区域，赋予其权重为0，对于关心的区域，可根据重要性赋予(0，1)之间的值。

[0090] 式(4)中，r表示将图像划分成的区域数，wj则是第j区域的权重且其他参数和式(3)相同。

[0091]

[0092] 2.音频事件识别

[0093] 利用短时能量、过零率等音频特征来对音频进行分类；并利用以Mel倒谱参数(MFCC)为特征，基于向量量化模型的算法来区分说话人。本发明通过类似方法确定音频类型，并在此基础上实现语音非语音、主持人更换等事件的检测。

[0094] 将音频分为静音，环境音，语音三个类型。通过分类器对每个短时段进行类型识别，并标注其类型。分类处理由两个步骤组成，首先判别静音和非静音；然后再把非静音分类为语音和环境音。

[0095] 3.说话人区分

[0096] 本发明以Mel倒谱参数(MFCC)为语音特征，利用基于向量量化模型的算法来区分说话人。基于VQ的说话人识别系统是目前最常用的方法。首先，把每一个说话者所提取的特征参数进行分类，产生不同码字所组成的码书；再利用VQ算法计算平均失真测度，从而判断说话人是谁或者判断说话人是不是所声称的人。在本发明的应用中，并不需要对语音中说话人进行识别，只是需要检测连续的语音信号中说话人的变化，为简单起见，算法采用欧氏距离测度来计算平均失真测度。

[0097] MFCC参数是基于人的听觉特性利用人听觉的临界带效应，在Mel标度频率域提取出来的倒谱特征参数。

[0098] MFCC参数的提取过程如下：

[0099] 对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换(DFT)，获得频谱分布信息。

[0100] 设语音信号的DFT为：

[0101]

[0102] 式中x(n)为输人的语音信号，N表示傅立叶变换的点数。

[0103] 再求频谱幅度的平方，得到能量谱。

[0104] 将能量谱通过一组Mel尺度的三角形滤波器组。定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近)，一般多采用三角滤波器，中心频率为f(m)，m＝1，2，…，M。

[0105] 计算每个滤波器组输出的对数能量：

[0106]

[0107] 其中Hm(k)为第m个三角滤波器的频率响应。

[0108] 经离散余弦变换(DCT)得到MFCC系数：

[0109]

[0110] MFCC系数个数通常取12-16，常常不用0阶倒谱系数，因为它反映的是频谱能量，在一般识别系统中，将C(0)称为能量系数，并不作为倒谱系数。

[0111] 在切分连续的语音中不同说话人的语音段时，一种方法是采用数据积累的办法，只要没有检测到变更点，就在现有待检测数据集的基础上附加上新的数据构成新的待检测数据集。这种数据积累的办法会产生误差积累，如果前一个分割点的判断有错误，这种错误会向下传递，影响后续分割点的正确检测。

[0112] 进行检测时，首先计算语音的倒谱特征，设置信号窗的长度，记此长度为N，利用窗口的前N-1个数据计算最后进入窗口的数据与此码本的平均距离，如果这个平均小于门限就认为不存在说话人的变化，窗口向前一个数据；否则就认为是最近进入窗口的语音段的说话人发生了变化，窗口向前移动N个数据。反复执行上述过程，直到信号结束。

[0113] 4.生成事件序列

[0114] 在检测视音频事件后，根据事件在时序上的关系把原始的视音频数据转换为视音频事件序列。在转换时把其中的主持人更换和解说更换事件分别并入向后相邻的主持人和解说事件。这样，每一个事件具有三个属性：事件类型、开始时间和结束时间。为了方便处理，用符号Xi表示序列中不同类型的事件，若干个Xi组成的序列称作事件流或数据流。例如，{X1，X2，…，XL}或{X}表示一个事件流，其中Xi(i＝1，2，...，L)表示事件。由第二节分析可知，事件流中的事件是新闻单元划分的重要线索，因此，新闻单元的结构特征必然会反映在事件流中，利用数据挖掘技术来发现事件流中与新闻单元划分相关的知识。

[0115] 通常，在处理事件流时有两种方案：对视音频事件分别单独处理或先把视音频事件流合并再对合并后的混合事件流处理。前者需要两个事件流进行实现同步，对两个流中的事件起止点有一定限制，本发明把视频和音频事件流合并为一个混合事件流，并且约定当视频事件和音频事件开始时间相同时，视频事件出现在事件流的前面。

[0116] 为了在混合事件流中保持事件的时域信息，把事件流中相邻的两个事件之间的时序关系归纳为三种情形，假设E1(t11，t12)和E2(t21，t22)是两个相邻的事件和各自的开始结束时间，那么它们的关系可以是：

[0117] 相邻，如果t12≥t21；

[0118] 或重叠，如果t11≥t21并且t12＜t22；

[0119] 或包含，如果t11≥t21并且t12≥t22

[0120] 并且定义相邻事件的时序间隔：

[0121]

[0122] 这样，把一个新闻节目转化成了视音频事件的混合流。

[0123] 5.序列的关联挖掘

[0124] 对于生成的混合事件序列，本发明利用数据挖掘中的关联分析和序列挖掘技术，发现新闻单元对应的序列模式，并通过对序列搜索和匹配划分新闻单元。

[0125] 在关联分析中，支持度和置信度是关联挖掘的关键属性。考虑到事件的时间约束，定义事件的时序距离(Temporal Distance，TD)：

[0126]

[0127] 其中，Ei(i＝2，..n-1)为E1和En之间的所有事件。时序距离较小的两个事件的关联程度要高于时序距离较大的事件。支持度仅考虑模式出现的次数，并不考虑模式中项之间的时序距离的因素，为了利用事件之间时序关系中包含的信息，本发明引入时序距离阈值(TemporalDistance Threshold，TDT)和时序支持度(Temporal Support，TS)。

[0128] 时序距离阈值是指在一个事件序列{X}中，相邻事件的时序距离的上限，用{X}TDT＝T表示{X}是满足时序阈值为T的序列。

[0129] 时序支持度则是事件流中相邻项满足时序阈值的序列的支持度，用TS{X}TDT＝T表示，当TDT＝∞，简记为TS{X}。定义如下：

[0130]

[0131] 其中N({X}TDT＝T)表示满足TDT＝T的序列{X}在事件流中出现的次数。

[0132] 由于给定TDT＝T和事件流{X}＝{X1，X2，…，XL}，定义置信度为：

[0133]

[0134] 目标是要在混合事件流中发现各种可能的新闻单元对应的序列。本发明提出类-Apriori算法，算法步骤如下：

[0135] Inmput：Hybrid event stream D；TDT；Minimal support minSup；ConfidenceminConf；

[0136] Output：Mined patterns；

[0137]

[0138] 候选项集生成算法描述：

[0139] Procedure candidate_generation

[0140] Input：L[k-1]

[0141] Output：I[k] //k-1-itemsets

[0142]

[0143] 算法首先在事件序列中找出满足时序支持度和置信度的长度为1的序列，在此基础上开始以个逐层搜索的迭代过程，每个迭代包含两个步骤：

[0144] ·利用candidate_generation过程，根据前次迭代(假设当前为第k次迭代)产生的频繁模式集(k-1)-项集，即L[k-1]，生成满足最小时序支持度minSup的候选k-项集I[k]。

[0145] ·根据给定的置信度，对I[k]中的频繁模式进行“剪枝”，得到本次迭代的频繁模式集k-项集L[k]。这样的迭代过程直到没有新的序列产生为止。

[0146] 6.序列匹配

[0147] 在事件流中匹配候选序列会因为时序距离的引入变得复杂。一个解决方法是“等待匹配”(waiting-and-matching)算法，该算法按模式中项的顺序依次在事件流中搜索满足时序阈值的匹配项，直到整个模式被匹配，如果在匹配过程中某个项无法匹配，则向前移动，重新开始匹配过程。例如在图2中，当TDT＝3时，“choice 1”是一个满足要求的匹配。但是，当TDT＝2时该算法无法在图4-12中的事件流中找到匹配，而事实上“choice 3”是满足要求的匹配。因此，为了克服现有算法的局限，有必要找到一个更合理的方法，本发明提出了一个递归匹配。

[0148] 给定序列{X1，X2，…，XL}、事件流{E1，E2，…，En}和时序距离阈值TDT＝T，设TD(x，y)为D中项x和y之间的时序距离。算法描述如下：

[0149] Procedure patern_matching

[0150] Input：模式{X1，X2，…，XL}；

[0151] 事件流{E1，E2，…，En}；

[0152] 和时序距离阈值TDT＝T；

[0153] 1.Initialize：

[0154] M＝{X1，X2，…，XL}；//M为待匹配序列

[0155] E＝{E1，E2，…，En}；//E为事件流

[0156] //L存放事件流中已匹配的项的序号

[0157] 2.

[0158] 3.E＝{Ei+1，Ei+2，…，En}；//如果前次匹配成功，i为事件流中的匹配项的序号，//否则为匹配过程中//事件流中第一个TS超过TDT的项的序号。

[0159] If End //即i＝n，算法结束

[0160] Else patern_matching(M，E) //递归调用

[0161] 由于在事件流中可能存在某个片断会匹配多个序列情况，但符合实际的划分只有一个。因此，应该让置信度高的序列优先匹配。在算法执行前，首先对所有的序列按置信度从大到小排列，使高置信度序列具有高优先值。

[0162] 该算法利用递归调用搜索可能的匹配，只可能在两种情况下搜索停止，1)匹配成功；2)完全遍历各种可能的匹配情况。该算法不会遗漏任何可能的匹配，克服了“等待匹配”的局限。

[0163] 该算法的复杂度取决于待匹配序列的数目、事件流的长度和各个序列的长度，递归深度则仅和模式长度有关。模式是新闻单元结构特征的反映，一般情况下序列模式的长度不超过10，并且其长度和视频长度无关；序列个数目则反映了新闻单元结构的变化，也与视频长度基本无关多，可以看做是常数，因此，可该算法具有较小的时间复杂度。

标题	发布/更新时间	阅读量
用于钢琴教学的计算机辅助方法和计算机系统	2020-05-17	850
用于识别音乐符号的方法和装置	2020-05-11	559
图形码朗读演奏演唱器	2020-05-14	302
一种显示屏的解锁方法、装置及移动终端	2020-05-20	521
基于手势操作进行音量调节的方法及系统	2020-05-17	366
一种音乐符号与音谱记号的编辑及显示方法及伴唱机系统	2020-05-12	94
信息处理设备、信息处理方法以及程序	2020-05-17	451
电子音乐教具	2020-05-13	516
在音乐符号和学习乐器中提供指导的交互式游戏	2020-05-11	749
交互智能设备及其编曲方法和装置	2020-05-12	316

利用关联规则技术的视频新闻单元划分方法

利用关联规则技术的视频新闻单元划分方法

技术领域

背景技术

该功能需要专业版企业版VIP权限，您可以：