首页 / 专利库 / 专利权 / 权利要求 / 从属权利要求 / 多项从属权利要求 / 一种基于视频解译的交互式视频风格化渲染方法

一种基于视频解译的交互式视频格化渲染方法

阅读:184发布:2021-08-03

专利汇可以提供一种基于视频解译的交互式视频格化渲染方法专利检索,专利查询,专利分析的服务。并且本 发明 是一种基于视频解译的交互式视频 风 格化 渲染 方法。包括有交互式视频语义分割模 块 、视频风格化模块,交互式视频语义分割模块的分割方法包括如下步骤:1)关键 帧 图像的交互式分割和自动识别;2)关键帧之间稠密特征点的匹配;3)区域竞争分割;视频风格化模块的风格化方法包括如下步骤:4)基于语义解析的关键帧非真实感绘制;5)序列帧的笔触传播方法;6)用于防抖的阻尼笔刷系统。本发明是一种制作周期短、成本低,利于批量制作的基于视频解译的交互式视频风格化渲染方法。,下面是一种基于视频解译的交互式视频格化渲染方法专利的具体信息内容。

1.一种基于视频解译的交互式视频格化渲染方法,其特征在于包括有交互式视频语义分割模、视频风格化模块。
交互式视频语义分割模块的分割方法包括如下步骤:
1)关键图像的交互式分割和自动识别;
2)关键帧之间稠密特征点的匹配;
3)区域竞争分割;
视频风格化模块的风格化方法包括如下步骤:
1)基于语义解析的关键帧非真实感绘制;
2)序列帧的笔触传播;
3)用防抖的阻尼笔刷系统处理。
对视频的风格化将依次使用交互式视频语义分割模块与视频风格化模块这两个模块,即先使用交互式视频语义分割模块对视频进行语义分割,再使用视频风格化模块对分割后的视频进行风格化渲染。
2.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述步骤的关键帧图像的交互式分割和自动识别方法如下:
将分割的语义区域根据其不同的材质属性将他们分成了十二类,包括天空/、山脉/陆地,岩石/建筑物、树叶/树丛、头发/毛发、花/果、皮肤/皮革、树干/树枝、抽象化背景、木头/塑料、水、衣服;
实际操作中,采用了纹理、颜色分布、位置信息这三个主要特征进行训练和识别,给定一个区域图像X,定义其类别c的条件概率为:
(式1)
式中后四项分别是纹理势能函数,颜色势能函数,位置势能函数和归一化项。
纹理势能函数定义为Ψi(ci,X;θΨ)=logP(ci|X,i),P(ci|X,i),是由Boost分类器给定的一个归一化的分布函数;
颜色势能函数定义为π(ci,X;θn)=log∑kθn(ci,k)P(k|xi),用CIELab颜色空间中的高斯混合模型(Gaussian Mixture Models:GMMs)来表示颜色模型,对给定图像中的一个像素颜色x,其条件概率为: 其中μk和∑k分别表示
第k个颜色聚类的均值和方差;
位置势能函数定义为λ(ci,X;θλ)=logθ2(ci,i),相对于前面两个势能函数而言,位置势能函数相对较弱,在这个函数定义中,图像像素的类别标号仅仅与在图像中的绝对位置相关;
利用此方法针对12类材质进行训练,然后采用式1给定一个图像区域中每个像素的对于各个类别的概率,最后统计区域中所有像素,采用投票的方式决定每个区域的类别;在风格化渲染过程中,画刷的选择由物体区域识别出的材质决定,为实现自动渲染打下了基础
3.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述步骤2)的关键帧之间稠密特征点的匹配方法如下:
在得到关键帧上的语义信息之后,综合线描特征,纹理和颜色混合图像模板特征,为图像匹配问题提供丰富的特征集合与表达;
11)线描特征由Gabor基表示为:
sk 2
F (Ii)=||||+||处方向为的正弦和余弦Gabor基。其特征概率分布表示为:
sk
表示参数θi,h 是一个sigmoid函数, 是标准化约束。
这样模型将鼓励比背景分布具有更强相应的边缘;
12)纹理特征用一个简化的梯度方向直方图(HOG)来对纹理特征建模,6个特征维度分别表示不同的梯度方向;表示HOG的第j个方向,而 表示第i个特征对应的描述子; t
是F 在所有正样本上的均值。本发明将特征的概率模型表示为:
是参数θi。可以看出模型鼓励响应相对比较集中的特征图像块的集合;
13)颜色特征是以简单的像素亮度作为描述, 本发明
量化像素亮度值到每个统计区间,那么模型可以简化为:
通过组合相似的图像小特征,就可以获到局部具有强判别的特征组合,首先对图像进行过分割,得到图像中一些细小的图像块,从小图像块中提取出能描述线描,纹理,颜色的统计特征,为了能够有效获得特征组合,采用 迭代的区域增长和模型学习算法,通过不断更新特征模型,迭代增长特征组合区域,最终得到局部具有强判别力的特征组合;
在此表达基础上,把运动目标在时域和空域上的匹配问题建模为在图表示上的分层图匹配框架,提取的混合图像模板特征作为图节点,在帧之间构建图结构,图节点之间的边连接关系可以基于特征之间的相似度、空间位置,以及特征所属物体类型来定义;
以Is,It表示原图和目标图,U、V分别表示Is,It中混合模板特征集合,对每个特征点u∈U′有两个标记:层次标记I(u)∈{1,2,...,K}和匹配候选标记 以
+ -
原图中每个特征点匹配度较高的候选集C,建立图结构的顶点集合,以E=E ∪E 构建边集合。用负边表示连接的候选者相互排斥,且定义其“排斥力”为:
以正边连接空间相邻且不互相排斥的候选特征点,令 表示它们
之间合作的紧密程度, 表示vi,vi之间的空间距离;
s T
将原图像和目标图像的图结构G、G,划分为K+1层,其中K代表原图中的物体个数,以s s
G 为例,划分表示为∏={g0,g1,...,gk}。其中,gk是G 的一个子图,它的顶点集合以Uk表T s T
示。类似的,G 的顶点集合以Vk表示。则G 和G 之间的匹配关系表示为
假设子图之间的匹配是相互独立的,则:
以几何变换、外观测度定义匹配子图对(gk,gk’)之间的相似度量,用
表示;综上所述,图结构匹配问题的解可以配置为:
W=(K,∏={g0,g1,...,gk},Ψ={Φk},Φ={Φk})
在贝叶斯理论框架下,以最大化后验概率描述图结构匹配问题:
* s T s T
W =argmaxp(W|G,G)=argmaxp(W)p(G,G|W)
通过尔可夫链蒙特卡洛(MCMC)方法对上式进行求解,同时为了高效计算,通过在解空间中的高效跳转,快速收敛到全局最优解,以达到帧间特征点的匹配。
4.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述步骤3)的区域竞争分割方法如下:
在得到帧间稳定的匹配关系的基础上,通过挖掘区域竞争机制的在视频分割中的优势,利用分层图结构的图像匹配算法,可以确定前一帧和当前帧特征之间的匹配关系,这样前一帧的语义信息就传播到当前帧中,然后根据各匹配区域的特征信息利用区域竞争分割算法,将当前帧分割为多个语义区域;
给定图像I,相应的图像分割解定义如下:
W={(R1,R2,...RN),(θ1,θ2,...,θN),(I1,I2,...,IN)}
其中,Ri表示分割出的具有同一特性的区域, θi表示区域Ri
相应的特征概率分布模型的参数,Ii表示区域Ri相应的标记;
根据前后帧中特征的匹配关系,可以确定分割区域个数N。设各区域所对 应的特征小区域集合S={S1,S2,...,SN},对于各区域Ri,根据特征所占有的小区域Si估计出模型的初始参数θi,得到初始后验概率P(θi|I(x,y))。根据MDL原则,将后验概率转化为求解能量函数最小问题,得到:
其中 表示区域Ri的边界轮廓。本发明采用迭代方式分阶段估计
参数{θi}和Γ,交替迭代两阶段,在各个阶段中不断减小能量函数,从而不断学习推理出整幅图像的最终分割结果;
在区域竞争过程中,各区域不断更新其特征概率分布模型,同时根据最速下降原理争夺像素点的所有权,更新各自的边界轮廓,使得各区域不断扩张范围,最终得到当前帧的图像分割结果;
其具体迭代步骤为:第一阶段,固定Γ,根据当前的区域分割状态估计{θi},求得当前状态下参数θi的最大似然估计作为其最优解 以最小化描述各区域的代价,因此能量函数转化为:
第二阶段,{θi}已知,对Γ进行最速下降,为了能够快速求得能量函数的最小解,本发明对所有区域的边界Γ求解最速下降的运动方程。对于边界轮廓Γ上任意一点 有
其中, 为τk在点 的方向向量,点 属于哪一个区域, 取决于
点 适合被区域特征概率分布模型描述的程度;
为确定每一像素点与区域间的从属关系,基于竞争机制的图像分割算法过程描述如下:
在初始化阶段,根据匹配上的特征图像块估计各类模型的初始参数,将所有特征图像块的边界点加入到待定队列中,并计算所有边界点属于各类的后验概率;
在循环迭代阶段,从待定队列中选择当前能量最速下降的边界点i,进而更新边界点i所在的所有边界;然后在当前分割状态下,利用最大似然估计重新计算各区域的模型参数;
利用新得到的各区域特征分布模型,重新计算所有边界点属于各类的后验概率;
这样,不断地从待定队列中选择当前能量最速下降的边界点更新相应边界,同时适时根据当前的区域分割状态更新各区域的特征分布概率模型,多个区域相互制约,同时竞争图像区域的所有权,直至能量函数收敛,从而将图像分割为多个区域。
5.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述视频风格化模块(2)的风格化方法步骤4)视频风格化以交互式的视频语义分割模块为基础,画刷的选择仅由识别出的物体区域所对应的材质决定;
上述画刷都是基于专业画家在纸上绘制大量典型笔触,然后进行扫描和参数化,最后建立笔触库,对于每一个图像区域绘制,首先采用大刷子进行打底,然后逐渐减少刷子尺寸和不透明度以对物体的细节部分进行精细刻画,绘制时,采用先边缘后内部的绘制策略:每一层图像的绘制本发明首先从边缘开始,沿着线描的边缘首先进行绘制,并根据流场对笔刷进行对齐;
在视频渲染中,为了保证画刷在时域上的连续性和稳定性,采用薄板样条插值技术来进行笔触的传播,另外,笔触在传播过程中,还通过计算笔触区域的面积,设计了笔触删减和增添机制;并利用模拟阻尼弹簧系统,降低渲染结果的“抖动”效应。
6.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述视频风格化模块(2)的风格化方法步骤5)的基于语义解析的关键帧非真实感绘制方法如下:
如何设计不同艺术风格笔触模型是视频风格化关注的焦点之一,不同艺术表现形式的作品,在笔触表达上各具特色,在视频风格化中的基本绘制策略是基于图像内容选取合适笔触进行绘制,笔触库是基于专业画家在纸上绘制大量典型笔触,然后进行扫描和参数化,最后完成建立的,对于将要绘制的画刷 包含如下信息:笔刷的类别信息 ,摆放区域范围,颜色映射 ,透明度场的 ,高度场 以及控制点 ,即有:
在设计笔触模型时,不仅考虑了笔触形状、纹理等低层信息,同时也综合了其高层语义信息,从而在渲染过程中,图像/视频的每个解译区域都有“笔”可依;在选取笔触时,以解译区域类别为关键字,以简单快捷的从笔触库中选出一批具有相同类别的笔触,进而以随机方式从中任选一个笔触;
为模拟油画绘制中的“对齐”原则,借鉴原始简约模型理论,在每个区域 内,计算其原始简约图 表达,简约图是由一组标记物体表面特征的显著性基元组成,比如衣服上的斑点,线条,皱褶;在渲染过程中,不同的画刷就会覆盖在这些基元上从而产生期望的艺术效果;解译区域 被划分为用于描述线描的线描部分 以及用于描述具有相同结构区域的非线描部分 ; 方向场 被定义为:
其中方向场 初始值为线描 的梯度方向,然后利用扩散方程把方向传播到非线描区域 ;
对关键帧的渲染过程是不断选取笔触和摆放笔触的过程;以解译区域 为例,首先渲染它的非线描部分 ,然后渲染线描部分 ;这是为了确保当渲染的区域发生重叠时,线描部分的笔触能处在上层;在非线描部分,任选一个未被渲染的像素区域,以该区域的中心为始发点,沿着方向场向两边扩散,生成一个流型区域;以该区域的中轴线为基准线,把选中的画刷变换到该流型区域中,使笔触中轴线与区域中轴线对齐;对区域线描部分的渲染与此类似。
7.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述视频风格化模块(2)的风格化方法步骤5)序列帧的笔触传播方法如下:
非关键帧的渲染通过关键帧的渲染结果“传播”得到,传播的依据是解译区域的时空对应关系,在传播过程中,随着解译区域的变化越来越大,笔触可能会逐渐泄露到区域外部,而同时区域中会出现为被渲染的空隙,所以,在传播笔触图中,必须同时考虑笔触的添加与删减机制,否则,渲染结果会出现的抖动现象;笔触的传播、添加与删减机制如下:
笔触传播:令表示视频t时刻关键帧的某个解译区域, 表示在t+1时刻对应的区域,它们的图像区域分别以 、 表示;以、 表示、 在时域上的稠密匹配点(在视频解译过程中计算出);假设 表可以通过表的非刚性变换得到;当笔触传播时,本发明希望上的匹配点能够映射到第t+1帧中新的图像区域 的匹配点 ,基于以上考虑,本发明选用薄板样条插值模型(Thin-plate Spline, TPS),它可以把中关键点映射到的匹配点 ,而对于中其余非关键点的像素点,TPS通过最小化能量函数,使的像素网格发生弹性(非刚性)变形而扭曲;
笔触删减:由于画刷在视频中传播后或发生了遮挡关系或者笔触传播帧数太多时,某些画刷所对应的区域会变得越来越小,因此,本发明要剔除这些画刷当它们对应的区域面积小于某个给定的阈值时,同样,当传播的画刷落在对应的区域边界外时也要删除;
笔触增添,当出现新的语义区域或已存在的语义区域变得越来越大时(比如衣服的展开),本发明必须增加新的画笔来覆盖这些新出现的区域,而且为了填充画笔间的空隙,本发明只需简单地变动相邻画笔的大小以及位置即可,如果未被画刷覆盖的区域越变越大并超过了某个给定的阈值时,系统会自动地创建新的画刷来覆盖它;尽管如此,本发明仍然不可能在空隙第一次出现时立刻给它画上一笔;于是,本发明设置了相对来说比较高的阈值,并延迟渲染新出现的区域直到它们增长到足够大时;接着,本发明采用通用的画刷摆放算法来填充达到阈值的足够大的空隙,最后再反向地传播和变换这些新画刷去填充先前出现的但未渲染的空隙区域;向后填充画刷的过程能够避免频繁地变换画笔,同时又能把较小的零碎的一些画笔链接为较大的画笔,从而减少闪烁效应以及其他不合需要的人为造成的视觉效果;同样,由于本发明是在最底层添加新的画笔,所以它们是画在已经存在的画笔下面,这进一步减少了视觉上的闪烁效应。
8.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述视频风格化模块(2)的风格化方法步骤6)中用于防抖的阻尼笔刷系统如下:
对视频进行风格化渲染的最后一步是防抖操作,对时域和空域中相邻的画刷用弹簧进行连接,来模拟阻尼系统;通过最小化该系统的能量,就可以达到去除抖动的效果;
对于t时刻的第i个画刷,本发明用 表示其中心坐标和大小的几何
属性,且将其初始值记为 ;阻尼笔刷系统的能量函数定义如下:
和 为权重, , ;
式中第一项约束画刷位置要不能与初始位置偏离太远:
式中第二项为对画刷i在时域上进行的平滑约束:
式中第三项对相邻画刷在时域和空域上都进行平滑约束;记 为t时刻第i个画刷的相邻画刷,对于任意相邻画刷 ,将他们之间的相对距离差异和大小差异,记为,并如下定义平滑项:
通过Levenbergy-Marquard算法求解能量最小化问题。
9.根据权利要求8所述的基于视频解译的交互式视频风格化渲染方法,其特征在于上述 , 。

说明书全文

一种基于视频解译的交互式视频格化渲染方法

技术领域

[0001] 本发明是一种基于视频解译的交互式视频风格化渲染方法,属于基于视频解译的交互式视频风格化渲染方法的改造技术。

背景技术

[0002] 随着计算机、数码相机和数码摄像机大范围的普及,人们对于影音娱乐方面的制作需求越来越高。随之引发的是家庭数字娱乐领域的蓬勃发展。越来越多的人开始尝试当
起了业余“导演”,热衷于制作和编辑各种的普通写实视频。最近几年,各种风格化的视频逐步被人们所接受,并成为流行元素,尤其是在动画视频和网游制作等方面。例如手工绘制的油画短片《老人与海》和墨画视频《小蝌蚪找妈妈》等都引起人们的广泛专注,前者还获得奥斯卡短片等一系列奖项。视频风格化渲染不仅需要专业技术,而且还需要大量人
支撑,传统的视频风格化技术是通过逐绘制方法来实现风格化渲染。虽然以这种制作
模式完成的作品每帧图像的视觉效果可以手工控制,但连续播放则由于缺少帧间的一致性
而导致了视频画面存在较大的抖动现象,而且这些方法制作周期长、成本高,不利于批量制作。比如,上文提到的《老人与海》的油画短片,虽然时长只有22分钟,可是制作周期却长达近3年之久。

发明内容

[0003] 本发明的目的在于考虑上述问题而提供一种制作周期短、成本低,利于批量制作的基于视频解译的交互式视频风格化渲染方法。
[0004] 本发明的技术方案是:本发明基于视频解译的交互式视频风格化渲染方法,包括有交互式视频语义分割模、视频风格化模块,交互式视频语义分割模块的分割方法包括
如下步骤:
[0005] 1)关键帧图像的交互式分割和自动识别;
[0006] 2)关键帧之间稠密特征点的匹配;
[0007] 3)区域竞争分割算法
[0008] 视频风格化模块的风格化方法包括如下步骤:
[0009] 4)基于语义解析的关键帧非真实感绘制;
[0010] 5)序列帧的笔触传播方法;
[0011] 6)用于防抖的阻尼笔刷系统。
[0012] 对视频的风格化将依次使用这两个模块。即首使用交互式语义分割模块对视频进行语义分割。再使用视频风格化模块对分割后的视频进行风格化渲染。上述步骤1)的关
键帧图像的交互式分割和自动识别方法如下:
[0013] 将分割的语义区域根据其不同的材质属性将他们分成了十二类,包括天空/、山脉/陆地,岩石/建筑物、树叶/树丛、头发/毛发、花/水果、皮肤/皮革、树干/树枝、
抽象化背景、木头/塑料、水、衣服;
[0014] 实际操作中,采用了纹理、颜色分布、位置信息这三个主要特征进行训练和识别,给定一个区域图像X,定义其类别c的条件概率为:
[0015] logP(x|X,θ)=∑iΨi(ci,X;θΨ)+π(ci,X;θπ)+λ(ci,X;θλ)-logZ(θ,X)(*)
[0016] 式中后四项分别是纹理势能函数,颜色势能函数,位置势能函数和归一 化项。
[0017] 纹理势能函数定义为Ψi(ci,X;θΨ)=logP(ci|X,i),P(ci|X,i)是由Boost分类器给定的一个归一化的分布函数;
[0018] 颜色势能函数定义为π(ci,X;θπ)=log∑kθn(ci,k)P(k|xi),用CIELab颜色空间中的高斯混合模型(Gaussian Mixture Models:GMMs)来表示颜色模型,对给定图像中的一个像素颜色x,其条件概率为: 其中μk和∑k分别表示第k个颜色聚类的均值和方差;
[0019] 位置势能函数定义为λ(ci,X;θλ)=logθλ(ci,i),相对于前面两个势能函数而言,位置势能函数相对较弱,在这个函数定义中,图像像素的类别标号仅仅与在图像中的绝对位置相关;
[0020] 利用此方法针对12类材质进行训练,然后采用上面的公式*计算给定一个图像区域中每个像素的对于各个类别的概率,最后统计区域中所有像素,采用投票的方式决定每
个区域的类别;在风格化渲染过程中,画刷的选择由物体区域识别出的材质决定,为实现自动渲染打下了基础
[0021] 上述步骤2)的关键帧之间稠密特征点的匹配方法如下:
[0022] 在得到关键帧上的语义信息之后,综合线描特征,纹理和颜色混合图像模板特征,为图像匹配问题提供丰富的特征集合与表达;
[0023] 11)线描特征由Gabor基表示为:
[0024] Fsk(Ii)=||||2+||||2,Gsin,x,θ和Gcos,x,θ分别表示在位置
[0025] x处方向为θ的正弦和余弦Gabor基。其特征概率分布表示为:
[0026]sk
[0027] 表示参数θi,h 是一个sigmoid函数, 是标准化约束。
[0028] 这样模型将鼓励比背景分布具有更强相应的边缘;
[0029] 12)纹理特征用一个简化的梯度方向直方图(HOG)来对纹理特征建模,6个特征维度分别表示不同的梯度方向;表示HOG的第j个方向,而 表示第i个特征Ii对应的
txt
描述子; 是F (Ii)在所有正样本上的均值。本发明将特
征的概率模型表示为:
[0030]
[0031] 是参数θi。可以看出模型鼓励响应相对比较集中的特征图像块的集合;
[0032] 13)颜色特征是以简单的像素亮度作为描述, 是在位置x上的滤波器。本发明量化像素亮度值到每个统计区间,那么模型可以简化为:
[0033]
[0034] 通过组合相似的图像小特征,就可以获到局部具有强判别力的特征组合,首先对图像进行过分割,得到图像中一些细小的图像块,从小图像块中提取出能描述线描,纹理,颜色的统计特征,为了能够有效获得特征组合,采用迭代的区域增长和模型学习算法,通过不断更新特征模型,迭代增长特征组合区域,最终得到局部具有强判别力的特征组合;
[0035] 在此表达基础上,把运动目标在时域和空域上的匹配问题建模为在图表 示上的分层图匹配框架,提取的混合图像模板特征作为图节点,在帧之间构建图结构,图节点之间的边连接关系可以基于特征之间的相似度、空间位置,以及特征所属物体类型来定义;
[0036] 以Is,It表示原图和目标图,U、V分别表示Is,It中混合模板特征集合,对每个特征点u∈U′,有两个标记:层次标记I(u)∈{1,2,...,K}和匹配候选标记
以原图中每个特征点匹配度较高的候选集C,建立图结构的顶点集合,以E
+ -
=E ∪E 构建边集合。用负边表示连接的候选者相互排斥,且定义其“排斥力”为:
[0037]
[0038] 以正边连接空间相邻且不互相排斥的候选特征点,令 表示它们之间合作的紧密程度, 表示vi,vj之间的空间距离;
[0039] 将原图像和目标图像的图结构Gs、GT,划分为K+1层,其中K代表原图中的物体个数,以Gs为例,划分表示为∏={g0,g1,...,gk}。其中,gk是Gs的一个子图,它的顶点集合以Uk表示。类似的,GT的顶点集合以Vk表示。则Gs和GT之间的匹配关系表示为
假设子图之间的匹配是相互独立的,则:
[0040]
[0041] 以几何变换、外观测度定义匹配子图对(gk,gk’)之间的相似度量,用表示;综上所述,图结构匹配问题的解可以配置为:
[0042] W=(K,∏={g0,g1,...,gk},Ψ={Φk},Φ={Φk})
[0043] 在贝叶斯理论框架下,以最大化后验概率描述图结构匹配问题:
[0044] W*=argmaxp(W|Gs,GT)=argmaxp(W)p(Gs,GT|W)
[0045] 通过尔可夫链蒙特卡洛(MCMC)方法对上式进行求解,同时为了高效计算,通过在解空间中的高效跳转,快速收敛到全局最优解,以达到帧间特征点的匹配。
[0046] 上述步骤3)的区域竞争分割方法如下:
[0047] 在得到帧间稳定的匹配关系的基础上,通过挖掘区域竞争机制的在视频分割中的优势,利用分层图结构的图像匹配算法,可以确定前一帧和当前帧特征之间的匹配关系,这样前一帧的语义信息就传播到当前帧中,然后根据各匹配区域的特征信息利用区域竞争分
割算法,将当前帧分割为多个语义区域;
[0048] 给定图像I,相应的图像分割解定义如下:
[0049] W={(R1,R2,...RN),(θ1,θ2,...,θN),(I1,I2,,...,IN)}
[0050] 其中,Ri表示分割出的具有同一特性的区域, θi表示区域Ri相应的特征概率分布模型的参数,Ii表示区域Ri相应的标记;
[0051] 根据前后帧中特征的匹配关系,可以确定分割区域个数N。设各区域所对应的特征小区域集合S={S1,S2,...,SN},对于各区域Ri,根据特征所占有的小区域Si估计出模型的初始参数θi,得到初始后验概率P(θi|I(x,y))。根据MDL原则,将后验概率转化为求解能量函数最小问题,得到:
[0052]
[0053] 其中 表示区域Ri的边界轮廓。本发明采用迭代方式分阶段估计参数{θi}和Γ,交替迭代两阶段,在各个阶段中不断减小能量函数,从而不断学习推理出整幅图像的最终分割结果;
[0054] 在区域竞争过程中,各区域不断更新其特征概率分布模型,同时根据最速下降原理争夺像素点的所有权,更新各自的边界轮廓,使得各区域不断扩张范围,最终得到当前帧的图像分割结果;
[0055] 其具体迭代步骤为:第一阶段,固定Γ,根据当前的区域分割状态估计{θi},求得当前状态下参数θi的最大似然估计作为其最优解 以最小化描述各区域的代价,因此能量函数转化为:
[0056]
[0057] 第二阶段,{θi}已知,对Γ进行最速下降,为了能够快速求得能量函数的最小解,本发明对所有区域的边界Γ求解最速下降的运动方程。对于边界轮廓Γ上任意一点

[0058]
[0059] 其中, 为τk在点 的方向向量,点 属于哪一个区域,取决于点 适合被区域特征概率分布模型描述的程度;
[0060] 为确定每一像素点与区域间的从属关系,基于竞争机制的图像分割算法过程描述如下:
[0061] 在初始化阶段,根据匹配上的特征图像块估计各类模型的初始参数,将所有特征图像块的边界点加入到待定队列中,并计算所有边界点属于各类的 后验概率;
[0062] 在循环迭代阶段,从待定队列中选择当前能量最速下降的边界点i,进而更新边界点i所在的所有边界;然后在当前分割状态下,利用最大似然估计重新计算各区域的模型参数;利用新得到的各区域特征分布模型,重新计算所有边界点属于各类的后验概率;
[0063] 这样,不断地从待定队列中选择当前能量最速下降的边界点更新相应边界,同时适时根据当前的区域分割状态更新各区域的特征分布概率模型,多个区域相互制约,同时
竞争图像区域的所有权,直至能量函数收敛,从而将图像分割为多个区域。
[0064] 上述视频风格化模块的风格化方法步骤4)视频风格化以交互式的视频语义分割模块为基础,画刷的选择仅由识别出的物体区域所对应的材质决定;
[0065] 上述画刷都是基于专业画家在纸上绘制大量典型笔触,然后进行扫描和参数化,最后建立笔触库,对于每一个图像区域绘制,首先采用大刷子进行打底,然后逐渐减少刷子尺寸和不透明度以对物体的细节部分进行精细刻画,绘制时,采用先边缘后内部的绘制策
略:每一层图像的绘制本发明首先从边缘开始,沿着线描的边缘首先进行绘制,并根据流场对笔刷进行对齐;
[0066] 在视频渲染中,为了保证画刷在时域上的连续性和稳定性,采用薄板样条插值技术来进行笔触的传播,另外,笔触在传播过程中,还通过计算笔触区域的面积,设计了笔触删减和增添机制;并利用模拟阻尼弹簧系统,降低渲染结果的“抖动”效应。
[0067] 上述视频风格化模块的风格化方法步骤5)的基于语义解析的关键帧非 真实感绘制方法如下:
[0068] 如何设计不同艺术风格笔触模型是视频风格化关注的焦点之一,不同艺术表现形式的作品,在笔触表达上各具特色,在视频风格化中的基本绘制策略是基于图像内容选取
合适笔触进行绘制,笔触库是基于专业画家在纸上绘制大量典型笔触,然后进行扫描和参
数化,最后完成建立的,对于将要绘制的画刷Bn包含如下信息:笔刷的类别信息In,摆放区域范围Λn,颜色映射Cn,透明度场的αn,高度场Hn以及控制点{Pni},即有:
[0069] Bn={In,Λn,Cn,αn,Hn,{Pni}}
[0070] 在设计笔触模型时,不仅考虑了笔触形状、纹理等低层信息,同时也综合了其高层语义信息,从而在渲染过程中,图像/视频的每个解译区域都有“笔”可依;在选取笔触时,以解译区域类别为关键字,以简单快捷的从笔触库中选出一批具有相同类别的笔触。进而以随机方式从中任选一个笔触;
[0071] 为模拟油画绘制中的“对齐”原则,借鉴原始简约模型理论,在每个区域Ri内,计算其原始简约图SKi表达。简约图是由一组标记物体表面特征的显著性基元组成,比如衣服上的斑点,线条,皱褶;在渲染过程中,不同的画刷就会覆盖在这些基元上从而产生期望的艺术效果;解译区域Ri,Ri∈Λi被划分为用于描述线描的线描部分 以及用于描述具有
相同结构区域的非线描部分 Ri方向场θx被定义为:
[0072]
[0073] 其中方向场θi初始值为线描 的梯度方向。然后利用扩散方程把方向传播到非线描区域
[0074] 对关键帧的渲染过程是不断选取笔触和摆放笔触的过程;以解译区域Ri 为例,首先渲染它的非线描部分 然后渲染线描部分 这是为了确保当渲染的区域发生重叠时,线描部分的笔触能处在上层;在非线描部分,任选一个未被渲染的像素区域,以该区域的中心为始发点,沿着方向场向两边扩散,生成一个流型区域;以该区域的中轴线为基准线,把选中的画刷变换到该流型区域中,使笔触中轴线与区域中轴线对齐;对区域线描部分的渲染与此类似。
[0075] 上述视频风格化模块(2)的风格化方法步骤5)序列帧的笔触传播方法如下:
[0076] 非关键帧的渲染通过关键帧的渲染结果“传播”得到,传播的依据是解译区域的时空对应关系,在传播过程中,随着解译区域的变化越来越大,笔触可能会逐渐泄露到区域外部,而同时区域中会出现为被渲染的空隙,所以,在传播笔触图中,必须同时考虑笔触的添加与删减机制,否则,渲染结果会出现的抖动现象;笔触的传播、添加与删减机制如下: [0077] (a)笔触传播:令c表示视频t时刻关键帧的某个解译区域,Ri(t+1)表示Ri(t)在t+1时刻对应的区域。它们的图像区域分别以Λi(t)、Λi(t+1)表示。以Pij(t)、Pij(t+1)表示Λi(t)、Λx(t+1)在时域上的稠密匹配点(在视频解译过程中计算出)。假设Ri(t+1)表
可以通过Ri(t)表的非刚性变换得到。当笔触传播时,本发明希望Λi(t)上的匹配点Pij(t)能够映射到第t+1帧中新的图像区域Λi(t+1)的匹配点Pij(t+1)。基于以上考虑,本发明
选用薄板样条插值模型 (Thin-plate Spline,TPS)。它可以把Λi(t)中关键点Pij(t)映
射到Λi(t+1)的匹配点Pij(t+1),而对于Λi(t)中其余非关键点的像素点,TPS通过最小
化能量函数,使Λi(t)的像素网格发生弹性(非刚性)变形而扭曲。
[0078] (b)笔触删减:由于画刷在视频中传播后或发生了遮挡关系或者笔触传播帧数太多时,某些画刷所对应的区域会变得越来越小,因此,本发明要剔除这些画刷当它们对应的区域面积小于某个给定的阈值时。同样,当传播的画刷落在对应的区域边界外时也要删除。 [0079] (c)笔触增添。当出现新的语义区域或已存在的语义区域变得越来越大时(比如
衣服的展开),本发明必须增加新的画笔来覆盖这些新出现的区域,而且为了填充画笔间的空隙,本发明只需简单地变动相邻画笔的大小以及位置即可。如果未被画刷覆盖的区域越
变越大并超过了某个给定的阈值时,系统会自动地创建新的画刷来覆盖它。尽管如此,本发明仍然不可能在空隙第一次出现时立刻给它画上一笔。于是,本发明设置了相对来说比较
高的阈值,并延迟渲染新出现的区域直到它们增长到足够大时。接着,本发明采用通用的画刷摆放算法来填充达到阈值的足够大的空隙,最后再反向地传播和变换这些新画刷去填充
先前出现的但未渲染的空隙区域。向后填充画刷的过程能够避免频繁地变换画笔,同时又
能把较小的零碎的一些画笔链接为较大的画笔,从而减少闪烁效应以及其他不合需要的人
为造成的视觉效果。同样,由于本发明 是在最底层添加新的画笔,所以它们是画在已经存在的画笔下面,这进一步减少了视觉上的闪烁效应。
[0080] 上述视频风格化模块的风格化方法步骤6)中用于防抖的阻尼笔刷系统如下:
[0081] 对视频进行风格化渲染的最后一步是防抖操作,对时域和空域中相邻的画刷用弹簧进行连接,来模拟阻尼系统;通过最小化该系统的能量,就可以达到去除抖动的效果; [0082] 对于t时刻的第i个画刷,本发明用Ai,t=(xi,t,yi,t,si,t)表示其中心坐标和大小的几何属性,且将其初始值记为 阻尼笔刷系统的能量函数定义如下:
[0083] E=Edata+λ1Esmooth1+λ2Esmooth2
[0084] λ1和λ2为权重,λ1=2.8,λ2=1.1;
[0085] 式中第一项约束画刷位置要不能与初始位置偏离太远:
[0086]
[0087] 式中第二项为对画刷i在时域上进行的平滑约束:
[0088]
[0089] 式中第三项对相邻画刷在时域和空域上都进行平滑约束;记 为t时刻第i个画刷的相邻画刷,对于任意相邻画刷 将他们之间的相对距离差异和大小差异,记
为ΔAi,j,t=Ai,t-Aj,t,并如下定义平滑项:
[0090]
[0091] 通过Levenbergy-Marquard算法求解能量最小化问题。
[0092] 上述λ1=2.8,λ2=1.1。
[0093] 本发明通过研究视频的分割、识别以及时空对应关系的建立,探讨语义驱动的视频风格化渲染技术,达到艺术需要的表现效果。本发明将从输入视频的语义解析研究开始,采用基于关键帧的交互方式,在最大程度的降低用户负担的同时,为视频分割提供充分的
先验信息,然后通过建立帧与帧之间的特征点对应关系,采用区域竞争算法把关键帧上的
交互信息向后续帧传播,使得用户语义信息能够充分的指导准确的视频分割。并且针对不
同风格,创建不同的笔触库。在渲染时,首先根据语义信息渲染关键帧,然后以语义区域的时空关系为约束,通过空间变换把关键帧的笔触传播到序列帧中,从而有效抑制渲染结果
的“抖动”效果。此外,本发明进一步提出便于用户交互创作的系统方案,从而提高了本项目的可应用性。本发明可以广泛地应用于广告、教育、娱乐等各种行业,具有重要的应用背景。

具体实施方式

[0094] 实施例
[0095] 本发明基于视频解译的交互式视频风格化渲染方法,包括有交互式视频语义分割模块、视频风格化模块,交互式视频语义分割模块的分割方法包括如下步骤:
[0096] 1)关键帧图像的交互式分割和自动识别;
[0097] 2)关键帧之间稠密特征点的匹配;
[0098] 3)区域竞争分割算法;
[0099] 视频风格化模块的风格化方法包括如下步骤:
[0100] 4)基于语义解析的关键帧非真实感绘制;
[0101] 5)序列帧的笔触传播方法;
[0102] 6)用于防抖的阻尼笔刷系统。
[0103] 对视频的风格化将依次使用这两个模块。即首使用交互式语义分割模块对视频进行语义分割。再使用视频风格化模块对分割后的视频进行风格化渲染。上述交互式视频语
义分割模块1中的步骤1)关键帧图像的交互式分割和自动识别方法如下:
[0104] 本发明中,综合较为成熟的识别技术TextonBoost和交互式分割方法GraphCut,对关键帧图像进行交互式的语义分割与识别,从而获取图像中的物体区域以及相互分层与
遮挡关系。本发明系统将分割的语义区域根据其不同的材质属性将他们分成了十二类,包
括天空,水,陆地,岩石,头发,皮肤,衣服等,如表1所示。
[0105] 表1:语义区域的12种材质类别
[0106]山脉 水 岩石/建筑物 树叶/树丛
皮肤/皮革 头发/毛发 花/水果 天空/云
衣服 树干/树枝 抽象化背景 木头/塑料
[0107] 实际操作中,本发明采用了纹理、颜色分布、位置信息这三个主要特征进行训练和识别。给定一个区域图像X,定义其类别c的条件概率为:
[0108]
[0109] 式中后四项分别是纹理势能函数,颜色势能函数,位置势能函数和归一化项。
[0110] 纹理势能函数定义为Ψi(ci,X;θΨ)=logP(ci|X,i),P(ci|X,i)是由Boost分类器给定的一个归一化的分布函数。
[0111] 颜色势能函数定义为π(ci,X;θπ)=log∑kθπ(ci,k)P(k|xi),这里本发明用CIELab颜色空间中的高斯混合模型(Gaussian Mixture Models:GMMs)来表示颜色模型,对给定图像中的一个像素颜色x,其条件概率为: 其中
μk和∑k分别表示第k个颜色聚类的均值和方差。
[0112] 位置势能函数定义为λ(ci,X;θλ)=logθλ(ci,i),相对于前面两个势能函数而言,位置势能函数相对较弱,在这个函数定义中,图像像素的类别标号仅仅与在图像中的绝对位置相关。
[0113] 利用此方法针对12类材质进行训练,然后采用上式计算给定一个图像区域中每个像素的对于各个类别的概率,最后统计区域中所有像素,采用投票的方式决定每个区域
的类别。在风格化渲染过程中,画刷的选择由物体区域识别出的材质决定,为实现自动渲染打下了基础。
[0114] 2)关键帧之间稠密特征点的匹配
[0115] 在得到关键帧上的语义信息之后,本发明需要探索一种帧之间的匹配算法有效地把语义信息传播到序列帧上去。
[0116] 首先本发明提出综合线描,纹理和颜色混合图像模板特征,为图像匹配问题提供丰富的特征集合与表达。
[0117] (a)线描特征由Gabor基表示为: Fsk(Ii)=||||2+||||2,Gsin,x,θ和Gcos,x,θ分别表示在位置x处方向为θ的正弦和余弦Gabor基。其特征概率分布表示为:
[0118]
[0119] 表示参数θi,hsk是一个sigmoid函数, 是标准化约束。
[0120] 这样模型将鼓励比背景分布具有更强相应的边缘。
[0121] (b)纹理特征用一个简化的梯度方向直方图(HOG)来对纹理特征建模,6个特征维度分别表示不同的梯度方向。 表示HOG的第j个方向,而 表示第i个特征Ii
txt
对应的描述子。 是F (Ii)在所有正样本上的均值。本发
明将特征的概率模型表示为:
[0122]
[0123] 是参数θi。可以看出模型鼓励响应相对比较集中的特征图像块的集合。
[0124] (c)颜色特征是以简单的像素亮度作为描述。 是在位置x上的滤波器。本发明量化像素亮度值到每个统计区间,那么模型可以简化为:
[0125]
[0126] 本发明通过组合相似的图像小特征,就可以获到局部具有强判别力的特 征组合。首先对图像进行过分割,得到图像中一些细小的图像块。从小图像块中提取出能描述线描,纹理,颜色的统计特征。为了能够有效获得特征组合,采用迭代的区域增长和模型学习算
法,通过不断更新特征模型,迭代增长特征组合区域,最终得到局部具有强判别力的特征组合。
[0127] 在此表达基础上,本发明把运动目标在时域和空域上的匹配问题建模为在图表示上的分层图匹配框架。提取的混合图像模板特征作为图节点,在帧之间构建图结构,图节点之间的边连接关系可以基于特征之间的相似度、空间位置,以及特征所属物体类型来定义。 [0128] 以Is,It表示原图和目标图,U、V分别表示Is,It中混合模板特征集合。对
每个特征点u∈U′,有两个标记:层次标记I(u)∈{1,2,...,K}和匹配候选标记
以原图中每个特征点匹配度较高的候选集C,建立图结构的顶点集合。以
+ -
E=E ∪E 构建边集合。用负边表示连接的候选者相互排斥,且定义其“排斥力”为:
[0129]
[0130] 以正边连接空间相邻且不互相排斥的候选特征点,令 表示它们之间合作的紧密程度, 表示vi,vj之间的空间距离。
[0131] 将原图像和目标图像的图结构Gs、GT,划分为K+1层,其中K代表原图中的物体s s
个数。以G 为例,划分表示为∏={g0,g1,...,gk}。其中,gk是G 的一个子图,它的顶T s T
点集合以Uk表示。类似的,G 的顶点集合以Vk表示。则G 和G 之间的匹配关系表示为
假设子图之间的匹配是相互独立的,则:
[0132]
[0133] 本发明中,以几何变换、外观测度定义匹配子图对(gk,gk’)之间的相似度量,用 表示。综上所述,图结构匹配问题的解可以配置为:
[0134] W=(K,∏={g0,g1,...,gk},Ψ={Φk},Φ={Φk})
[0135] 在贝叶斯理论框架下,本发明以最大化后验概率描述图结构匹配问题:
[0136] W*=argmaxp(W|Gs,GT)=argmaxp(W)p(Gs,GT|W)
[0137] 本发明可以通过马尔可夫链蒙特卡洛(MCMC)方法对上式进行求解。同时为了高效计算,本发明探索集群采样策略,通过在解空间中的高效跳转,快速收敛到全局最优解,以达到帧间特征点的匹配。
[0138] (1)区域竞争分割算法
[0139] 在得到帧间稳定的匹配关系的基础上,通过挖掘区域竞争机制的在视频分割中的优势,本发明提出基于帧间匹配的区域竞争传播算法。利用分层图结构的图像匹配算法,本发明可以确定前一帧和当前帧特征之间的匹配关系,前一帧的语义信息传播到当前帧中,
然后根据各匹配区域的特征信息利用区域竞争分割算法,将当前帧分割为多个语义区域。 [0140] 给定图像I,相应的图像分割解定义如下:
[0141] W={(R1,R2,...RN),(θ1,θ2,...,θN),(I1,I2,....,IN)}
[0142] 其中,Ri表示分割出的具有同一特性的区域, θi表示区域Ri相应的特征概率分布模型的参数,Ii表示区域Ri相应的标记。
[0143] 根据前后帧中特征的匹配关系,可以确定分割区域个数N。设各区域所对应的特征小区域集合S={S1,S2,...,SN},对于各区域Ri,根据特征所占有的小区域Si估计出模型的初始参数θi,得到初始后验概率P(θi|I(x,y))。根据MDL原则,将后验概率转化为求解能量函数最小问题,得到:
[0144]
[0145] 其中 表示区域Ri的边界轮廓。本发明采用迭代方式分阶段估计参数{θi}和Γ,交替迭代两阶段,在各个阶段中不断减小能量函数,从而不断学习推理出整幅图像的最终分割结果。
[0146] 在区域竞争过程中,各区域不断更新其特征概率分布模型,同时根据最速下降原理争夺像素点的所有权,更新各自的边界轮廓,使得各区域不断扩张范围,最终得到当前帧的图像分割结果。
[0147] 其具体迭代步骤为:第一阶段,固定Γ,根据当前的区域分割状态估计{θi},求得当前状态下参数θi的最大似然估计作为其最优解 以最小化描述各区域的代价,因此能量函数转化为:
[0148]
[0149] 第二阶段,{θi}已知,对Γ进行最速下降,为了能够快速求得能量函数的最小解,本发明对所有区域的边界Γ求解最速下降的运动方程。对于边界轮廓Γ上任意一点

[0150]
[0151] 其中, 为τk在点 的方向向量。点 属于哪一个区域,取决于点 适合被区域特征概率分布模型描述的程度。
[0152] 为确定每一像素点与区域间的从属关系,本发明提出基于竞争机制的图像分割算法来快速完成图像分割。具体的基于竞争机制的图像分割算法过程描述如下:
[0153] 在初始化阶段,根据匹配上的特征图像块估计各类模型的初始参数,将所有特征图像块的边界点加入到待定队列中,并计算所有边界点属于各类的后验概率。
[0154] 在循环迭代阶段,从待定队列中选择当前能量最速下降的边界点i,进而更新边界点i所在的所有边界;然后在当前分割状态下,利用最大似然估计重新计算各区域的模型参数;利用新得到的各区域特征分布模型,重新计算所有边界点属于各类的后验概率。
[0155] 这样,不断地从待定队列中选择当前能量最速下降的边界点更新相应边界,同时适时根据当前的区域分割状态更新各区域的特征分布概率模型,多个区域相互制约,同时
竞争图像区域的所有权,直至能量函数收敛,从而将图像分割为多个区域。
[0156] 1.视频风格化模块
[0157] 视频风格化以交互式的视频语义分割模块为基础。画刷的选择仅由识别出的物体区域所对应的材质决定。本发明系统的画刷都是基于专业画家在纸上绘制大量典型笔触,
然后进行扫描和参数化,最后建立笔触库。对于每一个图像区域绘制,首先采用大刷子进行打底,然后逐渐减少刷子尺寸和不透 明度以对物体的细节部分进行精细刻画。绘制时,采用先边缘后内部的绘制策略:每一层图像的绘制本发明首先从边缘开始,沿着线描的边缘
首先进行绘制,并根据流场对笔刷进行对齐。在视频渲染中,为了保证画刷在时域上的连续性和稳定性,本发明采用薄板样条插值技术来进行笔触的传播。另外,笔触在传播过程中,还通过计算笔触区域的面积,设计了笔触删减和增添机制。并利用模拟阻尼弹簧系统,降低渲染结果的“抖动”效应。
[0158] (1)基于语义解析的关键帧非真实感绘制技术
[0159] 如何设计不同艺术风格笔触模型是视频风格化关注的焦点之一。不同艺术表现形式的作品,在笔触表达上各具特色。在视频风格化中本发明的基本绘制策略是基于图像内
容选取合适笔触进行绘制,笔触库是基于专业画家在纸上绘制大量典型笔触,然后进行扫
描和参数化,最后完成建立。对于将要绘制的画刷Bn包含如下信息:笔刷的类别信息ln,摆放区域范围Λn,颜色映射Cn,透明度场的αn,高度场Hn以及控制点{Pni},即有:
[0160] Bn={In,Λn,Cn,αn,Hn,{Pni}}
[0161] 在设计笔触模型时,本发明不仅考虑了笔触形状、纹理等低层信息,同时也综合了其高层语义信息。从而在渲染过程中,图像/视频的每个解译区域都有“笔”可依。这是本发明渲染算法不同于以往基于笔触式渲染算法的关键之一。因而在选取笔触时,以解译区域类别为关键字,可以简单快捷的从笔触库中选出一批具有相同类别的笔触。进而以随机
方式从中任选一个笔触。
[0162] 为模拟油画绘制中的“对齐”原则,本发明借鉴原始简约模型理论,在 每个区域Ri内,本发明计算其原始简约图SKi表达。简约图是由一组标记物体表面特征的显著性基元组成,比如衣服上的斑点,线条,皱褶等。在渲染过程中,不同的画刷就会覆盖在这些基元上从而产生期望的艺术效果。解译区域Ri,Ri∈Λi被划分为用于描述线描的线描部分
以及用于描述具有相同结构区域的非线描部分 Ri方向场θi被定义为:
[0163]
[0164] 其中方向场θi初始值为线描 的梯度方向。然后利用扩散方程把方向传播到非线描区域
[0165] 对关键帧的渲染过程是不断选取笔触和摆放笔触的过程。以解译区域Ri为例,本发明首先渲染它的非线描部分 然后渲染线描部分 这是为了确保当渲染的区域
发生重叠时,线描部分的笔触能处在上层。在非线描部分,任选一个未被渲染的像素区域,以该区域的中心为始发点,沿着方向场向两边扩散,生成一个流型区域。以该区域的中轴线为基准线,把选中的画刷变换到该流型区域中,使笔触中轴线与区域中轴线对齐。对区域线描部分的渲染与此类似。
[0166] (2)序列帧的笔触传播算法
[0167] 本发明中,非关键帧的渲染通过关键帧的渲染结果“传播”得到。传播的依据是解译区域的时空对应关系。在传播过程中,随着解译区域的变化越来越大,笔触可能会逐渐泄露到区域外部,而同时区域中会出现为被渲染的空隙。所以,在传播笔触图中,必须同时考虑笔触的添加与删减机制。否则,渲染结果会出现的抖动现象。下面本发明分别叙述笔触的传播、添加与删减 机制。
[0168] (d)笔触传播:令c表示视频t时刻关键帧的某个解译区域,Ri(t+1)表示Ri(t)在t+1时刻对应的区域。它们的图像区域分别以Λi(t)、Λi(t+1)表示。以Pij(t)、Pij(t+1)表示Λi(t)、Λi(t+1)在时域上的稠密匹配点(在视频解译过程中计算出)。假设Ri(t+1)表
可以通过Ri(t)表的非刚性变换得到。当笔触传播时,本发明希望Λi(t)上的匹配点Pij(t)能够映射到第t+1帧中新的图像区域Λi(t+1)的匹配点Pij(t+1)。基于以上考虑,本发明
选用薄板样条插值模型(Thin-plate Spline,TPS)。它可以把Λi(t)中关键点Pij(t)映射
到Λi(t+1)的匹配点Pij(t+1),而对于Λi(t)中其余非关键点的像素点,TPS通过最小化
能量函数,使Λi(t)的像素网格发生弹性(非刚性)变形而扭曲。
[0169] (e)笔触删减:由于画刷在视频中传播后或发生了遮挡关系或者笔触传播帧数太多时,某些画刷所对应的区域会变得越来越小,因此,本发明要剔除这些画刷当它们对应的区域面积小于某个给定的阈值时。同样,当传播的画刷落在对应的区域边界外时也要删除。 [0170] (f)笔触增添。当出现新的语义区域或已存在的语义区域变得越来越大时(比如
衣服的展开),本发明必须增加新的画笔来覆盖这些新出现的区域,而且为了填充画笔间的空隙,本发明只需简单地变动相邻画笔的大小以及位置即可。如果未被画刷覆盖的区域越
变 越大并超过了某个给定的阈值时,系统会自动地创建新的画刷来覆盖它。尽管如此,本发明仍然不可能在空隙第一次出现时立刻给它画上一笔。于是,本发明设置了相对来说比
较高的阈值,并延迟渲染新出现的区域直到它们增长到足够大时。接着,本发明采用通用的画刷摆放算法来填充达到阈值的足够大的空隙,最后再反向地传播和变换这些新画刷去填
充先前出现的但未渲染的空隙区域。向后填充画刷的过程能够避免频繁地变换画笔,同时
又能把较小的零碎的一些画笔链接为较大的画笔,从而减少闪烁效应以及其他不合需要的
人为造成的视觉效果。同样,由于本发明是在最底层添加新的画笔,所以它们是画在已经存在的画笔下面,这进一步减少了视觉上的闪烁效应。
[0171] (3)用于防抖的阻尼笔刷系统
[0172] 对视频进行风格化渲染的最后一步是防抖操作。本发明对时域和空域中相邻的画刷用弹簧进行连接,来模拟阻尼系统。通过最小化该系统的能量,就可以达到去除抖动的效果。
[0173] 对于t时刻的第i个画刷,本发明用Ai,t=(xi,t,yi,t,si,t)表示其中心坐标和大小的几何属性,且将其初始值记为 阻尼笔刷系统的能量函数定义如下:
[0174] E=Edata+λ1Esmooth1+λ2Esmooth2
[0175] λ1和λ2为权重,在实验中,本发明将其设为λ1=2.8,λ2=1.1。
[0176] 式中第一项约束画刷位置要不能与初始位置偏离太远:
[0177]
[0178] 式中第二项为对画刷i在时域上进行的平滑约束:
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈