首页 / 专利库 / 人工智能 / 相似性得分 / 一种图像拼接篡改的检测方法

一种图像拼接篡改的检测方法

阅读:819发布:2020-05-08

专利汇可以提供一种图像拼接篡改的检测方法专利检索,专利查询,专利分析的服务。并且本 发明 一种图像拼接篡改的检测方法,涉及 图像分析 领域,是基于混合域注意 力 机制和空洞空间金字塔 池化 模 块 的图像拼接篡改的检测方法,步骤是:提取输入图像的深度特征图F;采用混合域注意力机制获得篡改区域的特征图Ffinal;采用空洞空间金字塔池化模块获得最终的 定位 掩码M;基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练;基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改检测的度量,克服了 现有技术 基于某一特定假设,无法准确定位拼接图像的篡改区域,检测中容易忽略区域较小的篡改目标的 缺陷 。,下面是一种图像拼接篡改的检测方法专利的具体信息内容。

1.一种图像拼接篡改的检测方法,其特征在于:是基于混合域注意机制和空洞空间金字塔池化的图像拼接篡改的检测方法,具体步骤如下:
第一步,提取输入图像的深度特征图F:
将输入图像I大小调整为256×256像素,通过VGG16深度神经网络模块,提取输入图像的深度特征图F,如下公式(1)所示,
F=VGG16(Resize(I))                           (1),
公式(1)中,VGG16(·)为VGG16深度神经网络模块,Resize(·)为调整输入图像大小的函数;
第二步,采用混合域注意力机制获得篡改区域的特征图Ffinal:
采用混合域注意力机制处理上述第一步中得到的输入图像的深度特征图F,即用在混合域注意力机制中的空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS,用在混合域注意力机制中的通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC,然后将空间域注意力特征图FS与通道域注意力特征图FC融合,得到混合域的注意力特征图Fatte,进一步获得篡改区域的特征图Ffinal,具体操作如下:
第(2.1)步,在空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS:
将上述第一步中得到的输入图像的深度特征图F分别通过两个包含1×1的卷积核的卷积层生成两个新的特征图Q1和K1,其中{Q1,K1}∈RC×H×W,其中,R为实数域、C为通道数目、H为特征图的高、W为特征图的宽,然后将这两个特征图的形状调整到RC×N,其中N=H×W,再将特征图Q1的转置 和特征图K1相乘,之后应用softmax层计算空间注意力矩阵A1∈RN×N,A1的计算方式如下公式(2)所示,
公式(2)中,A1为空间注意力矩阵,T为转置操作(以下相同),
同时,输入图像的深度特征图F还要经过另一个包含1×1的卷积核的卷积层产生另一个特征图V1,将V1形状也调整到RC×N,然后将特征图V1和空间注意力矩阵A1的转置 相乘,并将形状调整到RC×H×W,接着再乘上一个因子α,与输入的图像的深度特征图F进行一个逐元素的加和操作,得到篡改区域的空间域注意力特征图FS,如下公式(3)所示,公式(3)中,α为一个可学习的参数,初始值为0,在训练过程中不断优化,由此完成在空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS;
第(2.2)步,在通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC:
C×N C×N
调整上述第一步得到的输入图像的深度特征图F的尺寸,得到Q2∈R 、K2∈R 和V2∈RC×N三个特征图,然后将特征图K2与特征图Q2的转置 相乘,最后应用softmax层计算对应的通道注意力矩阵A2∈RC×C,A2的计算方式如下公式(4)所示,
公式(4)中,A2为通道注意力矩阵,
经过公式(4)之后,再次对通道注意力矩阵A2的转置 和特征图V2进行了一次矩阵乘法,然后将形状调整RC×H×W,最后再乘上一个因子β与输入图像的深度特征图F进行一个逐元素的加和操作得到篡改区域的通道域注意力特征图FC,如下公式(5)所示,公式(5)中,β为一个可学习的参数,初始值为0,在训练过程中不断优化,由此完成在通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC;
第(2.3)步,获得混合域的注意力特征图Fatte:
将上述第(2.1)步获得的空间域注意力特征图FS和上述第(2.2)步获得的通道域注意力特征图FC融合,获得混合域的注意力特征图Fatte,如下公式(6)所示,
Fatte=FS+FC                               (6),
由此获取篡改区域在混合域的注意力特征图Fatte;
第(2.4)步,获得篡改区域的特征图Ffinal:
对上述第(2.3)步得到的混合域注意力特征图Fatte进行特征选择,即在不同通道之间进行相似性度量,保留相似度较高的通道,减少相似度较低的通道的特征的影响,具体操作如下,
根据公式(7)计算混合域注意力特征图Fatte中不同通道之间的相似度矩阵s的第m行第n列的值sm,n,
公式(7)中,sm,n为混合域注意力特征图Fatte中不同通道之间的相似度矩阵s中的第m行第n列的值,也为混合域注意力特征图Fatte中第m与第n个通道之间的相关性, 为Fatte的第m个通道, 为混合域注意力特征图Fatte的第n个通道,
进一步采用排序池化,即根据相似度得分的高低进行排序,对相似度矩阵s进行排序,挑选出前Top个得分对应的索引indk,如下公式(8)所示,
indk[:Top]=Top_K_index(s,Top)                     (8),
公式(8)中,Top_K_index(·)为一个函数,用该函数挑选出前Top个得分对应的索引,s为混合域注意力特征图Fatte中不同通道之间的相似度矩阵,
通过上述公式(7)、(8),在上述第(2.3)步得到的混合域的注意力特征图Fatte的基础上对相似度较低的通道进行过滤,保留其中相似度较高通道,获得篡改区域的特征图Ffinal,由此完成采用混合域注意力机制获得篡改区域的特征图Ffinal;
第三步,采用空洞空间金字塔池化模块获得最终的定位掩码M:
采用空洞空间金字塔池化模块处理上述第二步得到的篡改区域的特征图Ffinal,得到特征图E,接着使用softmax进行分类得到预测概率图P,然后采用双线性插值进行八倍上采样操作得到与原图大小一致的概率图P′,八倍上采样操作之后将概率图P′中概率值大于0.3的点标记为图像拼接篡改像素点,小于0.3的点标记为真实像素点,获得最终的定位掩码M,具体操作如下:
空洞空间金字塔池化模块的操作包含四个并行的空洞卷积,这四个并行的空洞卷积的空洞率,分别是6、12、18、24,有不同的空洞率的每一个空洞卷积后都紧跟一个独立的卷积分支,这个卷积分支包含卷积层、BatchNormal层、Relu层,空洞卷积操作如下公式(9)所示,公式(9)中, 为空洞率为r的空洞卷积输出的特征图,A_conv(·)为空洞卷积,kernel(·)为空洞率为r的卷积核,r为空洞率,
经过公式(9)得到 四种特征图,然后经过独立的卷积
分支得到四种不同尺度的特征图 通过融合能得到包含
不同尺度信息的特征图E,融合操作如下公式(10)所示,
公式(10)中,cat(·)为级联操作,
再使用Softmax分类器进行分类,生成预测概率图P,Softmax分类器操作如下公式(11)所示,
公式(11)中,P为预测概率图,cls∈{0,1},其中,0为未被篡改,1为被篡改,wcls为第cls类的权重向量,E为经过空洞空间金字塔池化模块操作得到的特征图,
通过公式(11)得到预测概率图P后,采用双线性差值进行八倍上采样操作,得到与输入图像大小一致的预测概率图P′,将P′中概率值大于0.3的点标记为图像拼接篡改像素点,小于0.3的点标记为真实像素点,获得最终的定位掩码M,标记操作如下公式(12)所示,公示(12)中,M(i,j)为定位掩码M中第i行第j列像素点的值,P′(i,j)为概率图P′中第i行第j列像素点被篡改的预测概率值(下同),
至此,由上述第一步到第三步的操作构建了基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测方法;
第四步,基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练:
对于上述第三步构建的基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练操作如下:
将输入图像以32幅为一组输入到由上述VGG16深度神经网络模块、混合域注意力机制、空洞空间金字塔池化模块组成的网络中,通过上述第一步的VGG16深度神经网络模块提取输入图像的深度特征图F,上述第二步采用混合域注意力机制获得篡改区域的特征图Ffinal,上述第三步采用空洞空间金字塔池化模块处理得到特征图E、经过Softmax层分类和上采样操作得到预测概率图P′和获得最终的定位掩码M,然后使用如下公式(13)计算预测概率图与ground-truth之间的二值交叉熵损失函数lbce,通过最小化二值交叉熵损失函数lbce使由上述VGG16深度神经网络模块、混合域注意力机制、空洞空间金字塔池化模块组成的网络的参数达到最优,具体操作如下:
二值交叉熵损失函数lbce的计算如下公式(13)所示,
lbce=-∑(i,j)[G(i,j)log(P′(i,j))+(1-G(i,j))log(1-P′(i,j))]    (13),公式(13)中,G(i,j)∈{0,1}为概率图P′中第i行第j列像素点对应的真实标签,采用Adeleta算法优化二值交叉熵损失函数lbce,所用迭代公式如下公式(14)和公式(15)所示,wt=wt-1-Δwt                            (15),
公式(14)中,Δwt为第t次迭代时参数w的变化值;η为学习率,训练时设置为0.01,gt是第t次迭代的梯度值,
公式(15)中,wt为第t次迭代时参数w的值,wt-1为第t-1次迭代时参数w的值,经过上述操作由此完成了上述第一步到第三步的构建的基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练操作;
第五步,基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改检测的度量:
计算上述第三步中所获得的最终定位掩码M与待检测图像ground-truthG之间的准确率、召回率、准确率和召回率的调和平均值F1值,如下公式(16)—(18)所示,公式(16)—(18)中,TP为篡改区域被预测为图像拼接篡改区域的像素点数目,FP为真实区域被预测为图像拼接篡改的像素点数目,FN为篡改区域被预测为真实的像素点数目;
至此,完成基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测。

说明书全文

一种图像拼接篡改的检测方法

技术领域

[0001] 本发明的技术方案涉及图像分析领域,具体地说是一种图像拼接篡改的检测方法。

背景技术

[0002] 随着Photoshop等图像编辑软件的快速发展,人们可以轻松地按照自己的意愿对数字图像进行修改,达到了以假乱真的程度。如此伪造的图像图片会扭曲事实真相,给大众造成误解,对社会的发展造成不利影响。因此,需要对伪造篡改的图像进行检测,以对数字图像的真实性和完整性进行保护,避免因篡改图像引起误导、欺诈和版权纠纷问题的发生。
[0003] 拼接是最常见的图像篡改方式,即将一幅图像中某个对象或某个区域拼接到另一幅图像中,从而达到隐藏或增加图像中的某个对象或某片区域的目的。异幅图像之间进行拼接时,会对拼接区域进行诸如模糊、噪声、压缩等后处理,从而隐藏篡改痕迹,使人眼难以分辨真假。针对图像拼接篡改的检测方法主要分为两种:传统方法和基于深度学习的方法。
[0004] 传统图像拼接篡改的检测方法是假设拼接区域和真实区域之间还存在特征差异,基于不同的假设差异类型,从图像中提取不同类型的特征,如基于重采样特征、噪声特征、彩色滤波阵列特征等。然而这些方法都是基于某一特定假设,提取的特征无法全面有效表示拼接区域和真实区域之间的差异。
[0005] 有关基于深度学习图像拼接篡改的检测方法的报道如下:2016年Rao Yuan在《IEEE International Workshop on Information Forensics and Security》上发表的论文“A Deep Learning Approach to Detection of Splicing and Copy-Move Forgeries in Images”中,第一次使用卷积神经网络检测图像中的篡改痕迹。该网络从图像中提取高级语义特征,使用SVM分类器进行分类,网络第一层使用30个高通滤波器初始化,抑制复杂的图像内容和加速网络的收敛。但是,该方法存在没有在像素级检测拼接区域进行图像拼接篡改的检测,没有考虑局部块之间的联系以及图像的全局信息,不能定位图像中拼接篡改区域的缺陷。2018年Liu Bo在《Signal Processing:Image Communication》上发表的论文“Locating splicing forgery  by fully convolutional  networks and conditional random field”中介绍了使用三个不同尺度的全卷积网络(以下简称FCN)组成多尺度的图像拼接篡改检测网络,并且使用全连接的条件随机场(以下简称CRF)合并通过不同尺度的FCN得到的预测结果,该方法存在由于FCN固有的缺陷,容易丢失图像的结构信息和忽略小目标,且CRF是FCN网络的后处理步骤,没有实现端到端的网络的缺陷。
[0006] 针对上述方法的缺陷,现有技术中的改进方法有:文献“Image Splicing Localization via Semi-Global Network and Fully Connected Conditional Random Fields”介绍了使用长短程记忆网络(以下简称LSTM)捕获不同图像块之间的联系,从整幅图像中提取全局特征的图像拼接篡改的检测方法,该方法存在需要预先对图像进行分块处理,若分块数目过多,则计算复杂度增高;若分块数目过少,无法充分利用图像块间的联系的缺陷。文献“An Improved Splicing Localization Method by Fully Convolutional Networks”报道了引入区域候选网络增强对目标区域的学习,在每一个FCN网络生成预测结果之前使用CRF,使整个网络形成一个端到端的学习系统,但是该方法存在容易忽略小目标的篡改区域,容易造成漏检的缺陷。CN106815836A公开了一种数字图像拼接篡改盲检测方法,是将图像划分为若干重叠的子块,计算每一个子块的颜色偏量,该方法存在随着重叠子块数量的增多,计算复杂度也大幅增加,而且该方法仅能标记图像中拼接篡改区域,无法在像素级定位拼接篡改图像的缺陷。CN104933721B公开了一种基于颜色滤波阵列特征的拼接图像篡改检测方法,该方法假设拼接图像和宿主图像是由不同的数码相机拍摄,其存在适用范围较窄,篡改区域定位不准确的缺陷。CN106056523B公开了一种数字图像拼接篡改检测方法,该方法使用局部均值分解和组合DCT系数法提取图像特征,并使用Adaboost分类器判断图像的真实性,其存在计算量较大,无法定位篡改区域,而且局部均值分解过程中会出现模态混淆现象,降低信号分解的准确性,从而影响图像检测的准确性的缺陷。CN103914839B公开了一种基于隐写分析的图像拼接篡改检测方法及装置,该方法使用高级隐写统计分析模型从图像提取特征,使用多分类器集成(Ensemble)对特征进行分类,其存在仅利用自然图像的统计特性,仅能标记拼接篡改区域,无法准确对每个像素进行分割,无法在像素级分割篡改区域,定位效果较差的缺陷。CN109903302A公开了一种用于拼接图像的篡改检测方法,该方法引入Canny算子进行篡改定位,其存在仅能定位篡改区域边缘,无法准确区分篡改区域内部像素,有误分类现象的缺陷。CN109816676A公开了一种拼接图像篡改检测方法,该方法需要对图像进行额外的预处理,而且假设拼接图像与宿主图像拥有不同的相机模式,其存在仅适应于图像级定位篡改区域的较窄范围,对于小目标篡改区域无法准确定位,容易产生误检和漏检的缺陷。
[0007] 总之,相关拼接图像的篡改检测方法的现有技术存在基于某一特定假设,无法准确定位拼接图像的篡改区域,检测中容易忽略区域较小的篡改目标的缺陷。

发明内容

[0008] 本发明所要解决的技术问题是:提供一种图像拼接篡改的检测方法,是基于混合域注意机制和空洞空间金字塔池化模块的图像拼接篡改的检测方法,克服了现有技术基于某一特定假设,无法准确定位拼接图像的篡改区域,检测中容易忽略区域较小的篡改目标的缺陷。
[0009] 本发明解决该技术问题所采用的技术方案是:一种图像拼接篡改的检测方法,是基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测方法,具体步骤如下:
[0010] 第一步,提取输入图像的深度特征图F:
[0011] 将输入图像I大小调整为256×256像素,通过VGG16深度神经网络模块,提取输入图像的深度特征图F,如下公式(1)所示,
[0012] F=VGG16(Resize(I))   (1),
[0013] 公式(1)中,VGG16(·)为VGG16深度神经网络模块,Resize(·)为调整输入图像大小的函数;
[0014] 第二步,采用混合域注意力机制获得篡改区域的特征图Ffinal:
[0015] 采用混合域注意力机制处理上述第一步中得到的输入图像的深度特征图F,即用在混合域注意力机制中的空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS,用在混合域注意力机制中的通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC,然后将空间域注意力特征图FS与通道域注意力特征图FC融合,得到混合域的注意力特征图Fatte,进一步获得篡改区域的特征图Ffinal,具体操作如下:
[0016] 第(2.1)步,在空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS:
[0017] 将上述第一步中得到的输入图像的深度特征图F分别通过两个包含1×1的卷积核的卷积层生成两个新的特征图Q1和K1,其中{Q1,K1}∈RC×H×W,其中,R为实数域、C为通道数C×N目、H为特征图的高、W为特征图的宽,然后将这两个特征图的形状调整到R ,其中N=H×W,再将特征图Q1的转置 和特征图K1相乘,之后应用softmax层计算空间注意力矩阵A1∈RN×N,A1的计算方式如下公式(2)所示,
[0018]
[0019] 公式(2)中,A1为空间注意力矩阵,T为转置操作(以下相同),
[0020] 同时,输入图像的深度特征图F还要经过另一个包含1×1的卷积核的卷积层产生另一个特征图V1,将V1形状也调整到RC×N,然后将特征图V1和空间注意力矩阵A1的转置 相乘,并将形状调整到RC×H×W,接着再乘上一个因子α,与输入的图像的深度特征图F进行一个逐元素的加和操作,得到篡改区域的空间域注意力特征图FS,如下公式(3)所示,[0021]
[0022] 公式(3)中,α为一个可学习的参数,初始值为0,在训练过程中不断优化,[0023] 由此完成在空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS;
[0024] 第(2.2)步,在通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC:
[0025] 调整上述第一步得到的输入图像的深度特征图F的尺寸,得到Q2∈RC×N、K2∈RC×N和V2∈RC×N三个特征图,然后将特征图K2与特征图Q2的转置 相乘,最后应用softmax层计算C×C对应的通道注意力矩阵A2∈R ,A2的计算方式如下公式(4)所示,
[0026]
[0027] 公式(4)中,A2为通道注意力矩阵,
[0028] 经过公式(4)之后,再次对通道注意力矩阵A2的转置 和特征图V2进行了一次矩C×H×W阵乘法,然后将形状调整R ,最后再乘上一个因子β与输入图像的深度特征图F进行一个逐元素的加和操作得到篡改区域的通道域注意力特征图FC,如下公式(5)所示,[0029]
[0030] 公式(5)中,β为一个可学习的参数,初始值为0,在训练过程中不断优化,[0031] 由此完成在通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC;
[0032] 第(2.3)步,获得混合域的注意力特征图Fatte:
[0033] 将上述第(2.1)步获得的空间域注意力特征图FS和上述第(2.2)步获得的通道域注意力特征图FC融合,获得混合域的注意力特征图Fatte,如下公式(6)所示,[0034] Fatte=FS+FC   (6),
[0035] 由此获取篡改区域在混合域的注意力特征图Fatte;
[0036] 第(2.4)步,获得篡改区域的特征图Ffinal:
[0037] 对上述第(2.3)步得到的混合域注意力特征图Fatte进行特征选择,即在不同通道之间进行相似性度量,保留相似度较高的通道,减少相似度较低的通道的特征的影响,具体操作如下,
[0038] 根据公式(7)计算混合域注意力特征图Fatte中不同通道之间的相似度矩阵s的第m行第n列的值sm,n,
[0039]
[0040] 公式(7)中,sm,n为混合域注意力特征图Fatte中不同通道之间的相似度矩阵s中的第m行第n列的值,也为混合域注意力特征图Fatte中第m与第n个通道之间的相关性, 为Fatte的第m个通道, 为混合域注意力特征图Fatte的第n个通道,
[0041] 进一步采用排序池化,即根据相似度得分的高低进行排序,对相似度矩阵s进行排序,挑选出前Top个得分对应的索引indk,如下公式(8)所示,
[0042] indk[:Top]=Top_K_index(s,Top)   (8),
[0043] 公式(8)中,Top_K_index(·)为一个函数,用该函数挑选出前Top个得分对应的索引,s为混合域注意力特征图Fatte中不同通道之间的相似度矩阵,
[0044] 通过上述公式(7)、(8),在上述第(2.3)步得到的混合域的注意力特征图Fatte的基础上对相似度较低的通道进行过滤,保留其中相似度较高通道,获得篡改区域的特征图Ffinal,
[0045] 由此完成采用混合域注意力机制获得篡改区域的特征图Ffinal;
[0046] 第三步,采用空洞空间金字塔池化模块获得最终的定位掩码M:
[0047] 采用空洞空间金字塔池化模块处理上述第二步得到的篡改区域的特征图Ffinal,得到特征图E,接着使用softmax进行分类得到预测概率图P,然后采用双线性插值进行八倍上采样操作得到与原图大小一致的概率图P′,八倍上采样操作之后将概率图P′中概率值大于0.3的点标记为图像拼接篡改像素点,小于0.3的点标记为真实像素点,获得最终的定位掩码M,具体操作如下:
[0048] 空洞空间金字塔池化模块的操作包含四个并行的空洞卷积,这四个并行的空洞卷积的空洞率,分别是6、12、18、24,有不同的空洞率的每一个空洞卷积后都紧跟一个独立的卷积分支,这个卷积分支包含卷积层、BatchNormal层、Relu层,空洞卷积操作如下公式(9)所示,
[0049]
[0050] 公式(9)中, 为空洞率为r的空洞卷积输出的特征图,A_conv(·)为空洞卷积,kernel(·)为空洞率为r的卷积核,r为空洞率,
[0051] 经过公式(9)得到 四种特征图,然后经过独立的卷积分支得到四种不同尺度的特征图 通过融合能得到
包含不同尺度信息的特征图E,融合操作如下公式(10)所示,
[0052]
[0053] 公式(10)中,cat(·)为级联操作,
[0054] 再使用Softmax分类器进行分类,生成预测概率图P,Softmax分类器操作如下公式(11)所示,
[0055]
[0056] 公式(11)中,P为预测概率图,cls∈{0,1},其中,0为未被篡改,1为被篡改,wcls为第cls类的权重向量,E为经过空洞空间金字塔池化模块操作得到的特征图,[0057] 通过公式(11)得到预测概率图P后,采用双线性差值进行八倍上采样操作,得到与输入图像大小一致的预测概率图P′,将P′中概率值大于0.3的点标记为图像拼接篡改像素点,小于0.3的点标记为真实像素点,获得最终的定位掩码M,标记操作如下公式(12)所示,[0058]
[0059] 公示(12)中,M(i,j)为定位掩码M中第i行第j列像素点的值,P′(i,j)为概率图P′中第i行第j列像素点被篡改的预测概率值(下同),
[0060] 至此,由上述第一步到第三步的操作构建了基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测方法;
[0061] 第四步,基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练:
[0062] 对于上述第三步构建的基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练操作如下:
[0063] 将输入图像以32幅为一组输入到由上述VGG16深度神经网络模块、混合域注意力机制、空洞空间金字塔池化模块组成的网络中,通过上述第一步的VGG16深度神经网络模块提取输入图像的深度特征图F,上述第二步采用混合域注意力机制获得篡改区域的特征图Ffinal,上述第三步采用空洞空间金字塔池化模块处理得到特征图E、经过Softmax层分类和上采样操作得到预测概率图P′和获得最终的定位掩码M,然后使用如下公式(13)计算预测概率图与ground-truth之间的二值交叉熵损失函数lbce,通过最小化二值交叉熵损失函数lbce使由上述VGG16深度神经网络模块、混合域注意力机制、空洞空间金字塔池化模块组成的网络的参数达到最优,具体操作如下:
[0064] 二值交叉熵损失函数lbce的计算如下公式(13)所示,
[0065] lbce=-∑(i,j)[G(i,j)log(P′(i,j))+(1-G(i,j))log(1-P′(i,j))]   (13),[0066] 公式(13)中,G(i,j)∈{0,1}为概率图P′中第i行第j列像素点对应的真实标签,采用Adeleta算法优化二值交叉熵损失函数lbce,所用迭代公式如下公式(14)和公式(15)所示,
[0067]
[0068] wt=wt-1-Δwt   (15),
[0069] 公式(14)中,Δwt为第t次迭代时参数w的变化值;η为学习率,训练时设置为0.01,gt是第t次迭代的梯度值,
[0070] 公式(15)中,wt为第t次迭代时参数w的值,wt-1为第t-1次迭代时参数w的值,[0071] 经过上述操作由此完成了上述第一步到第三步的构建的基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练操作;
[0072] 第五步,基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改检测的度量:
[0073] 计算上述第三步中所获得的最终定位掩码M与待检测图像ground-truthG之间的准确率、召回率、准确率和召回率的调和平均值F1值,如下公式(16)—(18)所示,[0074]
[0075]
[0076]
[0077] 公式(16)—(18)中,TP为篡改区域被预测为图像拼接篡改区域的像素点数目,FP为真实区域被预测为图像拼接篡改的像素点数目,FN为篡改区域被预测为真实的像素点数目;
[0078] 至此,完成基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测。
[0079] 上述一种图像拼接篡改的检测方法,所述softmax层、调整上述第一步得到的输入图像的深度特征图F的尺寸的方法、所有的转置操作、八倍上采样操作、双线性插值操作、Adeleta算法均为本技术领域公知的。
[0080] 本发明的有益效果是:与现有技术相比,本发明所具有的突出的实质性特点和显著进步如下:
[0081] (1)本发明提出一种图像拼接篡改的检测方法,具体是基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改检测方法,其中的混合域注意力机制包含空间域应用自注意力机制和通道域应用自注意力机制,空洞空间金字塔池化模块操作包含四个不同扩张率的卷积分支。使用混合域注意力机制能够在VGG16深度神经网络模块提取的深度特征基础上,于空间域和通道域聚合图像全局语义信息,使得空间域特征图中每一像素点的特征都包含其他所有像素点的信息,使通道域特征图中每一通道的特征都与其他所有通道建立联系,从而获得突出篡改区域的特征图。空洞空间金字塔池化模块采用四种不同的扩张率空洞卷积,增大卷积核的感受野,能够有效捕获多尺度信息,有利于小目标篡改区域的识别,解决了现有技术方法容易忽略小目标区域的缺陷。本发明方法引入混合域注意力机制使基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改检测方法突出图像篡改区域,引入空洞空间金字塔池化模块使基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改检测模型能够充分利用不同尺度的信息,从而实现图像拼接篡改检测,提高检测的准确率。
[0082] (2)CN106815836A公开了一种数字图像拼接篡改盲检测方法,将图像划分为不重叠的子块,计算每一个子块的颜色偏量,选取若干子块确定颜色偏量参考值,根据每一子块与参考值之间的距离确定篡改区域。该方法无法确保图像大小不一定为子块大小的整数倍,划分为不重叠的子块容易丢失部分图像区域,甚至丢失图像篡改区域,选取图像子块计算颜色偏量参考值,无法确保每次选取的子块正好都是真实区域的图像子块,无法根据计算得到的颜色偏量参考值区分真实区域和篡改区域,仅能标记图像中拼接篡改区域,而且容易造成误检的缺陷。本发明与CN106815836A相比,无需手工设计特征,采用深度神经网络从篡改图像中提取高层特征,对每一个像素点进行预测,检测结果更加准确,鲁棒性较好。
[0083] (3)CN104933721B公开了一种基于颜色滤波阵列特征的拼接图像篡改检测方法。该方法利用不同相机成像时,由于采用颜色滤波阵列插值导致图像经过拼接篡改之后像素间的周期性相关模式有所不同,将图像划分为若干图像块,估算原始图像的模式,接着利用边缘检测算子检测定位篡改区域。该方法存在假设宿主图像和供体图像是通过不同相机形成的,利用这一差异提取特征检测拼接篡改区域,在进行检测前无法确保宿主图像和供体图像是通过不同相机形成,适用范围较窄,检测结果仅能定位篡改区域大致轮廓,无法进行精细化定位,篡改区域内部定位结果更差的缺陷。本发明与CN104933721B相比,不用将图像进行分块处理,也无需对宿主图像和供体图像来源进行假设,使用范围更广,检测结果更加精细。
[0084] (4)CN106056523B公开了一种数字图像拼接篡改盲检测方法,对所有样本进行横向和纵向的蛇形扫描,将图像转换为一维信号,接着使用局部均值法和组合DCT系数法从转换得到的一维信号提取特征,融合两种特征并使用Adaboost分类器鉴别图像的真实性。该方法存在需要将二位图像转换为一维信号,计算量较大,仅能鉴别图像真实性,无法定位图像中拼接篡改区域,而且局部均值分解过程中会出现模态混淆现象,降低信号分解的准确性,从而影响图像检测的准确性的缺陷。本发明与CN106056523B相比,直接从图像中提取特征,无需预先进行信号转换,不会出现模态混淆现象,能够准确定位图像中的篡改区域,提高检测率。
[0085] (5)CN103914839B公开了一种基于隐写分析的图像拼接篡改检测方法及装置,使用高级隐写统计分析模型从图像提取特征,使用多分类器集成(Ensemble)对特征进行分类;该方法存在仅利用自然图像的统计特性,仅能标记拼接篡改区域,无法准确对每个像素进行分割,无法在像素级分割篡改区域,定位效果较差的缺陷。本发明与CN103914839B相比,利用图像高级语义特征,能够更加全面地表示拼接图像和宿主图像的差异,对篡改图像中每一像素点进行分割,有利于准确检测篡改区域,提高定位的准确性。
[0086] (6)CN109903302A公开了一种用于拼接图像的篡改检测方法,该方法利用颜色滤波阵列插值在图像像素间引入的周期性相关模式的变化或差异,检测篡改区域,同时引入Canny算子进行篡改定位,该方法存在仅能定位篡改区域边缘,无法准确区分篡改区域内部像素,有误分类现象的缺陷。本发明与CN109903302A相比,使用混合域的自注意力机制,给予与篡改区域相关特征更多的权重,有利于篡改区域的检测,在像素级区分篡改区域与真实区域,同时能够辅助模型准确定位篡改区域。
[0087] (7)CN109816676A公开了一种拼接图像篡改检测方法,该方法需要对图像进行额外的预处理,而且假设拼接图像与宿主图像拥有不同的相机模式,适应范围较窄,该方法存在仅在图像级定位篡改区域,对于小目标篡改区域,无法准确定位,容易产生误检、漏检的缺陷。本发明与CN109816676A相比,利用图像高级语义特征的差异检测篡改区域,相较于传统特征,鉴别能力强,使用范围广,通过引入空洞空间金字塔池化模块,增大卷积核的感受野,聚合多个不同尺度的信息,有利于检测小的篡改区域,能够有效减少误检、漏检。
[0088] (8)本发明使用混合域注意力机制,模仿人类视觉的注意力模型,在深度神经网络提取高层语义特征的基础上,在不同的域上对与篡改区域和真实区域相关的特征赋予不重的权重,突出与篡改区域相关的高层特征,更有利于图像篡改区域的检测。附图说明
[0089] 下面结合附图和实施例对本发明进一步说明。
[0090] 图1是本发明训练阶段操作过程简易示意图。
[0091] 图2是本发明实施例的待检测的拼接篡改图像。
[0092] 图3是本发明实施例的图像拼接篡改图像的检测定位图。

具体实施方式

[0093] 图1所示实施例表明,本发明方法的训练阶段操作过程简易说是:输入训练图像I→经过由卷积池化、卷积池化、卷积池化、卷积、空洞卷积组成的VGG16深度神经网络模块→经过混合域注意力机制→经过空洞空间金字塔池化模块→进行上采样操作→输出定位掩码M。
[0094] 实施例
[0095] 本实施例的基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测方法,具体步骤如下:
[0096] 第一步,提取输入图像的深度特征图F:
[0097] 将输入图像I大小调整为256×256像素,通过VGG16深度神经网络模块,提取输入图像的深度特征图F,如下公式(1)所示,
[0098] F=VGG16(Resize(I))   (1),
[0099] 公式(1)中,VGG16(·)为VGG16深度神经网络模块,Resize(·)为调整输入图像大小的函数;
[0100] 上述VGG16深度神经网络模块中包含卷积、空洞卷积、Relu、池化操作,[0101] 卷积操作如下公式(19),
[0102] F_out=(F_in+2pad-k_size)/stride+1   (19),
[0103] 公式(19)中,F_out是经过卷积层后的结果,F_in为卷积层的输入,k_size为卷积核大小,stride为卷积核在扫描图像时每一次移动的步长(下同),pad为图像矩阵周围补零的个数;
[0104] 空洞卷积与普通卷积操作的区别在于,空洞卷积的卷积核相比于普通卷积的卷积核多了一个参数—dilation rate,这个参数为卷积核之间的间隔数量,普通卷积的卷积核扩张率为1;
[0105] Relu操作如下公式(20)所示,
[0106] R_out=max(0,Fout)   (20),
[0107] 公式(20)中,R_out为Relu的输出,max(…)为取最大值的函数;
[0108] 池化操作如下公式(21)所示,
[0109] C_out=(R_out-k_size)/stride+1   (21),
[0110] 其中,C_out为经过池化层后的结果,k_size为卷积核大小;
[0111] 第二步,采用混合域注意力机制获得篡改区域的特征图Ffinal:
[0112] 采用混合域注意力机制处理上述第一步中得到的输入图像的深度特征图F,即用在混合域注意力机制中的空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS,用在混合域注意力机制中的通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC,然后将空间域注意力特征图FS与通道域注意力特征图FC融合,得到混合域的注意力特征图Fatte,进一步获得篡改区域的特征图Ffinal,具体操作如下:
[0113] 第(2.1)步,在空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS:
[0114] 将上述第一步中得到的输入图像的深度特征图F分别通过两个包含1×1的卷积核的卷积层生成两个新的特征图Q1和K1,其中{Q1,K1}∈RC×H×W,其中,R为实数域、C为通道数目、H为特征图的高、W为特征图的宽,然后将这两个特征图的形状调整到RC×N,其中N=H×W,N再将特征图Q1的转置 和特征图K1相乘,之后应用softmax层计算空间注意力矩阵A1∈R×N,A1的计算方式如下公式(2)所示,
[0115]
[0116] 公式(2)中,A1为空间注意力矩阵,T为转置操作(以下相同),
[0117] 同时,输入图像的深度特征图F还要经过另一个包含1×1的卷积核的卷积层产生另一个特征图V1,将V1形状也调整到RC×N,然后将特征图V1和空间注意力矩阵A1的转置 相乘,并将形状调整到RC×H×W,接着再乘上一个因子α,与输入的图像的深度特征图F进行一个逐元素的加和操作,得到篡改区域的空间域注意力特征图FS,如下公式(3)所示,[0118]
[0119] 公式(3)中,α为一个可学习的参数,初始值为0,在训练过程中不断优化,[0120] 由此完成在空间域应用自注意力机制提取篡改区域的空间域注意力特征图FS;
[0121] 第(2.2)步,在通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC:
[0122] 调整上述第一步得到的输入图像的深度特征图F的尺寸,得到Q2∈RC×N、K2∈RC×N和C×NV2∈R 三个特征图,然后将特征图K2与特征图Q2的转置 相乘,最后应用softmax层计算对应的通道注意力矩阵A2∈RC×C,A2的计算方式如下公式(4)所示,
[0123]
[0124] 公式(4)中,A2为通道注意力矩阵,
[0125] 经过公式(4)之后,再次对通道注意力矩阵A2的转置 和特征图V2进行了一次矩C×H×W阵乘法,然后将形状调整R ,最后再乘上一个因子β与输入图像的深度特征图F进行一个逐元素的加和操作得到篡改区域的通道域注意力特征图FC,如下公式(5)所示,[0126]
[0127] 公式(5)中,β为一个可学习的参数,初始值为0,在训练过程中不断优化,[0128] 由此完成在通道域应用自注意力机制提取篡改区域的通道域注意力特征图FC;
[0129] 第(2.3)步,获得混合域的注意力特征图Fatte:
[0130] 为了充分利用不同维度的长程上下文信息,将上述第(2.1)步获得的空间域注意力特征图FS和上述第(2.2)步获得的通道域注意力特征图FC融合,获得混合域的注意力特征图Fatte,如下公式(6)所示,
[0131] Fatte=FS+FC   (6),
[0132] 由此获取篡改区域在混合域的注意力特征图Fatte;
[0133] 第(2.4)步,获得篡改区域的特征图Ffinal:
[0134] 对上述第(2.3)步得到的混合域注意力特征图Fatte进行特征选择,即在不同通道之间进行相似性度量,保留相似度较高的通道,减少相似度较低的通道的特征的影响,具体操作如下,
[0135] 根据公式(7)计算混合域注意力特征图Fatte中不同通道之间的相似度矩阵s的第m行第n列的值sm,n,
[0136]
[0137] 公式(7)中,sm,n为混合域注意力特征图Fatte中不同通道之间的相似度阵s中的第m行第n列的值,也为Fatte中第m与第n个通道之间的相关性, 为混合域注意力特征图Fatte第m个通道, 为混合域注意力特征图Fatte的第n个通道,
[0138] 进一步采用排序池化,即根据相似度得分的高低进行排序,对相似度矩阵s进行排序,挑选出前Top个得分对应的索引indk,如下公式(8)所示,
[0139] indk[:Top]=Top_K_index(s,Top)   (8),
[0140] 公式(8)中,Top_K_index(·)为一个函数,用该函数挑选出前Top个得分对应的索引,s为Fatte中不同通道之间的相似度矩阵,
[0141] 通过上述公式(7)、(8),在上述第(2.3)步得到的混合域的注意力特征图Fatte的基础上对相似度较低的通道进行过滤,保留其中相似度较高通道,获得篡改区域的特征图Ffinal,
[0142] 由此完成采用混合域注意力机制获得篡改区域的特征图Ffinal;
[0143] 第三步,采用空洞空间金字塔池化模块获得最终的定位掩码M:
[0144] 采用空洞空间金字塔池化模块处理上述第二步得到的篡改区域的特征图Ffinal,得到特征图E,接着使用softmax进行分类得到预测概率图P,然后采用双线性插值进行八倍上采样操作得到与原图大小一致的概率图P′,八倍上采样操作之后将概率图P′中概率值大于0.3的点标记为图像拼接篡改像素点,小于0.3的点标记为真实像素点,获得最终的定位掩码M,具体操作如下:
[0145] 空洞空间金字塔池化模块的操作包含四个并行的空洞卷积,这四个并行的空洞卷积的空洞率,分别是6、12、18、24,有不同的空洞率的每一个空洞卷积后都紧跟一个独立的卷积分支,这个卷积分支包含卷积层、BatchNormal层、Relu层,空洞卷积操作如下公式(9)所示,
[0146]
[0147] 公式(9)中, 为空洞率为r的空洞卷积输出的特征图,A_conv(·)为空洞卷积,kernel(·)为空洞率为r的卷积核,r为空洞率,
[0148] 经过公式(9)得到 四种特征图,然后经过独立的卷积分支得到四种不同尺度的特征图 通过融合能得到
包含不同尺度信息的特征图E,融合操作如下公式(10)所示,
[0149]
[0150] 公式(10)中,cat(·)为级联操作,
[0151] 再使用Softmax分类器进行分类,生成预测概率图P,Softmax分类器操作如下公式(11)所示,
[0152]
[0153] 公式(11)中P为预测概率图,cls∈{0,1},其中,0为未被篡改,1为被篡改,wcls为第cls类的权重向量,E为经过空洞空间金字塔池化模块操作得到的特征图,[0154] 通过公式(11)得到预测概率图P后,采用双线性差值进行八倍上采样操作,得到与输入图像大小一致的预测概率图P′,将P′中概率值大于0.3的点标记为图像拼接篡改像素点,小于0.3的点标记为真实像素点,获得最终的定位掩码M,标记操作如下公式(12)所示,[0155]
[0156] 公示(12)中,M(i,j)为定位掩码M中第i行第j列像素点的值,P′(i,j)为概率图P′中第i行第j列像素点被篡改的预测概率值(下同),
[0157] 至此,由上述第一步到第三步的操作构建了基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测方法;
[0158] 第四步,基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练:
[0159] 对于上述第三步构建的基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练操作如下:
[0160] 将输入图像以32幅为一组输入到由上述VGG16深度神经网络模块、混合域注意力机制、空洞空间金字塔池化模块组成的网络中,通过上述第一步的VGG16深度神经网络模块提取输入图像的深度特征图F,上述第二步采用混合域注意力机制获得篡改区域的特征图Ffinal,上述第三步采用空洞空间金字塔池化模块处理得到特征图E、经过Softmax层分类和上采样操作得到预测概率图P′和获得最终的定位掩码M,然后使用如下公式(13)计算预测概率图与ground-truth之间的二值交叉熵损失函数lbce,通过最小化二值交叉熵损失函数lbce使由上述VGG16深度神经网络模块、混合域注意力机制、空洞空间金字塔池化模块组成的网络的参数达到最优,具体操作如下:
[0161] 二值交叉熵损失函数lbce的计算如下公式(13)所示,
[0162] lbce=-∑(i,j)[G(i,j)log(P′(i,j))+(1-G(i,j))log(1-P′(i,j))]   (13),[0163] 公式(13)中,G(i,j)∈{0,1}为概率图P′中第i行第j列像素点对应的真实标签,采用Adeleta算法优化二值交叉熵损失函数lbce,所用迭代公式如下公式(14)和公式(15)所示,
[0164]
[0165] wt=wt-1-Δwt   (15),
[0166] 公式(14)中,Δwt为第t次迭代时参数w的变化值;η为学习率,训练时设置为0.01,gt是第t次迭代的梯度值,
[0167] 公式(15)中,wt为第t次迭代时参数w的值,wt-1为第t-1次迭代时参数w的值,[0168] 经过上述操作由此完成了上述第一步到第三步的构建的基于混合域注意力机制和空洞空间金字塔池化模块的拼接篡改检测方法的训练操作;
[0169] 第五步,基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改检测的度量:
[0170] 计算上述第三步中所获得的最终定位掩码M与待检测图像ground-truthG之间的准确率、召回率、准确率和召回率的调和平均值F1值,如下公式(16)—(18)所示,[0171]
[0172]
[0173]
[0174] 公式(16)—(18)中,TP为篡改区域被预测为图像拼接篡改区域的像素点数目,FP为真实区域被预测为图像拼接篡改的像素点数目,FN为篡改区域被预测为真实的像素点数目;
[0175] 至此,完成基于混合域注意力机制和空洞空间金字塔池化模块的图像拼接篡改的检测。
[0176] 表1列出了本实施例的实验结果Ours与现有技术ELA的实验结果、现有技术基于噪声差异的方法NOI1的实验结果以及现有技术基于彩色滤波阵列的方法CFA1的实验结果,在CASIAⅡ数据集上的比较,
[0177] 表1不同拼接检测方法定位结果比较(%)
[0178]
[0179] 从表1中可以看出,本实施例提出的图像拼接篡改检测方法检测效果优于所有现有技术中的对比方法。
[0180] 图2是本发明实施例的待检测的拼接篡改图像,该图像原为景图,不包含任何人物,图像篡改者将人物拼接到该图像中,对其进行拼接篡改。
[0181] 图3是本发明实施例的图像拼接篡改图像的检测定位图,斜线部分表示真实区域,黑色曲线轮廓内部表示本发明提出的图像拼接篡改检测方法定位的拼接篡改区域。
[0182] 上述实施例中,所述softmax层、调整上述第一步得到的输入图像的深度特征图F的尺寸的方法、所有的转置操作、八倍上采样操作、双线性插值操作、Adeleta算法均为本技术领域公知的。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈