一种基于Beta先验过程的深度字典学习方法专利检索-深度学习机器学习人工智能人工智能专利检索查询-专利查询网

一种基于Beta先验过程的深度字典学习方法

阅读：2发布：2021-08-14

专利汇可以提供一种基于Beta先验过程的深度字典学习方法专利检索，专利查询，专利分析的服务。并且本发明公开了一种基于Beta先验过程的深度字典学习方法，本发明用Beta先验过程求解的深度字典，这是一种概率求解方法。与算数方法求解深度字典不同的是，本发明采用了基于Beta先验过程的概率方法，把噪声、字典、表示三者假设为不同的高斯分布作为先验分布，采用最大似然估计法得到目标函数，用吉布斯采样方法对目标函数求解，通过反复迭代得到最优解，从而有效的去噪。这种深度字典的分层模型可以利用吉布斯采样更新所有变量的后验分布。由于深度字典是直接通过样本数据学习到的，因此这种深度字典充分利用了原始数据的结构信息。另外通过非参数贝叶斯推断可以学习出重构误差的方差。，下面是一种基于Beta先验过程的深度字典学习方法专利的具体信息内容。

权利要求

1.一种基于Beta先验过程的深度字典学习方法，其特征在于：该方法的具体实施过程
如下：
S1深度字典
深度字典学习是在传统字典基础上，针对其中的表示，再次进行字典学习；传统字典学习表示为：X＝DΩ，其中X为样本输入，D是字典，Ω；针对其中的表示Ω再次进行字典学习，为了方便把深度学习中第一层字典学习用X＝D1Ω1表示，则第二层Ω1＝D2Ω2，第三层是针对第二层的表示Ω2进行字典学习：Ω2＝D3Ω3，第四层第五层一直到第n层都是这样处理，第n层为Ωn-1＝DnΩn；用这n层表达样本则表示为：X＝D1D2D3...DnΩn；D1D2...Dn这多个字典不能合并为一个，因为这个深度字典的学习过程是非线性的[Greedy Deep Dictionary Learning]；
本方法提出的是一种利用概率的方法进行深度字典学习的方法，并把它应用在图像降
噪上；
假设干净无噪声的图像表示为X＝D1D2D3...DnΩn，噪声则分布在每一层上，即第一层X＝D1Ω1+ε1，其中ε1是第一层的噪声；第二层是Ω1＝D2Ω2+ε2，其中ε2是第二层的噪声；第n层的噪声表示为εn，字典表示为Ωn-1＝DnΩn+εn；只有第n层的字典是稀疏的，前n-1层的字典都是非稀疏的；n＝2时，则第一层非稀疏，第二层即最后层稀疏，在n＞2时，前n-1层都与第一层求解相同，第n层都与第二层求解相同；
S2第一层字典学习
S2.1模型与目标函数
样本X是由N个列向量{x1，x2，…，xi，…，xN}构成，列向量xi是P1维的随机向量；第一层X＝D1Ω1+ε1中D1表示第一层字典，D1是P1×K的矩阵，P1是第一层字典行数，K是字典D1的列数，D1＝{d11，d12，…，d1k，…，d1K}，d1k的脚标中“1”表示第一层字典，“k”表示第k列，一共有K列；假设随机向量d1k服从均值为0，协方差矩阵为的高斯分布；表示Ω1是K×N的矩
阵，即N个列向量{ω11，ω12，…，ω1i，…，ω1N}，假设ω1i服从均值为0，协方差矩阵的高斯分布；噪声ε1与样本规格一样{ε11，ε12，…，ε1i，…，ε1N}，列向量ε1i也是P1维的，假设服从均值为0，协方差矩阵为的高斯分布；其中γω服从形状参数为a0，尺度参数为b0的伽马分布，γ1s服从形状参数为c0，尺度参数为d0的伽马分布；深度字典学习的第一层模型写成：
xi＝D1ω1i+ε1i
γω～Γ(a0，b0)
γ1s～Γ(c0，d0)  (1)
用最大似然估计法对随机变量采样；这些随机变量是未知的，如果这些假设成立，那么这些随机变量在等于某些值时样本出现的概率最大，即这些随机变量的联合概率达到最大时，随机变量的取值能最好的表达降噪后的图像；所有随机变量的联合概率分布表示为P(X，D1，Ω1，γω，γε)：
因此目标函数为：
采用吉布斯采样的方法求解目标函数；
S2.2吉布斯采样法求解目标函数
S2.2.1d1k采样
对d1k采样时，把其他的随机变量看作常量，根据联合概率分布式(1)写成式(2)的形式；
其中：
故：
d1k服从高斯分布，假设均值为协方差为即
(3)、(4)两式对照得
S2.2.2ω1i采样
对ω1i采样时，把其他的随机变量看作常量，根据联合概率分布式(2)写成如下式：
看出ω1i服从高斯分布，假设均值为协方差为即：
对照得：
S2.2.3γω采样
对γω采样时，把其他的随机变量看作常量，根据联合概率分布式(2)写成下式：
从结果式发现γω的后验概率仍然服从伽马分布，写成：
S2.2.4γ1ε采样
对γ1s采样时，把其他的随机变量看作常量，根据联合概率分布(2)可以写成如下：
从结果式中发现随机变量γ1s的后验概率仍然服从伽马分布，写为：
四个采样过程交替迭代，循环多次，最终得到d1k，ω1i，γω，γ1s四个随机变量的最优解，即D1，Ω1，γω，γs；而第一层去噪之后的重构的图像为：
S3第二层字典学习
S3.1模型与目标函数
发现重构出效果并不十分理想，分析在Ω1中有残留的噪声，因此需要了第二层甚至
更多层字典学习；第二层字典学习是对第一层字典学习中的表示Ω1进行字典学习，因此第二层的样本是Ω1；可以理解为第一层字典学习过程中的表示ω1i中还有噪声没有去除干净，假设这个噪声服从是服从高斯分布的随机向量ε2i；而ω1i不带噪声部分表
示为D2ω2i，D2是第二层字典，是对应的表示ω2i；则第二层的样本用公式表示为：
Ω1＝D1Ω2+ε2   (9)
从第一层字典学习得知Ω1是P2×N的矩阵，即Ω1是由N列维度为P2的列向量ω1i组成：
Ω1＝{ω11，ω12，ω13，...，ω1i，...，ω1N}(i＝1,2，...,N)；D2是P2×K2的矩阵，可以看成是K2列维度为P2的列向量d2k组成： d2k服从
的高斯分布；ω2i的维度是K2×N，即N个维度K2的列向量ω2i：Ω2＝{ω21，
ω22，ω23，...，ω2i，...，ω2N}(i＝1,2，...，N)；噪声ε2是与样本Ω1维度相同的矩阵，每一列ω1i都对应一列ε2i；
由于本方法以两层字典解释深度字典，因此在本方法中第二层字典也是最后一层字
典，根据字典的稀疏表示特性，最后一层字典是稀疏表示的，即本方法第二层字典是稀疏表示的，因此Ω2是稀疏的；为了方便和求解Ω2的稀疏性，假设Ω2由两个矩阵S，Z的哈达玛乘积(Hadamard product)组成(哈达玛乘积用符号⊙表示)，即S，Z的维度与Ω2完全相同，同位置的元素相乘得到Ω2；假设矩阵S是非稀疏的随机变量，维度为K2×N，S＝{s1，s2，s3，...，si，...，sN}(i＝1，2，...N)，随机向量si服从的高斯分布；Z是具有稀疏信息的
0，1矩阵，对应于S，需要的信息位置元素为1，不需要的信息对应位置上元素值为0；Z的维度是K2×N，Z＝{z1，z2，z3，...，zi，...，zN}，i＝1，2，...，N，由于Z矩阵上元素的值为0，1的特殊性，假设列向量zi中的每一个元素zik都服从参数为πk的伯努利分布Bernoulli(πk)，即zik＝
1的概率为πk，zik＝0的概率为1-πk当对于有K2个元素的zi，其概率为
其中γs服从参数为a0，b0伽马分布Γ(a0，b0)，γ2s服从参数为c0，d0的伽马分布Γ(c0，d0)，πk服从贝塔分布
第二层字典学习模型表示为：
ω1i＝D2ω2i+ε2i
ω2i＝si⊙zi
γs～Γ(a0，b0)
γ2s～Γ(c0，d0)  (10)
用最大似然估计法得到第二层字典学习模型的目标函数，所有随机变量的联合概率分
布为：
目标函数是：
与第一层字典学习同样的方法，吉布斯采样法，求解目标函数；
S3.2目标函数求解
S3.2.1d2k采样
对d2k求解时，其他的随机变量看作常数，联合分布(11)写成：
展开写成：
其中
根据上式看出d2k服从高斯分布，因此表示该高斯分布的均值为协方差为即：
展开为：
对照得到：
S3.2.2sik采样
对sik采样时，其他的随机变量看作常数，则联合分布(11)可以写成：
展开为：
其中
sik服从高斯分布，其均值表示为μs，方差表示为σs，即：
展开为：
对照得：
S3.2.3zi采样
对zi采样时，把其他随机变量都看作常量，联合概率分布(11)可以写成：
令zik＝1时，P(zik|-)∝p1，则：
当zik＝0时P(zik|-)∝p0，则：
zi只有0，1两种状态，为1的概率正比于p1，为0概率正比于p0，因此：
S3.2.4πk采样
对πk采样时，其他随机变量看作常量，联合概率分布式(11)写成：
从结果看出πk仍然服从贝塔分布，因此：
S3.2.5γs采样
对γs采样时，其他随机变量被看作为常数，联合概率分布(15)写为：
从结果中发现随机变量γ2s的后验概率仍然服从伽马分布，因此：
S3.2.6γ2ε采样
对γ2s采样时，其他随机变量当作常量对待，联合概率分布(11)写作：
从结果中发现随机变量γ2s的后验概率仍然服从伽马分布，因此：
四个采样过程交替迭代，循环多次，最终可以得到d2k，ω2i，si，zi，γω，γ1s四个随机变量的最优解，即D2，Ω2，S，Z，γs，γ2s；而第二层去噪之后的重构的Ω2为：
是进一步去噪后重构的结果，相比于第一层直接得到的Ω1更优，用替代(13)式中
的Ω1，可以构成新的X，为了区别于(13)式中的再次重构的记作
结合(27)式，得：
由于这两层字典学习过程是非线性的，所以D1和D2两个字典不能合并成一个而只求一
个字典。

说明书全文

一种基于Beta先验过程的深度字典学习方法

技术领域

[0001] 本发明涉及深度字典学习领域，尤其是一种基于Beta先验过程的深度字典学习方法。

背景技术

[0002] 随着人工智能，机器学习的发展热潮，稀疏表示字典学习作为机器学习的众多算法之一，经过十几年的发展，已经较为成熟，在图像降噪、分类、人脸识别等领域都有广泛的应用。与此同时，机器学习的学者们发现，随着学习层数的加深，可以得到更好的表达效果，比如深度置信网络(Deep Belief Network)和堆叠自动编码器(stacked autoencoder)，因此，深度字典学习应运而生。深度字典学习经过这两年的发展，已经陆续有人在一些方面做了应用，比如跨模态检索、多标签分类等，但是并不广泛；对深度字典的求解方法也仅仅是算术方法，比如优化最小化算法求解深度字典，而概率求解深度字典的方法尚未出现。

[0003] 受字典学习的概率求解方法启发，本发明提出一种利用非参数贝叶斯技术求解深度字典的方法。与算术方法求解深度字典相比，本方法不需要提前预知样本中噪声的方差信息和样本的信任程度，这一点更加符合实际的应用。与非参数贝叶斯技术求解稀疏表示的方法相比，本方法解决的是深度字典问题，其难度更大，运算量更大，可以挖掘样本数据的深层属性，能够更好对样本进行表达。

发明内容

[0004] 本发明提出一种基于Beta先验过程的深度字典学习方法。与传统字典学习不同的是本发明是针对深度字典的一种求解方法，与其他深度字典求解方法不同的是，本发明是用Beta先验过程求解的深度字典，这是一种概率求解方法。由于传统字典学习在对去噪声数据的表示时，并不能完全把噪声去除，在表示中还留有一定噪声，所以利用深度字典对原始数据中的噪声多次去噪。与算数方法求解深度字典不同的是，本发明采用了基于Beta先验过程的概率方法，把噪声、字典、表示三者假设为不同的高斯分布作为先验分布，采用最大似然估计法得到目标函数，用吉布斯采样方法对目标函数求解，通过反复迭代得到最优解，从而有效的去噪。

[0005] 本发明采用的技术方案为一种基于Beta先验过程的深度字典学习方法，该方法的具体实施过程如下：

[0006] S1深度字典

[0007] 深度字典学习是在传统字典基础上，针对其中的表示，再次进行字典学习。传统字典学习表示为：X＝DΩ，其中X为样本输入，D是字典，Ω。针对其中的表示Ω再次进行字典学习，为了方便把深度学习中第一层字典学习用X＝D1Ω1表示，则第二层Ω1＝D2Ω2，第三层是针对第二层的表示Ω2进行字典学习：

[0008] Ω2＝D3Ω3，第四层第五层一直到第n层都是这样处理，第n层为Ωn-1＝DnΩn。用这n层表达样本则表示为：X＝D1D2D3...DnΩn。D1D2...Dn这多个字典不能合并为一个，因为这个深度字典的学习过程是非线性的[Greedy Deep Dictionary Learning]。

[0009] 与传统字典学习相似的是，深度字典也可以有代数方法求解，比如[Greedy Deep Dictionary Learning]，也可以用概率的方法求解。本方法提出的是一种利用概率的方法进行深度字典学习的方法，并把它应用在图像降噪上。

[0010] 假设干净无噪声的图像表示为X＝D1D2D3...DnΩn，噪声则分布在每一层上，即第一层X＝D1Ω1+ε1，其中ε1是第一层的噪声；第二层是Ω1＝D2Ω2+ε2，其中ε2是第二层的噪声；第n层的噪声表示为εn，字典表示为Ωn-1＝DnΩn+εn。只有第n层的字典是稀疏的，前n-1层的字典都是非稀疏的。n＝2时，则第一层非稀疏，第二层即最后层稀疏，在n＞2时，前n-1层都与第一层求解相同，第n层都与第二层求解相同。

[0011] S2第一层字典学习

[0012] S2.1模型与目标函数

[0013] 样本X是由N个列向量{x1，x2，…，xi，…，xN}构成，列向量xi是P1维的随机向量。第一层X＝D1Ω1+ε1中D1表示第一层字典，D1是P1×K的矩阵，P1是第一层字典行数，K是字典D1的列数，D1＝{d11，d12，…，d1k，…，d1K}，d1k的脚标中“1”表示第一层字典，“k”表示第k列，一共有K列。假设随机向量d1k服从均值为0，协方差矩阵为的高斯分布；表示Ω1是K×N的矩阵，即N个列向量{ω11，ω12，…，ω1i，…，ω1N}，假设ω1i服从均值为0，协方差矩阵的高斯分布；噪声ε1与样本规格一样{ε11，ε12，…，ε1i，…，ε1N}，列向量ε1i也是P1维的，假设服从均值为0，协方差矩阵为的高斯分布；其中γω服从形状参数为a0，尺度参数为b0的伽马分布，γ1s服从形状参数为c0，尺度参数为d0的伽马分布。深度字典学习的第一层模型写成：

[0014] xi＝D1ω1i+ε1i

[0015]

[0016]

[0017]

[0018] γω～Γ(a0，b0)

[0019] γ1s～Γ(c0，d0) (1)

[0020] 用最大似然估计法对随机变量采样。这些随机变量是未知的，如果这些假设成立，那么这些随机变量在等于某些值时样本出现的概率最大，即这些随机变量的联合概率达到最大时，随机变量的取值能最好的表达降噪后的图像。所有随机变量的联合概率分布表示为P(X，D1，Ω1，γω，γs)：

[0021]

[0022]

[0023] 因此目标函数为：

[0024]

[0025] 采用吉布斯采样(The Gibbs sampling)的方法求解目标函数。

[0026] S2.2吉布斯采样法求解目标函数

[0027] S2.2.1 d1k采样

[0028] 对d1k采样时，把其他的随机变量看作常量，根据联合概率分布式(1)写成式(2)的形式。

[0029]

[0030]

[0031] 其中:

[0032] 故：

[0033] d1k服从高斯分布，假设均值为协方差为即

[0034]

[0035]

[0036]

[0037] (3)、(4)两式对照得

[0038]

[0039] S2.2.2ω1i采样

[0040] 对ω1i采样时，把其他的随机变量看作常量，根据联合概率分布式(2)写成如下式：

[0041]

[0042] 看出ω1i服从高斯分布，假设均值为协方差为即：

[0043]

[0044] 对照得：

[0045]

[0046] S2.2.3γω采样

[0047] 对γω采样时，把其他的随机变量看作常量，根据联合概率分布式(2)写成下式：

[0048]

[0049] 从结果式发现γω的后验概率仍然服从伽马分布，写成：

[0050]

[0051] S2.2.4γ1s采样

[0052] 对γ1s采样时，把其他的随机变量看作常量，根据联合概率分布(2)可以写成

[0053] 如下：

[0054]

[0055] 从结果式中发现随机变量γ1s的后验概率仍然服从伽马分布，写为：

[0056]

[0057] 四个采样过程交替迭代，循环多次，最终得到d1k，ω1i，γω，γ1s四个随机变量的最优解，即D1，Ω1，γω，γs。而第一层去噪之后的重构的图像为：

[0058]

[0059] S3第二层字典学习

[0060] S3.1模型与目标函数

[0061] 发现重构出效果并不十分理想，分析在Ω1中有残留的噪声，因此需要了第二层甚至更多层字典学习。第二层字典学习是对第一层字典学习中的表示Ω1进行字典学习，因此第二层的样本是Ω1。可以理解为第一层字典学习过程中的表示ω1i中还有噪声没有去除干净，假设这个噪声服从是服从高斯分布的随机向量ε2i；而ω1i不带噪声部分表示为D2ω2i,D2是第二层字典，是对应的表示ω2i。则第二层的样本用公式表示为：

[0062] Ω1＝D1Ω2+ε2 (9)

[0063] 从第一层字典学习得知Ω1是P2×N的矩阵，即Ω1是由N列维度为P2的列向量ω1i组成：Ω1＝{ω11，ω12，ω13，...，ω1i，...，ω1N}(i＝1，2，...，N)；D2是P2×K2的矩阵，可以看成是K2列维度为P2的列向量d2k组成： (k＝1，...，K2)，d2k服从的高斯分布；ω2i的维度是K2×N即N个维度K2的列向量ω2i：Ω2＝{ω21，
ω22，ω23，...，ω2i，...，ω2N}(i＝1，2，...，N)；噪声ε2是与样本Ω1维度相同的矩阵，每一列ω1i都对应一列ε2i。

[0064] 由于本方法以两层字典解释深度字典，因此在本方法中第二层字典也是最后一层字典，根据字典的稀疏表示特性，最后一层字典是稀疏表示的，即本方法第二层字典是稀疏表示的，因此Ω2是稀疏的。为了方便和求解Ω2的稀疏性，假设Ω2由两个矩阵S，Z的哈达玛乘积(Hadamard product)组成(哈达玛乘积用符号⊙表示)，即S，Z的维度与Ω2完全相同，同位置的元素相乘得到Ω2。假设矩阵S是非稀疏的随机变量，维度为K2×N，S＝{s1，s2，s3，...，si，...，sN}(i＝1，2，...N)，随机向量si服从的高斯分布；Z是具有稀疏信息的0，1矩阵，对应于S，需要的信息位置元素为1，不需要的信息对应位置上元素值为0。Z的维度是K2×N，Z＝{z1，z2，z3，...，zi，...，zN}，i＝1，2，...，N，由于Z矩阵上元素的值为0,1的特殊性，假设列向量zi中的每一个元素zik都服从参数为πk的伯努利分布Bernoulli(πk)，即zik＝1的概率为πk，zik＝0的概率为1-πk当对于有K2个元素的zi，其概率为

[0065] 其中γs服从参数为a0，b0伽马分布Γ(a0，b0)，γ2s服从参数为c0，d0的伽马分布Γ(c0，d0)，πk服从贝塔分布

[0066] 第二层字典学习模型表示为：

[0067] ω1i＝D2ω2i+ε2i

[0068] ω2i＝si⊙zi

[0069]

[0070]

[0071]

[0072]

[0073]

[0074] γs～Γ(a0，b0)

[0075] γ2s～Γ(c0，d0) (10)

[0076] 用最大似然估计法得到第二层字典学习模型的目标函数，所有随机变量的联合概率分布为：

[0077]

[0078] 目标函数是：

[0079]

[0080] 与第一层字典学习同样的方法，吉布斯采样法，求解目标函数。

[0081] S3.2目标函数求解

[0082] S3.2.1 d2k采样

[0083] 对d2k求解时，其他的随机变量看作常数，联合分布(11)写成：

[0084]

[0085] 展开写成：

[0086]

[0087] 其中

[0088] 根据上式看出d2k服从高斯分布，因此表示该高斯分布的均值为协方差为即：

[0089]

[0090] 展开为：

[0091]

[0092] 对照得到：

[0093]

[0094] S3.2.2 sik采样

[0095] 对sik采样时，其他的随机变量看作常数，则联合分布(11)可以写成：

[0096]

[0097] 展开为：

[0098]

[0099] 其中

[0100] sik服从高斯分布，其均值表示为μs，方差表示为σs，即：

[0101]

[0102] 展开为：

[0103]

[0104] 对照得：

[0105]

[0106] S3.2.3 zi采样

[0107] 对zi采样时，把其他随机变量都看作常量，联合概率分布(11)可以写成：

[0108]

[0109] 令zik＝1时，P(zik|-)∝p1，则：

[0110]

[0111] 当zik＝0时P(zik|-)∝p0，则：

[0112]

[0113] zi只有0，1两种状态，为1的概率正比于p1，为0概率正比于p0，因此：

[0114]

[0115] S3.2.4πk采样

[0116] 对πk采样时，其他随机变量看作常量，联合概率分布式(11)写成：

[0117]

[0118] 从结果看出πk仍然服从贝塔分布，因此：

[0119]

[0120] S3.2.5γs采样

[0121] 对γs采样时，其他随机变量被看作为常数，联合概率分布(15)写为：

[0122]

[0123] 从结果中发现随机变量γ2s的后验概率仍然服从伽马分布，因此：

[0124]

[0125] S3.2.6γ2s采样

[0126] 对γ2s采样时，其他随机变量当作常量对待，联合概率分布(11)写作：

[0127]

[0128] 从结果中发现随机变量γ2s的后验概率仍然服从伽马分布，因此：

[0129]

[0130] 四个采样过程交替迭代，循环多次，最终可以得到d2k，ω2i，si，zi，γω，γ1s四个随机变量的最优解，即D2，Ω2，S，Z，γs，γ2s。而第二层去噪之后的重构的Ω2为：

[0131]

[0132] 是进一步去噪后重构的结果，相比于第一层直接得到的Ω1更优，用替代⒀式中的Ω1，可以构成新的X，为了区别于⒀式中的再次重构的记作

[0133]

[0134] 结合(27)式，得：

[0135]

[0136] 由于这两层字典学习过程是非线性的，所以D1和D2两个字典不能合并成一个而只求一个字典。

[0137] 本发明提出了一种基于beta过程的非参数深度字典学习方法。这种深度字典的分层模型可以利用吉布斯采样更新所有变量的后验分布。由于深度字典是直接通过样本数据学习到的，因此这种深度字典充分利用了原始数据的结构信息。另外通过非参数贝叶斯推断可以学习出重构误差的方差。附图说明

[0138] 图1两层的非参数Beta先验过程的深度字典学习流程图。

[0139] 图2非参数Beta先验过程的深度字典学习代码流程图。

[0140] 图3非参数Beta先验过程的深度字典学习模型的第一层字典学习算法过程。

[0141] 图4非参数Beta先验过程的深度字典学习模型的第二层字典学习算法过程。

具体实施方式

[0142] 以下结合附图和实施例对本发明进行详细说明。

[0143] 如图1-4所示，本发明提出一种基于Beta先验过程的深度字典学习方法。与传统字典学习不同的是本发明是针对深度字典的一种求解方法，与其他深度字典求解方法不同的是，本发明是用Beta先验过程求解的深度字典，这是一种概率求解方法。由于传统字典学习在对去噪声数据的表示时，并不能完全把噪声去除，在表示中还留有一定噪声，所以利用深度字典对原始数据中的噪声多次去噪。与算数方法求解深度字典不同的是，本发明采用了基于Beta先验过程的概率方法，把噪声、字典、表示三者假设为不同的高斯分布作为先验分布，采用最大似然估计法得到目标函数，用吉布斯采样方法对目标函数求解，通过反复迭代得到最优解，从而有效的去噪。

[0144] 本发明采用的技术方案为一种基于Beta先验过程的深度字典学习方法，该方法的具体实施过程如下：

[0145] S1深度字典

[0146] 深度字典学习是在传统字典基础上，针对其中的表示，再次进行字典学习。传统字典学习表示为：X＝DΩ，其中X为样本输入，D是字典，Ω。针对其中的表示Ω再次进行字典学习，为了方便把深度学习中第一层字典学习用X＝D1Ω1表示，则第二层Ω1＝D2Ω2，第三层是针对第二层的表示Ω2进行字典学习：

[0147] Ω2＝D3Ω3，第四层第五层一直到第n层都是这样处理，第n层为Ωn-1＝DnΩn。用这n层表达样本则表示为：X＝D1D2D3...DnΩn。D1D2...Dn这多个字典不能合并为一个，因为这个深度字典的学习过程是非线性的[Greedy Deep Dictionary Learning]。

[0148] 与传统字典学习相似的是，深度字典也可以有代数方法求解，比如[Greedy Deep Dictionary Learning]，也可以用概率的方法求解。本方法提出的是一种利用概率的方法进行深度字典学习的方法，并把它应用在图像降噪上。

[0149] 假设干净无噪声的图像表示为X＝D1D2D3...DnΩn，噪声则分布在每一层上，即第一层X＝D1Ω1+ε1，其中ε1是第一层的噪声；第二层是Ω1＝D2Ω2+ε2，其中ε2是第二层的噪声；第n层的噪声表示为εn，字典表示为Ωn-1＝DnΩn+εn。只有第n层的字典是稀疏的，前n-1层的字典都是非稀疏的。n＝2时，则第一层非稀疏，第二层即最后层稀疏，在n＞2时，前n-1层都与第一层求解相同，第n层都与第二层求解相同。

[0150] S2第一层字典学习

[0151] S2.1模型与目标函数

[0152] 样本X是由N个列向量{x1，x2，…，xi，…，xN}构成，列向量xi是P1维的随机向量。第一层X＝D1Ω1+ε1中D1表示第一层字典，D1是P1×K的矩阵，P1是第一层字典行数，K是字典D1的列数，D1＝{d11，d12，…，d1k，…，d1K}，d1k的脚标中“1”表示第一层字典，“k”表示第k列，一共有K列。假设随机向量d1k服从均值为0，协方差矩阵为的高斯分布；表示Ω1是K×N的矩阵，即N个列向量{ω11，ω12，…，ω1i,…，ω1N}，假设ω1i服从均值为0，协方差矩阵的高斯分布；噪声ε1与样本规格一样{ε11，ε12，…，ε1i，…，ε1N}，列向量ε1i也是P1维的，假设服从均值为0，协方差矩阵为的高斯分布；其中γω服从形状参数为a0，尺度参数为b0的伽马分布，γ1s服从形状参数为c0，尺度参数为d0的伽马分布。深度字典学习的第一层模型写成：

[0153] xi＝D1ω1i+ε1i

[0154]

[0155]

[0156]

[0157] γω～Γ(a0，b0)

[0158] γ1s～Γ(c0，d0) (1)

[0159] 用最大似然估计法对随机变量采样。这些随机变量是未知的，如果这些假设成立，那么这些随机变量在等于某些值时样本出现的概率最大，即这些随机变量的联合概率达到最大时，随机变量的取值能最好的表达降噪后的图像。所有随机变量的联合概率分布表示为P(X，D1，Ω1，γω，γs)：

[0160]

[0161] 因此目标函数为：

[0162]

[0163] 采用吉布斯采样(The Gibbs sampling)的方法求解目标函数。

[0164] S2.2吉布斯采样法求解目标函数

[0165] S2.2.1 d1k采样

[0166] 对d1k采样时，把其他的随机变量看作常量，根据联合概率分布式(1)写成式(2)的形式。

[0167]

[0168]

[0169] 其中:

[0170] 故：

[0171] d1k服从高斯分布，假设均值为协方差为即

[0172]

[0173]

[0174]

[0175] (3)、(4)两式对照得

[0176]

[0177] S2.2.2ω1i采样

[0178] 对ω1i采样时，把其他的随机变量看作常量，根据联合概率分布式(2)写成如下式：

[0179]

[0180] 看出ω1i服从高斯分布，假设均值为协方差为即：

[0181]

[0182] 对照得：

[0183]

[0184]

[0185] S2.2.3γω采样

[0186] 对γω采样时，把其他的随机变量看作常量，根据联合概率分布式(2)写成下式：

[0187]

[0188] 从结果式发现γω的后验概率仍然服从伽马分布，写成：

[0189]

[0190] S2.2.4γ1s采样

[0191] 对γ1s采样时，把其他的随机变量看作常量，根据联合概率分布(2)可以写成

[0192] 如下：

[0193]

[0194] 从结果式中发现随机变量γ1s的后验概率仍然服从伽马分布，写为：

[0195]

[0196] 四个采样过程交替迭代，循环多次，最终得到d1k，ω1i，γω，γ1s四个随机变量的最优解，即D1，Ω1，γω，γs。而第一层去噪之后的重构的图像为：

[0197]

[0198] S3第二层字典学习

[0199] S3.1模型与目标函数

[0200] 发现重构出效果并不十分理想，分析在Ω1中有残留的噪声，因此需要了第二层甚至更多层字典学习。第二层字典学习是对第一层字典学习中的表示Ω1进行字典学习，因此第二层的样本是Ω1。可以理解为第一层字典学习过程中的表示ω1i中还有噪声没有去除干净，假设这个噪声服从是服从高斯分布的随机向量ε2i；而ω1i不带噪声部分表示为D2ω2i,D2是第二层字典，是对应的表示ω2i。则第二层的样本用公式表示为：

[0201] Ω1＝D1Ω2+ε2 (9)

[0202] 从第一层字典学习得知Ω1是P2×N的矩阵，即Ω1是由N列维度为P2的列向量ω1i组成：Ω1＝{ω11，ω12，ω13，...，ω1i，...，ω1N}(i＝1，2，...，N)；D2是P2×K2的矩阵，可以看成是K2列维度为P2的列向量d2k组成： (k＝1，...，K2)，d2k服从的高斯分布；ω2i的维度是K2×N即N个维度K2的列向量ω2i：Ω2＝{ω21，
ω22，ω23，...，ω2i，...，ω2N}(i＝1，2，...，N)；噪声ε2是与样本Ω1维度相同的矩阵，每一列ω1i都对应一列ε2i。

[0203] 由于本方法以两层字典解释深度字典，因此在本方法中第二层字典也是最后一层字典，根据字典的稀疏表示特性，最后一层字典是稀疏表示的，即本方法第二层字典是稀疏表示的，因此Ω2是稀疏的。为了方便和求解Ω2的稀疏性，假设Ω2由两个矩阵S，Z的哈达玛乘积(Hadamard product)组成(哈达玛乘积用符号⊙表示)，即S，Z的维度与Ω2完全相同，同位置的元素相乘得到Ω2。假设矩阵S是非稀疏的随机变量，维度为K2×N，S＝{s1，s2，s3，...，si，sN}(i＝1，2，...N)，随机向量si服从的高斯分布；Z是具有稀疏信息的0，1矩阵，对应于S，需要的信息位置元素为1，不需要的信息对应位置上元素值为0。Z的维度是K2×N，Z＝{z1，z2，z3，...，zi，...，zN}，i＝1，2，...，N，由于Z矩阵上元素的值为0,1的特殊性，假设列向量zi中的每一个元素zik都服从参数为πk的伯努利分布Bernoulli(πk)，即zik＝1的概率为πk，zik＝0的概率为1-πk当对于有K2个元素的zi，其概率为

[0204] 其中γs服从参数为c0，d0伽马分布Γ(a0，b0)，γ2s服从参数为c0，d0的伽马分布Γ(c0，d0)，πk服从贝塔分布

[0205] 第二层字典学习模型表示为：

[0206] ω1i＝D2ω2i+ε2i

[0207] ω2i＝si⊙zi

[0208]

[0209]

[0210]

[0211]

[0212]

[0213] γs～Γ(a0，b0)

[0214] γ2s～Γ（C0，d0) (10)

[0215] 用最大似然估计法得到第二层字典学习模型的目标函数，所有随机变量的联合概率分布为：

[0216]

[0217] 目标函数是：

[0218]

[0219] 与第一层字典学习同样的方法，吉布斯采样法，求解目标函数。

[0220] S3.2目标函数求解

[0221] S3.2.1 d2k采样

[0222] 对d2k求解时，其他的随机变量看作常数，联合分布(11)写成：

[0223]

[0224] 展开写成：

[0225]

[0226] 其中

[0227] 根据上式看出d2k服从高斯分布，因此表示该高斯分布的均值为协方差为即：

[0228]

[0229] 展开为：

[0230]

[0231] 对照得到：

[0232]

[0233] S3.2.2 sik采样

[0234] 对sik采样时，其他的随机变量看作常数，则联合分布(11)可以写成：

[0235]

[0236] 展开为：

[0237]

[0238] 其中

[0239] sik服从高斯分布，其均值表示为μs，方差表示为σs，即：

[0240]

[0241] 展开为：

[0242]

[0243] 对照得：

[0244]

[0245] S3.2.3 zi采样

[0246] 对zi采样时，把其他随机变量都看作常量，联合概率分布(11)可以写成：

[0247]

[0248] 令zik＝1时，P(zik|-)∝p1，则：

[0249]

[0250] 当zik＝0时P(zik|-)∝p0，则：

[0251]

[0252] zi只有0，1两种状态，为1的概率正比于p1，为0概率正比于p0，因此：

[0253]

[0254] S3.2.4πk采样

[0255] 对πk采样时，其他随机变量看作常量，联合概率分布式(11)写成：

[0256]

[0257] 从结果看出πk仍然服从贝塔分布，因此：

[0258]

[0259] S3.2.5γs采样

[0260] 对γs采样时，其他随机变量被看作为常数，联合概率分布(15)写为：

[0261]

[0262] 从结果中发现随机变量γ2s的后验概率仍然服从伽马分布，因此：

[0263]

[0264] S3.2.6γ2s采样

[0265] 对γ2s采样时，其他随机变量当作常量对待，联合概率分布(11)写作：

[0266]

[0267] 从结果中发现随机变量γ2s的后验概率仍然服从伽马分布，因此：

[0268]

[0269] 四个采样过程交替迭代，循环多次，最终可以得到d2k，ω2i，si，zi，γω，γ1s四个随机变量的最优解，即D2，Ω2，S，Z，γs，γ2s。而第二层去噪之后的重构的Ω2为：

[0270]

[0271] 是进一步去噪后重构的结果，相比于第一层直接得到的Ω1更优，用替代⒀式中的Ω1，可以构成新的X，为了区别于⒀式中的再次重构的记作

[0272]

[0273] 结合(27)式，得：

[0274]

[0275] 由于这两层字典学习过程是非线性的，所以D1和D2两个字典不能合并成一个而只求一个字典。

[0276] 本发明提出了一种基于beta过程的非参数深度字典学习方法。这种深度字典的分层模型可以利用吉布斯采样更新所有变量的后验分布。由于深度字典是直接通过样本数据学习到的，因此这种深度字典充分利用了原始数据的结构信息。另外通过非参数贝叶斯推断可以学习出重构误差的方差。

标题	发布/更新时间	阅读量
一种基于通用逆扰动防御矩阵的对抗攻击防御方法	2020-06-03	2
射频识别终端及其使用方法	2020-07-09	0
一种基于深度学习的全自动电路板缺陷检测系统及方法	2020-07-18	2
一种基于深度学习的航道内运动船舶目标检测方法	2022-01-15	0
结合人工智能的宠物盆栽系统	2022-08-24	1
一种HDMI多媒体数据质量评测方法、装置和系统	2020-08-20	3
一种基于深度学习的肺结节良恶性识别方法	2020-08-24	1
一种刻蚀图形的分析系统及方法	2021-02-22	2
一种人体体内声音收集处理方法及系统	2021-02-01	0
基于深度学习的软笔书法临摹评价方法	2021-02-25	2

一种基于Beta先验过程的深度字典学习方法

一种基于Beta先验过程的深度字典学习方法

技术领域

背景技术

发明内容

具体实施方式

个人版

专业版

企业版