[0065] WC:||w||≥R2
[0066] 依据前向传播计算过程可知,权重空间WA中的权重由于其模值太小,在前向传播过程中贡献的激活值也会很小,对特征学习具有较小的作用;权重空间WC中的权重模值太大,在前向传播过程中贡献的激活值会
覆盖大多数计算节点的作用,包含某些特例信息。因此,可以得出历史数据中的特征主要包含于权重空间WB中权值。依据增量学习的性质,所以在增量训练过程中,应该尽可能训练权值空间WA和WC中权值点,同时尽可能地保护权重空间WB中权值点。因此,为了实现上述协调训练,本发明设计了一个增强的dropout方法。
[0067] 为每一个权重空间中的计算节点分配一个概率
开关,从而随机控制每个权重点在前向传播和反向传播过程中出现几率,如下:
[0068] w∈WA~Bernouli(pA) (12)
[0069] w∈WB~Bernouli(pB),pA>pC>pB
[0070] w∈WC~Bernouli(pC)
[0071] 这样使得空闲节点组成的网络在新数据中得到充分训练,从而学习新的特征,增强dropout前向传播过程如下:
[0072] 1)根据公式(12)为每个全连接层生成由0与1组成的开关张量M,控制在每次训练过程中组成训练网络的节点。
[0073] 2)由初始参数增量更新网络参数:
[0074]
[0075] 其中,ΔW表示W的增量;表示张量与向量的元素乘积。
[0076] 3)计算全连接层的输出:
[0077]
[0078] 其中 和分⊙别表示张量间的元素乘积和张量间的多点乘积。
[0079] 增强的dropout反向传播过程如下:
[0080] 1)计算
输出层中每个计算单元的Δδl如下:
[0081]
[0082] 其中,δl表示输出层传播损失;a(l)表示网络的输出值;y(l)表示实例标签;z(l)表示网络第l-1层加权激活值和;f`(z(l))表示非线性函数导数;JDCCM表示网络的总体代价函数。
[0083] 2)计算其他全连接层计算单元的Δδl如下:
[0084]
[0085] 其中,δt表示第l层的传播损失;Wl表示第l层权重;f`(z(l))表示非线性函数导数。
[0086] 3)计算每层权重和偏执的更新值如下:
[0087]
[0088] 其中,A表示本层激活值张量;Ml表示第l层开关张量; 表示扩张后与本层激活值相同阶数与维数的损失张量;Δbl表示第l层偏置张量。
[0089] 融合训练,用于将模型学习到的新知识与历史知识融合,具体步骤为从全部数据集中随机抽样部分数据,然后使用高阶反向传播算法在抽样数据集上训练增量训练后的无dropout深度卷积计算模型。
[0090] 参数更新算法主要步骤如下:
[0091] 1)计算参数初始化增量。通过高阶前向传播计算深度卷积计算模型输出值计算模型的输出值与输入参数y的差值Δy;通过高阶反向传播算法计算模型输出值 对全连接层参数θ的偏导数 计算全连接层参数增量Δθ。
[0092] 2)增量训练。通过dropout方法生成控制张量,执行增量训练算法,着重更新权重较小节点组成的子网的参数,使全链接网络组合学习新数据中特征。
[0093] 3)融合训练。通过对全部数据集随机抽样生成训练子集,然后在子集上对无dropout的模型执行高阶反向传播算法,更新网络全连接层参数,将新旧知识融合。更具体的算法如下:
[0094]
[0095] 通过参数更新算法的步骤可知,在参数增量在保证适应性和保持性的同时减少了增量训练的时间,增量训练在保护历史知识的同时利用全连层中空闲网络学习新数据的特征,进一步提高了模型的适应性和保持性,算法中的融合训练利用较少的历史数据和新数据融合模型新旧知识。除此之外,主要运算是计算全链接层的参数更行,因此,算法的时间复杂度要远远低于静态的深度卷积计算模型,所以参数更新速度能够在最大程度上满足大数据特征学习的实时性要求。
[0096] 结构更新算法,通过设计张量卷积、抽样以及全连接层地更新规则有效地结合历史知识从而快速地学习动态大数据地特征。根据深度卷积计算模型的定义,网络的结构由全连接层网络和限制层网络组成。根据模型的后向设计原则,本发明首先阐述全连层网络的更新规则,然后在阐述限制层网络更新规则。
[0097] 根据深度卷积计算模型的定义可知,对于网络结构而言,两层神经网络是深度卷积计算模型全连接层最简单的形式。本发明首先阐述两层神经网络的结构更新方法,进而将其扩展到高阶张量空间,获得高阶深度卷积计算模型全连接层结构更新算法的一般形式。
[0098] 对于一个具有m个输入特征和n个输出特征的两层神经网络,其模型结构如图1所示。该模型参数θ={W,b},具有如下形式:
[0099] W∈Rn×m,b∈Rn (10)
[0100] 对于图1显示的两层神经网络,当p个神经元添加到网络的
输入层,q个神经与添加到网络的输出后,其结构变成如图2所示。
[0101] 当网络中每层增加神经元后,需要调整参数形式,以适应网络的连接。具体地说,权重矩阵W分别需要增加p行和q列,即W∈R(n+q)×(n+p);同时偏置向量b需要增加一个分量,即b∈Rn+q。
[0102] 对于上述两层神经网络而言,增加输入输出层神经元后,本发明首先将原始权重矩阵中的值复制到更新后的权重矩阵的对应
位置,然后将新增参数初始值设置为接近于0,服从正态分布的随机数。类似地,首先将原始偏置的元素复制到新偏置的对应位置,然后将新增偏置初始化为1。设两层神经网络当前参数为θ={W,b},增加p个神经元添加到网络的输入层,q个神经与添加到网络的输出后的参数初始形式如下:
[0103]
[0104] 更新结构后,以θupdated={Wupdated,bupdated}为初始参数,利用反向传播算法求得全连接层的最终参数。
[0105] 接下来,本发明将两层神经网络更新算法扩展到高阶空间,设计基于增加中间层计算单元的高阶全连接层结构更新算法。对于两层神经网络而言,一次可以增加一个或者多个计算单元。然而,高阶全连接层网络地定义基于张量多点乘积,向网络里添加计算节点时,为了保持张量多点乘积的正确性,一次能够增加的计算层的数目取决于高阶全连接层的结构。为了能够实现向网络中添加任意数量的计算节点,本发明在增加计算节点的同时引入虚拟计算节点,具体过程如下:
[0106] 对于一个输入层结构为 输出层结构为 为的两层高阶全连接网络,其参数θ={W,b}的形式为:
[0107]
[0108] 其中,R表示实数集;J表示张量的阶数。
[0109] 对于该两层全连接网络,在增加任意数量计算单元M到输入层时,为了保证计算结构正确性同时增加N个虚拟计算节点,N的计算如下:
[0110]
[0111] N=L×I2×I3…IN-M
[0112] 其中, 表示向上取整函数。更新后的网络模型θ={W,b}形式变为:
[0113]
[0114]
[0115] 类似地,当增加任意数量计算单元M到输出层时,网络的参数θ={W,b}更新为:
[0116]
[0117]
[0118] 更一般地,当增加任意数量M1计算单元到输入层M2计算节点到输出层时,更新后的模型参数 形式变为:
[0119]
[0120]
[0121] 下面给出深度卷积计算模型限制网络的结构更新规则。限制网络的结构更新主要体现在卷积核与抽样核的更新。对于3所示的3层网络为最典型的高阶限制层网络。
[0122] 对于图3所示的典型高阶限制网络,输入特征为 张量,卷积核张量由s个子卷积核 组成,抽样核张量由s个子抽样核组成,该限制网络的参数具有如下形式:
[0123]
[0124] 其中Kc、Kp、Oc以及Op分别为模型(N+1)阶卷积核、抽样核,卷积层输出以及抽样层输出;H表示输出层阶数。
[0125] 保持模型输入特征张量 不变,在卷积层中增加一个N阶子卷积核kci,同时由于模型的限制,抽样层相应地增加一个N阶子抽样核kpi,由于网络的结构发生变化,网络的参数作出相应变化为:
[0126]
[0127] 更一般的情况,当网络中增加M个卷积核和M个抽样核时,网络的参数变为一下形式:
[0128]
[0129] 结构更新完成后,利用类似于高阶全连接层更新方法初始化更新后的高阶限制网络的参数,即原始张量卷积核和张量抽样核参数保持不变,然后新增分量的张量卷积核和张量抽样核参数初始值设置服从正太接近于0的随机小数。同时由于在网络增加计算节点的过程中很容易产生过度拟合,因此本发明将标准的dropout方法扩展到高阶张量空间,从而增加模型的泛化能力。
[0130] 融合训练,用于将模型学习到的新知识与历史知识融合,具体步骤为从全部数据集中随机抽样部分数据,然后使用高阶反向传播算法在抽样数据集上训练增量训练后的深度卷积计算模型。
[0131] 根据以上分析,深度卷积计算模型结构更新算法的主要步骤如下:
[0132] 1)更新模型结构。根据需求更新深度卷积计算模型的卷积层、抽样层以及全连接层的参数 结构,对网络参数进行初始化,原始参数保持不变,新增节点初始化为服从正太分布的接近0值的小数,虚拟节点参数保持0。
[0133] 2)增量训练。利用dropout方法在全连接层生成控制矩阵,在新数据上利用前向传播计算dropout模型的隐藏层神经元输出值与模型输出值 计算模型输出值与输入数据Y的误差函数 利用高阶反向传播算法计算误差函数 对模型参数
的偏导数,更新dropout网络的参数,直至收敛;
[0134] 3)融合训练。通过对全部数据集随机抽样生成训练子集,然后在子集上对标准dropout模型执行高阶反向传播算法,更新网络抽样层、卷积层以及全连接层参数,将新旧知识融合;详细的结构增量深度卷积计算模型算法的更新过程如下:
[0135]
[0136] 结构增量算法将新引入的参数与原始参数结合作为更新的深度卷积计算模型的初始参数,充分利用原始参数提供的知识,加快参数求解的收敛速度,使得模型快速收敛,实现学习大数据特征快速学习;同时增量训练以及最后的融合训练过程所采用扩展的dropout方法增加了模型泛化能力,有效地阻止了增加计算单元所导致的模型过度拟合。从算法的步骤中可知,结构增量算法主要采用高阶反向传播算法求解网络误差函数对网络参数的偏导数,因此算法的时间复杂度与高阶反向传播算法时间复杂度相同。
[0137] 结合本发明的方案,进行实验分析如下:
[0138] 为了验证本发明的有效性,将用增量式深度卷积计算模型和静态深度卷积计算模型进行对比,验证增量式深度卷积计算模型的有效性。实验数据集采用CIFAR和CUAVE两个典型的分类数据集。
[0139] 在基于张量的数据表示模型中,CIFAR数据集中的每张图片被表示成一个三阶张量。由于CIFAR数据集中数据变化不明显,特征增量小,仅需要通过探索全连接层空闲网络,更新全连接层空闲网络的网络参数学习新数据的特征。因此,本发明使用CIFAR数据集验证参数增量式更新算法的有效性。通过适应性、保持性和更新效率进行验证。
[0140] 为了验证增量式深度计算模型的有效性,根据CIFAR数据集设计如下三个子集:
[0141] 1)S1:
抽取于CIFAR的训练集,包含每个超类下4个子类的数据对象,其用来对模型做初始化训练;
[0142] 2)S2:抽取于CIFAR的训练集,包含每个超类下剩余一个子类的数据对象,其用来对模型做增量化训练;
[0143] 3)S3:抽取于CIFAR的测试集,包含与S1数据对线具有相同标签的对象,其用来测试模型的保持性;
[0144] 4)S4:抽取于CIFAR的测试集,包含与S2数据对线具有相同标签的对象,其用来测试模型的适应性;
[0145] 在实验过程基于以上数据训练子集,可以得到如下训练模型:
[0146] 1)DCCM:深度卷积计算模型由高阶反向传播算法在数据子集s1训练得到的参数集;
[0147] 2)DCCM-PIL-2:深度卷积计算模型由参数增量算法在数据子集s1、s2训练得到的参数集;
[0148] 3)DCCM-3:深度卷积计算模型由高阶反向传播算法在数据子集s1、s2训练得到的参数集;
[0149] 为了验证模型的对新数据的适应性,本发明采用对新数据分类正确率作为验证标准,即将DCCM、DCCM-PIL-2以及DCCM-3参数集对应的模型,在增量数据子集s4执行并统计模型准确率,重复实验5次,实验结果如图4所示。
[0150] 从实验结果可以看出,DCCM-PIL-2参数集对应的模型对新数据的分类精确度远远高于以DCCM作为参数的模型。这是由于基本的深度卷积计算模型是一种静态学习模型,一旦参数确定后,便不再进行更新,因此难以有效学习新数据的特征。与基本深度计算模型不同,增量式深度计算模型以增量的方式对参数进行不断地更新,使得模型能够学习新数据的特征。这表明增量式深度卷积计算模型在对参数进行更新后,能够适应新数据的变化,有效学习新数据的特征。同时,可以看到以DCCM-PIL-2模型与DCCM-3模型对新增数据的产生了相似分类
精度,由于DCCM-3是通过对新数据实例与原始数据整体执行基本深度卷积计算模型获得的结果,包含了所有数据实例的信息,这一点从侧面反应了DCCM-PIL-2对新数据的适应效率。
[0151] 接下来,为了验证模型的对新数据的保持性,本发明采用对新数据分类正确率作为验证标准,即将DCCM、DCCM-PIL-2以及DCCM-3参数集对应的模型,在增量数据子集s3执行并统计模型准确率,重复实验5次,实验结果如图5所示。
[0152] 以上实验结果表明,DCCM、DCCM-PIL-2以及DCCM-3参数模型产生了相似分类精度,这说明了参数增量算法在学习数据特征的同时有效的保护了历史特征信息。DCCM-PIL-2产生分类精度稍低于DCCM和DCCM-3参数模型的分类精度,这是由于DCCM和DCCM-3参数模型一次性在整个历史数据上做的训练,训练完成后参数没有改动,模型中的特征信息没有发生变动,这些结果说明了本发明中参数增量算法具有较好的保持性。
[0153] 上述两个实验结果表明本发明提出的算法通过参数的更新使得更新模型能够有效的学习新数据的特征,同时有效的保持了网络原始知识。
[0154] 接下来,通过收敛时间验证参数增量深度卷积计算模型的收敛性。作为对比,在新增数据集上和抽样数据上对深度卷积计算模型执行增量训练算法得到DCCM-PIL,在全部数据集上其执行高阶反向传播算法得到DCCM-3,实验结果如图6所示。
[0155] 从图6可以看出,DCCM-PIL的训练收敛时间远少于DCCM-3时间,从而可以看出,参数增量收敛速度远远比基本深度计算模型快。两方面原因,一是基本的深度计算模型算法容易受到数据集和初始化的影响,因此收敛不稳定收敛时间长;二是本发明在学习新数据特征时,利用全连接层的空闲网络,捕获相似特征的不同组合,有效利用原有知识,因此在学习新的数据特征的时候,能够快速收敛,从而在一定程度上满足动态变化大数据特征学习的实时性要求。
[0156] 综上所述,本发明提出的算法同时满足增量式学习的两个特性:1)有效地学习新数据的特征,即对新数据的适应性;3)尽可能地保持原始知识,有效学习原始数据的特征,即对历史数据的保持性;在更新参数过程中,充分利用模型的原始知识,快速收敛,提高参数更新效率,最大程度上满足动态变化的大数据特征的实时性。
[0157] 在这本实验中,由于CUAVE中是一个异构数据集,数据集中属于不同类的对象之间差距明显,因此将利用CUAVE这个数据集验证基于结构更新算法的有效性。
[0158] 本发明通过适应性、保持性以及更新收敛效率对结构增量算法结构算法进行验证,因此根据CUAVE数据集设计如下数据子集:
[0159] 1)s1:抽取于CUAVE的训练集,包含具有标签0到标签7的数据对象,其用来对模型做初始化训练;
[0160] 2)s2:抽取于CUAVE的训练集,包含训练集中的剩余对象,即具有标签8和标签9的数据对象,其用来对模型做增量训练;
[0161] 3)s3:抽取于CUAVE的测试集,包含具有标签0到标签7的数据对象,其用来验证模型的保持性;
[0162] 4)s4:抽取于CUAVE的测试集,包含测试集中的剩余对象,即具有标签8和标签9的数据对象,其用于验证模型的适应性。
[0163] 在实验过程基于以上数据训练子集,可以得到如下训练模型:
[0164] 1)DCCM-1:深度卷积计算模型由高阶反向传播算法在数据子集s1训练得到的参数集;
[0165] 2)DCCM-SIL:深度卷积计算模型由结构增量算法在数据子集s1、s2训练得到的参数集;
[0166] 3)DCCM-2:深度卷积计算模型由高阶反向传播算法在数据子集s1、s2训练得到的参数集;
[0167] 为了验证模型的对新数据的适应性,本发明采用对新数据分类正确率作为验证标准,即将DCCM-1、DCCM-SIL以及DCCM-2参数集对应的模型,在增量数据子集s4执行并统计模型准确率,重复实验5次,实验结果如图7所示。
[0168] 从实验结果中可以看出,DCCM-SIL模型对对增量测试子集s4进行分类效果要远远优于DCCM-1模型。具体点,DCCM-SIL模型对增量测试子集s4进行分类平均准确率在90%,相比之下,DCCM-1为模型对增量测试子集s4进行分类平均准确率64%。由于深度卷积计算模型是一种静态的学习模型,在新的数据到来之后,并不会对模型的结构和参数进行更新,没有实时的更新模型知识,无法有效的学习新数据的结构,因此在增量测试子集s4进行分类时,准确率低。本发明设计增量式深度卷积计算模型可以根据新数据的特征分布,动态调整模型的结构与参数,有效学习处于动态变化之中大数据的特征,因此DCCM-SIL模型在增量测试子集s4进行分类得到的准确率明显高于DCCM-1。另外,试验结果还可以得到,DCCM-SIL与在全部数据上以高阶反向传播算法训练得到的模型DCCM-2产生了近似的结果,这一点进一步验证计增量式深度卷积计算模型的有效性。以上试验结果充分说明本发明提出的基于结构更新的增量式学习模型能够适应新数据的变化,有效的学习新数据的特征。
[0169] 接下来,为了验证模型的对历史数据的保持性,本发明采用对历史数据分类正确率作为验证标准,即将DCCM-1、DCCM-SIL以及DCCM-2参数集对应的模型,在历史数据子集s3执行并统计模型准确率,重复实验5次,实验结果如图8所示。
[0170] 从以上实验结果可以看出,DCCM-1、DCCM-SIL以及DCCM-2模型对历史数据集s3具有较好的分类结果,分类准确率达到90%左右,这是因为本发明在更新模型结构与参数时,以模型的原始知识为基础,在原始结构和参数的基础上对模型进行更新。更新后的模型结构和参数都包含了历史数据的特征信息。另外,在大多数情况下DCCM-SIL和DCCM-2模型对历史数据的分类效果要由于DCCM-1模型,这是由于DCCM-SIL和DCCM-2模型的训练数据集要多于DCCM-1,模型得到更有效的训练,从而提高了模型参数的泛化能力。值得一提的是,在第四次试验中DCCM-SIL对历史数据集的分类效果最好,这是由于,结构增量算法中扩张的dropout方法进一步挺高模型的鲁棒性。因此本发明提出的算法对模型进行更新后,更新的模型仍然能够有效的学习历史数据的特征,即更新的模型具有很好的保持性。
[0171] 上述两个实验结果表明,本发明提出的结构增量式学习模型能够有效的适应新的数据变化,即有效的学习动态变化的大数据特征;同时有效的保持了对原始知识的保持性,即更新的模型依然能够有效的学习历史数据的特征。
[0172] 接下来,通过收敛时间验证结构增量深度卷积计算模型的收敛性。作为对比,在新增数据集上和抽样数据上对深度卷积计算模型执行增量训练算法得到DCCM-SIL,在全部数据集上其执行高阶反向传播算法得到DCCM-2,二者在采用相同的结构。实验结果如图9所示。
[0173] 从图9可以看出,在模型结构相同时,DCCM-SIL的训练收敛时间远少于DCCM-2时间,从而可以看出,结构增量收敛速度远远比基本深度计算模型快。两方面原因,一是基本的深度计算模型算法容易受到数据集和初始化的影响,因此收敛不稳定收敛时间长;二是本发明在更新模型时,结合原始参数对更新后的模型进行初始化,充分利用原有知识,因此在学习新的数据特征的时候,能够快速收敛,从而在一定程度上满足动态变化大数据特征学习的实时性要求。