首页 / 专利库 / 电脑编程 / 算法 / 滑动窗口算法 / 基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法

基于深度学习蛋白质酸丙二酰化位点预测方法

阅读:93发布:2020-05-08

专利汇可以提供基于深度学习蛋白质酸丙二酰化位点预测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 深度学习 的 蛋白质 赖 氨 酸丙二酰化位点预测方法,涉及 生物 信息技术领域。采用增强氨基酸组成、分组增强氨基酸组成、二肽偏离预期平均值、K近邻得分和BLOSUM62矩阵特征提取 算法 ,把蛋白质序列的字符信息转 化成 数值向量并融合,得到特征空间,充分考虑到各潜在特征对于预测结果的影响。使用线性 卷积神经网络 计算得到丙二酰化位点特异性特征,通过最大 池化 层来选择相关特征并且降低特征维数,结合多层 深度神经网络 对丙二酰化位点和非丙二酰化位点进行分类,构建蛋白质丙二酰化位点 预测模型 DeepMal,使用10折交叉验证和独立测试数据集评估预测性能。模型DeepMal在评价指标上都取得显著的提高,有助于进一步促进深度学习在蛋白质功能预测中的应用。,下面是基于深度学习蛋白质酸丙二酰化位点预测方法专利的具体信息内容。

1.一种基于深度学习蛋白质酸丙二酰化位点预测方法,其特征在于包括如下步骤:
1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据;
2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取;
3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间;
4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal;
5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。
2.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中的赖氨酸丙二酰化位点数据来自数据集E.coli、H.sapiens和M.musculus,每条蛋白质序列窗口大小为25。
3.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤1)中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白质中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。
4.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤2)特征提取采用Enhanced amino acid composition、Enhanced grouped amino acid composition、Dipeptide deviation from expected mean、K nearest neighbors和BLOSUM62矩阵进行特征提取,其中
2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:
t∈{A,C,D,...,Y},win∈{windowl,window 2,...,win dow L}
其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量
2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:
g∈{g1,g2,g3,g4,g5},win∈{window1,window2,…,windowL}
其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105维特征向量;
2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:
r,s∈{A,C,D,…,Y}
其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;
其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;
2-4)K nearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:
2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:
其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替
其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;
2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,
32,64,得到6维特征向量;
2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为500维的特征向量。
5.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤3)中将提取的多种蛋白质特征进行融合后,蛋白质序列字符信息转化成序列信息,每条蛋白质序列得到1431维的特征向量。
6.根据权利要求1所述的基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于:所述步骤4)中的深度神经网络依次由卷积层、Dropout层、全连接深度神经网络层、输出层构成,卷积层中嵌入有最大池化层;
其中,卷积层,由多个大小为3*3的卷积核组成,线性整流函数ReLU为激活函数,每个卷积核对输入特征向量进行卷积运算,得到丙二酰化位点相关显著特征;
最大池化层,来选择最大相关特征并且降低特征维数;
Dropout层,随机丢弃一些神经元及它们的连接,阻止某些特征的协同作用防止过拟合,从而提高模型的泛化性能;
全连接深度神经网络层,对来自卷积层和池化层的特征进行学习,线性整流函数ReLU为激活函数;
输出层,使用Softmax函数激活非线性转换,输出值为丙二酰化位点和非丙二酰化位点的概率值。

说明书全文

基于深度学习蛋白质酸丙二酰化位点预测方法

技术领域

[0001] 本发明涉及生物信息技术领域,具体涉及一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法。

背景技术

[0002] 丙二酰化作为一种重要的蛋白质翻译后修饰位点,于2011年被首次发现发生在赖氨酸上的一种进化保守的蛋白质翻译后修饰类型,它的发生依赖于丙二酰辅酶A将丙二酰基团添加到赖氨酸并将其电荷从+1更改为-1。这一变化有可能破坏赖氨酸与其他氨基酸的静电相互作用并改变蛋白质结构,甚至可能影响其与靶蛋白的结合,已经被证实存在于多种代谢途径中,比如葡糖糖和脂肪酸代谢、脂肪酸合成和化、线粒体功能受损,还与肌肉收缩、心肌缺血和下丘脑对食欲的调控、糖尿病、癌症有关。鉴于丙二酰化的重要性,准确识别蛋白质中的丙二酰化位点是非常重要的,其可以为生物医学研究提供有用的信息,从而更好地了解分子功能。目前,实验方法存在时间和仪器上的成本限制,并且实验的难度比较大。因此,开发一种能够准确的鉴定出丙二酰化位点的计算方法是有必要的。
[0003] 近来,已经有一些发表的论文通过使用机器学习方法来预测蛋白质丙二酰化位点。Xu等人提出蛋白质丙二酰化位点预测器Mal-Lys,基于序列信息k-grams,position-specific amino acidpropensity和物理化学信息AAIndex特征提取方法把蛋白质字符信息转化成数值向量,采用最大相关最小冗余选择最优特征子集,支持向量机作为分类器,通过留一法,6-,8-和10-fold cross-validations进行验证。Wang等人开发物种特异性丙二酰化位点分类器MaloPred,采用氨基酸组成,二元编码,分组重量编码,Knearest neighbors和位置特异性得分矩阵把字符信息转换为数值向量,信息增益选取最优特征子集,然后输入到支持向量机进行分类,通过独立测试验证在E.coli,M.musculus和H.sapiens上AUC值分别0.755,0.827和0.871。Zhang等人开发蛋白质丙二酰化位点预测器kmal-sp,采用11种特征提取方法提取蛋白质序列信息,物理化学性质和进化信息,用GainRatio选取最优特征子集,集成随机森林,支持向量机,K-nearest neighbor,逻辑回归和Light Gradient Boosting Machine机器学习方法进行分类。Du等人基于序列特征和功能注释特征把蛋白质字符信息转化成数值特征向量,选取径向基为核函数的SVM来构建蛋白质丙二酰化预测模型。Xiang等人采用伪氨基酸组成提取蛋白质特征,选取径向基为核函数的nu-SVM为分类器来构建预测模型,通过留一法测试,训练数据集的的准确率为0.7733,独立测试数据集的的准确率为0.8889。Taherzadeh等人构建蛋白质丙二酰化预测器SPRINT-Ma,采用二元编码,位置特异性得分矩阵,AAindex,可及表面积,二级结构,Half-sphere exposure和Intrinsically disordered region提取蛋白质特征,径向基核函数的SVM进行分类,通过10-fold cross validation和独立测试验证,在M.musculus和H.sapiens数据集上AUC values分别为0.74和0.76,MCC值分别为0.213和0.20。Chen等人使用EAAC,AAindex和one-hot编码方法,整合深度学习long short-term memory with word embedding(LSTMwe)和随机森林构建丙二酰化位点分类器LEMP。
[0004] 尽管上述方法产生了令人鼓舞的结果并刺激了丙二酰化位点的预测研究,但这些方法还存在一些不足,
[0005] i)现有方法仅利用了有限的特征,其他潜在特征对预测结果也会产生影响。
[0006] ii)模型构建中冗余特征会降低预测性能。

发明内容

[0007] 本发明的目的在于针对现有计算识别方法的不足,提供一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,该方法基于深度学习网络对蛋白质丙二酰化位点和非丙二酰化位点进行分类,预测准确率高。
[0008] 为解决上述的技术问题,本发明采用以下技术方案:一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,其特征在于包括如下步骤:
[0009] 1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据;
[0010] 2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取;
[0011] 3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间;
[0012] 4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal;
[0013] 5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。
[0014] 更进一步的技术方案是所述步骤1)中的赖氨酸丙二酰化位点数据来自数据集E.coli、H.sapiens和M.musculus,每条蛋白质序列窗口大小为25。
[0015] 更进一步的技术方案是所述步骤1)中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白质中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。
[0016] 更进一步的技术方案是所述步骤2)特征提取采用Enhanced amino  acid composition、Enhanced grouped amino acid composition、Dipeptide deviation from expected mean、K nearest neighbors和BLOSUM62矩阵进行特征提取,其中
[0017] 2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:
[0018]
[0019] 其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量;
[0020] 2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:
[0021]
[0022] 其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105维特征向量;
[0023] 2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:
[0024]
[0025] 其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;
[0026]
[0027] 其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;
[0028]
[0029]
[0030] 2-4)Knearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:
[0031] 2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:
[0032]
[0033] 其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替
[0034]
[0035] 其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;
[0036] 2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本(丙二酰化位点)的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,32,64,得到6维特征向量;
[0037] 2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为
500维的特征向量。
[0038] 更进一步的技术方案是所述步骤3)中将提取的多种蛋白质特征进行融合后,蛋白质序列字符信息转化成序列信息,每条蛋白质序列得到1431维的特征向量。
[0039] 更进一步的技术方案是所述步骤4)中的深度神经网络依次由卷积层、Dropout层、全连接深度神经网络层、输出层构成,卷积层中嵌入有最大池化层;
[0040] 其中,卷积层,由多个大小为3*3的卷积核组成,线性整流函数ReLU为激活函数,每个卷积核对输入特征向量进行卷积运算,得到丙二酰化位点相关显著特征;
[0041] 最大池化层,来选择最大相关特征并且降低特征维数;
[0042] Dropout层,随机丢弃一些神经元及它们的连接,阻止某些特征的协同作用防止过拟合,从而提高模型的泛化性能;
[0043] 全连接深度神经网络层,对来自卷积层和池化层的特征进行学习,线性整流函数ReLU为激活函数;
[0044] 输出层,使用Softmax函数激活非线性转换,输出值为丙二酰化位点和非丙二酰化位点的概率值。
[0045] 与现有技术相比,本发明的有益效果是:
[0046] 采用增强氨基酸组成(EAAC)、分组增强氨基酸组成(EGAAC)、二肽偏离预期平均值(DEE)、K近邻得分(KNN)和BLOSUM62矩阵特征提取算法,把蛋白质序列的字符信息转化成数值向量并融合,得到特征空间,充分考虑到各潜在特征对于预测结果的影响。
[0047] 使用线性卷积神经网络计算得到丙二酰化位点特异性特征,通过最大池化层来选择相关特征并且降低特征维数,结合多层深度神经网络对丙二酰化位点和非丙二酰化位点进行分类,构建蛋白质丙二酰化位点预测模型DeepMal,使用10折交叉验证和独立测试数据集评估预测性能。
[0048] 与其他最先进的模型相比,模型DeepMal在评价指标上都取得显著的提高。从t-SNE可视化中,发现DeepMal可以生成强大的区分特征,以区分蛋白质序列中的丙二酰化位点与非丙二酰化位点。此外,本发明有助于进一步促进深度学习在生物信息学研究中的应用,尤其是蛋白质功能预测。附图说明
[0049] 图1为本发明基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法的流程图
[0050] 图2为本发明中3个数据集特征的t-SNE可视化图,其中图A,B和C图分别是训练数据集E.coli,H.sapiens和M.musculus的原始序列特征,图D,E和F图分别是DeepMal中全连接神经网络的第二层提取的抽象特征,图G,H和I图分别是DeepMal中全连接神经网络的第三层提取的抽象特征。

具体实施方式

[0051] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0052] 实施例
[0053] 一种基于深度学习的蛋白质赖氨酸丙二酰化位点预测方法,如图1所示,包括如下步骤:
[0054] 1)收集数据:从蛋白质数据库和相关文献中收集实验验证的赖氨酸丙二酰化位点数据。
[0055] 本发明中使用经实验验证的赖氨酸丙二酰化数据集主要来自论文(Zhang YJ,Xie RP,Wang JW,et al.Computational analysis and prediction of lysine malonylation sites by exploiting informative features in an integrative machine-learning framework.BriefBioinform 2018:1-15),该数据集包括来自595个大肠杆菌蛋白质的1746个Kmal位点,来自M.musculus的1174种蛋白质的3435个Kmal位点和来自1660种蛋白质的4579个Kmal位点在H.sapiens中。
[0056] 经过随机选取,最终训练集E.coli包含1453个正样本和1453个负样本,M.musculus包含2606个正样本和2606个负样本,H.sapiens包含3585个正样本和3585个负样本。独立测试集E.coli包含100个正样本和100个负样本,M.musculus包含600个正样本和600个负样本,H.sapiens包含300个正样本和300个负样本。每条蛋白质序列窗口大小为25,赖氨酸(K)位于序列片段中心。其中正样本是经实验验证标记的丙二酰化位点的数据标记样本;负样本是从与正样本相同的蛋白中随机挑选出与正样本数量相同但未标记的丙二酰化位点的数据标记样本。
[0057] 2)特征编码:提取正负样本蛋白质的序列信息,物理化学性质和进化信息,对正负样本进行多种特征提取,提取方法有Enhanced amino acid composition、Enhanced grouped amino acid composition、Dipeptide deviation from expected mean、Knearest neighbors和BLOSUM62矩阵。
[0058] 2-1)Enhanced amino acid composition:从每条蛋白质序列的N-末端连续滑动到C-末端,计算固定长度子序列的氨基酸出现频率,通常用于编码长度相等的蛋白质序列;EAAC特征提取计算公式为:
[0059]
[0060] 其中,N(t,win)是滑动窗口win中氨基酸类型t的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到420维特征向量;
[0061] 2-2)Enhanced grouped amino acid composition:将20种氨基酸划分为五类,包括脂族基团(g1:GAVLMI),芳族基团(g2:FYW),正电荷基团(g3:KRH),负电荷基团(g4:DE)和不带电荷基团(g5:STCPNQ),其计算公式如下:
[0062]
[0063] 其中,N(g,win)是滑动窗口win中g组氨基酸的个数,N(win)是滑动窗口win的大小,固定长度的序列窗口大小默认值为5,得到105为向量;
[0064] 2-3)Dipeptide deviation from expected mean:通过计算二肽组成(DC),理论平均值(TM)和理论方差(TV)三个参数来构建400维的DDE特征向量,其计算公式如下:
[0065]
[0066] 其中,Nrs是氨基酸对rs的个数,N是蛋白质序列的长度;
[0067]
[0068] 其中,Cr是编码第一个氨基酸的密码子数,Cs是编码第二个氨基酸的密码子数,CN是可能的密码子总数;
[0069]
[0070]
[0071] 2-4)Knearest neighbors:利用局部序列聚类信息预测丙二酰化位点,聚类信息即通过将一个蛋白质序列片段比对正负数据合并的比对集序列,通过KNN算法提取蛋白质序列聚类特征,详细描述如下:
[0072] 2-4-1)根据局部序列相似性分别在正数据集和负数据集中找到其KNN特征:对于两个本地序列s1和s2,距离Dist(s1,s2)定义为:
[0073]
[0074] 其中p表示蛋白质序列片段中中心位点的侧翼残基数,i表示序列片段中氨基酸的所在位置;Sim是氨基酸相似性打分矩阵,用BLOSUM62矩阵来代替
[0075]
[0076] 其中a和b是两个氨基酸,M是BLOSUM62替换矩阵,max{M}/min{M}为BLOSUM62替换矩阵中的最大/最小数;
[0077] 2-4-2)提取相应的KNN特征:通过结合正负样本形成一个比对数据集,计算从蛋白质序列到比对数据集集的平均距离,对计算的距离进行排序,然后选择KNN参数,计算KNN分数,即KNN中正样本的百分比,要获得多个特征,选择不同的k值,得到KNN特征,k取2,4,8,16,32,64,得到6维特征向量;
[0078] 2-5)BLOSUM62:建立在氨基酸序列的比对上,两个肽序列之间的同一性不超过62%,基于BLOSUM62中20个氨基酸的取代分数,窗口长度为25个氨基酸的片段序列编码为
500维的特征向量。
[0079] 3)特征融合:将提取的多种蛋白质特征信息融合,得到特征空间All。将提取的多种蛋白质特征进行融合后,蛋白质序列字符信息转化成序列信息,每条蛋白质序列得到1431维的特征向量。
[0080] 4)构建预测模型:将融合特征输入到深度神经网络中,进行预测丙二酰化位点和非丙二酰化位点;利用交叉验证进行训练,结合评价指标对预测结果进行评价,评估模型的预测性能和鲁棒性;构建E.coli、H.sapiens和M.musculus数据集上蛋白质丙二酰化位点的预测模型DeepMal。
[0081] 深度神经网络依次由卷积层、Dropout层、全连接深度神经网络层、输出层构成,卷积层中嵌入有最大池化层,如图1所示。
[0082] 其中,卷积层,由多个大小为3*3的卷积核组成,线性整流函数ReLU为激活函数,负值设置为零,每个卷积核对输入特征向量进行卷积运算,得到丙二酰化位点相关显著特征。具体地,给定输入样本X,CNN中的卷积运算表示如下:
[0083]
[0084] Relu(x)=max(0,x)  (10)
[0085] 其中,M是滑动窗口的大小,N是输入通道的数量, 是第k个卷积核的权重矩阵,大小是M*N。
[0086] 为了降低卷积层输出的特征向量,减小网络中运算的维数,在卷积层中嵌入最大池化层。使用2*2的滤波器,步长为2,对数据进行最大池化,在窗口内选取最大特征值。
[0087] Dropout层,随机丢弃一些神经元及它们的连接,阻止某些特征的协同作用防止过拟合,从而提高模型的泛化性能,提高模型的预测性能。Dropout机制的随机删除率为0.2。
[0088] 全连接深度神经网络层,对来自卷积层和池化层的特征进行学习,线性整流函数ReLU为激活函数。
[0089] 输出层,使用Softmax函数激活非线性转换,输出值为丙二酰化位点和非丙二酰化位点的概率值。softmax分类函数
[0090]
[0091] 其中ok是第k个神经元的输出,表示观察到k类概率,yk是先前隐藏层的关联线性输出。
[0092] 具体地,对于上述所有层,采用ReLU函数作为激活函数以避免在训练过程期间的梯度扩散。当网络足够深时,损失函数的梯度将非常小,有效地防止了权重的变化。此外,为了提高模型的泛化能,在第二层添加dropout层,模型会随机地使某一层神经元失活,失活概率为p,从而提高模型的分类性能并避免过度拟合问题。
[0093] 预测模型DeepMal的架构和超参数的设置如表1。尺寸栏描述卷积层的核大小,最大池化层和完全连接层的大小。
[0094] 表1
[0095]
[0096] 5)丙二酰化位点预测:获取待分析蛋白质的序列作为独立测试数据集,输入步骤4)中的预测模型DeepMal中,得到丙二酰化位点预测结果并输出。
[0097] 6)模型评估及验证
[0098] 6-1)评估方法及标准:在统计预测中,通常采用刀切法、独立样本检验和K折交叉验证来评估模型的有效性。本文在训练数据集上采用十折交叉验证方法来训练模型,使用独立数据集来评估模型的预测性能。为了评估所提出的模型的预测性能,采用敏感性(Sensitivity,Sn),特异性(Specificity,Sp),精准率(Precision,PRE),准确率(Accuracy,Acc)和氏相关系数(MCC)作为评价指标,马氏相关系数反映预测模型的稳定性,五个评价指标定义如下:
[0099]
[0100]
[0101]
[0102]
[0103]
[0104] 其中TP代表真阳性的数量,FP代表假阳性的数量,TN代表真阴性的数量,FN代表假阴性的数量。此外,ROC是基于敏感性Sn和特异性Sp的曲线,AUC是ROC曲线下的面积,作为度量预测模型鲁棒性的指标,AUC值越接近于1,模型预测性能越好。
[0105] 6-2)为验证预测模型DeepMal的准确性,将通过EAAC、EGAAC、DDE、KNN和BLOSUM62把字符信息转化为数值向量,融合特征后得到1431维的特征向量。将融合后的特征向量输入到以径向基核函数的SVM,XGBoost,DL-1,深度神经网络(DNN),递归神经网络(RNN)和DeepMal学习框架进行特征学习和预测,通过十折交叉验证,得到其在数据集E.coli、M.musculus和H.sapiens上的预测结果,如表2所示。
[0106] 表2在数据集E.coli、M.musculus和H.sapiens的不同方法的预测结果[0107]
[0108]
[0109] 由表2可以看出,对于数据集E.coli,构建的DeepMal预测模型性能表现最好,ACC,Sn,Sp,MCC和AUC分别为0.9301,0.9171,0.9431,0.8607和0.9513,其ACC,Sn,Sp,MCC和AUC值都高于其他分类算法。DeepMal模型的预测准确率比DL-1,XGBoost,SVM,DNN和RNN分别高3.50%,28.83%,31.10%,10.04%和7.19%。DeepMal模型的MCC值比DL-1,XGBoost,SVM,DNN和RNN分别高6.77%,57.67%,62.15%,17.10%和13.35%。
[0110] 数据集H.sapiens上,我们采用的预测模型DeepMal,ACC,Sn,Sp,MCC和AUC分别为0.9092,0.9161,0.9022,0.8186和0.9447。DeepMal模型的预测准确率比DL-1,XGBoost,SVM,DNN和RNN分别高4.42%,21.92%,26.59%,5.45%和5.91%。对AUC值而言,DeepMal模型比DL-1,XGBoost,SVM,DNN和RNN分别高2.84%,17.73%,24.67%,2.21%和4.16%。
[0111] 在数据集M.musculus上,我们构建的预测模型DeepMal对蛋白质丙二酰化位点的预测性能最优,远远超过SVM,XGBoost,DL-1,DNN和RNN。DeepMal分类算法的ACC,Sn,Sp,MCC和AUC分别为0.9193,0.9230,0.9157,0.8405和0.9534。就预测准确率而言,模型DeepMal比DL-1,XGBoost,SVM,DNN和RNN分别高3.02%,22.44%,27.81%,4.24%和5.79%。模型DeepMal的Sn值,Sp值比DL-1分别高4.91%,1.15%。对AUC值来说,模型DeepMal比DL-1,XGBoost,SVM,DNN和RNN分别高2.52%,18.12%,25.32%,18.64%和3.35%。
[0112] 综上,模型DeepMal能够更好地区分蛋白质丙二酰化位点和非丙二酰化位点,取得最好的预测性能。
[0113] 6-3)可视化验证
[0114] 对DeepMal所提取的特征以及原始的蛋白质序列进行可视化。为了直观地观察丙二酰化和非丙二酰化的区别,这里使用了一种流行的可视化算法t-SNE对特征向量进行可视化,我们将高维特征压缩到二维空间中,将数值归一化为-1到1。在数据集E.coli,H.sapiens和M.musculus上,分别将原始序列特征和通过DeepMal提取的抽象特征,通过t-SNE可视化,如图3所示。
[0115] 在训练数据集E.coli,H.sapiens和M.musculus上对原始序列特征和DeepMal提取的不同层的抽象特征用t-SNE进行可视化。
[0116] 由图3A,图3B和图3C可以看出,通过原始序列的特征提取,很难将丙二酰化位点与非丙二酰化位点区分开来,而通过DeepMal的抽象表示,由图3D,图3E,图3F,图3G,图3H和图3I可以看出我们更容易对丙二酰化位点和非丙二酰化位点进行分类。通过t-SNE的可视化,我们证明了原始蛋白质的序列可以通过DeepMal生成的非线性转换映射到有意义的表示,这有助于进一步分析丙二酰化位点。
[0117] 6-4)为了对比预测模型,评估模型的鲁棒性以及预测性能,利用独立测试集进行验证。表4详细列出本文方法与其它预测方法在E.coli、H.sapiens和M.musculus上的比较结果。
[0118] 表3不同方法在E.coli,H.sapiens和M.musculus独立测试数据集上预测结果的比较
[0119]
[0120] 从表4可以看出,对于E.coli数据集,模型DeepMal的PRE,Sn,Sp,AUC,ACC和MCC分别为0.971,0.950,0.980,0.974,0.965和0.931。DeepMal的预测准确率为0.965,比预测方法kmal-sp高12%,比MaloPred方法高18.5%,模型的总体预测准确率明显提高。另外,就评价指标MCC而言,预测模型DeepMal达到0.931,比kmal-sp和MaloPred分别高24.1%和37%。
[0121] 对于H.sapiens数据集,模型DeepMal的PRE,Sn,Sp,AUC,ACC和MCC分别为0.952,0.967,0.943,0.956,0.955和0.910。DeepMal的预测准确率为0.955,比其它预测方法高
9.5%-12.8%,模型的预测准确率明显高于其它的方法。同时,在评价指标Sn方面,DeepMal达到0.967,相比于kmal-sp和MaloPred超过11.8%和13.8%。DeepMal的AUC值0.956,比kmal-sp和MaloPred分别高1.2%和2.4%。
[0122] 对于M.musculus数据集,本文方法DeepMal的预测准确率为0.945,高于其它预测方法11.2%-14.3%,PRE,Sn,Sp,AUC和MCC分别为0.945,0.947,0.943,0.944和0.890。此外,DeepMal的Sp比kmal-sp和MaloPred分别高10.6%和13.6%。,因此,模型DeepMal具有很好的预测性能和鲁棒性,有助于进一步促进深度学习在生物信息学研究中的应用,尤其是蛋白质功能预测。
[0123] 尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。更具体地说,在本申请公开、附图和权利要求的范围内,可以对模型进行多种变形和改进。除了对模型的变形和改进外,对于本领域技术人员来说,其他的用途也将是明显的。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈