首页 / 专利库 / 人工智能 / 人工智能 / 机器学习 / 人工神经网络 / 玻尔兹曼机 / 半胱氨酸中亚磺酰化硫位点的预测方法及系统

半胱酸中亚磺酰化硫位点的预测方法及系统

阅读:1019发布:2020-11-01

专利汇可以提供半胱酸中亚磺酰化硫位点的预测方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 涉及 生物 信息技术领域,公开了一种半胱 氨 酸中亚磺酰化硫位点的预测方法及系统,以提高预测的准确率,节省实验成本。本发明公开的预测方法包括:构建含有半胱氨酸的 蛋白质 的样本集,并将含有亚磺酰化硫位点的蛋白质归为正样本,以及将无亚磺酰化硫位点的蛋白质归为负样本;然后计算各样本相应的特征值;并采用基于限制 玻尔兹曼机 的 深度信念网络 对各样本的特征序列进行特征 降维 ,然后利用降维后的数据对所述训练集以SVM方式进行训练学习并分类,并对当前分类模型的预测结果以所述训练集并结合所述独立测试集的方式进行评估,并记录相关的评估值;进而确定 预测模型 以及预测用的相应特征集。,下面是半胱酸中亚磺酰化硫位点的预测方法及系统专利的具体信息内容。

1.一种半胱酸中亚磺酰化硫位点的预测方法,其特征在于,包括:
步骤S1、构建样本集,所述样本集由含有半胱氨酸的蛋白质组成,并将含有亚磺酰化硫位点的蛋白质归为正样本,以及将无亚磺酰化硫位点的蛋白质归为负样本;
步骤S2、构建训练集和独立测试集,所述训练集和独立测试集都含有正样本和负样本;
步骤S3、确定所需计算的样本初始特征集,并计算各样本相应的特征值;
步骤S4、以半胱氨酸为中心确定滑动窗口的大小,以所确定的滑动窗将同一样本的各个特征值整合到一条特征序列中;
步骤S5、基于限制玻尔兹曼机深度信念网络对整合的所述特征序列进行特征降维,然后利用降维后的数据对所述训练集采用支持向量机算法模型进行训练学习并分类,并对当前分类模型的预测结果以所述训练集并结合所述独立测试集的方式进行评估,并记录相关的评估值;然后返回步骤S3对样本初始特征集进行调整,并重新基于调整后的特征集以得到新的分类模型;
步骤S6、比较初始分类模型与新的分类模型的评估值,筛选出评估值好的分类模型为半胱氨酸中亚磺酰化硫位点的预测模型,并筛选出预测用的相应特征集。
2.根据权利要求1所述的半胱氨酸中亚磺酰化硫位点的预测方法,其特征在于,所筛选出数据预测用的相应特征集包括以下特征的组合:
物理化学特征,特定位置得分矩阵,溶剂可及性表面积,螺旋转,替换矩阵,二级结构及二进制编码。
3.根据权利要求1所述的半胱氨酸中亚磺酰化硫位点的预测方法,其特征在于,在所述构造样本集的过程中,还包括对蛋白质序列相似性大于0.4的重复性数据做剔除处理。
4.一种半胱氨酸中亚磺酰化硫位点的预测系统,其特征在于,包括:
第一处理模、用于构建样本集,所述样本集由含有半胱氨酸的蛋白质组成,并将含有亚磺酰化硫位点的蛋白质归为正样本,以及将无亚磺酰化硫位点的蛋白质归为负样本;
第二处理模块、用于构建训练集和独立测试集,所述训练集和独立测试集都含有正样本和负样本;
第三处理模块、用于确定所需计算的样本初始特征集,并计算各样本相应的特征值;
第四处理模块、用于以半胱氨酸为中心确定滑动窗口的大小,以所确定的滑动窗将同一样本的各个特征值整合到一条特征序列中;
第五处理模块、用于基于限制玻尔兹曼机的深度信念网络对整合的所述特征序列进行特征降维,然后利用降维后的数据对所述训练集采用支持向量机算法模型进行训练学习并分类,并对当前分类模型的预测结果以所述训练集并结合所述独立测试集的方式进行评估,并记录相关的评估值;然后返回第三处理模块对样本初始特征集进行调整,并重新基于调整后的特征集以得到新的分类模型;
第六处理模块、用于比较初始分类模型与新的分类模型的评估值,筛选出评估值好的分类模型为半胱氨酸中亚磺酰化硫位点的预测模型,并筛选出预测用的相应特征集。
5.根据权利要求4所述的半胱氨酸中亚磺酰化硫位点的预测系统,其特征在于,所筛选出数据预测用的相应特征集包括以下特征的组合:
物理化学特征,特定位置得分矩阵,溶剂可及性表面积,螺旋转角,替换矩阵,二级结构及二进制编码。
6.根据权利要求4所述的半胱氨酸中亚磺酰化硫位点的预测系统,其特征在于,所述第一处理模块还用于在所述构造样本集的过程中,对蛋白质序列相似性大于0.4的重复性数据做剔除处理。

说明书全文

半胱酸中亚磺酰化硫位点的预测方法及系统

技术领域

[0001] 本发明涉及生物信息技术领域,尤其涉及一种预测半胱氨酸中亚磺酰化硫位点的方法及系统。

背景技术

[0002] 氨基酸的翻译后修饰可以改变氨基酸的化学性质,或是造成结构的改变,从而扩展蛋白质的功能。亚磺酰化硫蛋白在转录修饰中扮演重要的色,通过化反应调节半胱氨酸残基中的硫醇基团,对生物活性和功能类别的区分产生较大的影响,其氧化产物有次磺酸(CysSOH),亚磺酸(CysCSO2H)以及磺酸类氨基酸(CysCSO3H)。目前,采用一些物理化学的方法对亚磺酰化硫修饰进行实验研究。然而这些常规的方法并不能找出特定的修饰位点,而且代价消耗较大。
[0003] 目前对于预测亚磺酰化硫位点的方法还较少,且已有的方法中并未取得较为理想的效果。因此,发明一种高效并且花费代价小的预测亚磺酰化硫位点的方法及系统就显得极其重要。

发明内容

[0004] 本发明目的在于公开一种半胱氨酸中亚磺酰化硫位点的预测方法及系统,以提高预测的准确率,节省实验成本。
[0005] 为达上述目的,本发明公开一种半胱氨酸中亚磺酰化硫位点的预测方法,包括:
[0006] 步骤S1、构建样本集,所述样本集由含有半胱氨酸的蛋白质组成,并将含有亚磺酰化硫位点的蛋白质归为正样本,以及将无亚磺酰化硫位点的蛋白质归为负样本;
[0007] 步骤S2、构建训练集和独立测试集,所述训练集和独立测试集都含有正样本和负样本;
[0008] 步骤S3、确定所需计算的样本初始特征集,并计算各样本相应的特征值;
[0009] 步骤S4、以半胱氨酸为中心确定滑动窗口的大小,以所确定的滑动窗将同一样本的各个特征值整合到一条特征序列中;
[0010] 步骤S5、基于限制玻尔兹曼机深度信念网络对整合的所述特征序列进行特征降维,然后利用降维后的数据对所述训练集采用支持向量机算法模型(即:SVM)进行训练学习并分类,并对当前分类模型的预测结果以所述训练集并结合所述独立测试集的方式进行评估,并记录相关的评估值;然后返回步骤S3对样本初始特征集进行调整,并重新基于调整后的特征集以得到新的分类模型;
[0011] 步骤S6、比较初始分类模型与新的分类模型的评估值,筛选出评估值好的分类模型为半胱氨酸中亚磺酰化硫位点的预测模型,并筛选出预测用的相应特征集。
[0012] 与上述方法相对应的,本发明还公开一种半胱氨酸中亚磺酰化硫位点的预测系统,包括:
[0013] 第一处理模、用于构建样本集,所述样本集由含有半胱氨酸的蛋白质组成,并将含有亚磺酰化硫位点的蛋白质归为正样本,以及将无亚磺酰化硫位点的蛋白质归为负样本;
[0014] 第二处理模块、用于构建训练集和独立测试集,所述训练集和独立测试集都含有正样本和负样本;
[0015] 第三处理模块、用于确定所需计算的样本初始特征集,并计算各样本相应的特征值;
[0016] 第四处理模块、用于以半胱氨酸为中心确定滑动窗口的大小,以所确定的滑动窗将同一样本的各个特征值整合到一条特征序列中;
[0017] 第五处理模块、用于基于限制玻尔兹曼机的深度信念网络对整合的所述特征序列进行特征降维,然后利用降维后的数据对所述训练集采用支持向量机算法模型进行训练学习并分类,并对当前分类模型的预测结果以所述训练集并结合所述独立测试集的方式进行评估,并记录相关的评估值;然后返回第三处理模块对样本初始特征集进行调整,并重新基于调整后的特征集以得到新的分类模型;
[0018] 第六处理模块、用于比较初始分类模型与新的分类模型的评估值,筛选出评估值好的分类模型为半胱氨酸中亚磺酰化硫位点的预测模型,并筛选出预测用的相应特征集。
[0019] 本发明具有以下有益效果:
[0020] 采用深度信念网络的方法对特征进行降维,在最后进行分类模型的构建及预测时使用数据降维之后的数据。本发明所采用的方法简单便捷,且易于实现,能筛选出较好的特征组合以达到预期的预测效果。而且深度信念网络模型运行时间及消耗小,且实验效果较好,这也有效地提高了预测效率并节省了实验成本。
[0021] 下面将参照附图,对本发明作进一步详细的说明。

附图说明

[0022] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0023] 图1是本发明实施例公开的半胱氨酸中亚磺酰化硫位点的预测方法流程图
[0024] 图2为本发明中所使用的特征降维的方法与一些常用的特征选择方法的评估结果比较示意图;
[0025] 图3为本方法与目前现有的方法在训练集上采用五折交叉验证的预测结果的评估结果比较示意图;
[0026] 图4为本方法与目前现有的方法在独立测试集上的评估结果比较示意图。

具体实施方式

[0027] 以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
[0028] 实施例1
[0029] 本发明实施例公开一种半胱氨酸中亚磺酰化硫位点的预测方法,如图1所示,包括:
[0030] 步骤S1、构建样本集,所述样本集由含有半胱氨酸的蛋白质组成,并将含有亚磺酰化硫位点的蛋白质归为正样本,以及将无亚磺酰化硫位点的蛋白质归为负样本。优选的,在该步骤构造样本集的过程中,还包括对蛋白质序列相似性大于0.4的重复性数据做剔除处理。可选的,对同源数据进行处理,可使用CD-HIT工具。
[0031] 步骤S2、构建训练集和独立测试集,所述训练集和独立测试集都含有正样本和负样本。
[0032] 步骤S3、确定所需计算的样本初始特征集,并计算各样本相应的特征值。通常,特征集的特征数量越多,计算的数据量越大,混杂的冗余数据也越多。
[0033] 步骤S4、以半胱氨酸为中心确定滑动窗口的大小,以所确定的滑动窗将同一样本的各个特征值整合到一条特征序列中。在该步骤S3及步骤S4中,步骤S3是分别计算各蛋白质样本的所有氨基酸的特征值,而在步骤S4中则是以半胱氨酸为中心,择其左右相邻的若干残基的特征值进行后续的数据处理,例如滑动窗口为20,则所择取的半胱氨酸左右相邻的残基数量各为10。而且通常,每个特征值的计算是单独实现的,即各个特征值的具体计算算法不一样,从而需要通过步骤S4将同一样本的各个特征值整合到一条特征序列中。
[0034] 步骤S5、基于限制玻尔兹曼机的深度信念网络对整合的所述特征序列进行特征降维,然后利用降维后的数据对所述训练集采用支持向量机算法模型(即:SVM)进行训练学习并分类,并对当前分类模型的预测结果以所述训练集并结合所述独立测试集的方式进行评估,并记录相关的评估值;然后返回步骤S3对样本初始特征集进行调整,并重新基于调整后的特征集以得到新的分类模型。
[0035] 步骤S6、比较初始分类模型与新的分类模型的评估值,筛选出评估值好的分类模型为半胱氨酸中亚磺酰化硫位点的预测模型,并筛选出预测用的相应特征集。
[0036] 值得说明的是,在上述方法中,仅例举了对特征集的一次调整(相关的调整包括但不限于特征的替换,以及特征数量的增减等等),当需要对特征集进行多次调整时,方法与之类似,都应视为对本发明的等同替换。
[0037] 在本发明中,采用深度信念网络(DBN)的方法进行特征降维。在结构组成上,DBN由多层无监督的玻尔兹曼机(RBM)网络和一层有监督的反向传播(BP)网络组成。在训练模型的过程中,首先分别单独地无监督地训练每一层RBM网络,使得在不同特征空间尽可能保留更多的特征信息。其次,BP网络层接收RBM特征向量输出作为自身的输入向量,有监督地训练实体关系分类器。最后微调整权值,得到最优值。
[0038] 本实验的特征将维算法部分为深度信念神经网络,该网络的每一层都是一个受限的玻尔兹曼机(Restricted Boltzmann Machine,简称RBM),整个网络可视为若干个RBM叠堆而成,即每一层的训练相当于对RBM进行训练。RBM是一种有效的特征将维方法,而由多个RBM结构叠堆而成的深度信念网络能提取出更具有代表性的特征,从而用来分类。对单个RBM而言,它是通过将能量模型转化成概率模型,其中,能量模型可用方程表示:
[0039]
[0040] W表示隐藏单元和可见单元连接的权重,b和c是可见层和隐藏层的偏置,vi和hj分别表示可见层和隐藏层的第i个和第j个数据单元。
[0041] 而概率模型可以用如下公式表示:
[0042]
[0043] 然后利用吉布斯采样得到最大似然估计,从而最小化RBM的能量。
[0044]
[0045] 其中,参数m表示训练样本的数量,目的是增加训练数据的模型概率。
[0046] 利用深度信念网络提取特征时,使用的是无监督逐层训练,首先训练网络的第一层,这是关于训练样本的RBM模型,可按标准的RBM训练;然后将第一层预训练好的隐藏层结点作为第二层的输入结点,对第二层进行预训练,依次进行,各层训练完后,再利用误差反向传播(Back Propagation,BP)算法对整个网络参数进行微调。有关采用基于限制玻尔兹曼机的深度信念网络对特征进行降维,然后利用降维后的数据对所述训练集以SVM方式进行训练学习并分类还可以参照2015年1月出版的《现在计算机》中的《基于深度信念网络的入侵检测模型》,作者为北京交通大学计算机与信息技术学院的杨昆朋,另外参考2016年1月清华大学出版社出版的书籍《机器学习》,作者周志华。在本发明的具体实现中,可直接调用相关的开源程序,并根据相应的接口规范对输入的数据做适配性处理,此种技术为从事计算机编程的技术人员所熟知的技术,在此不做赘述。本发明将基于限制玻尔兹曼机的深度信念网络引入生物信息技术领域,并对整合的所述特征序列进行特征降维,数据的特征降维结果可以得到一些最优的特征,可以进一步提高预测结果。
[0047] 此外,对于SVM分类,本领域技术人员所熟知的,大多由交叉验证阶段(例如:5折交叉验证)和独立测试阶段组成,最后输出最终的预测结果,并用现有评估标准:
[0048] 准确度(ACC),Matthews相关系数(MCC),真阴性率(Sp),灵敏度(Sn),ROC曲线以及ROC曲线下面积(AUC)等来对预测结果进行评估。
[0049] 通过图1的方法,本发明所筛选出数据预测用的最优特征集为以下特征的组合:
[0050] 物理化学特征(Physicochemical features),特定位置得分矩阵(PSSM),溶剂可及性表面积(ASA),螺旋转角,替换矩阵(BLOSUM62),二级结构,二进制编码。藉此,当用户通过本实施例所确定的分类模型(即预测模型)来进行预测时,只需要输入相关蛋白质的7个相应特征,即可预测出该蛋白质是否含有亚磺酰化硫位点的概率值。在本实施例中,当以该7个特征进行数据处理,在通过步骤S4所获得的序列维度将近1600余维,而经过限制玻尔兹曼机的深度信念网络对整合的特征序列进行特征降维后,相应的序列维度可缩减至250余维,极大地降低了冗余特征对本发明预测精度的干扰,同时也大减轻了后续SVM的数据处理压力。
[0051] 【对比实施例】
[0052] 与上述方法相对应的,本对比例采用上述7个特征,即物理化学特征(Physicochemicalfeatures),特定位置得分矩阵(PSSM),溶剂可及性表面积(ASA),螺旋转角,替换矩阵(BLOSUM62),二级结构,二进制编码来预测半胱氨酸中亚磺酰化硫位点,与上述实施例的不同之处,本对比例分别以现有三种常用的降维方法:主成性分析方法(PCA)、奇异值分解方法(SVD)、非负矩阵分解方法(NMF)来替换本实施例的基于限制玻尔兹曼机的深度信念网络对特征进行降维方法,所采用的训练样本集及测试样本集都一致。
[0053] 如图2所示,与三种常用的数据降维的方法进行比较,深度信念网络取得AUC值为0.80945,主成性分析方法取得的AUC值为0.69581,奇异值分解方法和非负矩阵分解方法的AUC值分别为0.60467和0.72127。从而可以得出,我们实验中选用深度信念网络进行数据降维会取得更好的结果。
[0054] 另外,在最终的预测结果中,与目前常用的预测亚磺酰化硫位点的方法比较,本发明所采用的方法(DBN-Sulf)无论在训练集(附图3)还是独立测试集(附图4),效果均要高于其他方法(iSulf-Cys、MDD-SOH、SOH-site)。其中,表1是独立测试集的各个参数的详细比较结果(“-”表示无具体数据)。
[0055]
[0056] 实施例2
[0057] 与上述方法实施例相对应的,本实施例公开一种半胱氨酸中亚磺酰化硫位点的预测系统,包括下述第一至第六处理模块。
[0058] 第一处理模块、用于构建样本集,所述样本集由含有半胱氨酸的蛋白质组成,并将含有亚磺酰化硫位点的蛋白质归为正样本,以及将无亚磺酰化硫位点的蛋白质归为负样本。优选的,该第一处理模块还用于在所述构造样本集的过程中,对蛋白质序列相似性大于0.4的重复性数据做剔除处理。
[0059] 第二处理模块、用于构建训练集和独立测试集,所述训练集和独立测试集都含有正样本和负样本。
[0060] 第三处理模块、用于确定所需计算的样本初始特征集,并计算各样本相应的特征值。
[0061] 第四处理模块、用于以半胱氨酸为中心确定滑动窗口的大小,以所确定的滑动窗将同一样本的各个特征值整合到一条特征序列中。
[0062] 第五处理模块、用于基于限制玻尔兹曼机的深度信念网络对整合的所述特征序列进行特征降维,然后利用降维后的数据对所述训练集采用支持向量机算法模型(SVM)进行训练学习并分类,并对当前分类模型的预测结果以所述训练集并结合所述独立测试集的方式进行评估,并记录相关的评估值;然后返回第三处理模块对样本初始特征集进行调整,并重新基于调整后的特征集以得到新的分类模型。
[0063] 第六处理模块、用于比较初始分类模型与新的分类模型的评估值,筛选出评估值好的分类模型为半胱氨酸中亚磺酰化硫位点的预测模型,并筛选出预测用的相应特征集。
[0064] 依托本系统,所筛选出数据预测用的最优特征集包括以下特征的组合:
[0065] 物理化学特征,特定位置得分矩阵,溶剂可及性表面积,螺旋转角,替换矩阵,二级结构及二进制编码。
[0066] 综上,本发明采用的半胱氨酸中亚磺酰化硫位点的预测方法及系统,采用深度信念网络的方法对特征进行降维,在最后进行分类模型的构建及预测时使用数据降维之后的数据。本发明所采用的方法简单便捷,且易于实现,能筛选出较好的特征组合以达到预期的预测效果。而且深度信念网络模型运行时间及消耗小,且实验效果较好,这也有效地提高了预测效率并节省了实验成本。
[0067] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈