首页 / 专利库 / 软件 / 共享初始过滤规则集 / 基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法

基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法

阅读:591发布:2020-05-15

专利汇可以提供基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法专利检索,专利查询,专利分析的服务。并且本公开提供一种基于动态加权 蛋白质 相互作用网络的蛋白质复合物挖掘方法,包括以下步骤:利用基因表达谱数据过滤不具有活性的蛋白质,构建动态蛋白质相互作用网络,再利用综合权值度量为动态蛋白质相互作用网络加权并添加新的相互作用,进而构建动态加权蛋白质相互作用网络;利用蛋白质的关键性和复合物的内在属性来构建蛋白质复合核;采用模糊粒度的相似度函数改进蚁群 算法 的拾起规则,利用紧 密度 优化放下规则,实现蛋白质复合物的挖掘;利用局部权值更新策略来实现不同代蚁群之间的最优解信息的传递,采用全局权值更新策略实现相邻时刻动态加权蛋白质相互作用网络之间的功能信息传递;以及输出挖掘出的蛋白质复合物。,下面是基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法专利的具体信息内容。

1.一种基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法,其特征在于,包括以下步骤:
构建动态加权蛋白质相互作用网络:输入蛋白质相互作用数据、基因表达谱数据和基因本体信息,将蛋白质相互作用网络数据进行去重操作,利用所述基因表达谱数据过滤不具有活性的蛋白质,从而构建动态蛋白质相互作用网络,再利用综合权值度量为所述动态蛋白质相互作用网络加权并添加新的相互作用,进而构建所述动态加权蛋白质相互作用网络;
构建蛋白质复合核:输入各个时刻的动态加权蛋白质相互作用网络和关键蛋白质集合,采用点边聚集系数优化种子节点的选取,利用蛋白质的关键性和复合物的内在属性来构建蛋白质复合核;
蚁群聚类:采用模糊粒度的相似度函数改进蚁群算法的拾起规则,不断装载蛋白质结点形成初始的聚类结果,利用紧密度优化放下规则,对初始聚类结果进行修正,进而实现蛋白质复合物的挖掘;
全局和局部权值更新:利用局部权值更新策略来实现不同代蚁群之间的最优解信息的传递,采用全局权值更新策略实现相邻时刻所述动态加权蛋白质相互作用网络之间的功能信息传递;以及
输出结果:输出挖掘出的蛋白质复合物。
2.根据权利要求1所述的方法,其特征在于,构建动态加权蛋白质相互作用网络的步骤包括:
通过下式1将所述基因表达谱数据的36个时刻合并为12个时刻:
其中,Tu(i)表示蛋白质u在i时刻下的基因表达值,1≤i≤12;
根据下式2将不共表达的蛋白质进行过滤:
其中,Tu'表示蛋白质u的平均基因表达值;
为每个动态子网络添加相互作用:假设蛋白质u,v在静态蛋白质相互作用网络上存在相互作用且共表达,则在该时刻网络中添加一组相互作用;假设蛋白质u,v在静态蛋白质相互作用网络上不存在相互作用但共表达,则通过下式3来判断是否添加相互作用:
其中,CWM(u,v)表示蛋白质u,v的综合权值度量,CEcc(u,v)表示点边聚集系数,FS(u,v)表示基因本体功能相似性,Pcc(u,v)表示皮尔逊相关系数;
当CWM(u,v)大于0,则添加一组相互作用,否则不添加;
根据上式3,采用综合权值度量对12个动态子网络进行加权,进而获得动态加权蛋白质相互作用网络。
3.根据权利要求2所述的方法,其特征在于,
所述点边聚集系数CEcc(u,v)用下式4计算:
其中,tanu,v表示网络结点u,v共同构成的三形的个数,du,dv分别表示网络结点u,v的度,Cu,Cv分别表示网络结点u,v的点聚集系数;
所述基因本体功能相似性FS(u,v)用下式5计算:
其中,|fu∩fv|表示蛋白质u和v共同的基因本体术语数目,|fu|,|fv|分别表示蛋白质u和v的基因本体术语数目;
所述皮尔逊相关系数Pcc(u,v)用下式6计算:
其中,k为样本数,i为在基因表达数据中的时刻数,Exp(u,i),Exp(v,i)分别表示蛋白质u和v在i时刻下的表达值, 和σ(u),σ(v)分别表示蛋白质u和v在所有时刻下的平均表达值和标准方差,Pcc(u,v)∈[-1,1]。
4.根据权利要求1所述的方法,其特征在于,构建蛋白质复合核的步骤包括:
B1计算每个所述关键蛋白质的结点的所有关联边的点边聚集系数之和SoCEcc,并按降序排列放入有序队列Q1;
B2从队列Q1中取点边聚集系数之和最大的关键蛋白质结点初始化一个复合核C,将满足相互作用阈值η并且连续共表达次数大于等于m的直接邻居结点加入复合核C;
B3判断所述复合核C是否满足密度阈值d,若不满足,则递归删除SoCEcc值小的结点直至所述复合核C满足密度阈值d;
B4当所述复合核C满足密度阈值d,则将复合核C存入结果队列Q2中,从有序队列Q1中删除所述复合核C中的全部结点;
B5重复步骤B2、B3和B4,直到有序队列Q1为空。
5.根据权利要求4所述的方法,其特征在于,所述关键蛋白质的结点的所有关联边的点边聚集系数之和SoCEcc通过下式7计算:
其中,SoCEcc(u)表示关键蛋白质结点u的所有关联边的点边聚集系数之和。
6.根据权利要求4所述的方法,其特征在于,蚁群聚类的步骤包括:
C1在结果队列Q2中随机选择一个复合核C作为蚂蚁的初始位置
C2计算蚂蚁邻域范围内结点u的模糊粒度,将满足条件的邻居结点拾起,并前进到所述邻居结点,更新复合核和蚂蚁邻域范围;若没有满足条件的邻居结点,则跳过步骤C3直接进入步骤C4;
C3判断蚂蚁装载量是否达到最大,若未达到最大装载量,则重复步骤C2,继续对蚂蚁的新邻域范围内的结点进行聚类,若达到最大装载量,则进行步骤C4;
C4得到所述复合核C对应的初始聚类结果,从结果队列Q2中删除复合核C,判断结果队列Q2是否为空,若不为空,则随机选择一个复合核作为蚂蚁的初始位置,并返回步骤C2开始新一轮搜索;若结果队列Q2为空,则进入步骤C5;
C5计算结点u与复合物PC的紧密度,将紧密度小于1的结点舍去,得到复合物PC,输出复合物集合CS。
7.根据权利要求6所述的方法,其特征在于,
所述模糊粒度通过下式8计算:
其中,εA(u)表示蚂蚁邻域范围内结点u的模糊粒度,|C|为复合核C内的结点数,α为相异度因子;
所述紧密度通过下式9计算:
其中,CD(u,PC)表示结点u与复合物PC的紧密度,din(u,v1)表示蛋白质u与复合物PC内其他蛋白质v1连接边的权值,dout(u,v2)表示蛋白质u与复合物PC外其他蛋白质v2连接边的权值。
8.根据权利要求1或7所述的方法,其特征在于,
根据下式10进行局部权值更新:
CWM(u,v)=(1+PCuv)CWM(u,v)                式10
其中,PCuv表示在上次迭代的最优解中蛋白质u,v共享复合物的概率,以此作为一种增强系数。
9.根据权利要求8所述的方法,其特征在于,
所述增强系数PCuv通过下式11计算:
其中,Cu,Cv分别为蛋白质u,v所属复合物的集合,Cu∩Cv表示同时包含蛋白质u,v的复合物集合。
10.根据权利要求1或8所述的方法,其特征在于,
根据下式12进行全局权值更新:
其中, 和 分别表示在Ti-1和Ti时刻瞬时网络的最优解中蛋白质u和v出现在同一复合物中的次数,0≤α<β≤1,和β为常数。

说明书全文

基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法

技术领域

[0001] 本公开涉及系统生物学领域,尤其涉及一种基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法。

背景技术

[0002] 蛋白质是维持一切生命活动的基础,其功能一般是通过蛋白质之间的相互作用表现出来的。一个生命体内,由若干蛋白质复合物之间的相互作用构成的网络叫做蛋白质相互作用(protein-protein interaction,PPI)网络,而蛋白质复合物又是在同一空间和同一时间下共同完成某项功能的蛋白质集合。研究蛋白质的相互作用进而识别PPI网络中具有意义的模,如蛋白质复合物和功能模块,能够帮助人们理解生命活动的过程、预测功能未知的蛋白质,还为疾病诊断和药物研制提供理论基础,因此在相互作用数据普遍存在较高假阳性和假阴性的背景下,高效的蛋白质复合物检测方法仍是后基因组时代最重要的挑战之一,快速有效地挖掘蛋白质复合物对于揭示细胞组成和功能的基本原理,研究蛋白质在生物体代谢途径中的地位,以及深入理解生物体行为和药物设计等方面具有十分重要的意义。
[0003] 目前,识别蛋白质复合物的生物实验方法,既耗时、成本代价高,而且不能对所有物种通用。因此,迫切需要有效的基于计算方法的蛋白质复合物挖掘方法来降低实验的成本,提高实验效率。
[0004] 随着高通量PPI数据和蛋白质数据的日益完善,不少学者逐渐转向基于计算的复合物挖掘的研究,也提出了许多传统的挖掘算法,如基于密度的分子复合物预测算法MCODE,基于划分的邻近搜索聚类算法RNSC和基于层次的Jerarca算法等。但这些算法都存在一定的不足,有的算法对于稀疏网络效果不佳,有的算法检测不到重叠的复合物,有的算法对噪声敏感等等。近年来,研究人员又提出一些新的复合物检测方法,如基于流模拟的检测方法、基于核心-附件结构的检测方法、谱聚类算法以及群智能算法等。但是功能流算法的聚类结果受给定参数的影响较大,基于核心-附属结构的聚类方法复杂度较高,不适用于大规模PPI网络,谱聚类算法在数据降维后又回到传统聚类方法上。群智能优化算法具有强大的全局寻优能,并且具有较强的鲁棒性。尤其是蚁群算法具有和其他群智能算法相比独特的优势,蚁群算法本身就能直接聚类,不需要借助其他聚类算法,能够充分发挥群智能算法的优势。目前蚁群算法已成功应用于PPI网络复合物和功能模块挖掘,成为该领域一个新的研究热点。刘志军提出一种蚁群优化的PPI网络功能模块检测算法NACO-FMD,该方法设计一种更有目的性的函数指导蚁群寻优,得到较好的聚类效果。刘红欣提出一种蚁群聚类的功能模块检测算法ACC-FMD,该方法通过拾起放下模型对结点聚类,以最优解更新相似度函数,通过不断迭代使聚类结果趋于最优,最后对聚类结果合并过滤。这些蚁群聚类算法在应用于大规模PPI网络上都需要进行大量的拾起放下,以及合并过滤等操作,导致收敛速度慢,求解时间过长。吕嘉伟等人提出一种基于多粒度模型的蚁群优化算法MGRACO-FMD,试图提升收敛速度,但聚类结果准确性不高。Lei等人提出一种基于连接强度的PPI网络蚁群优化聚类算法,该算法时间开销有所降低,但查全率也较低。这些算法在提升时间性能的同时,正确率和查全率都有所降低。
[0005] 以上算法的预测准确性都依赖于PPI网络的可靠程度,然而目前得到的蛋白质相互作用数据包含大量假阳性和假阴性数据,此外这些算法都将PPI网络视为静止不变的,但是静态PPI网络不能真实反映细胞内部的动态变化,因此基于动态PPI网络挖掘蛋白质复合物更为合理。随着蛋白质生物数据和序列数据的增多,最近,一些研究者试图结合其生物信息来构建更加可靠的动态PPI网络,进而挖掘更加可靠的蛋白质复合物。
[0006] Tang等人利用基因表达数据和静态PPI网络,构建一个规定统一阈值的时序蛋白质相互作用网络(Time course protein interaction networks,TC-PIN),并且将其成功应用于蛋白质功能模块挖掘。由于各个蛋白的基因表达平不一致,设置统一阈值会导致构建的PPI网络不准确,进而影响聚类效果。Hu等人取消统一阈值,将各个蛋白质的平均表达水平作为评判该蛋白质是否为活性的标准,结合复合物信息和结构域信息构建动态加权网络,并提出蛋白质功能预测方法D-PIN,实验表明该方法具有较高的准确率,但召回率相对较低。Su等人提出一种基于动态加权PPI网络的复合物挖掘算法GECIuster,该方法首先利用GO-Slim对动态网络加权,其次根据种子节点扩充的策略挖掘蛋白质复合物。该方法只采用基因本体信息度量蛋白质之间的功能相似性,并未融合多种数据,因此不能很好地反映蛋白质之间的相互作用。Yi等人利用边聚集系数和持续共表达长度对各个蛋白质加权,提出一种基于核附属的蛋白质复合物检测方法DCA,该算法的加权方式融入了复合物演化的时序特征,能够较好地描述蛋白质之间的相似性。同年,Zhao等人利用复合物的时序功能保持特征,结合蚁群聚类,提出一种新的复合物识别算法。该算法从一种新的视去分析复合物的挖掘方法,而不仅仅只在聚类方法上进行创新。该方法的聚类精确度较高,但是算法的召回率一般,可能与权值度量及蚁群搜索方式有关。虽然基于动态PPI网络的蛋白质复合物挖掘取得了一定的成效,但如何有效利用基因表达谱过滤假阳性数据,如何合理整合PPI数据和多元生物信息,并提出有效的加权方式来减少构建的网络与真实网络之间的差距,仍需深入研究。此外蚁群算法应用于大规模PPI网络聚类问题中,需进行大量拾起放下和过滤操作,导致收敛速度慢,同时由于算法随机性较大,导致准确率和召回率普遍不高,这些问题仍亟待解决。发明内容
[0007] 为了解决至少一个上述技术问题,本公开提供一种基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法。
[0008] 根据本公开的一个方面,基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法包括以下步骤:
[0009] 构建动态加权蛋白质相互作用网络:输入蛋白质相互作用数据、基因表达谱数据和基因本体信息,将蛋白质相互作用网络数据进行去重操作,利用基因表达谱数据过滤不具有活性的蛋白质,从而构建动态蛋白质相互作用网络,再利用综合权值度量为动态蛋白质相互作用网络加权并添加新的相互作用,进而构建动态加权蛋白质相互作用网络;
[0010] 构建蛋白质复合核:输入各个时刻的动态加权蛋白质相互作用网络和关键蛋白质集合,采用点边聚集系数优化种子节点的选取,利用蛋白质的关键性和复合物的内在属性来构建蛋白质复合核;
[0011] 蚁群聚类:采用模糊粒度的相似度函数改进蚁群算法的拾起规则,不断装载蛋白质结点形成初始的聚类结果,利用紧密度优化放下规则,对初始聚类结果进行修正,进而实现蛋白质复合物的挖掘;
[0012] 全局和局部权值更新:利用局部权值更新策略来实现不同代蚁群之间的最优解信息的传递,采用全局权值更新策略实现相邻时刻动态加权蛋白质相互作用网络之间的功能信息传递;以及
[0013] 输出结果:输出挖掘出的蛋白质复合物。
[0014] 根据本公开的至少一个实施方式,构建动态加权蛋白质相互作用网络的步骤包括:
[0015] 通过下式1将基因表达谱数据的36个时刻合并为12个时刻:
[0016]
[0017] 其中,Tu(i)表示蛋白质u在i时刻下的基因表达值,1≤i≤12;
[0018] 根据下式2将不共表达的蛋白质进行过滤:
[0019]
[0020] 其中,T’u表示蛋白质u的平均基因表达值;
[0021] 为每个动态子网络添加相互作用:假设蛋白质u,v在静态蛋白质相互作用网络上存在相互作用且共表达,则在该时刻网络中添加一组相互作用;假设蛋白质u,v在静态蛋白质相互作用网络上不存在相互作用但共表达,则通过下式3来判断是否添加相互作用:
[0022]
[0023] 其中,CWM(u,v)表示蛋白质u,v的综合权值度量,CEcc(u,v)表示点边聚集系数,FS(u,v)表示基因本体功能相似性,Pcc(u,v)表示皮尔逊相关系数;
[0024] 当CWM(u,v)大于0,则添加一组相互作用,否则不添加;
[0025] 根据上式3,采用综合权值度量对12个动态子网络进行加权,进而获得动态加权蛋白质相互作用网络。
[0026] 根据本公开的至少一个实施方式,点边聚集系数CEcc(u,v)用下式4计算:
[0027]
[0028] 其中,tanu,v表示网络结点u,v共同构成的三角形的个数,du,dv分别表示网络结点u,v的度,Cu,Cv分别表示网络结点u,v的点聚集系数;
[0029] 基因本体功能相似性FS(u,v)用下式5计算:
[0030]
[0031] 其中,|fu∩fv|表示蛋白质u和v共同的基因本体术语数目,|fu|,|fv|分别表示蛋白质u和v的基因本体术语数目;
[0032] 皮尔逊相关系数Pcc(u,v)用下式6计算:
[0033]
[0034] 其中,k为样本数,i为在基因表达数据中的时刻数,Exp(u,i),Exp(v,i)分别表示蛋白质u和v在i时刻下的表达值, 和σ(u),σ(v)分别表示蛋白质u和v在所有时刻下的平均表达值和标准方差,Pcc(u,v)∈[-1,1]。
[0035] 根据本公开的至少一个实施方式,构建蛋白质复合核的步骤包括:
[0036] B1计算每个关键蛋白质的结点的所有关联边的点边聚集系数之和SoCEcc,并按降序排列放入有序队列Q1;
[0037] B2从队列Q1中取点边聚集系数之和最大的关键蛋白质结点初始化一个复合核C,将满足相互作用阈值η并且连续共表达次数大于等于m的直接邻居结点加入复合核C;
[0038] B3判断复合核C是否满足密度阈值d,若不满足,则递归删除SoCEcc值小的结点直至复合核C满足密度阈值d;
[0039] B4当复合核C满足密度阈值d,则将复合核C存入结果队列Q2中,从有序队列Q1中删除复合核C中的全部结点;
[0040] B5重复步骤B2、B3和B4,直到有序队列Q1为空。
[0041] 根据本公开的至少一个实施方式,关键蛋白质的结点的所有关联边的点边聚集系数之和SoCEcc通过下式7计算:
[0042]
[0043] 其中,SoCEcc(u)表示关键蛋白质结点u的所有关联边的点边聚集系数之和。
[0044] 根据本公开的至少一个实施方式,蚁群聚类的步骤包括:
[0045] C1在结果队列Q2中随机选择一个复合核C作为蚂蚁的初始位置
[0046] C2计算蚂蚁邻域范围内结点u的模糊粒度,将满足条件的邻居结点拾起,并前进到该邻居结点,更新复合核和蚂蚁邻域范围;若没有满足条件的邻居结点,则跳过步骤C3直接进入步骤C4;
[0047] C3判断蚂蚁装载量是否达到最大,若未达到最大装载量,则重复步骤C2,继续对蚂蚁的新邻域范围内的结点进行聚类,若达到最大装载量,则进行步骤C4;
[0048] C4得到复合核C对应的初始聚类结果,从结果队列Q2中删除复合核C,判断结果队列Q2是否为空,若不为空,则随机选择一个复合核作为蚂蚁的初始位置,并返回步骤C2开始新一轮搜索;若结果队列Q2为空,则进入步骤C5;
[0049] C5计算结点u与复合物PC的紧密度,将紧密度小于1的结点舍去,得到复合物PC,输出复合物集合CS。
[0050] 根据本公开的至少一个实施方式,模糊粒度通过下式8计算:
[0051]
[0052] 其中,εA(u)表示蚂蚁邻域范围内结点u的模糊粒度,|C|为复合核C内的结点数,α为相异度因子。
[0053] 紧密度通过下式9计算:
[0054]
[0055] 其中,CD(u,PC)表示结点u与复合物PC的紧密度,din(u,v1)表示蛋白质u与复合物PC内其他蛋白质v1连接边的权值,dout(u,v2)表示蛋白质u与复合物PC外其他蛋白质v2连接边的权值。
[0056] 根据本公开的至少一个实施方式,根据下式10进行局部权值更新:
[0057] CWM(u,v)=(1+PCuv)CWM(u,v)       式10
[0058] 其中,PCuv表示在上次迭代的最优解中蛋白质u,v共享复合物的概率,以此作为一种增强系数。
[0059] 根据本公开的至少一个实施方式,增强系数PCuv通过下式11计算:
[0060]
[0061] 其中,Cu,Cv分别为蛋白质u,v所属复合物的集合,Cu∩Cv表示同时包含蛋白质u,v的复合物集合。
[0062] 根据本公开的至少一个实施方式,根据下式12进行全局权值更新:
[0063]
[0064] 其中, 和 分别表示在Ti-1和Ti时刻瞬时网络的最优解中蛋白质u和v出现在同一复合物中的次数,0≤α<β≤1,和β为常数。附图说明
[0065] 附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0066] 图1是根据本公开的至少一个实施方式的动态加权蛋白质相互作用网络的构建示意图。
[0067] 图2是根据本公开的至少一个实施方式的基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法流程图
[0068] 图3是根据本公开的至少一个实施方式的动态蛋白质相互作用网络上各算法的聚类结果对比图。
[0069] 图4是根据本公开的至少一个实施方式的不同算法检测的DNA-directed RNA polymerase II complex复合物结果对比图。

具体实施方式

[0070] 下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0071] 需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
[0072] 本公开基于蚁群聚类对蛋白质复合物的挖掘,提出一种基于模糊粒度和紧密度的蚁群聚类的动态加权PPI网络复合物挖掘方法(FGCDACC-DPC)。首先利用基因表达谱数据进行动态蛋白质相互作用网络的构建,采用综合性权值度量CWM对各个动态子网加权并添加新的相互作用,进而构建动态加权网络;然后利用蛋白质复合物的基本特征,构建一组稠密且高度共表达的复合核,采用模糊粒度和紧密度的拾起放下模型(GCM)实现蛋白质复合物的挖掘;同时采用局部和全局权值更新策略,实现不同代蚁群和不同时刻网络之间的最优解功能信息传递。
[0073] 在本公开的一个可选实施方式中,优选以酵母蛋白质为例进行数据分析和实验验证。
[0074] (一)构建动态加权PPI网络:
[0075] 酵母蛋白质相互作用网络来自于DIP数据库,经去重操作后,该数据库包含5093个蛋白质和24734组相互作用。基因表达谱数据选取编号为GSE3431的数据,包括36个时刻下的6777个基因的表达值,其中只有4981个基因在酵母PPI网络中。标准蛋白质复合物信息来源于CYC2008模块集,该模块集中包含408个标准复合物,其最大规模为81,最小规模为3。基因本体(GO)功能注释信息下载自基因本体库。关键蛋白质数据通过整合MIPS,SGD,DEG和SGDP这4个数据库中的数据得到,其中包含1285个关键蛋白质,只有1167个关键蛋白在酵母PPI网络中。考虑到受实验检测条件的局限性以及PPI网络的“无尺度”和“小世界”特性,蛋白质相互作用网络和生物信息学中的一些生物数据存在不准确性,并且检测蛋白质复合物的准确性易受到假阳性和假阴性的影响。为了降低实验结果受假阳性和假阴性数据的影响,基于静态PPI网络,结合网络拓扑特性和生物特性构建动态加权PPI网络,进而提高蛋白质复合物挖掘的准确率。根据基因表达谱数据对静态PPI网络不断调整优化,进而构建动态PPI网络,再综合利用点边聚集系数、皮尔逊相关系数和GO功能相似性,对动态PPI网络加权,并添加新的相互作用,从而构建动态加权PPI网络。构建动态加权PPI网络的详细过程如下:
[0076] 根据基因表达谱数据,通过下式1将36个时刻合并为12个时刻:
[0077]
[0078] 其中,Tu(i)表示蛋白质u在i时刻下的基因表达值,1≤i≤12。
[0079] 根据下式2将不共表达的蛋白质进行过滤:
[0080]
[0081] 其中,T'u表示蛋白质u的平均基因表达值。
[0082] 为每个动态子网络添加相互作用:假设蛋白质u,v在静态蛋白质相互作用网络上存在相互作用且共表达,则在该时刻网络中添加一组相互作用;假设蛋白质u,v在静态蛋白质相互作用网络上不存在相互作用但共表达,则通过下式3来判断是否添加相互作用:
[0083]
[0084] 其中,CWM(u,v)表示蛋白质u,v的综合权值度量,CEcc(u,v)表示点边聚集系数,FS(u,v)表示基因本体功能相似性,Pcc(u,v)表示皮尔逊相关系数。
[0085] 进一步地,点边聚集系数CEcc(u,v)用下式4计算:
[0086]
[0087] 其中,tanu,v表示网络结点u,v共同构成的三角形的个数,du,dv分别表示网络结点u,v的度,Cu,Cv分别表示网络结点u,v的点聚集系数。
[0088] 基因本体功能相似性FS(u,v)用下式5计算:
[0089]
[0090] 其中,|fu∩fv|表示蛋白质u和v共同的基因本体术语数目,|fu|,|fv|分别表示蛋白质u和v的基因本体术语数目。
[0091] 皮尔逊相关系数Pcc(u,v)用下式6计算:
[0092]
[0093] 其中,k为样本数,i为在基因表达数据中的时刻数,Exp(u,i),Exp(v,i)分别表示蛋白质u和v在i时刻下的表达值, 和σ(u),σ(v)分别表示蛋白质u和v在所有时刻下的平均表达值和标准方差,Pcc(u,v)∈[-1,1]。
[0094] 当蛋白质u,v的综合权值度量CWM(u,v)大于0,则添加一组相互作用,否则不添加。根据上式3,采用综合权值度量对12个动态子网络进行加权,进而获得动态加权蛋白质相互作用网络。
[0095] 上述构建动态加权PPI网络的方法,充分考虑到了由于实验条件的局限性以及蛋白质网络的“无尺度”和“小世界”的特性导致的PPI网络存在大量假阳性和假阴性数据等情况,可以有效降低蛋白质复合物挖掘的聚类结果受噪声数据的影响,并且可以融合蛋白质的生物信息提高蛋白质复合物挖掘的准确率。
[0096] 如图1所示为动态加权PPI网络的构建示意图,体现了酵母PPI网络的动态特性。由图1可知,不同蛋白质在各个时刻网络具有的活性以及蛋白质之间的相互作用都具有很大的差异。由于真实的蛋白质网络是不断变化的,蛋白质必须在活性状态下才能与其他蛋白质相互作用,因此瞬态网络中的相互作用的蛋白质都应该处于活性状态。虽然动态网络的构建能够减少大量假阳性数据,但势必会导致假阴性的增加,为减少假阴性对聚类结果的负面影响,采用综合性权值度量为动态PPI网络加权并添加新的相互作用,提高网络的可靠程度。分析的结果表明:动态加权PPI网络的构建能够更加贴近真实的酵母PPI网络,从而提高聚类准确性。同时蛋白质功能模块在各个动态加权PPI网络的分布具有显著的统计特性,且蛋白质功能模块主要在某些相互作用子网富集,这说明并非所有的动态加权PPI网络的蛋白质综合性权值度量测度都对细胞内蛋白质复合物的挖掘有用。
[0097] (二)构建蛋白质复合核:
[0098] 利用蛋白质复合物的内在属性和生物特性来构建更加真实可靠的复合核。首先选取每个时刻子网中所有关键蛋白质作为种子结点集合,再判断构造的复合核是否满足相互作用阈值、密度阈值和连续共表达次数的条件,进而构建复合核。构建蛋白质复合核的详细过程如下:
[0099] 1)首先计算每个关键蛋白质的结点的所有关联边的点边聚集系数之和SoCEcc,并按降序排列放入有序队列Q1;
[0100] SoCEcc通过下式7计算:
[0101]
[0102] 其中,SoCEcc(u)表示关键蛋白质结点u的所有关联边的点边聚集系数之和;
[0103] 2)从队列Q1中取点边聚集系数之和最大的关键蛋白质结点初始化一个复合核C,将满足相互作用阈值η并且连续共表达次数大于等于m的直接邻居结点加入复合核C,其中,m可以根据实际需要确定取值范围;
[0104] 3)判断复合核C是否满足密度阈值d,若不满足,则递归删除SoCEcc值小的结点直至复合核C满足密度阈值d;
[0105] 4)当复合核C满足密度阈值d,则将复合核C存入结果队列Q2中,从有序队列Q1中删除复合核C中的全部结点;
[0106] 5)重复步骤2)、3)和4),直到有序队列Q1为空。
[0107] (三)基于模糊粒度和紧密度的蚁群聚类:
[0108] 采用基于模糊粒度的拾起规则(FGP)不断装载数据形成初始的聚类结果,再利用紧密度对初始聚类结果进行修正。具体的,蚂蚁随机选择一个复合核并初始化一个簇,搜索可视范围的结点,如果模糊粒度相似度大于初始粒度P,则拾起该结点并前进到其所在位置。当蚂蚁遍历完当前复合核邻域内所有满足条件的结点或者达到最大装载量时,蚂蚁随机选择下一个复合核开始下一轮搜索。重复上述过程,直到所有复合核均被蚂蚁遍历完,得到初始聚类结果。根据紧密度的放下规则(CDD)对初始聚类结果进行修正,舍弃一些外部连接紧密,内部连接松散的结点,进而实现蛋白质复合物的挖掘。蚁群聚类的详细过程如下:
[0109] 1)在结果队列Q2中随机选择一个复合核C作为蚂蚁的初始位置;
[0110] 2)计算蚂蚁邻域范围内(直接邻居)结点u的模糊粒度,将满足条件的邻居结点拾起,并前进到该邻居结点,更新复合核和蚂蚁邻域范围;若没有满足条件的邻居结点,则跳过步骤3)直接进入步骤4);模糊粒度通过下式8计算:
[0111]
[0112] 其中,εA(u)表示蚂蚁邻域范围内结点u的模糊粒度,|C|为复合核C内的结点数,α为相异度因子。
[0113] 3)判断蚂蚁装载量(标准复合物的最大规模)是否达到最大,若未达到最大装载量,则重复步骤2),继续对蚂蚁的新邻域范围内的结点进行聚类,若达到最大装载量,则进行步骤4);
[0114] 4)得到复合核C对应的初始聚类结果,从结果队列Q2中删除复合核C,判断结果队列Q2是否为空,若不为空,则随机选择一个复合核作为蚂蚁的初始位置,并返回步骤2开始新一轮搜索;若结果队列Q2为空,则进入步骤5);
[0115] 5)计算结点u与复合物PC的紧密度,将紧密度小于1的结点舍去,得到复合物PC,输出复合物集合CS;
[0116] 紧密度通过下式9计算:
[0117]
[0118] 其中,CD(u,PC)表示结点u与复合物PC的紧密度,din(u,v1)表示蛋白质u与复合物PC内其他蛋白质v1连接边的权值,dout(u,v2)表示蛋白质u与复合物PC外其他蛋白质v2连接边的权值。
[0119] (四)全局和局部权值更新:
[0120] 利用功能信息传递机制和种群中最优解信息来进行局部权值更新,通过不同代蚁群之间的信息传递,将上一次迭代的最优解信息通过权值进行传递,使相似的数据在下一次迭代中被分配到同一簇的概率增大,同时减小不相似数据被分配到同一簇的概率。
[0121] 根据下式10进行局部权值更新:
[0122] CWM(u,v)=(1+PCuv)CWM(u,v)      式10
[0123] 其中,PCuv表示在上次迭代的最优解中蛋白质u,v共享复合物的概率,以此作为一种增强系数。
[0124] PCuv通过下式11计算:
[0125]
[0126] 其中,Cu,Cv分别为蛋白质u,v所属复合物的集合,Cu∩Cv表示同时包含蛋白质u,v的复合物集合。
[0127] 利用基于时序相关性和功能传递性的全局权值更新策略来实现相邻时刻PPI网络之间的权值更新。该策略将上一时刻网络的聚类结果通过CWM的正反馈传递给下一时刻的网络,可以有效增加属于同一簇的两个蛋白质之间的相互作用程度,加快收敛速度。
[0128] 全局权值更新公式如下式12所示:
[0129]
[0130] 其中, 和 分别表示在Ti-1和Ti时刻瞬时网络的最优解中蛋白质u和v出现在同一复合物中的次数,0≤α<β≤1,和β为常数。优选的,分别设置 和β为0.1和0.2。
[0131] (五)输出结果:输出所有的通过上述方法挖掘出的蛋白质复合物。
[0132] 如图2所示为FGCDACC-DPC方法的流程图。根据图2可以将上述方法概括为:首先采用基于静态PPI网络,结合基因表达谱数据和基因本体信息的动态加权模型,构建更加真实可靠的动态加权蛋白质相互作用网络;其次构建一组稠密且高度共表达的复合核,然后采用基于模糊粒度和紧密度的模型(FGCDM)进行拾起、放下操作实现蛋白质复合物的挖掘,聚类完成之后根据模块性M评价解的质量;最后为提高聚类准确性和加快聚类速度,采用基于功能信息传递和时序功能相关的全局和局部权值更新策略对蛋白质之间的相互作用进行更新,输出所有挖掘出的蛋白质复合物。
[0133] 为了验证FGCDACC-DPC方法的有效性和相比于其他方法的性能优越性,将FGCDACC-DPC方法与MCODE、RNSC、MCL、COACH、JSACO、ACC-FDM和ACC-DPC方法在挖掘的蛋白质复合物的正确率和召回率、功能模块挖掘的聚类性能以及执行效率方面进行了比较。优选的,将上述多种方法应用于酵母蛋白质相互作用网络来进行实验验证。
[0134] 1)方法FGCDACC-DPC与其他方法挖掘的蛋白质功能模块在正确率、召回率和F-measure度量值的比较:
[0135] 为了验证FGCDACC-DPC算法在动态PPI网络的有效性,我们采用正确率、召回率和F-measure度量值来评估FGCDACC-DPC的聚类性能。将FGCDACC-DPC方法与其他7种方法独立运行20次,取实验结果的平均值进行分析比较。如图3所示为各算法在三种度量指标上的对比结果,可以看出,FGCDACC-DPC算法具有最高的F-measure值,且分别比MCODE,MCL,COACH,RNSC,ACC-DPC,JSACO和ACC-FMD算法提高了144.3%,61.06%,19.24%,37.58%,17.49%,42.161%,25.52%。造成这种结果的主要原因有:通过FGCDACC-DPC算法构建的动态加权PPI网络更加贴近真实的PPI网络,降低假阳性和假阴性对聚类准确性的影响;另一方面对拾起放下的改进策略和权值更新策略能够有效提升算法的F-measure度量值。FGCDACC-DPC算法在精度(正确率)上位列第二,仅次于JSACO算法,这说明通过FGCDACC-DPC算法构建的动态网络包含较少的假阳性。FGCDACC-DPC算法在召回率上的表现较优,分别比MCODE,MCL,COACH,RNSC,ACC-DPC,JSACO算法和ACC-FMD提高了252.2%,38.025%,7.08%,14.01%,
27.17%,95.758%和40.157%。虽然FGCDACC-DPC算法构建的动态网络会缺少一定量的蛋白质,这样可能会导致召回率有所下降,但加权方式的有效性使得网络中含有较少的假阴性,因此召回率整体上提高了。综合衡量正确率、召回率和F-measure这三个指标值,FGCDACC-DPC算法性能较优。
[0136] 2)方法FGCDACC-DPC与其他方法挖掘的蛋白质复合物的聚类性能的比较:
[0137] 为了进一步评估FGCDACC-DPC算法的聚类性能,分别从各类算法识别的复合物的个数、簇平均大小、覆盖蛋白质数以及运行时间四个方面进行分析。
[0138] 从下表1中可以看出,FGCDACC-DPC算法识别复合物的平均大小和覆盖蛋白质数比其他算法识别的结果都要更加接近标准类;虽然识别的复合物个数为637,仅次于MCL算法,但MCL算法覆盖的蛋白质却有4096个,因此其准确率比FGCDACC-DPC算法低。
[0139] 为了验证FGCDACC-DPC算法的时间效率,将其与各种基于蚁群聚类的算法进行对比实验。从表1中可以看出FGCDACC-DPC算法时间性能较优。首先是因为FGCDACC-DPC算法是基于小规模动态加权PPI网络聚类的,克服了蚁群算法应用于大规模PPI网络收敛速度慢的问题;其次改进的拾起放下规则和权值更新的有效性,能够有效减少计算量和访问却不拾起的次数,进而缩短聚类时间。因此FGCDACC-DPC算法比ACC-DPC和ACC-FMD算法的时间效率要高。虽然FGCDACC-DPC算法的运行时间稍次于JSACO算法,但该算法的其他指标却高于JSACO算法。
[0140] 表1各种挖掘蛋白质复合物算法的性能比较
[0141]
[0142] 通过FGCDACC-DPC算法识别的蛋白质复合物无论是簇的平均大小、个数,还是所覆盖的蛋白质个数都非常接近标准类,并且在聚类时间也较低,仅次于JSACO算法。总体来说,本公开的FGCDACC-DPC算法的聚类性能较高,取得了较好的优化效果。
[0143] 3)方法FGCDACC-DPC与其他方法挖掘的蛋白质复合物的聚类结果的比较:
[0144] 分析FGCDACC-DPC算法的聚类结果,表2为采用该算法识别的6个蛋白质复合物。通过分析预测复合物中正确和错误的聚类结果来评价FGCDACC-DPC算法的聚类效果。
[0145] 从表2可以看出,预测复合物2、3、5和6与标准复合物为完美匹配,说明采用FGCDACC-DPC算法检测的蛋白质复合物与真实蛋白质复合物更加贴近,更具生物意义。
[0146] 为更加直观的分析聚类结果,将DNA-directed RNA polymerase II complex复合物的检测结果进行可视化。如图4所示为使用不同算法检测DNA-directed RNA polymerase II complex复合物的预测结果,其中灰色结点表示聚类错误的蛋白质。图4(a)是标准复合物;图4(b)是FGCDACC-DPC算法的检测结果,正确检测了该复合物的全部蛋白质;图4(c)是ACC-DPC算法的检测结果,正确检测到11个蛋白质,只有蛋白质YHR143W-A未被检测出来,这是因为该结点只与簇内YIL021W相连,并且与簇外连接更加紧密;图4(d)是ACC-FMD算法的检测结果,检测到10个蛋白质,错误检测两个非复合物内蛋白质,其中蛋白质YPL203W错误替代YHR143W-A,这是因为YPL203W与簇内所有蛋白质都连接紧密。从图4(c)和(d)的聚类结果中可以看出,在使用同种算法的情况下基于动态网络挖掘的复合物更加准确;图4(e)和(f)为MCL和MCODE算法的检测结果,这两种算法都只正确检测到9个蛋白质,其中MCL算法检测结果中的蛋白质YPR110C错误替换YPR187W,MCODE算法错误检测两个蛋白质。由此可见,基于动态加权PPI网络的FGCDACC-DPC算法的检测结果更加接近标准复合物,进一步说明了该算法的有效性。
[0147] 表2 FGCDACC-DPC算法识别的6个复合物的结果分析
[0148]
[0149]
[0150] 综上所述,基于蚁群聚类的动态加权PPI网络蛋白质复合物挖掘方法挖掘出来的蛋白质复合物的准确性及其与标准蛋白质复合物匹配的精度、召回率以及聚类效果等方面都得到显著提升。
[0151] 本公开技术方案原理简单,容易实现,与现有的基于动态PPI网络的蛋白质复合物识别方法相比较,本公开技术方案无论是在预测的准确率、召回率,或是与已知蛋白质复合物的匹配率等方面都有显著提高,有助于为生物学家进行蛋白质未知功能的预测实验和进一步研究提供有价值的参考信息。
[0152] 本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈