首页 / 专利库 / 人工智能 / 预测模型 / 一种预测疾病与LncRNA关联关系的方法及系统

一种预测疾病与LncRNA关联关系的方法及系统

阅读:0发布:2021-02-18

专利汇可以提供一种预测疾病与LncRNA关联关系的方法及系统专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种预测 疾病 与LncRNA关联关系的方法和系统,包括:从已知 数据库 获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络;基于LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱;根据疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的 预测模型 ;使用预测模型对候选样本的LncRNA-疾病关联对进行预测。本发明提供最有希望的LncRNA疾病关联进一步的实验验证,能够有效的从海量 生物 数据中挖掘潜在的疾病相关的LncRNA,降低生物实验成本与开销,加快生物信息领域研究进展。,下面是一种预测疾病与LncRNA关联关系的方法及系统专利的具体信息内容。

1.一种预测疾病与LncRNA关联关系的方法,其特征在于,包括以下步骤:
S1:从已知数据库获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络;
S2:基于所述LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱;
S3:根据所述疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型
S6:使用预测模型对候选样本的LncRNA-疾病关联对进行预测。
2.根据权利要求1所述的预测疾病与LncRNA关联关系的方法,其特征在于,所述步骤S3完成后,步骤S6进行之前,所述方法还包括:
S4:使用已知的LncRNA-疾病关联对作为验证集对预测模型进行验证;
S5:根据验证的结果调整预测模型的参数,优化所述预测模型。
3.根据权利要求1或2所述的预测疾病与LncRNA关联关系的方法,其特征在于,所述步骤S1,包括以下步骤:
S11:从已知数据库获取LncRNA-miRNA关联关系数据集,获取LncRNA-miRNA相互作用对;
S12:从已知数据库获取miRNA-疾病关联关系数据集,获取miRNA-疾病相互作用对;
S13:根据LncRNA-miRNA相互作用对构造LncRNA-miRNA关联关系的网络;
S14:根据miRNA-疾病相互作用对构造miRNA-疾病关联关系的网络;
S15:基于上述构建的LncRNA-miRNA关联关系的网络和miRNA-疾病关联关系的网络,构建LncRNA-miRNA-疾病相互作用网络。
4.根据权利要求3所述的预测疾病与LncRNA关联关系的方法,其特征在于,所述步骤S2,包括以下步骤:
S21:根据LncRNA-miRNA关联关系的网络和miRNA-疾病关联关系的网络,构造LncRNA-miRNA邻接矩阵与miRNA-疾病邻接矩阵;
S22:基于LncRNA-miRNA-疾病相互作用网络,建立疾病的超级表达谱矩阵和LncRNA的超级表达谱矩阵。
5.根据权利要求4所述的预测疾病与LncRNA关联关系的方法,其特征在于,所述步骤S3,包括以下步骤:
S31:根据LncRNA的超级表达谱矩阵,采用基于RBF神经网络算法计算LncRNA相似性;
S32:根据疾病的超级表达谱矩阵,采用基于RBF神经网络算法计算疾病相似性;
S33:基于LncRNA相似性、疾病相似性以及LncRNA-miRNA邻接矩阵与miRNA-疾病邻接矩阵来计算LncRNA-疾病关联对的关联程度,得到疾病与LncRNA关联关系的预测模型。
6.根据权利要求5所述的预测疾病与LncRNA关联关系的方法,其特征在于,所述步骤S4,包括以下步骤:
S41:将每个已知的LncRNA-疾病关联对依次作为验证集,所有其他已知的LncRNA-疾病关联对作为训练样本;将所有没有确定的实验支持的LncRNA-疾病关联对组成候选样本,使用预测模型测得每个验证集相对于候选样本的排名,如果预测模型对验证集预测的排名高于事先给定的阈值,则判定为一个成功的预测。
7.根据权利要求6所述的预测疾病与LncRNA关联关系的方法,其特征在于,所述步骤S5,包括以下步骤:
S51:通过调整阈值,绘制TPR和FPR的不同阈值的ROC曲线,计算ROC曲线的AUC;其中,TPR是预测验证样本的排名高于给定阈值的百分比,而FPR是排名低于给定阈值的验证样本的百分比;
S52:通过调整步骤S3中的计算的参数,根据预测模型获得的AUC值的大小,优化所述预测模型。
8.一种预测疾病与LncRNA关联关系的系统,其特征在于,包括:
网络构建单元,用于从已知数据库获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络;
表达谱构建单元,用于基于所述LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱;
模型构建单元,用于根据所述疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型;
预测单元,用于使用预测模型对候选样本的LncRNA-疾病关联对进行预测。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一所述方法的步骤。

说明书全文

一种预测疾病与LncRNA关联关系的方法及系统

技术领域

[0001] 本发明涉及生物信息学疾病预测领域,尤其涉及一种基于LncRNA(Long non-coding RNA,长链非编码RNA)-miRNA(MicroRNA,微小RNA)-疾病相互作用网络预测疾病与LncRNA关联关系的方法及系统。

背景技术

[0002] 长链非编码RNA(Long non-coding RNA,LncRNA)是一类长度超过200个核苷酸的重要非编码RNA。在许多重要的生物过程中起着关键的作用,其中包括转录、翻译、剪接、分化、表观遗传调控、免疫反应和细胞周期调控等等。因此,LncRNA的突变和失调和许多人类疾病有着重要的关联关系。比如有研究表明LncRNA与癌症、心血管疾病和神经性疾病等都有密切的关联,临床实验表明有些LncRNA,如HOTAIR(HOX tran antisense RNA,HOX基因组转录而来的反义RNA),PCA3(Prostate cancer antigen 3,新型前列腺癌抗原3)和UCA1(urothelial carcinoma antigen 1,尿路上皮癌胚抗原1)已经被分别作为肝癌细胞复发、前列腺癌侵袭和膀胱癌诊断的生物标志物。因此,鉴定潜在的人类疾病相关LncRNAs(LncRNA集)不仅可以促进LncRNA平上人类疾病分子机制的理解,而且可以促进人类疾病诊断、治疗预后预防的生物标志物识别。目前,大量的研究已经产生了大量的关于序列、表达和功能等LncRNA相关的生物学数据,这些数据存储在一些公开可以免费使用的数据库中,比如NRED(ncRNA expression database,ncRNA表达数据库)、LncRNAdb(Long Noncoding RNA Database v2.0,长链非编码RNA数据库)和NONCODE等。然而,只有相对较少的LncRNA-疾病关联对被公布。
[0003] 因此,基于这些数据集开发强大的计算模型以大规模预测潜在的疾病-LncRNA相关性已被视为LncRNAs和疾病中最重要的主题之一。计算模型可以提供最有希望的LncRNA-疾病关联,从而减少生物实验的时间和成本。

发明内容

[0004] 本发明提供一种预测疾病与LncRNA关联关系的方法及系统。以解决现有的针对没有确定的实验支持的疾病-LncRNA相关性预测的生物实验时间和成本很高的技术问题。
[0005] 为实现上述目的,本发明提供了一种预测疾病与LncRNA关联关系的方法,包括以下步骤:
[0006] S1:从已知数据库获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络;
[0007] S2:基于LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱;
[0008] S3:根据疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型
[0009] S6:使用预测模型对候选样本中的LncRNA-疾病关联对进行预测。
[0010] 作为本发明的方法的进一步改进:
[0011] 步骤S3完成后,步骤S6进行之前,方法还包括:
[0012] S4:使用已知的LncRNA-疾病关联对作为验证集对预测模型进行验证;
[0013] S5:根据验证的结果调整预测模型的参数,优化预测模型。
[0014] 步骤S1,包括以下步骤:
[0015] S11:从已知数据库获取LncRNA-miRNA关联关系数据集,获取LncRNA-miRNA相互作用对;
[0016] S12:从已知数据库获取miRNA-疾病关联关系数据集,获取miRNA-疾病相互作用对;
[0017] S13:根据LncRNA-miRNA相互作用对构造LncRNA-miRNA关联关系的网络;
[0018] S14:根据miRNA-疾病相互作用对构造miRNA-疾病关联关系的网络;
[0019] S15:基于上述构建的LncRNA-miRNA关联关系的网络和miRNA-疾病关联关系的网络,构建LncRNA-miRNA-疾病相互作用网络。
[0020] 步骤S2,包括以下步骤:
[0021] S21:根据LncRNA-miRNA关联关系的网络和miRNA-疾病关联关系的网络,构造LncRNA-miRNA邻接矩阵与miRNA-疾病邻接矩阵;
[0022] S22:基于LncRNA-miRNA-疾病相互作用网络,建立疾病的超级表达谱矩阵和LncRNA的超级表达谱矩阵。
[0023] 步骤S3,包括以下步骤:
[0024] S31:根据LncRNA的超级表达谱矩阵,采用基于RBF神经网络算法计算LncRNA相似性;
[0025] S32:根据疾病的超级表达谱矩阵,采用基于RBF神经网络算法计算疾病相似性;
[0026] S33:基于LncRNA相似性、疾病相似性以及LncRNA-miRNA邻接矩阵与miRNA-疾病邻接矩阵来计算LncRNA-疾病关联对的关联程度,得到疾病与LncRNA关联关系的预测模型。
[0027] 步骤S4,包括以下步骤:
[0028] S41:将每个已知的LncRNA-疾病关联对依次作为验证集,所有其他已知的LncRNA-疾病关联对作为训练样本;将所有没有确定的实验支持的LncRNA-疾病关联对组成候选样本,使用预测模型测得每个验证集相对于候选样本的排名,如果预测模型对验证集预测的排名高于事先给定的阈值,则判定为一个成功的预测;
[0029] 步骤S5,包括以下步骤:
[0030] S51:通过调整阈值,绘制TPR和FPR的不同阈值ROC曲线,计算ROC曲线的AUC;其中,TPR是预测验证样本的排名高于给定阈值的百分比,而FPR是排名低于给定阈值的验证样本的百分比;
[0031] S52:通过调整步骤S3中的计算的参数,根据预测模型获得的AUC值的大小,优化预测模型。
[0032] 本发明还提供了一种预测疾病与LncRNA关联关系的系统,包括:
[0033] 网络构建单元,用于从已知数据库获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络;
[0034] 表达谱构建单元,用于基于LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱;
[0035] 模型构建单元,用于根据疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型;
[0036] 预测单元,用于使用预测模型对候选样本的LncRNA-疾病关联对进行预测。
[0037] 本发明还提供了一种预测疾病与LncRNA关联关系的系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的步骤。
[0038] 本发明具有以下有益效果:
[0039] 本发明的预测疾病与LncRNA关联关系的方法及系统,提供最有希望的LncRNA疾病关联进一步的实验验证,能够有效的从海量生物数据中挖掘潜在的疾病相关的LncRNA,降低生物实验成本与开销,加快生物信息领域研究进展。
[0040] 除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照附图,对本发明作进一步详细的说明。

附图说明

[0041] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0042] 图1是本发明优选实施例的预测疾病与LncRNA关联关系的方法的流程示意图;
[0043] 图2是本发明优选实施例2的预测疾病与LncRNA关联关系的方法的流程示意图;
[0044] 图3是本发明优选实施例2的网络构造与邻接矩阵表达示意图;
[0045] 图4是本发明优选实施例2的SIP构造图;
[0046] 图5是本发明优选实施例2的LncRNA-LncRNA相似性计算图;
[0047] 图6是本发明优选实施例2的的疾病-疾病相似计算图。

具体实施方式

[0048] 以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求限定和覆盖的多种不同方式实施。
[0049] 参见图1,本发明的预测疾病与LncRNA关联关系的方法,包括以下步骤:
[0050] S1:从已知数据库获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络;
[0051] S2:基于LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱;
[0052] S3:根据疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型;
[0053] S6:使用预测模型对候选样本中的LncRNA-疾病关联对进行预测。
[0054] 通过以上步骤,能够有效的从海量生物数据中挖掘潜在的疾病相关的LncRNA,降低生物实验成本与开销,加快生物信息领域研究进展。
[0055] 实施例1:
[0056] 本实施例的预测疾病与LncRNA关联关系的方法,包括以下步骤:
[0057] S1:从已知数据库获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络。具体如下:
[0058] S11:从已知数据库获取LncRNA-miRNA关联关系数据集,获取LncRNA-miRNA相互作用对;
[0059] S12:从已知数据库获取miRNA-疾病关联关系数据集,获取miRNA-疾病相互作用对;
[0060] S13:根据LncRNA-miRNA相互作用对构造LncRNA-miRNA关联关系的网络;
[0061] S14:根据miRNA-疾病相互作用对构造miRNA-疾病关联关系的网络;
[0062] S15:基于上述构建的LncRNA-miRNA关联关系的网络和miRNA-疾病关联关系的网络,构建LncRNA-miRNA-疾病相互作用网络。
[0063] S2:基于LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱。包括以下步骤:
[0064] S21:根据LncRNA-miRNA关联关系的网络和miRNA-疾病关联关系的网络,构造LncRNA-miRNA邻接矩阵与miRNA-疾病邻接矩阵;
[0065] S22:基于LncRNA-miRNA-疾病相互作用网络,建立疾病的超级表达谱矩阵和LncRNA的超级表达谱矩阵。
[0066] S3:根据疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型。包括以下步骤:
[0067] S31:根据LncRNA的超级表达谱矩阵,采用基于RBF神经网络算法计算LncRNA相似性;
[0068] S32:根据疾病的超级表达谱矩阵,采用基于RBF神经网络算法计算疾病相似性;
[0069] S33:基于LncRNA相似性、疾病相似性以及LncRNA-miRNA邻接矩阵与miRNA-疾病邻接矩阵来计算LncRNA-疾病关联对的关联程度,得到疾病与LncRNA关联关系的预测模型。
[0070] S4:使用已知的LncRNA-疾病关联对作为集验证对预测模型进行验证。
[0071] 包括以下步骤:
[0072] S41:将每个已知的LncRNA-疾病关联对依次作为验证集,所有其他已知的LncRNA-疾病关联对作为训练样本(所有已知的LncRNA-疾病关联对被划分为两部分,其中一部分只有一个LncRNA-疾病关联对,它作为验证集,剩下的那部分-“所有其他已知的LncRNA-疾病关联对”作为训练集。这种划分方式进行多次,直到每一对已知的LncRNA-疾病关联对都作了一次验证集为止。);将所有没有确定的实验支持的LncRNA-疾病关联对组成候选样本(候选样本是:在所有LncRNA-疾病的关联对中,去掉已知的LncRNA-疾病的关联对),使用预测模型测得每个验证集相对于候选样本的排名,如果预测模型对验证集预测的排名高于事先给定的阈值,则判定为一个成功的预测。
[0073] S5:根据验证的结果调整预测模型的参数,优化预测模型。包括以下步骤:
[0074] S51:通过调整阈值,绘制TPR和FPR的不同阈值ROC曲线,计算ROC曲线的AUC;其中,TPR是预测验证样本的排名高于给定阈值的百分比,而FPR是排名低于给定阈值的验证样本的百分比;
[0075] S52:通过调整步骤S3中的计算的参数,根据预测模型获得的AUC值的大小,优化预测模型。
[0076] S6:使用预测模型对候选样本中的LncRNA-疾病关联对进行预测。
[0077] 实施例2:
[0078] 图2是本实施例的全局流程图,其中,MD是miRNA-疾病的邻接矩阵,LM是LncRNA-miRNA的邻接矩阵,SIP(L)是LncRNA的超级表达谱矩阵,SIP(D)是疾病的超级表达谱矩阵,NSL是LncRNA的相似性矩阵,NSD是疾病的相似性矩阵,LMD=LM*MD,LMDT是LMD矩阵的转置,S(i,j)是第i个疾病和第j个LncRNA的预测分数。
[0079] 本实施例提供一种基于LncRNA-miRNA-疾病相互作用网络预测疾病与LncRNA关联关系的方法,包括以下步骤:
[0080] S1:原始数据集的获取与处理,数据特征的预处理与特征选择。具体如下:
[0081] S11:LncRNA-miRNA关联关系的获取;
[0082] 从starBasev2.0数据库下载两个版本的LncRNA-miRNA关联数据集(2015版本和2017年版本),其提供了基于大规模CLIP-Seq的最全面的实验证实的LncRNA-miRNA相互作用数据。经过数据预处理(包括消除重复值、错误数据和杂乱无章的数据等)后,获得了
10212个LncRNA-miRNA相互作用对,包括275个miRNA和1127个LncRNAs。
[0083] S12:miRNA-疾病关联关系的获取;
[0084] 从HMDD数据库下载miRNA-疾病关联对,该数据库是通过从文献数据手动确定获得的miRNA相关疾病的库。数据预处理后,获得了5386个实验验证了的高质量的miRNA-疾病相关对,包括495种miRNA和381种疾病。
[0085] S13:LncRNA-miRNA关联关系的网络构造与邻接矩阵表示
[0086] 具体的:设M1代表所有收集的在LncRNA-miRNA中的miRNA的集合,L代表所有收集的在LncRNA-minRNA中的LncRNA的集合,则可以如下构建LncRNA-miRNA网络G1(V1,E1):
[0087] (1)V1是G1的顶点集,有V1=M1∪L。
[0088] (2)E1是G1的边集,且 mj∈M1,E1中li和mj之间存在一条边,当且仅当LncRNA li与mj有关。
[0089] S14:miRNA-疾病关联关系的网络构造与邻接矩阵表示。
[0090] 设M2代表所有收集的miRNA-疾病中的miRNA的集合,D代表所有收集的miRNA-疾病中的疾病的集合,则可以如下构建miRNA-疾病网络G2(V2,E2):
[0091] (1)V2是G2的顶点集合,V2=M2∪D。
[0092] (2)E2是G2的边集,且 dj∈D,mi与dj在E2之间存在一条边,当且仅当miRNA与疾病dj有关。
[0093] S15:根据上述获得的已知的关联关系,构造LncRNA-miRNA与miRNA-疾病邻接矩阵,并且整理LncRNA-miRNA-疾病相互作用网络。
[0094] 基于上述构建的LncRNA-miRNA网络G1(V1,E1)和miRNA-疾病网络G2(V2,E2),设M=M1∩M2,则可构建LncRNA-miRNA-疾病网络G3(V3,E3)如下:
[0095] (1)V3是G3的顶点集合,并且有V3=L∪M∪D。
[0096] (2)E3是G3的边集, mj∈M,dk∈D,E3中li和mj之间存在一条边,当且仅当LncRNA li与miRNA mj有关,此外,E3中mj和dk之间存在一条边,当且仅当miRNA mj与疾病dk相关。
[0097] 图3是LncRNA-miRNA-疾病关联网络构的示意图,其中mi代表第i个miRNA,dj代表第j个疾病,lk代表第k个LncRNA。
[0098] S2:基于所述LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱。
[0099] S21:根据上述构建的网络,构造LncRNA-miRNA邻接矩阵与miRNA-疾病邻接矩阵。
[0100] 令M3=M1∪M2,则对于每个li∈L,mj∈M3,可以根据以下公式(1)获得邻接矩阵LM:
[0101]
[0102] 图3中,LM是LncRNA-疾病关联网络对应的邻接矩阵(见下表1):
[0103] 表1
[0104]
[0105] 对于每个mj∈M3,dj∈D可以根据以下公式(2)获得邻接矩阵MD:
[0106]
[0107] 图3中,MD是miRNA-疾病关联网络对应的邻接矩阵(见下表2):
[0108] 表2
[0109]
[0110] S22:参见图4,构建基于LncRNA-miRNA-疾病相互作用网络的疾病超级表达谱和LncRNA的超级表达谱。
[0111] 在LncRNA-miRNA-疾病网络G3(V3,E3)中, 令M(li)={mi1,mi2,...mip}表示所有节点的集合在M中满足: E3中mij和li之间存在一条边,并且对于每个节点mij∈M(li),令D(mij)={dij1,dij2,...,dijt}表示D中所有节点的集合,满足: E3中dijk和mij之间存在一条边,其中j∈[1,p],k∈[1,t]最后让那么对于每个mix∈M(li),diy∈D(li),根据以下公式(3),li的超级表达谱(SIP)矩阵:
[0112]
[0113] 其中x∈[1,p],y∈[1,t]。其中SIP(L)是LncRNA的超级表达谱(见下表3):
[0114] 表3
[0115]
[0116] 令M(di)={mi1,mi2,...mip}表示所有节点的集合在M中满足:E3中mij和di之间存在一条边,并且对于每个节点mij∈M(di),令L(mij)=
{lij1,lij2,...,lijt}表示D中所有节点的集合,满足: E3中lijk和mij之间存在一条边,其中j∈[1,p],k∈[1,t]最后让 那么对于每
个mix∈M(di),liy∈L(di),根据以下公式(4),di的超级表达谱(SIP)矩阵:
[0117]
[0118] 其中x∈[1,p],y∈[1,t]。SIP(D)是疾病的超级表达谱(见下表4)。
[0119] 表4
[0120]
[0121] S3:根据疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型。
[0122] S31:基于RBF神经网络的LncRNA相似性计算。参见图5,计算第i个LncRNA与第j个LncRNA的相似性,其中Xk表示SIP(lj)的第k行,Ck表示SIP(li)的第k行。NSL(i,j)表示第i个LncRNA与第j个LncRNA的相似性分数。具体如下:
[0123] 根据以上获得的SIP矩阵,提出一种基于径向基函数(RBF)神经网络计算LncRNAs与疾病相似性的新方法。在RBF神经网络中有三层:输入层隐藏层和线性输出层。因此,对于任意两个给定节点li∈L和lj∈L,令U表示SIP(li)中的行数,Ck表示SIP(li)的第k个行向量,其中k∈[1,U],令V表示SIP(lj)中的行数,Xk表示SIP(lj)的第k个行向量,其中k∈[1,V]。则RBF神经网络的输入可以被表示为X=,并且隐藏层神经元k的中心向量可以被建模为Ck,其中k∈[1,U],隐藏层神经元变换函数Ok(lj)可以定义如下:
[0124]
[0125] 此外,选择径向基函数作为激活函数,并让|D|表示D中的疾病数目,然后可以根据下面的公式(6)获得RBF神经网络的输出:
[0126]
[0127] 其中ak是隐藏层中第k个神经元的输出权重。然后,对于任何两个给定的LncRNA节点li∈L和lj∈L,显然可以利用NSL(i,j)的值来度量li和lj之间的相似度。
[0128] S32:基于RBF神经网络的疾病相似性计算。参见图6,计算第i个疾病与第j个疾病的相似性,其中Xk表示SIP(dj)的第k行,Ck表示SIP(di)的第k行。NSD(i,j)表示第i个LncRNA与第j个LncRNA的相似性分数。具体如下:
[0129] 对于任意两个给定节点di∈D和dj∈D,令W表示SIP(di)中的行数,Ck表示SIP(di)的第k个行向量,其中k∈[1,W],令Z表示SIP(dj)中的行数,Xk表示SIP(dj)的第k个行向量,其中k∈[1,Z]。则RBF神经网络的输入可以被表示为X=,并且隐藏层神经元k的中心向量可以被建模为Ck,其中k∈[1,W],隐藏层神经元变换函数Ok(dj)可以定义如下:
[0130]
[0131] 此外,选择径向基函数作为激活函数,并让|L|表示L中的LncRNA的数目,然后可以根据下面的公式(8)获得RBF神经网络的输出:
[0132]
[0133] 其中βk是隐藏层中第k个神经元的输出权重。然后,对于任何两个给定的LncRNA节点di∈L和dj∈L,显然可以利用NSD(i,j)的值来度量di和dj之间的相似度。
[0134] S33:基于LncRNA相似性,疾病的相似性,LncRNA-miRNA的邻接矩阵以及miRNA-疾病的邻接矩阵来计算LncRNA-疾病关联对的关联程度:
[0135] 首先构建一个如下融合矩阵NAAM:
[0136]
[0137] 其中LMD=LM×MD是|L|×|D|维矩阵。
[0138] 基于上面构建的矩阵NAAM,对于任意给定的LncRNA节点li∈L和疾病节点dj∈D,li和dj之间的潜在关联概率可以根据以下公式(10)获得:
[0139]
[0140] 参数K是大于1的整数,参数γ满足0<γ<1。
[0141] 此外,根据上述公式(9),很明显,(|L|+|D|)×(|L|+|D|)维矩阵S描述了所有LncRNA-疾病关联对的关联可能性,并且可以进一步表示为以下分区形式:
[0142]
[0143] 其中S11是|L|×|L|二维矩阵,S12是|L|×|D|二维矩阵,S21是|D|×|L|二维矩阵,S22是|D|×|D|二维矩阵。S12是最终预测结果矩阵,其中显示LncRNA与疾病之间的潜在关联。
[0144] S34:评估对上述方法的预测性能的影响,而K和γ设置不同的值。但考虑到时间和成本,在仿真实验过程中,参数K仅被设置为2,3和4,然后可以得到矩阵S12如下:
[0145] (1)K=2:S12=γ*LD+γ2*(NSL×LMD+LMD×NSD);
[0146] (2)K=3:S12=S122+γ3*(LMD×LMDT×LMD+NSL2×LMD+NSL×LMD×NSD+LMD×NSD2);
[0147] (3)K=4:S12=S123+γ4*(NSL3×LMD+LMD×LMDT×NSL×LMD+NSL×LMD×LMDT×LMD+LMD×NSD×LMDT×LMD)+γ4*(LMD×LMDT×LMD×NSD+NSL2×LMD×NSD+NSL×LMD×NSD2+LMD×NSD3);
[0148] S4:使用已知的LncRNA-疾病关联对作为验证集对预测模型进行验证。
[0149] S41:AUC值的计算:
[0150] 将每个已知的LncRNA-疾病关联对依次作为验证集,然后进一步评估这个关联与候选样本的关联程度。在这里,候选样本由所有LncRNA-疾病关联对组成,即那些没有确定的实验支持的关联对。此外,所有其他已知的LncRNA-疾病关联对被视为训练样本。因此,在完成预测模型的实施之后,可以进一步获得每个验证集样本相对于候选样本的排名。如果对验证集预测的排名高于事先给定的阈值,即认为这是一个成功的预测。因此,通过设置不同的阈值,可以进一步获得相应的真阳性率(TPR,灵敏度)和假阳性率(FPR,1-特异性)。在此定义TPR是预测验证样本的排名高于给定预测的百分比,而FPR是排名低于给定阈值的验证样本的百分比。然后可以通过绘制TPR和FPR的不同阈值接收器操作特性(ROC)曲线。进一步计算ROC曲线下面积(AUC)。
[0151] S5:根据验证的结果调整预测模型的参数,优化所述预测模型。
[0152] 通过对不同参数的调整,比如公式(6)中的ak,公式(8)中的βk,公式(10)中的K,γ,根据模型获得的AUC值,训练最佳的预测模型。
[0153] 实施例3:
[0154] 作为一个总的技术构思,本实施例还提供一种与上述实施例中的方法想对应的预测疾病与LncRNA关联关系的系统,包括:网络构建单元,用于从已知数据库获取LncRNA-miRNA关联关系和miRNA-疾病关联关系,根据二者构建LncRNA-miRNA-疾病相互作用网络;表达谱构建单元,用于基于所述LncRNA-miRNA-疾病相互作用网络,构建疾病超级表达谱和LncRNA的超级表达谱;模型构建单元,用于根据所述疾病超级表达谱和LncRNA的超级表达谱,采用基于RBF神经网络的LncRNA相似性计算和疾病相似性计算,训练疾病与LncRNA关联关系的预测模型;预测单元,用于使用预测模型对候选样本的LncRNA-疾病关联对进行预测。
[0155] 本实施例还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例的步骤。
[0156] 综上可知,本发明考虑了miRNA所携带的信息,这使得在原始数据上就比其他方法所用的原始数据丰富;首次开发出了超级表达谱计算LncRNA的相似性以及疾病的相似性;计算得出的AUC值比其他的方法要高,这表明预测的结果有更高的可靠性。
[0157] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈