首页 / 专利库 / 地球科学 / / 一种ncRNA协同竞争网络识别方法和装置

一种ncRNA协同竞争网络识别方法和装置

阅读:463发布:2021-06-06

专利汇可以提供一种ncRNA协同竞争网络识别方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种ncRNA协同竞争网络识别方法和装置,涉及基因识别技术领域。在本发明中,通过获取目标 疾病 类型匹配样本的ncRNA和mRNA表达谱数据,并根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA 配对 为协同竞争关系对,可以实现通过对ncRNA-ncRNA协同竞争关系对进行识别,识别出多个ncRNA协同与靶基因mRNA竞争所构成的ncRNA协同竞争网络,进而可以为癌症等人类复杂疾病在临床上的诊断和靶向 治疗 提供参考。,下面是一种ncRNA协同竞争网络识别方法和装置专利的具体信息内容。

1.一种ncRNA协同竞争网络识别方法,其特征在于,包括:
获取目标疾病类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;
根据所述ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定所述ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。
2.根据权利要求1所述的方法,其特征在于,根据所述ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定所述ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对,包括:
获取所述ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;
根据预设的ncRNA-mRNA竞争关系数据,计算所述ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值;
若所述ncRNA1-ncRNA2配对同时满足所述协同竞争mRNA统计显著性概率值小于第一阈值、所述正相关显著性概率值小于第二阈值、以及所述敏感性偏相关系数值大于第三阈值,则确定所述ncRNA1-ncRNA2配对为协同竞争关系对。
3.根据权利要求2所述的方法,其特征在于,计算所述ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值,包括:
根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
4.根据权利要求3所述的方法,其特征在于,计算所述ncRNA1-ncRNA2配对对应的正相关显著性概率值,包括:
计算所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数;
根据所述皮尔逊相关系数,计算获取所述正相关显著性概率值。
5.根据权利要求4所述的方法,其特征在于,计算所述ncRNA1-ncRNA2配对对应的敏感性偏相关系数值,包括:
根据所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的所述ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取所述敏感性偏相关系数值。
6.根据权利要求2-5任一项所述的方法,其特征在于,若所述ncRNA1-ncRNA2配对同时满足所述协同竞争mRNA统计显著性概率值小于第一阈值、所述正相关显著性概率值小于第二阈值、以及所述敏感性偏相关系数值大于第三阈值,则确定所述ncRNA1-ncRNA2配对为协同竞争关系对,包括:
若同时满足所述协同竞争mRNA统计显著性概率值小于0.05、所述正相关显著性概率值小于0.05、以及所述敏感性偏相关系数值大于0.1,则确定所述ncRNA1-ncRNA2配对为协同竞争关系对。
7.根据权利要求1-5任一项所述的方法,其特征在于,根据所述ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定所述ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,所述方法还包括:
通过融合多种不同的数据库,获取与所述目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到所述ncRNA-mRNA竞争关系数据。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:
通过下述方式对确定为协同竞争关系对的所述ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:
1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定所述ncRNA-ncRNA协同竞争网络否属于无标度网络;
2)确定所述ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点;
3)确定两个ncRNA均与所述目标疾病类型关联的ncRNA1-ncRNA2配对为所述目标疾病类型对应的ncRNA-ncRNA协同竞争对;
4)基于ncRNA-ncRNA协同竞争网络,利用尔可夫聚类算法识别ncRNA-ncRNA协同竞争模
5)根据先验所述目标疾病类型关联的ncRNAs和超几何分布检验算法,确定与所述目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为所述目标疾病类型对应的ncRNA-ncRNA协同竞争模块;
6)对于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个所述目标疾病类型匹配样本的险值;根据所述目标疾病类型匹配样本的风险值,将所述目标疾病类型匹配样本划分为高风险样本集合和低风险样本集合;根据所述高风险样本集合和所述低风险样本集合,计算风险值;根据对数秩检验算法,计算所述高风险样本集合和所述低风险样本集合生存时间差异的显著性概率值,得到对数秩检验显著性概率值;确定所述风险值大于
1、且所述对数秩检验显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为所述目标疾病类型的生物标记物。
9.根据权利要求1-5任一项所述的方法,其特征在于,所述ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪基因。
10.一种ncRNA协同竞争网络识别装置,其特征在于,包括:
获取模块,用于获取目标疾病类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;
识别模块,用于根据所述ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定所述ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。

说明书全文

一种ncRNA协同竞争网络识别方法和装置

技术领域

[0001] 本发明涉及基因识别技术领域,尤其涉及一种ncRNA协同竞争网络识别方法和装置。

背景技术

[0002] 微小核糖核酸(microRNA,miRNA)是内源长约22个核苷酸的一类非编码小RNA调 控分子,可以调控蛋白质编码基因信使RNA(messenger RNA,mRNA)的表达平。现有 研究表明:miRNA在细胞分化、细胞增殖、细胞生长、细胞迁移、细胞凋亡和癌症等生物过 程中发挥了重要的调控作用。根据内源竞争RNA(competing endogenous RNAs,ceRNA)假 说,miRNA的应答元件(miRNAresponse elements,MREs)的不同基因转录物间通过相互竞 争来调节基因表达。这些具有竞争关系的转录物统称为ceRNA,包括编码蛋白的mRNA、长 链非编码RNA(long non-coding RNA,lncRNA)、假基因转录本(pseudogene)以及环状RNA (circRNA)等,所形成的RNA调控网络称为ceRNA互作网络。
[0003] ceRNA互作网络与很多人类的复杂疾病(如:癌症)密切相关,可以作为新型的人类复 杂疾病诊断和靶向治疗生物标记物,为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供 参考。
[0004] 一般而言,在非编码RNA(non-coding RNA,ncRNA)关联的ceRNA互作网络中,ncRNA 与靶基因mRNA之间的竞争关系为多对多的关系。这种竞争关系表明:多个ncRNA将协同 与靶基因mRNA竞争,构成了ncRNA协同竞争网络。而研究ncRNA协同竞争网络中的协同 竞争关系能够有助于了解ncRNA在人类复杂疾病中的协同竞争机理,但现有技术中还未有可 行的方案可用于识别ncRNA协同竞争网络。

发明内容

[0005] 本发明的目的在于提供一种ncRNA协同竞争网络识别方法和装置,可以筛选出复杂疾病 关联的ncRNA协同竞争网络,为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供参考。
[0006] 第一方面,本发明实施例提供一种ncRNA协同竞争网络识别方法,包括:获取目标疾病 类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;根据ncRNA和mRNA表达谱 数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据中满足 预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对。
[0007] 在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA 竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的 ncRNA-ncRNA配对为协同竞争关系对,包括:获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;根据预设的ncRNA-mRNA竞争关系数据,计算 ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概率值、正相关显著性概率值、以 及敏感性偏相关系数值;若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率 值小于第一阈值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈 值,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
[0008] 在可选的实施方式中,计算ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性概 率值,包括:根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量 ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
[0009] 在可选的实施方式中,计算ncRNA1-ncRNA2配对对应的正相关显著性概率值,包括:计 算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数;根据皮尔逊相关系数, 计算获取正相关显著性概率值。
[0010] 在可选的实施方式中,计算ncRNA1-ncRNA2配对对应的敏感性偏相关系数值,包括:根 据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的 ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系 数值。
[0011] 在可选的实施方式中,若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概 率值小于第一阈值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三 阈值,则确定ncRNA1-ncRNA2配对为协同竞争关系对,包括:若同时满足协同竞争mRNA 统计显著性概率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于 0.1,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
[0012] 在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA 竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的 ncRNA-ncRNA配对为协同竞争关系对之前,该方法还包括:通过融合多种不同的数据库, 获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA竞 争网络数据,得到ncRNA-mRNA竞争关系数据。
[0013] 在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA 竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的 ncRNA-ncRNA配对为协同竞争关系对之前,该方法还包括:对ncRNA和mRNA表达谱数据 进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因名称的ncRNA和 mRNA。
[0014] 在可选的实施方式中,该方法还包括:通过下述方式对确定为协同竞争关系对的 ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:1)拟合ncRNA-ncRNA 协同竞争网络的连通度是否服从幂律分布,以确定ncRNA-ncRNA协同竞争网络否属于无标 度网络;2)确定ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点;3)确 定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目标疾病类型对应的 ncRNA-ncRNA协同竞争对;4)基于ncRNA-ncRNA协同竞争网络,利用尔可夫聚类算法 识别ncRNA-ncRNA协同竞争模;5)根据先验目标疾病类型关联的ncRNAs和超几何分布 检验算法,确定与目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同 竞争模块为目标疾病类型对应的ncRNA-ncRNA协同竞争模块;6)对于每个ncRNA-ncRNA 协同竞争模块,应用多变量Cox模型计算每个目标疾病类型匹配样本的险值;根据目标疾 病类型匹配样本的风险值,将目标疾病类型匹配样本划分为高风险样本集合和低风险样本集 合;根据高风险样本集合和低风险样本集合,计算风险值;根据对数秩检验算法,计算高风 险样本集合和低风险样本集合生存时间差异的显著性概率值,得到对数秩检验显著性值;确 定风险值大于1、且对数秩检验显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目 标疾病类型的生物标记物。
[0015] 在可选的实施方式中,目标疾病类型包括下述任一种:多形性胶质母细胞瘤、鳞状细 胞癌、卵巢癌、以及前列腺癌
[0016] 在可选的实施方式中,ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪 基因。
[0017] 第二方面,本发明实施例提供一种ncRNA协同竞争网络识别装置,包括:获取模块,用 于获取目标疾病类型匹配样本的ncRNA和信使核糖核酸mRNA表达谱数据;识别模块,用 于根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA 和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争 关系对。
[0018] 在可选的实施方式中,识别模块,包括:获取子模块,用于获取ncRNA和mRNA表达 谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;计算子模块,用于根据预设的 ncRNA-mRNA竞争关系数据,计算ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性 概率值、正相关显著性概率值、以及敏感性偏相关系数值;识别子模块,用于若 ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈值、正相关显 著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定ncRNA1-ncRNA2配对为协同竞争关系对。
[0019] 在可选的实施方式中,计算子模块,具体用于根据预设的ncRNA-mRNA竞争关系数据, 采用超几何分布检验算法衡量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争 mRNA的统计显著性概率值。
[0020] 在可选的实施方式中,计算子模块,具体用于计算ncRNA1-ncRNA2配对中ncRNA1与 ncRNA2之间的皮尔逊相关系数;根据皮尔逊相关系数,计算获取正相关显著性概率值。
[0021] 在可选的实施方式中,计算子模块,具体用于根据ncRNA1-ncRNA2配对中ncRNA1与 ncRNA2之间的相关系数值和mRNA条件下对应的ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
[0022] 在可选的实施方式中,识别子模块,具体用于若同时满足协同竞争mRNA统计显著性概 率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于0.1,则确定 ncRNA1-ncRNA2配对为协同竞争关系对。
[0023] 在可选的实施方式中,该装置还包括:竞争数据模块,用于在识别模块根据ncRNA和 mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达 谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,通 过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关 联的先验ncRNA-mRNA竞争网络数据,得到ncRNA-mRNA竞争关系数据。
[0024] 在可选的实施方式中,该装置包括:预处理模块,用于在识别模块根据ncRNA和mRNA 表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA和mRNA表达谱数据 中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争关系对之前,对ncRNA 和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因 名称的ncRNA和mRNA。
[0025] 在可选的实施方式中,该装置还包括:评估模块,用于通过下述方式对确定为协同竞争 关系对的ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评估:1)拟合 ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定ncRNA-ncRNA协同竞争网 络否属于无标度网络;2)确定ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽 节点;3)确定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目标疾病类型对 应的ncRNA-ncRNA协同竞争对;4)基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类 算法识别ncRNA-ncRNA协同竞争模块;5)根据先验目标疾病类型关联的ncRNAs和超几何 分布检验算法,确定与目标疾病类型功能性相关的显著性概率值小于0.05的ncRNA-ncRNA 协同竞争模块为目标疾病类型对应的ncRNA-ncRNA协同竞争模块;6)对于每个 ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型匹配样本的风险 值;根据目标疾病类型匹配样本的风险值,将目标疾病类型匹配样本划分为高风险样本集合 和低风险样本集合;根据高风险样本集合和低风险样本集合,计算风险值;根据对数秩检验 算法,计算高风险样本集合和低风险样本集合生存时间差异的显著性概率值,得到对数秩检 验显著性概率值;确定风险值大于1、且对数秩检验显著性概率值小于0.05的ncRNA-ncRNA 协同竞争模块为目标疾病类型的生物标记物。
[0026] 在可选的实施方式中,目标疾病类型包括下述任一种:多形性胶质母细胞瘤、肺鳞状细 胞癌、卵巢癌、以及前列腺癌。
[0027] 在可选的实施方式中,ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪 基因。
[0028] 第三方面,本发明实施例提供一种ncRNA协同竞争网络识别设备,包括:处理器、存储 介质和总线,存储介质存储有处理器可执行的机器可读指令,当ncRNA协同竞争网络识别设 备运行时,处理器与存储介质之间通过总线通信,处理器执行机器可读指令,以执行上述第 一方面所述的方法。
[0029] 第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储 有计算机程序,计算机程序被处理器运行时执行如上述第一方面所述的方法。
[0030] 本发明的有益效果:
[0031] 在本发明中,通过获取目标疾病类型匹配样本的ncRNA和靶基因mRNA表达谱数据, 并根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA 和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争 关系对,可以实现通过对ncRNA-ncRNA协同竞争关系对进行识别,识别出多个ncRNA协同 与靶基因mRNA竞争所构成的ncRNA协同竞争网络,进而可以为癌症等人类复杂疾病在临 床上的诊断和靶向治疗提供参考。附图说明
[0032] 为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方 式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本 发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可 以根据这些附图获得其他的附图。
[0033] 图1为本发明实施例提供的ncRNA协同竞争网络识别方法的流程示意图;
[0034] 图2为本发明实施例提供的ncRNA协同竞争网络识别方法的另一流程示意图;
[0035] 图3为本发明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图;
[0036] 图4为本发明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图;
[0037] 图5为本发明实施例提供的ncRNA协同竞争网络识别装置的结构示意图;
[0038] 图6为本发明实施例提供的识别模块的结构示意图;
[0039] 图7为本发明实施例提供的ncRNA协同竞争网络识别装置的另一结构示意图;
[0040] 图8为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图;
[0041] 图9为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图;
[0042] 图10为本发明实施例提供的ncRNA协同竞争网络识别设备的结构示意图。

具体实施方式

[0043] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附 图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明 一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件 可以以各种不同的配置来布置和设计。
[0044] 因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发 明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人 员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0045] 应注意到:相似的标号和字母在下面的附图和公式中表示类似项,因此,一旦某一项在 一个附图或公式中被定义,则在随后的附图或公式中不需要对其进行进一步定义和解释。还 需要说明,第一、第二、第三等的描述仅仅用于区分,而不能表示相对重要性。
[0046] 下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施 例及实施例中的特征可以相互组合。
[0047] 本发明实施例提供一种ncRNA协同竞争网络识别方法,该ncRNA协同竞争网络识别方 法的执行主体可以是具有计算能的终端设备,例如:台式电脑、笔记本电脑服务器 端、定制终端或智能终端等,在此不做限制。
[0048] 图1为本发明实施例提供的ncRNA协同竞争网络识别方法的流程示意图,如图1所示, 该ncRNA协同竞争网络识别方法,可以包括:
[0049] S110、获取目标疾病类型匹配样本的ncRNA和mRNA表达谱数据。
[0050] 其中,目标疾病类型可以包括下述任一种:多形性胶质母细胞瘤、肺鳞状细胞癌、卵巢 癌、以及前列腺癌,本发明对目标疾病类型具体不作限制。
[0051] 以目标疾病类型为多形性胶质母细胞瘤(Glioblastoma multiforme,GBM)、ncRNA为 lncRNA为例,获取目标疾病类型匹配样本的ncRNA和mRNA表达谱数据,可以是:从国际 著名癌症基因表达谱数据库癌症基因组图谱(The Cancer Genome Atlas,TCGA)中收集多形 性胶质母细胞瘤匹配样本的lncRNA和mRNA表达谱数据。其中,TCGA的地址为 “https://cancergenome.nih.gov/”。
[0052] S120、根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据, 确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对 为协同竞争关系对。
[0053] 在可选的实施方式中,根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA 竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的 ncRNA-ncRNA配对为协同竞争关系对之前,该方法还可以包括:通过融合多种不同的数据 库,获取与目标疾病类型匹配样本的ncRNA和mRNA表达谱数据关联的先验ncRNA-mRNA 竞争网络数据,从而得到上述ncRNA-mRNA竞争关系的ncRNA-mRNA竞争关系数据。
[0054] 例如,可以预先通过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和 mRNA表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到先验的可以用于表示 ncRNA-mRNA竞争关系。
[0055] 其中,ncRNA-mRNA竞争关系指的是共享MREs的ncRNA与mRNA之间的竞争关系, 先验ncRNA-mRNA竞争网络数据可以使用计算机预测型或实验验证型数据。所使用的竞争 网络数据可以来源于单一数据库,或者融合多种不同数据库。
[0056] 同样以前述多形性胶质母细胞瘤为例,可以通过整合miRSponge,LncCeRBase, LncACTdb v2.0和ENCORI四种数据库,获得与多形性胶质母细胞瘤表达谱数据关联的 lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0和MNDR v2.0 三个数据库中收集与多形性胶质母细胞瘤关联的lncRNAs。
[0057] 图2为本发明实施例提供的ncRNA协同竞争网络识别方法的另一流程示意图,可选地, 如图2所示,上述步骤S120具体可以包括:
[0058] S121、获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对。
[0059] 其中,ncRNA1-ncRNA2配对中,ncRNA1和ncRNA2分别用于表示两个类型相同的ncRNA。 可选地,ncRNA的类型可以是长链非编码RNA(long non-coding RNA,lncRNA)、环状RNA (circRNA)、或假基因转录本(pseudogene,也称伪基因)中的任一种。
[0060] 以ncRNA协同竞争涉及上述lncRNA、circRNA、以及pseudogene为例,协同竞争的模 式具体可以包括下述六种:pseudogene-pseudogene、pseudogene-circRNA、pseudogene-lncRNA、 circRNA-circRNA、circRNA-lncRNA、以及lncRNA-lncRNA。
[0061] S122、根据预设的ncRNA-mRNA竞争关系数据,计算ncRNA1-ncRNA2配对对应的协同 竞争mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值。
[0062] S123、若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈 值、正相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定 ncRNA1-ncRNA2配对为协同竞争关系对。
[0063] 在可选的实施方式中,第一阈值可以为0.05、第二阈值也可以为0.05、第三阈值可以为 0.1,若同时满足协同竞争mRNA统计显著性概率值小于0.05、正相关显著性概率值小于0.05、 以及敏感性偏相关系数值大于0.1,则可以确定ncRNA1-ncRNA2配对为协同竞争关系对。
[0064] 可选地,第二阈值可以与第一阈值相同,或者也可以与第一阈值不同。需要说明的是, 上述第一阈值、第二阈值和第三阈值仅仅为本发明实施例中示例性的说明,为提高ncRNA协 同竞争网络识别的准确性,本领域技术人员可以根据实际需要将上述第一阈值、第二阈值和 第三阈值的具体数值设置为其他值,如:第二阈值也可以是0.01、0.001等值,本发明对此不 作限制。
[0065] 由上所述,本发明实施例通过获取目标疾病类型匹配样本的ncRNA和靶基因mRNA表 达谱数据,并根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据, 确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对 为协同竞争关系对,可以实现通过对ncRNA-ncRNA协同竞争关系对进行识别,识别出多个 ncRNA协同与靶基因mRNA竞争所构成的ncRNA协同竞争网络,进而可以为癌症等人类复 杂疾病在临床上的诊断和靶向治疗提供参考。
[0066] 在可选的实施方式中,上述步骤S122中计算ncRNA1-ncRNA2配对对应的统计显著性值 的步骤,可以包括:根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡 量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
[0067] 统计显著性概率值计算公式可以如下:
[0068]
[0069] 其中,p-value表示ncRNA1与ncRNA2之间协同竞争mRNAs的统计显著性概率值;N1代表数据集中所有的mRNAs数目,M1和K1分别代表ncRNA1与ncRNA2竞争的mRNAs数 目,L1(其值通常不小于3)表示ncRNA1与ncRNA2协同竞争的mRNAs数目。
[0070] 图3为本发明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图。
[0071] 如图3所示,在可选的实施方式中,上述步骤S122中计算ncRNA1-ncRNA2配对对应的 正相关显著性概率值的步骤,可以包括:
[0072] S1221、计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数。
[0073] 每个ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数(Pearson Correlation,PC)值计算如下:
[0074]
[0075] 其中, 表示ncRNA1与ncRNA2之间的皮尔逊相关系数;变量x=(x1,x2,...,xs)和 y=(y1,y2,...,ys)分别代表ncRNA1与ncRNA2的基因表达量值,和 分别代表变量x和y的 均值表达量,s为匹配样本个数。
[0076] S1222、根据皮尔逊相关系数,计算获取正相关显著性概率值。
[0077] 当 大于0时,正相关显著性概率值计算如下(不大于0时不计算):
[0078]
[0079] p-value=2pt(t-value);
[0080] 其中, 表示ncRNA1与ncRNA2之间的皮尔逊相关系数;pt()函数用于计算 t-value对应的概率p值,即,该公式中,p-value表示正相关显著性概率值,s为匹配样本个 数。
[0081] 在可选的实施方式中,上述步骤S122中计算ncRNA1-ncRNA2配对对应的敏感性偏相关 系数值的步骤,可以包括:根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数 值和mRNA条件下对应的ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的偏相关系数值, 计算获取敏感性偏相关系数值。
[0082] 具体地,为了计算敏感性偏相关系数(Sensitivity  Partial  Pearson Correlation,SPPC)值, 需考虑条件变量mRNA。在考虑ncRNA1与ncRNA2协同竞争的mRNA前提条件下,ncRNA1与ncRNA2之间敏感性偏相关系数值 定义如下:
[0083]
[0084] 其中, 为ncRNA1与ncRNA2之间的偏相关系数值,即在考虑协同竞争mRNAs 的前提条件下,ncRNA1与ncRNA2之间的偏相关系数值。假设ncRNA1-ncRNA2协同竞争m (其值通常不小于3)个mRNA,并且表示为Z=(Z1,Z2,...,Zm),则偏相关系数值 计算如下:
[0085]
[0086] 其中,x=(x1,x2,...,xs),y=(y1,y2,...,ys),Zi=(zi,1,zi,2,...,zi,s)(i∈[1,2,...,m]), cor(x,y|(Z1,Z2,...,Zm))表示为(Z1,Z2,...,Zm)条件下x与y之间的偏相关系数值, cor(x,y|(Z1,Z2,...,Zm-1))表示为(Z1,Z2,...,Zm-1)条件下x与y之间的偏相关系数值, cor(x,Zm|(Z1,Z2,...,Zm-1))表示为(Z1,Z2,...,Zm)条件下x与Zm之间的偏相关系数值, cor(y,Zm|(Z1,Z2,...,Zm-1))表示为(Z1,Z2,...,Zm)条件下y与Zm之间的偏相关系数值。
[0087] 基于前述步骤S122计算得到的ncRNA1-ncRNA2配对对应的协同竞争mRNA统计显著性 概率值、正相关显著性概率值、以及敏感性偏相关系数值,可以通过前述步骤S123判断 ncRNA1-ncRNA2配对是否为协同竞争关系对,进而实现ncRNA协同竞争网络识别。
[0088] 在可选的实施方式中,上述根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA 竞争关系数据,确定ncRNA和mRNA表达谱数据中满足预设条件的两个ncRNA组成的 ncRNA-ncRNA配对为协同竞争关系对之前,该方法还可以包括:对ncRNA和mRNA表达谱 数据进行预处理,去除ncRNA和mRNA表达谱数据中的重复项和没有基因名称的ncRNA和 mRNA。
[0089] 相应地,上述步骤S121中获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成 的ncRNA1-ncRNA2配对时,可以根据预处理后的目标疾病类型匹配样本的ncRNA和mRNA 表达谱数据,获取ncRNA1-ncRNA2配对。
[0090] 可选地,该ncRNA协同竞争网络识别方法,还可以包括:
[0091] 通过下述方式对确定为协同竞争关系对的ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA 协同竞争网络进行评估:
[0092] 1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定所述 ncRNA-ncRNA协同竞争网络否属于无标度网络(网络拓扑分析):
[0093] 以往研究表明:真实的生物分子网络倾向于无标度(scale-free)网络。无标度生物分子 网络中,大部分分子通过少数枢纽分子连接在一起,这意味着分子在生物分子网络中的地位 是不平等的,枢纽分子在连接生物分子网络完整性方面起到关键作用。
[0094] 无标度网络是指网络中连通度的分布服从幂律分布,分布形式表示为y=bxa(x为连通 度,y为该连通度出现的频数,a和b是参数)。为了评估所识别的ncRNA-ncRNA协同竞争 网络是否属于无标度网络,可以拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分 布。拟合的好坏有拟合优度检验统计值R2来衡量,R2越接近1表明该网络越接近幂律分布。
[0095] 2)确定ncRNA-ncRNA协同竞争网络中连通度高前10%的节点为枢纽节点(识别枢纽 ncRNAs):
[0096] 枢纽ncRNAs在连接ncRNA-ncRNA协同竞争网络完整性方面起到关键作用,这些枢纽 ncRNAs往往可以作为生物标志物(biomarkers)为癌症等人类复杂疾病在临床上的诊断和靶 向治疗提供参考。通常情况下,连通度高的节点(前10%)被认为是枢纽节点。本实例中, 前10%连通度高的ncRNAs被认为是枢纽ncRNAs。
[0097] 3)确定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目标疾病类型对应 的ncRNA-ncRNA协同竞争对(识别目标疾病类型关联的ncRNA-ncRNA协同竞争对):
[0098] 基于目标疾病类型ncRNAs,提取目标疾病类型关联的ncRNA-ncRNA协同竞争对。对于 每条ncRNA-ncRNA协同竞争对,当且仅当协同竞争对中的两个ncRNA都与目标疾病类型关 联,该条ncRNA-ncRNA协同竞争对才被认为是目标疾病类型关联的ncRNA-ncRNA协同竞 争对。
[0099] 4)基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法识别ncRNA-ncRNA协同 竞争模块(识别lncRNA-lncRNA协同竞争模块):
[0100] 基于ncRNA-ncRNA协同竞争网络,利用马尔可夫聚类算法(Markov Clustering Algorithm,MCL)识别ncRNA-ncRNA协同竞争模块。每个ncRNA-ncRNA协同竞争模块 中,ncRNA的个数至少为3。
[0101] 5)根据先验目标疾病类型关联的ncRNAs和超几何分布检验算法,确定与目标疾病类型 功能性相关的显著性概率值小于0.05的ncRNA-ncRNA协同竞争模块为目标疾病类型对应的 ncRNA-ncRNA协同竞争模块(ncRNA-ncRNA协同竞争模块富集分析):
[0102] 基于先验目标疾病类型关联的ncRNAs,利用超几何分布检验(hypergeometric distribution test)来检验每个ncRNA-ncRNA协同竞争模块是否与目标疾病类型功能性相关,计算如下:
[0103]
[0104] 其中,p-value表示与目标疾病类型功能性相关的显著性概率值;N2代表数据集中ncRNAs 数目,M2代表数据集中目标疾病类型关联的ncRNAs数目,K2为ncRNA-ncRNA协同竞争模 块中ncRNAs个数,L2表示ncRNA-ncRNA协同竞争模块中目标疾病类型关联的ncRNAs数 目。p-value小于0.05,ncRNA-ncRNA协同竞争模块才被认定为目标疾病类型关联模块。
[0105] 6)对于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型 匹配样本的风险值;根据目标疾病类型匹配样本的风险值,将目标疾病类型匹配样本划分为 高风险样本集合和低风险样本集合;根据高风险样本集合和低风险样本集合,计算风险值; 根据对数秩检验算法,计算高风险样本集合和低风险样本集合生存时间差异的显著性概率值, 得到对数秩检验显著性概率值;确定风险值大于1、且对数秩检验显著性概率值小于0.05的 ncRNA-ncRNA协同竞争模块为目标疾病类型的生物标记物(ncRNA-ncRNA协同竞争模块生 存分析):
[0106] 对于每一个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型 样本的风险值,计算如下:
[0107] h(t,R)=h0(t)exp(β'R)=h0(t)exp(β1R1+β2R2+...+βkRk)
[0108] 其中,h(t,R)是具有协变量R的多形性胶质母细胞瘤样本在时刻t时的风险函数值,t为 生存时间,R=(R1,R2,...,Rk)'是可能影响生存时间的ncRNAs,h0(t)是所有协变量取0时的风 险函数值β=(β1,β2,...,βk)'为Cox模型的回归系数。
[0109] 根据每个样本的风险函数值h(t,R),将目标疾病类型样本等分为高风险和低风险两组样 本。目标疾病类型高风险和低风险两组样本的风险值(hazard ratio,HR)计算如下:
[0110] HR=h(t,Rh)/h(t,Rl)=exp[β(Rh-Rl)]
[0111] 其中,h(t,Rh)为目标疾病类型高风险组的风险函数值,h(t,Rl)为目标疾病类型低风险组 的风险函数值, 是可能影响生存时间的高风险ncRNAs,是可能影响生存时间的低风险ncRNAs,HR的阈值可以设定为1。
[0112] 进一步,可以使用对数秩检验(Log-rank test)比较目标疾病类型高风险和低风2
险两组样 本生存时间是否相同,检验统计量为卡方χ,计算如下:
[0113]
[0114] 其中,A为观察目标疾病类型死亡案例数,T为理论目标疾病类型死亡案例数。计算的χ2值越大,差异显著性p值越小,表示目标疾病类型高风险和低风险两组样本生存时间越不可 能相同。HR值大于1并且对数秩检验显著性p值小于0.05,ncRNA-ncRNA协同竞争模块才 被认定为目标疾病类型模块生物标记物。
[0115] 基于前述实施例,本发明实施例还提供一种ncRNA协同竞争网络识别方法,图4为本发 明实施例提供的ncRNA协同竞争网络识别方法的又一流程示意图。
[0116] 如图4所示,该ncRNA协同竞争网络识别方法,可以包括:
[0117] S401、获取目标疾病类型匹配样本的ncRNA和mRNA表达谱数据。
[0118] S402、对ncRNA和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数据 中的重复项和没有基因名称的ncRNA和mRNA。
[0119] S403、获取ncRNA和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对。
[0120] S404、根据预设的ncRNA-mRNA竞争关系数据,采用超几何分布检验算法衡量 ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争mRNA的统计显著性概率值。
[0121] S405、计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数。
[0122] S406、根据皮尔逊相关系数,计算获取正相关显著性概率值。
[0123] S407、根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件 下对应的ncRNA1与ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
[0124] S408、判断是否同时满足协同竞争mRNA统计显著性概率值小于0.05、正相关显著性概 率值小于0.05、以及敏感性偏相关系数值大于0.1。
[0125] 若是,则执行步骤S409;若否,则结束或继续获取新的ncRNA1-ncRNA2配对执行上述 过程(图中未示出)。
[0126] S409、确定ncRNA1-ncRNA2配对为协同竞争关系对。
[0127] 为使本发明实施例提供的ncRNA协同竞争网络识别方法所记载的技术方案更加清楚,本 发明现通过下述具体实施例对该ncRNA协同竞争网络识别方法的步骤进行说明:
[0128] 实施例1
[0129] 以多形性胶质母细胞瘤中对应的lncRNA-lncRNA协同竞争为例,本实施例识别 lncRNA-lncRNA协同竞争网络方法由如下步骤实现:
[0130] 步骤1:数据源获取
[0131] 从国际著名癌症基因表达谱数据库TCGA(the cancer genome atlas, https://cancergenome.nih.gov/)中收集多形性胶质母细胞瘤(Glioblastomamultiforme,GBM) 匹配样本的lncRNA和mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的 lncRNA和mRNA),最终获得451个乳腺癌匹配样本的9704个lncRNAs和18282个mRNAs 表达谱数据,以及样本临床信息。本实施例中,ncRNA为lncRNA, 
[0132] 先验的lncRNA-mRNA竞争网络数据采用融合多种不同数据库方式获得。具体而言,通 过整合miRSponge,LncCeRBase,LncACTdb v2.0和ENCORI四种数据库。最终,获得与多 形性胶质母细胞瘤表达谱数据关联的10099条lncRNA-mRNA竞争关系对。还可以从 LncRNADisease v2.0,Lnc2Cancer v2.0和MNDR v2.0三个数据库中收集了166个与多形性胶 质母细胞瘤关联的lncRNAs。
[0133] 步骤2:识别lncRNA-lncRNA协同竞争网络
[0134] lncRNA-lncRNA协同竞争网络中,每个lncRNA-lncRNA协同竞争对必须满足条件:协 同竞争mRNAs显著性概率p值<0.05,正相关显著性概率p值<0.05,敏感性偏相关系数值 
[0135] 步骤3:评估lncRNA-lncRNA协同竞争网络
[0136] 然后,可以从以下六个方面来评估所识别的lncRNA-lncRNA协同竞争网络:
[0137] 1)网络拓扑分析
[0138] 以往研究表明:真实的生物分子网络倾向于无标度(scale-free)网络。无标度生物分子 网络中,大部分分子通过少数枢纽分子连接在一起,这意味着分子在生物分子网络中的地位 是不平等的,枢纽分子在连接生物分子网络完整性方面起到关键作用。
[0139] 无标度网络是指网络中连通度的分布服从幂律分布,分布形式表示为y=bxa(x为连通 度,y为该连通度出现的频数,a和b是参数)。为了评估所识别的lncRNA-lncRNA协同竞争 网络是否属于无标度网络,可以拟合lncRNA-lncRNA协同竞争网络的连通度是否服从幂律分 布。拟合的好坏有拟合优度检验统计值R2来衡量,R2越接近1表明该网络越接近幂律分布。
[0140] 2)识别枢纽lncRNAs
[0141] 枢纽lncRNAs在连接lncRNA-lncRNA协同竞争网络完整性方面起到关键作用,这些枢 纽lncRNAs往往可以作为生物标志物(biomarkers)为癌症等人类复杂疾病在临床上的诊断 和靶向治疗提供参考。通常情况下,连通度高的节点(前10%)被认为是枢纽节点。本实例 中,前10%连通度高的lncRNAs被认为是枢纽lncRNAs。
[0142] 3)识别多形性胶质母细胞瘤关联的lncRNA-lncRNA协同竞争对
[0143] 基于多形性胶质母细胞瘤lncRNAs,提取多形性胶质母细胞瘤关联的lncRNA-lncRNA协 同竞争对。对于每条lncRNA-lncRNA协同竞争对,当且仅当协同竞争对中的两个lncRNA都 与多形性胶质母细胞瘤关联,该条lncRNA-lncRNA协同竞争对才被认为是多形性胶质母细胞 瘤关联的lncRNA-lncRNA协同竞争对。
[0144] 4)识别lncRNA-lncRNA协同竞争模块
[0145] 基于lncRNA-lncRNA协同竞争网络,利用马尔可夫聚类算法(Markov Clustering Algorithm,MCL)识别lncRNA-lncRNA协同竞争模块。每个lncRNA-lncRNA协同竞争模 块中,lncRNA的个数至少为3。
[0146] 5)lncRNA-lncRNA协同竞争模块富集分析
[0147] 基于先验多形性胶质母细胞瘤关联的lncRNAs,利用超几何分布检验(hypergeometric distribution test)来检验每个lncRNA-lncRNA协同竞争模块是否与多形性胶质母细胞瘤功能 性相关,计算如下:
[0148]
[0149] 其中,N2代表数据集中lncRNAs数目,M2代表数据集中多形性胶质母细胞瘤关联的 lncRNAs数目,K2为lncRNA-lncRNA协同竞争模块中lncRNAs个数,L2表示lncRNA-lncRNA 协同竞争模块中多形性胶质母细胞瘤关联的lncRNAs数目。
[0150] 本实施例中显著性概率p值要小于0.05,lncRNA-lncRNA协同竞争模块才被认定为多形 性胶质母细胞瘤关联模块。
[0151] 6)lncRNA-lncRNA协同竞争模块生存分析
[0152] 对于每一个lncRNA-lncRNA协同竞争模块,应用多变量Cox模型计算每个多形性胶质 母细胞瘤样本的风险值,计算如下:
[0153] h(t,R)=h0(t)exp(β'R)=h0(t)exp(β1R1+β2R2+...+βkRk)
[0154] 其中,h(t,R)是具有协变量R的多形性胶质母细胞瘤样本在时刻t时的风险函数值,t为 生存时间,R=(R1,R2,...,Rk)'是可能影响生存时间的lncRNAs,h0(t)是所有协变量取0时的风 险函数值β=(β1,β2,...,βk)'为Cox模型的回归系数。
[0155] 根据每个样本的风险函数值h(t,R),将451个多形性胶质母细胞瘤样本等分为高风险和 低风险两组样本。多形性胶质母细胞瘤高风险和低风险两组样本的风险值(hazard ratio,HR) 计算如下:
[0156] HR=h(t,Rh)/h(t,Rl)=exp[β(Rh-Rl)]
[0157] 其中,h(t,Rh)为多形性胶质母细胞瘤高风险组的风险函数值,h(t,Rl)为多形性胶质母细 胞瘤低风险组的风险函数值, 是可能影响生存时间的高风险lncRNAs,  是可能影响生存时间的低风险lncRNAs,本实施例中HR的阈值
设定为1。
[0158] 进一步,可以使用对数秩检验(Log-rank test)比较多形性胶质母细胞瘤高风险和低风险 两组样本生存时间是否相同,检验统计量为卡方χ2,计算如下:
[0159]
[0160] 其中,A为观察多形性胶质母细胞瘤死亡案例数,T为理论多形性胶质母细胞瘤死亡案 例数。计算的χ2值越大,差异显著性p值越小,表示多形性胶质母细胞瘤高风险和低风险两 组样本生存时间越不可能相同。本实施例中,HR值大于1并且对数秩检验显著性概率p值要 小于0.05,lncRNA-lncRNA协同竞争模块才被认定为多形性胶质母细胞瘤模块生物标记物。
[0161] 实施例2
[0162] 以肺鳞状细胞癌中对应的lncRNA-lncRNA协同竞争为例,本实施例识别lncRNA-lncRNA 协同竞争网络方法由如下步骤实现:
[0163] 本实施例的步骤1中,从国际著名癌症基因表达谱数据库TCGA(the cancergenome atlas, https://cancergenome.nih.gov/)中收集肺鳞状细胞癌(Lung Squamous Cell Carcinoma,LSCC) 匹配样本的lncRNA和mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的 lncRNA和mRNA),最终获得113个乳腺癌匹配样本的9704个lncRNAs和18282个mRNAs 表达谱数据,以及样本临床信息。本实施例中,ncRNA为lncRNA, 
[0164] 先验的lncRNA-mRNA竞争网络数据与实施例1相同,最终获得与肺癌表达谱数据关联 的10099条lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0和 MNDR v2.0三个数据库中收集429个与肺癌关联的lncRNAs。
[0165] 其他步骤与实施例1相同,在此不再赘述。
[0166] 实施例3
[0167] 以卵巢癌中对应的lncRNA-lncRNA协同竞争为例,本实施例识别lncRNA-lncRNA协同 竞争网络方法由如下步骤实现:
[0168] 本实施例的步骤1中,从国际著名癌症基因表达谱数据库TCGA(the  cancer genome atlas, https://cancergenome.nih.gov/)中收集卵巢癌(Ovarian Cancer,OvCa)匹配样本的lncRNA和 mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的lncRNA和mRNA),最终获 得585个卵巢癌匹配样本的9704个lncRNAs和18282个mRNAs表达谱数据,以及样本临床 信息。本实施例中,ncRNA为lncRNA,
[0169] 先验的lncRNA-mRNA竞争网络数据与实施例1相同,最终获得与卵巢癌表达谱数据关 联的10099条lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0 和MNDR v2.0三个数据库中收集140个与卵巢癌关联的lncRNAs。
[0170] 其他步骤与实施例1相同,在此不再赘述。
[0171] 实施例4
[0172] 以前列腺癌中对应的lncRNA-lncRNA协同竞争为例,本实施例识别lncRNA-lncRNA协 同竞争网络方法由如下步骤实现:
[0173] 本实施例的步骤1中,从纪念斯隆-凯特琳癌症中心MSKCC(Memorial Sloan-Kettering Cancer Center,https://www.mskcc.org/)收集前列腺癌(Prostate Cancer,PrCa)匹配样本的 lncRNA和mRNA表达谱数据。通过预处理(去除重复项和没有基因名称的lncRNA和 mRNA),最终获得150个卵巢癌匹配样本的9704个lncRNAs和18282个mRNAs表达谱数 据,以及样本临床信息。本实施例中,ncRNA为lncRNA,
[0174] 先验的lncRNA-mRNA竞争网络数据与实施例1相同,最终获得与卵巢癌表达谱数据关 联的10099条lncRNA-mRNA竞争关系对。还可以从LncRNADisease v2.0,Lnc2Cancer v2.0 和MNDR v2.0三个数据库中收集141个与卵巢癌关联的lncRNAs。
[0175] 其他步骤与实施例1相同,在此亦不再赘述。
[0176] 基于前述实施例1-4,对lncRNA-lncRNA协同竞争网络识别结果的评估可以如下表1-6 所示。其中,表1为实施例1-4中挖掘的lncRNA-lncRNA协同竞争网络拓扑分析;表2为实 施例1-4中挖掘的枢纽lncRNAs;表3为实施例1-4中挖掘的疾病关联lncRNA-lncRNA协同 竞争关系;表4为实施例1-4中挖掘的lncRNA-lncRNA协同竞争模块;表5为实施例1-4中 与疾病富集相关的lncRNA-lncRNA协同竞争模块;表6为实施例1-4中充当生物标记物的 lncRNA-lncRNA协同竞争模块。
[0177] 表1实施例1-4中挖掘的lncRNA-lncRNA协同竞争网络拓扑分析
[0178]
[0179]
[0180] 表2实施例1-4中挖掘的枢纽lncRNAs
[0181]
[0182] 表3实施例1-4中挖掘的疾病关联lncRNA-lncRNA协同竞争关系
[0183]
[0184] 表4实施例1-4中挖掘的lncRNA-lncRNA协同竞争模块
[0185]
[0186]
[0187] 表5实施例1-4中与疾病富集相关的lncRNA-lncRNA协同竞争模块
[0188]
[0189] 表6实施例1-4中充当生物标记物的lncRNA-lncRNA协同竞争模块
[0190]
[0191] 如表1所示,实施例1-4在四个数据集(GBM,LSCC,OvCa和PrCa)中挖掘的 lncRNA-lncRNA协同竞争网络基本符合真实生物分子网络的无标度网络特征(拟合优度检验 统计值R2都大于0.69)。一部分枢纽lncRNAs和lncRNA-lncRNA协同竞争关系与疾病(GBM, LSCC,OvCa和PrCa)关联(如表2和3所示)。所挖掘的lncRNA-lncRNA协同竞争模块中 (见表4),大部分lncRNA-lncRNA协同竞争模块与疾病显著性富集相关(见表5)和充当生 物标记物(见表6)。本发明方法在四种数据集中结果基本一致,能够鲁棒性的识别 lncRNA-lncRNA协同竞争网络。
[0192] 综上所述,本发明提出的ncRNA协同竞争网络识别方法能够有效的挖掘ncRNA之间的 协同竞争关系,所识别的ncRNA协同竞争网络基本符合真实生物分子网络的无标度网络特 征。基于所识别的ncRNA协同竞争网络,能够进一步识别疾病关联枢纽ncRNAs,疾病关联 ncRNA协同竞争网络与模块,以及疾病生物标记物。尤其是在复杂疾病基因表达谱数据集的 应用中,为癌症等人类复杂疾病在临床上的诊断和靶向治疗提供技术支持和理解手段,具有 重要的生物学意义。
[0193] 基于前述方法实施例提供的ncRNA协同竞争网络识别方法,本发明实施例还对应提供一 种ncRNA协同竞争网络识别装置。图5为本发明实施例提供的ncRNA协同竞争网络识别装 置的结构示意图,如图5所示,该ncRNA协同竞争网络识别装置,可以包括:获取模块10, 用于获取目标疾病类型匹配样本的ncRNA和靶基因mRNA表达谱数据;识别模块20,用于 根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA 和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争 关系对。
[0194] 图6为本发明实施例提供的识别模块的结构示意图。
[0195] 如图6所示,在可选的实施方式中,识别模块20,包括:获取子模块21,用于获取ncRNA 和mRNA表达谱数据中ncRNA1和ncRNA2组成的ncRNA1-ncRNA2配对;计算子模块22, 用于根据预设的ncRNA-mRNA竞争关系数据,计算ncRNA1-ncRNA2配对对应的协同竞争 mRNA统计显著性概率值、正相关显著性概率值、以及敏感性偏相关系数值;识别子模块23, 用于若ncRNA1-ncRNA2配对同时满足协同竞争mRNA统计显著性概率值小于第一阈值、正 相关显著性概率值小于第二阈值、以及敏感性偏相关系数值大于第三阈值,则确定 ncRNA1-ncRNA2配对为协同竞争关系对。
[0196] 在可选的实施方式中,计算子模块22,具体用于根据预设的ncRNA-mRNA竞争关系数 据,采用超几何分布检验算法衡量ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间协同竞争 mRNA的统计显著性概率值。
[0197] 在可选的实施方式中,计算子模块22,具体用于计算ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的皮尔逊相关系数;根据皮尔逊相关系数,计算获取正相关显著性概率值。
[0198] 在可选的实施方式中,计算子模块22,具体用于根据ncRNA1-ncRNA2配对中ncRNA1与ncRNA2之间的相关系数值和mRNA条件下对应的ncRNA1-ncRNA2配对中ncRNA1与 ncRNA2之间的偏相关系数值,计算获取敏感性偏相关系数值。
[0199] 在可选的实施方式中,识别子模块23,具体用于若同时满足协同竞争mRNA统计显著性 概率值小于0.05、正相关显著性概率值小于0.05、以及敏感性偏相关系数值大于0.1,则确定 ncRNA1-ncRNA2配对为协同竞争关系对。
[0200] 图7为本发明实施例提供的ncRNA协同竞争网络识别装置的另一结构示意图。
[0201] 如图7所示,在可选的实施方式中,该装置还包括:竞争数据模块30,用于在识别模块 20根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA 和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争 关系对之前,通过融合多种不同的数据库,获取与目标疾病类型匹配样本的ncRNA和mRNA 表达谱数据关联的先验ncRNA-mRNA竞争网络数据,得到ncRNA-mRNA竞争关系数据。
[0202] 图8为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图。
[0203] 如图8所示,在可选的实施方式中,该装置还包括:预处理模块40,用于在识别模块20 根据ncRNA和mRNA表达谱数据、以及预设的ncRNA-mRNA竞争关系数据,确定ncRNA 和mRNA表达谱数据中满足预设条件的两个ncRNA组成的ncRNA-ncRNA配对为协同竞争 关系对之前,对ncRNA和mRNA表达谱数据进行预处理,去除ncRNA和mRNA表达谱数 据中的重复项和没有基因名称的ncRNA和mRNA。
[0204] 图9为本发明实施例提供的ncRNA协同竞争网络识别装置的又一结构示意图。
[0205] 如图9所示,在可选的实施方式中,该装置还包括:评估模块50,用于通过下述方式对 确定为协同竞争关系对的ncRNA1-ncRNA2配对所组成的ncRNA-ncRNA协同竞争网络进行评 估:1)拟合ncRNA-ncRNA协同竞争网络的连通度是否服从幂律分布,以确定ncRNA-ncRNA 协同竞争网络是否属于无标度网络;2)确定ncRNA-ncRNA协同竞争网络中连通度高前10% 的节点为枢纽节点;3)确定两个ncRNA均与目标疾病类型关联的ncRNA1-ncRNA2配对为目 标疾病类型对应的ncRNA-ncRNA协同竞争对;4)基于ncRNA-ncRNA协同竞争网络,利用 马尔可夫聚类算法识别ncRNA-ncRNA协同竞争模块;5)根据先验目标疾病类型关联的 ncRNAs和超几何分布检验算法,确定与目标疾病类型功能性相关的显著性概率值小于0.05 的ncRNA-ncRNA协同竞争模块为目标疾病类型对应的ncRNA-ncRNA协同竞争模块;6)对 于每个ncRNA-ncRNA协同竞争模块,应用多变量Cox模型计算每个目标疾病类型匹配样本 的风险值;根据目标疾病类型匹配样本的风险值,将目标疾病类型匹配样本划分为高风险样 本集合和低风险样本集合;根据高风险样本集合和低风险样本集合,计算风险值;根据对数 秩检验算法,计算高风险样本集合和低风险样本集合生存时间差异的显著性概率值,得到对 数秩检验显著性概率值;确定风险值大于1、且对数秩检验显著性概率值小于0.05的 ncRNA-ncRNA协同竞争模块为目标疾病类型的生物标记物。
[0206] 在可选的实施方式中,目标疾病类型包括下述任一种:多形性胶质母细胞瘤、肺鳞状细 胞癌、卵巢癌、以及前列腺癌。
[0207] 在可选的实施方式中,ncRNA包括下述任一种:长链非编码RNA、环状RNA、以及伪 基因。
[0208] 以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个 特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Signal Processor,简称DSP),或,一个或者多个现场可编程阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代 码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit, 简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系 统(System-On-a-Chip,简称SOC)的形式实现。
[0209] 本发明实施例还提供一种ncRNA协同竞争网络识别设备,该ncRNA协同竞争网络识别 设备可以是前述台式电脑、笔记本电脑、服务器、云端、定制终端或智能终端等。
[0210] 图10为本发明实施例提供的ncRNA协同竞争网络识别设备的结构示意图。
[0211] 如图10所示,该ncRNA协同竞争网络识别设备,可以包括:处理器100、存储介质200 和总线300,存储介质200存储有处理器100可执行的机器可读指令,当ncRNA协同竞争网 络识别设备运行时,处理器100与存储介质200之间通过总线300通信,处理器100执行机 器可读指令,以执行前述方法实施例中所述的ncRNA协同竞争网络识别方法。
[0212] 需要说明的是,处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。 仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理 单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现 场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器微控制器单元、简化指令集计算机(Reduced Instruction Set Computing, RISC)、或微处理器等,或其任意组合。
[0213] 存储介质可以包括:包括大容量存储器、可移动存储器、易失性读写存储器、或只读存 储器(Read-Only Memory,ROM)等,或其任意组合。作为举例,大容量存储器可以包括磁 盘、光盘、固态驱动器等;可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、 磁带等;易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM);RAM 可以包括动态RAM(Dynamic Random Access Memory,DRAM),双倍数据速率同步动态RAM (Double Date-Rate Synchronous RAM,DDR SDRAM);静态RAM(Static Random-Access Memory,SRAM),晶闸管RAM(Thyristor-Based Random Access Memory,T-RAM)和零电 容器RAM(Zero-RAM)等。作为举例,ROM可以包括掩模ROM(Mask Read-Only Memory, MROM)、可编程ROM(Programmable Read-Only Memory,PROM)、可擦除可编程ROM (Programmable Erasable Read-only Memory,PEROM)、电可擦除可编程ROM(Electrically Erasable Programmable read only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通 用磁盘ROM等。
[0214] 为了便于说明,在ncRNA协同竞争网络识别设备中仅描述了一个处理器。然而,应当注 意,本发明中的ncRNA协同竞争网络识别设备还可以包括多个处理器,因此本发明中描述的 一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若ncRNA协同竞争 网络识别设备的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不 同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处 理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
[0215] 可选地,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算 机程序,计算机程序被处理器运行时执行前述方法实施例中所述的ncRNA协同竞争网络识别 方法的步骤。
[0216] 在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的 方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅 为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或 者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互 之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接, 可以是电性,机械或其它的形式。
[0217] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0218] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以 采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0219] 上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质 中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可 以是个人计算机,服务器,或者网络设备等)或处理器(英文:Processor)执行本发明各个 实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(英文: Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称: RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0220] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参 照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以 对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈