首页 / 专利库 / 生物防治 / 生物活性成分 / 信息化学物质 / 用于生物标记识别的系统和方法

用于生物标记识别的系统和方法

阅读:773发布:2020-05-15

专利汇可以提供用于生物标记识别的系统和方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及用于从关联的且基于知识的系统和处理中识别 生物 标记的系统和方法。具体地,本发明的各方面针对一种计算机实现的方法,该方法包括:使用查询对生物医学文本、科学 摘要 或生物信息学数据的一个或多个公共来源进行 数据挖掘 以识别与一个或多个预定项相关联的 数据库 项,对识别出的每个数据库项和所述一个或多个预定项之间的(一个或多个)关联进行评分,基于该(一个或多个)关联的得分来确 定子 集b,按预定次序使用 算法 的组合来开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型,以及基于相互作用网络模型 中子 集b中的数据库项和附加数据库项的排名从相互作用网络模型中识别候选生物标记。,下面是用于生物标记识别的系统和方法专利的具体信息内容。

1.一种用于识别生物标记的方法,所述方法包括:
通过计算设备,使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘,以识别与一个或多个预定项相关联的数据库项;
通过所述计算设备,对识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的一个或多个关联进行评分;
通过所述计算设备,基于识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分来确定子集b;
通过所述计算设备,按预定次序使用算法的组合来开发相互作用网络模型,所述相互作用网络模型包括相互作用、附加数据库项以及所述子集b中的数据库项,其中所述相互作用网络模型是使用包括特定于组织或器官的参数的预设参数来开发的,所述特定于组织或器官的参数将所述相互作用和所述附加数据库项限制到具体的组织或器官;以及通过所述计算设备,基于所述相互作用网络模型中的所述附加数据库项以及所述子集b中的数据库项的排名,从所述相互作用网络模型中识别候选生物标记。
2.如权利要求1所述的方法,还包括:
通过所述计算设备,擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项,以生成仅包括“实际”关注的数据库项的子集a;以及
通过所述计算设备,生成所述子集b的列表,所述列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分。
3.如权利要求1所述的方法,还包括:通过所述计算设备,使用统计处理来验证所述相互作用网络模型。
4.如权利要求3所述的方法,其中,所述验证包括使用统计数据来证明所述附加数据库项以及子集b中的数据库项在包括人类基因-疾病关联的独立第三方数据源中的富集。
5.如权利要求1所述的方法,其中,开发所述相互作用网络模型包括:
对子集b中的数据库项应用增长算法以在上游构建包括所述附加数据库项的5-50个节点,其中在该增长算法中排除相关性和表达关系;
对子集b中的数据库项应用增长算法以在下游构建包括所述附加数据库项的5-50个节点,其中在该增长算法中排除相关性和表达关系;
使用直接连接算法将在给定预设参数的情况下能够直接连接的所有节点连接起来以创建核心网络,其中在该直接连接算法中排除相关性和表达关系;
对所述核心网络应用用于找出节点之间的最短路径的算法,以识别直接连接和其中还有一个附加步骤的连接,其中在用于找出最短路径的所述算法中排除相关性和表达关系;
对所述核心网络中在给定所述预设参数的情况下能够直接连接的所有节点应用直接连接算法,其中,该直接连接算法中排除相关性和表达关系;以及
对所述核心网络应用用于找出最短路径的所述算法,以识别直接连接和其中还有一个附加步骤的连接,其中相关性和表达关系被包括在用于找出最短路径的该算法中。
6.如权利要求1所述的方法,还包括:
通过计算设备,识别第一数据集和第二数据集之间的交集,其中所述第一数据集包括来自所述相互作用网络模型的所述附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定的已知测试分析物的列表;以及
通过所述计算设备,基于包括第一数据集和第二数据集之间的交集的标准,将子集b中的数据库项和所述附加数据库项作为候选生物标记进行排名。
7.权利要求6的方法,其中,所述标准包括:排名1候选生物标记,排名1候选生物标记是被一个或多个治疗专家独立地推荐作为“生物标记”的那些数据库项;排名2候选生物标记,排名2候选生物标记是通过数据挖掘识别出的并且是所述相互作用网络模型的组成部分的那些数据库项,诸如基因或蛋白质;以及排名3候选生物标记,排名3候选生物标记是非排名
1且非排名2候选生物标记的那些数据库项。
8.如权利要求1所述的方法,还包括:
识别与所述数据挖掘中未找到的一个或多个预定项相关联的一个或多个附加项,以及通过所述计算设备,将所述一个或多个附加项导入子集b,
其中,所述相互作用网络模型包括相互作用、附加数据库项、以及子集b中的数据库项和所述一个或多个附加项。
9.如权利要求8所述的方法,其中,所述一个或多个附加项包含化学物质或小分子,所述化学物质或小分子涉及包括所述数据库项的一个或多个生物通路。
10.一种在其上存储有指令的非暂态机器可读存储介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行包括以下操作的方法:
使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘,以识别与一个或多个预定项相关联的数据库项;
对识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的一个或多个关联进行评分;
擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项,以生成仅包括“实际”关注的数据库项的子集a;
基于识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分来确定所述子集a的子集b;
按预定次序使用算法的组合来开发相互作用网络模型,所述相互作用网络模型包括相互作用、附加数据库项以及所述子集b中的数据库项,其中所述相互作用网络模型是使用包括特定于组织或器官的参数的预设参数来开发的,所述特定于组织或器官的参数将所述相互作用和所述附加数据库项限制到具体的组织或器官;以及
基于所述相互作用网络模型中的所述附加数据库项以及所述子集b中的数据库项的排名,从所述相互作用网络模型中识别候选生物标记。
11.如权利要求10所述的非暂态机器可读存储介质,其中,所述方法还包括:
擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项,以生成仅包括“实际”关注的数据库项的子集a;以及
生成所述子集b的列表,所述列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分。
12.如权利要求10所述的非暂态机器可读存储介质,其中,所述方法还包括使用统计处理来验证所述相互作用网络模型。
13.如权利要求12所述的非暂态机器可读存储介质,其中,所述验证包括使用统计数据来证明所述附加数据库项以及子集b中的数据库项在包括人类基因-疾病关联的独立第三方数据源中的富集。
14.如权利要求10所述的非暂态机器可读存储介质,其中,开发所述相互作用网络模型包括:
对子集b中的数据库项应用增长算法以在上游构建包括所述附加数据库项的5-50个节点,其中在该增长算法中排除相关性和表达关系;
对子集b中的数据库项应用增长算法以在下游构建包括所述附加数据库项的5-50个节点,其中在该增长算法中排除相关性和表达关系;
使用直接连接算法将在给定预设参数的情况下能够直接连接的所有节点连接起来以创建核心网络,其中在该直接连接算法中排除相关性和表达关系;
对所述核心网络应用用于找出节点之间的最短路径的算法,以识别直接连接和其中还有一个附加步骤的连接,其中在用于找出最短路径的所述算法中排除相关性和表达关系;
对所述核心网络中在给定所述预设参数的情况下能够直接连接的所有节点应用直接连接算法,其中,该直接连接算法中排除相关性和表达关系;以及
对所述核心网络应用用于找出最短路径的所述算法,以识别直接连接和其中还有一个附加步骤的连接,其中相关性和表达关系被包括在用于找出最短路径的该算法中。
15.如权利要求10所述的非暂态机器可读存储介质,其中,该方法还包括:
识别第一数据集和第二数据集之间的交集,其中所述第一数据集包括来自所述相互作用网络模型的所述附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定的已知测试分析物的列表;以及
基于包括第一数据集和第二数据集之间的交集的标准,将子集b中的数据库项和所述附加数据库项作为候选生物标记进行排名。
16.如权利要求15所述的非暂态机器可读存储介质,其中,所述标准包括:排名1候选生物标记,排名1候选生物标记是被一个或多个治疗专家独立地推荐作为“生物标记”的那些数据库项;排名2候选生物标记,排名2候选生物标记是通过数据挖掘识别出的并且是所述相互作用网络模型的组成部分的那些数据库项,诸如基因或蛋白质;以及排名3候选生物标记,排名3候选生物标记是非排名1且非排名2候选生物标记的那些数据库项。
17.如权利要求10所述的非暂态机器可读存储介质,其中,所述方法还包括:
识别与所述数据挖掘中未找到的一个或多个预定项相关联的一个或多个附加项,以及将所述一个或多个附加项导入子集b,
其中,所述相互作用网络模型包括相互作用、附加数据库项、以及子集b中的数据库项和所述一个或多个附加项。
18.如权利要求17所述的非暂态机器可读存储介质,其中,所述一个或多个附加项包含化学物质或小分子,所述化学物质或小分子涉及包括所述数据库项的一个或多个生物通路。
19.一种系统,包括:
一个或多个处理器和非暂态机器可读存储介质;
使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘以识别与一个或多个预定项相关联的数据库项的程序指令;
对识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的一个或多个关联进行评分的程序指令;
擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项以生成仅包括“实际”关注的数据库项的子集a的程序指令;
基于识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分来确定所述子集a的子集b的程序指令;
按预定次序使用算法的组合来开发相互作用网络模型的程序指令,所述相互作用网络模型包括相互作用、附加数据库项以及所述子集b中的数据库项,其中所述相互作用网络模型是使用包括特定于组织或器官的参数的预设参数来开发的,所述特定于组织或器官的参数将所述相互作用和所述附加数据库项限制到具体的组织或器官;以及
基于所述相互作用网络模型中的所述附加数据库项以及所述子集b中的数据库项的排名从所述相互作用网络模型中识别候选生物标记的程序指令,
其中程序指令被存储在所述非暂态机器可读存储介质上以供所述一个或多个处理器执行。
20.如权利要求19所述的系统,还包括:
擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项以生成仅包括“实际”关注的数据库项的子集a的程序指令;以及
生成所述子集b的列表的程序指令,所述列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分。
21.如权利要求19所述的系统,还包括:使用统计数据来证明所述附加数据库项以及子集b中的数据库项在包括人类基因-疾病关联的独立第三方数据源中的富集从而验证所述相互作用网络模型的程序指令。
22.如权利要求19所述的系统,其中,开发所述相互作用网络模型包括:
对子集b中的数据库项应用增长算法以在上游构建包括所述附加数据库项的5-50个节点,其中在该增长算法中排除相关性和表达关系;
对子集b中的数据库项应用增长算法以在下游构建包括所述附加数据库项的5-50个节点,其中在该增长算法中排除相关性和表达关系;
使用直接连接算法将在给定预设参数的情况下能够直接连接的所有节点连接起来以创建核心网络,其中在该直接连接算法中排除相关性和表达关系;
对所述核心网络应用用于找出最短路径的算法,以识别直接连接和其中还有一个附加步骤的连接,其中在用于找出最短路径的所述算法中排除相关性和表达关系;
对所述核心网络中在给定所述预设参数的情况下能够直接连接的所有节点应用直接连接算法,其中,该直接连接算法中排除相关性和表达关系;以及
对所述核心网络应用用于找出节点之间的最短路径的所述算法,以识别直接连接和其中还有一个附加步骤的连接,其中相关性和表达关系被包括在用于找出最短路径的该算法中。
23.如权利要求19所述的系统,还包括:
识别第一数据集和第二数据集之间的交集的程序指令,其中所述第一数据集包括来自所述相互作用网络模型的所述附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定的已知测试分析物的列表;以及
基于包括第一数据集和第二数据集之间的交集的标准将子集b中的数据库项和所述附加数据库项作为候选生物标记进行排名的程序指令。
24.如权利要求19所述的系统,其中,所述标准包括:排名1候选生物标记,排名1候选生物标记是被一个或多个治疗专家独立地推荐作为“生物标记”的那些数据库项;排名2候选生物标记,排名2候选生物标记是通过数据挖掘识别出的并且是所述相互作用网络模型的组成部分的那些数据库项,诸如基因或蛋白质;以及排名3候选生物标记,排名3候选生物标记是非排名1且非排名2候选生物标记的那些数据库项。
25.如权利要求19所述的系统,还包括:
识别与所述数据挖掘中未找到的一个或多个预定项相关联的一个或多个附加项的程序指令,以及
将所述一个或多个附加项导入子集b的程序指令,
其中,所述相互作用网络模型包括相互作用、附加数据库项、以及子集b中的数据库项和所述一个或多个附加项。
26.如权利要求25所述的系统,其中,所述一个或多个附加项包含化学物质或小分子,所述化学物质或小分子涉及包括所述数据库项的一个或多个生物通路。

说明书全文

用于生物标记识别的系统和方法

[0001] 对相关申请的交叉引用
[0002] 本申请要求于2017年6月22日提交的标题为“SYSTEMS  AND METHODS FOR BIOMARKER IDENTIFICATION”的美国临时申请No.62/523,382和2017年5月12日提交的标题为“SYSTEMS AND METHODS FOR BIOMARKER IDENTIFICATION”的美国临时申请No.62/505,536的权益和优先权,这些申请的全部内容通过引用并入本文用于所有目的。

技术领域

[0003] 本发明涉及用于生物标记物识别的系统和方法,并且具体而言涉及用于从基于关联且基于知识的系统和处理中识别生物标记的系统和方法。

背景技术

[0004] 术语“生物标记”一般是指可以被测量从而反映生物系统与潜在危害之间的响应的任何物质、结构或处理,它们可以是化学的、物理的或生物的。测得的响应可以是功能的和生理学的、在细胞平上的生化的、或者是分子相互作用。生物标记的示例包括从脉搏和血压到基本化学方法到更复杂的血液和其它组织实验室测试的一切内容。传统医学信号(诸如脉搏和血压)在临床实践中已有很长的使用历史,而当今的生物标记(诸如肿瘤标记)则只是现代实验室科学允许我们可重复地测量的客观、可量化的医学标志。生物标记(特别是分子或基因生物标记)的使用有些新颖,目前仍在开发和完善针对这种做法的最佳方法。关键问题是确定任何给定的可测量生物标记与潜在危害(诸如特定疾病状况)之间的关系。
[0005] 为了改进用于识别生物标记的常规技术,研究人员的主要目标是优化分子生物标记的基因组范围(genome-wide)筛选,尤其是使用高通量技术,基于不同类型的组学数据(omics data)进行差异分析,并使用生物信息学解释组学数据。具体地,各种“组学”(例如基因组学、转录组学和蛋白质组学)数据的积累使人们能够识别出可以预测疾病险和/或确认疾病发作和进展的潜在分子生物标记。虽然基于组学数据识别出的分子生物标记取得了一些成功,但是大多数分子生物标记并不可靠且具有低的可重复性,其中从一个数据集识别出的生物标记有时无法针对同一疾病在另一个数据集中起作用。之所以会出现这种现象是因为许多疾病(尤其是复杂疾病)被公认为生物系统失调的结果,而不是单个基因的突变,而分子生物标记通常被认为在功能上是彼此独立的。因而,需要用于高精度生物标记识别的改进技术。

发明内容

[0006] 在各个实施例中,提供了一种计算机实现的方法,该方法包括:使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘,以识别与一个或多个预定项相关联的数据库项,对识别出的数据库项中的每个数据库项与该一个或多个预定项之间的(一个或多个)关联进行评分,基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分来确定子集b,按预定次序使用算法的组合开发包括子集b中的数据库项、相互作用、和附加数据库项的相互作用网络模型,以及基于相互作用网络模型中的附加数据库项和子集b中的数据库项的排名从相互作用网络模型中识别候选生物标记。可以使用包括特定于组织或器官的参数的预设参数来开发相互作用网络模型,特定于组织或器官的参数将相互作用和附加数据库项限制到具体的组织或器官。
[0007] 根据一些方面,该计算机实现的方法还包括:擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项从而生成仅包括“实际”关注的数据库项的子集a,并生成子集b的列表,该列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与一个或多个预定项之间的(一个或多个)关联的得分。
[0008] 在一些实施例中,开发相互作用网络模型包括:对子集b中的数据库项应用增长算法以在上游构建包括附加数据库项的5-50个节点,其中在增长算法中排除相关性(correlation)和表达关系(expression relationship),对子集b中的数据库项应用增长算法以在下游构建包括附加数据库项的5-50个节点,其中在增长算法中排除相关性和表达关系,使用直接连接算法将给定预设参数的情况下可以直接连接的所有节点连接起来以创建核心网络,其中在直接连接算法中排除相关性和表达关系,对核心网络应用Dijkstra(迪杰斯特拉)最短路径算法以识别直接连接以及其中还有一个附加步骤的连接,其中在该Dijkstra最短路径算法中排除相关性和表达关系,对核心网络中在给定预设参数的情况下可以直接连接的所有节点应用直接连接算法,其中直接连接算法中排除相关性和表达关系,以及对核心网络应用Dijkstra最短路径算法以识别直接连接以及其中还有一个附加步骤的连接,其中相关性和表达关系包括在该Dijkstra最短路径算法中。
[0009] 根据其它方面,该计算机实现的方法还包括:识别第一数据集和第二数据集之间的交集,其中第一数据集包括来自相互作用网络模型的附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定(assay)的已知测试分析物的列表;以及基于包括第一数据集和第二数据集之间的交集的标准,将子集b中的数据库项和附加数据库项作为候选生物标记进行排名。
[0010] 可选地,标准包括:排名1的候选生物标记,它们是由一个或多个治疗专家或者由已发布的行业指南独立推荐作为“生物标记”的那些数据库项;排名2候选生物标记,它们是诸如通过数据挖掘识别出的并且是相互作用网络模型的组成部分的那些数据库项,诸如基因或蛋白质;以及排名3候选生物标记,它们是非排名1候选生物标记且非排名2候选生物标记的那些数据库项。
[0011] 可选地,该方法还包括:识别在数据挖掘中未找到的要与一个或多个预定项相关联的一个或多个附加项;以及将该一个或多个附加项导入子集b。相互作用网络模型可以包括子集b中的数据库项和该一个或多个附加项、相互作用、和附加数据库项。在某些实施例中,该一个或多个附加项包含涉及包括所述数据库项的一个或多个生物通路的化学物质或小分子。
[0012] 在其它实施例中,提供了一种用于在其上存储指令的非暂态机器可读存储介质,指令在由一个或多个处理器执行时使一个或多个处理器执行一种方法,该方法包括:使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘,以识别与一个或多个预定项相关联的数据库项,对识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联进行评分,对识别出的数据库项进行擦洗以移除不是“实际”关注的数据库项的所谓数据库项从而生成仅包括“实际”关注的数据库项的子集a,基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分确定子集a的子集b,按预定次序使用算法的组合开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型,以及基于相互作用网络模型中子集b中的数据库项和附加数据库项的排名从相互作用网络模型中识别候选生物标记。可以使用包括特定于组织或器官的参数的预设参数来开发相互作用网络模型,特定于组织或器官的参数将相互作用和附加数据库项限制到具体的组织或器官。
[0013] 在其它实施例中,提供了一种系统,该系统包括一个或多个处理器和非暂态机器可读存储介质,使用查询来识别与一个或多个预定项相关联的数据库项以便对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘的程序指令,对识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联进行评分的程序指令,对识别出的数据库项进行擦洗以移除不是“实际”关注的数据库项的所谓数据库项从而生成仅包括“实际”关注数据库项的子集a的程序指令,基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分确定子集a的子集b的程序指令,按预定次序使用算法的组合开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型的程序指令,以及基于相互作用网络模型中到子集b中的数据库项和附加数据库项的排名从相互作用网络模型中识别候选生物标记的程序指令。程序指令被存储在非暂态机器可读存储介质上,以供一个或多个处理器执行。可以使用包括特定于组织或器官的参数的预设参数来开发相互作用网络模型,特定于组织或器官的参数将相互作用和附加数据库项限制到具体的组织或器官。附图说明
[0014] 鉴于以下非限制性附图,将更好地理解本发明,其中:
[0015] 图1示出了根据本发明各个方面的使用基于关联的(例如,基因/蛋白质-疾病或基因/蛋白质-项关联)的系统和处理来识别生物标记的示例性流程;
[0016] 图2示出了根据本发明一些方面的子集b中的数据库项的示例性列表;
[0017] 图3示出了根据本发明各个方面的用于使用基于知识的系统和处理来识别生物标记的示例性流程;
[0018] 图4示出了根据本发明各个方面的示例性多节点相互作用网络;
[0019] 图5示出了根据本发明各个方面的用于生物标记分析的示例性流程;
[0020] 图6示出了根据本发明的各个方面实现的计算系统的说明性体系架构;
[0021] 图7A和7B示出了根据本发明各个方面的原始数据挖掘结果和基因集之间的逻辑关系的维恩(Venn)图;
[0022] 图8示出了根据本发明各个方面的可用的、经验证的测定的细分。
[0023] 图9示出了根据本发明各个方面的潜在生物标记的表征基因集之间的逻辑关系的维恩图;
[0024] 图10示出了根据本发明各个方面的来自挖掘和建模的数据的维恩图;
[0025] 图11示出了根据本发明各个方面的示例性多节点相互作用网络;
[0026] 图12示出了根据本发明各个方面的示例性多节点相互作用网络,其突出显示了为模型验证提供进一步的置信度的已知生物通路;
[0027] 图13示出了根据本发明各个方面可用的测试的维恩图;以及
[0028] 图14示出了根据本发明各个方面的候选生物标记的维恩图。

具体实施方式

[0029] I.介绍
[0030] 在各种实施例中,本发明涉及用于从关联的且基于知识的系统和处理中识别生物标记的方法。用于识别分子生物标记的常规方法一般通过设置阈值来检测差异表达的基因,其中其表达到变化超过阈值的那些基因被用作基因组/转录组的分子生物标记,或对那些测序读数进行完整的重组。遗憾的是,基因表达数据中继承的噪声使得在这样任意设置的阈值的情况下检测可靠差异表达基因成为一项艰巨的任务。因此,已经提出了统计技术来检测更可靠的差异基因,例如非参数方法和经验贝叶斯方法,其中大多数方法都基于统计测试。但是这些方法都太耗时,并且从一个数据集识别出的生物标记有时无法针对同一疾病在另一个数据集中起作用。
[0031] 为了解决这些问题,本发明涉及实现关联的且基于知识的系统和处理以识别一个或多个生物标记的系统和方法。例如,本公开的一个说明性实施例涉及一种计算机实现的方法,该方法包括:使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘,以识别与一个或多个预定项相关联的数据库项,对识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联进行评分,基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分来确定子集b,按预定次序使用算法的组合开发包括子集b中的数据库项的相互作用网络模型,以及基于相互作用网络模型中数据库项的排名从相互作用网络模型中识别候选生物标记。
[0032] 虽然本文关于识别分子生物标记公开了一些实施例,但这并不意图是限制性的。除识别分子生物标记之外,本文公开的教导还可以应用于可以被测量以反映生物系统与潜在危害之间的响应的其它生物标记,它们可以是化学的、物理的或生物学的。例如,可以将细胞或生化生物标记(例如前列腺特异性抗原、肌酸激酶、肌营养不良蛋白等)确定为决定个人健康、疾病发作和进展的状态;或实验性疗法是否有效。
[0033] II.用于识别生物标记的技术
[0034] 图1、3和5描绘了简化的流程图,其描绘了根据本发明实施例的被执行以用于识别生物标记的处理。例如,可以在图6的系统环境中实现图1、3和5的步骤。如本文所述,图1、3和5的流程图图示了根据本发明各个实施例的系统、方法和计算机程序产品的可能实现方式的体系架构、功能和操作。就这一点而言,流程图或框图中的每个框可以表示代码的模、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。还应当注意的是,在一些替代实施方式中,框中指出的功能可以不按图中指出的次序发生。例如,取决于所涉及的功能,实际上可以基本同时执行连续示出的两个框,或者有时可以以相反的次序执行这些框。还应该注意的是,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。
[0035] 图1描绘了简化的流程图100,其图示了使用基于关联的(例如,基因/蛋白质-疾病或基因/蛋白质-项关联)来识别生物标记的处理。在步骤105处,使用查询来对生物医学文本(例如,同行评审的文献)、科学摘要或生物信息学数据的一个或多个公共来源进行挖掘,从而识别与一个或多个预定项(即,查询项)相关联的数据库项(例如,蛋白质、基因、生化、细胞成分、其它生物分子,诸如基因的部分、基因的非编码部分、siRNA、miRNA、激素、类固醇、肽等)。一个或多个预定项可以是针对关注的具体疾病(诸如癌)和/或针对关注的疾病的危险因素(诸如烟草烟雾)的查询项。在某些实施例中,使用诸如基于web的工具PolySearch之类的web服务器来生成查询,以便识别和枚举生物医学文本的一个或多个公共来源内的R1、R2、R3和R4语句(R代表相关性),这些语句包括“查询项”、“关联词”和“数据库项”中的一个或多个。
[0036] 例如,R4语句可以是仅包含数据库项之一且仅用于统计归一化的语句。R3语句可以是具有查询项和数据库项之一的语句。R2语句可以是具有数据库项之一、查询项之一以及至少一个关联词的语句。R1语句可以与R2语句相同,但另外,R1语句可能必须通过模式识别标准。示例关联词可以包括在查询项和数据库项之间建立关联的词,例如:患者、治疗、风险、关联的、色、抗原、关联、常染色体、生物标记、造成、造成的、拒绝、缺陷、不足、删除的、诊断的、诊断、主导、提升,等等。但是,本领域技术人员将理解的是,在对这种识别和枚举处理的修改不改变使用基于关联的系统和处理来识别生物标记的主要目标的情况下,对这种识别和枚举处理的修改是可以接受的,并且可以包括但不限于涉及与前面提到的处理类似的步骤和/或涉及步骤的减少或增加的修改(例如,仅使用R3语句(数据库项和查询项均出现))。
[0037] 在步骤110处,对每个识别出的数据库项与一个或多个预定项之间的(一个或多个)关联进行评分。例如,可以在包括诸如基因或蛋白质之类的识别出的数据库项和/或一个或多个预定项的语句、段落或摘要中利用相关性规则和模式识别,以对关联的强度进行评分。在一些实施例中,使用模式识别来执行评分,以识别“查询项”-“关联词”-“数据库项”模式,其中在“查询项”和“关联词”之间存在既定的词数(例如,距离)和/或在“查询项”、“关联词”和“数据库项”之间存在既定的词数(例如,距离)。在某些实施例中,得分是针对R1、R2、R3和R4语句中的每一个语句计算的关联值的总和。为了生成得分并计算各个关联值的目的,可以给予R1语句例如50的值,可以给予R2语句例如25的值,可以给予R3语句例如5的值,并且可以给予R4语句例如1的值。为每种类型的语句提供的关联值是权重,这些权重可以被调谐以提供用于识别生物标记的更高精度。
[0038] 在步骤115处,识别出的数据库项被擦洗以移除不是“实际”关注的数据库项的所谓数据库项(例如,来自查询的“假阳性”结果)以生成仅包括“实际”关注的数据库项(例如经过核实的基因或蛋白质)的子集a。在某些实施例中,擦洗包括使用映射应用将诸如基因名称或蛋白质名称之类的数据库项映射到基因或蛋白质标识符和符号。可以对那些无法通过映射应用进行映射的基因或蛋白质执行数据管理,以移除所有不是“实际”基因或蛋白质的所谓基因或蛋白质。
[0039] 在步骤120处,基于每个识别出的数据库项与一个或多个预定项之间的(一个或多个)关联的得分,来确定识别出的并被擦洗的数据库项的子集a的子集b。例如,可以通过指派得分阈值以隔离被识别为与一个或多个预定项相关联的前30、50、75或100个数据库项(即,具有(一个或多个)最高评分的关联的那些基因或蛋白质)来确定子集b。目的是识别查询项和数据库项之间的30-100个高评分关联,这些关联可以被用作构建关于图3所述的表征模型的种子
[0040] 在步骤125处,生成子集b中所有数据库项的列表。在某些实施例中,该列表包括数据库项的名称(诸如基因或蛋白质的名称)、基因或蛋白质的标识符或符号,以及每个识别出的基因或蛋白质与一个或多个预定项之间的(一个或多个)关联的得分。图2描绘了根据本发明各个方面的子集b中的数据库项205的示例性列表200。在某些实施例中,该处理还包括:识别数据挖掘中未找到的要与一个或多个预定项相关联的一个或多个附加项,并将该一个或多个附加项导入子集b。例如,该领域的专家或科学家可以基于先验知识来提供一个或多个附加项,或者可以使用与步骤105中执行的查询不同的数据库查询(例如,内联网查询或web查询)来找到一个或多个附加项。在某些实施例中,该一个或多个附加项包含涉及包括所述数据库项的一个或多个生物通路的化学物质或小分子。
[0041] 图3描绘了简化的流程图300,其图示了用于使用基于知识的系统和处理来识别生物标记的处理。在步骤305处,按预定次序使用算法的组合(诸如,Dijkstra最短路径算法(或用于查找节点之间最短路径的类似算法)、直接连接算法(例如,识别网络中现有节点之间的直接连接的算法)、增长算法等)来开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型(例如,基因/蛋白质-基因/蛋白质相互作用模型)。在某些实施例中,添加到网络中的相互作用和数据库项(例如,基因/蛋白质)被限制到与正被建模的一个或多个预定项相关的给定组织、组织的集合(例如,肺组织)或器官(例如,肾脏)。具体而言,选择子集b中的基因或蛋白质对,并且可以识别与该对中的基因或蛋白质二者直接相互作用的一个或多个组织/器官特定的基因或蛋白质。直接相互作用的识别可以基于经同行评审的研究数据,并指定该一个或多个特定于组织/器官的基因或蛋白质对于该对的基因或蛋白质二者的方向、机制和作用。这些“基因或蛋白质的子网络”通过算法被反复构建,以形成大型的多节点基因/蛋白质-基因/蛋白质相互作用网络。
[0042] 在各种实施例中,利用预设参数(例如,特定于组织/器官的参数以及排除非直接相互作用参数)来开发相互作用网络模型(例如,基因/蛋白质-基因/蛋白质相互作用模型)。最初,可以将增长算法应用于子集b中的数据库项以在上游构建5-50个节点(例如,25个节点),包括诸如基因/蛋白质之类附加数据库项(排除相关性和表达关系)。此外,可以将增长算法应用于子集b中的数据库项以在下游构建5-50个节点(例如,25个节点),包括诸如基因/蛋白质之类的附加数据库项(排除相关性和表达关系)。此后,可以使用直接连接算法(例如,识别网络中现有节点之间的直接连接的算法)来连接在给定预设参数的情况下可以直接连接的所有节点(排除相关性和表达关系)。这个处理基于与正被建模的疾病或查询项相关联的数据库项(即,来自数据挖掘)以及与这些数据库项相互作用的特定于组织/器官的连接和节点来创建核心网络。从本质上讲,这些步骤围绕着先前被识别为与疾病或查询项高度相关联的(即,来自关于图1讨论的数据挖掘的)数据库项或基因/蛋白质来构建附加数据库项或基因/蛋白质相互作用的“邻域”。
[0043] 一旦创建了核心网络,Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)就可以被用于识别直接连接和存在一个附加步骤的连接(排除相关性和表达关系)。此后,可以应用直接连接算法来连接在给定预设参数的情况下可以直接连接的所有节点(排除相关性和表达关系)。此后,可以使用Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)来识别直接连接和存在一个附加步骤的连接(包括相关性和表达关系)。由于仅识别直接的物理连接,因此排除相关性和表达关系允许更大的模型相关性。在该处理的最后一步中包括相关性和表达关系允许对于与模型中其它节点具有未确定的物理相互作用的新兴生物标记的敏感性。
[0044] 在步骤310处,没有建立连接的各个节点以及小的碎片网络被丢弃,并且单个大型多节点相互作用网络被保留。图4描绘了根据本发明各个方面的示例性多节点相互作用网络400,多节点相互作用网络400包括一个或多个特定于组织/器官的基因或蛋白质405,基因或蛋白质405直接与每个识别出的对410中的基因或蛋白质两者相互作用。在步骤315处,相互作用网络模型被验证,以确保其准确地模拟疾病生物学。在某些实施例中,可以使用统计数据来执行验证,以证明来自相互作用网络模型的子集b中的数据库项与附加数据库项(诸如基因/蛋白质)在包含人类基因-疾病关联的独立第三方数据源中的富集(例如,显著的过量表示)。这可以通过使用超几何测试以获得模型基因列表相对于第三方数据源中分类的疾病基因列表的富集P值来完成。
[0045] 在步骤320处,如果可以统计地验证相互作用网络模型,那么处理继续。在某些实施例中,如果相互作用网络模型确实通过验证,即,它富含与正被建模的在独立的第三方数据源中的疾病或查询项相关的基因/蛋白质,那么相互作用网络模型被用来识别如下的基因/蛋白质节点,即,这些基因/蛋白质节点是已知测定的组成部分以及是以下之一:(1)被一个或多个治疗专家推荐的作为用于被建模的表征的生物标记的基因/蛋白质,(2)(根据如关于图1所描述的数据挖掘)与被建模的表征显著相关的基因/蛋白质,或者(3)在模型构建期间被添加了的基因/蛋白质。在步骤325处,如果相互作用网络模型不能被统计地验证,那么相互作用网络模型被丢弃,并且处理可以从步骤305重新开始。例如,不存在相互作用网络模型表示疾病生物学的置信度,因此将相互作用网络模型丢弃。在一些实施例中,该处理可以通过使用更改的参数进行建模而在步骤305处再次开始。但是,在一些情况下,问题不是建模,而是缺乏构建准确模型的证据/数据。
[0046] 图5描绘了简化的流程图500,其图示了用于生物标记分析的处理。在步骤505处,将相互作用网络模型中的附加数据库项和子集b中的数据库项作为候选生物标记进行排名。在某些实施例中,可以使用逐步处理来提供候选生物标记的置信度得分。逐步处理可以包括识别以下两个数据集之间的交集:来自相互作用网络模型的诸如基因/蛋白质之类的数据库项的列表(例如,子集b中的数据库项和附加数据库项),以及具有现有的经过验证的测定的已知测试分析物的列表,并基于以下标准对数据库项进行排名:排名1候选生物标记(即,最高置信度候选),它们是由一个或多个治疗专家或已发布的行业指南独立推荐作为用于所建模的相互作用网络的“生物标记”的那些数据库项,诸如基因或蛋白质。排名2候选生物标记(即,较低置信度候选)满足两个标准:(1)它们是经由数据挖掘而识别出的;和(2)它们是模型的组成部分(即,通过建模处理没有被丢弃)。排名3候选生物标记(即,最低置信度候选)是非排名1且非排名2的诸如基因或蛋白质之类的那些数据库项。
[0047] 在步骤510处,对于未映射到现有的经过验证的测定的每个所得到的数据库项,可以将这些数据库项视为需要生物验证、临床实用和测定开发的潜在生物标记。在步骤515处,对于确实映射到现有的经过验证的测定的每个所得到的数据库项关联,基于作为候选生物标记的数据库项在模型中的排名,来识别具有作为具体疾病的生物标记的最大潜的候选生物标记(例如,前10个、15个、20个或25个基因或蛋白质)。
[0048] III.系统环境
[0049] 图6是作为本发明一些实施例实现的计算系统600的说明性体系架构。计算系统600仅仅是合适的计算系统的一个示例,并且无意于暗示对本发明的使用范围或功能的任何限制。而且,计算系统600不应当被解释为具有与计算系统600中所示的任何一个部件或部件的组合有关的任何依赖性或要求。
[0050] 如图6中所示,计算系统600包括计算设备605。计算设备605可以驻留在网络基础设施上,诸如环境之内,或者可以是分开的独立计算设备(例如,服务提供商的计算设备)。计算设备605可以包括总线610、处理器615、存储设备620、系统存储器(硬件设备)625、一个或多个输入设备630、一个或多个输出设备635以及通信接口640。
[0051] 总线610允许计算设备105的部件之间的通信。例如,总线610可以是几种类型的总线结构中的任何一种,包括使用各种总线体系架构中的任何一种来提供一个或多个有线或无线通信链路或路径的存储器总线或存储器控制器、外围总线和本地总线,以用于在计算设备605的各个其它部件之间、从计算设备605的各个其它部件、或向计算设备605的各个其它部件传送数据和/或电力。
[0052] 处理器615可以是一种或多种常规的处理器、微处理器或专的专用处理器,其包括可操作以解释和执行计算机可读程序指令的处理电路系统,诸如用于控制计算设备605的各种其它部件中的一个或多个部件的操作和性能的程序指令,用于实现本发明的功能、步骤和/或性能。在某些实施例中,处理器615解释并执行本发明的处理、步骤、功能和/或操作,这些可以通过计算机可读程序指令可操作地实现。例如,处理器615可以进行数据挖掘,例如查询和/或以其它方式从参考数据集中获得或生成数据库项的列表,该参考数据集包括生物医学文本(例如,同行评审的文献)、科学摘要或生物信息学数据的一个或多个公共来源,基于得分确定经擦洗的识别出的数据库项的子集b,并生成子集b的列表。处理器615还可以使用经擦洗的识别出的数据库项的子集b通过算法开发相互作用网络模型,并从相互作用网络模型中识别候选生物标记。在实施例中,可以将由处理器615开发的子集b的列表、相互作用网络模型以及候选生物标记的列表存储在存储设备620中。
[0053] 存储设备620可以包括可移除/不可移除、易失性/非易失性计算机可读介质,诸如但不限于磁和/或光记录的非暂态机器可读存储介质介质及其对应的驱动器。根据本发明的不同方面,驱动器及其相关联的计算机可读介质提供计算机可读程序指令、数据结构、程序模块和其它数据的存储以供计算设备605操作。在实施例中,根据本发明的各方面,存储设备620可以存储操作系统645、应用程序650和程序数据655。
[0054] 系统存储器625可以包括一个或多个存储介质,包括例如非暂态机器可读存储介质(诸如闪存)、永久存储器(诸如只读存储器(“ROM”))、半永久存储器(诸如随机存取存储器(“RAM”)),任何其它合适类型的非暂态存储部件或它们的任何组合。在一些实施例中,输入/输出系统660(BIOS)可以存储在ROM中,该输入/输出系统660包括有助于(诸如在启动期间)在计算设备605的各种其它部件之间传送信息的基本例程。此外,可被处理器615访问和/或当前被处理器615操作的数据和/或程序模块665(诸如操作系统645、程序模块、应用程序650和/或程序数据655的至少一部分)可以包含在RAM中。在实施例中,程序模块665和/或应用程序650可以包括查询设备或web爬虫、用于构建相互作用网络模型的诸如Dikstra最短路径算法、直接连接算法、增长算法之类的算法、比较工具,以及例如已知的分析抗原和测定的一个或多个数据库,其提供用于处理器615执行的指令和数据。
[0055] 一个或多个输入设备630可以包括允许操作者向计算设备605输入信息的一个或多个机制,诸如但不限于触摸板、拨号盘、点击轮、滚轮、触摸屏、一个或多个按钮(例如,键盘)、鼠标、游戏控制器、轨迹球、麦克风、相机、接近传感器、光检测器、运动传感器、生物特征传感器及其组合。一个或多个输出设备635可以包括向操作者输出信息的一个或多个机制,诸如但不限于音频扬声器、机、音频线路输出、视觉显示器、天线、红外端口、触觉反馈打印机或其组合。
[0056] 通信接口640可以包括使计算设备605能够与远程设备或系统(诸如移动设备)或其它计算设备(诸如例如联网环境(例如,云环境)中的服务器)通信的任何类似于收发器的机制(例如,网络接口、网络适配器调制解调器或其组合)。例如,计算设备605可以使用通信接口640经由一个或多个局域网(LAN)和/或一个或多个广域网(WAN)连接到远程设备或系统。
[0057] 如本文所讨论的,计算系统600可以被配置为识别生物标记。具体地,响应于处理器615执行包含在非暂态机器可读存储介质(诸如系统存储器625)中的程序指令,计算设备605可以执行任务(例如,处理、步骤、方法和/或功能)。程序指令可以从诸如数据存储设备
620之类的另一个计算机可读介质(例如,非暂态机器可读存储介质)被读取到系统存储器
625中,或者经由通信接口640或位于云环境之内或之外的服务器从另一个设备被读取到系统存储器625中。根据本发明的各方面,在实施例中,操作者可以经由一个或多个输入设备
630和/或一个或多个输出设备635与计算设备605进行相互作用,以促进任务的执行和/或实现这些任务的最终结果。在附加或替代实施例中,可以使用硬接线电路系统代替程序指令或与程序指令结合使用,以实现与本发明的不同方面一致的任务(例如,步骤、方法和/或功能)。因此,可以以硬件电路系统和软件的任何组合来实现本文公开的步骤、方法和/或功能。
[0058] IV.示例
[0059] 在不意图限制本文讨论的实施例的范围的情况下,通过参考以下示例可以更好地理解在各种实施例中实现的系统和方法。
[0060] 示例1:
[0061] 以下示例的目标是执行数据挖掘和表征建模,以识别:(1)与慢性阻塞性肺疾病(COPD)、心血管疾病(CVD)、肺癌(LC)或烟草烟雾(TS)相关联的基因;(2)具有Covance转化生物标记解决方案(TBS)组中的现有测定的候选生物标记,这些测定与疾病表征和肺中烟草烟雾二者相关联;以及(3)与疾病表征和肺中烟草烟雾二者相关联的用于测定开发(即,TBS当前未提供的测试)的潜在生物标记。
[0062] 相关性标准
[0063] 该方法尝试使用Web服务器查找查询项、关联词和数据库项,以识别和枚举R1、R2、R3和R4语句(R表示相关性)。R4语句被定义为仅包含数据库项之一的语句并且仅用于统计归一化。R3语句被定义为具有数据库项之一以及查询项的语句。R2语句被定义为具有数据库项之一、查询项之一以及至少一个关联词的语句。R1语句被定义与R2语句相同,但另外R1语句必须通过模式识别标准。模式识别系统是基于规则的并且传统上已用于提取蛋白质-蛋白质相互作用。总体而言,用于R1、R2、R3和R4语句计数的z得分被用于生成相关性指数(RI)得分。为了生成RI得分并计算Z得分,R1语句被给予值50,R2语句=25,R3语句=5,R4语句=1。RI得分是R1、R2、R3和R4语句的总和。
[0064] 数据挖掘参数
[0065] 最初,针对基因-疾病或基因-项关联性对MEDLINE(数据库=PubMed)进行数据挖掘。具体而言,研究了三种疾病表征:CVD、COPD和LC。对于COPD,同义词包括:慢性阻塞性肺部疾病(chronic obstructive pulmonary disease);COAD;COLD慢性阻塞性肺疾病(chronic obstructive lung disease);COPD;COPD慢性阻塞性肺部病(chronic obstructive pulmonary disease);慢性阻塞性气道疾病(chronic obstructive airways disease);慢性阻塞性肺病(chronic obstructive lung disease);慢性气流受限(chronic airflow limitation);慢性气道疾病(chronic airwaydisease);慢性气道阻塞(chronic airway obstruction);慢性不可逆的气道阻塞(chronic irreversible airway obstruction);慢性阻塞性气道疾病(chronic obstructive airway disease);肺部疾病,慢性阻塞性(pulmonary disease,chronic obstructive)。对于CV,同义词包括:心血管疾病(cardiovascular disease);循环系统障碍(circulatory system disorder);心血管系统疾病(cardiovascular system diseases);循环系统障碍(circulatory disorders);循环系统病(circulatory disease);循环系统疾病(circulatory system diseases);循环系统的疾病(diseases of the circulatory system);循环系统的障碍(disorder of the circulatory system);循环障碍(circulatory disorder)。对于LC,同义词包括:肺癌(lung cancer);肺的癌(cancer of lung);肺部的癌(cancer of the lung);癌肺(cancer,lung);癌肺部(cancer,pulmonary);肺癌(1ung cancers);恶性肺瘤(malignant lung neoplasm);恶性的肺肿瘤(malignant lung tumor);肺恶性瘤(malignant neoplasm of the lung);肺的恶性肿瘤(malignant tumor of the lung);肺的恶性瘤(malignant neoplasm of lung);恶性的肺肿瘤(malignant tumor of lung);肺癌(pulmonary cancer);肺部癌(pulmonary cancers)。也针对与项“烟草烟雾”相关的基因对MEDLINE(数据库=PubMed)进行数据挖掘。
[0066] 所有疾病表征查询都包括过滤词:不存在(absence);活动(activity);更改(alter);更改了(altered);更改中(altering);更改(alters);多个抗体(antibodies);抗体(antibody);抗原(antigen);多个抗原(antigens);关联的(associated);关联性(association);常染色体(autosomal);生物标记(biomarker);多个生物标记(biomarkers);造成(cause);造成了(caused);造成(causes);正造成(causing);拒绝(decline);拒绝的(declined);不足(deficiency);不足的(deficient);删除的(deleted);诊断的(diagnosed);诊断(diagnosis);主导的(dominant);提升(elevate);提升的(elevated);酶(enzyme);表达的(expressed);表达(expression);基因(gene);多个基因(genes);涉及(involve);涉及的(involved);正涉及(involving);缺乏(1acking);导致(1ead);正导致(leading);导致(leads);导致了(led);链接(linkage);链接的(linked);轨迹(locus);标记(marker);多个标记(markers);mRNA;多个mRNA;突变的(mutated);突变(mutation);多个突变(mutations);观察(observe);观察的(observed);
观察(observes);正观察(observing);多态(polymorphic);多态性(polymorphism);多态性(polymorphisms);产生(produce);产生的(produced);产生(produces);产生(production);蛋白质(protein);多个蛋白质(proteins);隐性(recessive);规章(regulation);有关(relate);有关(relates);有关于(relating);角色(role);多个角色(roles);SNP;多个SNP。此外,文本词语查询还包括以下过滤词:基因(gene);多个基因(genes);蛋白质(protein);多个蛋白质(proteins)。为确保是当前且相关的结果,并且为了优化数据挖掘时间,所有查询均限于过去5年,并具有5000个摘要的限制。
[0067] 数据挖掘结果
[0068] 清洁并组织用于COPD、CV、LC和TS的所有四个结果数据集。具体而言,使用疾病相关基因符号映射(DAGR,Disease Associated Gene symbol mappeR)将基因名称映射到Entrez基因ID和基因符号,DAGR是被涉及为将基因符号快速映射到Entrez基因ID的自定义应用。对那些未能通过DAGR映射的关联性执行手动组织。通过开发数百个不同的模型,基于经验分配RI得分阈值。目标是使用30-50个高得分的基因/蛋白质关联作为种子来构造表征模型。具体结果在表1中示出。
[0069] 关联 RI得分阈值 基因数量慢性阻塞性肺疾病(COPD) 400(最高得分:2939) 48
心血管疾病(CVD) 116(最高得分:890) 50
肺癌(LC) 347(最高得分:11805) 49
烟草烟雾(TS) 45(最高得分:290) 50
[0070] 表1:用于基因-疾病或基因-项关联的RI得分阈值和所得到的基因数量。
[0071] 与给定条件相关的许多基因与另一个条件重叠。在图7A和7B中,维恩图700和750示出了针对所有条件的原始数据挖掘结果(即,基因集)之间的逻辑关系与当关联被限制到疾病表征和烟草烟雾两者时所得到的逻辑关系。编号705指示与每个条件710相关联的高度相关的基因。图7A示出了比较的原始数据挖掘结果,并且点线715指示在COPD、CVD或LC和TS的交集处的那些基因。编号720是用于表1中所示的基因-疾病或基因-项关联的所得到的基因数量。图7B示出了特定于有表征的疾病和烟草烟雾两者的基因组之间的逻辑关系。
[0072] 疾病相互作用网络模型构造
[0073] 构造基于已发布的同行评审研究的疾病模型(例如,基因/蛋白质-基因/蛋白质相互作用网络),以使用用于下一代测序、变异体、CNV、微阵列、代谢、SAGE、蛋白质组学、siRNA、microRNA和筛选数据的集成软件套件来模拟疾病生物学。这个步骤包括使用计算每个方向上的初始对象对之间的最短路径(即,具有尽可能少的定向单步相互作用的数量)的算法,例如使用标准Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)。所得到的输出是用于每个基因集的单个相互作用网络。每个相互作用网络模型都是特定于组织生成的:仅使用肺组织中的分子和/或关系来构造COPD、LC和TS模型;仅使用心血管系统中的分子和/或关系来构造CVD模型。
[0074] 模型包括基因/蛋白质以及它们之间的相互作用(参见例如图4)。这些基因/蛋白质既包括初始对象或“种子”(即,经由数据挖掘识别出的基因/蛋白质),也包括链接初始对象的次级基因。表征建模模拟具体组织/器官中的与所研究的表征直接相关联的基因周围的蛋白质-蛋白质相互作用“邻域”。如本文所讨论的,该模型是使用Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)通过算法开发的。该处理如下运行:种子对经由与两个种子都物理地相互作用的特定于组织/器官的基因/蛋白质来链接。相互作用是基于同行评审的研究数据,并指定方向、机制和效果。这些“三元组”针对不同的基因集被反复构造,然后基于与其它三元组的重叠而拼凑在一起。没有建立连接的单个的节点以及小的碎片网络被丢弃,并且单个大型多节点网络被保留。这个大型的多节点网络是模拟疾病生物学的疾病相互作用网络模型,因为它基于从数十年研究数据中积累的综合生物医学知识。
[0075] 模型验证
[0076] 表征建模是包括验证以确保建模准确地模拟疾病生物学的迭代式处理。采用统计方法来验证模型并核实来自模型的基因在独立的第三方数据源中的富集。独立的第三方数据源集成了来自各种专家组织的数据库的人类基因疾病关联以及由文本挖掘衍生的关联,包括孟德尔(Mendelian)、复杂和环境疾病。该集成是借助于基因和疾病词汇映射以及通过使用独立的第三方数据源关联类型本体来执行的。所使用的测试是富集分析,以评估数据集是否示出某些生物学特点的明显过量表达。由于TS模型并不表示疾病,因此使用类似的统计方法进行验证,但使用不同的可公开获得的数据库,该数据库提供了手动组织的有关化学基因/蛋白质相互作用的信息。验证的具体结果在表2中示出。
[0077]
[0078] 表2:用于简单疾病表征模型的统计验证结果。示出了来源、ID和表征/相互作用名称。富集测试结果列为Benjamini和Hochberg虚假发现率(FDR(B&H),它是比控制错误(不正确的拒绝)的“发现”(被拒绝的无效假设)的预期比例的t-测试p-值更为严格的测试,(Benjamini和Hochberg,1995年)。来自输入的基因指定注释中模型基因的数量;
[0079] 注释中的基因指定映射到表征/相互作用的数据库基因的数量。
[0080] 一旦疾病相互作用网络模型得到验证,就用烟草烟雾过滤对关联性的每个表征。这是以与图7A和7B中所示的对于经由数据挖掘识别出的表征基因集的方式类似的方式进行的。具体而言,识别在给定的疾病相互作用网络模型和TS模型二者中都存在的那些基因。
所得到的基因集包括与疾病和肺中的烟草烟雾二者都相关联的基因。一旦被过滤,就对每个条件基因集进行排名。
[0081] 对候选生物标记送行排名
[0082] 使用逐步处理为候选生物标记提供置信度得分。排名1候选生物标记(即,最高置信度的候选)是被一个或多个治疗专家独立推荐作为所建模的相互作用网络的“生物标记”的那些基因或蛋白质。排名2候选生物标记(即,较低置信度的候选)是通过数据挖掘和相互作用网络模型的组成部分识别出的那些基因或蛋白质,例如,特定于所表征的疾病和烟草烟雾二者并经由MEDLINE数据(图7A和7B)挖掘被识别出并位于相互作用网络模型中的基因或蛋白质。排名3候选生物标记(即,最低置信度的候选)是非排名1且非排名2的基因或蛋白质,例如经由基于三元组的建模所获得的附加基因或蛋白质(图4)。
[0083] 候选生物标记识别
[0084] 将所构造的相互作用网络模型中的所有基因/蛋白质节点映射到其对应的Entrez基因ID,并用于识别Covance转化生物标记解决方案(TBS)组中现有的、经过验证的测定。由于TBS既提供可溶性生物标记又提供流式细胞术测定,因此对每种条件可用的测试的数量被相应地细分。图8示出了对每个条件可用的、经过验证的TBS测定的细分800。较暗的阴影区域805识别用于可溶性测定的独特分析物的数量;并且浅阴影区域810识别用于流式细胞术测定的独特分析物的数量。具有可溶和流式细胞术测试两者的分析物的数量被圈起来并显示在重叠的阴影区域815中,并且在所有条件下都相同(干扰素γ(IFNG)、白介素2(IL2)、肿瘤坏死因子(TNF)和白介素4(IL4)(COPD和LC))。要注意的是,在TBS测试目录中,总共只有11种分析物在可溶性和流式之间共享。每个区域上方示出了测试的总数和独特数量。两个测试计数的原因是许多分析物可以被多个测试测定。
[0085] 潜在生物标记识别
[0086] 没有映射到现有TBS测定的每个所得到的基因关联可以被视为可能需要进行测定开发的潜在生物标记。它们是经由MEDLINE数据挖掘识别出的与疾病表征和烟草烟雾二者都相关联的基因,并且是相互作用网络模型的组成部分。潜在的生物标记应当被TBS科学家针对上下文和实用性二者进行审查。在图9中,维恩图900示出了用于潜在生物标记的表征基因集之间的逻辑关系。这些是经由MEDLINE数据挖掘识别出的没有映射到可用的TBS测试的基因。
[0087] 示例2:
[0088] 以下示例的目的是执行数据挖掘和表征建模,以便识别:(1)与肾脏纤维化相关联的基因;(2)具有现有测定的候选生物标记;以及(3)与肾脏纤维化相关联的潜在生物标记,用于测定开发(即,当前未提供的测定)。
[0089] 相关性标准
[0090] 该方法尝试使用web服务器查找查询项、关联词和数据库项,以识别和枚举R1、R2、R3和R4语句(R表示相关性)。R4语句被定义为仅包含数据库项之一并且仅用于统计归一化的语句。R3语句被定义为具有数据库项之一以及查询项的语句。R2语句被定义为具有数据库项之一、查询项之一以及至少一个关联词的语句。R1语句的定义与R2语句相同,但另外R1语句必须通过模式识别标准。模式识别系统是基于规则的并且通常被用于提取蛋白质-蛋白质相互作用。总体而言,用于R1、R2、R3和R4语句计数的z得分被用于生成相关性指数(RI)得分。为了生成RI得分和计算Z得分,RI语句被给予值50,R2语句=25,R3语句=5,R4语句=1。RI得分是R1、R2、R3和R4语句的总和。
[0091] 数据挖掘参数
[0092] 最初,针对基因-疾病或基因-项关联对MEDLINE(数据库=PubMed)进行数据挖掘。具体而言,研究了疾病,肾脏或肾脏纤维化。所有疾病表征查询都包括过滤词:不存在(absence);活动(activity);更改(alter);更改的(altered);正更改(altering);更改(alters);多个抗体(antibodies);抗体(antibody);抗原(antigen);多个抗原(antigens);关联的(associated);关联(association);常染色体(autosomal);生物标记(biomarker);多个生物标记(biomarkers);造成(cause);造成的(caused);造成(causes);
正造成(causing);拒绝(decline);拒绝的(declined);不足(deficiency);不足的(deficient);删除的(deleted);诊断的(diagnosed);诊断(diagnosis);主导的(dominant);提升(elevate);提升的(elevated);酶(enzyme);表达的(expressed);表达(expression);基因(gene);多个基因(genes);涉及(involve);涉及的(involved);正涉及(involving);正缺乏(lacking);导致(lead);正导致(leading);导致(leads);导致了(led);链接(linkage);链接的(linked);轨迹(locus);标记(marker);多个标记(markers);mRNA;多个mRNA;突变的(mutated);突变(mutation);多个突变(mutations);观察(observe);观察的(observed);观察(observes);正观察(observing);多态
(polymorphic);多态性(polymorphism);多态性(polymorphisms);产生(produce);产生的(produced);产生(produces);产生(production);蛋白质(protein);多个蛋白质(proteins);隐性(recessive);规章(regulation);有关(relate);有关于(relates);有关(relating);角色(role);多个角色(roles);SNP;多个SNP。此外,文本词语查询还包括以下过滤词:基因(gene);多个基因(genes);蛋白质(protein);多个蛋白质(proteins)。为确保是当前且相关的结果,并且为了优化数据挖掘时间,所有查询均限于过去5年,并具有5000个摘要的限制。该结果从PubMed中与肾脏或肾脏纤维化相关的同行评审发布的文献中识别出基因/蛋白质。此后,使用文本模式识别来最终计算R1、R2、R3和R4语句计数的z得分,并生成RI得分以测量每个识别出的基因/蛋白质的关联的强度。
[0093] 数据挖掘结果
[0094] 清洁并组织用于肾脏纤维化的识别出的基因/蛋白质的所得到的数据集。具体而言,使用疾病相关基因符号映射(DAGR,Disease Associated Gene symbol mappeR)将基因名称映射到Entrez基因ID和基因符号,DAGR是被涉及为将基因符号快速映射到Entrez基因ID的自定义应用。对那些未能通过DAGR映射的关联性执行手动组织。通过开发数百个不同的模型,基于经验分配RI得分阈值。目标是使用40-60个高得分基因/蛋白质关联作为种子来构造表征模型。具体而言,从数据挖掘中识别出了57个高度相关的基因/蛋白质。
[0095] 疾病相互作用网络模型构造
[0096] 构造基于已发布的同行评审研究的疾病模型(例如,基因/蛋白质-基因/蛋白质相互作用网络),以使用用于下一代测序、变异体、CNV、微阵列、代谢、SAGE、蛋白质组学、siRNA、microRNA和筛选数据的集成软件套件来模拟疾病生物学。这个步骤包括使用计算每个方向上的初始对象对之间的最短路径(即,具有尽可能少的定向单步相互作用的数量)的算法,例如使用标准Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)。所得到的输出是用于与肾脏纤维化相关联的每个基因集的单个相互作用网络。该相互作用网络模型是特定于组织/器官生成的:模型是使用肾脏中的分子和/或关系来构造的。
[0097] 该模型包括基因/蛋白质以及它们之间的相互作用。这些基因/蛋白质既包括最初的对象或“种子”(即,从数据挖掘中识别出的57个高度相关的基因/蛋白质,使用基于组织/器官的建模方法将这57个高度相关的基因/蛋白质最终限制为26个基因/蛋白质)和仅通过模型识别的54个次级基因/蛋白质(例如,参见来自图10中所示的挖掘和建模的数据的维恩图)。此外,通过已发布的同行评审研究而已知与肾脏纤维化有关的两个潜在的候选测试/生物标记,不是基因/蛋白质,而是化学物质或小分子(皮质固酮[皮质酮是盐皮质激素醛固酮的先驱分子,是体内钠和水平的体内稳态调节剂之一])也被包括在模型中。
[0098] 表征建模对具体组织/器官中与所研究的表征直接相关联的基因周围的蛋白质-蛋白质-化学物质(小分子)相互作用的“邻域”进行模拟。如本文所讨论的,该模型是使用Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)通过算法开发的。该处理如下运行:种子对经由与两个种子都发生物理相互作用的特定于组织的基因/蛋白质或化学物质来链接。相互作用是基于同行评审的研究数据,并指定了方向、机制和效果。这些“三元组”针对不同的基因集被反复构造,然后基于与其它三元组的重叠而被拼凑在一起。如图11中所示(来自数据挖掘的26个基因/蛋白质中的前10个被突出显示),没有建立连接的单个的节点以及小的碎片网络被丢弃,并保留单个大型的多节点网络。这个大型的多节点网络是模拟疾病生物学的疾病相互作用网络模型,因为它基于数十年的研究数据中积累的综合生物医学知识。
[0099] 模型验证
[0100] 表征建模是包括验证以确保建模准确地模拟疾病生物学的迭代式处理。采用统计方法来验证模型并核实来自模型的基因在独立的第三方数据源中的富集。独立的第三方数据源集成了来自各种专家组织的数据库的人类基因疾病关联以及由文本挖掘衍生的关联,包括孟德尔(Mendelian)、复杂和环境疾病。该集成是借助于基因和疾病词汇映射以及通过使用独立的第三方数据源关联类型本体来执行的。所使用的测试是富集分析,以评估数据集是否示出某些生物学特点的明显过量表达。如图12中所示,表征模型准确地捕获许多已知的生物通路,包括肾素-血管紧张素-醛固酮系统和上皮细胞中的醛固酮信令这些组成部分,这指示出在表征建模中包括化学物质或小分子皮质酮和醛固酮具有的潜在有益效果。
[0101] 对候选生物标记进行排名
[0102] 使用逐步处理为候选生物标记提供置信度得分。排名1候选生物标记(即,最高置信度的候选)是被一个或多个治疗专家独立推荐作为所建模的相互作用网络的“生物标记”的那些基因或蛋白质。排名2候选生物标记(即,较低置信度的候选)是通过数据挖掘和相互作用网络模型的组成部分识别出的那些基因或蛋白质,例如,经由MEDLINE数据挖掘识别出并位于相互作用网络模型中的特定于所表征的肾脏纤维化疾病的基因或蛋白质。排名3候选生物标记(即,最低置信度的候选)是非排名1且非排名2的基因或蛋白质,例如经由基于三元组的建模所获得的附加基因或蛋白质(图11)。
[0103] 候选测试/生物标记识别
[0104] 将所构造的相互作用网络模型中的所有基因/蛋白质节点映射到其对应的Entrez基因ID,并用于识别Covance转化生物标记解决方案(TBS)组、Covance中央实验室(CLS)和LabCorp(LCA)中现有的、经过验证的测定。图13示出了这三个组之间可用的测试的数量。图14示出了在三个组之间测试的识别出的生物标记的数量,并为每个生物标记指派所确定的置信度排名。要注意的是,图14没有示出皮质酮和醛固酮;但是,LCA和CLS可以同时测试这两者。
[0105] 潜在生物标记识别
[0106] 没有映射到现有测定的每个所得到的基因关联可以被视为可能需要进行测定开发的潜在生物标记。它们是经由MEDLINE数据挖掘识别出的与肾脏纤维化相关联的基因。潜在的生物标记应当被本领域专家或科学家针对上下文和实用性二者进行审查。
[0107] 虽然已经详细描述了本发明,但是对本领域技术人员而言,在本发明的精神和范围内的修改将是清楚的。应当理解的是,本发明的各方面以及上面和/或所附权利要求书中阐述的各种实施例和各种特征的部分可以全部或部分地组合或互换。在各个实施例的前述描述中,如本领域技术人员将认识到的,可以将参考另一个实施例的那些实施例与其它实施例适当地组合。此外,本领域技术人员将认识到的是,前述描述仅是示例性的,并且无意于限制本发明。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈