首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 与基于网络的生物标记签名相关的系统和方法

与基于网络的生物标记签名相关的系统和方法

阅读:1017发布:2020-11-03

专利汇可以提供与基于网络的生物标记签名相关的系统和方法专利检索,专利查询,专利分析的服务。并且本文中提供了用于产生用于表型预测的分类器的系统和方法。表示 生物 系统的计算因果网络模型包括多个 节点 和连接节点对的多个边。接收与第一生物实体子集在第一组条件下获得的活动相应的第一数据集合,并且接收与第一生物实体子集在第二组条件下获得的活动相应的第二数据集合。计算 活动度 量集合,该活动度量集合表示关于第一节点子集的第一数据集合和第二数据集合之间的差别。产生未被测量的第二节点子集的活动值集合。基于活动度量集合、活动值集合或这两者产生用于表型的分类器。,下面是与基于网络的生物标记签名相关的系统和方法专利的具体信息内容。

1.一种用于产生用于表型预测的分类器的计算机化方法,包括以下步骤:
(a)在处理装置处接收指示计算因果网络模型的数据,其中该数据表示促成表型的生物系统,并且该数据包括:
多个节点,表示所述生物系统中的生物实体;和
多个边,连接所述多个节点中的节点对,并且表示由节点表示的生物实体之间的关系;
其中,一个或多个边与方向值相关联,所述方向值表示由节点表示的生物实体之间的因果激活关系或因果抑制关系,并且其中每个节点通过边连接到至少一个其他节点;
(b)在所述处理装置处接收(i)与第一生物实体子集的在第一组条件下获得的活动相应的第一数据集合、以及(ii)与第一生物实体子集的在不同于第一组条件的第二组条件下获得的活动相应的第二数据集合,其中,所述第一组条件和所述第二组条件与所述表型相关;
(c)用所述处理装置计算与所述第一生物实体子集相应的第一节点子集的活动度量集合,每个活动度量表示来自b(i)的第一组条件下的第一度量与来自b(ii)的第二组条件下的第二度量之间的差别;
(d)通过对于第二节点子集中的每个特定节点,识别使差别声明最优化的活动值,用所述处理装置产生所述第二节点子集的推断的活动值集合,所述第二节点子集表示促成所述表型的、但是其活动在步骤(c)未被测量的生物实体候选,所述差别声明表示所述特定节点的活动值与在所述计算因果网络模型内所述特定节点通过边连接的节点的活动值或活动度量之间的差别,其中,所述差别声明取决于所述第二节点子集中的每个节点的活动值;和(e)用所述处理装置使用机器学习技术、使用所述活动度量集合和所述活动值集合两者作为输入来产生用于所述表型的分类器。
2.根据权利要求1所述的计算机化方法,其中,在步骤(e)产生用于所述表型的分类器包括:
(e1)产生作用于包括所述第一生物实体子集的活动度量的第一矢量以产生包括所述第二节点子集的活动值的第二矢量的算子;
(e2)使用所述算子识别要被用作机器学习技术中的内核的所述第二节点子集的子集;

(e3)将所识别的子集作为输入提供给所述机器学习技术。
3.根据权利要求1-2中的任何一个所述的计算机化方法,其中,对于多个计算因果网络模型执行步骤(a)、(b)、(c)和(d),并且将与每个计算因果网络模型相应的活动值集合聚集成包含要在步骤(e)由机器学习技术使用的活动值集合的矩阵。
4.根据权利要求3所述的计算机化方法,其中,对于多个计算因果网络模型执行步骤(a)、(b)、(c)、(d)和(e),并且还包括:
(h1)对于每个分类器,跨多个计算因果网络模型识别第二生物实体集合的具有高于阈值的分类性能统计数据的一个或多个生物实体;和
(h2)将所识别的所有生物实体聚集成高性能实体集合;
(h3)用所述处理装置使用机器学习技术、基于与所述高性能实体集合相关联的活动值来产生生物状况的新的分类器;和
(h4)输出所述新的分类器。
5.根据权利要求1所述的计算机化方法,其中,所述机器学习技术包括支持矢量机技术。
6.根据权利要求1所述的计算机化方法,其中,所述差别声明还取决于所述第二节点子集中的每个节点和第二节点子集中的每个节点所连接到的节点之间的边的方向值。
7.根据权利要求1所述的计算机化方法,其中,所述活动值集合中的每个活动值是所述活动度量集合中的活动度量的线性组合。
8.根据权利要求7所述的计算机化方法,其中,所述线性组合取决于所述第一节点子集中的节点与所述第二节点子集中的节点之间的边,并且还取决于所述第二节点子集中的节点之间的边。
9.根据权利要求7所述的计算机化方法,其中,所述线性组合不取决于所述第一节点子集中的节点之间的边。
10.根据权利要求1所述的计算机化方法,还包括通过形成对于在计算因果网络内第二节点子集中的每个特定节点通过边连接的节点的活动度量的变化估计的线性组合来提供对于第二节点子集的所述活动值集合的每个活动值的变化估计,并且其中产生分类器包括使用对于活动度量的变化估计和活动值的变化估计作为到机器学习技术中的附加输入。
11.根据权利要求1所述的计算机化方法,其中,步骤(c)的活动度量是倍数变化值,并且第一节点子集中的每个节点的倍数变化值表示各个节点所表示的生物实体的相应的处置数据集合之间的差别的对数。
12.根据权利要求1所述的计算机化方法,其中,所述第一生物实体子集包括基因集合,所述第一数据集合包括所述基因集合的表达平。
13.根据权利要求1所述的计算机化方法,其中,使差别声明最优化是使差别声明最大化、最小化或者使差别声明尽可能接近目标值。
14.一种存储计算机可读指令的计算机可读存储介质,所述计算机可读指令在包括至少一个处理器的计算机化系统中执行时使所述处理器执行根据权利要求1-13中的任何一个所述的方法的一个或多个步骤。
15.一种包括配置有非暂态计算机可读指令的处理装置的计算机化系统,所述非暂态计算机可读指令在被执行时使所述处理装置执行根据权利要求1-13中的任何一个所述的方法。

说明书全文

与基于网络的生物标记签名相关的系统和方法

[0001] 相关申请的引用
[0002] 本申请依据35U.S.C.§119要求于2012年6月21日提交的标题为“Systems and Methods Relating to Network-Based Biomarker Signatures”的美国临时专利申请No.61/662,806和于2012年7月16日提交的标题为“Systems and Methods Relating to Network-Based Biomarker Signatures”的美国临时专利申请No.61/671,954的优先权,以上每篇申请的全部内容并入本文。

背景技术

[0003] 在过去的十年中,与传统的剂量相关的疗效和毒性测定相结合的对于核酸、蛋白质代谢物平的高吞吐量测量已经作为用于阐明许多生物过程的作用机制的手段出现。研究者试图将来自这些迥然不同的测量的信息与来自科学文献的关于生物路径的知识组合以组装有意义的生物模型。为此,研究者已经开始使用可以挖掘大量数据的数学和计算技术(诸如聚类和统计方法)来识别可能的生物作用机制。
[0004] 由于典型的基因表达数据中的信噪比很高、个体之间的基因型可变性、以及通常测量的基因的数量相对于患者的数量而言很多,找到对于诊断工具足够可靠的基因签名是非常具有挑战性的。以前的工作探讨了以下步骤的重要性:揭示由对于生物过程的一个或多个扰动而造成的基因表达变化的特征签名,随后作为对该过程的特定活动振幅的度量、对该签名在附加的数据集合中的存在进行评分。关于这方面的大多数工作涉及识别与疾病表型相关的签名并且对这些签名进行评分。这些表型推导的签名提供重要的分类能,但是缺乏单个特定扰动与签名之间的机械或因果关系。因此,这些签名可以表示多个截然不同的未知的扰动,这些未知的扰动通过通常未知的机制(一种或多种)导致相同的疾病表型或者由相同的疾病表型而造成。
[0005] 一个挑战在于理解生物系统中的各种单个的生物实体的活动如何使得能够激活或抑制不同的生物机制。因为单个的实体(诸如基因)可能涉及多个生物过程(例如,炎症细胞增殖),所以对基因的活动的测量不足以识别触发该活动的基础生物过程。
[0006] 当前技术均尚未应用于在微观尺度上识别负责生物实体的活动的基础机制,也尚未提供对不同的生物机制的激活的定量评定,在所述不同的生物机制中,这些实体在对潜在有害的动因(agent)和实验条件作出响应时起作用。因此,需要改进的用于考虑到生物机制来对全系统生物数据进行分析并且当系统对动因或环境变化做出响应时量化生物系统中的变化的系统和方法。发明内容
[0007] 本文中描述了用于识别生物实体(例如,基因和蛋白质)以及它们的表示感兴趣表型的性质的系统、计算机程序产品和方法。所述系统、计算机程序产品和方法是基于多个生物实体的被测活动和促成感兴趣表型的生物系统的网络模型,该网络模型描述该生物系统中的各个生物实体之间的关系。这些基于网络的方法利用因果生物网络模型,除了其他数据源之外,这些因果生物网络模型表示研究文献和所发布的数据集合中所识别的“原因与结果”机制的知识。例如,在一些因果生物网络模型中,基因转录中的变化被建模为该模型中所表示的其他生物过程的结果。在一些实现方式中,生物系统的网络模型使用生物表达语言(“BEL”)来进行描述,BEL是由萨诸塞州的剑桥的Selventa开发的用于生物网络表示的开源框架。本文中所描述的基于网络的方法使用高吞吐量数据集合和因果生物网络模型来定量地评估样本(例如,患者)内的生物网络的扰动。在一些实现方式中,该评估包括将所述网络内的生物实体的被观测的活动度量(例如,基因的表达水平)转换为关于所述网络内的其他生物实体的推断活动值。所述网络中的生物实体的所测量的和所推断的活动然后可以用于表示生物事件或机制与在细胞、组织或器官水平上观察到的表型的相关性。活动和它们的附随统计数据提供生物网络的与感兴趣表型相关的变化或扰动程度的可量化度量,并且指示所述网络中的生物实体的性质的变化如何传播通过网络拓扑结构。后者可以帮助构建实现比已知的分类器更高精度的知识驱动的分类器,从而提供对感兴趣生物现象的更好概括。如本文中所使用的,活动值可以用于从生物实体列表识别可以用作生物签名的实体子集,该生物签名在生物学上是有意义的而且是可解释的,并且在其用作诊断或预报工具时是鲁棒的而且高效率的。
[0008] 在一些方面,本文中提供了用于对处置数据进行处理以识别表示感兴趣表型的生物实体的计算机化方法和系统。处理装置提供表示促成表型的生物系统的计算因果网络模型。计算因果网络模型包括表示生物系统中的生物实体的多个节点。例如,节点可以对应于化合物、DNA、RNA、蛋白质、肽、抗体、细胞、组织或器官。网络模型还包括多个边,这些边连接所述多个节点之中的节点对,并且表示这些节点所表示的生物实体之间的关系。例如,边可以表示“绑定到”关系、“用…表达”关系、“基于表达谱共同调控”关系、“禁止”关系、“在手稿中共同出现”关系、或“共享结构元素”关系。在计算因果网络模型中,一个或多个边与方向值相关联,该方向值表示节点所表示的生物实体之间的因果激活关系或因果抑制关系,并且每个节点通过边连接到至少一个其他节点。
[0009] 所述处理装置接收(i)与第一生物实体子集的在第一组条件下获得的活动相应的第一数据集合、以及(ii)与第一生物实体子集的在不同于第一组条件的第二组条件下获得的活动相应的第二数据集合。例如,第一组和第二组条件可以分别对应于处置和控制数据,并且活动度量包括倍数变化,该倍数变化是描述节点测量在控制数据与处置数据之间从初始值到最终值变化了多少的数量。第一组和第二组条件与表型相关。所述处理装置还计算对于与第一生物实体子集相应的第一节点子集的活动度量集合,所述活动度量表示第一数据集合与第二数据集合之间的差别。活动度量可以包括由节点所表示的生物实体的处置和控制数据之间的差别的倍数变化或对数。
[0010] 所述处理装置基于计算因果网络模型和活动度量集合来产生第二节点子集的活动值集合,第二节点子集表示促成表型的、但是其活动未被测量的生物实体候选。第二节点子集对应于骨干实体,因为这些节点不被直接测量。相反,第二节点子集的活动值是从第一活动值集合和计算网络模型推断的。所述处理装置还使用机器学习技术来基于活动值集合、活动度量集合或这两者产生用于表型的分类器。
[0011] 在上述方法的某些实施例中,产生分类器的步骤包括:产生将关于第一生物实体子集的活动度量的信息转换为关于第二节点子集的活动值的信息的算子;使用该算子识别第二节点子集的子集;并且将所识别的子集作为输入提供给机器学习技术。所述算子对应于骨干算子,该骨干算子作用于支持节点集合(即,第一生物实体子集)的活动度量的矢量上,并且提供骨干节点集合(即,第二节点子集)的活动值的矢量。此外,多个骨干算子可以经由加权平均值或非线性函数组合。例如,多个骨干算子可以经由内核对准技术组合,并且骨干算子可以使用一个或多个扰动测试的显著性值来聚集。
[0012] 在上述方法的某些实施例中,对于多个计算因果网络模型执行活动度量集合的计算步骤和活动值集合的产生步骤。所得的与每个计算因果网络模型相应的多个活动值集合聚集成在产生分类器的步骤使用的活动值集合。在上述方法的某些实施例中,对于多个计算因果网络模型执行活动度量集合的计算步骤、活动值集合的产生步骤以及分类器的产生步骤。所述方法还包括:对于每个分类器,识别第二生物实体集合的具有高于阈值的分类性能统计数据的一个或多个生物实体;并且将所识别的所有生物实体聚集成高性能实体集合。所述处理装置使用机器学习技术、基于与高性能实体集合相关联的活动值来产生生物状况的新的分类器,并且输出该新的分类器。高性能实体可以对应于跨多个网络模型的骨干节点的聚集集合,该聚集集合中的每个骨干节点与高于阈值的值相关联。
[0013] 在上述方法的某些实施例中,机器学习技术包括支持矢量机技术。在上述方法的某些实施例中,活动值集合的产生步骤包括对于第二节点子集中的每个特定节点,识别使差别声明最小化的活动值。差别声明表示所述特定节点的活动值与计算因果网络模型内的所述特定节点通过边连接的节点的活动值或活动度量之间的差别,并且差别声明取决于第二节点子集中的每个节点的活动值。在上述方法的某些实施例中,差别声明还取决于第二节点子集中的每个节点的方向值。差别声明可以对应于表示特定生物实体的活动度量或活动值与该特定生物实体连接的生物实体的活动度量或活动值之间的差别的表达或可执行声明。具体地讲,差别声明表示网络模型中的特定节点的活动度量或值与该特定节点经由边连接的节点的活动度量或值之间的差别。
[0014] 在上述方法的某些实施例中,活动值集合中的每个活动值是活动度量集合中的活动度量的线性组合。在上述方法的某些实施例中,所述线性组合取决于第一节点子集中的节点与第二节点子集中的节点之间的边,并且还取决于第二节点子集中的节点之间的边。在上述方法的某些实施例中,所述线性组合不取决于第一节点子集中的节点之间的边。在上述方法的某些实施例中,所述方法还包括通过形成对于活动度量集合的每个活动度量的变化估计的线性组合来提供对于活动值集合的每个活动值的变化估计。在上述方法的某些实施例中,计算步骤的活动度量是倍数变化值,并且用于每个节点的倍数变化值表示用于各个节点所表示的生物实体的相应的处置数据集合之间的差别的对数。在上述方法的某些实施例中,第一生物实体子集包括基因集合,第一数据集合包括该基因集合的表达水平。
[0015] 本文中所描述的计算程序产品和计算机化方法可以在具有一个或多个计算装置的计算机化系统中实现,其中每个计算装置包括一个或多个处理器。总的来说,本文中所描述的计算机化系统可以包括一个或多个引擎,这些引擎包括一个或多个处理装置,诸如用硬件固件软件配置为执行本文中所描述的计算机化方法中的一种或多种的计算机、微处理器、逻辑装置或者其他装置或处理器。这些引擎中的任何一个或多个可以与任何一个或多个其他引擎物理分离,或者可以包括多个可物理分离的组件,诸如共用的或不同的电路板上的单独的处理器。本发明的计算机系统包括用于实现如上所述的方法及其各种实施例的部件。在某些实现中,所述计算机化系统包括系统响应简档引擎、网络建模引擎和网络评分引擎。这些引擎可以时时地互连,并且进一步时时地连接到一个或多个数据库,包括扰动数据库、可测量数据库、实验数据数据库和文献数据库。本文中所描述的计算机化系统可以包括具有通过网络接口进行通信的一个或多个处理器和引擎的分布式计算机化系统。这样的实现方式可能适合于通过多个通信系统的分布式计算。附图说明
[0016] 当考虑结合附图进行的以下详细描述时,本公开的进一步的特征、其性质和各种优点将是清楚的,在附图中,相似的标号始终指的是相似的部分,其中:
[0017] 图1是用于量化生物网络对于扰动的响应的例示性计算机化系统的框图
[0018] 图2是用于基于量化一个或多个相关的生物网络对于扰动的响应产生基因签名的例示性过程的流程图
[0019] 图3是构成系统响应简档的基础的数据的图形表示,该系统响应简档包括关于两种动因、两个参数和N个生物实体的数据。
[0020] 图4是具有几个生物实体(节点)和它们的关系(有方向性的而且有符号的边)的生物网络的计算模型的例示。
[0021] 图5是用于通过计算网络扰动振幅(NPA)来量化生物系统的扰动的例示性过程的流程图。
[0022] 图6是用于产生节点集合的活动值的例示性过程的流程图。
[0023] 图7是用于识别主导骨干和基因节点的例示性过程的流程图。
[0024] 图8是用于对骨干节点活动值进行分类的例示性过程的流程图。
[0025] 图9是用于从用于识别用于生物标记的实体的多个网络识别特征空间的例示性过程的流程图。
[0026] 图10是用于从用于识别用于生物标记的实体的多个分类器识别特征空间的例示性过程的流程图。
[0027] 图11是用于基于F统计识别分类系统中所使用的骨干节点的例示性过程的流程图。
[0028] 图12是用于从骨干节点活动值产生整体预测器的例示性过程的流程图。
[0029] 图13是用于基于p值识别分类系统中所使用的骨干节点的例示性过程的流程图。
[0030] 图14是用于量化生物扰动的影响的示例性分布式计算机化系统的框图。
[0031] 图15是可以用于实现本文中所描述的任意计算机化系统中的任意组件的示例性计算装置的框图。
[0032] 图16例示具有骨干节点和支持节点的因果生物网络模型。
[0033] 图17例示图7和图8的主导节点识别技术。
[0034] 图18例示图9和图10的多网络特征空间识别技术。
[0035] 图19是描绘使用TNF IL1-NFKB网络模型的各种处置/控制条件的NPA得分的图。
[0036] 图20例示关于TNF IL1-NFKB网络模型的主导骨干节点列表。

具体实施方式

[0037] 本文中描述了定量地评定当生物系统被动因扰动时该生物系统内的变化幅度的计算系统和方法。某些实现包括用于计算表达生物系统的一部分内的变化幅度的数值的方法。该计算使用从受控实验或临床数据集合获得的数据集合作为输入,在这些受控实验或临床数据中,生物系统被动因扰动。所述数据然后应用于生物系统的特征的网络模型。该网络模型用作仿真和分析的基体,并且表示启用生物系统中的感兴趣特征的生物机制和路径。该特征或者其机制和路径中的一些可以促成疾病的病理和对生物系统的不利影响。数据库中所表示的生物系统的先验知识用于构造网络模型,该网络模型由与许多生物实体在各种状况下(包括在正常状况下、疾病状况下或者在动因的扰动下)的状态有关的数据填充。所使用的网络模型是因果生物网络模型,并且是动态的,因为它表示构成疾病的基础的或者对扰动做出响应的各种生物实体的状态的变化,并且可以产生对与疾病相关联的变化或者动因对生物系统的影响的定量的客观评定,包括对从所测量的基因表达水平“上游”的生物实体的行为的预测。还提供了用于执行这些计算方法的计算机系统。
[0038] 通过本发明的计算机化方法产生的数值可以用于确定与疾病或者其症状相关联的期望的或不利的生物效应的幅度,除了其他方面之外,这些生物效应是由制造的产品引起的(用于安全评定或比较),是由包括营养补充品的治疗性化合物引起的(用于确定疗效或健康益处),是由在环境中活动的物质引起的(用于预测长期暴露的险以及与不利影响和疾病发作的关系)。这些数值还可以用于基于临床数据预测患者的表型性质(例如,预测患者是否将对药物有响应)。
[0039] 在一个方面,本文中所描述的系统和方法提供基于受扰动生物机制的网络模型来表示受扰动生物系统中的变化幅度的计算数值。在本文中被称为网络扰动振幅(NPA)得分的数值可以用于概括地表示各种实体在所定义的生物机制中的状态变化。针对不同动因或不同类型的扰动获得的数值可以用于相对地比较与疾病的发作或发展相关联的不同动因或各种扰动对本身能够实现或表现为生物系统的特征的生物机制的影响。因此,NPA得分可以用于测量生物机制对于不同扰动的响应。术语“得分”在本文中一般用于指的是提供生物系统中的变化幅度的定量度量的值或值集合。这样的得分通过使用本领域中已知的各种数学和计算算法中的任何一个以及根据本文中所描述的方法、利用从样本或对象获得的一个或多个数据集合来计算。
[0040] NPA得分可以帮助研究者和临床医生改进诊断、实验设计、治疗决策和风险评定。例如,NPA得分可以用于筛选毒性分析中的候选生物机制集合以识别最有可能受到暴露于潜在有害的动因的影响的那些生物机制。通过提供对于扰动的网络响应的度量,这些NPA得分可以使得分子事件(通过实验数据测量)与在细胞、组织、器官或有机体水平上出现的表型或生物结果相关。临床医生可以使用NPA值来将受到动因影响的生物机制与患者的生理状况进行比较以确定患者在暴露于动因时最有可能经历什么健康风险或益处(例如,免疫受损的患者可能尤其易于受到引起强烈的免疫抑制响应的动因的侵害)。
[0041] 图1是用于量化网络模型对于扰动的响应的计算机化系统100的框图。具体地讲,系统100包括系统响应简档引擎110、网络建模引擎112和网络评分引擎114。引擎110、112和114时而互连,并且进一步时而连接到一个或多个数据库,包括扰动数据库102、可测量数据库104、实验数据数据库106和文献数据库108。如本文中所使用的,引擎包括一个或多个处理装置,诸如参照图11所描述的用硬件、固件和软件配置以执行一个或多个计算操作的计算机、微处理器、逻辑装置或者其他的一个或多个装置。
[0042] 图2是根据一种实现方式的用于产生网络签名或基因签名的过程200的流程图,该过程200是基于通过计算网络扰动振幅(NPA)得分对生物网络对于扰动的响应进行量化。过程200的步骤将被描述为由图1的系统100的各个组件执行,但是这些步骤中的任何一个可以由任何合适的本地的或远程的硬件或软件组件执行,并且可以按任何适当的次序布置或者并行地执行。在步骤210,系统响应简档(SRP)引擎110从各种不同的源接收生物数据,该数据本身可以是各种不同类型。该数据包括临床数据、流行病学数据和来自其中生物系统被扰动的实验的数据、以及控制数据。在步骤212,SRP引擎110产生系统响应简档(SRP),这些SRP是与疾病相关联的已知的或未被识别的病理变化的表示、或者生物系统内的一个或多个实体在对动因呈现于生物系统做出响应时的变化程度的表示。在步骤214,网络建模引擎112提供包含多个网络模型的一个或多个数据库,所述多个网络模型之一被选择为与感兴趣的疾病、动因或特征相关。该选择可以基于构成系统的生物机能的基础的机制的先验知识来进行。在某些实现中,网络建模引擎112可以使用系统响应简档、数据库中的网络和以前在文献中描述的网络来提取系统内的实体之间的因果关系,从而产生、改善或扩展网络模型。在步骤216,网络评分引擎114使用在步骤214由网络建模引擎112识别的网络和在步骤212由SRP引擎110产生的SRP来对每个扰动产生NPA得分。NPA得分在生物实体之间的基础关系(用网络表示)的上下文中,对针对扰动或处置的生物响应(用SRP表示)进行量化。为了公开清晰,而不是作为限制,以下描述划分为小部分。
[0043] 本发明的上下文中的生物系统是包括机能部分的有机体或有机体的一部分,该有机体在本文中被称为对象。该对象通常是哺乳动物,包括人类。该对象可以是人类种群中的个体人。本文中所使用的术语“哺乳动物”包括,但不限于,人类、非人灵长类、小老鼠、大老鼠、狗、猫、、羊、马和猪。除了人类之外的哺乳动物可以有利地用作可以用于提供人类疾病的模型的对象。非人对象可以是未经改性的或者基因改性的动物(例如,转基因动物、或携带一个或多个基因突变或沉默基因的动物)。对象可以是雄性的或雌性的。根据操作的目的,对象可以是暴露于感兴趣动因的一个对象。对象可以是在延长时间段(可选地,包括研究之前的时间)暴露于动因的一个对象。对象可以是在一时间段内暴露于动因、但是不再与该动因接触的一个对象。对象可以是被诊断或识别为患病的一个对象。对象可以是已经进行了或者正在进行疾病处置或者已经经历了或者正在经历不利的健康状况的一个对象。对象还可以是表现出关于特定健康状况或疾病的一个或多个症状或风险因素的一个对象。对象可以是易患病的一个对象,并且可以是有症状的或无症状的。在某些实现方式中,所讨论的疾病或健康状况与在延长时间段暴露于动因或使用动因相关联。根据一些实现方式,系统100(图1)包含或产生一个或多个生物系统及其机能的机制的计算机化模型(统称为“生物网络”或“网络模型”),这些计算机化模型与某种类型的扰动或感兴趣的效果相关。
[0044] 根据操作的上下文,生物系统可以在不同水平上定义,根据生物系统是涉及种群中的个体有机体、一般的有机体、器官、组织、细胞类型、细胞器官、细胞组分、或特定个体的细胞(一个或多个)的机能。每个生物系统包括一个或多个生物机制或路径,这些生物机制或路径的操作表现为该系统的机能特征。再现人类健康状况的定义的特征并且适合于暴露于感兴趣动因的动物系统是优选的生物系统。反映疾病病因学或病理学中所涉及的细胞类型和组织的细胞型和器官型系统也是优选的生物系统。可以优先考虑尽可能多地概括体内人类生物学的主要细胞或器官培养。使体内人类细胞培养与从体内动物模型推导的最等同培养匹配也是重要的。这使得能够通过使用匹配的体内系统作为参考系统来创建从动物模型到体内人类生物学的转化连续。因此,设想与本文中所描述的系统和方法一起使用的生物系统可以由下列方面定义,但不限于:机能特征(生物机能、生理机能或细胞机能)、细胞器官、细胞类型、组织类型、器官、发展阶段或前述的组合。生物系统的例子包括,但不限于,部系统、皮肤系统、骨骼系统、肌肉系统、神经系统(中枢和外围)、内分泌系统、心血管系统、免疫系统、循环系统、呼吸系统、泌尿系统、肾脏系统、肠胃系统、结肠直肠系统、肝脏系统和生殖系统。生物系统的其他例子包括,但不限于,下列细胞中的各种细胞机能:上皮细胞、神经细胞、血细胞、结缔组织细胞、平滑肌细胞、骨骼肌细胞、脂肪细胞、卵细胞、精细胞、干细胞、肺细胞、脑细胞、心肌细胞、喉细胞、咽细胞、食管细胞、胃细胞、肾脏细胞、肝细胞、乳腺细胞、前列腺细胞、胰脏细胞、胰岛细胞、睾丸细胞、囊细胞、宫颈细胞、子宫细胞、结肠细胞和直肠细胞。这些细胞中的一些可以是在体外培养的或在体内在适当的培养条件下无限期地维持的细胞系的细胞。细胞机能的例子包括,但不限于,细胞增殖(例如,细胞分裂)、退化、再生、衰老、细胞核的细胞活动的控制、细胞间的信令、细胞分化、细胞去分化、分泌、迁移、吞噬、修复、凋亡和发育规划。可以被认为是生物系统的细胞组分的例子包括,但不限于,细胞质、细胞骨架、细胞膜、核糖体、线粒体、细胞核、内质网(ER)、高尔基体、溶酶体、DNA、RNA、蛋白质、肽和抗体。
[0045] 生物系统中的与感兴趣表型相关的变化或扰动可以由疾病引起,或者它可以在一时间段期间通过暴露或与生物系统的一个或多个部分接触由一个或多个动因引起。动因可以是单一物质或物质混合物,包括其中不是所有的成分都被识别或表征的混合物。动因或者其成分的化学和物理性质可能没有被充分表征。一个或多个动因可以是病因。动因可以由其结构、其成分、或在某些条件下生成该动因的来源定义。动因的例子是异质物质和在接触生物系统之后从其生成的任何中间物或代谢物,所述异质物质是不存在于生物系统中的或者不源自生物系统的分子或实体。动因可以是水化合物、蛋白质、脂类、核酸、生物、维生素、金属、重金属、矿物、、离子、酶、激素、神经递质、无机化学化合物、有机化学化合物、环境动因、微生物、粒子、环境条件、环境力或物理力。动因的非限制例子包括,但不限于,营养素、代谢废物、毒物、麻醉药、毒素、治疗性化合物、兴奋剂、弛缓药、天然产物、制造品、食品、病原体(朊病毒、病毒、细菌、真菌原生动物)、其尺寸在微米范围内或以下的粒子或实体、前述的副产品和前述的混合物。物理动因的非限制例子包括辐射电磁波(包括日光)、升温或降温、剪力、流体压力、放电或者其序列、或创伤。
[0046] 与消费品相关的动因的非限制例子可以包括通过加热烟草而产生的气雾剂、通过燃烧烟草而产生的气雾剂、烟草烟雾、香烟烟雾、以及其气体成分或粒子成分中的任何一种。扰动还可以由阻止或限制动因(如上所述)供给到生物系统的一个或多个部分而引起。例如,扰动可以由营养素、水、碳水化合物、蛋白质、脂类、生物碱、维生素、矿物、氧、离子、酶、激素、神经递质、抗体、细胞因子、光的减少供给或缺乏而引起,或者由限制有机体的某些部分的移动而引起,或者由强迫或需要锻炼而引起。
[0047] 在各种实现方式中,对于基因表达、蛋白质表达或周转、微RNA表达或周转、翻译后修饰、蛋白质修饰、易位、抗体生产代谢物简档、或者前述中的两个或更多个的组合的高吞吐量全系统测量在各种条件(包括各自的控制)下产生。机能效果测量在本文中所描述的方法中是合乎需要的,因为它们通常可以用作用于评定的锚点,并且代表疾病病因学中的清除步骤。
[0048] 作为本文中所使用的术语的“样本”是指与对象或实验系统(例如,细胞、组织、器官或整个动物)隔离的任何生物样本,包括临床数据和流行病学数据。样本可以包括,但不限于,单个细胞或多个细胞、细胞层、组织活检物、切除的组织、组织提取物、组织、组织培养提取物、组织培养介质、呼出的气体、全血、血小板、血清、血浆、红细胞、白细胞、淋巴细胞、中性粒细胞、巨噬细胞、B细胞或者其子集、T细胞或者其子集、造血细胞的子集、内皮细胞、滑液、淋巴液、腹水液、组织间液、骨髓、脑脊液、胸腔积液、肿瘤浸润物、唾液、黏液、痰、精液、汗水、尿、或任何其他体液。样本可以通过下列手段从对象获得,所述手段包括,但不限于,静脉穿刺、排泄、活组织检查、针刺抽吸、灌洗、刮擦、手术切除、或本领域中已知的其他手段。
[0049] 在操作期间,对于给定的生物机制、效果、扰动、疾病或者其症状、或前述的组合,系统100可以产生网络扰动振幅(NPA)值,该值是网络中的生物实体的状态的变化的定量度量。
[0050] 系统100(图1)包括与感兴趣的健康状况、疾病或生物效果相关的一个或多个计算机化网络模型。这些网络模型中的一个或多个是基于先验生物知识,并且可以从外部源上传并且在系统100内进行监管。这些模型还可以重新在系统100内基于测量而产生。可测元件通过使用先验知识而按因果关系整合到生物网络模型中。以下描述下述类型的数据,该数据表示感兴趣生物系统中的可以用于产生或改善网络模型的变化,或者表示对于扰动的响应。
[0051] 参照图2,在步骤210,系统响应简档(SRP)引擎110接收生物数据。SRP引擎110可以从各种不同的源接收该数据,该数据本身可以是各种不同的类型。SRP引擎110所使用的生物数据可以从下列方面取得:文献、数据库(包括来自药用物品或医疗装置的临床前、临床和临床后试验的数据)、基因组数据库(基因序列和表达数据,例如,国家生物技术信息中心的基因表达文库(Gene Expression Omnibus)或欧洲生物信息研究所的ArrayExpress(Parkinson等人,2010,Nucl.Acids Res.,doi:10.1093/nar/gkq1040.Pubmed ID21071405))、市售数据库(例如,Gene Logic、Gaithersburg、MD、USA)、或实验工作。该数据可以包括来自一个或多个不同的来源的原始数据,该来源诸如是使用专设计用于研究特定处置条件或暴露于特定动因的效果的一个或多个物种的体外、离体或体内实验。体外实验系统可以包括表示人类疾病的关键方面的组织培养或器官型培养(三维培养)。在这样的实现方式中,用于这些实验的动因剂量和暴露制度可以基本上反映在正常使用或活动条件期间或者在特殊使用或活动条件期间可以对于人类预期的暴露的范围和环境。实验参数和测试条件可以根据需要被选择为反映动因和暴露条件的性质、所讨论的生物系统的分子和路径、所涉及的细胞类型和组织、感兴趣效果、以及疾病病因学的各方面。特定的动物模型推导的分子、细胞或组织可以与特定的人类分子、细胞或组织培养匹配,以改进基于动物的调查结果的可译性。
[0052] SRP引擎110接收的数据(该数据中的许多数据通过高吞吐量实验技术而产生)包括,但不限于,尤其是与下列方面相关的数据:核酸(例如,特定DNA或RNA物种的绝对或相对量、DNA序列、RNA序列中的变化、三级结构中的变化、或通过排序、杂交(特别是对于微阵列、定量聚合酶链反应上的核酸)或本领域中已知的其他技术确定的甲基化模式)、蛋白质/肽(例如,蛋白质的绝对或相对量、蛋白质、肽的特定片段、二级或三级结构中的变化、或通过本领域中已知的方法确定的翻译后修饰)、以及某些条件下的机能活动(例如,催化活动、酶促活动、解蛋白活动、转录调控活动、输送活动、将亲和性结合到某些结合模式)。包括蛋白质或肽的翻译后修饰的修饰可以包括,但不限于,甲基化、乙酰化、法尼基化、生物素化、硬脂酰化、甲酰化、豆蔻酰化、棕榈酰化、香叶酰香叶酰化、聚乙二醇化、磷酸化硫酸化、糖基化、糖修饰、脂化、脂修饰、遍在蛋白化、sumo化、二硫键、半胱酰化、氧化、谷胱甘肽化、羧化、葡萄苷酸化和脱氨基化。另外,蛋白质可以通过一系列反应(诸如在糖化蛋白质产品中导致的Amadori反应、Schiff base反应和Maillard反应)来进行翻译后修饰。
[0053] 所述数据还可以包括所测量的机能效果,诸如,但不限于,在细胞水平上测量的机能效果(包括细胞增殖、发展演变和细胞死亡)、在生理水平上测量的机能效果、肺活量、血压、锻炼熟练程度。所述数据还可以包括某一疾病阶段的疾病活动性或严重性的度量,诸如,但不限于,肿瘤转移、肿瘤缓解、机能丧失和寿命预期。疾病活动性可以通过临床评价来测量,该临床评价的结果是可以从在定义的条件下对来自一个或多个对象的样本(或样本群)进行评估而获得的值或值集合。临床评价还可以基于对象对于面谈或问卷所提供的响应。
[0054] 该数据可能已经明确地为了用于确定系统响应简档而产生,或者可能已经在以前的实验或研究中生成或者发表在文献中。通常,该数据包括与分子、生物结构、生理状况、遗传特性或表型相关的信息。在一些实现方式中,该数据包括对分子、生物结构、生理状况、遗传特性或表型的状况、位置、量、活动或子结构的描述。如后面将描述的,该数据可以包括从对从暴露于动因的人类对象获得的样本执行的测定或者对这些人类对象的观察获得的原始的或经过处理的数据。
[0055] 在步骤212,系统响应简档(SRP)引擎110基于在步骤212接收的生物数据来产生系统响应简档(SRP)。该步骤可以包括下列中的一个或多个:背景校正、归一化、倍数变化计算、显著性确定以及可选地,差别响应(例如,不同表达的基因)的识别。然而,该步骤可以在不需要截止阈值的情况下执行。SRP是这样的表示,其表达生物系统内的一个或多个被测实体(例如,分子、核酸、肽、蛋白质、细胞等)在对施加于生物系统的扰动(例如,暴露于动因、与疾病的发作或进展相关联的病理变化)做出响应时单个的变化程度。在一个例子中,为了产生SRP,SRP引擎110收集对于施加于给定的实验系统的给定的参数集合(例如,处置或扰动条件)的测量集合(“系统-处置”对)。图3例示了两个SRP:SRP 302,其包括以变化的参数经历第一处置306的N个不同的生物实体的生物活动数据(例如,暴露于第一处理动因的剂量和时间);以及类似的SRP 304,其包括经历第二处置308的所述N个不同的生物实体的生物活动数据。SRP中所包括的数据可以是原始实验数据、经过处理的实验数据(例如,被过滤以移除异常值、被用置信估计标记、在若干个试验上计算平均值)、通过计算生物模型产生的数据、或从科学文献获取的数据。SRP可以以任何数量的方式表示数据,诸如绝对值、绝对变化、倍数变化、对数变化、函数和表格。SRP引擎110将SRP传递到网络建模引擎112。
[0056] 虽然在前面的步骤中推导的SRP表示将从其确定网络扰动的幅度的实验数据,但是它是作为用于计算和分析的基体的生物网络模型。该分析需要开发与生物系统的特征相关的机制和路径的详细网络模型。这样的框架提供超出更经典的基因表达分析中所使用的基因列表检查的机械理解层。生物系统的网络模型是数学构造,该数学构造表示动态生物系统,并且通过组装关于生物系统的各种基本性质的定量信息而构建。
[0057] 回到图2,在步骤214,网络建模引擎112使用来自SRP引擎110的系统响应简档(SRP),该SRP引擎具有基于构成感兴趣生物系统的特征的基础的机制(一种或多种)或路径(一个或多个)的网络模型。在某些方面,网络建模引擎112用于识别已经基于SRP而产生的网络。网络建模引擎112可以包括用于接收对于模型的更新和改变的组件。网络建模引擎112还可以迭代地执行网络产生、合并新数据以及产生另外的或改善的网络模型的过程。网络建模引擎112还可以促成一个或多个数据集合的合并或者一个或多个网络的合并。可以将另外的节点、边或者整个新网络(例如,通过挖掘用于描述由特定的生物实体直接调控的另外的基因的文献的文本)手动地补充给从数据库取得的网络集合。这些网络包含可以使能过程评分的特征。网络拓扑结构得以保持;因果关系的网络可以从该网络中的任何点追踪到可测实体。此外,所述模型是动态的,并且用于构建它们的假设可以修改或重述,并且使得能够适应不同的组织环境和物种。这使得当新知识变得可用时可以迭代地进行测试和改进。网络建模引擎112可以移除以下的节点或边,这些节点或边具有低置信度,或者是科学文献中的冲突实验结果的对象。网络建模引擎112还可以包括可以使用监督式或非监督式学习方法(例如,度量学习、矩阵填充、模式识别)推断的另外的节点或边。
[0058] 在某些方面,生物系统被建模为由顶点(或节点)和连接这些节点的边组成的数学图。例如,图4例示了具有9个节点(包括节点402和404)和边(406和408)的简单网络400。节点可以表示生物系统内的生物实体,诸如,但不限于,化合物、DNA、RNA、蛋白质、肽、抗体、细胞、组织和器官。边可以表示节点之间的关系。图中的边可以表示节点之间的各种关系。例如,边可以表示“绑定到”关系、“用…表达”关系、“基于表达谱共同调控”关系、“禁止”关系、“在手稿中共同出现”关系、或“共享结构元件”关系。通常,这些类型的关系描述一对节点之间的关系。图中的节点也可以表示节点之间的关系。因此,可以表示关系之间的关系、或者关系与图中所表示的另一类型的生物实体之间的关系。例如,表示化学制品的两个节点之间的关系可以表示反应。该反应可以是该反应与禁止该反应的化学制品之间的关系中的节点。
[0059] 图可以是无方向性的,这意味着与每个边相关联的两个顶点之间没有区别。可替代地,图的边可以从一个顶点指向另一个顶点。例如,在生物环境下,转录调控网络和新陈代谢网络可以被建模为有向图。在转录调控网络的图模型中,节点将用表示它们之间的调控关系的边来表示基因。图的边还可以包括符号,该符号指示连接到该边的节点所表示的值是与连接到该边的另一个节点中的变化相关联地或者作为该变化的结果增大、还是减小。作为另一个例子,蛋白质-蛋白质相互作用网络描述有机体的蛋白质组中的蛋白质之间的直接物理相互作用,并且通常不存在与这样的网络中的相互作用相关联的方向。因此,这些网络可以被建模为无向图。某些网络可以具有有向边和无向边两者。构成图的实体和关系(即,节点和边)可以作为相关节点网存储在系统100中的数据库中。
[0060] 该数据库内所表示的知识可以是从各种不同的来源取得的各种不同的类型。例如,某些数据可以表示基因组数据库,该基因组数据库包括关于基因的信息以及它们之间的关系。在这样的例子中,节点可以表示致癌基因,而连接到该致癌基因节点的另一个节点可以表示抑制该致癌基因的基因。所述数据可以表示蛋白质以及它们之间的关系、疾病和它们的相互关系、以及各种疾病状态。存在可以用图形表示组合的许多不同类型的数据。计算模型可以表示节点之间的关系网络,这些节点表示例如以下中的知识:DNA数据集合、RNA数据集合、蛋白质数据集合、抗体数据集合、细胞数据集合、组织数据集合、器官数据集合、医学数据集合、流行病学数据集合、化学数据集合、毒理学数据集合、患者数据集合以及种群数据集合。如本文中所使用的,数据集合是通过在定义的条件下对样本(或一组样本)进行评估而得到的一群数值。数据集合可以例如通过用实验测量样本的可量化的实体来获得;或者可替代地,从诸如实验室、临床研究组织等的服务提供商获得;或者从公共或专有数据库获得。数据集合可以包含节点所表示的数据和生物实体,并且每个数据集合中的节点可以与同一个数据集合中的或其他数据集合中的其他节点相关。而且,网络建模引擎112可以产生计算模型,这些计算模型例如表示DNA、RNA、蛋白质或抗体数据集合中的基因信息、医学数据集合中的医学信息、患者数据集合中的关于单个患者的信息、以及流行病学数据集合中的关于整个种群的信息。除了上述各个数据集合之外,还可以存在许多其他的数据集合、或当产生计算模型时可以包括在内的生物信息的类型。例如,数据库还可以包括医学记录数据、结构/活动关系数据、关于传染病理学的信息、关于临床试验的信息、暴露模式数据、与产品的使用历史相关的数据、以及任何其他类型的生命科学相关信息。
[0061] 网络建模引擎112可以产生表示例如基因之间的调控相互作用、蛋白质之间的相互作用、或细胞或组织内的复杂的生物-化学相互作用的一个或多个网络模型。网络建模引擎112所产生的网络模型可以包括静态和动态模型。网络建模引擎112可以利用任何适用的数学方案来表示系统,诸如超图和加权二分图,在这些图中,使用两种类型的节点来表示反应和化合物。网络建模引擎112还可以使用其他推理技术来产生网络模型,诸如基于不同表达的基因内的机能相关基因的过表达的分析、贝叶斯网络分析、图形高斯模型技术或基因相关网络技术,以基于实验数据集合(例如,基因表达、代谢物浓度、细胞响应等)来识别相关的生物网络。
[0062] 如上所述,网络模型是基于构成生物系统的机能特征的基础的机制和路径。网络建模引擎112可以产生或包含模型,该模型表示关于生物系统的与疾病的发作和进展相关的特征的效果、或者动因的长期健康风险或健康益处的研究。因此,网络建模引擎112可以产生或包含关于细胞机能(特别是关于或促成生物系统中的感兴趣特征的那些细胞机能,包括但不限于,细胞增殖、细胞应激、细胞再生、细胞凋亡、DNA损伤/修复或炎症响应)的各种机制的网络模型。在其他实施例中,网络建模引擎112可以包含或产生与下列方面相关的计算模型:全身急性毒性、致癌性、透皮扩散、心血管疾病、肺疾病、生态毒性、眼冲洗/腐蚀、基因毒性、免疫毒性、神经毒性、药代动力学、药物代谢、器官毒性、生殖和发育毒性、皮肤刺激/腐蚀或皮肤敏化。通常,网络建模引擎112可以包含或产生关于下列方面的状态的计算模型:核酸(DNA、RNA、SNP、siRNA、miRNA、RNAi)、蛋白质、肽、抗体、细胞、组织、器官和任何其他的生物实体、以及它们各自的相互作用。在一个例子中,计算网络模型可以用于表示免疫系统的状态和各种类型的白血球在免疫响应或炎症反应期间的运行。在其他例子中,计算网络模型可以用于表示心血管系统的性能和内皮细胞的运行和代谢。
[0063] 在本发明的一些实现中,网络取自因果生物知识数据库。该数据库可以通过执行对不同生物机制的实验研究以提取机制之间的关系(例如,激活或抑制关系)而产生,这些关系中的一些可以是因果关系,并且该数据可以与市售数据库(诸如Genstruct Technology Platform或由美国的马萨诸塞州的剑桥的Selventa Inc.监管的Selventa Knowledgebase)组合。通过使用因果生物知识数据库,网络建模引擎112可以识别链接扰动
102和可测量104的网络。在某些实现中,网络建模引擎112使用来自SRP引擎110的系统响应简档和以前在文献中所产生的网络来提取生物实体之间的因果关系。除其他处理步骤之外,数据库可以被进一步处理以移除逻辑不一致之处并且通过在不同的生物实体集合之间应用相应的推理来产生新的生物知识。如本文中所使用的,术语“因果生物网络模型”是指一组生物实体(“节点”)以及这些实体之间的关系(“边”),这些关系表示特定类型的原因与结果的关系。
[0064] 在某些实现中,从数据库提取的网络模型是基于逆向因果推理(RCR),一种对因果关系网络进行处理以制定机制假设的自动推理技术。网络建模引擎然后对照差别测量的数据集对这些机制假设进行评估。每个机制假设将生物实体链接到它可以影响的可测量。例如,除了其他方面之外,可测量可以包括生物实体的浓度、数量或相对丰度的增大或减小、生物实体的激活或抑制、或者生物实体的结构、机能或逻辑的变化。RCR使用通过实验观察到的生物实体之间的因果相互作用的有向网络作为用于计算的基体。该有向网络可以用Biological Expression LanguageTM(BELTM)来表达,BELTM是用于记录生物实体之间的相互关系的语法。RCR计算指定对于网络模型产生的某些约束,诸如,但不限于,路径长度(连接上游节点和下游节点的边的最大数量)以及将上游节点连接到下游节点的可能的因果路径。RCR的输出是表示实验测量中的差别的上游控制器的机制假设集合,这些机制假设按评估相关性和精度的统计数据进行排序。机制假设输出可以组装到因果链和更大的网络中以在互连机制和路径的更高水平上解释数据集合。
[0065] 一种类型的机制假设包括存在于表示潜在原因的节点(上游节点或控制器)与表示被测量的节点(下游节点)之间的因果关系集合。这种类型的机制假设可以用于进行预测,诸如如果上游节点所表示的实体的丰度增大,则通过因果增大关系链接的下游节点将被推断为增大,并且通过因果减小关系链接的下游节点将被推断为减小。
[0066] 机制假设可以表示被测数据集合(例如,基因表达数据)与作为这些基因的已知控制器的生物实体之间的关系。另外,这些关系包括上游实体与下游实体(例如,下游基因)的差异表达之间的影响的符号(正或负)。机制假设的下游实体可以取自文献精选的因果生物知识数据库。在某些实现方式中,机制假设的将上游实体链接到下游实体的、可计算因果网络模型的形式的因果关系是通过NPA评分方法计算网络变化的基体。
[0067] 在某些实施例中,可以通过下述方式将生物实体的复杂的因果网络模型变换为单一因果网络模型:收集表示模型中的生物系统的各种特征的各个机制假设,并且将所有的下游实体(例如,下游基因)到单个上游实体或过程的连接进行重组,从而表示整个复杂的因果网络模型;这在本质上是使底层图结构变平。因此可以通过组合各个机制假设来评价网络模型中所表示的生物系统的特征和实体中的变化。
[0068] 在某些实现方式中,系统100可以包含或产生关于当细胞暴露于香烟烟雾时的细胞增殖机制的计算机化模型。在这样的例子中,系统100还可以包含或产生表示与香烟烟雾暴露相关的各种健康状况(包括,但不限于,癌症、肺疾病和心血管疾病)的一个或多个网络模型。在某些方面,这些网络模型是基于下列方面中的至少一个:所施加的扰动(例如,暴露于动因)、各种状况下的响应、感兴趣的可测量、所研究的效果(例如,细胞增殖、细胞应激、炎症、DNA修复)、实验数据、临床数据、流行病学数据和文献。
[0069] 作为例示性例子,网络建模引擎112可以被配置为产生细胞应激的网络模型。网络建模引擎112可以接收从文献数据库获知的、描述应激响应中所涉及的相关机制的网络。网络建模引擎112可以基于已知响应于肺和心血管环境中的应激进行操作的生物机制来选择一个或多个网络。在某些实现方式中,网络建模引擎112识别生物系统内的一个或多个机能单元,并且通过基于较小网络的功能性对其进行组合来构建更大的网络模型。具体地讲,对于细胞应激模型,网络建模引擎112可以考虑与对氧化应激、基因毒性应激、缺氧应激、渗透应激、异生物质应激和剪应力做出的响应相关的机能单元。因此,用于细胞应激模型的网络组件可以包括异生物质代谢响应、基因毒性应激、内皮剪应力、缺氧响应、渗透应激和氧化应激。网络建模引擎112还可以接收来自对公开可用的来自在特定细胞组中执行的应激相关实验的转录数据的计算分析的内容。
[0070] 当产生生物机制的网络模型时,网络建模引擎112可以包括一个或多个规则。这样的规则可以包括用于选择网络内容、节点的类型等的规则。网络建模引擎112可以从实验数据数据库106选择一个或多个数据集合,包括体外和体内实验结果的组合。网络建模引擎112可以利用实验数据来验证文献中标识的节点和边。在对细胞应激进行建模的例子中,网络建模引擎112可以基于实验多大程度地表示了无疾病的肺或心血管组织中的生理相关应激来选择实验的数据集合。数据集合的选择可以基于例如表型应激端点数据的可用性、基因表达谱分析实验的统计严密性、以及实验环境与正常的无疾病的肺或心血管生物学的相关性。
[0071] 在识别一组相关网络之后,网络建模引擎112还可以处理和改善这些网络。例如,在一些实现方式中,可以对多个生物实体和它们的连接进行分组,并且用一个或多个新节点来表示这些生物实体和它们的连接(例如,通过使用聚类或其他技术)。
[0072] 网络建模引擎112还可以包括关于所识别的网络中的节点和边的描述性信息。如以上所讨论的,节点可以通过其相关联的生物实体、该相关联的生物实体是否是可测量的指示、或者该生物实体的任何其他描述符来描述。边可以通过例如它所表示的关系的类型(例如,因果关系,诸如向上调控或向下调控、相关性、有条件的相关或无关)、该关系的强度、或者该关系中的统计置信度来描述。在一些实现方式中,对于每个处置,表示可测实体的每个节点与响应于该处置的预期活动变化方向(即,增大或减小)相关联。例如,当支气管上皮细胞暴露于诸如肿瘤坏死因子(TNF)的动因时,特定基因的活动可能增大。该增大可以由于从文献知道(并且在网络建模引擎112所识别的网络之一中表示)的直接调控关系而发生,或者通过经由网络建模引擎112所识别的网络中的一个或多个网络的边追踪若干个调控关系(例如,自分泌信令)而发生。在一些实现方式中,网络中的第一节点和第二节点之间的边与带符号的值相关联,该值表示与第一节点相关联的实体中的增大可以如何影响与第二节点相关联的实体。如图4中所示,这些带符号的值可以采取“+”和“-”符号的形式,“+”和“-”符号分别表示激活和抑制。在一些情况下,对于每个可测实体,网络建模引擎112可以识别响应于特定扰动的预期变化方向。当网络中的不同路径指示对于特定实体的矛盾的预期变化方向时,可以更详细地检查这两个路径以确定新的变化方向,或者可以丢弃对该特定实体的测量。
[0073] 在一些实现方式中,网络中的节点子集(在本文中被称为“骨干节点”)表示因果生物网络模型中的未被测量的生物过程或者生物过程中的未被测量的关键行动者,网络中的节点子集(在本文中被称为“支持节点”)表示可测实体,诸如基因表达水平。图16描绘了示例性网络,该网络包括四个骨干节点1602、1604、1606和1608、以及骨干节点之间的边和从骨干节点到各组支持基因表达节点1610、1612和1614的边。图16中的每个边是有方向性的(即,表示原因与结果关系的方向)而且带符号的(即,表示正或负调控)。这些网络可以表示将特定生物实体(例如,从如特定激酶的丰度或激活增大那样具体的事到如生长因子信令路径那样复杂的事)连接到由这些生物实体正或负调控的可测下游实体(例如,基因表达值)的因果关系集合。在不受任何理论束缚的情况下,与“向前”推理(例如,mRNA表达变化总是与蛋白质活动变化直接相关)相比,使用测量的下游效应来推断上游实体的活动可以是有利的,因为这些向前推理可能没有考虑到对于蛋白质活动的翻译或翻译后调控的效应。
[0074] 对这样的网络的构造可以是迭代过程。网络的边界的圈定可以通过与感兴趣过程(例如,肺中的细胞增殖)相关的机制和路径的文献调查来引导。描述这些路径的因果关系可以从先验知识提取以使网络成核。可以使用包含相关的表型端点的高吞吐量数据集合对基于文献的网络进行验证。SRP引擎110可以用于对这些数据集合进行分析,该分析的结果可以用于确认、改善或产生网络模型。
[0075] 在一些实现方式中,本文中所描述的计算系统所利用的因果生物网络模型的构建可以根据以下多步迭代过程来进行。首先,科学家团队利用对相关科学文献的调查将网络的生物边界定义为与感兴趣过程(例如,肺中的细胞增殖)相关的信令路径,并且将这些边界输入到网络建模引擎112。描述这些路径的原因与结果关系从研究文献和诸如Selventa的Knowledgebase(超过150万的原因与结果生物关系的统一收集)的数据库提取。网络中的节点可以包括生物实体(诸如蛋白质丰度和蛋白质活动)和生物过程(例如,细胞凋亡)。边是节点之间的关系,并且表示实体之间的方向性的原因与结果关系(例如,NFKB的转录活动直接引起BCL2的基因表达的增加)。一些边连接不同形式的生物实体,诸如将蛋白质丰度连接到其磷酸化形式(例如,将TP53蛋白质丰度连接到在丝氨酸15处磷酸化的TP53)。所得的网络表示在感兴趣细胞过程的之下的生物学。第二,网络建模引擎112使用逆向因果推理对分子谱数据进行计算去卷积。如本文中其他地方所描述的,RCR是这样的计算技术,该技术接收作为输入的基因表达谱数据,并且根据统计和生物标准产生关于生物实体(即,网络中的节点)的活动状态的预测值。所观察的实验数据的假设的上游控制器取自这些计算预测。一些特定类型的边可以描述上游生物活动与任何类型的高吞吐量数据之间的因果关系。在转录数据的情况下,如以下详细讨论的,给定实体或过程与高吞吐量基因表达数据之间的因果关系可以识别用于该给定实体或过程(例如,特定激酶的活动)的因果“基因表达签名”。第三,网络建模引擎112将因果生物网络模型的内容和连接性提交到由学科特定的科学专家人工审阅的终端轮。最后,该三步方法可以导致在计算上有利的、其边被所发表的文献和科学界支持的网络模型。
[0076] 在一些方面,本文中所提供的计算方法和系统基于实验数据和计算网络模型来计算NPA得分。计算网络模型可以由系统100产生、被导入到系统100中、或者在系统100内识别(例如,从生物知识数据库识别)。被识别为网络模型内的扰动的下游结果的实验测量在产生特定于网络的响应得分时被组合。因此,在步骤216,网络评分引擎114使用在步骤214由网络建模引擎112识别的网络和在步骤212由SRP引擎110产生的SRP来对于每个扰动产生NPA得分。NPA得分对在生物实体(用所识别的网络表示)之间的底层关系的上下文中对于处置的生物响应(用SRP表示)进行量化。网络评分引擎114可以包括硬件和软件组件,该硬件和软件组件用于针对网络建模引擎112中所包含的或者被网络建模引擎112识别的每个网络产生NPA得分。
[0077] 网络评分引擎114可以被配置为实现若干种评分技术中的任何一种,包括产生指示网络对于扰动的响应的幅度和拓扑分布的标量值或矢量值得分的技术。现在描述若干评分技术。
[0078] 图5是用于量化生物系统在对动因做出响应时的扰动的例示性过程500的流程图。过程500可以用例如网络评分引擎114或者系统100的任何其他适当配置的一个或多个组件来实现。在步骤502,网络评分引擎114接收用于生物系统中的第一生物实体集合(被称为“支持实体”)的处置和控制数据。处置数据对应于支持实体对于动因的响应,而控制数据对应于支持实体对于动因不存在的响应。生物系统包括支持实体(其处置和控制数据在步骤
502接收)、以及可能没有处置和控制数据被接收的第二生物实体集合(被称为“骨干实体”)。生物系统中的每个生物实体与生物系统中的至少一个其他生物实体相互作用,具体地讲,至少一个支持实体与至少一个骨干实体相互作用。生物系统中的生物实体之间的关系可以用计算网络模型表示,该计算网络模型包括表示支持实体的第一节点集合、表示骨干实体的第二节点集合、以及连接节点并且表示生物实体之间的关系的边。该计算网络模型还可以包括节点的方向值(也被称为符号),这些方向值表示控制和处置数据(例如,激活或抑制)之间的预期变化方向。上面详细地描述了这样的网络模型的例子。
[0079] 在步骤504,网络评分引擎114计算对于支持实体的活动度量。每个活动度量表示用于特定支持实体的处置数据和控制数据之间的差别。因为计算网络模型中的支持实体和第一节点集合之间具有对应性,所以步骤504还计算对于计算网络模型中的第一节点集合的活动度量。在一些实现方式中,活动度量可以包括倍数变化。倍数变化可以是描述节点测量在控制数据与处置数据之间或者在表示不同处置状况的两个数据集合之间从初始值到最终值的变化程度的数量。倍数变化数量可以表示两种状况之间的生物实体的活动的倍数变化的对数。对于每个节点的活动度量可以包括由各自节点表示的生物实体的处置数据和控制数据之间的差别的对数。在某些实现中,所述计算机化方法包括用处理器对于所产生的每个得分产生置信区间。
[0080] 在步骤506,网络评分引擎114产生骨干实体的活动值。因为这里没有接收到针对骨干实体的处置和控制数据,所以在步骤506产生的活动值表示推断的活动值,并且基于第一活动度量集合和计算网络模型。针对骨干实体(对应于计算网络模型中的第二节点集合)推断的活动值可以根据若干推理技术中的任何一种而产生;以下参照图6来描述几种实现方式。在步骤506针对骨干实体产生的活动值使用网络模型所提供的实体之间的关系阐明了没有被直接测量的生物实体的行为。
[0081] 在步骤508,网络评分引擎114基于在步骤506产生的活动值来计算NPA得分。NPA得分表示生物系统对于动因的扰动(反映在控制和处置数据之间的差别中),并且基于在步骤506产生的活动值和计算网络模型。在一些实现方式中,在步骤508计算的NPA得分可以根据以下公式来计算:
[0082]
[0083] 其中,VO表示支持实体(即,其处置和控制数据在步骤502被接收的那些支持实体)集合,f(x)表示在步骤508针对生物实体x产生的活动值,sign(x→y)表示计算网络模型中的将表示生物实体x的节点连接到表示生物实体y的边的方向值。如果与骨干实体集合相关联的活动值的矢量用f2表示,则网络评分引擎114可以被配置为经由以下二次型计算NPA得分:
[0084]
[0085] 其中,
[0086]
[0087] diag(out)表示具有第二节点集合中的每个节点的出度的对矩阵,diag(in)表示具有第二节点集合中的每个节点的入度的对角矩阵,V是网络中的所有节点的集合,A表示计算网络模型的邻接矩阵,该邻接矩阵仅限于表示骨干实体的节点,并且根据以下公式定义:
[0088]
[0089] 如果A是加权邻接矩阵,则A的元素(x,y)可以乘以权重因子w(x→y)。在一些情况下,由于其中一些实体比其他实体被更多地研究的所谓的文献偏倚,一些骨干节点可能具有比其他骨干节点多的支持基因表达证据。因果计算生物模型中的结果是具有更多支持证据的节点将具有比不那么“富有”的节点更高的度(degree)。当结合上大多数证据具有非常低的信号的可能性时,推断的节点活动值从系统上讲可能是节点中具有最低值的一个节点。为了解决这个问题,在一些实现方式中,与从节点到该节点的N个下游节点之一的边相关联的权重被设置为1/N。该修改可以有利地强调骨干结构(其捕捉生物学的重要方面),并且平衡因果生物网络模型计算内的骨干节点和支持节点的重要性。
[0090] 步骤508还可以包括计算NPA得分的置信区间。在一些实现方式中,活动值f2被假定为遵循多变量正态分布N(μ,Σ),那么根据公式2计算的NPA得分将具有相关联的、可以根据以下公式计算的方差(variance):
[0091] var(fTQf)=2tr(Q∑Q∑)+4μTQ∑Qμ   (5)
[0092] 在诸如根据公式5进行操作的那些实现方式的一些实现方式中,NPA得分具有对活动值的二次依赖。网络评分引擎114可以进一步被配置为使用根据公式5计算的方差来通过尤其是应用切比夫(Chebyshev)的不等式来产生保守置信区间。
[0093] 图6是用于产生节点集合的活动值的例示性过程600的流程图。过程600可以例如在图5的过程500的步骤506执行,并且为了易于例示说明,被描述为由网络评分引擎114执行。在步骤602,网络评分引擎114识别差别声明。差别声明是表示特定生物实体的活动度量或值与该特定生物实体所连接的生物实体的活动度量或值之间的差别的表达或其他可执行声明。在表示感兴趣生物系统的计算网络模型的语言里,差别声明表示网络模型中的特定节点的活动度量或值与该特定节点经由边所连接的节点的活动度量或值之间的差别。差别声明可以取决于计算网络模型中的节点中的任何一个或多个节点。在一些实施例中,差别声明取决于以上关于图5的步骤506所讨论的第二节点集合(即,其处置或控制数据不可用并且其活动值从与其他节点相关联的处置或控制数据和计算网络模型推断得到的那些节点)中的每个节点的活动值。
[0094] 在一些实现方式中,网络评分引擎114在步骤602识别以下差别声明:
[0095]
[0096] 其中,f(x)表示活动值(针对表示骨干实体的节点x)或度量(针对表示支持实体的节点x),sign(x→y)表示计算网络模型中将表示生物实体x的节点连接到表示生物实体y的节点的边的方向值(或者表示激活或抑制的符号),w(x→y)表示与连接表示实体x和y的节点的边相关联的权重。为了易于例示说明,其余讨论将假定w(x→y)等于1,但是本领域的普通技术人员将易于通过对公式6的差别声明的讨论(即,通过使用如以上参照公式5描述的加权邻接矩阵)来探索不统一的权重。
[0097] 网络评分引擎114可以以许多不同的方式实现公式6的差别声明,包括以下等同声明中的任何一个:
[0098]
[0099] 在步骤604,网络评分引擎114识别差别目标。差别目标表示对于差别声明的值的优化目标,网络评分引擎114将朝向该优化目标选择骨干实体的活动值。差别目标可以指定差别声明将被最大化、最小化或者使得尽可能地接近目标值。差别目标可以指定其活动值将被选择的生物实体,并且可以对每个实体的允许的活动值范围建立约束。在一些实现方式中,差别目标使在以上参照图5的步骤506所讨论的所有骨干实体上的公式6的差别声明最小化,其约束是支持实体(即其处置和控制数据可用的那些实体)的活动等于在图5的步骤504计算的活动度量。该差别目标可以被写为以下计算优化问题:
[0100]
[0101] 其中,β表示在图5的步骤504对于每个支持实体计算的活动度量。在一些实现方式中,为了适应具有低信噪比的差别数据(differential data),可以使用(I-Pvalue)β来代替公式8中的β。根据对于β的这个替代值而计算的NPA得分的方差可以如在Martin等人的BMC Syst Biol.2012年5月31日;6(1):54中所描述的那样进行计算,该文献的全部内容通过引用并入本文。
[0102] 为了解决在步骤604识别的差别目标,网络评分引擎114被配置为进入步骤606以基于该差别目标来在计算上表征网络模型。表示生物系统的计算网络模型可以以许多种方式(例如,经由如以上所讨论的加权或非加权邻接矩阵A)来表征。不同的表征可以更好地适合于不同的差别目标,改进了网络评分引擎114在计算NPA得分中的性能。例如,当根据以上公式8制定差别目标时,网络评分引擎114可以被配置为使用根据以下定义的带符号的拉普拉斯(Laplacain)矩阵来表征计算网络模型:
[0103] L=(diag(out)+diag(in)-(A+AT))   (9)
[0104] 考虑到该表征,公式8的差别目标可以表示为:
[0105]
[0106] 网络评分引擎114可以被配置为通过将网络模型划分为四个组成部分来在第二水平上表征计算网络模型:支持节点之间的边、从支持节点到骨干节点的边、从骨干节点到支持节点的边、以及骨干节点之间的边。在计算上,网络评分引擎114可以通过下述方式来实现该附加表征,即,将拉普拉斯矩阵划分为四个子矩阵(一个子矩阵针对这些组成部分中的一个组成部分),并且将活动矢量f划分为两个子矢量(一个用于支持节点的活动,一个用于骨干节点的活动)。公式10的差别声明的这个重新表征可以写成:
[0107]
[0108] 在步骤606,网络评分引擎114选择实现或逼近差别目标的活动值。许多不同的计算优化例程在本领域中是已知的,并且可以应用于在步骤604识别的任何差别目标。在公式10的差别目标在步骤604被识别的实现方式中,网络评分引擎114可以被配置为通过下述方式来选择使公式11的表达式最小化的f2的值,即,求公式11对f2的(数值或分析)导数,将该导数设置为等于零,并且重新布置以分离关于f2的表达式。因为
[0109]
[0110] 网络评分引擎114可以被配置为根据以下公式来计算f2:
[0111]
[0112] 在一些实现方式中,如果L3是奇异的(singular),则使用Moore-Penrose广义逆。因为f1是所计算的支持实体(其处置和控制数据可用)的活动度量的矢量,则骨干实体的活动值可以根据公式13表示为所计算的活动度量的线性组合。如公式13中那样,活动值可以取决于第一计算网络模型内的表示支持实体的节点与表示骨干实体的节点之间的边,并且还可以取决于计算因果网络模型内的第二节点集合中的节点之间的边。在一些实现方式(诸如根据公式13进行操作的那些实现方式)中,活动值不取决于计算网络模型内的表示支持实体的节点之间的边。
[0113] 在步骤608,网络评分引擎114提供在步骤606产生的活动值。在一些实现方式中,向用户显示该活动值。在一些实现方式中,在图5的步骤508使用活动值来如上所述那样计算NPA得分。在一些实现方式中,在步骤608,还可以产生活动值的方差和置信信息。例如,如果活动值和度量可以假定为近似地遵循多变量正态分布,N(μ,∑),则Kf也将遵循多变量正态部分,其中,
[0114] var(Kf)=K∑KT   (14)
[0115] 在这种情况下,可以使用标准统计技术来计算推断的活动值的置信区间,其中,K-1 T=-L3 L2,并且∑=diag(var(β))。
[0116] 因为NPA得分可以被计算为二次型(如以上所示),所以网络评分引擎114可以产生显著的(相对于生物可变性而言)得分,即使输入数据不反映模型中的机制的实际扰动。在一些实现方式中,NPA或其他得分的显著性取决于生物样本之间的可变性在多个水平的NPA或其他得分计算(例如,倍数变化、骨干得分和NPA得分)上是否是一致的。为了评价网络是否真的受到扰动(即,模型中所描述的生物学是否反映在数据中),可以使用伴随统计(companion statistics)来帮助确定所提取的信号是否是特定于网络结构的或者是否是所收集的数据内固有的。两个置换测试对于评价观察到的信号是否更能表示因果生物网络模型所给出的数据或结构固有的性质可以是特别有用的。第一个测试量化网络内的支持节点的位置对于被测信号的重要性。为了这样做,对基因标记进行改组,重新计算NPA得分,并且推导置换P值。第二个测试量化骨干网络结构对于被测信号的重要性。在该测试中,随机地置换骨干模型的边,重新计算NPA得分,并且推导置换P值。后一测试评估在网络的骨干中编码的原因与结果关系的重要性,而前一测试评估被测信号是否是特定于模型中的基础证据的。如果两个P值都很低(在一些实现方式中,为0.05或更小),则网络被认为是“受到扰动的”。
[0117] 如以上所指出的,网络评分引擎114可以被配置为计算活动值和NPA得分的置信区间。为了这样做,网络评分引擎114可以如以上参照图5的步骤504所描述的那样计算活动度量(这里表示为β)。在一些实现方式中,活动度量可以是通过Limma R统计分析包或者通过其他标准统计技术确定的倍数变化值或加权倍数变化值(例如使用相关联的错误未发现率进行加权)。网络评分引擎114可以计算与活动度量(或加权活动度量)相关联的方差。在一些实现方式中,矩阵Σ被定义为∑=diag(var(β))。接着,网络评分引擎114使用相关网络的结构来产生拉普拉斯矩阵(例如,如上所述)。网络可以是加权的,带符号的,而且有方向性的,或者这些的任何组合。网络评分引擎114可以在左侧等于零的情况下对公式12的拉普拉斯表达式进行求解以产生f2(活动值矢量)。网络评分引擎114然后可以计算活动值矢量的方差。在一些实现方式中,该矢量根据以下公式计算:
[0118]
[0119] 其中,L2和L3如公式11中那样定义。网络评分引擎114然后可以根据以下公式来计算f2的每个条目的置信区间:
[0120]
[0121] 其中,z(1-a/2)是相关联的N(0,1)分位数(例如,如果a=0.05,则为1.96)。网络评分引擎114然后可以计算用于计算NPA得分的二次型矩阵。在一些实现方式中,该二次型矩阵根据以上公式3计算。网络评分引擎114然后可以根据以下公式使用二次型矩阵Q来计算NPA得分:
[0122] NPA=f2TQf2   (17)
[0123] 网络评分引擎114然后可以计算NPA得分的方差。在一些实现方式中,该方差根据以下公式来计算:
[0124]
[0125] 其中,Ψ=var(f2)。网络评分引擎114然后可以计算NPA得分的置信区间。在一些实现方式中,置信区间根据以下公式来计算:
[0126]
[0127] 或者
[0128]
[0129] 图7是用于识别主导骨干和基因节点的例示性过程的流程图,该过程用图17的计算路径1702例示。在步骤702,网络评分引擎114基于所识别的网络模型来产生骨干算子。骨干算子作用于支持节点的活动度量矢量上,并且输出骨干节点的活动值矢量。一些实现方式中的合适的骨干算子是以上在公式13中定义的算子K。
[0130] 在步骤704,网络评分引擎114使用在步骤702产生的骨干算子来产生主导骨干节点的列表。主导骨干节点可以表示在处置和控制数据以及因果生物网络模型的分析期间所识别的最显著骨干节点。为了产生该列表,网络评分引擎114可以使用骨干算子来形成内核(kernel),该内核然后可以用在骨干节点的活动值矢量与它自己之间的内积中。在一些实现方式中,网络评分引擎114通过下述方式来产生主导骨干节点列表,即,按降序次序对由这样的内积得到的和中的项进行排序,并且选择固定数量的与对于该和的最大贡献者相应的节点、或者实现总和的指定百分比(例如,60%)所需的数量的最显著贡献节点。等同地,网络评分引擎114可以通过下述方式来产生主导骨干节点列表,即,通过计算公式1的有序项的累积和来包括构成NPA得分的80%的骨干节点。如以上所讨论的,该累积和可以被计算为以下内积的项的累积和(通过使用骨干算子K):
[0131] f1TKTKf1   (21)
[0132] 因此,主导节点的识别取决于活动度量和网络拓扑结构两者。
[0133] 在步骤706,网络评分引擎114使用在步骤702产生的骨干算子来产生主导基因节点列表。如公式2所示,NPA得分可以被表示为倍数变化的二次型。因此,在一些实现方式中,通过识别以下纯量积的有序和的项来产生主导基因列表:
[0134]
[0135] 主导基因列表的两端可能是重要的,因为对NPA得分有负面贡献的基因也具有生物显著性。
[0136] 在一些实现方式中,在步骤706,网络评分引擎114还产生每个基因的结构重要性值。结构重要性值与实验数据无关,并且表示下述事实,即,一些基因可能由于该基因在模型中的位置而比其他基因对于推断骨干节点的值更加重要。可以通过以下公式对于基因j定义结构重要性:
[0137]
[0138] 主导骨干节点列表中的生物实体和主导基因节点列表中的基因是通过处置状况(与控制状况相关)激活底层网络的生物标记的候选。如下所述,这两个列表可以单独地或者一起使用来识别供将来研究所用的目标,或者可以用在其他生物标记识别过程中。
[0139] 图8是用于对骨干节点活动值进行分类的例示性过程的流程图,该过程用图17的计算路径1704例示。在步骤802,网络评分引擎114接收关于生物系统中的支持实体的居中的表达数据。该居中的表达数据是从单个的样本获取的已经通过减去这样的数据的总体均值而居中的数据。因此,在步骤802接收的居中的数据将包括分别表示高于和低于总体均值的偏差的正值和负值两者。
[0140] 在步骤804,网络评分引擎114应用骨干算子(以上关于NPA得分的计算对其进行了描述)来基于居中的表达数据产生骨干节点的活动值。一些实现方式中的合适的骨干算子是以上在公式13中定义的算子K。步骤804的结果是,获取表示支持实体的居中的表达数据,并且产生表示未被观察的骨干实体的活动值。在许多应用中,在给定网络模型中,支持实体的数量远多于的骨干实体的数量,因此,通过执行步骤804,网络评分引擎将问题的维度从支持实体数量大小的空间缩减到骨干实体数量大小的空间。
[0141] 在步骤806,网络评分引擎114将机器学习算法应用于在步骤804产生的活动值以产生分类器,该分类器区分来自特定生物类(例如,特定表型)的样本的活动值与来自另一个生物类的样本的活动值。网络评分引擎114在步骤806可以使用任何一种或多种已知的机器学习算法,包括,但不限于,支持矢量机技术、线性判别分析技术、随机森林技术、k-最近邻技术、偏最小二乘技术(包括组合偏最小二乘和线性判别分级特征的技术)、逻辑回归技术、基于神经网络的技术、基于决策树的技术以及缩小质心技术(例如,如Tibshirani、Hastle、Narasimhan和Chu在“Diagnosis of multiple cancer types by shrunken centroids of gene expression”,Proc.Natl.Acad.Sci.,v.99,n.10,2002中所描述的技术,该文献的全部内容特此通过引用并入本文)。若干这样的技术可用作R程序设计语言的程序包,包括lda、svm、randomForest、knn、pls.lda和pamr。
[0142] 在一些实现方式中,网络评分引擎114使用K作为步骤804的骨干算子,使用SVM作为在步骤806应用的机器学习算法。在步骤806结束时将实现相同的分类器的替代实现方式是这样的实现方式,在该实现方式中,网络评分引擎114被配置为直接将SVM应用于(步骤802的)居中的表达数据,而使用骨干算子K来形成SVM的内核KKT。
[0143] 并非所有的骨干节点和相应的活动值都可以在步骤806用于产生分类器。在一些实现方式中,仅使用利用以上参照图7所描述的技术识别的主导节点,其余骨干节点被忽略。
[0144] 图9是用于从用于识别用于生物标记的实体的多个网络识别特征空间的例示性过程的流程图,该过程用图18的计算路径1804例示。网络评分引擎114对于网络模型集合(例如,已经被识别为可能与感兴趣生物现象相关的那些网络模型的集合)中的每个网络模型迭代地执行步骤902。在步骤902,网络评分引擎114基于网络模型来产生骨干算子。如以上参照图7所描述的,一个合适的骨干算子是公式13的算子K。在步骤904,网络评分引擎114将在迭代执行步骤902时所产生的骨干算子聚集成供诸如SVM的分类技术中使用的内核。在一些实现方式中,在步骤904产生的内核是基于几个骨干算子,每个骨干算子对应于不同的网络模型。这几个骨干算子可以经由加权平均值或者通过非线性函数进行组合。例如,几个骨干算子可以经由内核对准技术组合。在一些实现方式中,网络评分引擎114在步骤904使用上述两个置换测试的P值来聚集骨干算子。例如,网络评分引擎114可以通过以下权重来进行骨干算子的内核的线性组合,其中当两个置换测试都给出低于0.05的结果时,这些权重等于1,否则等于0。在其他例子中,置换测试统计或其他统计的其他函数可以用于产生用于线性组合的权重(例如,sigmoid函数或average-log10函数),这些权重反映了将放置在加权组合中的统计数据中的各个统计数据上的重要性的各种倾向。在一些实现方式中,在步骤904产生的内核是力图优化内核的值以使目标函数最小化的半定规划问题的解。许多这样的方法在文献中是已知的。在一些实现方式中,网络评分引擎114在步骤904通过堆叠若干内核(基于骨干算子)以形成新的特征空间来产生内核,该新的特征空间包括每个相应网络的所有的骨干组成部分。
[0145] 在步骤906,网络评分引擎114使用步骤904的内核和骨干节点的活动值(其可以以本文中所描述的任何方式计算)来产生分类器。若干已知技术中的任何技术可以用于基于定义特征空间中的内积的内核来产生分类器,诸如支持矢量机技术。
[0146] 图10是用于从用于识别用于生物标记的实体的多个分类器识别特征空间的例示性过程的流程图,该过程用图18的计算路径1802例示。对于若干候选网络中的每个(其可以表示例如假设在感兴趣现象中起作用的若干不同的生物机制),网络评分引擎114执行以下步骤。在步骤1002,网络评分引擎114基于实验数据来产生用于网络模型的分类器。网络评分引擎114在步骤902可以使用本文中所描述的机器学习技术中的任何技术来产生分类器,包括SVM。在步骤1004,网络评分引擎114产生描述在步骤1002产生的分类器的性能的统计数据。描述分类器的性能的统计数据包括分类器的交叉验证精度和与每个骨干节点相应的决策值。在步骤1006,网络评分引擎114识别网络模型中的骨干节点,这些骨干节点的相关联的统计数据指示这些骨干节点的显著性超过阈值。在一些实现方式中,省略步骤1006,并且使用所有的骨干节点。在步骤1008,网络评分引擎114将网络模型中的高于阈值的骨干节点聚集到特征空间中,该特征空间可以用作新的使用任何已知分类技术(例如,机器学习技术,诸如SVM)的分类器的基础。对骨干节点活动值空间执行分类的一个优点是,该空间的尺寸通常远小于支持实体空间的尺寸(例如,与几千个被测基因相比,几十个骨干节点)。
[0147] 在需要显著基因或其他支持实体的列表(而不是显著骨干实体的列表)的应用中,网络评分引擎114可以被配置为进一步对本文中所描述的产生骨干空间中的分类器的分类技术的结果进行处理以便产生基因空间中的分类器。例如,如果网络评分引擎114根据本文中所描述的任何技术产生骨干节点空间中的分类器,则网络评分引擎114还可以被配置为通过获取以下两个值的纯量积来计算不同基因对于分类器的相对重要性的度量:在感兴趣基因的特定活动度量评估的分类器的决策函数的值、以及在该活动度量评估的该决策函数的梯度。网络评分引擎114可以在基因(或其他支持实体)之间比较该计算的结果以确定哪个在决策函数的结果中起到最重要作用。
[0148] 在一些应用中,可以用于分类目的的骨干节点列表可以每次单个节点地产生。例如,网络评分引擎114可以被配置为识别单个骨干节点(例如,具有最高活动值的骨干节点)并且仅使用该节点的值作为计算分类器(使用任何机器学习技术)的基础。网络评分引擎114然后可以选择第二节点(例如,具有第二高活动值的骨干节点),并且使用这两个节点的值作为计算分类器的基础。该过程可以继续进行,其中,网络评分引擎114在每次迭代中评估共同验证精度,直到达到所需数量的骨干节点或者达到所需精度为止。
[0149] 图11是用于基于F统计来识别分类系统中所使用的骨干节点的例示性过程的流程图。网络评分引擎114对于网络模型集合(例如,已经被识别为可能与感兴趣生物现象相关的那些网络模型的集合)中的每个网络模型迭代执行步骤1102-1116。图11的讨论是指作为“当前网络”的、与当前迭代相应的网络。在步骤1102,网络评分引擎114接收(例如,如以上参照图8所描述的)居中的表达数据的集合。在步骤1104,网络评分引擎114将与当前网络相关联的骨干算子(诸如骨干算子K)应用于居中的表达数据以产生活动值(例如,如以上参照图8所描述的)。在步骤1106,网络评分引擎114根据F统计数据的次序对活动值的z得分进行整理(sort)。在步骤1108,网络评分引擎114产生值pgs,该值表示当前网络中的骨干节点的平均秩次富集P值。在步骤1110,网络评分引擎114产生有序Z得分的中间累积和,并且在步骤1012,对于每个中间累积和重新计算F测试统计数据。在步骤1114,网络评分引擎114选择第一中间累积和,该第一中间累积和的F测试值大于后面的中间累积和的F测试值(即,刚好在F测试值开始减小之前)。在步骤1116,网络评分引擎114输出当前网络中的其Z得分包括在累积和中的骨干节点的集合。一旦已经对于网络模型集合中的每个网络模型执行了步骤1102-1116,网络评分引擎114就创建矩阵,该矩阵聚集了在步骤1116的各个迭代对于其相关联的值pgs不超过预定阈值p0的网络模型所选择的所有的骨干节点的活动值。机器学习算法,诸如本文中所描述的那些算法中的任何一种,然后可以应用于该矩阵。
[0150] 图12是用于从骨干节点活动值产生整体预测器的例示性过程的流程图。网络评分引擎114对于网络模型集合(例如,已经被识别为可能与感兴趣生物现象相关的那些网络模型的集合)中的每个网络模型迭代执行步骤1202-1210。图12的讨论是指作为“当前网络”的、与当前迭代相应的网络。另外,网络评分引擎对于每个网络模型迭代执行步骤1202-1210给定次数B。在步骤1202,网络评分引擎114接收(例如,如以上参照图8所描述的)居中的表达数据的集合。在步骤1204,网络评分引擎114将与当前网络相关联的骨干算子(诸如骨干算子K)应用于居中的表达数据以产生活动值(例如,如以上参照图8所描述的)。在步骤
1206,网络评分引擎114通过替换对在步骤1204产生的活动值进行采样。在一些实现方式中,基因活动值的总数的80%通过替换进行采样(即,作为自举技术的一部分)。一定比例的数据集合(其中每个数据集合可以对应于例如特定患者)也被采样(例如,20%)。在步骤
1208,网络评分引擎114应用机器学习算法来基于样本值产生分类器。机器学习算法可以包括本文中所描述的那些算法中的任何算法。在步骤1210,网络评分引擎114记录与在步骤
1208产生的分类器相关联的预测误差(例如,通过在其分类已知的测试数据集合上对分类器进行评估)。一旦网络评分引擎对于每个网络执行了步骤1202-1210B次,网络评分引擎
114就产生整体预测器,该整体预测器使用加权投票方案来对活动值进行分类。在一些实现方式中,权重取决于在步骤1210计算的预测误差。例如,如果特定迭代的预测误差用eb表示,则网络评分引擎114可以根据以下公式计算用于该次迭代的权重:
[0151]
[0152] 其中,0≤eb≤1。在一些实现方式中,网络评分引擎114根据以下公式计算用于迭代的权重:
[0153]
[0154] 图13是用于基于p值识别分类系统中所使用的骨干节点的例示性过程的流程图。在步骤1302,网络评分引擎114接收(例如,如以上参照图8所描述的)居中的表达数据的集合。在步骤1304,网络评分引擎114将与当前网络相关联的骨干算子(诸如骨干算子K)应用于居中的表达数据以产生活动值(例如,如以上参照图8所描述的)。在步骤1306,网络评分引擎114将与在步骤1304产生的活动值相关联的p值与预定阈值p值进行比较。在步骤1308,网络评分引擎114确定其p值低于阈值的活动值的数量是否超过了预定数量Y;如果是,则网络评分引擎增大阈值,并且重复步骤1306。在一些实现方式中,网络评分引擎114确定其p值低于阈值的活动值的数量是否降至低于预定数量Y;如果是,则网络评分引擎减小阈值,并且重复步骤1306。在步骤1310,网络评分引擎114将机器学习算法应用于与超过阈值的p值相应的骨干节点的活动值。可以使用本文中所描述的任何机器学习算法。
[0155] 本主题的实现可以包括,但不限于,包括本文中所描述的一个或多个特征的系统、方法和计算机程序产品、以及包括可操作为使一个或多个机器(例如,计算机、机器人)进行本文中所描述的操作的机器可读介质的物品。本文中所描述的方法可以由驻留在单个计算系统或多个计算系统中的一个或多个处理器或引擎实现。这样的多个计算系统可以连接,并且可以经由一个或多个连接来交换数据和/或命令或其他指令等,包括,但不限于,通过网络(例如,互联网、无线广域网、局域网、广域网、有线网等)的连接、经由所述多个计算系统中的一个或多个之间的直接连接的连接。
[0156] 图14是用于量化生物扰动的影响的分布式计算机化系统1400的框图。系统1400的组件与图1的系统100中的组件相同,但是系统100的布置使得每个组件通过网络接口1410进行通信。这样的实现可能适合于通过多个通信系统的分布式计算,包括可以共享对于公共网络资源的访问的无线通信系统,诸如“计算”范式。
[0157] 图15是用于执行参照本文中的任何一个图描述的过程的计算装置(诸如图1的系统100的组件中的任何一个)的框图。系统100的每个组件(包括SRP引擎150、网络建模引擎152、网络评分引擎154、聚集引擎156),以及一个或多个数据库(包括效果数据库、扰动数据库和文献数据库)可以在一个或多个计算装置1500上实现。在某些方面,多个以上组件和数据库可以包括在一个计算装置1500内。在某些实现中,组件和数据库可以跨几个计算装置
1500实现。
[0158] 计算装置1500包括至少一个通信接口单元、输入/输出控制器1510、系统存储器、以及一个或多个数据存储装置。系统存储器包括至少一个随机存取存储器(RAM 1502)和至少一个只读存储器(ROM1504)。所有这些元件都与中央处理单元(CPU 1506)进行通信以促成计算装置1500的操作。计算装置1500可以以许多不同的方式进行配置。例如,计算装置1500可以是常规的独立计算机,或者,计算装置1500的功能可以分布在多个计算机系统和架构上。计算装置1500可以被配置为执行建模、评分和聚集操作中的一些或全部。在图15中,计算装置1500经由网络或局域网链接到其他服务器或系统。
[0159] 计算装置1500可以按分布式架构配置,其中,数据库和处理器容纳在单独的单元或位置中。一些这样的单元执行主要处理功能,并且最少包含通用控制器或处理器和系统存储器。在这样的方面,这些单元中的每个均经由通信接口单元1508附连到用作与其他服务器、客户端或用户计算机和其他相关装置的主要通信链路的通信集线器或端口(未示出)。通信集线器或端口本身可以具有最小的处理能力,主要用作通信路由器。各种通信协议可以是系统的一部分,包括,但不限于:以太网、SAP、SASTM、ATP、BLUETOOTHTM、GSM和TCP/IP。
[0160] CPU 1506包括处理器,诸如一个或多个常规的微处理器和一个或多个互补协处理器(诸如从CPU 1506卸载工作负荷的数学协处理器)。CPU 1506与通信接口单元1508和输入/输出控制器1510进行通信,CPU 1506通过通信接口单元1508和输入/输出控制器1510与其他装置(诸如其他服务器、用户终端或装置)进行通信。通信接口单元1508和输入/输出控制器1510可以包括用于与例如其他处理器、服务器或客户端终端的同时通信的多个通信信道。与每个其他装置进行通信的装置无需持续地彼此传输。相反,这样的装置仅需要在必要时彼此传输,实际上大多数时间可以限制交换数据,并且可能需要执行几个步骤来建立装置之间的通信链路。
[0161] CPU 1506还与数据存储装置进行通信。数据存储装置可以包括磁、光或半导体存储器的适当组合,并且可以包括,例如,RAM 1502、ROM 1504、闪存、光盘(诸如紧凑盘或卡盘或驱动器)。CPU 1506和数据存储装置均可以是例如整个地位于单个计算机或其他计算装置内;或者通过通信介质彼此连接,所述通信介质诸如USB端口、串行端口电缆、同轴电缆、以太网类型的电缆、电话线、射频收发器或其他类似的无线或有线介质、或前述的组合。例如,CPU 1506可以经由通信接口单元1508连接到数据存储装置。CPU 1506可以被配置为执行一种或多种特定处理功能。
[0162] 数据存储装置可以存储,例如,(i)用于计算装置1500的操作系统1512;(ii)适于根据这里所描述的系统和方法(特别是根据关于CPU1506详细描述的过程)引导CPU 1506的一个或多个应用1514(例如,计算机程序代码或计算机程序产品);或(iii)可以用于存储程序所需的信息的、适于存储信息的数据库(一个或多个)1516。在一些方面,数据库(一个或多个)包括存储实验数据和发表的文献模型的数据库。
[0163] 操作系统1512和应用1514可以例如以压缩的、未编译的和加密的格式存储,并且可以包括计算机程序代码。程序的指令可以从除了数据存储装置之外的计算机可读介质(诸如从ROM 1504或RAM1052)读取到处理器的主存储器中。虽然程序中的指令序列的执行使CPU 1506执行本文中所描述的过程步骤,但是硬连线的电路系统可以代替用于实现本发明的过程的软件指令来使用或者与这些软件指令组合使用。因此,所描述的系统和方法不限于硬件和软件的任何特定组合。
[0164] 可以提供用于执行与如本文中所描述的建模、评分和聚集相关的一种或多种功能的合适的计算机程序代码。程序还可以包括诸如以下的程序元件:操作系统1512、数据库管理系统、以及允许处理器经由输入/输出控制器1510与计算机外设装置(例如,视频显示器、键盘、计算机鼠标等)接口的“装置驱动器”。
[0165] 还提供了包括计算机可读指令的计算机程序产品。这些计算机可读指令在加载在计算机系统上并且在计算机系统上执行时使计算机系统根据上述方法或者上述方法的一个或多个步骤进行操作。本文中所使用的术语“计算机可读介质”是指将指令提供给(或者参与将指令提供给)计算装置1500的处理器(或本文中所描述的装置的任何其他处理器)以供执行的任何非暂态介质。这样的介质可以采取许多形式,包括,但不限于,非易失性介质和易失性介质。非易失性介质包括,例如,光、磁或光磁盘、或集成电路存储器(诸如闪存)。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括,例如,软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、或EEPROM(电可擦式可编程只读存储器)、FLASH-EEPROM、任何其他存储器芯片或盒、或者计算机可以从其读取的任何其他非暂态介质。
[0166] 各种形式的计算机可读介质可以涉及将一个或多个指令的一个或多个序列传载到CPU 1506(或本文中所描述的装置的任何其他处理器)以供执行。例如,指令可以一开始承载在远程计算机(未示出)的磁盘上。远程计算机可以将指令加载到其动态存储器中,并且通过以太网连接、电缆线、或者甚至使用调制解调器的电话线发送指令。计算装置1500本地的通信装置(例如,服务器)可以接收各自的通信线路上的数据,并且将该数据放置在系统总线上以供处理器使用。系统总线将数据传载到主存储器,处理器从主存储器检索指令并且执行这些指令。主存储器所接收的指令可选地可以在处理器执行之前或之后存储在存储器中。另外,指令可以作为电、电磁或光信号经由通信端口接收,这些是传载各种类型的信息的无线通信或数据流的示例性形式。
[0167] 本文中所描述的系统和方法已经应用于识别用于预测具有溃疡性结肠炎的患者对于anti-TNFα处置(特别是,infliximab(一种抗炎抗体))的响应的生物标记的问题。临床试验表明,5mg/kg的诱导在64%至69%的患者内给出临床响应。然而,临床医生已经被警告要平衡infliximab的潜在有益使用与自身免疫、机会性感染、败血症和恶性肿瘤的并发症的可能性。为了产生可以区分应接受该治疗的患者和不应接受该治疗的患者的签名,使用来自文献的来自接受了用infliximab治疗难治性溃疡性结肠炎的处置的两群患者的数据。在该数据集合中,用Affymetrix HGU-122Plus 2.0Arrays(GSE 12251和GSE 14580)执行来自结肠活检的基因分析。
[0168] 为了评估本文中所描述的系统和方法的某些实现的性能,将每个患者数据集合与在所有无响应患者上平均的数据进行比较,并且使用这些比较来确定TNF-IL1-NFKB模型的网络扰动,该网络扰动然后用作用于找到区分响应者与无响应者的机械签名的输入。在分类期间还使用如Tibshirani等人在“Diagnosis of multiple cancer types by shrunken centroids of gene expression”,Proc.Nati.Acad.Sci.2002,99:6567-6572中所描述的最近缩小质心技术。
[0169] 图19是描绘各种处置/控制状况的NPA得分的曲线图。具体地讲,图19示出了对于以下处置/控制组合,当输入表示倍数变化时对于TNF-IL1-NFKB网络模型计算的NPA得分:无响应者/控制、响应者/控制、以及响应者/无响应者。可以看出,对于无响应者/控制比较的的NPA得分比对于响应者/控制和响应者/无响应者比较的得分高得多,这表明TNF-IL1-NFKB网络模型表示可以有用地区分响应者与无响应者的生物机制。
[0170] 为了确定什么机制可能对于区分响应者与无响应者尤其相关,对骨干节点的活动值进行分析。对于每个骨干节点RNF、IL1R1、MYD88、catof(IL1R1)和catof(MYD88),比较对于三种处置/控制状况(即,无响应者/控制、响应者/控制、以及响应者/无响应者)中的每个产生的活动值。骨干节点对应于(如所述计算机实现方法中所描述的)第二节点子集,该子集表示其活动没有被物理地测量的生物实体,即,骨干实体。通过比较这些骨干实体中的每个的活动值的幅度,系统100能够产生几个潜在的生物标记和相应的假设。首先,系统100将TNF识别为对于区分溃疡性结肠炎(“UC”)患者与控制有用,但是对于区分响应者与无响应者没有用。ILR1对于区分无响应者与控制和无响应者与响应者有用,但是对于区分响应者与控制没有用。系统100还识别MYD88对于区分响应者与无响应者以及区分UC患者与控制有用。
[0171] 系统100识别TNF或IL1R1为不区分处置效果,而是识别MYD88为区分效果。
[0172] 图20例示了当系统100被供给响应者/无响应者倍数变化数据集合时系统100所产生的关于TNF-IL1-NFKB网络模型的主导骨干节点列表。如上所述,骨干实体按照它们对于NPA得分和的贡献的幅度的次序从下到上列出。在顶部实体之中,具有箭头的那些实体也被识别为对于使用PAM技术的网络是显著的,这表明以前的工作与本文中所描述的系统和方法的结果是良好地一致的。因此,本文中所描述的系统和方法提供与TNF、IL1和NFKB的作用的生物学的仿真相关的网络模型,其中,骨干节点包括MYD88、MAP3K1、IL1R、IRAK1P@T387、IRAK P@S376、catof(MYD88)、kaof(IRAK4)、IRAK1P@?和IRAK1。
[0173] 虽然已经参照特定例子具体示出和描述了本发明的实现,但是本领域的技术人员应理解,在不脱离本公开的精神和范围的情况下,可以进行形式和细节上的各种改变。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈