首页 / 专利库 / 人工智能 / 机器学习 / 集成学习 / 随机森林 / COPD生物标志标签

COPD生物标志标签

阅读:468发布:2022-01-01

专利汇可以提供COPD生物标志标签专利检索,专利查询,专利分析的服务。并且本 发明 涉及检测测试样品中指示COPD的差异表达蛋白表达的方法。所鉴定的COPD 生物 标志标签内蛋白 循环 水 平的检测可以辅助COPD诊断和 疾病 监测以及辅助预测对 治疗 剂的应答。所公开的生物标志标签或其生物标志亚类的评估提供了使用单独标志未发现的判别水平。,下面是COPD生物标志标签专利的具体信息内容。

1.一种对获自人类受试者的测试样品进行分类的计算机实现方法,该方法包括:
(a)获得与所述测试样品相关的数据集,其中所述获得的数据集包括选自多分析物组的至少三种蛋白标志的定量数据,所述多分析物组选自下述组:
(i)脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII);
(ii)脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α);和
(iii)α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1);
(b)将所述获得的数据集输入计算机分析程序,所述分析程序将所述获得的数据集与一个或多个参考数据集相比较;和
(c)根据所述分析程序的输出值来对所述测试样品进行分类,其中所述分类选自慢性阻塞性疾病(COPD)分类和健康分类。
2.根据权利要求1所述的方法,该方法还包括在对所述测试样品进行分类之后的下述任一步骤:(a)转换所述分类信息以评估临床试验中药物的效、诊断所述受试者的COPD、评估所述受试者COPD进展程度或制定针对所述受试者的COPD治疗计划;或者(b)治疗所述受试者的COPD。
3.根据权利要求1或2所述的方法,其中所述测试样品选自血液、血浆和血清。
4.根据权利要求3所述的方法,其中所述分析程序包括使用预测模型,所述预测模型包括所述一个或多个参考数据集。
5.根据权利要求4所述的方法,其中COPD分类代表快速下降COPD分类或缓慢下降COPD分类。
6.根据权利要求5所述的方法,其中所述一个或多个参考数据集包括获自一个或多个人类受试者的定量数据,所述人类受试者选自健康受试者、被诊断患有快速下降COPD的受试者和被诊断患有缓慢下降COPD的受试者。
7.根据权利要求6所述的方法,其中所述至少三种蛋白标志包括脱脂载脂蛋白H、MCP-1和TNF-RII。
8.根据权利要求7所述的方法,其中所述获得的数据集包括脱脂载脂蛋白H、CD40、触珠蛋白、IL-8、MCP-1和TNF-RII的定量数据。
9.根据权利要求6所述的方法,其中所述至少三种蛋白标志包括IgA、MIP-1α和组织因子。
10.根据权利要求9所述的方法,其中所述获得的数据集包括脱脂载脂蛋白CIII、CD40、GM-CSF、触珠蛋白、IgA、MIP-1α、组织因子和TNF-α的定量数据。
11.根据权利要求6所述的方法,其中所述至少三种蛋白标志包括MDC、组织因子和sVCAM-1。
12.根据权利要求11所述的方法,其中所述获得的数据集包括α-1抗胰蛋白酶、CRP、血纤蛋白原、GM-CSF、IL-4、MDC、组织因子、TNF-RII和sVCAM-1的定量数据。
13.根据权利要求1或2所述的方法,其中所述分析程序包括使用线性判别分析(LDA)模型、支持向量机分类算法、递归特征消除模型、微阵列模型预测分析、逻辑回归模型、CART算法、FlexTree算法、LART算法、随机森林算法、MART算法或机器学习算法。
14.根据权利要求13所述的方法,其中所述分析程序包括使用LDA模型,所述LDA模型包括被选择以提供超过75%的质量度量的项目。
15.根据权利要求14所述的方法,其中所述质量度量是准确度。
16.根据权利要求15所述的方法,其中对所述LDA模型进行调整以提供至少70%的灵敏度或特异性的至少一种。
17.根据权利要求4所述的方法,其中所述预测模型具有至少75%的分类质量度量。
18.根据权利要求17所述的方法,其中所述预测模型具有至少90%的分类质量度量。
19.根据权利要求17所述的方法,其中所述质量度量是准确度。
20.根据权利要求19所述的方法,其中将所述预测模型的限值进行调整以提供至少
70%的灵敏度或特异性的至少一种。
21.一种用于对获自人类受试者的测试样品进行分类的试剂盒,所述试剂盒包括用于检测选自多分析物组的至少三种蛋白标志的试剂,所述多分析物组选自下述组:
(a)脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII);
(b)脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α);和
(c)α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1);
其中所述分类选自慢性阻塞性肺疾病(COPD)分类和健康分类。
22.根据权利要求21所述的试剂盒,其中所述试剂是抗体

说明书全文

COPD生物标志标签

[0001] 相关申请的交互引用
[0002] 本申请要求2008年3月10日提交的美国临时申请第61/068,772号的权益,该美国临时申请在此通过引用并入。

技术领域

[0003] 本发明总体上涉及快速检测和准确诊断慢性阻塞性疾病(COPD)的方法。更具体说,本发明涉及指示COPD的生物标志标签和检测所述生物标志标签内一种或多种蛋白的差异表达以对测试样品进行分类。
[0004] 发明背景
[0005] 慢性阻塞性肺疾病(COPD)被定义为由对吸入颗粒(例如香烟烟雾)的异常炎症反应引起的渐进性气流限制(综述参见Fabbri等,2006,Am.J.Respir.Crit.Care Med.173:1056-1065)。它在美国是主要的死亡原因(Heffner,2002,Respir.Care 47:
586-607)。医生通过观察患者症状、评价生活方式选择(例如吸烟和职业)、进行身体检查并进行肺量测试以测量患者气流来诊断COPD。COPD的金标准诊断参数是下降的FEV1(1秒钟用呼气量),该参数通过肺量测定法测量(Rennard,1998,Chest 113:235S-241S)。在正常非吸烟者和吸烟者中,观察到缓慢但渐进性FEV1下降(≤20ml/年)。在约15%的吸烟者中,肺功能下降得比正常人快,导致身体性能限制加速(运动耐受性差)和呼吸困难(Rennard,1998,同上)。COPD患者之间的下降速率可以有很大不同。
[0006] 美国专利申请公开号US 2006/0211026(2006年9月公开,申请人是P.Belloni等)公开了诊断肺气肿和COPD和评估治疗性药物候选物效力的方法,所述诊断和评估是通过确定生物样品中生物标志的相对平是高于还是低于预期水平而进行的,其中所述生物标志选自下述:特异性SpB、链素、VEGF、IGFBP2、MMP12、TIMP1、MMP9、Crabp2、Rbp1、Cyp26a1、Tgm2、Timp3、Adam17、丝酸蛋白酶抑制蛋白a1、Slpi、Col1al1、EIn、TGFβ1、TGFβ-RII、Sftpa1、Sftpb、Csf2、Cxcl1、Cxcl2、Cxcl5、IL-8Rβ、IL-8Rα、IL-6、TNF、EGF-R、Areg、PDGFα、HpGF、FGF7、Kdr、flt1、Angpt1、Tek、HIF1α、Hyou1、PGF和弹性蛋白原。
[0007] PCT申请公开号WO 2004/070058(2004年8月19日公开,申请人为BayerHealthcare AG)公开了COPD患者中的人类跨膜结构域4亚家族S成员8B(″MS4A8B″)的过表达及其作为COPD诊断和预后标志的用途。
[0008] PCT申请公开号WO 2006/118522(2006年11月9日公开,申请人为Astrazeneca AB)公开了从锌-α2-糖蛋白、α1-抗胰蛋白酶、III型胶原、前列腺素-H2D异构酶、I型胶原、α1-微球蛋白、FGF、骨桥蛋白、α1-酸性糖蛋白2和血纤蛋白原α-E链衍生的肽作为COPD生物标志的鉴定和用途。
[0009] PCT申请公开号WO 2007/084485(2007年7月26日公开,申请人为Batelle MemorialInstitute)鉴定了在吸烟者中差异表达的多种基因标志并使用所述标志评估COPD相关疾病。
[0010] PCT申请公开号WO 2008/003066(2008年1月3日公开,申请人为Respiris,Inc.)公开了从信息内容库鉴定COPD标志的方法和所述标志诊断COPD(包括评估快速和缓慢下降状态中的疾病进展)的用途。

发明内容

[0011] 提供了快速检测和/或准确诊断慢性阻塞性肺疾病(COPD)的方法。该方法可以通过定量测试样品(例如,血液或诸如血浆或血清之类的血液衍生物)中三个公开的多分析物组之一内含有的至少一个亚类的蛋白生物标志来实施。选择生物标志的改变的水平在统计学上不同于对照受试者中发现的水平支持COPD的阳性诊断。因此,在被诊断患有COPD的患者血浆样品中发现的本文描述为“生物标志标签”的蛋白生物标志的多分析组有助于支持COPD的阳性或阴性诊断,并且有助于对阳性COPD诊断的严重度进行分类(例如,快速下降COPD和缓慢下降COPD)。在某些实施方案中,本公开方法在进行准确诊断和/或分类中提供超过90%的准确度。
[0012] 本发明鉴定和描述了在COPD患者中差异表达的循环蛋白。循环血浆标志包括脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(“IL-8”)、单核细胞趋化蛋白-1(“MCP-1”)、肿瘤坏死因子受体II(“TNF-RII”)、脱脂载脂蛋白CIH、粒细胞-巨噬细胞集落刺激因子(“GM-CSF”)、免疫球蛋白A(“IgA”)、巨噬细胞炎性蛋白1-α(“MIP-1α”)、组织因子、肿瘤坏死因子-α(“TNF-α”)、α-1抗胰蛋白酶、C-反应蛋白(“CRP”)、血纤蛋白原、白介素-4(“IL-4”)、巨噬细胞衍生的趋化因子(“MDC”)和可溶性血管细胞黏附分子1(“sVCAM-1”)。公开了包含上列血浆标志亚类的三个标志标签,其能够使人区分(a)快速下降COPD患者和对照(标签1)、(b)缓慢下降COPD患者和对照(标签2)以及(c)快速下降COPD患者和缓慢下降COPD患者(标签3)。
[0013] 因此,本发明提供了检测测试样品中指示COPD的差异蛋白表达的方法,其中所述测试样品包括但不限于血液或血液衍生物(例如,血浆)。本发明鉴定的蛋白的循环水平的检测可以将患者分类为具有COPD(诊断),并且可以根据疾病严重度对诊断患有COPD的患者进行分类(疾病监测)。这种分类可用于预测对治疗剂的应答,以辅助开发治疗COPD的成功疗法并帮助提供临床试验药物效力的早期评估(即,跟踪患者的治疗方案)。例如,在单时间点或时程中,可以在患者暴露于疗法之后确定本发明公开的生物标志的表达的测量值,所述疗法可以包括例如药物疗法、联合药物疗法和非药物干预。本文公开的生物标志标签或其生物标志亚类的评估提供了使用单个标志未发现的判别水平。在一个实施方案中,通过测量蛋白浓度或蛋白量来确定表达概况。
[0014] 在一个实施方案中,本发明提供了对获自哺乳动物受试者的测试样品进行分类的计算机实现方法,该方法包括(a)获得与所述测试样品相关的数据集,其中所述获得的数据集(即,测试数据集)包括选自多分析物组的至少三种蛋白标志的定量数据,所述多分析物组选自下述:(i)脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII);(ii)脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α);以及(iii)α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1);(b)将所述获得的数据集输入计算机分析程序,所述分析程序将所述获得的数据集与一个或多个参考数据集相比较;和(c)根据所述分析程序的输出值来对所述样品进行分类,其中所述分类选自慢性阻塞性肺疾病(COPD)分类和健康分类。优选的哺乳动物受试者是人类受试者。
[0015] 在又一实施方案中,本发明涉及一种对获自人类受试者的测试样品进行分类的方法,该方法包括(a)获得与所述测试样品相关的数据集,其中所述获得的数据集包括选自多分析物组的至少三种蛋白标志的定量数据,所述多分析物组选自下述组:(i)脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII);(ii)脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α);和(iii)α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1);(b)转换所述获得的数据集以使用分析程序对所述测试样品进行分类,所述分析程序比较所述获得的数据集与一个或多个参考数据集;和(c)根据所述分析程序的输出值对所述测试样品进行分类,其中所述分类选自慢性阻塞性肺疾病(COPD)分类和健康分类。
[0016] 本文公开的分析方法包括但不限于利用一个或多个参考数据集产生预测模型。测试样品数据与所述预测模型相比较以对样品进行分类,其中所述分类选自COPD分类和健康分类。COPD分类可以代表快速下降COPD分类或缓慢下降COPD分类。
[0017] 本发明的预测模型利用从参考群体获得的本文描述的标志的一个或多个亚类的定量数据。在一个实施方案中,定量数据代表血液或血液衍生物(例如血浆)中所公开的生物标志标签或其蛋白生物标志亚类内蛋白生物标志的蛋白浓度或相对量(例如,通过适合的检测方法测量)。预测模型可以提供分类的准确度水平,其中所述模型满足期望的质量阈值。感兴趣的质量阈值可以提供给定阈值的准确度并且可在本文称为质量度量。预测模型可以提供质量度量,例如,至少约70%、至少约80%、至少约90%或更高的分类准确度。在这种模型中,可以适当选择参数以提供期望的灵敏度与选择性的平衡。
[0018] 在本发明的一个实施方案中,这种预测模型可用于将获自哺乳动物受试者的测试样品分类为源自健康个体或COPD(特别是快速下降COPD)个体的方法。所述方法的第一步是获得与血液或血液衍生物(例如血浆)样品有关的数据集,其中所述数据集包括选自脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII)中的至少三种或至少四种或至少五种或全部六种蛋白标志的定量数据。然后将测试样品数据集与参考数据集比较,所述参考数据集含有获自用于产生预测模型的一个或多个参考样品的相同蛋白标志组的定量数据。在一个实施方案中,用于产生预测模型的测试数据集和参考数据集都包括至少三种血浆标志脱脂载脂蛋白H、MCP-1和TNF-RII的定量数据。在另一实施方案中,定量数据是蛋白浓度的测量值。
[0019] 在另一实施方案中,通过获得与血液或血液衍生物(例如血浆)样品相关的数据集而将预测模型用于对获自哺乳动物受试者的测试样品进行分类,其中所述数据集包括选自脱脂载脂蛋白CIII、CD40、触珠蛋白、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α)中的至少三种、至少四种、至少五种、至少六种、至少七种或全部八种蛋白标志的定量数据。如上述实施方案所描述的,将测试样品数据集与获自用于产生预测模型的一个或多个参考样品的相同数据集(即,由相同蛋白生物标志组的定量数据组成的参考数据集)相比较。该方法将样品分类为源自健康个体或COPD(特别是缓慢下降COPD)个体。在又一实施方案中,用于产生预测模型的测试数据集和参考数据集都包括至少三种血浆标志IgA、MIP-1α和组织因子的定量数据。在另一实施方案中,定量数据集是蛋白浓度的测量值。
[0020] 在又一实施方案中,预测模型用于将获自哺乳动物受试者的测试样品分类为源自患有某种严重度的COPD(特别是快速下降COPD或缓慢下降COPD)的个体。所述方法的第一步是获得与血液或血液衍生物(例如血浆)样品有关的数据集,其中所述数据集包括选自α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1)中的至少三种或至少四种或至少五种或至少六种或至少七种或至少八种或全部九种蛋白标志的定量数据。将测试样品数据集与获自用于产生预测模型的一个或多个参考样品的相同数据集(即,由相同蛋白生物标志组的定量数据组成的参考数据集)相比较。在又一实施方案中,数据集包括至少三种血浆标志MDC、组织因子和sVCAM-1的定量数据。在另一实施方案中,定量数据是蛋白浓度的测量值。
[0021] 如本文使用的,患有快速下降COPD的个体每年丧失平均40ml FEV1(1秒钟用力呼气量)或更多,FEV1通过肺量测定法测量。患有缓慢下降COPD的个体每年丧失平均小于40mlFEV1。
[0022] 对开放式术语(例如“包括”)的提及允许其他元素或步骤。有时,与或不与开发式术语一起使用的短语(诸如“一个或多个”)用来强调其他元素或步骤的可能性。
[0023] 除非明确说明,否则对诸如“一个”或“一种”的术语的提及不限于一个或一种。例如,“一种细胞”不排除“多种细胞”。有时,诸如一个(种)或多个(种)的短语用来强调可能存在多个(种)。
[0024] 本发明其他特征和优点通过本文提供的其他说明(包括不同的实施例)而变得明显。所提供的实施例示例说明了用于实施本发明的不同组成部分和方法。实施例不限制所要求保护的发明。基于本公开内容,技术人员能够鉴别和采用可用于实施本发明的其他组成部分和方法。
[0025] 附图简述
[0026] 图1示例说明通过单变量分析测定的以显著不同的水平存在于COPD快速下降者(“+”)和COPD缓慢下降者(“◇”)和/或健康受试者(“·”)中的血浆标志的四个实例:(A)嗜酸性粒细胞趋化因子(eotaxin)、(B)IL-4、(C)MCP-1和(D)sVCAM-1。
[0027] 图2示例说明使用不同标签的线性判别分析(LDA)的图形输出,(A)COPD快速下降者与健康对照,(B)COPD缓慢下降者与健康对照,和(C)COPD快速下降者与COPD缓慢下降者(“·”,对照(CTL);“+”,COPD或COPD快速;“◇”,COPD缓慢)。LDA分析测量了数据集中每个点与每组多变量平均值之间的距离并且将所述点分类至最接近的组。所使用的距离测量是氏距离(Mahalanobis distance),其考虑了变量之间的方差和协方差。每个多变量平均值是标记的圆圈。圆圈尺寸对应于95%的平均值置信界限。显著不同的组倾向于具有不相交的圆圈。这些图形使用SAS Institute(Cary,NC)的JMP软件v5.0.1来产生。

具体实施方式

[0028] 本文提供了用以肯定性鉴定患有COPD的患者和/或区分由于COPD而可能经历快速肺功能下降或缓慢肺功能下降的受影响患者的分子因子和确定测试的公开内容。因为COPD是经数十年缓慢进展的疾病,只有在疾病晚期才出现显著的肺功能限制,能够1)帮助诊断COPD、2)预测肺功能下降的速率和3)以实时方式检测临床试验验中的药物效力的生物标志的早期检测将是非常有用的。
[0029] I.血浆生物标志
[0030] 公开了与健康对照相比COPD患者中统计学上不同水平的血浆蛋白的鉴定(参见实施例3)。在通过本文所述单变量分析评价和分析的89种血浆标志中,25种标志在COPD快速下降者与健康对照之间统计学上不同(p<0.05;参见表3,下文),4种标志在COPD缓慢下降者与健康对照之间统计学上不同(p<0.05;参见表4,下文),并且10种标志在COPD快速下降者与COPD缓慢下降者之间统计学上不同(p<0.05;参见表5,下文)。由于这些血浆标志没有一个能够自身清楚区分COPD患者与对照,因此使用线性判别分析(LDA)方法进行数据的多变量分析。该方法鉴定了能够准确区分COPD快速下降者与健康对照(标签1)、COPD缓慢下降者与健康对照(标签2)和COPD快速下降者与COPD缓慢下降者(标签
3)的三个血浆生物标志组。
[0031] 在血浆中可检测的COPD生物标志是优选的,因为血液容易获得并且比支气管肺泡灌洗液或诱导的痰中含有的肺分泌物更稳定。有趣的是,越来越多的证据表明COPD中发生局部炎症和全身炎症两者(综述参见Wouters,2005,Proc.Am.Thorac.Soc.2:26-33)。然而,还不清楚COPD是否产生于在烟雾刺激的肺中明显的炎症的调节的一般性缺陷或在具有全身蔓延的肺中特异性发生的失控的炎症过程。在任何一种情况下,外周血代表方便且丰富的有关COPD进展的信息来源。
[0032] 标签1是由下述6种蛋白标志组成的多分析物组:脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII)。标签1可以在93%的病例中正确鉴定来自COPD快速下降者的血浆样品(灵敏度)并且可以在86%的病例中正确鉴定来自健康受试者的血浆样品(特异性),区分这两组的总体准确度为90%(参见实施例3中表6,下文)。
[0033] 标签2是由下述8种蛋白标志组成的多分析物组:脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α)(参见实施例3中表6,下文)。标签
2可以以91%灵敏度和96%的特异性正确鉴定COPD缓慢下降者的血浆样品(与健康受试者相比),总体准确度为94%。
[0034] 标签3是由下述9种蛋白标志组成的多分析物组:α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNF-RII)和血管细胞黏附分子1(sVCAM-1)。标签3可以在95%的病例中正确鉴定血浆样品来自COPD快速下降者(灵敏度)并且可以在86%的病例中正确鉴定血浆样品来自COPD缓慢下降者(特异性),区分这两组的总体准确度为92%(参见实施例3中表6,下文)。
[0035] 表1提供了关于本文公开的标签1-3中鉴定的蛋白的进一步信息。所列登录号对应于国立卫生研究院维护的国家生物技术信息中心(NCBI)数据库中的条目。
[0036] 表1:
[0037]
[0038] 蛋白以多种不同形式频繁出现于样品中。这些形式可能产生于翻译前修饰和翻译后修饰的任一种或两者。翻译前修饰形式包括等位基因变体、剪接变体和RNA编辑形式。翻译后修饰形式包括产生于蛋白酶剪切(例如母体蛋白的信号序列或其片段的剪切)、糖基化、磷酸化、脂化、化、甲基化、半胱氨酰化、磺化和乙酰化的形式。
[0039] 因此,除了该申请中通过名称或登录号鉴定的特定生物标志序列外,本发明还考虑了在测试样品中检测与表1所列示例的生物标志序列(核苷酸序列或蛋白序列)具有至少90%或至少95%或至少97%同一性的天然存在的变体。所述生物标志变体可用于本发明的方法并且可通过本文所公开的用于检测表1第1列所列原始生物标志的方法来检测(例如,与特异性针对表1所列蛋白生物标志的抗体的交叉反应性)。这些变体包括但不限于多态物质、剪接变体和突变体。
[0040] 术语百分比“同一性”在两个或多个核酸或多肽序列的上下文中指使用序列比对算法(例如BLASTP和BLASTN或技术人员可用的其他算法)或通过目测测量,当最大对应对比和比对时具有指定百分比的相同核苷酸或氨基酸残基的两个或多个序列。根据本申请,百分比同一性可以存在于被对比的序列区(例如,在功能结构域)或者可选地存在于两个对比序列的全长。对于序列对比而言,通常一个序列用作测试序列与之对比的参考序列。当使用序列对比算法时,将测试序列和参考序列输入计算机,指定子序列坐标(如果必要),并指定序列算法程序参数。然后序列对比算法计算测试序列相对于参考序列的百分比序列同一性。可以进行对比序列的最佳算法,例如,通过Smith和Waterman(1981,Adv.Appl.Math.2:482)的局部同源性算法,通过Needleman和Wunsch(1970,J Mol Biol 48:443)的同源性比对算法,通过Pearson和Lipman(1988,Proc.Natl Acad.ScL USA 85:2444)的相似性检测方法,通过这些算法的计算机实现(GAP、BESTFIT、FASTA和TFASTA,Wisconsin Genetics Software Package,Genetics ComputerGroup,575 Science Dr.,Madison,WI),或者通过目测(一般参见Ausubel,F M等,CurrentProtocols in Molecular Biology,4,John Wiley&Sons,Inc.,Brooklyn,N.Y.,A.1E.1-A.1F.11,1996-2004)。适合测定百分比序列同一性和序列相似性的算法的一个实例是BLAST算法,其描述于Altschul等(1990,J.Mol.Biol.215:403-410)。进行BLAST分析的软件可通过国家生物技术信息中心(www.ncbi.nlm.nih.gov)公开获得。
[0041] II.生物标志检测
[0042] 蛋白生物标志特征为分子量和/或其已知的蛋白同一性。蛋白生物标志可以通过使用多种分级分离技术与样品中的其他蛋白分离,所述分级分离技术例如与质谱偶联的色谱分离、使用固定化抗体的蛋白捕获和传统的免疫分析法。为此目的可以采用的检测范例包括光学方法、电化学方法(电压计量技术和电流计量技术)、原子力显微术和射频方法,例如多级共振光谱。除了共焦和非共焦的显微术以外,光学方法的示例还有检测荧光、发光、化学发光、吸光度、反射、透射和双折射或屈光指数(例如,表面等离子共振、椭圆对称、共振镜像法、光栅耦合器波导法和干涉测定法)。
[0043] 当检测或测量样品(例如本文描述的测试样品)中的蛋白时,区分两种不同蛋白和相同蛋白的不同形式的能力取决于蛋白之间的差异的性质和使用的检测方法。例如,使用单克隆抗体的免疫分析将检测含有表位的蛋白的所有形式并且不会区分它们。然而,使用针对蛋白上不同表位的两种抗体的夹心免疫分析将检测含有两种表位的蛋白的所有形式并且不会检测仅含有两种表位之一的那些形式。当蛋白的一种特定形式(或特定形式亚类)是比通过特定方法一起检测的不同形式的集合更好的生物标志时,分析能力可能受损。因此,采用区分蛋白形式并且特异性检测和测量期望的蛋白形式的分析方法可能是有用的。区分蛋白分析物的不同形式或特异性检测蛋白分析物的特定形式被称为“分辨”分析物。
[0044] 在本发明的一个实施方案中,分析血液样品或血液衍生样品(例如血浆、血清)中是否存在作为本文所述多分析物生物标志标签成员公开的一种或多种蛋白标志。通常,抽取血液样品,测试衍生产品,例如血浆或血清。此类蛋白生物标志可以通过使用特异性结合成员检测。例如,抗体为此目的的用途是特别令人感兴趣的。各种形式可用于此类分析,包括下述:抗体分析;酶联免疫吸附分析(ELISA)和放射免疫分析(RIA)形式;悬浮液/溶液中标记抗体的结合以及通过包括但不限于流式细胞术和质谱的方法检测。检测可以利用一个抗体或一组抗体,优选阵列形式的一组抗体。
[0045] 本发明的生物标志还可以通过质谱检测,质谱是采用质谱仪检测气相离子的方法。质谱仪的实例有飞行时间(time-of-flight)、磁场、四级滤波器离子阱离子回旋共振、静电场分析器和这些的组合。质谱仪可以是激光解吸/电离(LDI)质谱仪。在激光解吸/电离质谱仪中,将蛋白分析物置于质谱仪探头表面,质谱仪探头是适以接合质谱仪探头接口并为分析物提供电离和引入质谱仪的电离能量的装置。激光解吸质谱仪采用激光能量(通常来自紫外激光器,但也来自红外激光器)来使分析物从表面解离,使它们挥发并电离,并使它们可用于质谱仪的离子光学。LDI对蛋白质的分析可采取MALDI形式或SELDI形式(参见美国公开号US20070172902,申请人为Zhang等)。
[0046] 质谱仪还是分辨蛋白不同形式的特别有效的方法,因为不同形式通常具有可通过该技术分辨的不同质量。因此,如果蛋白的一种形式是比另一种生物标志形式更好的用于本发明公开的方法检测的生物标志,当传统的免疫分析既不能区分所述形式也不能特异性检测有用的生物标志时,质谱仪能够特异性检测并测量有用的形式。
[0047] 质谱还可以与免疫分析结合使用。首先,使用生物特异性捕获试剂(例如,识别生物标志及其各种形式的抗体)捕获感兴趣的生物标志。优选地,生物特异性捕获试剂与固相结合,例如珠、板、膜或阵列。洗掉未结合的物质后,通过质谱检测和/或测量被捕获的分析物。质谱的各种形式可用于检测上述蛋白形式,包括激光解吸方法,例如传统的MALDI或SELDI、以及电喷雾电离。
[0048] 测试样品还可以借助生物芯片来分析。生物芯片一般包括固体基底并且具有捕获试剂(还称为吸附或亲和试剂)与之附着的大体上平的表面。通常,生物芯片表面包括多个可寻址位置,每个位置具有结合其上的捕获试剂。蛋白生物芯片是适合捕获多肽的生物芯片。现有技术描述了许多蛋白生物芯片。这些包括例如Ciphergen Biosystems,Inc.(Fremont,CA)、Zyomyx(Hayward,CA)、Invitrogen(Carlsbad,CA)、Biacore(Uppsala,Sweden)和Procognia(Berkshire,UK)生产的蛋白生物芯片。此类蛋白生物芯片的实例描述于下述专利或公开的专利申请:美国专利号6,225,047(Hutchens&Yip);美国专利号6.537,749(Kuimelis和Wagner);美国专利号6,329,209(Wagner等);PCT国际公开号WO 00/56934(Englert等);PCT国际公开号WO03/048768(Boutell等);和美国专利号5,242,828(Bergstrom等)。
[0049] III.对样品进行分类
[0050] 本发明公开了用于快速检测和/或准确诊断受试者中慢性阻塞性肺疾病(COPD)、根据疾病严重度分类和/或鉴定源自被诊断患有COPD的受试者的样品、以及鉴定和评估受试者中COPD进展程度(疾病监测/分期)的方法。将测试样品分类和/或鉴定为源自健康对照、快速下降COPD患者或缓慢下降COPD患者还可用于预测和/或监测对治疗方案的应答,包括但不限于监测临床试验过程中的药物效力。因此,本发明包括评价治疗剂和治疗方案效力的方法;疾病分期和分类的方法;等等。早期检测可用于确定发展的COPD的发生,从而允许使用适当的预防性或保护性措施来干预。
[0051] 在将测试样品分类为获自COPD(缓慢下降或快速下降COPD)受试者、诊断COPD患者、或对患者COPD严重度进行分类的方法中,获得测试样品(包括但不限于血液、血清和血浆)中本文提供的一种或多种蛋白标志的表达模式并与对照值比较以确定诊断/分类。例如,血液衍生样品(测试样品)可应用于特异性结合剂(例如抗体)或特异性结合剂组以确定样品中感兴趣标志的存在和/或定量样品中的标志。分析一般包括检测和/或定量本文描述的标志的至少一种,例如脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(“IL-8”)、单核细胞趋化蛋白-1(“MCP-1”)、肿瘤坏死因子受体II(“TNF-RII”)、脱脂载脂蛋白CIII、粒细胞-巨噬细胞集落刺激因子(“GM-CSF”)、免疫球蛋白A(“IgA”)、巨噬细胞炎性蛋白1α(“MIP-1α”)、组织因子、肿瘤坏死因子-α(“TNF-α”)、α-1抗胰蛋白酶、C-反应蛋白(“CRP”)、血纤蛋白原、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(“MDC”)和可溶性血管细胞黏附分子1(“sVCAM-1”);通常是所述标志的至少两种,更通常是所述标志的至少三种,并且可以包括所述标志的4种、5种、6种、7种或全部,这取决于期望的具体分类。
[0052] 当将测试样品分类为衍生自COPD受试者和/或诊断COPD受试者、特别是对快速下降COPD与健康对照进行分类时,优选的标志集包括下述多分析物组的至少三种:脱脂载脂蛋白H、CD40、触珠蛋白、IL-8、MCP-1和TNF-RII;并且可以包括它们中的4种、5种或全部6种。该多分析物组代表本文所述的标签1。该方法优选的至少三种定量标志是脱脂载脂蛋白H、MCP-1和TNF-RII,提供大约89%的正确鉴定来自COPD快速下降者与健康受试者的血浆样品的总体准确度(参见表6,下文)。通过评估标签1内所列生物标志全部6种的定量数据,准确度提高至大约90%(参见表6,下文)。
[0053] 当将测试样品分类为衍生自COPD受试者和/或诊断COPD受试者、特别是在缓慢下降COPD与健康对照之间进行分类时,优选的标志集包括下述多分析物组的至少三种:脱脂载脂蛋白CIII、CD40、触珠蛋白、GM-CSF、IgA、MIP-1α、组织因子和TNF-α;并且可以包括它们中的4种、5种、6种、7种或全部8种。该多分析物组代表本文所述的标签2。该方法优选的至少三种定量标志是IgA、MIP-1α和组织因子,提供大约76%的正确鉴定来自COPD缓慢下降者与健康受试者的血浆样品的总体准确度(参见表6,下文)。通过进一步定量GM-CSF(总共4种生物标志),准确度提高至大约78%;通过进一步定量GM-CSF和脱脂载脂蛋白CIII(总共5种生物标志),准确度提高至大约83%。通过评估所列生物标志全部8种的定量数据,准确度提高至大约94%(参见表6,下文)。当将测试样品分类为衍生自COPD受试者和/或诊断COPD受试者、特别是在快速下降COPD与缓慢下降COPD之间进行分类时,优选的标志集包括下述多分析物组的至少三种:α-1抗胰蛋白酶、CRP、血纤蛋白原、GM-CSF、IL-4、MDC、组织因子、TNF-RJI和sVCAM-1;并且可以包括它们中的4种、5种、6种、
7种、8种或全部9种。该多分析物组代表本文所述的标签3。该方法优选的至少三种定量标志是MDC、组织因子和sVCAM-1,提供大约80%的正确区分源自COPD快速下降者与源自COPD缓慢下降者的血浆样品的总体准确度(参见表6,下文)。通过进一步定量IL-4(总共
4种生物标志),准确度提高至大约85%;通过评估所列生物标志的全部9种的定量数据,准确度提高至大约92%。当对COPD严重度(即,快速下降者与缓慢下降者)进行分期时,将个体测试数据集与获自已知分期的疾病样品的一个或多个参考数据集相比较,构建预测分期的模型并将数据集输入该模型以获得预测的分期。
[0054] 因此,使用本文公开的信息,本发明提供了用于对获自哺乳动物受试者的测试样品进行分类的计算机实现方法,该方法包括(a)获得与所述样品相关的数据集,其中所述获得的数据集(即,测试数据集)包括选自多分析物组的至少三种蛋白标志的定量数据,所述多分析物组选自下述组(i)脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-SRII);(ii)脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α);和(iii)α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1);(b)将所述获得的数据集输入计算机分析程序,所述分析程序将所述获得的数据集与一个或多个参考数据集相比较;和(c)根据所述分析程序的输出来对所述样品进行分类,其中所述分类选自COPD分类和健康分类。在进一步实施方案中,COPD分类代表快速下降COPD分类和/或缓慢下降COPD分类。
[0055] 本发明还提供了对获自人类受试者的测试样品进行分类的方法,该方法包括(a)获得与所述测试样品相关的数据集,其中所述获得的数据集包括选自多分析物组的至少三种蛋白标志的定量数据,所述多分析物组选自下述组:(i)脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII);(ii)脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α);
和(iii)α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1);(b)转换所述获得的数据集以使用分析程序对所述测试样品进行分类,所述分析程序比较所述获得的数据集与一个或多个参考数据集;和(c)根据所述分析程序的输出对所述测试样品进行分类,其中所述分类选自慢性阻塞性肺疾病(COPD)分类和健康分类。
[0056] 本文描述的分类方法可用于为了诊断或疾病分期目的而鉴定受试者(例如人类患者),以准确发展最适合所述个体的疗程。分类方法还可用于帮助计算和评估临床实验中药物治疗COPD的效力。因此,一旦受试者被分类,则该信息可被转换,例如以产生更有效的治疗计划来限制所述患者中COPD的进一步发展或者以确定药物候选物用于COPD治疗的效力。
[0057] 本文公开的方法可通过测定测试血浆样品中本文描述的三个生物标志标签的至少一个亚类的浓度来实施。在某些实施方案中,本公开方法在进行正确诊断中提供了超过90%的准确度。
[0058] 本文描述的方法可使用能够实现该方法的任何装置来实现。可使用的装置的实例包括但不限于电子计算装置,包括所有类型的计算机。当在计算机上实现本文描述的方法时,可用来配置计算机以运行所述方法的步骤的计算机程序可包含在能够含有计算机程序的任何计算机可读介质中。可以使用的计算机可读介质的实例包括但不限于磁盘、CD-ROM、DVD、ROM、RAM和其他记忆和计算机存储装置。可用于配置计算机以运行所述方法的步骤的计算机程序还可提供在电子网络上,例如在因特网、万维网、内部网或其他网络上。
[0059] 本文描述的方法可以在包含处理器和计算机可读介质的系统中实现,所述计算机可读介质包括导致所述系统运行所述方法的步骤的程序代码工具。处理器可以是能够运行实现方法所需的操作的任何处理器。程序代码工具可以是当在系统中实现时可导致系统运行本文所述方法的步骤的任何代码。程序代码工具的实例包括但不限于以高级计算机语言(例如C++、Java或Fortran)编写的运行本申请中所述方法的指令;以低级计算机语言(例如汇编语言)编写的运行本申请中所述方法的指令;或者计算机可执行形式(例如编译和链接机器语言)的运行本文所述方法的指令。
[0060] IV.数据分析
[0061] 样品(例如,测试样品或参考样品)中标志的定量通过上述方法和本领域已知的方法确定。从测试样品获得的定量数据(在本文可互换使用的“获得的数据集”或“测试数据集”)进行分析分类过程,该过程比较获得的数据集与一种或多种参考数据集。在一个实施方案中,包括但不限于有关测试生物标志的蛋白浓度数据的原始数据被定量并与预测模型比较,所述预测模型通过评估使用从测试样品收集的相同定量数据的一个或多个参考群体产生。预测模型使用来自参考群体的训练数据集产生,其中训练数据集和测试(或获得的)数据集都由相同的定量信息组成。例如,在本发明的一个实施方案中,当进行用于对测试样品进行分类或诊断受试者具有快速下降COPD的方法时,由脱脂载脂蛋白H、MCP-1和TNF-RII的循环血浆浓度数据组成的测试样品有关的数据集与使用获自健康个体(参考样品1)和快速下降COPD个体(参考样品2)的相同浓度数据集(即,脱脂载脂蛋白H、MCP-1和TNF-RII的循环血浆浓度)产生的预测模型相比较。
[0062] 因此,在优选实施方案中,本发明方法使用用于诊断COPD或对COPD进行分类的分类器。分类器可以基于接收输入(包括多分析物概况)并提供输出(包括指示测试样品属于哪组的数据)的任何适当的模式识别方法。分类器可以用来自一个或多个参考受试者群体的训练数据(参考数据集)进行训练。通常,对于训练群体中每个受试者而言,训练数据包括多分析物概况,包括取自患者的适合样品中生物标志蛋白的定量测量值。
[0063] 分析分类过程可以使用操作定量数据并提供测试样品分类的多种统计学分析方法的任何一种。有用方法的实例包括线性判别分析(LDA)、递归特征消除、微阵列预测分析、逻辑回归、CART算法、FlexTree算法、LART算法、随机森林算法、MART算法和机器学习算法。优选的分析方法是LDA。使用这些方法的任何一种,使用一种或多种参考数据集产生预测模型。在产生此类模型时,包括对照和/或患病样品的数据集用作训练集。训练集会包含测试样品中定量的相同标志组的数据。本文提供了用于区分快速下降COPD患者与健康受试者、缓慢下降COPD患者与健康受试者和快速下降COPD患者与缓慢下降COPD患者的预测模型的实例,例如,参见实施例3。
[0064] 本文证明的预测模型利用本文所述标签1、2或3中包含的生物标志或所述标签中的生物标志集的多蛋白水平测定的结果,并且提供将以期望的准确度将个体分类为属于特定状态的机制,其中状态可以是快速下降COPD、缓慢下降COPD或健康(无疾病状态)。因此,感兴趣的分类包括但不限于将测试样品分至下述状态的一个或多个:i)COPD状态,包括快速下降COPD状态或缓慢下降COPD状态;和ii)健康状态(无疾病状态)。
[0065] 分类还可以通过确定获得的数据集与参考数据集之间的对比是否产生统计学显著差异来进行。如果是,则从中获得数据集的样品被分类为不属于参考数据集类。相反,如果这种对比与参考数据集不是统计学显著的,则从中获得数据集的样品被分类为属于参考数据集类。
[0066] 分类可以根据预测模拟方法进行,所述预测模拟方法设定用于确定样品属于给定类的概率的阈值。本发明方法的概率为至少约70%、优选至少约80%和更优选至少约90%或更高。模型的预测能力可以根据其提供特定值或值范围的质量度量(例如准确度)的能力来评价。在一个实施方案中,期望的质量阈值具有以至少约70%、至少约75%、至少约80%、至少约85%或至少约90%或更高的准确度分类测试样品的能力。术语“准确度”指单个标志或标志组合正确鉴定疾病状态(例如COPD)与对照状态(例如,健康)的计算能力。如本领域已知的,预测模型的相对灵敏度和特异性可以被调节以助于选择性度量或灵敏度度量,其中两种度量具有反关系。术语“灵敏度”指个体标志或标志组合正确鉴定疾病状态的能力,而术语“特异性”指标志正确鉴定正常(例如,无病的)状态的能力。本文所述模型的限值可以被调整以提供选定的灵敏度或特异性水平,根据进行的测试的具体要求。灵敏度和特异性之一或两者是至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%或至少约90%或更高。
[0067] 原始数据最初可通过测量每个标志的值(例如,浓度)来分析,所述测量通常以三次重复或以两次重复。数据可以被操作,例如原始数据可以使用标准曲线和用于计算每个患者平均和标准偏差的三次重复测量值的平均值来转换。这些值可以在用于模型之前被转换,例如对数转换、Box-Cox转换(参见Box和Cox(1964),J.Royal Stat.Soc,B系列,26:211-246)。然后将数据输入预测模型,预测模型根据状态对样品进行分类。得到的信息可以传送至患者、卫生专业人士或临床研究分析员。
[0068] 为了产生COPD状态的预测模型,训练集(“参考数据集”)中使用了强大的数据集,包括已知的对照样品和/或对应于感兴趣的分类的样品。使用普遍接受的标准选择样品大小。如上讨论,可以使用不同的统计学方法来获得高度准确的预测模型。实施例3提供了使用线性判别分析(LDA)的此类分析的实例。
[0069] 线性判别分析(LDA)试图根据某些客体性质将测试样品或受试者分类至两个类别之一。换言之,LDA测试实验中测量的客体属性是否预测客体的分类。LDA通常需要连续自变量和二元分类因变量。在本发明中,跨训练群体亚类的本文公开的生物标志的选定集的定量值(例如,蛋白浓度数据)用作必需的连续自变量。训练群体的每个成员的临床组分类用作二元分类自变量。
[0070] LDA寻求使组件差异和组内差异比值最大化的线性变量组合,通过使用分组信息。意味着,LDA使用的线性加权取决于跨训练集的生物标志的定量值(例如,蛋白浓度)在两组(例如,COPD对照组和健康对照组)中区分的方式。在一些实施方案中,LDA通过本发明描述的生物标志组合中的K生物标志应用于训练样品中N成员的数据矩阵。然后,对训练群体每个成员的线性判别绘图。理想地,训练群体中代表第一对照小组(例如,健康组)的那些成员将簇成线性判别值的一个范围(例如,阴性),而训练群体中代表第二对照小组的那些成员(例如,具有COPD的那些受试者)将簇成线性判别值的第二个范围(例如,阳性)。
当判别值簇之间距离较远时,认为LDA是较成功的。有关线性判别分析的更多信息,参见Duda,PatternClassification,第二版,2001,John Wiley&Sons,Inc;和Hastie,2001,The Elements of StatisticalLearning,Springer,New York;Venables&Ripley,1997,Modern Applied Statistics with s-plus,Springer,New York。
[0071] 二次判别分析(QDA)采用与LDA相同的输入参数并得到与LDA相同的结果。QDA使用二次方程而非线性方程来产生结果。LDA和QDA可互换,使用哪一个是优选和/或支持分析的软件可用性的问题。逻辑回归采用与LDA和QDA相同的输入参数并得到与LDA和QDA相同的结果。
[0072] 在一个实施方案中,在预测模型的推导中进行分级群聚,其中采用Pearson相关作为群聚度量。一个方法是将COPD数据集视为“监督学习”问题中的“学习样品”。CART是药物应用中的标准(Singer(1999)Recursive Partitioning in the Health Sciences,Springer),其可以通过下述被修改:将任何定性特征转换为定量特征;通过达到的显著性水平而分选它们,通过Hotelling′s T2统计的样品重用方法评价;和lasso方法的适当应用。预测中的问题被转换为回归中的问题,而没有失去预测能力,实际上通过在评估回归质量中适当利用分类的Gini标准。
[0073] 该方法产生了称为F1exTree的算法(Huang等,2004,Proc,Natl.Acad.ScL USA101:10529-10534)。FlexTree在模拟中和应用于SNP和其他数据形式时运行得非常良好。
已经开发了自动化FlexTree的软件。最近的努力已经导致此类方法的开发,称为LARTree或简单LART(Turnbull(2005)Classification Trees with Subset Analysis Selection by the Lasso,StanfordUniversity)。名称反映了二元树,如在CART和FlexTree中;已经提到的lasso;和通过称为LARS的算法实现lasso,Efron等(2004)Annals of Statistics
32:407-451。还参见Huang等,2004,同上。
[0074] 可以使用的其他分析方法包括逻辑回归(参见,例如Ruczinski等,2003,J Comput.Graph.Stat.12:475-512)。逻辑回归类似于CART,因为它的分类器可以展示为二元树。不同在于每个节点具有关于特征的Boolean语句,比CART产生的简单的“和”语句更普遍。
[0075] 另一种方法是最接近缩小距心的方法(Tibshirani等,2002,Proc.Natl.Acad.ScL USA99:6567-72)。该技术是k均值样的,但是具有下述优点:通过缩小簇中心,自动化选择特征(如在lasso中)以集中关注有信息的那些小数目。该方法可获得为PAM软件并被广泛使用。两个其他算法集是随机森林(Breiman等,2001,MackLearn.45:5-32)和MART(Hastie等,2001,TheElements of Statistical Learning,Springer)。这两种方法已经是“委员会方法”。因此,它们涉及对结果“投票”的预测器。
[0076] 为了提供重要性排序,可以确定假发现率(FDR)。首先,产生一组不同性值的零分布。在一个实施方案中,排列观察到的概况的值以产生偶然获得的相关系数的分布序列,从而产生相关系数的零分布的适当组(参见Tusher等,2001,Proc.Natl Acad.Sci.USA 98,5116-21;在此通过引用并入)。通过下述获得零分布组:排列所有可用概况的每个概况的值;计算所有概况的配对相关系数;计算该排列相关系数的概率密度函数;和,重复该过程N次,其中N是大数,通常约300。使用N分布,计算其值以给定的显著性水平超过从实验观察到的相似性值的分布获得的值(相似性的值)的相关系数值的计数的适当量度(平均值、中值等)。
[0077] FDR是预期假显著相关数目(从大于随机数据集中该选定Pearson相关的相关评估)与实验数据中大于该选定Pearson相关的相关数目(显著相关)的比值。该截止相关值可应用于实验概况之间的相关。使用前述分布,选择显著性的置信水平。其用来确定超出偶然获得的结果的相关系数的最低值。使用该方法,获得正相关、负相关或两者的阈值。使用该阈值,用户可以过滤配对相关系数的观察值并去除不超过阈值的那些。另外,可以获得给定阈值的假阳性率的评估。对于单个“随机相关”分布的每一个,可以找到有多少观察值落到阈值范围之外。该过程提供计数序列。所述序列的平均值和标准偏差提供潜在假阳性的平均数目及其标准偏差。
[0078] 在可选的分析方法中,交叉面分析中选择的变量分开用作预测器。考虑特定的COPD结果、每个患者观察到的随机时长和蛋白质组和其他特征的选择,分析存活的参数方法可能好于广泛应用的半参数Cox模型。存活的Weibull参数拟合允许险率是单一性增加、降低或恒定的,并且还具有成比例的风险表现(与Cox模型一样)和加速的失败时间表现。可用于获得回归系数及其函数的近似最大似然评估的所有标准工具在该模型中是可用的。
[0079] 此外,可以使用Cox模型,特别是因为协变量数目减少至可用lasso管理的大小将显著简化分析,允许完全非参数存活方法的可能性。这些统计学工具可应用于蛋白质组数据的所有方式。提供了可容易确定并且具有关于检测具有临床上显著的COPD的丰富信息的生物标志集。
[0080] 在预测模型的开发中,可能希望选择标志亚类,即至少3种、至少4种、至少5种、至少6种或达全部的标志集。通常,将选择提供定量样品分析的需要(例如,试剂可用性、定量方便,等)同时保持高度准确的预测模型的标志亚类。用于构建分类模型的信息性标志的数目选择需要确定性能度量和用户定义的阈值,用于产生具有基于该度量的有用预测能力的模型。例如,性能度量可以是预测的灵敏度和/或特异性,以及预测模型的总体准确度。如实施例3所述,LDA用于训练模型以鉴定与COPD和某些疾病期相关的生物标志。标志亚类的选择可用于向前选择或向后选择标志亚类。可以选择将优化模型性能的标志数目而不使用所有标志(参见实施例3中的表6,下文)。确定项目最佳数目的方式是选择产生具有期望的预测能力(例如,准确度大于80%,或者等价的灵敏度/特异性量度)的模型的项目数目,其与使用用于给定分析过程的项目的任何组合和数目针对该度量获得的最大值不超过一个标准误差。
[0081] V.试剂与试剂盒
[0082] 还提供了用于实施上述一种或多种方法的试剂与试剂盒。主题试剂及其试剂盒可以有很大不同。感兴趣的试剂包括特别设计用于产生与COPD相关的循环蛋白标志的上述表达概况的试剂。
[0083] 因此,本发明提供了用于实施上述一种或多种方法的试剂盒,该试剂盒包括针对本文所述COPD生物标志的至少一种试剂,其中COPD生物标志选自下述:脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(“IL-8”)、单核细胞趋化蛋白-1(“MCP-1”)、肿瘤坏死因子受体II(“TNF-RII”)、脱脂载脂蛋白CIII、粒细胞-巨噬细胞集落刺激因子(“GM-CSF”)、免疫球蛋白A(“IgA”)、巨噬细胞炎性蛋白1α(“MIP-1α”)、组织因子、肿瘤坏死因子-α(“TNF-α”)、α-1抗胰蛋白酶、C-反应蛋白(“CRP”)、血纤蛋白原、白介素-4(“IL-4”)、巨噬细胞衍生的趋化因子(“MDC”)和可溶性血管细胞黏附分子1(“sVCAM-1”)。一种或多种生物标志的表达可使用检测所述一种或多种生物标志的所述试剂测定。所述试剂盒用于对获自COPD组或健康组中人类受试者的测试样品进行分类。
[0084] 在一个实施方案中,所述试剂盒包括用于检测选自本文所述一个或多个生物标志标签的至少三种蛋白标志的试剂。因此,所述试剂盒可以包括用于检测选自多分析物组的至少三种蛋白标志的试剂,所述多分析物组选自下述组:
[0085] (a)脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII);
[0086] (b)脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α);和
[0087] (c)α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNFRII)和可溶性血管细胞黏附分子1(sVCAM-1)。
[0088] 本发明试剂盒可以包括用于检测生物样品中对应于本文公开的COPD生物标志的多肽或编码所述多肽的mRNA的试剂(其是标记的化合物或物质)和用于测定样品中所述多肽或mRNA的量的工具(例如,与所述多肽结合的抗体或者与编码所述多肽的DNA或mRNA结合的寡核苷酸探针)。适合与对应于COPD生物标志的多肽结合的此类试剂的一个类型是与感兴趣的标志结合的抗体或其片段(包括抗体衍生物)。因此,适合与核酸(例如基因组DNA、mRNA、剪接mRNA、cDNA)结合的试剂包括互补核酸。多种不同的阵列形式是本领域已知的,使用多种不同的探针结构、基底组成和附着技术。在进一步实施方案中,试剂用可检测物质直接或间接标记。
[0089] 在某些实施方案中,一种或多种生物标志的表达通过下述检测:(a)检测由所述一种或多种生物标志调控的多肽的表达;(b)检测调控生物标志的多肽的表达;或(c)检测所述生物标志的代谢物的表达。
[0090] 对基于抗体的试剂盒而言,试剂盒可以包括例如(1)与对应于本发明生物标志的多肽结合的第一抗体(例如,连接至固体支持体);和任选地(2)与所述多肽或所述第一抗体结合并轭合至可检测标记的不同的第二抗体。
[0091] 对基于寡核苷酸的试剂盒而言,试剂盒可以包括例如:(1)与编码对应于本发明生物标志的多肽的核酸序列杂交的寡核苷酸,例如可检测地标记的寡核苷酸,或(2)用于扩增对应于本发明生物标志的核酸分子的引物对。
[0092] 试剂盒还可以包括其他组分,例如缓冲剂、防腐剂、蛋白稳定剂和/或检测可检测标记所必需的组分。试剂盒可以包括用于各种方法的试剂,例如抽取和处理血液样品的装置、第二阶段抗体、ELISA试剂;管、旋转柱及类似物。试剂盒的每个组分可以装于单独容器内并且所有不同容器可以在一个包装内。
[0093] 感兴趣的代表性阵列或试剂盒的组成包括下述或由下述组成:用于定量选自脱脂载脂蛋白H、CD40、触珠蛋白、IL-8、MCP-1和TNF-RI中的至少三种、至少四种、至少五种或全部六种标志的试剂。该试剂盒可用于将测试样品分类为快速下降COPD受试者与健康患者和/或诊断快速下降COPD受试者与健康患者。使用试剂盒内包括的试剂来定量的优选的至少三种标志可以包括脱脂载脂蛋白H、MCP-1和TNF-RII或由脱脂载脂蛋白H、MCP-1和TNF-RII组成。
[0094] 在另一实施方案中,代表性阵列或试剂盒包括下述或由下述组成:用于定量选自脱脂载脂蛋白CIII、CD40、触珠蛋白、GM-CSF、IgA、MIP-1α、组织因子和TNF-α中的至少三种、至少四种、至少五种、至少六种、至少七种或全部八种标志的试剂。该试剂盒可用于将测试样品分类为缓慢下降COPD受试者与健康患者和/或诊断缓慢下降COPD受试者与健康患者。使用试剂盒内包括的试剂来定量的优选的至少三种标志可以包括IgA、MIP-1α和组织因子或由IgA、MIP-1α和组织因子组成。
[0095] 而在进一步实施方案中,代表性阵列或试剂盒包括下述或由下述组成:用于定量选自α-1抗胰蛋白酶、CRP、血纤蛋白原、GM-CSF、IL-4、MDC、组织因子、TNF-RII和sVCAM-1中的至少三种、至少四种、至少五种、至少六种、至少七种、至少八种或全部九种标志的试剂。该试剂盒可用于将测试样品分类为快速下降COPD受试者与缓慢下降COPD受试者和/或诊断快速下降COPD受试者与缓慢下降COPD受试者。使用试剂盒内包括的试剂来定量的优选的至少三种标志可以包括MDC、组织因子和sVCAM-1或由MDC、组织因子和sVCAM-1组成。
[0096] 该试剂盒可进一步包括用于统计学分析一种或多种表型的软件包,并且可以包括用于计算预测模型内分类概率的参考数据库。
[0097] 除了上述组分,主题试剂盒可进一步包括用于实施主题方法和用于解释使用试剂盒进行的分析结果的说明书。这些说明书可以多种形式存在于主题试剂盒中,所述形式的一种或多种可以存在于试剂盒中。这些说明书可以存在的一种形式是印在适合介质或基底(例如印有信息的纸张)上、试剂盒包装中、包装内插物中等等的信息。而另一种工具是已经在上面记录了信息的计算机可读介质,例如磁盘、CD等。而可以存在的另一种工具网站地址,其可通过因特网使用以在远离的地点来访问信息。任何方便的工具可以存在于试剂盒中。
[0098] 下面提供进一步示例说明本发明不同特征的实施例。实施例还示例说明实施本发明的有用方法。这些实施例不限制要求保护的发明。
[0099] 实施例1
[0100] 研究受试者的收集
[0101] 在15年纵向肺功能研究末期从40例COPD患者和20例健康对照收集血液于柠檬酸盐缓冲液中。COPD患者和健康对照是现时吸烟者或曾经吸烟者。COPD患者最初招募于1987-88,作为NIH资助的全国肺健康研究的部分,该研究是肺功能的5年纵向研究(Owens,
1991,Am.J.Med.91:37S-40S)。招募的患者是35-59岁的现时吸烟者,FEV1范围预测在50%至90%,FEV1/用力肺活量(FVC)小于0.7,表现出COPD的特征呼吸症状。在肺健康研究中,每年进行肺量测定。对于该研究中评价的COPD患者,在接下来的10年间以不同的间隔在犹他大学进行额外的肺量测定。基于有关肺功能的15年纵向信息,COPD患者分布于两个不同的组中。将26例快速下降者的COPD小组定义为在过去15年每年平均丧失40ml或更多FEV1的那些人。这是对于健康吸烟者和非吸烟者所报道的20ml FEV1正常下降(Rennard,
1998,同上)的两倍或更多。14例缓慢下降者的COPD小组定义为平均每年FEV1丧失小于
40ml。在血液收集时,快速下降者在经过去15年平均失去20.2%FEV1之后累计具有预测的正常FEV1的64.0%。缓慢下降者在经过去15年平均丧失仅2.4%FEV1之后累计具有预测的正常FEV1的72.3%。所有COPD患者没有其他主要疾病,在整个研究中没有使用皮质类固醇,并且具有相似的年龄和性别分布。健康吸烟者/曾经吸烟者对照在整个研究过程中招募并匹配性别、年龄和种族。研究中COPD患者和对照的临床特征报告于表2。
[0102] 表2:
[0103]
[0104]
[0105] na=不适用
[0106] 实施例2
[0107] 血浆标志的分析
[0108] 冷冻的血浆样品被送至Rules-Based Medicine,Inc.(Austin,TX),在他们专有的人类抗原MAP平台中分析标志。冷冻的血浆样品在室温解冻,涡旋,以13,000×g旋转5分钟以澄清,取出40uL用于标志分析,放入主要微量滴定板。使用自动化移液,将每个样品的小份引入人类抗原MAP的捕获微球多通道(capture microsphere multiplexes)之一。将这些样品和捕获微球的混合物充分混合并在室温下孵育1小时。然后为每个多通道机器添加生物素化报告抗体的多通道混合物,充分混合后,在室温下孵育另外1小时。多通道使用过量链霉抗生物素-藻红蛋白溶液显色,所述链霉抗生物素-藻红蛋白溶液被充分混合入每个多通道并在室温下孵育1小时。每个多通道反应的体积通过真空过滤而减小,并通过稀释入基质缓冲液而增大以分析。分析在Luminex 100仪器中进行,得到的数据流使用在Rules-Based Medicine开发的专有数据分析软件来解释。对于每个多通道,每个微量滴定板上包括校准器和对照两者。八(8)-点校准器在每个板的第一列和最后一列中运行,包括两个重复的3-水平对照。首先确定每个多通道的高、中和低对照的测试结果,以确保正确的分析性能。使用4和5参数、数据分析包中包括的加权和非加权曲线拟合算法,确定位于特定多通道中的每个分析物的未知的值。
[0109] 实施例3
[0110] 数据分析
[0111] 单个标志的单因素分析:使用Wilcoxon秩和检验评估COPD快速下降者与健康对照、COPD缓慢下降者与健康对照以及COPD快速下降者与COPD缓慢下降者之间每个标志的显著性。使用Shift算法(Streitberg和Rohmel(1986)Exact Distribution for Permutations and RankTest:An Introduction to Some Recently Published Algorithms(排列的精确分布和秩检验:一些最近公开的算法的介绍).Statistical Software Newsletter.12:10-17)确定精确p值。此外,使用更严格的假发现率进一步评估每个标志的显著性强度。p值评估的假发现率是现实中未发生改变的所有标志的假阳性比例。q值评估的假发现率(FDR)是作为假阳性的显著变化的比例。每个标志的q值使用Benjamini&Hockberg(Benjamini和Hockberg,2000,J.Behav.Educ.Statist.25:60-83)提出的方法得到。所有分析使用R,版本2.4(R Development Core Team(2006).R:Alanguage and environment for statistical computing.R Foundation for Statistical Computing,Vienna,Austria.ISBN 3-900051-07-0,URL http://www.R-project.org.)进行。
[0112] 我们首先比较了89个受试血浆标志每一个的COPD快速下降者与对照之间的平均(中值)。在这两组之间观察到许多小但显著(p<0.05)的差异(表3)。p值评估的假阳性率(FPR)是现实中未改变的所有标志中假阳性的比例。q值评估的假发现率(FDR)是作为假阳性的显著变化的比例。正的倍数变化值代表相对于健康对照的增加,而负值代表减少。就爆发式倍数变化而言,使用白介素-4(IL-4;快速下降者中4.2-倍增)、嗜酸细胞活化趋化因子(2.6-倍增)、白介素-7(IL-7;2.2-倍增)和触珠蛋白(2.0-倍增)观察到最强的差异。对于IL-4、单核细胞趋化蛋白(MCP-1)、可溶性血管细胞黏附分子-1(sVCAM-1)和嗜酸细胞活化趋化因子观察到统计学上最显著的差异,p值(假阳性率)小于0.1%且q值(假发现率)小于1%(图1)。相反,缓慢COPD下降者与对照的单变量比较揭示了更小且较不显著的差异(表4)。仅4种标志具有低于0.05的p值,并在所有4种情况下,假发现率大幅提高(>50%)。最终,当比较缓慢COPD下降者与快速COPD下降者时观察到一些引起人兴趣的差异(表5)。白介素-4(IL-4)、白介素-5(IL-5)、单核细胞趋化蛋白-1(MCP-1)、巨噬细胞衍生的趋化因子(MDC)和组织因子在快速下降者中以比在缓慢下降者中显著更高的水平存在(p<0.05)。癌抗原19.9、A型免疫球蛋白(IgA)、胰岛素、巨噬细胞炎性蛋白1α(MIP-1α)和可溶性血管细胞黏附分子1(sVCAM-1)在快速下降者中以比在缓慢下降者中显著更低的水平存在。
[0113] 表3:通过单变量分析确定的COPD快速下降者与健康对照之间血浆标志的差异。
[0114]标志 倍数变化 p值(FPR) q值(FDR)
α1-抗胰蛋白酶 1.11 0.0238 0.062
α胎蛋白 1.38 0.0498 0.094
脱脂载脂蛋白A1 1.38 0.0020 0.017
脱脂载脂蛋白H 1.15 0.0029 0.019
癌胚抗原 1.75 0.0022 0.017
嗜酸性粒细胞趋化因子 2.64 0.0007 0.008
VII因子 1.16 0.0448 0.091
血纤蛋白原 1.18 0.0231 0.062
GM-CSF 1.51 0.0061 0.026
触珠蛋白 2.02 0.0115 0.034
IL-10 1.54 0.0116 0.034
IL-13 1.69 0.0086 0.031
IL-1α 1.16 0.0336 0.079
IL-3 1.46 0.0496 0.094
IL-4 4.21 <0.0001 0.000
IL-5 1.59 0.0041 0.023
IL-7 2.16 0.0044 0.023
IL-8 1.20 0.0398 0.088
MCP-1 1.51 <0.0001 0.001
血清淀粉样蛋白P 1.28 0.0049 0.023
组织因子 1.19 0.0410 0.088
TNF-RII -1.19 0.0071 0.028
血小板生成素 7.55 0.0117 0.034
sVCAM-1 -1.20 0.0002 0.003
VEGF 1.18 0.0301 0.075
[0115] 表4:通过单变量分析确定的COPD缓慢下降者与健康对照之间血浆标志的差异。
[0116]标志 倍数变化 p值(FPR) q值(FDR)
脱脂载脂蛋白H 1.16 0.0230 0.696
癌抗原19.9 2.29 0.0078 0.563
嗜酸性粒细胞趋化因子 1.68 0.0358 0.696
VEGF 1.11 0.0545 0.696
[0117] 表5:通过单变量分析确定的COPD快速下降者与COPD缓慢下降者之间血浆标志的差异。
[0118]标志 倍数变化 p值(FPR) q值(FDR)
癌抗原19.9 -1.43 0.0355 0.300
IgA -1.57 0.0120 0.157
IL-4 1.27 0.0008 0.054
IL-5 1.48 0.0139 0.157
胰岛素 -5.86 0.0165 0.160
MCP-1 1.44 0.0026 0.089
MDC 1.28 0.0422 0.300
MIP-1α -1.26 0.0468 0.300
组织因子 1.32 0.0125 0.157
sVCAM-1 -1.31 0.0043 0.098
[0119] 鉴定标签的多变量分析:提供COPD快速下降者与健康对照、COPD缓慢下降者与健康对照以及COPD快速下降者与COPD缓慢下降者之间最佳区分的多分析物组(标签)使用向前选择程序进行确定,使用线性判别分析(Venables,W.N.&Ripley,B.D.,(2002).Modern AppliedStatistics,Fourth Edition.Springer)。该分析测量了数据集中每个点与每组多变量平均值(称为距心)之间的距离,并且将点分类至最接近的组。请求的距离量度是马尔距离,其考虑了变量之间的方差和协方差。代表性的多分析物板(标签)连同它们的预测性能示于表6。这些标志针对保留(hold-out)数据集区分COPD与对照的预测性能使用5倍交叉验证的50次重复来考察。这必须将数据随机划分成五个亚组,每次排除一个组,根据其余四个亚组建立模型,使用该拟合的模型预测第五个亚组中的疾病分类,对所有五个组重复该过程,然后平均结果。该分析被重复50次以产生对生物标志标签总体准确度以及灵敏度和特异性的可靠评估。这些分析基于20个对照和14或26个COPD受试者并使用2.4版本的R(R Development Core Team(2006).R:A language and environment for statistical computing.R Foundation for Statistical Computing,Vienna,Austria.ISBN 3-900051-07-0,URL http://www.R-project.org.)实施。
[0120] 表6:通过多变量分析鉴定的代表性多分析物组(标签)以及它们的预测性能的概述。
[0121]
[0122]
[0123] 由于没有一个血浆标志能够以其自身清楚地区分COPD患者与对照,我们使用线性判别分析方法(LDA)进行了数据的多变量分析。该方法鉴定了能够准确区分COPD快速下降者与对照(健康吸烟者)的一组血浆标志(标签1)(图2A)。图2A是使用用于区分COPD快速下降者与健康对照的六标志标签的主要组分的二维展示的线性判别分析(LDA)输出。使用的距离量度是马尔距离,其考虑了变量之间的方差与协方差。每个多变量平均值是标记的圆圈。圆圈尺寸对应于95%的平均值置信界限。显著不同的组倾向于具有不相交的圆圈。标签1由下述6种标志组成:脱脂载脂蛋白H、CD40、触珠蛋白、白介素-8(IL-8)、单核细胞趋化蛋白-1(MCP-1)和肿瘤坏死因子受体II(TNF-RII)。这些标志的单变量分析揭示了显著差异(p<0.05;表3),CD40除外(1.15-倍,p<0.5)。5-倍交叉验证的50次重复揭示:标签1可以在93%的病例中正确鉴定血浆样品来自COPD快速下降者(灵敏度),并且可以在86%的病例中正确鉴定血浆样品来自健康受试者(特异性),区分这两组的总体准确度为大约90%。
[0124] 我们接下来想要证实标签1的纵向稳定性。在初始样品用于鉴定标签1之后大约1年,收集26例COPD快速下降者中9例的血液样品以及20例健康对照中5例的血液样品。
该标签正确鉴定所以9例快速下降者和5例健康对照中的4例,总体准确度为大约93%(表
6)。
[0125] 使用LDA方法,我们还鉴定了能够准确区分COPD缓慢下降者与健康对照的第二组血浆标志(标签2)(图2)。图2是使用用于区分COPD缓慢下降者与健康对照的八标志标签的主要组分的二维展示的线性判别分析(LDA)输出。标签2由下述8种标志组成:脱脂载脂蛋白CIII、CD40、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、触珠蛋白、免疫球蛋白A(IgA)、巨噬细胞炎性蛋白1α(MIP-1α)、组织因子和肿瘤坏死因子-α(TNF-α)。5-倍交叉验证的50次重复揭示:标签2具有91%灵敏度和96%特异性,区分缓慢下降者与对照的总体准确度大约94%(表6)。
[0126] 最后,我们鉴定了能够准确区分COPD快速下降者与COPD缓慢下降者的第三组血浆标志(标签3)(图2C)。图2C是使用用于区分COPD缓慢下降者与COPD快速下降者的九标志标签的主要组分的二维展示的线性判别分析(LDA)输出。标签3由下述9种标志组成:α-1抗胰蛋白酶、C-反应蛋白(CRP)、血纤蛋白原、粒细胞-巨噬细胞集落刺激因子(GM-CSF)、白介素-4(IL-4)、巨噬细胞衍生的趋化因子(MDC)、组织因子、肿瘤坏死因子受体II(TNF-RII)和可溶性血管细胞黏附分子-1(s VCAM-1)。5-倍交叉验证的50次重复揭示:标签3可以在95%的病例中正确鉴定血浆样品来自COPD快速下降者,并且可以在86%的病例中正确鉴定血浆样品来自COPD缓慢下降者,区分这两组的总体准确度为大约92%(表6)。
[0127] 表7列出提供了令人印象深刻的灵敏度和特异性水平的LDA分析的代表性的生物标志混合物。用于评估各种标志的混合物的性能的LDA使用R内捐赠文库进行(Venables,W.N.&Ripley,B.D.,(2002).Modern Applied Statistics,第四版.Springer,New York)。获得生物标志混合物的性能度量的可靠评估的5倍交叉验证使用R内捐赠文库进行
(Andrea Peters和TorstenHothorn,2004,Improved Predictors,R软件包,版本0.8-3)。
[0128] 表7:通过对本申请公开的三个生物标志标签各自进行线性判别分析(LDA)(“最佳-LDA”)以及对含有最好的3种、4种和/或5种所述生物标志的这些最佳标签的亚类进行线性判别分析(LDA)所确定的百分比准确度(“Acc”)、灵敏度(“Sen”)和特异性(“Spe”)的总结。
[0129]
[0130]
[0131] 讨论-该研究中,我们鉴定了在COPD患者中与健康对照相比统计学上不同的水平的血浆蛋白。在评价的89种血浆标志中,25种在快速下降者与对照之间统计学上不同(p<0.05),而仅4种标志在缓慢下降者与对照之间不同(p<0.05)。这些单变量分析揭示,快速下降者与缓慢下降者之间统计学显著差异(10种标志,p<0.05)比缓慢下降者与对照之间统计学上显著差异(仅4种标志,p<0.05)更明显。据我们所知,这是提供该疾病的缓慢表现和快速表现之间广泛血清学差异的首次研究。
[0132] 之前已经报道,显示在快速下降者和对照之间差异的标志的一些之前在非恶化COPD患者血液中被调节,所述标志例如α1-抗胰蛋白酶(Aldonyte等,2004,COPD1:155-164)、嗜酸细胞活化趋化因子(Aldonyte等,2004,同上;Janhz-Rozyk等,2000,Pol.Merkur.Lekarskl9:649-652)、血纤 蛋白 原(Gan等,2004,Thorax 59:574-580)、IL-4(Zhang等,1999,J Tongji Med.Univ.19:15-19)、IL-8、MCP-1和VEGF(Pinto-Plata等,2007,Thorax 62:595-601)。与对照相比在快速下降者中显著被调节的25种标志中,它们中仅2种在快速下降者中降低:TNF-α的可溶性受体II(sTNFRII)和血管细胞黏附分子-1的可溶形式(s VCAM-1)。有趣的是,这两种都是抗炎蛋白。sTNFRII捕获促炎蛋白TNF-α(Carpentier等,2004,Curr.Med.Chem,11:2205-2212),而sVCAM-1干扰携带VCAM-1的白细胞与表达VCAM-1配体α4β1整联蛋白的内皮细胞黏附(Foster,1996,J Allergy Clin.Immunol 98:S270~S277)。
[0133] 在与对照相比在快速下降者中显著减少的标志组中,有趣的是发现已知调节COPD中涉及的两种细胞类型嗜中性粒细胞和巨噬细胞的活性的化学引诱物(例如GM-CSF、IL-8和MCP-1)的存在(Barnes,2004,Pharmacol Rev.56:515-548)。甚至更有趣的是发现在该名单中与Th2/Tc2表型相关的几种介质的存在,例如IL-4、IL-5、IL-10、IL-13和嗜酸细胞活化趋化因子。这与最近研究一致,最近研究报道,COPD患者肺中存在的T淋巴细胞产生的IL-4、IL-10和IL-13显著多于健康吸烟者产生的T淋巴细胞(Barcelo等,2006,Clin.Exp.Immunol,145:474-479)。该发现支持表明在更严重疾病形式中哮喘与COPD的重叠(Jeffery,Peter K.″Lymphocytes,Chronic Bronchitis and Chronic Obstructive Pulmonary Disease. ″ ChronicObstructive Pulmonary Disease:Pathogenesis to Treatment:Novartis Foundation Symposium,第234卷.编辑.Derek Chadwick&Jamie A.Goode.Chichester:Wiley,2001.149-168)。
[0134] COPD,与许多其他慢性疾病一样,被认为是高度异质性疾病,具有受到遗传和环境因素影响的表型表达。这导致在进行单变量分析时针对每个血浆标志所观察到的预期的组内差异性。最近另一团队描述了COPD与对照血清中标志的单变量分析之后相似的差异性(Pinto-Plata等,2007,同上)。在该上下文中,每个单独血浆标志具有有限的准确区分健康个体样品与缓慢COPD形式或快速COPD形式患者的样品的潜力。多变量分析中多个标志的组合考虑了该组内异质性。多变量分析导致鉴定能够以约90%准确度区分快速下降者与健康对照的6标志标签。重要的是,当分析大约1年后从相同队列获得的样品时,使用同样的6种标志获得类似的准确度,表明该标签是纵向稳定的,因此具有潜在的临床效用。该标签由下述组成:在表征COPD的炎症中具有推定作用的嗜中性粒细胞和单核细胞的化学引诱物,例如IL-8和MCP-1(Barnes,2004,同上);之前报道在具有慢性肾衰竭(Schwabe等,1999,Clin.Exp.Immunol.117:153-158)、慢 性 肝 病(Schmilovitz-Weiss 等,2004,Apoptosis 9:205-210)、阿尔茨海默病(Mocali等,2004,Exp.Gerontol 39:1555-1561)和全身性硬化症(Komura等,2007,J.Rheumatol.34:353-358)的患者中升高的称为CD40的表面糖蛋白的循环可溶形式;触珠蛋白,一种具有抗氧化和抗炎性质的急性期蛋白(Zvi和Levy,2006,Clin.Lab.52:29-35);抗炎性sTNFRII;和脱脂载脂蛋白H,一种参与多种生理途径的血浆糖蛋白,所述生理途径包括凝血、止血和产生抗磷脂抗体(McNeil等,1990,Proc.Natl.Acad.Set USA 87:4120-4124)。
[0135] sCD40和触珠蛋白还是能够以约94%的准确度区分缓慢下降者与对照的8血浆标志组的部分。该标签还包括3种其他细胞因子/趋化因子:GM-CSF,一种在稳定和恶化COPD患者的支气管肺泡灌洗液中以升高水平发现的嗜中性粒细胞存活和活性的调节剂(Balbi等,1997,Eur.Respir.J.10:846-850);MIP1-α,一种嗜中性粒细胞和单核细胞的化学引诱物(Barnes,2004,同上);和TNF-α,一种参与COPD(Barnes,2004,同上)并且在稳定COPD患者中以更高水平发现的(Gan等,2994,同上)细胞因子。完整的COPD缓慢下降者标签还包括:脱脂载脂蛋白CHI,一种脂蛋白代谢调节剂(Shachter,2001,Curr.Opin.Lipidol 12:297-304);IgA,之前已经与抗磷脂抗体相关的循环免疫球蛋白的亚型(Staub等,2006,Autoimmun.Rev.6:104-106);和可溶性组织因子(sTF),已经发现在特征为存在抗磷脂抗体的抗磷脂综合征和血栓栓塞性并发症患者中升高的凝血因子。
[0136] 快速COPD下降者与缓慢COPD下降者标签由9种血浆标志组成。这些标志中的三种α1-抗胰蛋白酶、C-反应蛋白(CRP)和血纤蛋白原已经被广泛报道在COPD患者中被调节(Gan等,2004,同上;Ranes和Stoller,2005,Semin.Respir.Crit.Care Med.26:154-166)。三种其他标志是细胞因子/趋化因子:GM-CSF;IL-4;和巨噬细胞衍生的趋化因子(MDC)。GM-CSF也包括在缓慢下降者标签中并且已经在上面讨论。在单变量分析中,IL-4是在快速下降者中与缓慢下降者和对照相比最显著增加的标志。MDC(CCL22)已经显示被IL-4上调并且在Th2细胞募集至炎性部位中起重要作用(Gan等,2004,同上;Yamashita和Kuroda,2002,Crit.Rev.Immunol 22:105-114)。完整的该标签还包括上述的sTF、sTNFRII和sVCAM-1。
[0137] 鉴定区分对照、缓慢COPD下降者和快速COPD下降者的单一标签的尝试的准确度不高于82%。对准确区分快速或缓慢COPD下降者与对照的不同标签的需求以及可以发现准确区分快速COPD下降者与缓慢下降者的标签的事实表明与COPD中肺功能下降速率关联的基本生化差异的存在。据我们了解,这是描述区分缓慢下降COPD形式与快速下降COPD形式的血浆标志的首次研究。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈