首页 / 专利库 / 生物学 / 预后指标 / 从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法

从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法

阅读:573发布:2020-10-20

专利汇可以提供从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及根据一群患者的 生物 学图谱取样来预测一个个体 治疗 结果的方法、系统和 计算机程序 产品。生物学图谱信息采自具有一种医疗状况并接受一种治疗的患者。还取得了关于具有所述医疗状况和接受所述治疗的患者的治疗结果信息。随后对所述生物学图谱信息和所述治疗结果信息实施一种基于判别分析的 模式识别 过程,从而产生一个使所述生物学图谱信息与所述治疗结果信息之间相关联的模型。此模型尤其可用于预测新患者接受所述治疗的治疗结果。,下面是从一群患者的生物学图谱中取样预测一个个体临床治疗结果的方法专利的具体信息内容。

1.一种预测一医疗状况的医学治疗结果的方法,其包含:
(1)从具有所述医疗状况并接受治疗的患者取得生物学图谱信息;
(2)取得关于具有所述医疗状况并接受所述治疗的患者的治疗结果 信息;和
(3)对所述生物学图谱信息和所述治疗结果信息执行基于判别分析 的模式识别过程,从而产生一个使所述生物学图谱信息与所述治疗结果 信息之间相关联的模型。
2.根据权利要求1所述的方法,其进一步包含:
(4)将来自一名新患者的生物学图谱信息提供给所述模型,借此所 述模型输出所述新患者的所述治疗的一个预测治疗结果。
3.根据权利要求2所述的方法,其中所述模型以阳性或者阴性指标形式输 出预测治疗结果。
4.根据权利要求2所述的方法,其中所述模型输出一定范围内的预测治疗 结果。
5.根据权利要求1所述的方法,其进一步包含针对一种或一种以上对所述 医疗状况的其它治疗重复步骤(1)到(3)。
6.根据权利要求5所述的方法,其进一步包含:
(4)将来自一名新患者的生物学图谱信息提供给所述模型,借此所 述模型输出所述患者的所述治疗的预测治疗结果。
7.根据权利要求1所述的方法,其中所述医疗状况是一疾病
8.根据权利要求7所述的方法,其中所述医疗状况是一人类疾病。
9.根据权利要求8所述的方法,其中所述医疗状况是一癌症。
10.根据权利要求1所述的方法,其中所述医疗状况不是疾病。
11.根据权利要求10所述的方法,其中所述医疗状况是一生殖分析。
12.根据权利要求1所述的方法,其中所述生物学图谱信息包含遗传图谱信 息。
13.根据权利要求1所述的方法,其中所述生物学图谱信息包含DNA图谱 信息。
14.根据权利要求1所述的方法,其中所述生物学图谱信息包含RNA图谱 信息。
15.根据权利要求1所述的方法,其中所述生物学图谱信息包含蛋白质图谱 信息。
16.根据权利要求1所述的方法,其中所述生物学图谱信息包含一种或一种 以上下列信息:
遗传图谱信息;
DNA图谱信息;
RNA图谱信息;和
蛋白质图谱信息。
17.根据权利要求1所述的方法,其中所述生物学图谱信息是嵌在一个微阵 列上。
18.根据权利要求17所述的方法,其中所述生物学图谱信息是从一基因组 分析中产生。
19.根据权利要求1所述的方法,其中关于具有所述医疗状况的患者的信息 是从一组少于100名的患者中获得。
20.根据权利要求1所述的方法,其中关于具有所述医疗状况的患者的信息 从一组少于30名的患者中获得。
21.根据权利要求1所述的方法,其中关于具有所述医疗状况的患者的信息 从一组少于20名的患者中获得。
22.根据权利要求1所述的方法,其中关于具有所述医疗状况的患者的信息 从一组少于10名的患者中获得。
23.根据权利要求1所述的方法,其中关于具有所述医疗状况的患者的信息 从一组多于100名的患者中获得。
24.根据权利要求12所述的方法,其中所述遗传图谱信息包括关于大约 10000个基因的遗传信息。
25.根据权利要求12所述的方法,其中所述遗传图谱信息包括关于至少10 个基因的遗传信息。
26.根据权利要求12所述的方法,其中所述遗传图谱信息包括关于至少100 个基因的遗传信息。
27.根据权利要求12所述的方法,其中所述遗传图谱信息包括关于至少 1000个基因的遗传信息。
28.根据权利要求12所述的方法,其中所述遗传图谱信息包括关于至少1 个基因的遗传信息。
29.根据权利要求1所述的方法,其中所述生物学图谱信息包含遗传图谱信 息,并且其中步骤(2)包含将所述遗传图谱信息减少到说明多样性一 实质部分的基因子集。
30.根据权利要求29所述的方法,其进一步包含将一个所述基因子集表示 嵌入到一个微阵列芯片上作为所述模型的一部分。
31.根据权利要求29所述的方法,其中步骤(4)包含提供来自所述新患者 的仅关于所述基因子集的遗传图谱信息。
32.根据权利要求30所述的方法,其中步骤(4)包含提供来自所述新患者 的仅关于所述基因子集的遗传图谱信息。
33.根据权利要求1所述的方法,其中所述模型是在计算机程序中执行。
34.根据权利要求1所述的方法,其中所述治疗包含基于药物的治疗。
35.根据权利要求1所述的方法,其中所述治疗包含非基于药物的治疗。
36.根据权利要求1所述的方法,其中所述治疗包含基于药物治疗和非基于 药物治疗的组合治疗。
37.根据权利要求36所述的方法,其中所述治疗包含化学疗法治疗与放射 治疗的组合。
38.根据权利要求1所述的方法,其进一步包含使用所述模型预测一名癌症 患者的第一线治疗。
39.根据权利要求36所述的方法,其进一步包含使用所述模型预测一名癌 症患者的第一线治疗。
40.根据权利要求1所述的方法,其进一步包含使用所述模型预测单一药物 治疗的功效。
41.根据权利要求1所述的方法,其进一步包含使用所述模型预测多种药物 治疗的功效。
42.根据权利要求1所述的方法,其进一步包含使用所述模型预测第一线单 一药物治疗的功效。
43.根据权利要求1所述的方法,其进一步包含使用所述模型预测第一线多 种药物治疗的功效。
44.根据权利要求1所述的方法,其进一步包含使用所述模型预测后线药物 治疗的功效。
45.根据权利要求1所述的方法,其进一步包含使用所述模型预测所述治疗 的短期功效。
46.根据权利要求1所述的方法,其进一步包含使用所述模型预测所述治疗 的长期功效。
47.根据权利要求46所述的方法,其进一步包含使用所述模型预测长期抗 药性。
48.根据权利要求46所述的方法,其进一步包含使用所述模型预测复发前 的时间。
49.根据权利要求1所述的方法,其进一步包含使用所述模型预测所述治疗 对另一种医疗状况的功效。
50.根据权利要求49所述的方法,其中所述生物学图谱信息和所述治疗结 果信息是关于结肠癌患者,所述方法进一步包含使用所述模型预测所述 治疗对一名卵巢癌患者的功效。
51.根据权利要求49所述的方法,其中所述生物学图谱信息和所述治疗结 果信息是关于第一型肿瘤,所述方法进一步包含使用所述模型预测所述 治疗对与所述第一型肿瘤相关的第二型肿瘤的功效。
52.根据权利要求51所述的方法,其中所述第一型肿瘤是原发性肿瘤并且 所述第二型肿瘤是转移性肿瘤。
53.根据权利要求1所述的方法,其中所述生物学图谱信息包含微阵列表达 图谱信息。
54.根据权利要求1所述的方法,其中所述微阵列表达图谱数据是从一种或 一种以上下列来源获得:
核酸表达图谱;
蛋白质表达图谱;和
单核苷酸多态性。
55.根据权利要求1所述的方法,其进一步包含:
(4)将所述模型用于个人化医学治疗的临床诊断性、预后性和确定 性治疗管理工具。
56.根据权利要求1所述的方法,其进一步包含:
(4)将所述模型用于人类疾病标志的数据采集
57.根据权利要求1所述的方法,其进一步包含:
(4)将所述模型用于鉴别人类疾病标志。
58.根据权利要求1所述的方法,其进一步包含:
(4)将所述模型用于分析人类疾病中相关的基因组与临床数据的组 合。
59.根据权利要求1所述的方法,其中所述治疗结果信息包含医学上可测量 的特征。
60.根据权利要求1所述的方法,其中所述治疗结果信息包含客观特征。
61.根据权利要求60所述的方法,其中所述治疗结果信息包含客观短期特 征。
62根据权利要求60所述的方法,其中所述治疗结果信息包含客观长期特 征。
63.根据权利要求1所述的方法,其中所述治疗结果信息包含副作用信息。
64.根据权利要求1所述的方法,其中所述治疗结果信息包含主观特征。
65.根据权利要求64所述的方法,其中所述治疗结果信息包含生命品质的 特征。
66.根据权利要求64所述的方法,其中所述治疗结果信息包含短期主观特 征。
67.根据权利要求64所述的方法,其中所述治疗结果信息包含长期主观特 征。
68.根据权利要求1所述的方法,其中所述生物学图谱信息和所述治疗结果 信息是从受益于所述治疗的临床试验的患者取得。
69.根据权利要求68所述的方法,其进一步包含:
(4)将来自一名新患者的生物学图谱信息提供给所述模型,借此所 述模型输出所述新患者的所述治疗的预测治疗结果。
70.根据权利要求68所述的方法,其进一步包含提交一申请请求批准将 所述治疗用于所述模型对其输出有利预测治疗结果的新患者。
71.根据权利要求1所述的方法,其中步骤(3)包含:
(i)将所述生物学图谱信息和所述治疗结果信息分为一个训练子集和 一个测试子集;
(ii)对所述训练子集执行所述基于判别分析的模式识别过程;和
(iii)用所述测试子集测试所得模型。
72.根据权利要求1所述的方法,其中步骤(3)包含:
(i)将所述生物学图谱信息和所述治疗结果信息分为一个生物学图谱 信息和治疗结果信息的训练子集与一个生物学图谱信息和治疗结果信 息的测试子集;
(ii)对所述生物学图谱信息和治疗结果信息的训练子集执行不同的 判别分析的模式识别过程,从而产生数个使所述生物学图谱信息的训练 子集与所述治疗结果信息的训练子集之间相关联的模型;
(iii)用所述生物学图谱信息和治疗结果信息的测试子集测试所述数 个模型;
(iv)选择可根据所述生物学图谱信息的测试子集最精确地预测所述 治疗结果信息的测试子集的模型。
73.根据权利要求72所述的方法,其进一步包含:
(v)选择生物学图谱信息和治疗结果信息的新测试子集;
(vi)对所述新信息子集重复步骤(3)(ii);和
(vii)将所述复数个模型每一个的结果进行平均;
其中步骤(3)(iv)包含选择所述生物学图谱信息的测试子集最精确预 测所述治疗结果信息的平均值的测试子集的模型。
74.根据权利要求1所述的方法,其中所述生物学图谱信息是从靶向组织样 本获得。
75.根据权利要求1所述的方法,其中所述生物学图谱信息是从非靶向组织 样本获得。
76.根据权利要求2所述的方法,其进一步包含依据所述预测治疗结果选择 一治疗模式。
77.根据权利要求2所述的方法,其进一步包含依据所述预测治疗结果避开 一治疗模式。
78.根据权利要求1所述的方法,其中步骤(3)的执行无需 生物途径信息。
79.一种计算机程序产品,其包括一个计算机可用媒体,所述媒体中存储有 计算机程序逻辑以使得计算机系统能够生成一个使生物学图谱信息与 治疗结果信息之间相关联的模型,其中所述计算机程序逻辑包含:
起动程式使所述计算机系统从具有所述医疗状况并接受一治疗的患 者取得生物学图谱信息的功能;
起动程式使所述计算机系统取得关于具有所述医疗状况并接受所述 治疗的患者的治疗结果信息的功能;和
起动程式使所述计算机系统对所述生物学图谱信息和所述治疗结果 信息执行基于判别分析的模式识别过程、从而生成一个使所述生物学图 谱信息与所述治疗结果信息之间相关的模型的功能。
80.根据权利要求2所述的方法,其中所述生物学图谱信息是嵌在一个微阵 列中。
81.根据权利要求80所述的方法,其中所述模型和计算机程序是嵌在一个 微阵列中以输出所述预测。

说明书全文

技术领域

发明涉及从一群患者的生物学图谱取样来预测一个个体的治疗结果 的方法、系统和计算机程序产品。

背景技术

众所周知,在不同的人群中就所产生的功效和副反应而言,药物反应变 化很大。例如,阿司匹林在一些使用者中引起胃肠道不适;某些抗组胺药物 并非对所有人有利。这种群体变化性也可以在例如癌症等严重和致死性疾病 的治疗中看到。一名患者开始接受一种治疗, 然后,临床医生根据功效和副 反应将决定他/她是否应该继续这种治疗或者转换为另一种疗法。
当在治疗某些严重性疾病时,这种尝试并转换的方法会产生严重后果; 在癌症治疗的时间敏感性情况中尤其如此。不清楚不同化学疗法对于一个个 体的功效就使得设计一个有效的治疗计划变得非常困难;他们的治疗结果基 本上是随机的。由于大部分癌症患者将在患病期间接受化疗,所以很多人将 因治疗无效而蒙受损害并且经受对他们已经脆弱的健康状况可能产生的副 反应。
这种局面是现有临床试验设计范围受限的结果。设计这些试验是为了确 定在一个患者群体中的药效。该等试验结果代表对一群患者有效性的统计学 概率。没有关于针对单独患者药效的具体信息。
传统的体外和体内药效分析
多年以来药效预测一直使用体外和体内分析来确定,该等分析被设计成 能测量肿瘤在一个模拟环境下对药物的反应。尽管许多分析用细致的实验设 计和精良的技术而高度完善,但是这些方法存在基本性限制。另外,大多数 临床医生怀疑这些实验的有效性。
一般用体外化学敏感性分析来预测患者对药物治疗的反应。从肿瘤中分 离出原发性癌细胞或转移性细胞并且用化疗药物孵育该等细胞。然后评估细 胞存活率,而其结果经过解释来确定患者肿瘤对于该等药物的敏感性和抗 性。在这些实验中存在很多问题。第一,存在独立于所用分析方式之外的问 题,包括原发性与转移性细胞之间的差别、药物浓度的选择以及肿瘤样本的 异质性。第二,存在分析方式特有的问题,例如在培养中不能区分恶性和非 恶性细胞的生长。第三,人肿瘤克隆分析方式中存在技术困难,其中大约半 数样本不能生长;因此,难以获得细胞群落用于药物反应读数量化分析。除 了上述缺点外,这些实验还可有其它问题;例如,该分析需要长时间孵育(14 到28天),这在临床实践的使用中是不切实际的。另外,体外分析条件与体 内生理环境之间存在显著差异,从而使在体外观察到的药物反应有效性及其 潜在临床引用令人怀疑。
除体外实验以外另一种方式是极端药物抗性研究(EDR),其专注于药 物抗性而非药物敏感性。在这些实验中,将肿瘤用极高药物浓度处理很长一 段暴露时间。该假说认为如果该等肿瘤在这些极端条件下不能表现出反应那 么患者也将对这些药物没有反应。Kern和Weisenthal首先报导了阳性EDR 结果(参见Kern,D.H.,Weisenthal,L.M.,″Highly specific prediction of antineoplastic drug resistance with an in vitro assay using suprapharmacologic drug exposures,″(1990)J Natl Cancer Inst;7:582),全文以引用的方式并入本 文中,但在随后其他人的研究中没有得到证实。在关于患有II期卵巢癌患者 的研究中,EDR分析没有预测出3年存活率的差异。(参见Orr,J.W.Jr,Orr,P, Kern,D.H.,Cost-effective treatment of women with advanced ovarian cancer by cytoreductive surgery and chemotherapy directed by an in vitro assay for drug resistance,(1999)Cancer J Sci Am 5:174-178,以引用的方式并入本文中)。在 Eltabbakh对75名卵巢癌患者进行的另一项研究中(参见Eltabbakh,G.H., Piver,M.S.,Hempling,R.E.,等人.″Correlation between extreme drug resistance assay and response to primary paclitaxel and cisplatin in patients with epithelial ovarian cancer,″(1998)Gynecol Oncol;70:392-397,以引用的方式并入本文 中),EDR分析也未能证明预测药物反应的任何优势。一项对95名直肠癌 和阑尾癌患者进行的前瞻性研究也未能使肿瘤的敏感性或抗性与体外预测 分析相互关联。(参见Fernandez-Trigo,V.,Shansa,F.,Vidal-Jove,J.,等人 “Prognostic implications of chemoresistance-sensitivity assays for colorectal and apendiceal cancer”(1995)Am J Clin Oncol;18:454-460),全文以文本方 式并入本文中)。
对于体外方法的一个改良是体内技术,它研究肿瘤的三维细胞结构以及 药物的代谢、活化效应。体内实验通常利用免疫缺陷型小鼠,在其肾囊下移 植肿瘤细胞或给该等动物接种癌症细胞。对于前者报导了一些很有前景的结 果。(例如参见Bogden,A.E.,″The subrenal capsule assay and its predictive value in oncology,″(1985)Ann Chir Gynaecol;74(增刊199):12),全文以引用 方式并入本文中)。虽然体内实验法被设计成能精密模拟生物系统的复杂性, 但是仍然存在许多不能通过动物建模来复制的因素。例如,小鼠的药物代谢 和宿主毒性与人类的药物代谢和宿主毒性不能相比,或者引入的肿瘤可能与 在人体系统中的肿瘤行为不同。(参见Cunningham,D.等人,″The 6-day subrenal capsule assay is of no value with primary surgical explants from gastric cancer,″(1986)Br.J Cancer;54:519,全文以引用的方式并入本文中)。另外 在这些实验中所需要的显著持续时间使得难以将这些分析用于诊断目的。一 次体内实验经常会占用三个月才能获得结果,这在癌症研究上是可以接受 的,但是在临床实践中应用是极不可能的。
总而言之,用于预测个体患者药物反应的体内和体外实验技术都具有其 固有问题。最明显的是这些实验系统所产生的差异,它们与患者体内的生理 环境大不相同。而且,肿瘤类型差异、药物浓度平以及质量控制问题在这 些体外预测测试中都证明是难以解决的。
遗传药理学近况
由于许多疾病是遗传病,因此期望基因表达能够预测它们对治疗的反 应。有几个与化疗功效相联系的单个标志基因的例子。例如,在乳癌治疗中, 在ER阳性肿瘤中使用它莫西芬(tamoxifen),并且当生长因子受体HER2 过度表达的时候使用赫赛汀(herceptin)。然而这些只是例外情况;一般不 能期望利用单个标志基因去可靠地预测一种药物的有效性。与此相反,许多 与药物反应相关的基因有待鉴别。需要继续发展一种将来自这些基因的信息 结合的最优方法。这一新颖方法影响很多种与NIH所报导的遗传病相关的 疾病:癌症、血液和淋巴疾病、消化系统、鼻喉、眼部疾病、妇科病、腺 体和激素、心血管、免疫系统疾病、男科疾病、肌肉和骨骼、新生儿疾病、 神经系统、营养和代谢疾病、呼吸系统疾病皮肤和结缔组织。(参见″Genes and Disease″,by National Center for Biotechnology Information,″来自 http://www.ncbi.nhn.nih.gov/entrez/ouerv.fcgi?db=Books,全文以引用的方式 并入本文中)。遗传药理学的目标是理解遗传病;该等结果可能提供一个比 单个标志基因预测模型更好的预测模型。
最近DNA微阵列或基因芯片技术的出现为有可能在一个单个实验中分 析所有人类基因提供了一个平台。这项技术使药理学研究发生巨大变化(参 见Lander,E.S.等人″Initial sequencing and analysis of the human genome. Nature 409:860-921,(2001);和Venter,J.C.等人″The sequence of the human genome.Science,″291:1304-1351,(2001);全文以引用的方式并入本文中)。 监控基因表达谱可以有助于理解疾病的分子指纹。这项技术也提供了研究治 疗性处理、环境介质的基础,而且可以最终帮助区分对于一种给定药物的应 答者与非应答者以及在表达谱中改变模式的基础上预测毒性和其它不利效 应。
迄今为止,基于基因的临床癌症研究非常有限。有人应用微阵列去推断 正常组织与癌症组织之间的差异(参见Welsh,J.B.等人″Analysis of Gene Expression Profiles in Normal and Neoplastic Ovarian Tissue Samples Identifies Candidate Molecular Markers of Epithelial Ovarian Cancer,″Proc.Natl.Acad. Sci.USA 98,1176-1181,(2001);和Alon,U,等人″Broad Patterns of Gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays,″Proc.Natl.Acad.Sci.USA,96,6745-6750, (1999));全文以引用的方式并入本文中)。这些研究被设计成能发现标志基 因或共调控基因。微阵列研究的另一种应用是利用癌症组织的病理学特征 (例如转移性、侵袭性或白血病中急性骨髓性白血病(AML)对急性淋巴性 白血病(ALL))将它们进行分子分类。这些研究已经根据它们的遗传谱成 功的分离了乳腺、黑素瘤、白血病、和淋巴瘤组织(参见Laura J.van′t Veer, Hongyue Dai等人″Gene expression profiling predicts clinical outcome of breast cancer,Nature,415,530-536(2002);Marc J.van de Vijver等人″A gene expression signature as a predictor of survival in breast cancer,″N Engl J Med, 347,No.25,1999-2009(2002);Bittner,M.,等人″Molecular classification of cutaneous malignant melanoma by gene expression profiling,″Nature 406, 536-540(2000);Golub,T.R.等人″Molecular Classification of Cancer:Class Discovery and Class Prediction by Gene Expression Monitoring,″Science,286, 531-537(1999);Bhattacharjee,A.等人″Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses,″ Proc.Natl.-Acad.Ssi,-USA-98,13790-13795-{2001};和Alizadeh,Ash A.等 人″Distinct Types of Diffuse Large B-Cell Lymphoma Identified by Gene Expression Profiling,″Nature,403,503-511(2000));全部以全文引用的方式并 入本文中。)
然而,这些研究中没有一个能够提出治疗结果的可预测性。
关于预测治疗结果的当前研究现状
在癌症治疗中药物抗性是一个尤其关键的问题。例如使用DNA微阵列 的基因组学方法已经用于鉴别有助于癌症中药物抗性的遗传途径。由于这种 方法要求详细分析许多个别途径,所以获得对基因组、分子、细胞和临床表 型之间复杂关系的综合理解尚有一定距离。
由于对临床应用中遗传途径的认识极为有限,因此DNA微阵列已经用 于研究在体外和体内环境下的药物反应。无需明确指明途径,已经报导了将 因对化疗试剂的响应变化而产生的基因组范围的基因表达与肿瘤组织药物 反应直接关联的研究。(参见Staunton,J.E.等人″Chemosensitivity prediction by transcriptional profiling,″Proc.Natl.Acad.Sci.USA 98,10787-10792 (2001);Zembutsu,H.等人″Genome-wide cDNA microarray screening to correlate gene expression profiles with sensitivity of 85human cancer xenografts to anticancer drugs,″Cancer Res.62:518-527(2002);上述文献全部 以全文引用的方式并入本文中)。由于实验设计的局限性,这些结果对于决 定一个样本基因谱是否与一个特定药物反应精确相关不够确定。然而,即使 进一步的体外或体内研究得出阳性结果,直接临床应用也仍然是不可能的。
我们所需要的是根据一群患者生物学图谱取样来预测一个个体的治疗 结果的方法、系统和计算机程序产品。

发明内容

本发明涉及从一群患者的生物学图谱取样来预测一个个体的治疗结果 的方法、系统和计算机程序产品。
根据本发明的一个方面,生物学图谱信息采自被诊断为具有一种医疗状 况并且接受一种治疗的患者。还接受关于具有该医疗状况且接受该治疗的患 者的治疗结果信息。随后对这些生物学图谱信息和治疗结果信息实施一个基 于判别分析的模式识别方法,从而产生一个使得该生物学图谱信息与治疗结 果信息相互关联的模型。该模型尤其可以用于预测新患者接受所述治疗的治 疗结果。本文中描述了本发明的这些以及其它特性。
附图说明
本发明将参考附图进行描述,其中同样的参考数字表示相同或者功能相 似的要素。同样,参考数字最左边的数字标识首次引入相关要素的图示。
图1是一个实例方法的流程图,用于产生和使用一个模型以便从一群患 者的生物学图谱取样来预测一个个体的治疗结果。
图2说明一个分离基因分布的实例。
图3是用于研磨冷冻组织的一个定制钉枪的照片。
图4是一个凝胶电泳检验RNA的实例说明。
图5是扫描一个微阵列得到的一张实例图像。
图6是一张放射性疗法应答分析产生的实例图像。
图7是可以在其中执行本发明的一组实例计算机系统

具体实施方式

目录表
I  引言........................................................9
II 一种用于预测治疗结果的方法..................................10
III商业应用实例................................................13
IV 与其它治疗结果预测方法比较..................................14
A  自下而上方法(top-down)对比由下至上(bottom-up)法.............14
B  选择患者形成预测模型........................................16
V  生物学图谱..................................................16
A  使用一名患者的非靶点组织用于预测............................16
B  总RNA和eDNA.................................................17
C  预测长期治疗后结果..........................................18
VI 进行判别分析来建立预测模型..................................18
VII可选执行细节、实例和测试结果................................19
A  方法:由微阵列绘制图谱......................................20
1.微阵列.......................................................20
2.RNA提取......................................................20
3.cDNA探针标记......................................................21
4.阵列杂交和图像处理................................................21
B使用判别分析进行数据分析...........................................22
1.费舍线性判别分析..................................................23
2.K最近邻法.........................................................25
C实例...............................................................26
1.放射性治疗子宫颈癌的功效预测......................................27
2.结肠直肠癌........................................................29
3.卵巢癌............................................................30
4.体外授精..........................................................31
D样本规模...........................................................32
VIII计算机执行
DC总结
I引言
本发明涉及一种方法,其将一个患者组织的微阵列芯片分析与用于预测 建议该患者进行的治疗计划功效的判别分析相结合。该方法分析并且将来自 处于不同医疗状况(例如疾病或者营养不良的人体状态)的许多患者的生物 学图谱(如基因组谱、DNA谱、RNA谱、蛋白质谱)与他们各自治疗的临 床结果相互关联。本发明为针对一名指定患者制定专且有效的临床治疗提 供基础。
本发明使临床患者组织与临床治疗反应直接相互关联。本发明无需途径 信息而通过数学建模提供一种直接关系。与在体外和体内研究中所用数据大 不相同,本发明利用从复杂的人体生理环境所获得的数据。本发明也提出更 多精心设计的药物输入人体方法和其它治疗方式(例如放射疗法、体外授 精)。
至少在部分内容中,本发明假定以下概念,即药物反应中的个体间改变 是由于生物学(例如遗传学)差异。本文中称之为遗传药理学。这对于某些 药物尤其显著,例如在癌症治疗中使用的化学疗法。此等遗传学差异可以影 响药物的药代动学(例如代谢或运输)或药效学(例如靶点或调节酶)。 用于绘制表达谱的DNA微阵列的出现为用于鉴别医疗状况(例如疾病、先 前未识别的疾病子集和预后性症状类别)、途径、靶点和化合物的分子特征 的生物学图谱(例如基因组范围)方法提供一个有用的平台。(参见 Pagliarulo,V.等人″Role of genetic and expression profiling in pharmacogenomics:the changing fece of patient management,″Curr.Issues Mol. Biol.4:101-110(2002),全文以引用的方式并入本文中)。这允许对例如癌症 的更系统性研究。例如“个人化医疗“讨论于Mancinelli,L.等人 ″Pharmacogenomics:The Promise of personalized Medicine,AAPS PharmSci 2000;2(1)第4篇(2002),全文以引用的方式并入本文中。
II一种用于预测治疗结果的方法
本发明将人体组织或样本的微阵列分析与判别分析结合来预测治疗结 果。图1是一个实例方法100的工艺流程图,该方法用于生成和使用从一群 患者的生物学图谱取样来预测一个个体的治疗结果的模型。方法100包括一 个模型生成过程102和一个治疗结果预测过程104。该模型生成过程102产 生一个预测模型。该模型生成过程102的目标是获取已知的输入数据(历史 数据)并生成一个辩别不同治疗结果的模型。治疗结果预测过程104预测一 个新组织样本的治疗结果。
所述模型生成过程102开始于任务定义106,其中定义了模型生成参数。 参数可以不加限制地包括范围定义。范围定义可以不加限制地包括识别一种 治疗方法(例如化学疗法、免疫疗法、放射疗法或体外授精)。在一个药物 治疗案例中,可能存在许多治疗选择,所以可选择一种特定的药物或者组合 药物来进行研究。其他参数因子可以包括一个被预测目标(即即时药物反应 或长期效应)、组织类型(例如原发性肿瘤、转移性病灶、血清)、组织表征 (例如利用RNA、DNA和蛋白质绘制图谱)及/或大小足够代表患者群体的 组织样本量数目。参数也可以包括组织收集的附加考虑因素(例如同时包括 正常组织和肿瘤的总RNA)和治疗反应变量(例如CT扫描结果、CEA值)。
在步骤108中,从患者处收集治疗结果130。治疗结果130可以通过多 种方式收集。例如(且不限于)可以通过使用由治疗医师、肿瘤学家及/或 患者回答的调查问卷来收集治疗结果。所述问卷可以是计算机实施、书面或 其组合。可以从单一机构或不同机构收集治疗结果。治疗结果130可以通过 电子方法及/或传统信件传输方式在本地及/或远程收集。
在步骤110中,从患者处收集组织样本132。
在步骤112中,在确定组织处理技术(例如cDNA微阵列)之后,在该 等组织样本132上执行微阵列实验。
在图1中示为生物学图谱数据134的来自微阵列的患者组织处理结果 (例如基因表达值)和相应的临床治疗结果记录(例如响应或未响应)(在 图1中示为治疗结果130)在一个判别数据分析中用作输入量,在图1中示 为步骤114。分析不同的治疗结果(治疗结果130)和它们相应的生物学图 谱数据134(例如基因组表达)来识别它们的差异。然后使用最优结果建立 一个治疗预测模型136。上述判定在下文分章节讨论。
该方法的第二部分是治疗结果预测过程104,它使用模型136对一名新 患者预测治疗结果。该过程开始于步骤116,即按步骤110从患者处收集相 同类型的组织样本138。在步骤118中,使用与步骤112中相同或大体上相 似的方法制备和处理该患者组织138来产生新的患者生物学图谱(例如基因 组谱)值140。在步骤120中,将这些新的患者生物学图谱值140输入到预 测模型136中并返回一个预测结果。
在预期有多种备选疗法时,对于每一种疗法都产生另一个模型136。换 句话说,使用由已经接受相应治疗的患者获得的治疗结果130对每种疗法重 复该模型生成过程102。然后将从新患者获得的生物学图谱数据140提供给 每种模型136。或者,当从一个不同类型组织生成一个特殊模型136时,就 会需要一个新的患者组织样本138。
所述模型136可以由以阳性/阴性反应形式及/或以分度反应(例如以标 度0-1)形式的治疗结果生成。由以阳性/阴性反应形式的治疗结果生成该或 该等模型136时,输出预测结果142也将为阳性/阴性反应的形式。或者, 由以一种分级数值反应的形式生成该或该等模型136时,输出预测结果142 也将为分度反应的形式。当考虑多种疗法时,可以用分度反应142从多种阳 性疗法中选择一种优选疗法。
每种药物具有不同的作用机制。这些内在差异使得很难将药物活性与基 因表达相关。因此,有可能一种特定程序可以成功地预测药物反应但是却不 能够正确地预测其它药物的活性或者治疗类型。例如,单一药物治疗和组合 治疗是非常不同的;所以一个能够预测单一药物治疗反应的程序可能不能预 测对于一个药物组合的反应。不同的用药进程也导致极为不同的功效,而且 一个预测一种特殊药物输送方法(例如一次性大剂量注射)的程序可能在另 一进程(例如延时的)下不起作用。(参见Levi F,等人″A phase I-II trial of five-day continuous intra-venous infusion of 5-fluorouracil delivered at circadian rhythm modulated rate in patients with metastatic colorectal cancer,″J Infus Chemother;5:153-158(1995),全文以引用的方式并入本文中)。通过仔 细选择在各种情况下的样本案例,我们证明本发明就其产生精确预测模型的 能力来说是相当有用的。
本发明展示预测单一药物、药物组合和其它医学疗法选择(例如放射疗 法、体外授精)功效、从而为诊断和治疗各种医疗状况给出确定结果的能力。 本发明可用于预测许多种需要物理、生物或化学干涉的人类疾病的治疗反 应。
III商业应用实例
除了为患者预测治疗结果之外,本发明还可应用于多种其它应用。例如 (不限于),一个商业应用实例是协助研发癌症治疗计划。该预测模型将可 用疗法的反应分级,其可能用于合理设计治疗计划。
另一种应用是帮助设计新的临床药物试验。多种药物虽然在临床测试中 得到阳性结果却在试验期间失败。有时这并非因为该药物无效,而是因为效 率不够高或者副作用太严重。本发明通过鉴别最受益于该药物并经受最小量 副作用的患者来解决这些问题。例如,在I期和II期临床试验期间,可以保 存患者的组织而且在II期结束时记录临床治疗结果。然后可以用此组织和临 床治疗结果产生一个预测模型。该模型随后可包括于III期临床试验中。
另一种应用是判别临床前试验的可能性。可以从一个原始临床试验建立 一个预测模型。然后用该模型判定其它哪些疾病可以作为这种药物的靶点。 例如,在一种新结肠癌药物的临床试验完成以后,其数据可用于建立一个预 测模型。然后就可以用该新模型来测试其它肿瘤(例如卵巢、乳癌)以选择 另一个临床试验的最佳试验对象。
IV与其它方法比较治疗结果的预测
A自下而上方法对比传统的由下至上法
一般而言,基因表达与临床治疗功效之间的关系是非常复杂的。为了充 分理解遗传药理学,可能必须应用一种系统生物学方法去研究基因组与其环 境之间的相互作用。大多数研究由寻找标志基因开始。随后探索生物化学途 径以理解生物网络系统。在所述途径网络中会有大量分支和回馈环路。在理 论上,将需要分析每一个基因并且确定常存于每个途径和环路中的连接和反 应常数。也需要考虑到其他因素以使得临床模型更加真实,诸如细胞体积和 蛋白质定位。当预测一种组合药物或者组合方式治疗的时候这一方法会变得 相当复杂。在这一模型中也必须考虑许多额外药理学因素,如药物输送顺序 和药物输送速率。
这是一种研究个别要素来获得对整体系统逐渐深入理解的经典的还原 论方法;即一种由下至上方法。运用这种方法有很多益处。新药的发现将明 显受益于途径研究。对于整个系统的理解是医药基因组学的最终目标。这是 建立遗传药理学研究网络和知识数据库财团(Pharmacogenetics Research Network and Knowledge Base consortium(PharmGKB))的主要原因。遗传药 理学知识数据库(PharmGKB)由以下机构提供资金支持:从属于美国国立 健康研究院(NIH)的美国国家常规医学科学研究院(NIGMS)、人类基因 组研究院(NHGRI)和国家医学实验室(NLM)和遗传药理学研究网以及 斯坦福大学儿童健康计划。网址是 (http://www.pharmpkb.org)。上述内容以 引用的方式全部并入本文中。这个数据库将用于研究人类遗传多态现象如何 导致在治疗药物反应中观察到的变化。研究者将用来交换研究结果的 PharmGKB的复杂数据库设计强调该自下而上方法的复杂性。(参见Oliver D.等人″Ontology Development for a Pharmacogenetics Knowledge Base,″Pac. Symp.Biocomput.65-76(2002),全文以引用方式并入本文中)。
因此需要大量的资源和时间去仔细研究这些关系、途径和网络。目前, 这些研究限于较简单的有机体,如酵母(参见Ledeker T.等人″Integrated Genomic and Proteomic Analyses of a Systematically Perturbed Metabolic Network,″Science,292,929-934(2001),全文以引用方式并入本文中)和细 胞系。(见Butte A.J.等人″Discovering Functional Relationships Between RNA Expression and Chemotherapeutic Susceptibility Using Relevance Networks,″ Proc.Natl.Acad.Sci.USA 97,12182-12186(2000),全文以引用方式并入本文 中)。甚至在这些案例中,结果也表现出复杂网络的证据。这种自下而上方 法也是目前关于药效的专利的基础(例如6218122或6222093,其全文以引 用方式并入本文中)。这些专利使用体外实验来研究途经并预测药物反应。 迄今为止,这种方法仍不成熟。希望有一天将有足够的知识来建立一个辅助 预测药物反应的模型。
该分析所有相关生物途径的自下而上方法仍然处于其初级阶段。使用这 种方法建立一个预测模型还将有很长的时间。然而,本发明假定预测治疗功 效不需要途径信息。
本发明将微阵列表达图谱与临床结果直接关联。通常,对于密切相关的 因果事件,人们期望可以建立一个统计模型使这两种因素相关。然而这却不 适用于现在的情形,因为在基因表达与治疗结果之间有很多步骤。另外,一 种人体临床治疗反应是基于很多其它因素的。因此,这种自下而上方法的成 功就是本发明的一个主要观念。
B选择患者形成预测模型
在一种典型的自下而上方法中,详细信息(例如途径)提供建立一个用 于药效预测模型的基础。在一种自上而下方法中,这个信息可能并不存在。 本发明以采取患者样本为基础来形成一个统计模型。假定不管在基因表达与 临床治疗结果之间的复杂联系,在不同临床群体的患者之间存在足够的表达 谱分离以提供一个预测模型。理论上,患者的基因谱分布会非常复杂。需要 使用正确的分析工具来正确地分离一个患者群体。图2是一个关于这种分离 概念的简化实例。实际分布可不同于所示曲线。
在图2中,患者在治疗后显示两种不同的临床结果。每条曲线围起一群 具有相似结果的患者。该分布的分离就使得能够预测各种临床结果。
V生物学图谱
A使用患者的非靶点组织进行预测
预测一名个体患者治疗反应的主要困难是创造一个真实的人体环境。我 们认为患者组织是该患者内部系统的最好记录器,而且该组织的一个完整基 因组(或蛋白质组)表达可以代表他/她的真实体内状态。
在一些自下而上研究中,在一个体外或者体内实验中使用患者组织。在 这些实验中,该等组织对一个不同于患者原始内部环境的模拟环境应答。本 发明不以患者组织作为这些实验的对象。作为代替,生物学图谱(例如基因 表达结果)代表原始体内状态。这是使用自下而上方法的一个优点。
在本发明的自下而上方法中,仍然需要决定使用何种组织。一个选择是 使用作为治疗靶点的组织;即如果想要治疗初生组织就选择初生组织,如果 治疗靶点是转移性病灶就选择转移性肿瘤。然而,靶点组织可能无法利用。 即使靶点组织是可用的,也可能不希望使用它。举例而言,即使可以用一个 转移性病灶的样本,在相同患者中可以存在转移性肿瘤的若干变异。所以并 不总是能获得必需的组织。
初生组织往往不可利用。例如,众所周知原发性肿瘤细胞经历许多突变 步骤而变得具有转移性,产生非常不同的细胞图谱。然而,根据本发明可以 成功地使用非靶点组织(例如初生组织、粒层细胞)来预测靶点组织(例如 转移性肿瘤、卵巢)对治疗的响应。
B总RNA和cDNA
可以用各种类型生物学图谱信息中的一种或一种以上来实施本发明,该 信息无限制性地包括:遗传谱信息、RNA谱信息、DNA谱信息和蛋白质谱 信息。
可以用从含有混合细胞群的组织样本中采集的RNA及/或DNA谱信息 实施本发明。通常优选纯的癌细胞群,但是测试结果显示对于治疗预测而言 不需要均质组织样本。
组织选择部分基于所选微阵列技术而定。尽管如出版论文中所述,微阵 列已经得到成功应用,但是探针的设计和处理仍需要改进。本发明使用经典 的cDNA基微阵列测试以证明其预测治疗反应的能力。未来微阵列处理的改 进将进一步增强本发明的预测能力。
C预测长期治疗后结果
通常药物反应的研究是针对治疗后的即时结果。然而,在疾病的临床治 疗中长期功效是另一个重要因素。在一些情况下,一名对一种治疗完全响应 的癌症患者会在一段时期(例如两年)后复发。一种可以精确预测治疗后复 发的方法将可能提供更及时的干涉。
由于癌细胞持续改变,在一段延迟(例如高达和超过2年)之后积累性 改变会相当大。这种情况会通过使用原发性肿瘤组织来预测转移性肿瘤的长 期治疗反应而复杂化。本发明可以成功地预测一种长期反应。
VI进行判别分析以建立预测模型
本发明使用判别分析来建立用于预测一名患者治疗结果的模型。例如, 本发明可以结合DNA微阵列处理与判别分析来建立用于每名患者独立治疗 结果的模型。
本发明使用一类称为“判别分析”或者“监督聚类(supervised clustering)” (常用于模式识别领域)的数据分析方法学来分析生物学图谱。判别分析方 法的实例是线性判别法、最大相似法、K最近邻法、神经网络和隐式可夫 法(Hidden Markov Method)。这类方法不同于在现今微阵列数据分析中常 用的无监督聚类法,如层次聚类法、K均值聚类法和自组织映射图(SOM)。
无监督聚类分析是一种单输入(基因表达)和单输出(分组样本或基因) 方法。由于不需要附加输入/信息指导分组过程,所以由使用者去选择执行 细节(例如距离量度)、判断结果正确性和揭示其意义。本方法最适用于“新 类别发现”。
无监督方法是一种单步法,而判别分析/监督聚类是一种由训练和测试 组成的两步法。训练步骤需要两个输入(例如基因表达和临床结果)并且在 分析所述两个输入之间关系的基础上产生一个输出结果。临床结果的附加输 入支配分析过程。从临床观察了解患者之间的分组信息。因此,训练的目的 并非是如无监督聚类中一样将患者分组,而是解决如何通过基因表达分离群 组的问题。然后使用从训练获得的知识建立一个用于“类别预测“的模型。 在测试步骤中,把来自其他患者未用于训练过程的信息用于测试该模型的性 能并确定其准确度。
VII可选性执行细节、实例和测试结果
药效取决于许多因素,例如在治疗中所用药物的药效学和药代动力学。 由于这些多种考虑因素,本文提供的实例被设计成是对于不同疾病使用不同 治疗方法测试各种状况。本文的实例证明预测不同临床观察的能力:短期治 疗、长期治疗和不同治疗方式(例如放射疗法、化学疗法和体外授精)。短 期反应的一个实例性测试是预测在治疗周期结束之后的即时化学疗法反应。 长期反应的一个实例性测试是预测对化学疗法成功、完全反应之后的复发。 也可以用更困难的组合药物疗法代替较简单单一药物疗法来说明本发明。下 列实例的目的是为各种案例建立一个普遍成功的方法。
A方法:由微阵列绘制图谱
由DNA微阵列绘制表达谱始终在改进。(参见Heller MJ.″DNA microarray technology:devices,systems,and applications,″Annu.Rev.Biomed. Eng.4:129-153(2002);Chicurel,M.E.,和Dalma-Weiszhausz,D.D., ″Microarrays in pharmacogenomics-advances and future promise,″ Pharmacogenomics,3:589-601(2002);全部以引用的方式并入本文中)。但是 为了证明本发明,使用了一种cDNA微阵列。未来更先进的微阵列技术对于 使用本发明可以产生更好的表现。
使用印制在尼龙滤膜上的cDNA微阵列。将RNA样本反转录并且使用 [33P]加以标记。本方法使用印制在尼龙膜上的微阵列的再现性类似于北方杂 交实验。
1.微阵列
使用来自GeneMachines的OmniGrid高通量阵列点样仪(arrayer)产生 实例微阵列。这些印制在3×8尼龙膜上的阵列含有大约11000个DNA元件, 该等DNA元件对应于GenBank数据库中基本上所有的功能已知的人类转录 物(约7000)和一些匿名EST(>3000)。
2.RNA提取
为此实验,从由至少50%癌细胞组成的肿瘤组织中分离出总RNA。在 一些情况下,由医院癌症中心提取RNA,把它悬浮于乙醇中,并通过快递 邮件运送到测试中心以供分析。另外,将冷冻的组织包装放在里面。为 了更有效地研磨该冷冻组织,使用配有一个载弹簧活塞和一个不锈支架的 定制钉枪300(图3)。用这个程序按常规回收了相对高产量和良好质量的 RNA。
使用标准化方案处理这些样本以保证在实验条件波动最小。使用购自 Qiagen的RNeasy试剂盒分离出RNA。用匀浆器(杜恩斯(Dounce)匀浆 器)把大约5mg的研磨组织在RNA提取试剂中匀化。随后使用Rneasy试 剂盒的迷你柱纯化来自匀浆组织样本的RNA。通过凝胶电泳检查分离RNA 的完整性来检验用购自SyberGold的分子探针染色的18S和28S核糖体RNA 的质量(图4)。通过荧光成像仪扫描检测了染色RNA。SyberGold的高灵敏 度使得能够使用仅1ng总RNA来确认分离RNA的质量,这在RNA样本量 有限的时候是很有利的。
3.cDNA探针标记
通过使用Superscript II逆转录酶(Gibco/BRL)的寡聚dT引导的聚合 反应从分离总RNA用33P-dCTP合成cDNA探针。一个使用33P-dCTP的典 型标记反应显示于表1中。
  成分  体积(μl)   5X第一链缓冲液  6   寡聚dT12-18(500μg/mL)  2   10X低dT dNTP混合物  1.5   33P-dCTP  5   0.1M DTT  1   5μg总RNA  8   Superscript  II  RNAse  H- 逆转录酶  1.5
表1.使用33P-dCTP的标记反应实例。
4.阵列杂交和图像处理
将33P-dCTP标记探针与滤膜阵列杂交过夜。随后用2X SSC/0.2%SDS (50℃下清洗20分钟)进行两次清洗并用0.5X SSC/1%SDS(65℃下清洗 15分钟)进行一次清洗。将清洗过的滤膜暴露于一台荧光成像屏上24小时 并且随后在一台购自Molecular Dynamics的Typhoon荧光成像仪上进行扫描 (图5)。
使用Imagene(Biodiscovery)处理这些扫描图像来提取每个单点密度。 以表格式(tab delimited)文件输出这些值,把它们用于判别/监督聚类分析 中。
在图5中,一个10K人类滤膜阵列与用5μg从子宫颈癌组织分离的总 RNA标记的探针杂交。清洗该滤膜阵列并暴露于一台荧光成像屏上然后用 荧光成像仪扫描。
B使用判别分析进行数据分析
微阵列数据分析属于两种类型数据分类的一种。在第一类中,任务的目 的是探索数据中聚类或者类别的存在。然后用所得分组信息执行其它详细分 析。在第二类中,类别信息已知;目的是了解类别之间的差异,随后使用所 述知识建立一个模型。该模型可以用于将一个未知类别中的数据分类。所述 第一类叫做监督学习/聚类或者简单聚类。后者是一种监督学习/聚类,在 文献中也称作判别分析或者模式识别。
监督学习认为存在某人(监督者)可以将数据正确分类。建立预测模型 所需的知识可以直接由监督者提供或通过对数据的统计推理来了解。我们的 数据分析通过统计推理派生出这种知识而且我们的监督者是临床医师,他们 将患者治疗后的反应进行分类但是不知道如何区分这些不同类别。这个监督 者的分类和来自患者肿瘤的微阵列表达谱是用于我们分析的两组输入数据。
所述监督学习方法具有三种基本方式:线性判别分析、概率密度估算和 决策树/规则基础方法。决策树或者规则基础方法在一些现象数据分析中已 经显示出是成功的(参见MALIN,B.A.,SWEENEY,L.A.,″Inferring genotype from clinical phenotype through a knowledge based algorithm,″Pacific Symposium on Biocomputing 2002(2000),全文以引用的方式并入本文中), 但是并非适于本文中描述的数据分析。因此这项研究将使用前两种方法。线 性判别的实例包括经典费舍氏线性判别分析、逻辑判别、二次判别、支持向 量机(Brown,M.P.S.等人″Knowledge based Analysis of Microarray Gene Expression Data by Using Support Vector Machines,″Proc.Natl.Acad.Sci. USA 97,262-267(2000),全文以引用的方法并入本文中)和感知网络。概率 估算方法的实例包括K最近邻法、朴素贝叶斯和多重层次神经网络(即非 感知器网络)。
在选择分类方法中,除非问题已经得到很好的研究或者底层结构已知, 否则通常需要尝试尽可能多的不同方法和途径。假设每一个数据集含有不同 组的隐藏结构。最好不预测每一种方法的性能直到已经广泛研究了许多数据 集。
1.费舍线性判别分析
费舍线性判别分析(FLDA)是一种将最小平方距离用于分类的经验方 法。其目标是在特征空间中选出一个最优超平面来分离已知类别。
在该实例中,目标是将组织分为两种类别(即敏感性和抗性)。该特征 空间由在微阵列中使用的基因来定义。每个组织样本在这个空间中是一个 点。FLDA分类法在这个特征空间中找到一条优化线来分离所述两种类别。 这条优化线具有如下特性:如果所有组织点都投影在这条线上,那么两组组 织(敏感性对抗性)将得到最大程度的分离。
可以证明,寻找这条优化线类似于寻找在组内散布与组间散布之间的最 优比率。
对于每个组织样本,存在一个基因表达向量X;投影向量P投影X到 该特征空间内的一条线上而得到标量值Y。
Y=PTX
让组1内的组织具有基因表达向量X1。它们具有平均值 x1,而且组1 内投影值(即Y1)之间的方差是S1 2。相似地,组2中的组织具有基因表达 向量 x2,平均值为X2且方差为S2 2。所以FLDA用一个目标函数J(P)将所有 基因向量投影到一条线上并且找到在所有可能投影P中J(P)的最大值。
J ( P ) = | P T X - 1 + P T X - 2 | / ( S 1 2 + S 2 2 )
分子是组1与组2之间分开的距离,而分母是这两组的方差。用方差对 间隔标准化/重设比例,所以可以在不同投影向量P之间比较J(P)。
上述方程还可以写成:
J(P)=PTSBP/PTSWP
其中SB是组间散布矩阵,而Sw是组内散布矩阵;
SB=( x1- x2)( x1- x2)T
S W = Σ 1 ( X 1 - X - 1 ) ( X 1 - X - 1 ) T + Σ 2 ( X 2 - X - 2 ) ( X 2 - X - 2 ) T
J(P)的最优值可以由解决矩阵SW -1SB的本征值问题来确定。
FLDA一半用于单模高斯分布时执行良好。对于其它种类的分布,FLDA 可能不能有效执行。由于我们不知道基因值的概率分布而且每一种治疗的反 应来源于非常不同的概率分布,FLDA的执行难以预测。
2.K最近邻法
K最近邻(KNN)规则是一个没有先前分布知识的简单非参数分类器。 传统上,KNN确定使用下列三个步骤:
对于一个未知的样本x,从所有训练向量中确定k个最小近邻。
在这些k个样本之外,识别属于每一类/组的样本数量。
将x分配到具有在第一步中识别的k个最小近邻样本数量最大的类别。
这种方法可能遭遇到一种情况,即存在不止一个具有相同最大KNN样 本数的类别。因而需要一种冲突解决方法。
为了避免所述冲突解决方法,上述多数票运算法则已经被修改,而且对 于这项数据分析将称之为KNN平均距离比较运算法则。此处是修改的KNN 步骤:
对一个测试向量x,找到每个训练类/组i的KNN。
对于每个类/组,添加从x至KNN的距离。
D i = Σ j KNN dist xj 其中distxj是向量x与样本向量j之间的距离。
把x分配至具有所有可能的D1中最小相加距离的组m
Dm=min{D1}
从上述程序来看明显KNN的执行极大地取决于距离定义。许多不同种 类的距离测量法都可以用。最常见的选择是欧几里德距离和基因向量的相关 性系数。在我们目前的研究中,使用基于相关性系数的距离。
对于两个基因向量X1和X2,它们之间的距离由下式定义:
Dist 12 = 1 - Σ ( X 1 - X - 1 ) ( X 2 - X - 2 ) / ( Σ ( X 1 - X - 1 ) 2 Σ ( X 2 - X - 2 ) 2 )
其中∑是该等基因值的总和。
FLDA与KNN之间的比较显示,FLDA一般善于发现组1与组2之间 的总体差异,而KNN一般善于估算局部概率密度。这两种方法的结果提供 本发明的基本性能。
C.实例
本发明建立预测治疗反应的通用程序。在具有不同治疗方案和目标(例 如短期反应、长期复发)的不同疾病分析中用几种方法进行最优化。已经对 这些研究进行过选择以保证具有不同隐藏结构的不同数据集的覆盖率。在一 种情况下给出最好性能的特殊判别方法对于另一种情况可能并非同样良好。 本发明并非太多关注于针对一个特殊数据集来确定最佳方法,而更多地关注 于证明在治疗预测中判别分析的成功应用。为了测试不同的方法,使用一种 线性判别分析的代表性方法和概率估算方法的另一种代表性方法:分别是费 舍线性判别分析(FLDA)和K最近邻法(KNN)。
从几个不同的患者群组获得表达谱并且随后使微阵列表达数据与临床 治疗反应相互关联。在每一项研究中,把可用的微阵列数据随机地分为训练 样本和测试样本。该等训练样本用于建立可能的预测模型。随后使用剩下的 测试样本测试每个模型的性能。将最佳性能模型选作最终结果。
在训练期内,训练组数据及其临床分组信息(例如抗性对敏感性)是判 别分析的输入值。检测不同临床群组的基因表达来开发一个将它们进行最佳 区分的模型。然后用从训练获得的知识建立一个用于进一步“类别预测“的 模型。用该等测试样本验证该模型的正确性和选择最佳性能模型。
通常该模型的预测性能取决于如何将数据分为训练和测试样本的最初 选择。这在小型数据集中更经常出现。为避免这种偏倚,将分离过程多次随 机化。每一次将所有患者的微阵列数据随机重分离为训练集和测试集,而且 重复整个训练和测试过程。通过将所有这些重复的性能平均来确定最终预测 模型的准确度。结果报导如下。
用四个数据集来测试本发明:结肠直肠、卵巢和子宫颈癌以及体外授精。 使用判别分析法分析微阵列数据来预测案例中的治疗结果。
1.预测放射疗法对子宫颈癌的功效
第一项研究检测了子宫颈癌患者的表达谱。从子宫颈癌患者中收集了二 十六个大体解剖的原发性肿瘤。患者的特征示于表2中。将十三名患者给予 放射疗法作为对子宫颈癌的初期治疗。对他们进行挑选以用于我们的分析并 且根据24个月之后的治疗结果按照以下临床结果中的记录分为两组:尽管 接受治疗但仍死于该疾病(DOD)的患者和从治疗结束后仍存活没有疾病迹 象(NED)的患者。RT抗性组具有平均20.6个月的存活时间,而RT敏感 组具有64.1个月的平均存活时间。当进行本研究时,放射疗法抗性组中的 所有患者已经死于该疾病,而放射疗法敏感组中的患者都仍然存活。
  特征   患者数目%   FIGO阶段   IB   11   42.4   IIA   8   30.8   IIB   5   19.2   IIIB   1   3.8   IVA   1   3.8   肿瘤等级   1   3   11.5   2   16   61.5   3   7   27
表2.患者的数据(n=26名患者)   患者   存活时间(月)   平均时间(月)   C348   22   20.6   抗性组   C567   15   C502   27   C496   10   C495   37   C523   13   C522   50   64.1   敏感组   C451   72   C464   67   C555   39   C366   86   C437   74   C477   61
表3.在分析时患者的存活时间
使用判别分析法分析这13名患者。在预测模型中使用的前50个基因显 示于图6中,图6正确区分出放射疗法敏感性或放射疗法抗性的治疗结果。 在图6中,用一个群集图展示可以用于放射抗性组和放射敏感组分类的最重 要基因所得出的结果。表中显示了这两组患者在放射治疗后的平均存活时间 (月)。
一名在治疗两年后“无疾病迹象”的患者被定义为反应性的,而两年内 癌症的任何复发都定义为抗性的。在训练过程中,一名反应性患者和一名抗 性患者被随机保留为测试样本。用其他11个样本建立该模型。为了测试该 模型是否能够预测治疗反应,使用经过校准的模型去预测2个保留测试样本 的结果。这种测试样本选择、数据分析和测试重复100次。平均随机化预测 准确度是97%。
在该模型中一些基因代表宽范围的细胞功能(表4),包括具有转录、 细胞粘附和信号传导功能的基因。
 基因名称和类别   登记号#   表达比率   (敏感/抗性)  转录因子  T-box 19   AI630980   0.43  ZNF33A锌指蛋白33a(KOX 31)   N57658   0.47  血清应答因子   AA487973   0.37  细胞核受体共抑制子1   T99086   0.46  细胞死亡  半胱酸蛋白酶8(Caspase 8)   AA448468   0.36  与神经丝蛋白弱相似   N55563   0.45  程序性细胞死亡4   R26827   0.45  肌动蛋白相关性细胞骨架蛋白  与激肽原L高度相似   H69834   0.44  KIAA0220蛋白,肌动蛋白细胞骨架组织   R91822   0.38  KIAA0336基因产物,类似于小鼠肌球蛋白重链   R00035   0.40  KIAA0514基因产物,富脯氨酸肌动蛋白结合蛋白家族   AI139146   0.48  KIAA0966蛋白,类似于SAC1、肌动蛋白突变1同源物抑制因子   R69354   0.43  Ras蛋白家族  N-乙基马来酰亚胺敏感因子   H38086   0.35  RAB7   AI202933   0.42  与小鼠假定Rho/Rac GEF相似   AI042352   0.39
表4.在对放射疗法应答(敏感)或者无应答(抗性)的患者之间区别表 达的基因。
2.结肠直肠癌
我们的第二项研究中分析了结肠直肠癌的治疗。目标是预测即时化疗反 应(即在治疗后立即评估化疗反应)。这项研究中的治疗方案是每两周给予 一次5FU、亚叶酸与CPT11(伊立替康)的组合。每4个周期由CT扫描和 CEA值变化来评估反应。在该研究中包括10个患者样本。用CT结果将患 者分为反应性组和抗性组。三名部分反应患者分配到反应性组而两名进行性 患者分配到抗性组。由CT扫描确定的5名疾病稳定状态患者又基于在治疗 过程中CEA水平的变化分成敏感组和抗性组。所有CEA水平有50%缩减 率的患者都分配至敏感组,而剩余患者分配至抗性组。由于在我们的分析中 包括具有疾病稳定状态的患者,这两组之间的差异远远小于没有他们所形成 的两组间差异。由于是预测组合药物疗法,因此有可能存在比单一药物治疗 分析中更多支配药物功效的因素。但是,我们发现这项测试的预测精确性大 约为83%。
3.卵巢癌
第三项研究是卵巢癌治疗。许多患者经历了偕同两侧卵巢输卵管切除 术、子宫切除术和横结肠网膜切除术及最大肿瘤切除术进行的剖腹探查术作 为部分对患者卵巢癌的治疗。所有患者随后受到手术后以铂为基础的化学疗 法治疗(即顺铂或卡铂加上环磷酰胺或紫杉醇)。治疗后某些患者立即处于 一种“检测不到疾病”的状态。在29个卵巢癌样本之外,8个III/IV期的病 例已经用上述药物治疗过并且在治疗后处于“检测不到疾病”的状态。在治 疗结束两年后这些患者中有四例保持无病(无疾病迹象),而四例已经经历 了临床复发。我们的目标是将微阵列数据与复发相连接。由于在这项测试中 使用的微阵列数据是采自初期手术,所以在组织采集时间和临床结果之间存 在非常长的延迟。基因表达与结果之间的联系是非常复杂的,不过这项测试 的预测精确度估计大约在94%。
最终,一些卵巢癌患者在以铂为基础治疗复发之后使用以拓扑异构酶1 抑制剂为基础的化疗药物(例如伊立替康或拓扑替康(Topotecan))作为二 线治疗。使用结肠直肠癌患者数据建构的预测模型能够正确预测卵巢癌患者 的反应。这个结果表明我们用一种癌症生成的模型可以用于预测另一种癌症 的反应。
4.体外授精
本发明也对除了癌症之外的其它医疗状况进行了测试。在这种情况下, 此项研究是指导体外授精(IVF)程序。在这项研究中包括9名卵巢储量 (ovarian reserve)正常和9名卵巢储量下降的共十八名妇女。在IVF准备 期间用在卵泡抽吸时分离的粒层细胞给予所有的患者促性腺激素刺激。从妇 女体内分离的黄素化粒层细胞的基因表达和关于她们正常或下降的卵巢储 量信息的临床信息是判别分析的输入数据。所得模型从一名患者的粒层细胞 基因表达对她的卵巢储量给出了完美的预测。
以上所给出的实例包括短期化学疗法反应预测、长期化学疗法反应预测 以及对于其它治疗方式(例如放射疗法、体外授精)反应的预测。总的来说, 所述结果证明了预测不同疾病反应的能力。所述结果还证明通过DNA微阵 列和判别计算分析使用表达谱预测治疗反应的能力。这些结果意味着组织表 达谱展示抗性模式的患者应该给予可能产生改良反应或治愈的替代性治疗 方式,从而根据个体的基因表达模式将其疗法个人化。
D样本规模
在微阵列数据分析中,实验中包括的一个生物学图谱样本(如基因)中 的数据点数目经常远大于样本规模。理论上,由于在一个生物学图谱样本、 例如基因中有大量数据点,少量样本可偶然与基因表达吻合。处理这一问题 保证这些研究结果不是随机的。
这项研究使用监督判别分析。主要目标是将表达谱与所观察临床结果拟 合。一个正确执行的临床数据分析应该从观察到的临床差异中发现真正的遗 传学原因。随机化数据的分析不会发现任何真正的“原因”。
为测试分析的有效性,将分析所得结果与随机化数据集进行比较。为了 创建随机化数据,将每位患者的样本任意分配到不同群组(即通过混合阳性 和阴性样本人工创建新的群组)中。
在这项研究中,这些人工创建的群组在每一个群组中具有大概相等数目 的真实阳性和阴性样本。然后将这些群组进行判别分析来创建将各群组互相 区别开来的模型。将所得的这些人工数据模型的准确度与真实数据的性能比 较。由于存在多种创建这些中性(即相等数目的阳性和阴性成员)人工群组 的方式,所以重复多次(>30)地创建和分析这些数据来评估这些随机结果 的性能。表5总结所述结果。
  临床数据分析   随机分组数据分析   自包括预测准确度   自排除预测准确度   自包括预测准确度   自排除预测准确度   平均值   标准偏差   平均值   标准偏差   结肠直肠癌   96.3   83.3   89.1   3.8   47.5   19.9   子宫颈癌   99.4   96.0   91.9   1.6   52.2   9.8   卵巢癌   98.5   94.0   86.9   5.1   47.4   20.6
表5:预测准确度(%)
在表5中报导了基于临床观察结果的数据分析和随机分群的数据分析 两者两种不同的结果:自包括和自排除。自包括结果在分析过程中包括测试 样本;自排除结果不包括测试样本。自排除分析通常是报导结果。比较这两 种结果确证该分析的有效性。对于随机化数据,自包括预测准确度非常良好; 但是自排除准确度差得多;即自包括预测中的良好结果在尝试预测未知样本 时失败。这表明分组不含有真实信息。这正是对人工创建的中性群组所估计 的情况。另一方面,自包括和自排除结果对于真实临床数据十分接近。这表 明来自真实数据的模型提取的是临床差异的真实遗传原因。因此,如自排除 准确度的高准确度所示,这一模型可以预测新的样本。
第二个有效性指标(indictor)是将真实临床数据的自排除准确度与随机 化数据比较。这项研究中报导的真实临床数据结果优于随机化结果约2个标 准偏差(意即它们相差1.8SD、4.5SD和2.3SD)。这表示以临床数据为基 础的结果不是偶然出现的。这进一步支持了所报导结果的有效性。
 VIII计算机执行
可以在能够进行本文所述功能性的一种或一种以上计算机系统中执行 本发明。例如(且不限于)在一种计算机系统中可以执行模型生成过程102 (图1)及/或治疗结果预测过程104(图1)或其部分。更具体来说,在一 种计算机系统中可以执行判别分析程序(图1中步骤114)、所得模型136 及/或治疗预测程序(图1中步骤120)或其部分。
图7说明一个实例计算机系统700。依据这个实例计算机系统700描述 了各种软件实施例。在阅读了本说明文之后,相关领域技术人员将很清楚如 何使用其它计算机系统及/或计算机体系结构来执行本发明。
该实例计算机系统700包括一个或一个以上处理器704。处理器704与 一个通讯基础设施702相连接。
计算机系统700也包括一个主存储器708,优选的是随机存取存储器 (RAM)。
计算机系统700也可以包括一个辅助存储器710,所述辅助存储器可以 包括(例如)一个硬盘驱动器712及/或一个移动存储驱动器714,该移动存 储驱动器可以是软盘驱动器、磁带驱动器、光盘驱动器等。移动存储驱动器 714以一熟知的方式读取及/或写入一个移动存储单元718。移动存储单元718 代表软盘、磁带、光盘等,它由移动存储驱动器714读取和写入。移动存储 单元718包括一个其中存储有计算机软件及/或数据的计算机可用存储媒体。
在其它实施例中,辅助存储器710可以包括其它可以使计算机程序或其 它指令输入到计算机系统700中的装置。所述装置可以包括(例如)移动存 储单元722和接口720。所述装置实例可以包括程序卡(program cartridge) 和程序卡接口(如那些电视游戏机中的装置)、移动记忆芯片(如EPROM 或PROM)和相关插口和其它的移动存储单元722及允许将软件和数据从移 动存储单元722转移到计算机系统700的接口720。
计算机系统700也可以包括一个通讯接口724,它允许软件和数据在计 算机系统700与外部设备之间转移。通讯接口724的实例包括但不限于:调 制解调器、网络接口(如以太网卡)、通讯端口、PCMCIA插槽和卡等。通 过通讯接口724转移的软件和数据是以信号728的形式,它们可以是能够被 通讯接口724接收的电子、电磁、光学或者其它信号。这些信号728通过信 号路径726提供到通讯接口724。信号路径726携带信号728而且可以使用 电线或电缆、光纤、电话线、蜂窝式电话连接、RF连接和其它通讯通道加 以实现。
在这份文件中,术语“计算机程序媒体”和“计算机可用媒体”用以表 示移动存储单位718、安装在硬盘驱动器712中的硬盘和信号728。这些计 算机程序产品是为计算机系统700提供软件的工具。
计算机程序(也称为计算机控制逻辑)存储于主存储器708及/或辅助 存储器710中。计算机程序也可通过通讯接口724接收。这些计算机程序被 执行时能够让计算机系统700实现如本文中讨论的本发明特征。特别是,这 些计算机程序被执行时能够让处理器704实现本发明的特征。因此,这些计 算机程序代表该计算机系统700的控制器
在一个使用软件执行本发明的实施例中,该软件可以存储于一个计算机 程序产品中并且输入到使用移动存储驱动器714、硬盘驱动器712或通讯接 口724的计算机系统700中。该控制逻辑(软件)由所述处理器704执行时 使得处理器704实行如本文所描述的本发明功能。
在另一个实施例中,主要是使用(例如)如专用集成电路(ASIC)的 硬件部件在硬件中执行本发明。相关领域技术人员将很容易了解硬件状态机 的实行以实施本文所述的功能。
在另一个实施例中,使用硬件与软件两者的组合来实现本发明。
例如而不限于,在一次计算机执行中向计算机系统700中提供治疗结果 130和生物学图谱数据134,随后所述计算机系统执行进行步骤114的指令 产生一个计算机模型136。随后向该计算机模型136(在计算机系统700中 或者在另一个计算机系统中)提供新的患者生物学图谱数据140,所述计算 机模型输出预测结果142。
IX总结
本发明已经借助于说明其特定功能操作和关系的功能结构单元描述于 上文中。为描述方便起见,这些功能结构单元的界限已经在本文中独立加以 限定。可以限定替代性界限,只要其特定功能和关系得到适当地执行。因而 任何此等替代性界限都位于所主张的发明范围和精神之内。所属领域技术人 员应认识到这些功能结构单元可以由分立部件、专用集成电路、执行合适软 件的处理器及其类似物和其组合来实现。
虽然上文已经描述了本发明的不同实施例,但是应了解它们仅仅是以实 例的方式提出而非具有限制性。因此,本发明的广度和范围不应受到任何上 述例示性实施例限制,但是仅应根据所附的权利要求及其等效物进行界定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈