首页 / 专利库 / 病理 / 结直肠癌 / 结肠直肠癌的预后预测

结肠直肠癌的预后预测

阅读:987发布:2020-05-12

专利汇可以提供结肠直肠癌的预后预测专利检索,专利查询,专利分析的服务。并且本 发明 涉及判断癌症,尤其是结肠直肠癌患者的 预后 的预后 信号 ,组合物和方法。具体而言,本发明涉及基因标记在预测癌症如结肠直肠癌的预后中的应用,其是基于基因标记的信号。在不同方面,本发明涉及了一种预测癌症患者长期存活可能性的方法,一种确定癌症患者 治疗 方案 的方法,一种制定癌症患者治疗模式的方法等,以及实施上述方法的 试剂 盒 和装置。,下面是结肠直肠癌的预后预测专利的具体信息内容。

1.预后信号在制备用于判断CRC发展的诊断工具中的用途,所述预后信号由FAS和ME2基因组成。
2.预后信号在制备用于判断CRC发展的诊断工具中的用途,所述预后信号由FAS和ME2基因和选自表1和2的一或多种基因组成。
3.如权利要求2所述的用途,其中所述预后信号选自表9中的任一信号。
4.一种判断CRC预后的装置,其包括:其上有一个或多个位点的基片,每个位点上有预后信号的基因的寡核苷酸,所述预后信号由FAS和ME2基因组成。
5.根据权利要求4所述装置,其中所述预后信号还由选自表1和2的一或多种基因组成。
6.根据权利要求5所述装置,其中所述预后信号是选自表9中的任一预后信号。
7.用于测定由FAS和ME2基因组成的预后信号的表达平的试剂在制备用于通过以下方法判断患者CRC预后的试剂盒中的用途,所述方法包括以下步骤:
(i)测定患者CRC肿瘤样品中由FAS和ME2基因组成的预后信号的表达水平;
(ii)应用预测模型,所述模型是通过将预测方法应用于复发和不复发肿瘤样品中预测信号的表达水平而建立的;
(iii)确定预后。
8.根据权利要求7所述用途,其中所述预后信号还由选自表1和2的一或多种基因组成。
9.根据权利要求8所述用途,其中信号选自表9中的任一预后信号。
10.根据权利要求7所述用途,其中所述预测方法选自线性模型(linear model),支持矢量机(support vector machine),神经网络(neural networks),分类和回归树(classification and regression trees),集结学习方法(ensemble learning methods),差异分析(discriminant analysis),最近邻法(nearest neighbor method),贝叶斯网络(Bayesian networks),独立成分分析(independent components analysis)组成的组。
11.根据权利要求7-10任一所述的用途,其中测定预后信号表达水平的步骤是通过检测每种基因的mRNA表达水平来进行的。
12.根据权利要求7-10任一所述的用途,其中测定预后信号表达水平的步骤是通过检测每种基因的cDNA表达水平来进行的。
13.根据权利要求12所述的用途,其中测定预后信号表达水平的步骤是利用与所述cDNA的至少一部分互补的核苷酸来进行的。
14.根据权利要求11所述的用途,其中测定预后信号表达水平的步骤是通过使用qPCR方法来进行的,其中所述qPCR方法利用正向引物和反向引物。
15.根据权利要求11所述的用途,其中测定预后信号表达水平的步骤使用权利要求
4-6任一所述的装置来进行的。
16.根据权利要求7-10任一所述用途,其中测定预后信号表达水平的步骤是通过检测每种基因的蛋白表达水平来进行的。
17.根据权利要求7-10任一所述用途,其中测定预后信号表达水平的步骤是通过检测每种基因的肽表达水平来进行的。
18.根据权利要求16所述用途,其中所述的检测步骤利用针对每种基因的蛋白的抗体来进行。
19.根据权利要求17所述用途,其中所述的检测步骤利用针对每种基因的肽的抗体来进行。
20.根据权利要求16所述用途,其中所述检测步骤利用夹心免疫测定
(sandwich-type immunoassay method)来进行。
21.根据权利要求17所述用途,其中所述检测步骤利用夹心免疫测定法来进行。
22.根据权利要求18所述用途,其中所述抗体是单克隆抗体。
23.根据权利要求19所述用途,其中所述抗体是单克隆抗体。
24.根据权利要求18所述用途,其中所述抗体是多克隆抗血清。
25.根据权利要求19所述用途,其中所述抗体是多克隆抗血清。

说明书全文

结肠直肠癌的预后预测

[0001] 相关申请
[0002] 本申请要求以2005年12月23日提交的申请号为544432的新西兰临时专利申请为优先权,其被全文引入本文作为参考。

技术领域

[0003] 本发明涉及判断癌症尤其是结肠直肠癌(colorectal cancer)患者的预后的方法和组合物。具体而言,本发明涉及基因标记在判断癌症如结肠直肠癌的预后中的应用,所述
应用基于预后信号

背景技术

[0004] 结肠直肠癌(CRC)是发达国家最常见的癌症之一,而且它的影响范围还在持续扩大。尽管结肠直肠癌从良性息肉到腺瘤到癌的发展进程已被研究透彻(1),但分子机制对
肿瘤转移的转变和确立的影响仍不是十分清楚。目前CRC的预后和治疗是依靠诊断时
对于疾病的临床病理分期,和一期外科治疗。不幸的是仅靠疾病分期并不能准确预测单
个患者的预后。若能更准确地预测患者预后,就可调整治疗以避免将会复发的治疗不足
(under-treating)患者,或仅靠手术治疗的过度治疗患者。
[0005] 已经作了大量的尝试以识别预测CRC临床预后的标记。直到最近致于单个蛋白或基因成熟的大多数研究才获得关于预后信息的有限成果(2)。微阵列技术能识别基因集,
即与癌症预后相关的所谓的分类器或信号。该方法被应用到多种癌症中,包括CRC(3-5),但
在方法上的缺陷和缺乏独立验证引起了对该方法的怀疑(6,7)。而且,由于不同研究者采用
不同技术平台和方法得到的识别一致性较差,还出现了对预测预后的分离器/信号能力的
怀疑(8)。
[0006] 因此需要更多的手段来预测结肠直肠癌的预后。本发明提供了更多的基于癌症预后标记、尤其是结肠直肠癌预后标记的方法,组合物,试剂盒和装置,以帮助癌症的预后和
治疗。
[0007] 发明简述
[0008] 在某些实施方式中,提供了一组经识别在复发和不复发结直肠肿瘤中差异表达的标记基因。这组基因可用于产生含有两个或多个标记的可预测患者结直肠肿瘤发展进程的
预后信号。
[0009] 根据肿瘤是否为复发的,单个标记的表达会有差异。通过将标记整合到预后信号中可提高预测的准确性,其相比单基因方法可提供更有效的个体检测。还提供技术的应用,
如预后信号的统计,机器学习人工智能,和数据挖掘以产生预测模型。在另一实施方式中,
患者肿瘤中特定预后信号的标记的表达平被应用到判断预后的预测模型中。
[0010] 在某些实施方式中,标记的表达水平可通过微阵列技术,定量聚合酶链式反应(qPCR),或免疫方法来确立。
附图说明
[0011] 参考特定实施方式和附图来描述本发明,其为:
[0012] 图1为流程图,显示了来自于149例新西兰(NZ)和55例德国(DE)结肠直肠癌(CRC)样品的预后信号的制备方法。将新西兰RNA样品与含有经留一法交叉验证(LOOCV)
制备的22基因信号的寡核苷酸点阵列进行杂交,然后利用55例德国样品数据组通过LOOCV
进行独立验证。将德国RNA样品与含有经LOOCV制备的19基因信号的Affymetrix阵列进
行杂交,然后利用新西兰数据组通过LOOCV进行独立验证。
[0013] 图2为高肿瘤复发险和低肿瘤复发风险的患者无病存活时间的卡普兰-迈耶分析(Kaplan-Meier):a,对149例新西兰肿瘤患者使用NZ 22基因信号;b,对55例德国肿瘤
患者使用DE 19基因信号;c,由55例德国肿瘤患者验证NZ预后信号;d,由149例新西兰肿
瘤患者验证DE预后信号。由时序检验法(log-rank)计算P值。
[0014] 图3为高肿瘤复发风险和低肿瘤复发风险的患者无病存活时间的卡普兰-迈耶分析(Kaplan-Meier):a,在新西兰II期和III期癌症患者上使用22基因NZ信号;b,在新西
兰II期和III期癌症患者上使用19基因DE信号。
[0015] 图4显示了结肠直肠癌预后可变长度信号的预测值。这些信号源自于11重交叉验证(11-fold cross validation)的10次重复运行。用不同的虚线指示11重交叉验证
的每次重复;用粗线指示交叉重复的平均值。在交叉验证的每重中,若交叉级别的倍数变化
<1.1则去除基因(因为在该重中未取出保留样品)。然后利用修正t-统计法将基因分类,
获得每重中不同的基因集,并为每重建立利用前n基因(n=2-200)的分类器。因此11重
交叉验证的每次重复的每重中的基因都是不同的。图4A:基因数目/信号的灵敏度(正确
分类的复发肿瘤比例)。图4B:基因数目/信号的特异性(正确分类的不复发肿瘤比例)。
图4C:基因数目/信号的分类率(正确分类的肿瘤比例)。统计员所用术语如下:I表示I
期或II期结肠直肠癌(未发展),而IV表示最后发展成IV期转移癌。
[0016] 图5显示了除FAS和ME2两个基因外(从数据组中去除)在图4实验的重复中,降低的结肠直肠癌预后信号预测值。图5A:基因数目/信号的灵敏度(正确分类的复发肿
瘤比例)。图5B:基因数目/信号的特异性(正确分类的不复发肿瘤比例)。图5C:基因数
目/信号的分类率(正确分类的肿瘤比例)。
[0017] 图6显示了“前数(top count)”的对表(每个基因出现在“前-n”基因列的次数,即,实施例17中描述的前10,前20,前100和前325),如以下的实施例17,其采用了利用R
统计计算包的三种不同的标准化方法。Becker等在其关于S语言的论文中(以R语言为基
础;参见参考文献39)描述过“对(pairs)”表。为比较方法,用对线上定义的行和列以
在这两种方法之间获得弥散点,类似于在按比例制取的地图上读取距离。
[0018] 图7显示了前数的对表(每个基因出现在“前n”基因列表中的次数,即,实施例17中描述的前10,前20,前100和前325),其采用了三种不同的过滤统计法:(a)双样品威
斯康星检验法(Wilcoxon)(41),(b)t-检验法(利用分母中的ad-hoc修正系数修正以消除
错误表现为显著的低差异基因的影响)和(c)由Bioconductor(12,40)的″limma″(10,
40,42)包提供的经验贝叶斯法(empirical Bayes)。
[0019] 发明内容详述
[0020] 在详细描述发明实施方式之前的定义,用于解释本文所用某些术语的定义。
[0021] 术语“标记”是指与生物现象的出现定性或定量相关的一类分子。“标记”的实例包括聚核苷酸,如基因或基因片段,RNA或RNA片段;或基因产物,包括多肽如肽,寡肽,蛋白,
或蛋白片段;或任意相关的代谢物,副产物,或任何其它识别分子,如抗体或抗体片段,无论
与现象潜在机制是直接还是间接相关。本发明的标记包括本文所公开的核苷酸序列(如:
GenBank序列),尤其是全长序列,任意编码序列,任意片段,或它的任意互补序列,和上述
的任意可测量标记。
[0022] 术语“CCPM”或“结肠直肠癌预后标记”或“CCPM家族成员”是指与特定预后(如:本文所述的较高或较低的癌症复发可能性)相关的差异表达的标记,但不包括现有技术
已知的与结肠直肠癌预后相关的分子。应理解的是术语CCPM不要求标记仅对结直肠肿瘤
是特异的。而是,在其它类型的肿瘤(包括恶性肿瘤)中CCPM的表达可能会改变。
[0023] 术语“预后信号”“信号”等等是指一组含两种或多种的标记,例如CCPM,当它们作为组被共同分析时能够判断或预测事件,例如结肠直肠癌的预后结果。采用含有两种或多
种标记的信号可降低个体差异的影响并获得更稳健的预测。CCPM的非限制性实例在表1,
2,5和9中列出,而预后信号的非限制性实例在表3,4,8A,8B和9中列出。在本发明的上下
文中,涉及任意特定组所列的“至少一种”,“至少两种”“至少五种”等任意特定组所列(例
如任意信号)的标记意味着所列标记的任一或任意或整体组合。
[0024] 术语“预测方法”被定义为覆盖了来自于统计,机器学习,人工智能和数据挖掘领域的宽泛方法种类,它们可用于指定的预测模型。这将在发明详述部分中进一步讨论。
[0025] 术语“预测模型”是指通过将预测方法应用到一组数据中而获得的特定数学模式。在本文详述的实施例中,这类数据组是由取自复发和不复发结肠直肠癌患者的组织样品中
的基因活性测定值所组成的,且每个样品的分类(复发型或不复发型)是已知的。该模式
可用于(1)将未知复发状态的样品归类为复发型或不复发型,或(2)做概率预测(即生成
表示概率的比例或者百分比),它表示未知样品为复发型的可能性,其基于对未知样品中
mRNA的表达水平或表达产物以及特定基因集的测定。这类特定基因如何组合以产生归类和
概率预测的具体细节取决于用于构建所述模型的预测方法的特定机制。
[0026] 当“灵敏度”“特异性”(或“选择性”),和“分类率”用于描述预测模型的有效性时,其意义如下:“灵敏度”表示被预测(依靠模型)为阳性的真阳性样品的比例,在CRC复
发的检测中,即表示为由模型预测的复发肿瘤占复发肿瘤的比例。“特异性”或“选择性”表
示被预测(依靠模型)为阴性的真阴性样品的比例。在CRC复发的检测中,即等于被模型
预测为不复发肿瘤的不复发样品的比例。“分类率”是指由预测模型正确分类的所有样品的
比例(为阳性或阴性)。
[0027] 本文所有的“抗体”和类似术语是指免疫球蛋白分子和免疫球蛋白(Ig)分子的免疫活性部分,即含有可与抗原特异结合(发生免疫反应)的抗原结合位点的分子。其包括
但不限于:多克隆抗体,单克隆抗体,嵌合体,单链,Fc,Fab,Fab′,和Fab2片段,和Fab表达
文库。抗体分子涉及任何种类的IgG,IgM,IgA,IgE,和IgD,它们的分子中重链特性相互区
别。其还包括亚类,如IgG1,IgG2和其它。轻链可以是κ链或λ链。本文所涉及的抗体
包括所有种类,亚类和类型。还包括嵌合抗体,例如:对多于一种来源(如小鼠或人序列)
有特异性的单克隆抗体或其片段。还包括camelid抗体,鲨鱼抗体(shark antibodies)或
纳米抗体。
[0028] 术语“癌”和“癌型的”是指通常以异常的或失控的细胞生长为特征来描述的哺乳动物生理状况。癌和癌病理是与例如肿瘤转移,干扰正常的邻近细胞功能,以异
常水平释放细胞因子或其它分泌产物,抑制或恶化炎症或免疫反应,瘤形成,癌前病变
(premalignancy),恶性肿瘤,入侵周围或较远组织或器官如淋巴结等相关联的。具体包括
结肠直肠癌,如肠癌(如:大肠),肛癌和直肠癌。
[0029] 术语“结肠直肠癌”包括结肠,直肠,和/或肛门的癌,具体是腺癌,还包括癌(如鳞状泄殖腔原癌(cloacogenic carcinoma)),黑素瘤,淋巴瘤,和肉瘤。也包括表皮样癌(非
角化鳞状细胞或基底细胞)。癌可能与特定类型的息肉或其它病变,例如管状腺瘤,绒毛管
状腺瘤(tubulovillous adenomas)(如:绒毛腺性息肉),绒毛(例如:乳头状)腺癌(带
或不带腺癌),增生性息肉,错构瘤,幼年性息肉,息肉样癌,假息肉,脂肪瘤,或平滑肌瘤是
相关的。癌还可能与家族性息肉和相关病症如加德纳综合症(Gardner’ssyndrome)或黑斑
息肉综合症(peutz-Jeghers syndrome)相关联。癌可能与慢性瘘,照射肛门皮肤,粘膜白
斑病,性病性淋巴肉芽肿,博文氏病(上皮内癌),尖锐湿疣,或人乳头瘤病毒相关联。在其
它方面,癌可能与基底细胞癌,乳腺外佩吉特氏病(extramammary Paget’s disease),泄殖
腔原的癌,或恶性黑素瘤相关。
[0030] 术语“差异表达”“差异的表达”和类似短语是指基因标记在个体(如:检测样品)中的表达相对于在对照个体(如:参照样品)中的表达被激活至更高或更低水平,所述个体
患有病症特别是癌症,如结肠直肠癌。该术语还包括在相同病症的不同分期;复发或不复发
疾病;或高水平或低水平增殖的细胞中其表达被激活至更高或更低水平的标记。差异表达
的标记可以是在聚核苷酸水平或多肽水平被激活或被抑制,或可能经过选择性剪接而生成
了不同的多肽产物。这种差异可以体现为例如多肽在mRNA水平,表面表达,分泌或其它划
分(partitioning)上的变化。
[0031] 差异表达可包括两种或多种标记(例如:基因或其基因产物)表达的对比;或两种或多种标记(例如:基因或其基因产物)表达率的对比;或同一标记的两种不同加工产
物(例如:转录物或多肽)的对比,它们在正常个体和患病个体之间,或同一疾病的不同分
期之间;或复发和不复发疾病之间;或高水平增殖细胞和低水平增殖细胞之间;或正常组
织和病变组织具体是癌或结肠直肠癌之间是有差异的。差异表达包括在例如正常和病变细
胞之中,或经历不同疾病机制或病期的细胞之中,或不同增殖水平的细胞之中的基因或其
表达产物的时间或细胞表达模式的定量以及定性差异。
[0032] 术语“表达”包括聚核苷酸和多肽的产生,尤其是,由基因或基因片段产生RNA(如mRNA),还包括由RNA或基因或基因片段编码产生多肽,和与表达相关的可检测物质的出
现。例如,复合物的形成,例如源于多肽与多肽相互作用的,源于多肽与核苷酸相互作用的
等也包括在术语“表达”的范围内。另一实例是结合配体(如杂交探针或抗体)与基因或
其它聚核苷酸或寡核苷酸,多肽或蛋白片段的结合,和配体的可视化。因而,在微阵列上,在
杂交印迹如RNA印迹上或在免疫印迹如蛋白印迹上,或在球微阵列上,或通过PCR分析的点
的光密度也属于术语基本生物分子的“表达”。
[0033] 可互换使用的术语“表达阈值”和“定义的表达阈值”是指所讨论的标记水平超出了聚核苷酸或多肽作为患者存活且不复发癌症的预测标记。阈值取决于由如以下实施例所
述的临床实验研究而建立的预测模型。根据所采用的预测模型,表达阈值可开始获得最高
灵敏度,或最强特异性,或最小误差(最佳分类率)。例如更高阈值可实现最小误差,但它可
造成较低的灵敏度。因此,对于任何给定的预测模型,需通过临床研究来设定通常可获得最
高灵敏度又具备最小误差率的表达阈值。任何情况下表达阈值的确定都是本领域技术人员
熟知的。
[0034] 本文所用的术语“长期存活”是指经手术或其它治疗后存活至少5年,优选至少8年,最优选至少10年。
[0035] 术语“微阵列”是指规则或不规则的捕获剂的排列,优选在基片上的聚核苷酸(探针)或多肽。参见如Microarray Analysis,M.Schena,John Wiley&Sons,2002;Microarray
Biochip Technology,M.Schena,ed.,Eaton Publishing,2000;Guide to Analysis of
DNA Microarray Data,S.Knudsen,John Wiley&Sons,2004;和 Protein Microarray
Technology,D.Kambhampati,ed.,JohnWiley&Sons,2004。
[0036] 术语“寡核苷酸”是指一种聚核苷酸,通常是一种探针或引物,包括但不限于:单链脱核糖核苷酸,单链或双链核糖核苷酸,RNA:DNA杂交链,和双链DNAs。寡核苷酸,如单链
DNA探针寡核苷酸,通常经化学方法合成,例如通过商业可供的自动寡核苷酸合成仪,或通
过多种其它方法合成,包括体外表达体系,重组技术,和在细胞和生物体中的表达。
[0037] 单数形式或复数形式的术语“聚核苷酸”,通常是指任何聚核糖核酸或聚脱氧核糖核酸,其可以是未经修饰的RNA或DNA或经修饰的RNA或DNA。包括但不限于:单链和双链
DNA,含有单链和双链区域的DNA,单链和双链RNA,和含有单链和双链区域的RNA,含有RNA
和DNA的杂交分子其可以是单链或更通常是双链或含有单链和双链区域。还包括含有RNA
或DNA或同时含有RNA和DNA的三链区域分子。具体包括mRNAs,cDNAs,和基因组DNAs,和
它们的任意片段。术语包括含有一个或多个修饰基(如含氚碱基,或稀有碱基)的DNAs
和RNAs,如次黄嘌呤核苷。本发明的聚核苷酸还包括编码或非编码序列,或正义或反义序
列。应理解的是本文中涉及“聚核苷酸”或类似术语即包括全长序列以及它的任意片段,衍
生物,或变异体。
[0038] 本文所用的“多肽”是指寡肽,肽,或蛋白序列,或其片段,和天然存在的,重组的,合成的,或半合成的分子。本文所述的“多肽”是指天然存在的蛋白分子的基酸序列,“多
肽”和类似术语并不限定氨基酸序列是完整的,天然的全长分子的氨基酸序列。应理解的是
本文中涉及“多肽”或类似术语即包括全长序列以及它的任意片段,衍生物,或变异体。
[0039] 术语“预后”是指对医疗结果的预测,例如差的或好的结果(如长期存活的可能性);阴性预后,或差的结果,包括复发,疾病发展(如:肿瘤生长或转移,或药物抗性),或
死亡的预测;而阳性预后,或好的结果,包括疾病缓解(如:无病状态),病情改善(如:肿瘤
衰退),或病情稳定的预测。
[0040] 术语“增殖”是指引起细胞大小或细胞数量增多的过程,可包括一种或多种:肿瘤或细胞的生长,血管生成,神经支配,和癌转移。
[0041] 术 语“qPCR”或“QPCR”是 指 在 例 如PCR Technique:Quantitative PCR,J.W.Larrick,ed.,Eaton Publishing,1997,和A-Z of Quantitative PCR,S.Bustin,ed.,
IUL Press,2004中所述的定量聚合酶链式反应。
[0042] 术语“肿瘤”是指所有的无论是恶性或良性的肿瘤细胞生长和增殖,和所有癌前和癌细胞和组织。
[0043] 本领域普通技术人员可容易地确定的杂交反应的“严格性”,通常是根据探针长度,洗涤温度,和盐浓度得到的经验结果,通常,较长探针要求更高的退火温度,而较短探
针需要更低的退火温度。杂交通常取决于变性DNA在互补链处于低于其熔点温度的环
境中时的再退火能力。探针和杂交序列之间理想的同源性越高,所采用的相对温度也越
高。结果是更高的相对温度使反应条件趋于更严格,而较低温度使其更不严格。关于杂
交反应的严格性的更多细节和解释可参见例如Ausubel et al.,Current Protocols in
MolecularBiology,Wiley Interscience Publishers,(1995)。
[0044] 本文所定义的“严格条件”或“高度严格条件”通常是:(1)洗涤中采用低离子强度和高温,例如0.015M氯化钠/0.0015M s柠檬酸钠/0.1%十二烷基硫酸钠于50℃;(2)在杂
交过程中使用变性剂,如甲酰胺,例如含0.1%血清白蛋白的50%(v/v)甲酰胺/0.1%聚
蔗糖(Ficoll)/0.1%聚乙烯吡咯烷/含750mM氯化钠,75mM柠檬酸钠pH 6.5的50mM磷
酸钠缓冲液于42℃;或(3)采用50%甲酰胺,5X SSC(0.75M NaCl,0.075M柠檬酸钠),50mM
磷酸钠(pH 6.8),0.1%焦磷酸钠,5X丹哈德溶液(Denhardt′s solution),超声处理的鲑
鱼精DNA(50μg/ml),0.1%SDS,和10%硫酸葡聚糖于42℃,以及于42℃用0.2X SSC(氯化
钠/柠檬酸钠)和50%甲酰胺于55℃洗涤,然后利用含有包括EDTA的0.1X SSC于55℃进
行高度严格的洗涤。
[0045] “适度严格条件”可认为是如Sambrook et al.,Molecular Cloning:ALaboratoryManual,New York:Cold Spring Harbor Press,1989中所述,包括采用低于以上所述严
格的洗涤液和杂交条件(如:温度,离子强度和%SDS)。适度严格条件的实例是在含有:
20%甲酰胺,5X SSC(150mM NaCl215mM柠檬酸三钠),50mM磷酸钠(pH 7.6),5X丹哈德溶液
(Denhardt′s solution),10%硫酸葡聚糖,和20mg/ml变性剪切鲑鱼精DNA的溶液中37℃
温育过夜,然后用1X SSC约37-50℃洗涤。技术人员熟知根据探针长度等类似因素如何必
要地调整温度,离子强度等。
[0046] 除非另有说明,在本发明的操作中将采用常规的分子生物(包括重组技术),微生物,细胞生物和生物化学技术,这些技术都属于现有技术范畴。此类技术在下列文献
中有详细解释,例如Molecular Cloning:A LaboratoryManual,2nd edition,Sambrook
et al.,1989;Oligonucleotide Synthesis,MJ Gait,ed.,1984;Animal Cell Culture,
RJ.Freshney,ed.,1987;Methods in Enzymology,Academic Press,Inc.;Handbook of
Experimental Immunology,4th edition,D.M.Weir&CC.Blackwell,eds.,Blackwell
Science Inc.,1987;Gene TransferVectors for Mammalian Cells,J.M.Miller&M.
P.Calos,eds.,1987;CurrentProtocols in Molecular Biology,F.M.Ausubel et al.,
eds.,1987;和PCR:ThePolymerase Chain Reaction,Mullis et al.,eds.,1994。

具体实施方式

[0047] 已有关于结肠直肠癌中预后标记的不佳效果的报导。本发明公开了一种微阵列在获得稳固结论,确定结肠直肠癌中特定预后信号的预后作用中的应用。本文中基于微阵列
的研究证实了结肠直肠癌中具体预后信号与预后是相关联的。因此本发明可用于识别癌症
复发风险高的患者或复发可能性高的患者。
[0048] 本发明提供了判断疾病预后的标记,例如包括结直肠肿瘤的肿瘤复发可能性。采用本发明的方法,发现了大量标记与结肠直肠癌预后是相关的,并可用于预测疾病结果。对
不同病期的结直肠肿瘤患者样品的微阵列分析获得了预料不到的发现,即标记表达的特定
模式与癌症预后是相关的。因此本发明提供了一组基因(如表1和表2所列),其在复发和
不复发结肠直肠癌中是差异表达的。表1和表2所列基因提供了一组结肠直肠癌预后标记
(CCPMs)。
[0049] 某些结肠直肠癌预后标记(CCPMs)的减少,如与免疫反应相关的标记,指示特定的预后。其包括经标准治疗后癌症复发可能性的增加,尤其是结肠直肠癌。相反地,其它
CCPMs的增加指示另一特定的预后。包括疾病发展或癌症复发可能的增加,尤其是结肠直肠
癌。表达的减少或增加可通过例如将检测样品(如患者肿瘤样品)与参照样品(如已知预
后的相关样品)进行对比来确定。尤其可采用一种或多种来自不复发癌症患者的样品作为
参照样品。
[0050] 例如,为获知预后,可将患者样品(如肿瘤样品)中的表达水平与已知结果的患者样品进行比较。若患者样品与好结果(不复发)样品相比表现出一种或多种CCPMs表达水
平的或高或低,就意味着是阳性预后,或不可能复发。若患者样品中一种或多种CCPMs表达
与差结果(复发)样品相当,就意味着是阳性预后,或肿瘤的复发是可能的。
[0051] 另一实例中,将来自于患者样品(如肿瘤样品)的含有两种或多种CCPMs的预后信号的表达水平与复发/不复发癌样品进行比较。若患者样品表现出CCPMs的表达与不复
发癌症样品相比或高或低和/或与复发癌症样品相当,即意味着是阴性预后。若患者样品
表现出CCPMs表达与不复发癌症样品相当,和/或与复发癌症样品表达相比或高或低,则意
味着是阳性预后。
[0052] 作为一种途径,可将预测方法应用到标记组,例如表1和表2所列的CCPMs组,以产生一种预测模型。其包括产生一种含两种或多种CCPMs的预后信号。
[0053] 因此表1和表2公开的CCPMs提供了一组用于产生可判断癌症预后,以及建立具体是针对肿瘤的治疗方案或治疗模式的预测信号的标记。具体地,阳性预后可用于患者
决定选择标准或介入性较低的治疗。阴性预后可用于患者决定终止治疗或进行高侵袭性
(highly aggressive)或实验性治疗。此外,患者可根据对预后标记(如CCPMs)表达的影
响来选择治疗。
[0054] 可通过任何适当技术来检测肿瘤组织,接近肿瘤的组织,淋巴结样品,血样,血清样品,尿样,或排泄物样品中的CCPMs水平,所述技术可包括但不限于寡核苷酸探针,定量
PCR,或高度针对标记的抗体。需重视的是通过分析预测信号中的多个CCPMs的表达量和存
在并构建预后信号(如表3,4,8A,8B,和9所列出),将提高预后的灵敏度和准确性。因此,
本发明中的各种标记可用于判断癌症的预后。
[0055] 本发明包括存档的石蜡包埋的活检组织在分析成组标记中的应用,因此本发明适合于大多数广泛可用活检组织类型。还适合于几种不同肿瘤组织切取方法,例如,经穿刺活
检或细针抽吸。在某些方面,将RNA从固定化的蜡包埋患者癌组织标本中分离出。分离可
通过任何已知的现有技术来实施,例如穿刺活检组织或细针抽吸细胞。
[0056] 在一个方面,发明涉及了一种预测预后的方法,如癌症患者不复发癌症长期存活的可能性,包括测定取自患者的样品中一种或多种预后标记或其表达产物的表达水平,针
对样品中其它RNA转录物或其产物的表达水平或RNA转录物或其表达产物的参考集的表达
水平标准化。在特定方面,预后标记是表1,2或5中所列的一种或多种标记,或被包括作为
源自表1,2和5中所列标记的一种或多种预后信号,或被包括作为表3,4,8A,8B或9所列
的预后信号。
[0057] 在另一方面,测定了预后标记或其表达产物的表达水平,如:表1,2或5所列的标记,源自于表1,2或5所列标记的预后信号,如:表3,4,8A,8B或9所列的预后信号。在另
一方面,所述方法包括测定全组预后标记或其表达产物(如:表1,2或5所列的标记)或源
自于表1,2或5所列标记的预后信号(如:表3,4,8A,8B或9所列的预后信号)的表达水
平。
[0058] 在其它方面,本发明涉及一种含有与两种或多种标记(如:表1,2和5所列的标记)或源自于表1,2或5所列标记的预后信号(如:表3,4,8A,8B和9所列的预后信号)
杂交的聚核苷酸的阵列(如微阵列)。在一特定方面,所述阵列含有与源自于表1,2和5所
列标记的预后信号或与如表3,4,8A,8B或9所列的预后信号杂交的聚核苷酸。在另一特定
方面,所述阵列含有与全组标记(如:表1,2或5所列的标记)或与如表3,4,8A,8B或9所
列的预后信号杂交的聚核苷酸。
[0059] 这些阵列中,所述聚核苷酸可以是cDNAs,或寡核苷酸,并且显示它们的固体表面可以是例如玻璃。聚核苷酸可与本文所公开的一种或多种标记如全长序列,任意编码序列,
或它们的任意互补序列杂交。在特定方面,一种或多种CCPM表达水平的增加或减少表示长
期存活可能性的减少,如:由于癌症复发,而一种或多种CCPM表达水平没有增加或减少则
表示不复发癌症的长期存活可能性增加。
[0060] 表1:结肠直肠癌预测标记(对应显示出统计学显著差异表达的Affymetrix基因芯片探针,P<0.05,由BRB阵列分析仪确定的)
[0061]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
ME2 210154_at, NM_002396 苹果酶(malic enzyme)2,依赖 Hs.233119 M55905, 0.74
210153_s_at, NAD(+),线粒体内
BC000147
209397_at
STAT1 AFFX-HUMI NM_007315, 信号转导子和转录活化子1, Hs.470943 NM_007315, 0.58
91kDa
SGF3A/ NM_139266 BC002704
M97935_MA
_at,
AFFX-HUMI
SGF3A/
M97935_MB
_at,
AFFX-HUMI
SGF3A/
M97935_3_at
,200887_s_at,
AFFX-HUMI
SGF3A/
M97935_5_at

209969_s_at
CXCL10 204533_at NM_001565 趋化因子(C-X-CJ基序)配体 Hs.413924 NM_001565 0.29
10
FAS 215719_x_at, NM_000043, FAS(TNF受体超家族成员6) Hs.244139 X83493, 0.68
216252_x_at, NM_152871, Z70519,
204780_s_at, NM_152872, AA164751,
204781_s_at NM_152873, NM_000043
NM_152874,
NM_152875,
NM_152876,
NM_152877
[0062]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
SFRS2 200753_x_at, NM_003016 富含精氨酸/丝氨酸的剪接因子 Hs.73965 BE866585, 0.82
2 BG254869,
214882_s_at,
200754_x_at NM_003016
GUF1 218884_s_at NM_021927 GUF1GTP酶同源物(酿酒酵母) Hs.546419 NM_021927 0.71
CXCL9 203915_at NM_002416 趋化因子(C-X-CJ基序)配体 Hs.77367 NM_002416 0.33
9
TYMS 202589_at NM_001071 胸腺激素合成酶 Hs.369762 NM_001071 0.53
SEC10L1 218748_s_at NM_006544 SEC10样蛋白1(酿酒酵母) Hs.365863 NM_006544 0.76
LK4 204887_s_at NM_014264 Polo样激酶4(果蝇) Hs.172052 NM_014264 0.64
MAP2K4 203265_s_at NM_003010 有丝分裂促进蛋白激酶激酶4 Hs.514681 AA810268 0.76
EIF4E 201435_s_at, NM_001968 真核翻译起始因子4E Hs.249718 AW268640, 0.69
201436_at AI742789
TLK1 210379_s_at NM_012290 卷毛样激酶1 Hs.470586 AF162666 0.59
CXCL11 210163_at, NM_005409 趋化因子(C-X-CJ基序)配体 Hs.518814 AF030514,A 0.15
11
211122_s_at F002985
PSME2 201762_s_at NM_002818 蛋白酶体(前体,巨蛋白因子)活 Hs.434081, NM_002818 0.68
化亚基2(PA28β)
Hs.512410
hCAP-D3 212789_at NM_015261 非SMC浓缩速II复合物,亚基 Hs.438550 AI796581 0.83
D3
MPP5 219321_at NM_022474 膜蛋白,棕榈酰化5(MAGUK Hs.509699 NM_022474 0.74
p55超家族成员5)
DLGAP4 202570_s_at NM_014902, 盘状,大(果蝇)同源物相关蛋 Hs.249600 BF346592 1.3
白4
NM_183006
WARS 200628_s_At, NM_004184, 色氨酸tRNA合成酶 Hs.497599 M61715, 0.66
200629_at NM_173701, NM_004184
NM_213645,
NM_213646
ARF6 203312_x_at NM_001663 ADP核糖基化因子6 Hs.525330 NM_001663 0.77
PBK 219148_at NM_018492 PDZ结合激酶 Hs.104741 NM_018492 0.41
GMFB 202543_s_at NM_004124 胶质细胞成熟因子,β Hs.151413 BC005359 0.66
NDUFA9 208969_at NM_005002 NADH脱氢酶(泛醌)1α亚复 Hs.75227 AF050641 0.77
合物,9,39kDa
[0063]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
CDC40 203377_s_at NM_015891 细胞分裂周期蛋白40同源物 Hs.428147 NM_015891 0.8
(酵母)
WHSC1 209053_s_at, NM_007331, 午希二氏综合症候选基因1 Hs.113876 BE793789, 0.75
209054_s_at, NM_014919, AF083389,
209052_s_at NM_133330, BF111870
NM_133331,
NM_133332,
NM_133333,
NM_133334,
NM_133335,
NM_133336
C1QBP 208910_s_at, NM_001212 补体成分1,q亚成分结合蛋白 Hs.555866 L04636, 0.71
214214_s_at AU151801
RBM25 212031_at NM_021239 RNA结合基序蛋白25 Hs.531106 AV757384 0.83
SLC25A11 209003_at, NM_003562 溶质运载蛋白家族25(线粒体 Hs.184877 AF070548, 0.83
载体,酮戊二酸载体)成员11
207088_s_at NM_003562
TK1 202338_at NM_003258 胸腺嘧啶核苷激酶1,可溶 Hs.515122 NM_003258 0.73
ETNK1 222262_s_at, NM_018638 乙醇胺激酶1 Hs.240056 AL137750, 0.66
219017_at NM_018638
KLHL24 221985_at NM_017644 Kelch样蛋白24(果蝇) Hs.407709 AW006750 1.4
AK2 212175_s_at, NM_001625, 腺苷酸激酶2 Hs.470907 AL513611, 0.8
205996_s_at, NM_013411 NM_013411,
212174_at W02312
HNRPD 221481_x_at, NM_0010038 异质性胞核核糖核蛋白D(富含 Hs.480073 D55672, 0.8
209330_s_at, 10,NM_00213 AU元件RNA结合蛋白1, D55674,
37kDa)蛋白
200073_s_at 8, M94630
NM_031369,
NM_031370
GTPBP3 213835_x_at NM_032620, GTP结合蛋白3(线粒体内) Hs.334885 AL524262 0.87
NM_133644
PSAT1 220892_s_at NM_021154, 磷酸丝氨酸转氨酶1 Hs.494261 NM_021154 0.54
[0064]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
NM_058179
AP1G1 203350_at NM_0010300 衔接因子相关蛋白复合物1,σ Hs.461253 NM_001128 0.89
1亚基
07,NM_00112
8
SMCHD1 212577_at 染色体结构维持蛋白包含柔性 Hs.8118 AA868754 0.74
铰链域1
SLC4A4 210738_s_at, NM_003759 溶质运载蛋白家族4,重酸钠 Hs.5462 AF011390, 0.7
203908_at, 协同转运子,成员4
NM_003759,
211494_s_at, AF157492,
210739_x_at AF069510
RBMS3 206767_at NM_0010037 RNA结合基序,单链相互作用 Hs.221436 NM_014483 1.2
92,NM_00100 蛋白
3793,NM_014
483
LARP4 214155_s_at NM_052879, La核糖蛋白域家族成员4 Hs.26613 AI743740 0.66
NM_199188,
NM_199190
FANCA 203805_s_at NM_000135, 范可尼贫血互补组A Hs.284153 AW083279 0.78
NM_0010181
12
SOS1 212780_at NM_005633 非七激酶子同源物1(果蝇) Hs.278733 AA700167 0.84
IFT20 210312_s_at NM_174887 内鞭毛运输20同源物(衣滴虫) Hs.4187 BC002640 1.2
NUP210 212316_at, NM_024923 核孔蛋白210Dka Hs.475525 AA502912, 0.78
220035_at, NM_024923,
213947_s_at AI867102
IRF8 204057_at NM_002163 干扰素调控因子8 Hs.137427 AI073984 0.75
SGPP1 221268_s_at NM_030791 鞘氨醇-1-磷酸磷酸酶1 Hs.24678 NM_030791 0.76
MAD2L1 203362_s_at NM_002358 MAD2有丝分裂终止缺失样蛋 Hs.509523, NM_002358 0.7
白1(酵母)
Hs.533185
PAICS 201013_s_at, NM_006452 磷酸核糖氨基咪唑羧化酶,磷酸 Hs.518774 AA902652, 0.71
核糖氨基咪唑腺苷酸羧基酰胺
201014_s_at NM_006452
合成酶
RPS2 217466_x_at NM_002952 核糖体蛋白S2 Hs.356366, L48784 0.83
Hs.381079,
Hs.498569,
[0065]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
Hs.506997,
Hs.556270
TMED5 202195_s_at NM_016040 跨膜emp24蛋白包含传送结构 Hs.482873 NM_016040 0.86
域5
GTSE1 204317_at, NM_016426 G2和S期表达1 Hs.386189, BF305380, 0.8
204318_s_at Hs.475140 NM_016426
DCK 203302_at NM_000788 脱氧胞苷激酶 Hs.709 NM_000788 0.77
DKFZp762E13 218726_at NM_018410 假定蛋白DKFZp762E1312 Hs.532968 NM_018410 0.81
12
BAZ1A 217986_s_at NM_013448, 溴结构域邻近锌指域,1A Hs.509140 NM_013448 0.8
NM_182648
HIP2 202346_at NM_005339 亨廷顿相互作用蛋白2 Hs.50308 NM_005339 0.78
HNRPA3P1 206809_s_at 异质性胞核核糖核蛋白A3假基 Hs.524276 NM_005758 0.83
因1
CDC42BPA 214464_at NM_003607, CDC42结合蛋白激酶α(DMPK Hs.35433 NM_003607 1.4
样)
NM_014826
P15RS 218209_s_at NM_018170 假定蛋白FLJ10656 Hs.464912 NM_018170 0.79
FLJ10534TSR 218156_s_at NM_018128 TSR1,20SrRNA聚集体同源物 Hs.388170 NM_018128 0.75
(酿酒酵母)
1
RRM1 201476_s_at NM_001033 核糖核苷酸还原酶M1多肽 Hs.383396 AI692974 0.76
USP4 202682_s_at NM_003363, 泛素特异性肽酶4(原癌基因) Hs.77500 NM_003363 1.2
NM_199443
ZNF304 207753_at NM_020657 锌指蛋白304 Hs.287374 NM_020657 1.3
CA2 209301_at NM_000067 碳酸酐酶II Hs.155097 M36532 0.25
LOC92249 212957_s_at 假定蛋白LOC92249 Hs.31532 AU154785 1.1
MARCH5 218582_at NM_017824 膜相关环指(C3HC4)5 Hs.549165 NM_017824 0.81
TRMT5 221952_x_at NM_020810 TRMT5tRNA甲基转移酶5同 Hs.380159 AB037814 0.81
源物(酿酒酵母)
PRDX3 201619_at NM_006793, 硫氧还原蛋白过氧化物酶 Hs.523302 NM_006793 0.73
NM_014098 (peroxiredoxin)3
RAP1GDS1 217457_s_at NM_021159 RAP1,GTP-GDP解离刺激因子 Hs.132858 X63465 0.82
1
[0066]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
NUMB 209073_s_at NM_0010057 Numb同源物(果蝇) Hs.509909 AF015040 0.82
43,NM_00100
5744,NM_001
005745,NM_0
03744
KIF2 203087_s_at NM_004520 驱动蛋白重链成员2 Hs.533222 NM_004520 0.72
ACADSB 205355_at NM_001609 酰基辅酶A脱氢酶,短链/支链 Hs.81934 NM_001609 0.87
IBRDC3 213038_at NM_153341 含有IBR结构域2 Hs.546478 AL031602 0.88
TES 202719_s_at NM_015641, 睾丸衍生的转录物(3LIM结构 Hs.533391 BC001451 1.3
NM_152829 域)
YDD19 37079_at YDD19蛋白 Hs.525826 U82319 0.92
GZMB 210164_at NM_004131 粒酶B(粒酶2,细胞毒T淋巴 Hs.1051 J03189 0.66
细胞相关丝氨酸酯酶1)
LAP3 217933_s_at NM-015907 亮氨酸氨基肽酶 Hs.479264 NM_015907 0.67
C17orf25 209092_s_at NM_016080 染色体17开放读码框25 Hs.279061 AF061730 0.72
ZNF345 207236_at NM_003419 锌指蛋白345 Hs.362324 NM_003419 1.1
KITLG 207029_at, NM_000899, KIT配体 Hs.1048 NM_000899, 0.75
211124_s_at NM_003994 AF119835
CAMSAP1L1 212765_at NM_203459 调素调控膜收缩相关蛋白1 Hs.23585 AB029001 1.3
样蛋白1
YTHDC2 205835_s_at, NM_022828 含有YTH结构域2 Hs.231942 AW975818, 0.84
205836_s_at NM_022828
RABIF 204477_at NM_002871 RAB相互作用因子 Hs.90875 U74324 1.2
SERBP1 217725_x_at NM_0010180 SERBP1mRNA结合蛋白1 Hs.369448, NM_015640 0.81
67,NM_00101 Hs.519284,
8068,NM_001 Hs.530412
018069,NM_0
15640
KPNB1 208975_s_at NM_002265 亲核蛋白(输入蛋白)β1 Hs.532793 L38951 0.74
BRIP1 221703_at NM_032043 BRCA1相互作用蛋白C末端解 Hs.532799 AF360549 0.86
旋酶1
IRF1 202531_at NM_002198 干扰素调控因子1 Hs.436061 NM_002198 0.62
TIPIN 219258_at NM_017858 TIMELESS相互作用蛋白 Hs.426696 NM_017858 0.73
SPFH1 202444_s_at NM_006459 SPFH结构域家族成员1 Hs.150087 NM_006459 0.76
[0067]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
SFPQ 201586_s_at NM_005066 剪接因子富含脯氨酸/甘氨酸 Hs.355934 NM_005066 0.83
(多嘧啶区结合蛋白相关的)
MGAT2 211061_s_at NM_0010158 甘露糖(α-1,6)-糖蛋白β-1, Hs.93338 BC006390 0.79
83,NM_00240 2-N-乙酰葡糖胺基转移酶
8
MCCC2 209624_s_at NM_022132 甲基巴豆酰辅酶A羧化酶2(β) Hs.167531 AB050049 0.6
DDAH2 215537_x_at, NM_013974 二甲基精氨酸二甲基氨基水解 Hs.247362 AJ012008,A 1.2
酶2 K026191
214909_s _at
NP 201695_s_at NM_000270 核苷磷酸化酶 Hs.75514 NM_000270 0.79
CHEK1 205393_s_at, NM_001274 CHK1校验点同源物(栗酒裂殖 Hs.24529 NM_001274 0.7
酵母)
205394_at
MYO1B 212365_at NM_012223 肌球蛋白IB Hs.439620 BF215996 0.85
ATP5A1 213738_s_at NM_0010019 ATP合成酶,H+转运,线粒体 Hs.298280, AI587323 0.82
F1复合物,α亚基,异构体1,
35,NM_00100 Hs.551998
心肌
1937,NM_004
046
IL2RB 205291_at NM_000878 白细胞介素2受体,β Hs.474787 NM_000878 0.73
RPL39 217665-at NM_001000 核糖体蛋白L39(RPL39) Hs.558387 AA420614 1.3
CD59 212463_at NM_000611, CD59抗原p18-20(单克隆抗体 Hs.278573 BE379006 1.5
NM_203329, 识别抗原16.3A5,EJ16,EJ30,
EL32和G344)
NM_203330,
NM_203331
AMD1 201196_s_at NM_0010330 腺苷甲硫氨酸脱羧酶1 Hs.159118 M21154 0.74
59,NM_00163
4
GGA2 210658_s_at NM_015044, 高尔基体相关,含γ衔接蛋白 Hs.460336 BC000284 0.82
,ARF结合蛋白2
NM_138640
MCM6 201930_at NM_005915 MCM6小染色体结构维持缺失 Hs.444118 NM_005915 0.75
蛋白6(MIS5同源物,栗酒裂
殖酵母)(酿酒酵母)
SCC-112 213983_s_at, NM_015200 SCC-112蛋白 Hs.331431 AW991219, 0.8
212138_at AK021757
BCL7C 219072_at NM_004765 B细胞CLL/淋巴瘤7C Hs.303197 NM_004765 1.2
HMGN2 208668_x_at NM_005517 高迁移率组核小体结合结构域 Hs.181163 BC003689 0.9
2
[0068]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
RBBP4 210371_s_at, NM_005610 成视网膜细胞瘤结合蛋白4 Hs.555890 BC003092,X 0.8
217301_x_at 71810
KIAA0090 212396_s_at NM_015047 KIAA0090 Hs.439200 AI143233 0.81
SYNPO 202796_at NM_007286 突足蛋白 Hs.435228 NM_007286 1.2
GPR161 214104_at NM_007369, G蛋白偶联受体161 Hs.271809 AI703188 1.5
NM_153832
TMEM113 215509_s_at NM_025222 跨膜蛋白113 Hs.194110 AL137654 0.72
SMC2L1 204240_s_at NM_006444 SMC2染色体2结构维持样蛋白 Hs.119023 NM_006444 0.65
1(酵母)
RCNA2 203418_at NM_001237 细胞周期蛋白A2 Hs.85137 NM_001237 0.6
VAPB 202549_at NM_004738 VAMP(小泡相关膜蛋白)相关 Hs.182625 AK025720 1.2
蛋白B和C
EXOSC9 213226_at NM_005033 外切酶体元件9 Hs.91728 AI346350 0.73
TRIM25 206911_at NM_005082 含三重基元区25 Hs.528952, NM_005082 0.88
Hs.551516
SCYL2 221220_s_at NM_017988 SCY1样蛋白2(酿酒酵母) Hs.506481 NM_017988 0.85
RYK 214172_x_at NM_0010058 RYK受体样酪氨酸激酶 Hs.245869 BG032035 1.2
61,NM_00295
8
MTHFD1 202309_at NM_005956 亚甲基四氢叶酸脱氢酶(依赖 Hs.435974 NM_005956 0.74
NADP+)1,亚甲基四氢叶酸环
水解酶,甲酰四氢叶酸合成酶
RUNX1 211180_x_at NM_0010018 矮小相关转录因子(急性髓细胞 Hs.149261, D89788 1.1
90,NM_00175 样白血病1,amll癌基因)
Hs.278446
4
KPNA2 201088_at, NM_002266 亲核蛋白α2(RAG分类1,输 Hs.159557, NM_002266, 0.77
入蛋白α1)
211762_s_at Hs.252712 BC005978
PSME1 200814_at NM_006263, 蛋白酶体(前体,巨蛋白因子) Hs.75348 NM_006263 0.76
活化亚基1(PA28α)
NM_176783
TACC3 218308_at NM_006342 转化,含酸性卷曲螺旋蛋白3 Hs.104019 NM_006342 0.78
FEN1 204768_s_at NM_004111 结构特异性核酸内切酶1 Hs.409065 NM_004111 0.73
GTF3C4 219198_at NM_012204 普通转录因子IIIC,多肽4, Hs.549088 NM_012204 0.87
90kDa
[0069]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
GEMIN4 217099_s_at NM_015721 Gem(核细胞器)相关蛋白4 Hs.499620 AF258545 0.76
CTSS 202902_s_at NM_004079 组织蛋白酶S Hs.181301 NM _004079 0.74
MCM2 202107_s_at NM_004526 MCM2小染色体结构维持缺失 Hs.477481 NM_004526 0.71
蛋白2,丝裂蛋白(酿酒酵母)
GPHN 220773_s_at NM_0010242 桥尾素 Hs.208765 NM_020806 0.67
18,NM_02080
6
NUP50 218295_s_at NM_007172, 核孔蛋白50kDa Hs.475103 NM_007172 0.78
NM_153645,
NM_153684
RANBP2L1 210676_x_at NM_005054, RAN结合蛋白2样蛋白1 Hs.469630 U64675 0.83
NM_032260
NR5A2 208337_s_at NM_003822, 核受体亚族5,族A,成员2 Hs.33446 NM_003822 0.77
NM_205860
PGD 201118_at NM_002631 磷酸葡萄糖脱氢酶 Hs.464071 NM_002631 0.75
FUT4 209892_at,20 NM_002033 藻糖基转移酶4(α(1,3)骨 Hs.390420 AF305083,M 0.78
髓特异性藻糖基转移酶)
9893_s_at 58596
RAB6A 201048_x_at NM_002869, RAB6A,成员RAS癌基因家族 Hs.503222, NM _002869 0.81
NM_198896 Hs.535586
CCNT2 204645_at NM_001241, 细胞周期蛋白T2 Hs.292754 NM_001241 0.87
NM_058241
TFRC 207332_s_at NM_003234 转蛋白受体(p90,CD71) Hs.529618 NM_003234 0.63
BIRC5 202095_s_at NM_0010122 杆状病毒含IAP重复域5(存活 Hs.514527 NM_001168 0.7
70,NM_00101 素)
2271,NM_001
168
PGGT1B 206288_at NM_005023 蛋白狵牛儿基狵牛儿基转移酶 Hs.254006 NM_005023 0.8
(geranylgeranyltransferase)类I,
β亚基
USP14 201672_s_at NM_005151 泛素特异性肽酶14(tRNA嘌 Hs.464416 NM_005151 0.81
呤转糖基酶)
PURA 204020_at NM_005859 富含嘌呤元件结合蛋白A Hs.443121 BF739943 1.2
LMAN1 203293_s_at, NM_005570 外源凝集素,甘露糖结合蛋白, Hs.465295 NM_005570, 0.82
1
203294_s_at U09716
[0070]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
WDR45L 209076_s_at NM_019613 WDR45样蛋白 Hs.201390 BC000974 0.82
SGCD 213543_at NM_000337, 肌聚糖,δ(35kDa抗肌萎缩蛋 Hs.387207 AA570453 1.2
白相关糖蛋白)
NM_172244
LRP8 205282_at NM_0010180 低密度脂蛋白受体相关蛋白8, Hs.444637 NM_004631 0.78
54,NM_00463 载脂蛋白e受体
1,
NM_017522,
NM_033300
ITGA4 205885_s_at NM_000885 整合蛋白,α4(抗原CD49D, Hs.555880 L12002 0.74
VLA4受体α4亚基)
BUB3 201458_s_at NM_0010077 BUB3苯并咪唑3出芽抑制解除 Hs.418533 NM_004725 0.79
同源物(酵母)
93,NM_00472
5
KIF18A 221258_s_at NM_031217 驱动蛋白家族成员18A Hs.301052 NM_031217 0.83
FKBP9 212169_at NM_007270 FK506结合蛋白9,63kDa Hs.103934 AL050187 1.2
ATF6 217550_at NM_007348 活化转录因子6 Hs.492740 AA576497 1.4
TNFRSF11A 207037_at NM_003839 肿瘤坏死因子受体超家族成 Hs.204044 NM_003839 0.68
11a,NFKB活化子
KIAA0841 213054_at KIAA0841 Hs.7426 AA845355 0.9
TGFB2 209909_s_at NM_003238 转移成长因子,β2 Hs.133379 M19154 1.1
ITGB5 201125_s_at, NM_002213 整合蛋白,β5 Hs.13155 NM_002213, 1.2
201124_at, AL048423,A
214021_x_at I335208
RABGEF1 218310_at NM_014504 RAB鸟嘌呤核酸交换因子 Hs.530053 NM_014504 1.2
(GEF)1
PBX1 205253_at,21 NM_002585 前B细胞白血病转录因子 Hs.493096 NM_002585, 1.2
2148_at AL049381
ZNF148 203318_s_at NM_021964 锌指蛋白148(pHZ-52) Hs.380334 NM_021964 1.2
ZWINT 204026_s_at NM_0010054 ZW10作用因子 Hs.42650 NM_007057 0.66
13,NM_00100
5414,NM_007
057,
NM_032997
ZDHHC3 213675_at NM_016598 锌指,包含DHHC类3 Hs.61430 W61005 1.3
[0071]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
CDCA8 221520_s_at NM_018101 细胞解离周期相关蛋白8 Hs.524571 BC001651 0.76
CUTL1 214743_at NM_001913, 截断样1,CCAAT替代蛋白(果 Hs.438974 BE046521 1.3
蝇)
NM_181500,
NM_181552
C18orf9 219311_at NM_024899 染色体18开放读码框9 Hs.236940 NM_024899 0.73
TXNDC 209476_at NM_030755 含硫氧还蛋白结构域 Hs.125221 AL080080 0.75
POLE2 205909_at NM_002692 聚合酶(针对DNA),ε2(59p Hs.162777 NM_002692 0.73
亚基)
SPCS3 218817_at NM_021928 信号多肽复合物亚基3同源物 Hs.42194 NM_021928 0.7
(酿酒酵母)
CAND1 208839_s_at NM_018448 清选蛋白相关和 Hs.546407 AL136810 0.84
NEDDYLATION解离蛋白1
U2AF2 218381_s_at NM_0010124 U2(RNU2)小核RNA辅助因子2 Hs.528007 NM_007279 0.83
78,NM_00727
9
WDHD1 204728_s_at NM_0010083 WD重复和HMG盒DNA结合 Hs.385998 NM_007086 0.73
96,NM_00708 蛋白1
6
HEM1 209734_at NM_005337 造血蛋白1 Hs.182014 BC001604 0.9
RABEP1 214552_s_at NM_004703 Rab接触蛋白,RABGTP酶结合 Hs.551518 AF098638 0.84
影响因子蛋白1
SYDE1 44702_at NM_033025 突触检测1,RhoGTP酶同源物 Hs.528701 R77097 1.1
1(线虫)
WFDC1 219478_at NM_021197 WAP四双硫核结构域1 Hs.36688 NM_021197 1.2
TBX2 40560_at NM_005994 T盒2 Hs.531085 U28049 1.1
GART 210005_at NM_000819, 磷酸核糖甘氨酰胺甲酰转移酶, Hs.473648 D32051 0.84
磷酸核糖甘氨酰胺合成酶,磷酸
NM_175085
核糖氨基咪唑合成酶,
H2AFZ 213911_s_at, NM_002106 H2A组蛋白家族成员Z Hs.119192 BF718636, 0.8
200853_at NM_002106
CD7 214551_s_at NM_006137 CD7抗原(P41) Hs.36972 NM_006137 0.8
ELOVL6 210868_s_at NM_024090 ELOvL家族成员6,长链脂肪 Hs.412939 BC001305 0.81
酸的延伸(FEN1/Elo2,
SUR4/Elo3样,酵母)
CACNB3 34726_at NM_000725 钙通道,电压依赖性,β3亚基 Hs.250712 U07139 1.2
TAP1 202307_s_at NM_000593 ATP结合盒转运子1,亚家族B Hs.352018 NM_000593 0.68
(ADR/TAP)
[0072]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
NUP98 210793_s_at NM_005387, 核孔蛋白98kDa Hs.524750 U41815 0.75
NM_016320,
NM_139131,
NM_139132
CHAF1A 214426_x_at, NM_005483 染色质装配因子1,亚基A Hs.79018 BF062223, 0.83
(p150) NM_005483
203976_s_at
EPAS1 200878_at NM_001430 内皮PAS结构域蛋白1 Hs.468410 AF052094 1.3
RNGTT 204207_s_at NM_003800 RNA狵牛儿基转移酶5’磷酸酶 Hs.127219 AB012142 0.8
KLF7 204334_at NM_003709 Kuppel样因子7(遍在的) Hs.471221 AA488672 1.1
C4orf16 219023_at NM_018569 染色体4开放读码框16 Hs.435991 NM_018569 0.77
YBX2 219704_at NM_015982 Y盒结合蛋白2 Hs.380691 NM_015982 0.75
IVD 216958_s_at NM_002225 异戊酰辅酶A脱氢酶 Hs.513646 AK022777 0.81
PEG3 209242_at NM_006210 亲本表达3 Hs.201776 AL042588 1.2
FBXL14 213145_at NM_152441 F盒和富含亮氨酸重复蛋白14 Hs.367956 BF001666 0.83
TMEPAI 217875_s_at NM_020182, 跨膜,前列腺雄激素诱导RNA Hs.517155 NM_020182 1.4
NM_199169,
NM_199170,
NM_199171
RNF138 218738_s_at NM_016271, 锌指蛋白138 Hs.302408, NM_016271 0.82
NM_198128 Hs.501040
DNM1L 203105_s_at NM_005690, 动力蛋白1样蛋白 Hs.550499 NM_012062 0.87
NM_012062,
NM_012063
LHCGR 215306_at NM_000233 促黄体生成素/绒毛膜促性腺激 Hs.468490 AL049443 1.3
素受体
SOCS6 214462_at, NM_004232 细胞因子信号转导抑制因子6 Hs.591068 NM_004232, 0.85
(SOCS6)
206020_at NM_016387
CEP350 213956_at NM_014810 中心体蛋白350kDa Hs.413045 AW299294 1.3
PTGER3 210374_x_at, NM_000957, 前列腺E受体3(亚类EP3) Hs.445000 D38300, 1.1
210831_s_at NM_198712, L27489
NM_198713,
NM_198714,
[0073]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
NM_198715,
NM_198716,
NM_198717,
NM_198718,
NM_198719,
NM_198720
M11S1 200723_s_at NM_005898, 膜组件,染色体11,表面标记1 Hs.471818 NM_005898 0.9
NM_203364
RFC5 203210_s_at NM_007370, 复制因子C(活化因子1)5, Hs.506989 NM_007370 0.79
36.5kDa
NM_181578
INDO 210029_at NM_002164 吲哚胺-吡咯2,3双加氧酶 Hs.840 M34455 0.74
KIAA0286 212619_at NM_015257 NA Hs.533787 AW205215 0.77
MOBK1B 201298_s_at NM_018221 MOB1,Mps单结合激酶活化因 Hs.196437 BC003398 0.84
子样蛋白1B(酵母)
FLJ20273 218035_s_at NM_019027 RNA结合蛋白 Hs.518727 NM_019027 0.73
HADHSC 211569_s_at NM_005327 L-3-羧酰辅酶A脱氢酶,短链 Hs.438289 AF001903 0.62
SSPN 204964_s_at NM_005086 肌长(Kras癌基因相关基因) Hs.183428 NM_005086 1.6
AP2B1 200615_s_at NM_0010300 衔接因子相关蛋白复合物2,β Hs.514819 AL567295 0.77
1亚基
06,NM_00128
2
EIF4A1 201530_x_at, NM_001416 真核细胞翻译起始因子4A,异 Hs.129673 NM_001416, 0.79
构体1 U79273
214805_at
DEPDC1 220295_x_at NM_017779 含有DEP结构域1 Hs.445098 NM_017779 0.66
AGPAT5 218096_at NM_018361 1-甘油酯-3-磷酸-O-酰基转移酶 Hs.490899 NM_018361 0.68
5(溶血磷脂酸转移酶,ε)
HNRPDL 201993_x_at NM_005463, 异质性胞核核糖核蛋白D样蛋 Hs.527105 NM_005463 0.86

NM_031372
GBP1 202270_at NM_002053 干扰素诱导的鸟苷酸结合蛋白 Hs.62661, NM_002053 0.61
1,67kDa
Hs.443527
AMIGO2 222108_at NM_181847 带Ig样结构域的粘附分子2 Hs.121520 AC004010 1.6
XPO7 208459_s_at NM_015024 输出蛋白7 Hs.172685 NM_015024 0.78
PAWR 204005_s_at NM_002583 PRKC,凋亡,WT1,调控因子 Hs.406074 NM_002583 0.71
NARS 200027_at NM_004539 天冬酰胺-tRNA合成酶 Hs.465224 NM_004539 0.84
[0074]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
CENPA 204962_s_at NM_001809 着丝粒蛋白A,17kDa Hs.1594 NM_001809 0.69
KIF15 219306_at NM_020242 驱动蛋白家族成员15 Hs.307529 NM_020242 0.78
ZNF518 204291_at NM_014803 锌指结构蛋白518 Hs.147895 NM_014803 0.88
LPP 202821_s_at NM_005578 含LIM结构域优选脂瘤中的易 Hs.444362 AL044018 1.3
位伴侣基因
BRRN1 212949_at NM_015341 不孕同源物(果蝇) Hs.308045 D38553 0.76
C5orf4 48031_r_at NM_016348, 染色体5开放读码框4 Hs.519694 H93077 1.2
NM_032385
UBAP1 46270_at NM_016525 泛素相关蛋白1 Hs.268963 AL039447 1.1
SH3GLB1 209090_s_at NM_016009 SH3结构域GRB2样内吞蛋白 Hs.136309 AL049597 1.2
B1
CDKN1C 213182_x_at NM_000076 依赖周期蛋白激酶抑制因子1C Hs.106070 R78668 1.4
(p57,Kip2)
MCM10 220651_s_at NM_018518, MCM10小染色体结构维持缺失 Hs.198363 NM_018518 0.74
蛋白10(酿酒酵母)
NM_182751
KIAA0265 209254_at NM_014997 KIAA0265蛋白 Hs.520710 AI808625 1.2
BUB1 209642_at NM_004336 BUB1苯并咪唑1出芽抑制解除 Hs.469649 AF043294 0.68
同源物(酵母)
LGALS3BP 200923_at NM_005567 外源凝集素,半乳糖苷结合,溶 Hs.514535 NM_005567 0.8
质,3结合蛋白
NCAPD2 201774_s_at NM_014865 非SMC浓缩速I复合物,亚基 Hs.5719 AK022511 0.73
D2
CD86 205686_s_at NM_006889, CD86抗原(CD28抗原配体2, Hs.171182 NM_006889 0.88
B7-2抗原)
NM_175862
C16orf30 219315_s_at NM_024600 染色体16开放读码框30 Hs.459652 NM_024600 1.2
RBBP8 203344_s_at NM_002894, 成视网膜细胞瘤结合蛋白8 Hs.546282 NM_002894 0.79
NM_203291,
NM_203292
FEM1C 213341_at NM_020177 Fem-1同源物C(线虫) Hs.47367 AI862658 0.82
NUP160 214962_s_at NM_015231 核孔蛋白160kDa Hs.372099 AK026236 0.84
VAMP4 213480_at NM_003762, 小泡相关膜蛋白4 Hs.6651 AF052100 1.1
NM_201994
C9orf76 218979_at NM_024945 染色体9开放读码框76 Hs.284137 NM_024945 0.8
DHX15 201386_s_at NM_001358 DEAH(Asp-Glu-Ala-His)盒多肽 Hs.5683 AF279891 0.83
15
[0075]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
RIG 221127_s_at 脑胶质瘤调控 Hs.292156 NM_006394 1.2
HBP1 209102_s_at NM_012257 HMG盒转录因子1 Hs.162032 AF019214 1.2
ABCE1 201873_s_at, NM_002940 ATP结合盒,亚族E(OABP), Hs.12013 NM_002940, 0.79
成员1
201872_s_at A1002002
PPA2 220741_s_at NM_006903, 焦磷酸化酶(无机)2 Hs.480452 NM_006903 0.81
NM_176866,
NM_176867,
NM_176869
CPD 201942_s_at NM_001304 羧肽酶D Hs.446079 D85390 0.68
KIAA0828 215672_s_at NM_015328 腺苷半胱氨酸水解酶3 Hs.195058 AK025372 0.73
K-ALPHA-1 211058_x_at NM_006082 α微管蛋白 Hs.524390 BC006379 0.85
RNMT 202684_s_at NM_003799 RNA(鸟嘌呤-7)甲基转移酶 Hs.8086 AB020966 0.9
MIS12 221559_s_at NM_024039 MIS12同源物(酵母) Hs.267194 BC000229 0.8
AURKB 209464_at NM_004217 Aurora激酶B Hs.442658 AB011446 0.71
FAM64A 221591_s_at NM_019013 序列同源性家族64,成员A Hs.404323 BC005004 0.8
TAP2 204770_at NM_000544, 转移因子2,ATP结合盒,亚族 Hs.502 NM_000544 0.82
NM_018833 B(MDR/TAP)
PCDHGC3 205717_x_at NM_002588, 原钙粘蛋白γ亚族C3 Hs.368160 NM_002588 1.2
NM_032402,
NM_032403
AVEN 219366_at NM_020371 凋亡,半胱氨酸蛋白酶活化抑制 Hs.555966 NM_020371 1.1
因子
HMGB2 208808_s_at NM_002129 高迁移率组盒2 Hs.434953 BC000903 0.76
CDC2 203214_x_at NM_001786, 细胞解离周期2,G1至S和G2 Hs.334562 NM_001786 0.72
至M
NM_033379
RIF1 214700_x_at NM_018151 RAP1相关作用因子同源物(酵 Hs.536537 AK000323 0.84
母)
TCF7L2 216511_s_at NM_030756 转录因子7样蛋白2(T细胞特 Hs.501080 AJ270770 0.8
异性,HMG盒)
KIF11 204444_at NM_004523 驱动蛋白家族成员11 Hs.8878 NM_004523 0.68
TTC19 217964_at NM_017775 三角四肽重复结构域19 Hs.462316 NM_017775 0.67
MDS032 221706_s_at NM_018467 未成型的造血干/祖细胞蛋白 Hs.16187 BC006005 1.2
MDS032
[0076]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数
针编号 录号 Genebank登 差异(复发
录号 /不复发)
PSMA3 201532_at NM_002788, 蛋白酶体(前体,巨蛋白因子) Hs.531089 NM_002788 0.76
亚基,α类,3
NM_152132
PDGFA 205463_s_at 血小板源生长因子α多肽 Hs.376032, NM_002607 1.3
Hs.521331
GTF2H2 221540_x_at NM_001515 普通转录因子IIH,多肽2, Hs.191356, AF078847 0.86
44kDa
Hs.398348
CXCL13 205242_at NM_006419 趋化因子(C-X-C基序)配体 Hs.100431 NM _006419 0.36
13(B细胞趋化引诱剂)
FOXM1 202580_x_at NM_021953, 叉头框M1 Hs.239 NM _021953 0.7
NM_202002,
NM_202003
YARS 212048_s_at NM_003680 酪氨酸-tRNA合成酶 Hs.213264 AW245400 0.87
SE57-1 220180_at NM_025214 含卷曲状卷曲结构域68 Hs.120790 NM_025214 0.77
CLCA4 220026_at NM_012128 钙活化的氯通道,家族成员4 Hs.546343 NM_012128 0.64
MCAM 211340_s_at NM_006500 黑色素瘤细胞粘附分子 Hs.511397 M28882 1.2
PBXIP1 214177_s_at NM_020524 前B细胞白血病转录因子相互 Hs.505806 AI935162 1.2
作用蛋白1
PPM1D 204566_at NM_003620 依赖镁的蛋白磷酸化酶ID,δ Hs.286073 NM_003620 0.88
异构体
FLJ22471 218175_at NM_025140 NA Hs.114111 NM_025140 1.2
ZBTB20 205383_s_at NM_015642 含锌指和BTB结构域20 Hs.122417 NM_015642 1.4
RRM2 209773_s_at NM_001034 核糖核酸还原酶M2多肽 Hs.226390 BC001886 0.69
[0077] 表2:其表达与NZ信号22基因的表达相关的标记
[0078]差 /
数 发 )
倍达表 复(异 发复不 96.0 69.0

登kna ,1 5892 3954
它 bene 号 2112 00_M 00_M
其 G 录 M N N
登ene 12841 22133
ginU 号录 5.sH 5.sH


5 因
体配 接剪
) 的
序 酸
基C-C 氨丝/
( 酸
明 子 氨
说 因 精
因 化 含
基 趋 富


录登q 5892 3954
esfe 00_M 00_M
R N N

xir ,ta ta ta
temy 号 _i_5 _556 _398
ffA 编针 041 402 002

识标 01
因基 5LCC SRFS

[0079]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数差
针编号 录号 Genebank登 异(复发/
录号 不复发)
10(转化子同源物,果蝇)
HLA-E 200904_at NM_005516 Hs.381008 X56841 1
主要的组织相容性复合物,I,E

K-ALPHA-1 201090_x_at NM_006082 Hs.524390 NM_006082 0.87
α微管蛋白
PSMA5 201274_at NM_002790 Hs.485246 NM_002790 0.95
蛋白酶体(前体,巨蛋白因子)
亚基,α类,5
TOP2A 201292_at NM_001067 Hs.156346 AL561834 0.77
拓扑异构酶(DNA)IIα,170kDa
EBNA1BP2 201323_at NM_006824 Hs.346868 NM_006824 0.98
EBNA1结合蛋白2
SNRPC 201342_at NM_003093 Hs.1063 NM_003093 1
小核核糖核蛋白多肽C
UBE2L6 201649_at NM_004223, Hs.425777 NM_004223 0.75
泛素偶联酶E2L 6
NM_198183
LAPTM5 201720_s_at NM_006762 Hs.371021 AI589086 0.89
溶酶体相关多跨膜蛋白5
CTSL 202087_s_at NM_001912, Hs.418123 NM_001912 0.97
组织蛋白酶L
NM_145918
GBP1 202269_x_at NM_002053 Hs.62661, BC002666 0.69
干扰素诱导的鸟苷酸结合蛋白
Hs.443527
1,67kDa
TNFAIP2 202510_s_at NM_006291 Hs.525607 NM_006291 0.91
肿瘤坏死因子α诱导蛋白2
CCNB2 202705_at NM_004701 Hs.194698 NM_004701 0.83
细胞周期蛋白B2
GBP2 202748_at NM_004120 Hs.386567 NM_004120 0.87
干扰素诱导的鸟苷酸结合蛋白
2
CDC20 202870_s_at NM_001255 Hs.524947 NM_001255 0.78
CDC20细胞解离周期20同源物
(酿酒酵母)
HAT1 203138_at NM_0010330 Hs.470611 NM_003642 0.95
组蛋白乙酰基转移酶1
85,NM_00364
[0080]差 /
数 发 )
倍达 复( 发复 78 97 58 79 27 99
表 异 不 .0 .0 1 .0 .0 .0 .0
登kn 164 66 112 847 483
它 aben 号 600_ 8100 2960 100_ 600_ 300_ 3546
其 eG 录 MN CB 5D MN MN MN 8U
登e 330 989 040 80 76 266 154
negi 号 415. 605. 073. 763. 357. 224. 815.
nU 录 sH sH sH sH sH sH sH
除 肽
, 解 多
5)1 制抑 δ,
子 芽 化
明说因 5原抗关相清 因化活(C子因制 aDk5.6 白蛋合结cym- 出1唑咪并苯1BU )母酵(β物源 子因接衔样cr 1酶激关相痘 催,酶激3脂磷醇
基 血 复 3 C B 同 S 牛 肌

录登 164 ,073 875 333 112 847 483 620
qesf 600_ 700_ 181_ 210_ 100_ 600_ 300_ 500_
eR 2 MN MN MN MN MN MN MN MN
探x ta
irte ta_5 ta_9 _s_0 ta_5 ta_1 ta_6 ta_9
myff 号编 4130 0230 6330 5730 6730 5830 7830
A 针 2 2 2 2 2 2 2
识标 5G 5 PB B1 1 DC3
因基 APS CFR CYM BUB ALS KRV KIP

28. 87. 69. 8. 47. 36. 9.
0 0 0 0 0 0 0
8 7 5 7 2 0 3
1120 3240 8540 2810 2812 0820 9912
0_MN 0_MN 0_MN 0_MN 0_MN 0_MN 0_MN

26 7816 664 857 3584 1801 03
11.s 34.s 71.s 38.s 74.s 83.s 53.s
H H H H H H H
诱 )
II,物合复性容相 31子因用作体受 汀罗扎他(体答应 2基亚控调酶激 化催,酶辑编ANRm G3 子因白蛋巨,体前 肽多能功多大(9, 氨丝含富(白蛋用 1)
织 素 体 白 B 白 ( 类 作 酸
组的要主 βMD,类 激腺状甲 受酸黄视 3)的导 蛋82CDC 白蛋脂载 蛋样肽多 体酶白蛋 β,基亚 )2 互相SUF 氨精/酸

8112 7324 5854 7281 2281 0082 4598 6104
00_M 00_M 00_M 00_M 20_M 00_M 41_M 50_M
N N N N N N N N
t t t ta_ t t t
a_23 a_33 a_07 s_07 a_50 a_97 a_99
9302 0402 0402 1402 2402 2402 2402

BMD-ALH 31PIRT 3SERRAR 2SKC G3CEBOPA 9BMSP 1PISUF
[0081]差 /
数 发 )
倍达 复( 发复 88. 59. 9. 8. 58. 19.
表 异 不 0 0 0 0 0 0
登 5 2 6 8 3 N,
knab 5600 4221 5840 1330 5910 1523 5655
它其 eneG 号录 0_MN 0_MN 0_MN 0_MN 0_MN 21IA 00_M

登en 848 994 5480 0489 1526 5744
egin 号 28.s 04.s 72.s 61.s 45.s 03.s
U 录 H H H H H H
)

分附 蟾爪 板小 2HS )a
明说因基 粘胞细巴淋(L白蛋择选 )1 洲非(1物源同fpokkciD 32员成族家白蛋动驱 酶激白蛋KTT 血(1子因长生胞细皮内 )源 含(2白蛋液胞胞细巴淋 Dk67白蛋胞细白域构结

录登q 5560 2422 ,6584 5558 8133 3591 5655
esfe 00_M 10_M 00_M 31_M 00_M 00_M 00_M
R N N N N N N N
探xi t t ta_ t ta_ ,t ta_
rtem 号 a_36 a_20 s_90 a_22 s_85 a_96 s_07
yffA 编针 5402 6402 7402 8402 8402 2502 2502


标因基 LLES 1KKD 32FIK KTT 1FGCE 2PCL
49. 9. 86. 87. 78. 68.
0 0 0 1 0 0 0
3 4 7
75 7012 4160 0814 5376 6710 2631
785W 0_MN 0_MN 10YA 00WA 0_MN 00FA

8393 8466 807 1105 852 0053 4734
73.s 92.s 09.s 15.s 58.s 25.s 34.s
H H H H H H H

巴 接 氨
员成,2族家超,白蛋脂乳嗜 2A 5白蛋生发态形骨 淋T毒胞细,1酶粒(A酶粒 )1酶酯酸氨丝关相胞细 连白蛋素泛3E性异特DAMS 2酶 )23p(肽多α,原抗8DC 球血红羊绵,)05p(原抗2DC 体受巴西 酪白蛋种一(2酶激斯纳詹 )酶激
, ,
5996 1351 3701 4416 9372 8671 7281 7671 2794
00_M 81_M 20_M 00_M 20_M 00_M 71_M 00_M 00_M
N N N N N N N N N
ta_ ta_ t ta_ t t ta_
s_89 s_13 a_88 s_69 a_85 a_13 s_24
2502 4502 4502 5502 7502 8502 8502

2A2NTB 5PMB AMZG 2FRUMS A8DC 2DC 2KAJ
14.
0
8
9360
0_MN

235
44.s
H
D



8936
00_M
N
ta_
s_09
8502

D
BU
[0082]差 /
数 发 )
倍达 复( 发复 33. 19. 93. 28. 59.
表 异 不 0 0 0 0 0 1
登 9 3 1 5 9
knab 6600 3840 4010 1000 0540 48
它其 eneG 号录 0_MN 0_MN 0_MN 0_MN 0_MN 191L

登en 32 8981 6959 0515 9090
egin 号 52.s 82.s 24.s 2.s 41.s 81.s
U 录 H H H H H H

肽多 萄葡 乙N 1
γ,) α( 胺基 酶物
类 2 酶 芳( 化
I 子 糖 2 氧
(CI 因乏 芽麦 酶移 ) 白蛋 过白
明 酶氢 缺瘤 异- 转基 酶移 体核 蛋原
说因基 脱精酒 素色黑 酶糖蔗 )酶苷 酰乙N 转基酰 011PS 还氧硫

录登q 9660 3384 1401 5100 ,9054 ,0154 4240 ,4752 ,6961 7961
esfe 00_M 00_M 00_M 00_M 00_M 00_M 80_M 00_M 81_M 81_M
R N N N N N N N N N N
探xi t t t t ta_ t
rtem 号 a_26 a_31 a_46 a_79 x_21 a_08
yffA 编针 2602 5602 6602 7602 0802 6802


标因基 C1HDA 2MIA IS 2TAN 011PS 1XDRP
78. 2. 89. 57. 89. 67. 48.
0 1 0 0 0 0 0
9792 3408 36 ,34 5056 0453 44 34
00CB 02FA 704U 736U 20YA 23FA 110K 392U

0626 0520 4450 063 9034 8656 055
44.s 83.s 74.s 96.s 11.s 34.s 27.s
H H H H H H H
)子因白蛋巨,体前( 6,类 61白蛋导诱 白蛋环亲(G酶构异酸 C2员成族家 1L 复性容相织组要主( )原抗关相类II,链定 体受动运的节调
体酶白蛋 α,基亚 γ素扰干 氨脯基肽 )G 白蛋动驱 白蛋脂载 原抗47DC 恒的物合 酸质明透 )MMAHR(
197200_M 135500_M 297400_M 548600_M ,166300_M ,343541_M 443541_M 1520100_M 20100_MN,8 400_MN,951 55 ,484210_M 584210_M
N N N N N N N N 5 5 3 N N
t ta_ ta- ,t ta_ ta_ t ta_
a_50 x_66 s_59 a_80 s_91 s_64 a_91 s_90
8802 9802 9802 4902 5112 5902 6902 7902

6AMSP 61IFI GIPP C2FIK 1LOPA 47DC RMMH
[0083]差 /
数 发 )
倍达 复( 发复 17. 48. 39. 78. 79. 47.
表 异 不 0 0 0 0 0 0

knab 3303 3747 3405 23 3085 33
它其 eneG 号录 12FA 40FA 00BA 140J 72FA 306M

登en 311 3358 046 5446 4258 8400
egin 号 48.s 14.s 05.s 51.s 05.s 25.s
U 录 H H H H H H
3 除 1 合 ,
明说因基 子因制抑酶激赖依期周胞细 化酸磷性异特双关相2KDC( )酶 解制抑芽出3唑咪并苯3BUB )母酵(物源同 子因制抑导转号信子因胞细 复3TiT(肽多ζ,原抗Z3DC )物 白蛋合结期周钙 类II物合复性容相织组要主 αRD
号录登qesfe 291500_M 7700100_M 27400_MN,3 547300_M ,437000_M 350891_M 2700100_M 14410_MN,4 111910_M
R N N 9 5 N N N N 1 2 N
探xi ta_ ta_ ta_ t ta_ ta_
rtem 号 s_41 s_47 s_10 a_13 s_19 s_28
yffA 编针 7902 9902 0012 0012 6012 9012

识 A
标因基 3NKDC 3BUB 1SCOS Z3DC PBYCAC RD-ALH
77. 69. 38.
0 0 0
52 8282 2508
452Z 21FA 91FA

4073 8987 3050
51.s 81.s 73.s
H H H
)
)a因基裂分丝有离 2 瘤经神听侧双(2素 )031/021BYF(白蛋
永 酶 维 合
(AMIN 激关相 纤经神 结NYF
, , , , , , , , , , , , ,
7942 8620 8146 5281 6281 7281 8281 9281 0381 1381 2381 3381 4381 5381 5641
00_M 00_M 10_M 81_M 81_M 81_M 81_M 81_M 81_M 81_M 81_M 81_M 81_M 81_M 00_M
N N N N N N N N N N N N N N N
ta_ ta_ ta_
s_08 s_19 s_59
0112 0112 7112

2K 2 B
EN FN YF
[0084]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数差
针编号 录号 Genebank登 异(复发/
录号 不复发)
NM_199335
HLA-DPA1 211991_s_at NM_033554 Hs.347270 M27487 0.75
主要组织相容性复合物,II类,
DP α1
PTPRC 212587_s_at, NM_002838, Hs.192039 AI809341,Y 0.77
212588_at NM_080921, 蛋白酪氨酸磷酸化酶,受体类,
00062
NM_080922, C
NM_080923
SP3 213168_at NM_0010173 Hs.531587 AU145005 0.98
71,NM_00311 Sp3转录因子
1
ITGAL 213475_s_at NM_002209 Hs.174103 AC002310 0.85
整合蛋白,αL(抗原CD11A
(p180),淋巴细胞功能相关抗
原1,α多肽)
RAC2 213603_s_at NM_002872 Hs.517601 BE138888 0.92
Ras相关的肉毒素底物2(rho
家族,小GTP结合蛋白Rac2)
DNA2L 213647_at Hs.532446 D42046 0.87
DNA2DNA复制解旋酶2样蛋
白(酵母)
TRAF3IP3 213888_s_at NM_025228 Hs.147434 AL022398 0.86
TRAF3相互作用蛋白3
NKG7 213915_at NM_005601 Hs.10306 NM_005601 0.72
自然杀伤细胞7组序列
SFRS7 214141_x_at NM_0010316 Hs.309090 BF033354 0.88
84,NM_00627 富含精氨酸/丝氨酸的剪接因子
6 7,35kDa
ZG16 214142_at NM_152338 Hs.184507 AI732905 0.18
酶原颗粒蛋白16
PRF1 214617_at NM_005041 Hs.2200 AI445650 0.81
穿孔素1(成孔蛋白)
CCNB1 214710_s_at NM_031966 Hs.23960 BE407516 0.63
细胞周期蛋白B1
KIAA0907 214995_s_at NM_014949 Hs.24656 BF508948 0.82
KIIAA0907
[0085]基因标识 Affymetrix探 Refseq登录号 基因说明 Unigene登 其它 表达倍数差
针编号 录号 Genebank登 异(复发/
录号 不复发)
GTSE1 215942_s_at NM_016426 Hs.386189, BF973178 0.86
G2和S期表达1
Hs.475140
HMGB3 216548_x_at NM_005342 Hs.19114 AL049709 0.97
高迁移率组盒3
HLA-DMA 217478_s_at NM_006120 Hs.351279 X76775 0.8
主要组织相容性复合物,II类,
DMα
C20orf45 217851_s_at NM_016045 Hs.3945 NM_016045 1.1
染色体20开放读码框45
MRPL42 217919_s_at NM_014050, Hs.199579 BE782148 0.79
NM_172177, 线粒体核糖体蛋白L42
NM_172178
NUSAP1 218039_at, NM_016359, Hs.511093 NM_016359, 0.92
核仁纺锤体相关蛋白1
219978_s_at NM_018454 NM_018454
TMEM48 218073_s_at NM_018087 Hs.476525 NM_018087 0.71
跨膜蛋白48
DHX40 218277_s_at NM_024612 Hs.29403 NM_024612 1.1
DEAH(Asp-Glu-Ala-His)盒多肽
40
NFS1 218455_at NM_021100, Hs.194692 NM_021100 1
NFS1固氮作用因子1(酿酒酵
NM_181679
母)
C10orf3 218542_at NM_018131 Hs.14559 NM_018131 0.77
染色体10开放读码框3
NCAPG 218663_at NM_022346 Hs.446201, NM_022346 0.73
非SMC浓缩速I复合物,亚基
Hs.479270
G
FBXO5 218875_s_at NM_012177 Hs.520506 NM_012177 0.89
F盒蛋白5
SLAMF8 219385_at NM_020125 Hs.438683 NM_020125 0.94
SLAM家族成员8
CENPN 219555_s_at NM_018455 Hs.283532 NM_018455 0.81
中心体蛋白N
ATP13A3 219558_at Hs.529609 NM_024524 0.75
ATP酶类13A3
ECT2 219787_s_at NM_018098 Hs.518299 NM_018098 0.75
上皮细胞转移序列2癌基因
[0086]差 /
数 发 )
倍达 复( 发复 98. 39. 19. 5. 69. 29.
表 异 不 0 0 0 0 0 0
登 3 9 9 6 6 7
knab 2181 1102 6231 1771 8181 1341
它其 eneG 号录 0_MN 0_MN 0_MN 0_MN 0_MN 0_MN

登en 8201 2153 6238 9872 1553 4295
egin 号 21.s 31.s 62.s 72.s 44.s 55.s
U 录 H H H H H H
畸 员 员
明说因基 小头,样)体锤纺常异(psA )蝇果(子因关相形 1毒病抗,类HCCC指锌 成2族家超素集凝源外类C D 成,A族家超,域构结4膜跨 2I 211框码读放开1体色染 酶移转烯戊异转
号录登qesfe 631810_M ,911020_M 526420_M 4400100_M 00100_MN,9 310_MN,024 96 617710_M 681810_M 713410_M
R N N N N 1 4 2 N N N
探xi ta_ t ta_ t ta_ ta_
rtem 号 s_81 a_40 s_23 a_43 s_04 s_56
yffA 编针 9912 1022 1022 8022 8022 8022

识标因基 MPSA 1VAH3CZ D2CELC 21A4SM 211frolC TRPT
48. 9. 59. 38. 89. 78. 9.
0 0 0 0 0 0 0
9 0
4341 1213 5197 9872 7447 78 84
0_MN 0_MN 51UA 92AA 00BA 997D 509U

7374 1254 1681 4905 84 9743 1477
74.s 23.s 94.s 31.s 15.s 51.s 61.s
H H H H H H H

65 酒 员
1框 3员 9 1域 酿(1 成,3
3L白蛋脂载 码读放开41体色染 成,族家域构结HTY 09641COL白蛋定假 构结指锌类FART含 白蛋样极体锤纺外 )母 族家超,白蛋脂乳嗜 3A
, , , , , ,
9434 4460 9365 0465 1465 2465 0121 8572 0076 1922 4996 4797
10_M 30_M 41_M 41_M 41_M 41_M 30_M 51_M 00_M 10_M 00_M 91_M
N N N N N N N N N N N N
ta_ ta_ t t
s_78 s_43 a_94 a_93 ta_4 ta_8 ta_1
0122 4122 7122 0222 5253 5183 4283

3LOPA 651fro4lC 3FDHTY 909641COL 1DFART 1LPSE 3A3NTB
[0087] 预后标记检测的常规途径
[0088] 以下途径是可用于检测包括CCPM家族成员的增殖标记的非限制性方法:利用为CCPM所选的聚核苷酸探针的微阵列方法;利用CCPM特异性引物和探针的肿瘤样品的实时
定量PCR;利用CCPM特异性引物和探针的淋巴结,血液,血清,排泄物,或尿液样品的实时定
量PCR;酶联免疫吸附法(ELISA);利用抗标记抗体的免疫组织化学法;和阵列或定量PCR
数据的计算机分析。
[0089] 其它可用方法包括RNA印迹和原位杂交(Parker and Barnes,MethodsinMolecular Biology 106:247-283(1999));RNA酶保护试验(Hod,BioTechniques13:
852-854(1992));逆转录酶链式反应(RT-PCR;Weis et al.,Trends inGenetics 8:
263-264(1992));基因表 达的系列分析(SAGE;Velculescu et.al.,Science 270:
484-487(1995)和Velculescu et al.,Cell 88:243-51(1997)),时间飞行质谱生物芯片系
统技术(MassARRAY technology)(Sequenom,SanDiego,CA),和通过大规模平行信号测序技
术的基因分析(MPSS;Brenner etal.,Nature Biotechnology 18:630-634(2000))。可选
择地,可采用能识别特定复合物的抗体,包括DNA双螺旋,RNA双螺旋,和DNA-RNA杂交双螺
旋或DNA-多肽双螺旋。
[0090] 可收集原始数据并进行倍数变化分析,例如,通过对比肿瘤组织和非肿瘤组织中标记表达水平;通过对比复发肿瘤和不复发肿瘤中测得的标记表达水平;通过对比转移肿
瘤和不转移肿瘤中测得的标记表达水平;通过对比不同病期肿瘤中测得的标记表达水平;
或通过对比不同增殖水平的细胞中测得的标记表达水平。并根据这些分析来判断是阴性还
是阳性预后。肿瘤标记表达的进一步分析包括将那些表现出表达或高或低的标记与已知的
结直肠肿瘤表达谱进行匹配以提供预后。
[0091] 确定表达增加的阈值是由特定标记以及所应用的特定预测模型所决定的。阈值通常设定为可获得最高灵敏度和选择性以及最低的误差率,并根据特定临床状况合理地变
化。可通过分析足够大的人群并考虑任意预测模型的统计可变性来确定合理阈值并通过用
于产生预测模型的样品大小来计算合理阈值。同样适用于确定表达减少结论的阈值。值得
注意的是在不偏离本发明范围的情况下可选择其它的确定表达增加或减少的阈值或其它
建立阈值的方法。
[0092] 还可能的是预测模型可输出数值,如评分,可能性值或概率。在这些情况下,可以将阈值应用到预测模型生成的结果中,并且在这些情况下按所用的将类似的原则应用到设
定表达值的阈值中。
[0093] 一旦获得肿瘤样品中预测信号的表达水平或预测模型的输出值,就可确定癌症复发的可能性。
[0094] 通过对比一种或多种标记和已公开的预后信号的表达水平,来自于被识别的标记的含有一种或多种CCPMs的预后信号可用于确定癌症的预后。通过比较肿瘤样品中的一种
或多种CCPMs和已公开的预后信号的表达水平,可确定癌症复发的可能性。为建立预后的
预后信号表达水平的对比可通过前述的预测模型来完成。
[0095] 确定癌症复发的可能性对于医疗工作者有重大价值。高的复发可能性意味着应给予更长或更高剂量的治疗,并应对患者进行更密切的癌症复发信号的监测。准确的预后对
患者也是有益的。可使患者和他们的伴侣,家庭,和朋友一起作出有关治疗,以及有关未来
和改变生活方式的决定。因此,发明提供了一种基于通过将肿瘤样品中标记表达与不同信
号表达进行匹配而确定的预后为特定癌症建立治疗方案的方法。
[0096] 应该重视的是标记的选择或预后信号的构建不要求限制于本文表1,2,或5中所公开的CCPMs,或表3,4,8A,8B和9所公开的预后信号,但可以包括使用一种或多种来自于
已公开的信号的CCPMs,或利用选自于已公开标记列表中的CCPMs建立新的信号。要求任何
信号需充分准确地描述复发可能性以协助医疗工作者建立治疗方案。
[0097] 逆转录PCR(RT-PCR)
[0098] 在以上所列技术中,最灵敏和最灵活的定量方法是RT-PCR,它可用于对比在不同样品人群,在正常组织和肿瘤组织,经药物治疗或不经药物治疗情况中的RNA水平,以描述
表达模式,从中辨别密切相关的RNAs,并分析RNA结构。
[0099] 对于RT-PCR,第一步是从目标样品中分离RNA。原料通常是分别从人肿瘤或肿瘤细胞株和相应的正常组织或细胞株中分离的总RNA。RNA可从各种样品中分离,如来自于
乳腺,,肠(如大肠或小肠),结直肠,胃,食道,肛门,直肠,前列腺,脑,肝,肾,胰腺,脾,胸
腺,睾丸,卵巢,子宫等的肿瘤样品,来自于原发性肿瘤,或肿瘤细胞株的组织,和来自于健
康捐赠者的混合样品。如果RNA源是肿瘤,可从例如冷冻或存档石蜡包埋和固定(如:福尔
林固定)组织样品中提取RNA。
[0100] 由RT-PCR获得基因表达谱的第一步是将RNA模板逆转录成cDNA,接着通过PCR反应进行指数扩增。两种最常用的逆转录酶是禽类成髓细胞白血病病毒逆转录酶(AMV-RT)
和莫罗尼氏鼠白血病病毒逆转录酶(MMLV-RT)。根据环境和表达谱的目标,逆转录步骤
中通常主要使用特异性引物,随机六聚体,或oligo-dT引物。例如,提取的RNA可利用
GeneAmpRNA PCR试剂盒(Perkin Elmer,CA,美国)按供应商的说明进行逆转录。而获得的
cDNA可作为后续PCR反应的模板。
[0101] 尽管PCR步骤可采用多种耐热的依赖于DNA的DNA聚合酶,但通常采用Taq DNA聚合酶,它具有5′-3′核酸酶活性但没有3′-5′校对核酸内切酶活性。因而,TaqMan(定
量)PCR通常利用Taq或Tth聚合酶的5′核酸酶活性以水解结合在目标扩增子上的杂交探
针,但也可采用任何具有等效5′核酸酶活性的酶。
[0102] 两段寡核苷酸引物被用于产生PCR反应的典型扩增子。第三段寡核苷酸或探针被设计来检测位于两段PCR引物之间的核苷酸序列。探针是不能被Taq DNA聚合酶所延伸的,
并被标记上报告荧光染料和淬灭荧光染料。当在探针上的两种染料距离很近时,任何报告
染料的激光诱导辐射可被淬灭染料所淬灭。在扩增反应期间,Taq DNA聚合酶以依赖于模
板的方式切割探针。切得的探针片段分散在溶液,报告染料释放的信号不被第二荧光基团
所淬灭。随着每个新分子的合成,就释放了一分子的报告染料,检测未淬灭的报告染料为数
据定量解析提供了基础
[0103] TaqMan RT-PCR可利用商业可供的设备来实施,如ABI PRISM 7700序列检测系统(Perkin-Elmer-Applied Biosystems,Foster City,CA,美国),或Lightcycler(Roche
Molecular Biochemicals,Mannheim,德国)。在一优选实施方式中,在实时定量PCR装置
如ABI PRISM 7700tam序列检测系统中运行5′核酸酶程序。系统由热循环仪,激光器,电
耦合器件(CCD),照相机,和计算机组成。系统在热循环仪中的96孔板里扩增样品。在扩
增过程中,通过纤维光缆实时收集全部96孔中的激光诱导荧光信号,并在CCD中检测。系
统还包括用于运行装置和数据分析的软件
[0104] 5′核酸酶试验数据最初以Ct或阈值循环表示。如上所述,在每个循环中记录的荧光值代表了在扩增反应中扩增至该点的产物数量。当荧光信号开始进行有统计意义的记
录时的点为循环阈值。
[0105] 为使误差和样品间差异影响最小,通常在RT-PCR中使用内标。理想的内标是在不同组织中以恒定水平表达的,并不受实验处理的影响。最常用于标准化基因表达模式的
RNAs是看家基因3-磷酸甘油脱氢酶(GAPDH)和β-肌动蛋白的mRNAs。
[0106] 实时定量PCR(qPCR)
[0107] 一种RT-PCR的最新变体是实时定量PCR,其通过双标记的荧光生成探针(如TaqMan探针)来测定PCR产物积累。实时PCR与定量竞争PCR和定量比较PCR是一致的。
前者利用了一个用于标准化的每个目标序列的内部竞争子,而后者利用了一个包含在样品
内的标准化基因,或一个用于RT-PCR的看家基因。这在Held et al.,Genome Research 6:
986-994(1996)有更多的说明。
[0108] 可采用作为RNA源的固定石蜡包埋组织来测定表达水平。根据本发明的一个方面,可根据存在于被扩增基因中的内含子序列来设计PCR引物和探针。在这个实施方式中,
引物/探针设计的第一步是描绘基因中的内含子序列。这可通过公开可用软件来完成,如
由Kent,W.J.,Genome Res.12(4):656-64(2002)开发的DNA BLAT软件,或包括其变体的
BLAST软件。之后的后续步骤是建立适宜的PCR引物和探针设计方法。
[0109] 为避免非特异性信号,在设计引物和探针时去除内含子中的重复序列是有益的。这可利用贝勒医学院的在线可用Repeat Masker程序来完成,其针对重复序列文库
扫描DNA序列并返回一个去除了重复序列的查询序列。而去重序列就可用于设计引物和
探针,其利用任何商业或其它公共可用的引物/探针设计包,如Primer Express(Applied
Biosystems);MGB assay-by-design(Applied Biosystems);Primer3(Steve Rozen and
Helen J.Skaletsky(2000);在互联网上针对普通用户和生物领域程序员的Primer3:
Krawetz S,MisenerS(eds)Bioinformatics Methods and Protocols:Methods in
Molecular Biology.Humana Press,Totowa,NJ,pp 365-386)。
[0110] 在PCR引物设计中被认为是最重要的因素包括引物长度,熔解温度(Tm),和G/C含量,特异性,互补引物序列,和3′末端序列。通常,最理想的PCR引物一般是17-30
个碱基的长度,并含有20-80%如50-60%的G+C碱基。通常优选熔解温度为50-80℃如
约50-70℃。关于PCR引物和探针设计的更多原则可参见:如Dieffenbach,C.W.et al.,
General Concepts for PCRPrimer Design in:PCR Primer,A Laboratory Manual,Cold
Spring HarborLaboratory Press,New York,1995,pp.133-155;Innis and Gelfand,
Optimizationof PCRs in:PCR Protocols,A Guide to Methods and Applications,
CRC Press,London,1994,pp.5-11;和Plasterer,T.N.Primerselect:Primer and probe
design.Methods MoI.Biol.70:520-527(1997),上述文献的公开内容都引入本文作为参
考。
[0111] 微阵列分析
[0112] 可利用微阵列技术来识别或确定差异表达。因而,可利用微阵列技术测定在新鲜或石蜡包埋肿瘤组织中CCPMs的表达谱。在这个方法中,将感兴趣的聚核苷酸序列(包括
cDNAs和寡核苷酸)固定在,或排列在微芯片基片上。然后将排列的序列(如捕获探针)与
来自于感兴趣的细胞或组织(即,目标)特定聚核苷酸杂交。就如RT-PCR方法中,RNA的来
源通常是从人体组织或肿瘤细胞株和相应的正常组织或细胞株中分离的总RNA。因而RNA
可从各种原发性肿瘤或肿瘤细胞株中分离。如果RNA源是原发性肿瘤,可从例如在日常临
床实践中常规制备和保存的冷冻或存档的福尔马林固定石蜡包埋(FFPE)组织样品和固定
(如:福尔马林固定)组织样品中提取RNA。
[0113] 在一特定的微阵列技术实施方式中,PCR扩增的cDNA克隆插入片段被施加到基片上。基片可包含多达1,2,5,10,15,20,25,30,35,40,45,50,或75个核苷酸序列。在其它
方面,基片可包含至少10000个核苷酸序列。固定在微芯片上的微阵列序列适合于在严格
条件下进行杂交。如其它实施方式,微阵列的目标序列可以是至少50,100,200,400,500,
1000,或2000个碱基长度,或50-100,100-200,100-500,100-1000,100-2000,或500-5000
个碱基长度。如更多实施方式,微阵列的捕获探针可以是至少10,15,20,25,50,75,80,或
100个碱基长度;或10-15,10-20,10-25,10-50,10-75,10-80,或20-80个碱基长度。
[0114] 荧光标记的cDNA探针的制备可经由通过从感兴趣组织中提取的RNA的逆转录来形成荧光核苷酸。将标记的cDNA探针施加到芯片上并与阵列中的每个DNA点进行特异性
杂交。经过严格洗涤后去除非特异性结合探针,利用共焦激光显微镜或其它检测方法如CCD
照相机扫描芯片。每个阵列元件的杂交定量可评估相应的mRNA丰度。以两种颜色荧光分
别标记的由两种RNA源生成的cDNA探针可与阵列成对杂交。并同时测定相应于每个特定
基因的两种来源的转录物的相对丰度。实施例4详细描述了示范性方案。
[0115] 小规模的杂交可方便快速地评估大量基因表达模式。这种方法显示出已具备检测在细胞中以低拷贝数表达的稀有转录物所必需的灵敏度,和重复性检测在表达水平上的至
少约两倍差异(Schena et al.,Proc.Natl.Acad.Sci.USA 93(2):106-149(1996))。微阵
列分析可通过商业可供的设备按供应商的方案来实施,如通过采用Affymetrix基因芯片
技术,Iuumina微阵列技术或Incyte′s微阵列技术。微阵列方法发展成大规模的基因表
达分析使其可以系统地搜索在多种肿瘤类型中的癌症分类和预后预测分子标记。
[0116] RNA的分离,纯化,和扩增
[0117] mRNA提取的常规方法是本领域所公知的并公开在分子生物学的标准教科书上,包 括 Ausubel et al.,Current Protocols of Molecular Biology,JohnWiley
and Sons(1997)。从石蜡包埋组织中提取RNA的方法公开在例如Ruppand Locker,Lab
Invest.56:A67(1987),和De Sandres et al.,BioTechniques 18:42044(1995)。尤其是,
可利用商业化供应商如Qiagen提供的纯化试剂盒,缓冲液,和蛋白酶并根据供应商的说明
来实施RNA分离。例如,可利用Qiagen的RNA酶迷你柱来分离培养物中的细胞总RNA。其
它商业可供的RNA分离试剂盒包括MasterPure的全DNA和RNA纯化试剂盒(EPICENTRE(D,
Madison,WI),和石蜡封闭RNA分离试剂盒(Ambion,Inc.)。可使用RNA Stat-60(Tel-Test)
分离组织样品中的总RNA。可通过例如氯化铯密度梯度离心来分离肿瘤中的RNA。
[0118] 以固定石蜡包埋组织作为RNA源的基因表达制谱典型方案中的步骤,包括mRNA分离,纯化,引物延伸和扩增,它们已在多种公开的期刊文献中公开(例如:T.E.Godfrey
et al.J.Molec.Diagnostics 2:84-91(2000);K.Specht et al.,Am.J.Pathol.158:
419-29(2001))。简单而言,典型的处理始于从石蜡包埋的肿瘤组织样品切下10μm切片。
然后提取RNA,并去除蛋白和DNA。在分析RNA密度之后,如果需要可进行RNA修复和/或
扩增步骤,并利用基因特定启动子进行RNA逆转录,然后RT-PCR。最后,分析数据并根据检
测肿瘤样品确定的基因表达模式特征以确定最佳的对于患者可用的治疗选择。
[0119] 免疫组织化学和蛋白质
[0120] 免疫组织化学方法也适用于检测本发明中增殖标记的表达水平。因而,抗体或抗血清,优选多克隆抗血清,最优选每个标记的特异性单克隆抗体,可用于检测表达。抗体可
通过直接标记抗体本身来检测,例如,放射性标记,荧光标记,半抗原标记如生物素,或酶如
辣根过氧化物酶或碱性磷酸酶。可选择地,未标记的原始抗体可偶联被标记的第二抗体,包
括抗血清,多克隆抗血清或原始抗体的特异性单克隆抗体。免疫组织化学方案和试剂盒是
本领域公知的和商业可供的。
[0121] 蛋白质组可用于分析在特定时间点存在于样品中(如:组织,器官,或细胞培养物)的多肽,尤其是,蛋白质组技术可用于评价样品中多肽表达的全局变化(也称为表达蛋
白质组)。蛋白质组分析通常包括:(1)通过双向凝胶电泳(2-D PAGE)分离样品中的单个
多肽;(2)如通过质谱或N末端测序来鉴别从凝胶中回收的单个多肽,和(3)利用生物信息
学进行数据分析。蛋白质组方法是其它基因表达谱方法的有益补充,并可单独或与其他方
法联合使用以检测本发明中标记增殖的产物。
[0122] 一旦评估出肿瘤样品中一种或多种预后标记的表达水平,就可确定癌症复发的可能性。本发明人已鉴别了大量在不复发结肠直肠癌和复发结肠直肠癌患者数据组中差异表
达的标记。这些标记在以下实施例的表1,2,和9中列出。
[0123] 差异表达基因的选择
[0124] 早期的认为显著基因的选择途径包括仅考虑在两个感兴趣组之间给定基因的“倍数变化”。该途径训练了那些看起来变化最显著的基因,考虑基本统计使人认为如果差异
(或噪音水平)非常高(在微阵列实验中经常可观察到),就碰巧频繁发生了看起来很大的
倍数变化。
[0125] 如此处所述的微阵列实验通常是同时测定数千个基因。若要对比两组之间特定基因的表达水平(例如复发和不复发肿瘤),对于显著性而言典型检验(例如t检验)是不适
用的。这是因为在数千个实验的集合中(在此处每个基因构成一个“实验”),至少一个实
验碰巧符合一般的显著性标准的概率是基本一致的,在显著性检验中,通常认为“零假设”
是正确的概率。在对比两组的情况下,零假设表示两组之间没有差异。若统计检验获得的
零假设概率低于某些阈值(通常是0.05或0.01),那么我们可否定零假设而接受两组存在
显著性差异的假设。显然,在这样的检验中,碰巧否定零假设可预期为1/20(或1/100)。在
微阵列中采用t检验或其它类似的显著性统计检验是错误的,将产生非常多的假阳性(或
I类错误)。
[0126] 在这种情况下,应用典型的多元对比程序,如Bonferroni法(43)同时检验多元假设。但这种检验对于大多数微阵列实验而言太过保守,导致太多假阴性(II类错误)。
[0127] 最近的途径是抛弃试图应用给定检验是显著性的概率,建立选择的实验亚集的平均,以控制I类错误(或错误发现率;47)的预期比例。本研究中通过多种措施利用这种途
径,即采用了BRB Array Tools(48),和Bioconductor的limma(11,42)包(采用了R统计
环境;10,39)的方法。
[0128] 数据挖掘的常规方法:预后信号的产生
[0129] 数据挖掘是用于“知识”提炼中的术语,也称为“懂得如何做”,或(通常)来自于大容量数据(数据组)的预测能力。它是本研究中所采用的产生预后信号的途径。在本研
究中“懂得如何做”是指由给定的基因表达测定数据组或(在本部分通常如此描述且在实
施例部分更为详细)“信号”来准确预测预后的能力。
[0130] 本研究中所用方法的具体细节在实施例17-20中有描述。但是,(实施例中所述的和此处所述的)任何数据挖掘方法的应用可遵循常规方案。
[0131] 数据挖掘(49)和相关主题机器学习(40)是一项复杂,重复的涉及一种或多种适当计算机软件包(如下)的数学任务。使用软件一方面是有利的,因为如果坚持了正确的
方法,就不需要完全了解为了顺利使用数据挖掘技术所用的每种技术背后的复杂理论。而
不利之处在于数据挖掘应用常被视为“暗箱”:输入数据接收答案。这是如何实现的通常不
为终端用户所知(这是许多所述技术的现状)并通常影响为数据挖掘所选的统计方法。例
如神经网络和支持矢量机具有特殊的复合执行机制使其难以为终端用户提取出用于执行
决策的“规则”。在另一方面,k-最近邻方法和线性判别分析是不对用户隐藏的非常透明的
决策程序。
[0132] 有两类用于数据挖掘的途径:监督和无人监督途径。在监督途径中,与数据相连的信息是已知的,如分类数据(如复发对不复发肿瘤)。所要求的是将观察到的反应(如复发
对不复发)与输入的变量联系起来的能力。在无人监督途径中,预先不知道数据组内的分
类,而数据挖掘方法被用于试图查出数据组内的分类或结构。
[0133] 在本实施例中采用了并详细讨论了监督途径,但应注意的是也可采用任何其它技术。
[0134] 整体方案包括下列步骤:
[0135] ●数据表示。这涉及数据向最可能与所选数据挖掘技术成功合作的形式的转换,此处的数据是数字化的,如本研究中待研究的数据表示相关的基因表达水平,这是相当简
单的。如果数据涉及了大动态范围(即多个数量级)通常采用数据的对数形式。如果数据
涉及了个别研究者提供的在个别天数中个别样品的测量值,可采取特定处理以确保系统误
差最小化。系统误差最小化(即由方案差异,机器差异,操作者差异和其它可计量因素造成
的误差)是在此处被称为“标准化”的程序。
[0136] ●特征选择。通常数据组包括许多多于日常基础中用于测量的数据元素,和额外的不提供产生预测模型所需的信息的许多元素。一个预测模型描述数据组的实际能力是源
自于技术集全维的某些亚集。这些维数是数据组最重要的构成(或特征)。本文所记的微
阵列数据,数据组的维数是单个的基因。此处所述的特征选择是要找出那些最“差异表达”
的基因。更为普通含义,它是指那些通过某些显著性统计检验的组,即在被研究的一组或其
他组中特定变量(或维数)的水平或更高或更低。有时特征是那些显示出最大差异的变量
(或维数)。特征选择的应用完全不依赖于所用的创造预测模型的方法,并涉及大量获得所
需结果的实验。在本发明中,显著性基因和那些与更早成功模式(NZ分类器)相关联的基
因的选择蕴含了特征选择。此外,数据还原的方法(如主要构成分析法)可应用于数据组。
[0137] ●训练。一旦建立了数据组的分类(如复发/不复发)和特征,数据表示为数据挖掘输入可接受的形式,就可将还原数据组(以特征描述的)应用于预测模型的选择。该
模式的输入通常以多维数字输入的形式(称为矢量),并输出信息(一种分类标签或一个响
应)。在训练程序中,将所选数据输入预测模型,或依次输入(按技术如神经网络)或者整
体输入(按应用某些回归形式的技术如线性模型,线性判别分析,支持矢量机)。在某些情
况下(如k-最近邻方法)数据组(或经特征选择后获得的数据组的亚集)本身就是模型。
正如所讨论的,通过利用各种软件包其中模型的参数已由职业分析员按最可能获得成功结
果的情况预先确定好,可建立对具体数学只需最少理解的有效模式。
[0138] ●验证。这是数据挖掘方案的关键构成部分,它的不恰当应用往往引起误差。部分数据组将被取出,以从特征分析和训练中分离,用于检验预测模型的成功性。另外,若验证
的结果影响模型的特征选择和训练,则在应用于现实状况前需对模式进行进一步验证。如
果该程序不能严格地支持模型则可能在现实情况中失败。验证的方法在以下详述。
[0139] ●应用。一旦模式构建起来并经验证,它必须以终端用户容易理解的方式包装。这通常包括运行某些形式的植入模型的电子表格程序,统计软件包的脚本,或通过信息技术
将模型重构入硬编码程序。
[0140] 经常使用的软件包实例是:
[0141] -电子表格插件,由多元矢量获得。
[0142] -R统计环境。
[0143] -商业软件包:MatLab,S-plus,SAS,SPSS,STATA。
[0144] -免费的开放源码软件如Octave(一个MatLab克隆)
[0145] -许多和可变的C++库,其可用于在商业的,封闭源码装置中运行预测模型。
[0146] 数据挖掘方法的实例。
[0147] 该方法可首先实施数据挖掘处理(上述的)的步骤,然后应用适当的已知软件包。关于数据挖掘处理的更多说明在许多极为精彩的文献(49)中有详细描述。
[0148] ·线性模型(49,50):数据按线性回归模型的输入处理,输出的是分类标签或响应变量。分类标签,或其它分类数据,必需转换成数值(通常是整数)。在广义线性模型中,分
类标签或响应变量它们本身与输入数据不是线性相关,但是可利用“连接函数”进行转换。
逻辑回归是最普通的广义线性模型形式。
[0149] ·线性判别分析(49,51,52)。倘若数据是线性可分的(即:数据的组或类别可被阈值的n维扩展超平面分离),可采用这种技术。变量的组合用于分离类别,如组之间变量
是最大,而组内部变量是最小。它的副产品是分类规则的形成。该规则应用于未知类别的
样品可实现样品中类别成员的预测或分类。线性判别分析如微阵列中最常用的最近质心收
缩法(nearest shrunkencentroids)是有变化的。
[0150] ·支持矢量机(53):一组变量与一组重量协同使用以确定在类别之间重量变量分离最大化的模型。将模型应用于样品则可生成样品的类别成员关系的分类或预测。
[0151] ·神经网络(52):数据按输入神经网络节点来处理,其有点类似生物神经,将来自于所有节点的输入应用到连通的那几个,并将输入转换成输出。一般地,神经网络利用“乘
和加”运算法则将来自于多重连通输入节点的输入转化成单一的输出。一个节点不一定会
产生一个输出除非节点的输入超过了特定阈值。每个节点以来自几个其它节点的输出作为
它的输入,最终输出节点通常是与分类变量相连。节点的数量和节点的拓扑可在有限方式
中变化,以提供对不可能以其它方法分类的极其嘈杂数据的分类能力。最常用的神经网络
是多层感知器。
[0152] ·分类和回归树(54):在这里,变量被用于定义在以渐进方式来确定样品的类别中所遵循的规则的等级。典型的方法是创造一套可实现特定类别的输出或特定不能判别的
状态的规则。分类树的实例是运行如下运算法则:
[0153] 如果基因A>x并且Y>x并且Z=z
[0154] 则
[0155] A类
[0156] 否则如果基因A=q
[0157] 则
[0158] B类
[0159] ·最近邻方法(51,52)。通过比较样品(未知类别)和接近它的样品(已知类别)并以距离函数定义接近度来进行预测和分类。可能定义许多不同的距离函数。常用的距
离函数是Euclidean距离(为Pythagorean距离的推广,三角测量中,n维),各种相关形
式(包括Pearson相关系数)。也有可将通过有意义的距离度量不能正常互相连接的数据
点转换成euclidean空间的转换函数,以便之后应用Euclidean距离(如Mahalanobis距
离)。尽管距离度量可能非常复杂,但k-最近邻法的基本前提是非常简单的,本质上是一
种“找出最类似于未知输入的k数据矢量,查明它们所对应的类别,并表决未知输入属于哪
个类别”的重述。
[0160] ·其他方法
[0161] -贝叶斯网络。一种有向无环图可用于表示一组变量与它们的联合概率分布,然后用于确定样品类别成员的概率。
[0162] -独立成分分析,其中独立信号(如:类别成员)是从一组变量中分离(进入成分)出的。这些成分可用于生成样品类别成员关系的分类或预测。
[0163] -集结学习方法,其中一组预测方法与生成样品类别成员关系的共同分类或预测组合。
[0164] 存在许多这类方法的可开发变体(49),并且不断地定义和发展了许多新方法。值得注意的是为获得一个可接受的结果,可应用这种方法的任何一种。必须采取特殊关注以
避免过拟合,经由全面的验证方案确保所有结果被检验。
[0165] 验证
[0166] 在将方法应用到新数据组之前(如来自于临床试验的数据),所描述的任何预测方法的应用都包括训练和交叉验证(43,55)。训练包括取得感兴趣的数据组的子集(如来
自于结直肠肿瘤的基因表达测量值),以便将其分级到正被检测的类别中(如复发和不复
发肿瘤)。该训练集用于生成预测模型(如上所定义的),并用其检验剩余的数据(检测
集)。
[0167] 改变预测模型的参数以在检验集中获得更好结果是可能的。但是,这可能导致过拟合的状况,此处预测模型用于训练数据组但不用于任何外部数据组。为解决这个问题,进
行了验证程序。一般应用两种主要类型的验证,第一种(保持验证)包括将数据组分割成
三组:检测,训练,和验证。其中验证集不输入训练程序,因此任何参数的调整或其它细化必
须发生在检测集应用过程中(而不是验证集)。第二种主要类型是交叉验证,它可通过以下
所述的几种不同方式应用。
[0168] 交叉验证有两种主要的亚类型:K重交叉验证和留一法交叉验证。
[0169] K重交叉验证:数据组被分成K个子样品,每个子样品含有与原来大约相同类别组的比例。在每轮验证中,K个子样品之一被取出,利用剩余的数据组完成训练。这轮的训练
有效性通过对保留组的分类正确程度来指示。该程序被重复K次,并通过对比预测类别和
已知类别来确定整体有效性。
[0170] 留一法交叉验证:一种常用的K重交叉验证的变体,K=n,其中n是样品数量。
[0171] 如表1和2所描述的那些CCPMS的组合可用于构建预后的预测模型。
[0172] 预后信号
[0173] 含有一种或多种这些标记的预后信号可通过源自这些信号的一种或多种预测模型的应用用于确定患者的结果。尤其是,临床医生或研究者可测定信号中一种或多种标记
的差异表达(如:增加或减少表达),应用到预测模型,并因此预测阴性预后,如患者疾病复
发的可能形,或可选择地阳性预后的可能性(持续地缓解)。
[0174] 已开发一组预后信号。首先,通过在两个数据组中交叉对比预测能力开发了两种信号:包括德国结肠直肠癌样品的微阵列实验集,和包括新西兰样品的微阵列实验集(实
施例6所讨论的)。之后,进行了单独基于德国数据组的有效信号的穷举统计搜索(实施例
17所讨论的)。
[0175] 如以下的实施例6所述,由一组德国结肠直肠癌样品已经建立了一种含有19个基因的预后信号(表4)。还由新西兰患者结直肠肿瘤样品建立了另一含有22个基因的预后
信号(表3)。通过获取患者样品(如肿瘤样品),并将样品中一种或多种标记的表达水平
与差异表达谱进行匹配,可确定癌症复发的可能性。
[0176] 表3:新西兰预后信号
[0177]WDR44 WD重复结构域44 0.81 Hs.98510 NM_019045
RBMS1 Rna结合基序,单链相互作 1.27 Hs.470412 NM_016836
用1,异构体d
SACM1L Ras-GTP酶活化蛋白SH3 0.84 Hs.156509 NM_014016
结构域结合蛋白2
SOAT1 固醇o酰基转移酶酰基辅 1.21 Hs.496383 NM_003101
酶a:胆固醇酰基转移酶1
PBK Pdz结合激酶 0.76 Hs.104741 NM_018492
G3BP2 Ras-GTP酶活化蛋白SH3 0.86 Hs.303676 NM_012297
结构域结合蛋白2
ZBTB20 含锌指和BTB结构域20 1.2 Hs.477166 NM_015642
ZNF410 锌指蛋白410 0.84 Hs.270869 NM_021188
COMMD2 含COMM结构域2 1.09 Hs.591315 NM_016094
PSMC1 蛋白酶体(前体,巨蛋白因 0.79 Hs.356654 NM_002802
子)26s亚基,atp酶1
COX10 COX10同源物,细胞色素c 0.9 Hs.462278 NM_001303
氧化酶聚集蛋白,亚铁血红
素A:法尼基转移酶(酵母)
GTF3C5 普通转录因子iiic,多肽5 0.84 Hs.495417 NM_012087
(63kDa)
HMMR 透明质酸调节的运动受体 0.78 Hs.72550 NM_012485
(rhamm)
UBE2L3 泛素偶联酶e213 0.83 Hs.108104 NM_003347
GNAS gnas复合体位点 1.26 Hs.125898 NM_000516
PPP2R2A 蛋白磷酸化酶2(前体2a), 0.91 Hs.146339 NM_002717
调控亚基b(pr52),α异
构体
[0178]RNASE2 核糖核酸酶,RNA酶a家 0.83 Hs.728 NM_002934
族,2(肝,嗜酸性粒细胞
衍生神经毒素)
SCOC 短卷曲状卷曲蛋白 0.78 Hs.480815 NM_032547
PSMD9 蛋白酶体(前体,巨蛋白因 0.89 Hs.131151 NM_002813
子)26s亚基,atp酶9
EIF3S7 真核细胞翻译起始因子3, 0.85 Hs.55682 NM_003753
亚基7(ζ,66/67kDa)
ATP2B4 ATP酶,Ca++运输,等离 1.11 Hs.343522 NM_001001396
子膜(plasma membrane)4
NM_001684
ABCC9 ATP结合盒,亚家族c,成 0.9 Hs.446050 NM_020298
员9,异构体超2a-δ-14
[0179] 表4:德国预后信号
[0180]基因标识 基因说明 表达倍数差异(复 Unigene聚类 Genebank
发/不复发) 登录号
CXCL10 趋化因子(C-X-C基序) 0.87 Hs.413924 NM_001565
配体10
FAS FAS(TNF受体超家族成 0.9 Hs.244139 NM_000043
员6)
NM_152871
NM_152872
NM_152873
NM_152874
[0181]NM_152875
NM_152876
NM_152877
CXCL9 趋化因子(C-X-C基序) 0.87 Hs.77367 NM_002416
配体9
TLK1 卷毛样激酶1 0.91 Hs.470586 NM_012290
CXCL11 趋化因子(C-X-C基序) 0.75 Hs.518814 NM_005409
配体11
PBK T-LAK细胞源蛋白激酶 0.86 Hs.104741 NM_018492
PSAT1 磷酸丝氨酸氨基转移酶1 0.91 Hs.494261 NM_021154
MAD2L1 MAD2有丝分裂终止缺失 0.89 Hs.533185 NM_002358
样蛋白1(酵母)
CA2 碳酸脱水酶II 0.84 Hs.155097 NM_000067
[0182]GZMB 粒酶B(粒酶2,细胞毒T 0.9 Hs.1051 NM_004131
淋巴细胞相关丝氨酸酯酶
1)
SLC4A4 溶质运载蛋白家族4,重 0.86 Hs.5462 NM_003759
碳酸钠协同转运子,成员
4
DLG7 盘状大同源物7(果蝇) 0.89 Hs.77695 NM_014750
TNFRSF11A 肿瘤坏死因子受体超家 0.9 Hs.204044 NM_003839
族,成员11a,NFKB活
化因子
KITLG KIT配体 0.91 Hs.1048 NM_000899
INDO 吲哚胺-吡咯2,3双加氧 0.91 Hs.840 NM_002164

GBP1 干扰素诱导的粒酶结合蛋 0.9 Hs.62661 NM_002053
白1,67kDa
CXCL13 趋化因子(C-X-C基序) 0.86 Hs.100431 NM_006419
配体13(B细胞趋化引诱
剂)
CLCA4 钙活化氯通道,家族成员 0.84 Hs.546343 NM_012128
4
PCP4 Purkinje细胞蛋白4 1.14 Hs.80296 NM_006198
[0183] 表5:免疫反应基因
[0184]基因标识 基因说明 表达倍数差异(复发 Unigene聚类 Genebank登
/不复发) 录号
趋化因子(C-X-C基序)
CXCL9 配体9 0.87 Hs.77367 NM_002416
趋化因子(C-X-C基序)
CXCL10 配体10 0.87 Hs.413924 NM_001565
趋化因子(C-X-C基序)
CXCL11 配体11 0.75 Hs.518814 AF030514
趋化因子(C-X-C基序)
配体13(B细胞趋化引
CXCL13 诱剂) 0.86 Hs.100431 NM_006419
T-LAK细胞源蛋白激
PBK 酶 0.86 Hs.104741 NM_018492
吲哚胺-吡咯2,3双加
INDO 氧酶 0.91 Hs.840 M34455
干扰素诱导的粒酶结
GBP1 合蛋白1,67kDa 0.9 Hs.62661 NM_002053
粒酶B(粒酶2,细胞毒
GZMB T淋巴细胞相关丝氨酸 0.9 Hs.1051 J03189
[0185]基因标识 基因说明 表达倍数差异(复发 Unigene聚类 Genebank登
/不复发) 录号
酯酶1)
KITLG KIT配体 0.91 Hs.1048 NM_000899
肿瘤坏死因子受体超
家族,成员11a,NFKB
TNFRSF11A 活化因子 0.9 Hs.204044 NM_003839
FAS(TNF受体超家族
FAS 成员6) 0.9 Hs.244139 Z70519
[0186] 在某些方面,本发明提供了一种判断癌症预后的方法,包括(a)提供癌样品;(b)检测所述样品中CCPM家族成员的表达水平;和(c)判断癌症的预后。在一个方面,癌症是
结肠直肠癌。
[0187] 在其它方面,发明包括检测CCPM mRNA表达水平的步骤。在其它方面,发明包括检测CCPM多肽表达水平的步骤。在进一方面,发明包括检测CCPM肽表达水平的步骤。在更
多方面,发明包括检测在所述样品中的多于一种CCPM家族成员的表达水平的步骤。在更多
方面,CCPM是一个免疫反应相关基因。在进一方面,CCPM选自于表3,4,8A,8B,或9所列的
标记。在更多方面,CCPM被包含在选自表3,4,8A,8B,或9所列的信号中。
[0188] 在更多方面,发明包括了检测WDR44,RBMS1,SACM1L,SOAT1,PBK,G3BP2,ZBTB20,ZNF410,COMMD2,PSMC1,COX10,GTF3C5,HMMR,UBE2L3,GNAS,PPP2R2A,RNASE2,SCOC,PSMD9,
EIF3S7,ATP2B4,和ABCC9的表达水平。在更多方面,发明包括了检测CXCL10,FAS,CXCLO,
TLK1,CXCLI1,PBK,PSAT1,MAD2L1,CA2,GZMB,SLC4A4,DLG7,TNFRSFI1A,KITLG,INDO,GBP1,
CXCL13,CLCA4,和PCP4的表达水平。
[0189] 在更多方面,发明包括了一种为癌症确定治疗方案的方法,包括:(a)提供癌样品;(b)检测所述样品中CCPM家族成员的表达水平;和(c)根据CCPM家族成员的表达水平
判断癌症的预后;和(d)根据预后确定治疗方案。
[0190] 在更多方面,发明包括了一种检测CCPM的装置,包括:其上具有CCPM捕获剂的基片;和与基片相连的检测器,所述检测器可检测与捕获剂相关的CCPM。附加方面包括检测
癌的试剂盒,包括:基片;CCPM捕获剂;和使用说明。发明更多方面包括利用qPCR检测CCPM
的方法,包括:所述CCPM的特异性正向引物;所述CCPM的特异性反向引物;PCR试剂;反应
瓶;和使用说明。
[0191] 本发明的附加方面包括检测CCPM多肽或肽存在的试剂盒,包括:具有所述CCPM多肽或肽的捕获剂的基片;所述CCPM多肽或肽的特异性抗体;可在所述CCPM多肽或肽的结
合抗体上加标签的试剂;和使用说明。
[0192] 在更多方面,本发明包括一种判断结肠直肠癌预后的方法,包括以下步骤:提供一种来自于疑似结肠直肠癌患者的肿瘤样品;利用ELISA方法测定其中存在的CCPM多肽。在
本发明的特定方面,发明的CCPM是选自表1,2,5或9所列的标记。在更多方面,CCPM被包
含在选自于表3,4,8A,8B,或9所列的信号的预后信号中。
[0193] 实施例
[0194] 本文中所描述的实施例是用于解释发明的实施方式。分子诊断领域普通技术人员所知的其它实施方式,方法和分析类型无需在此详细描述。本领域范围内的其它实施方式
也被认为是本发明的一部分。
[0195] 实施例1:患者和方法
[0196] 本研究中包括两组患者,一组来自于新西兰(NZ)而第二组来自于德国(DE)。NZ患者是包括所有病期的前瞻性群组研究的部分,而DE样品是选自于肿瘤库。临床信息如表
6所述,而图1概述了实验设计。
[0197] 实施例2:肿瘤样品
[0198] 来自于149例NA患者的原发性结直肠肿瘤样品是取自1995-2000年间在Dunedin医院和Auckland医药进行手术的患者。
[0199] 肿瘤样品在液氮中速冻。由单个病理学家(H-S Y)评价了所有的手术标本,并估计其中含有平均85%的肿瘤细胞。在149例CRC患者中,12例存在肿瘤转移,35例已复发
癌症,而102例在跟踪至少5年后仍没病。
[0200] 来自于DE患者的原发性结直肠肿瘤样品是取自1995-2001年间在慕尼黑科技大学的外科系进行手术的患者。从库存的由手术室中现取并经液氮速冻的肿瘤中选取了一组
55例结肠直肠癌样品。样品取自于11例I期癌症患者和44例II期癌症患者。有29例患
者没有复发而26例患者在跟踪至少5年后复发了癌症。肿瘤含量范围在70-100%之间,平
均87%。
[0201] 表6:新西兰和德国结直肠肿瘤的临床特征
[0202] 1.持续性疾病
[0203]
[0204]
[0205] 实施例3:RNA的提取和目标标记
[0206] NZ肿瘤:将肿瘤均质并利用Tri-试剂(Progenz,Auckland,新西兰)提取RNA。然后利用RNeasy迷你柱(Qiagen,Victoria,澳大利亚)进一步纯化RNA。按间接氨基酸烯
丙基cDNA标记方案用Cy5dUTP标记10微克RNA。来自于12株不同细胞株的参照RNA用
Cy5dUTP标记。利用QiaQuick PCR纯化试剂盒(Qiagen,Victoria,澳大利亚)按供应商的
方案纯化荧光素标记的cDNA。
[0207] DE肿瘤:将肿瘤均质并利用RNeasy迷你试剂盒(Qiagen,Hilden,德国)分离RNA。按之前所述制备cRNA(9),并在RNeasy柱中纯化(Qiagen,Hilden,德国),用55μl水洗脱。
将15微克cRNA在95℃破碎35分钟并和oligo-dT-T7引物(Eurogentec,Kóln,德国)合
成双链cDNA,并利用Promega RiboMax T7-试剂盒(Promega,Madison,WI)和生物素-NTP
标记混合物(Loxo,Dossenheim,德国)将其转录。
[0208] 实施例4:微阵列实验
[0209] NZ肿瘤:利用印在环氧(epoxy)包被玻片上的MWG Human 30K Array寡核苷酸实施标记的目标cDNA的杂交。玻片用1%BSA封闭,在预杂交缓冲液中于42℃杂交至少12
小时然后进行高严格性洗涤。用GenePix微阵列扫描仪扫描载片并用GenePix Pro 4.1微
阵列获取器和分析软件(Axon,CA)分析数据。
[0210] DE肿瘤:将cRNA与B2对照寡核苷酸(Affymetrix,Santa Clara,加拿大),真核杂交对照(Affymetrix,Santa Clara,加拿大),鱼精(Promega,Madison,WI),缓冲液和BSA
混合至最终体积300μl,并于45℃杂交到微阵列芯片16小时(Affymetrix,Santa Clara,
加拿大)。按供应商的方案在Affymetrix流式工作站中实施洗涤步骤,并与链霉亲和素
(Roche,Mannheim,德国)、生物素基化的羊抗链霉亲和素抗体(Serva,Heidelberg,德国)、
羊IgG(Sigma,Taufkirchen,德国)和链霉亲和素藻红蛋白(Molecular Probes,Leiden,
荷兰)温育。然后用HP氩离子激光共焦显微镜扫描阵列并利用 Microarray
Suite 5.0软件处理数码图片数据。
[0211] 实施例5:数据预处理
[0212] NZ数据:在R计算环境(10)中进行数据预处理和标准化。将log2转换应用于每个阵列的每行中的最显著光密度(foreground intensity)上。每点的数据用在每个阵列上
以便由Bioconductor分析工具组件(12)的limma包(11)进行点样针头(print-tip)损
耗标准化。然后将规模标准化(13)用于阵列间log光密度比值分布的标准化。标准化后
聚类分析显示出数据中存在的基因特异性点样位移(print-run)效应。差异分析(ANOVA)
标准化用于评估和去除每个基因数据中的点样位移(print-run)效应。149个样品中可用
的重复阵列数据是46个。整体数据组聚类分析显示出互相聚类良好的两次重复阵列表明
阵列平台(array platform)的内部一致性。低光密度基因,在重复之间差异巨大(重复之
间的平均log2差异高于0.5),并从数据组中去除了未知蛋白。经过起始的标准化程序后,
选择10,318个基因的子集用于进一步分析。
[0213] DE数据:所有的Affymetrix U133A基因芯片都通过质量控制以消除有异常特征的扫描,它们是异常低或高的动态范围,高度理想匹配饱和度,高象素噪声,栅格未对准问
题,和低平均信噪比。在R计算环境(10,40)中进行背景的修正和标准化。利用在昂飞
Bioconductor包中运行的稳健多阵列平均函数(robust multi-array average function)
(14)获取来自于探针水平数据(cel文件)的背景修正和标准化表达测量值。
[0214] 实施例6:预后信号和交叉验证
[0215] 利用BRB阵列工具包(超文本转化方案://linus.nci.nih.gov/BRB-ArrayTools.html)进行数据分析。利用随机差异模型f检验进行基因选择。在DE数据中,当采用显著
性阈值0.01时发现318个基因差异表达。由于大多数差异表达的基因在表达上表现出相
对小的变化,DE数据的基因选择程序中添加了两个类别间倍数变化的平均log2值要求高于
1.1的条件。利用NZ和DE数据组中的每个数据的留一法交叉验证(LOOCV)生成了基于基因
的预后信号。为避免过拟合问题,在每个LOOCV反复中进行基因选择和信号构建。在LOOCV
之后,通过被正确预测的样品部分估算预测率,为了找出可为未知样品做最佳预测的基因,
联合六种分类方法研究了采用随机差异模型的不同t检验阈值:复合共变量分类器(CCP),
对角化线性判别分析(DLD),3-最近邻法(3-NN),1-最近邻法(1-NN),最近质心(NC),和支
持矢量机(SVM)。
[0216] 为确定NZ和DE预后信号的正确性,进行了相互验证(reciprocalvalidation),即用DE数据组验证NZ信号和进行反向验证。为检测NZ基因,在DE数据中确定了相对NZ信
号中22个基因的探针,并采用LOOCV评价DE样品的信号仅基于这些探针的性能。类似地,
在NZ数据中确定了相对DE信号中19个基因的探针,并采用LOOCV评价NZ样品的信号的
性能。在上述两种情况下都采用了显著性阈值0.999以确保在每次LOOCV反复中采用所有
的基因。平台(platform)之间的差异(尤其是,log-比率数据对log-光密度数据)表示
预测规则在各数据组中的直接应用是可行的。仅是基因集而不是所用预测规则的结果对新
样品是一般化的。通过置换样品类别标签来计算LOOCV预测结果的显著性并求出置换数据
获得更高的LOOCV预测率比非置换数据获得的预测率的倍数比例。所有置换分析包括具有
表示预测结果不可能是偶然的小P值的2000次置换。
[0217] 实施例7:存活分析
[0218] 利用在R计算环境下的存活包对检查数据进行卡普兰-迈耶存活分析。存活的定义为手术后的“无病存活”。对于每个分析,构建了存活曲线,并采用时序检验(the
log-rank test)(15)评估存在于正被讨论的两组曲线之间的显著性差异。考虑对NZ和DE
数据组都进行检查。对于无病存活数据,五年前的正确检查只存在于已死亡的不复发患者,
或者最近的临床跟踪发生在小于五年内。采用R语言的epitools包生成比数比和置信区
间。
[0219] 实施例8:与趋化因子配体共表达的标记的识别
[0220] 从DE数据中选择与存在于不复发组的预测器中的四个趋化因子的至少一个的Pearson相关系数高于0.75的基因进行本体分析。采用DAVID进行本体分析(超本文转化
方案://apps 1.niaid.nih.gov/david/)。
[0221] 实施例9:结果和分析
[0222] 为识别稳健的预后信号以预测CRC的疾病复发,采用来自于NZ和DE的两个独立样品集来生成来自于分离的经五年或以上的临床跟踪的原发性肿瘤系列的阵列表达数据
组。经标准化后,采用相同的统计方法分析每个数据组以产生预后信号,然后在替换的患者
系列中验证它。按此方法,在NZ数据组中验证DE预后信号又在DE数据组中验证NZ预后
信号。
[0223] 实施例10:差异表达标记的彻底识别
[0224] DE数据组:BRB阵列工具类别比较程序被用于检测用于显示复发和不复发样品之间的平均光密度的统计显著性差异的探针。再用RVM(随机差异模型)生成数据组中每个
探针的P值。在第二轮中,采用任意显著性阈值0.05发现共325个探针在两组样品中显著
差异表达。注意基因选择没应用任何倍数改变的阈值,而是采用了0.05的显著性截止值,
并不是实施例6中所采用的0.001阈值。该不严格阈值(p=0.05代替p=0.001)的目
的在于选出更多的基因用于第二轮信号构建(参见实施例17)。这些探针表示270个独立
基因(表1和表2)。
[0225] 明显地,显著性检验(随机差异模型)包括下列步骤:为每个基因生成一个检验统计式,除了在通过将所有基因方差结构表示成一个F分布获取的合并方差评估中,其对于
标准的两组样品t检验(45)是相同的,然后利用该分布中的参数a和b(由经验似然函数
获得的)以形成以下的合并方差的估值(参看下页),
[0226]
[0227] 其中s2是合并方差的新估值,s2pooled是合并方差的标准估值(45),n是样品数目,而a和b是F分布(46)的参数。基于成形的t统计,可采用自由度为(n-2)+2a的t分布
以获得每个基因的P值。为调整多重假设检验,采用Benjamini和Hochberg(7)的错误发
现率(False Discovery Rate)控制程序以生成调整后的每个基因的P值。如果调整后的
P值小于0.05则认为该基因为显著的差异表达。
[0228] 实施例11:相关标记的识别
[0229] 为识别可用作预后预测的其它基因,利用R统计计算软件包进行相关分析。该分析揭示了有167个探针的Pearson相关系数(40,44,45)至少为0.8。在这些探针中,51个
属于325个差异表达探针组,而剩余的116个被认为是非显著性的(利用阈值0.05的FDR,
或“错误发现率(False Discovery Rate)”控制程序,RVM,或随机差异模型)。该116个探
针代表了111个差异基因(表2)。
[0230] 实施例12:预后信号的构建
[0231] 利用寡核苷酸微阵列生成NZ数据组。构建了六种不同信号,其中支持矢量机(SVM)采用0.0008的基因选择阈值产生最高的LOOCV预测率,并产生一个22基因信号
(77%预测率,53%灵敏度,88%特异性;P=0.002,表7,8A和8B)。对于表8A和8B,其基
因说明在表3和4中。
[0232] 表7:预后信号构建
[0233]
[0234] SVM:支持矢量机信号;3-NN:3最近邻信号。
[0235] §95%置信区间
[0236] ●P值:从2000个置换分类标签计算而得。
[0237] 表8A:NZ预后信号
[0238] 新西兰22基因预后信号
[0239]P值 基因标识 GeneBank登录 分析时未在德
号 国数据中发现
的基因
2.30E-05 WDR44 NM_019045 *
3.30E-05 RBMS1 NM_016836
4.60E-05 SACM1L NM_014016
6.80E-05 SOAT1 NM_003101
7.90E-05 PBK NM_018492
0.00014 G3BP2 NM_012297
0.000163 ZBTB20 NM_015642
0.000214 ZNF410 NM_021188 *
0.00022 COMMD2 NM_016094 *
0.000293 PSMC1 NM_002802
0.000321 COX10 NM_001303
0.000334 GTF3C5 NM_012087
0.000367 HMMR NM_012485
0.000405 UBE2L3 NM_003347
0.000417 GNAS NM_000516
0.000467 PPP2R2A NM_002717
0.000493 RNASE2 NM_002934
0.000532 SCOC NM_032547 *
0.000578 PSMD9 NM_002813
0.000593 EIF3S7 NM_003753
0.000649 ATP2B4 NM_001001396
NM_001684
0.000737 ABCC9 NM_020298
[0240] 表8B:DE预后信号
[0241] 德国19基因预后信号
[0242]P值 基因标识 GeneBank登录 分析时未在NZ
号 数据中发现的
基因
3.00E-06 CXCL10 NM_001565
NM_000043
4.00E-06 FAS NM_152871
NM_152872
NM_152873
NM_152874
NM_152875
NM_152876
NM_152877
8.00E-06 CXCL9 NM_002416 *
1.20E-05 TLK1 NM_012290
1.30E-05 CXCL11 NM_005409
2.10E-05 PBK NM_018492
4.20E-05 PSAT1 NM_021154
7.60E-05 MAD2L1 NM_002358
9.80E-05 CA2 NM_000067
0.000128 GZMB NM_004131 *
0.000177 SLC4A4 NM_003759
0.000215 DLG7 NM_014750 *
0.000376 TNFRSF11A NM_003839
0.00038 KITLG NM_000899
0.000579 INDO NM_002164
0.000634 GBP1 NM_002053
0.000919 CXCL13 NM_006419 *
0.000942 CLCA4 NM_012128 *
0.001636 PCP4 NM_006198
[0243] NZ信号具有在NZ患者中疾病复发的比数比8.4(95%CI 3.5-21.4)。
[0244] 利用Affymetrix阵列生成DE数据组得到19基因(22探针)和3最近邻(3-NN)信号(选择阈值0.002,log2倍数变化>1.1,分级率84%,灵敏度85%,特异性
83%,P<0.0001,表3,4,7)。DE信号具有在DE患者中疾病复发的比数比24.1(95%CI
5.3-144.7)。在卡普兰-迈耶分析(Kaplan-Meier)中,NZ和DE患者的无病存活明显区别
于预测为复发或不复发的患者(NZ信号,P<0.0001,图2A;DE信号,P<0.0001,图2B)。
[0245] 实施例13:NZ和DE预后信号的外部验证
[0246] 为验证NZ信号,通过LOOCV用22个基因构建了DE数据组的SVM信号。获得了71%的预测率,其是非常有意义的(p=0.002,表7)。利用NZ信号获得的DE患者复发比
数比为5.9(95%CI 1.6-24.5)。我们猜测预测率从NZ患者的77%减少至DE患者的71%
(表7)是由于DE数据中没有NZ信号中的4个基因。根据NZ信号,预测为复发的DE患者
的无病存活明显低于预测为不复发的患者的无病存活(p=0.0049,图2C)。
[0247] 然后通过LOOCV利用19个基因构建NZ数据组的3-NN信号来验证DE信号。经DE信号验证而确定的预测率67%又是有意义的(p=0.046;Table7)。利用DE信号获得的
NZ患者复发的比数比为2.6(95%CI 1.2-6.0)。我们认为预测率的减少是由于NZ数据中
没有DE信号中的5个基因。这由从DE数据组中去除那5个基因后导致了LOOCV预测率从
84%减少至67%得到证实(表7)。根据DE信号,预测为复发的DE患者的无病存活明显低
于预测为不复发的患者的无病存活(p=0.029,图2D)。
[0248] 实施例14:通过现行分期体系比较NZ和DE预后信号
[0249] 在相同的临床病理分期中也观察到了被预测为复发或预测为不复发的患者之间无病存活的显著差异(图3)。当根据疾病分期将患者预测分级时,NZ信号可以识别在II期
(p=0.0013,图3A)和III期(p=0.0295,图3A)亚组中更可能复发的患者。若DE信号
被应用于NZ数据组时表现出更小的范围,此处只在III期患者中观察到差异(p=0.0491,
图3B)。DE信号预测准确率的下降可能还是由于没有NZ数据中的降低LOOCV预测率的5
个基因。
[0250] 实施例15:信号中与CRC疾病发展有关的基因
[0251] 据报导,在NZ信号(表3)中的许多基因包括G3BP2(16),RBMS1(17),HMMR(18),UBE2L3(19),GNAS(20),RNASE2(21)和ABCC9(22)都参与了癌症的发展,而RBMS1(23),
EIF3S7(24)和GTF3C5(25)参与了转录或翻译。PBK是一种蛋白激酶,它参与了有丝分裂的
过程(26),并且是NZ和DE信号中唯一的共有基因。在DE信号(表4)中的19个基因中
的11个参与了免疫反应,包括4个趋化因子配体(CXCL9,CXCL10,CXCL11,CXCL12;(27)),
PBK(28),INDO(29),GBP1(30),GZMB(31),KITLG(32),和肿瘤坏死因子族中的两个受体
(TNFRSF1IA,FAS;33))。
[0252] 据发现86个基因与DE数据中4个趋化因子配体中的至少一个适度相关(Pearson相关系数>0.75)。经本体分析发现这65个基因中的39个属于免疫反应的类别(p
-26
<10 )。这个结果表明宿主免疫反应在确定CRC复发中起关键作用。
[0253] 实施例16:NZ和DE预后信号的讨论
[0254] 已经表明两种不同的预后信号可用于改进目前结肠直肠癌的预后。
[0255] 对于DE信号,令人惊奇和预料不到的是I/II期样品可用于预测III期结果。还令人惊奇的是许多与疾病复发相关的基因与免疫反应相关。免疫反应在不同癌以及CRC患
者中的T淋巴细胞浸润的发展中发挥重要作用指示良好的预后(36-38)。全部11个免疫反
应基因(表5)在复发患者中都下调,这是基于已知生物机制所预料不到的。
[0256] 为进一步确认这些结果,选择了4个趋化因子进行进一步分析。趋化因子配体不仅反应免疫系统活性和介导白细胞再生还参与了趋化现象,细胞粘附和运动,和血管形成
(36)。为研究免疫反应基因的作用,鉴别了86个与趋化因子配体共表达的基因。这些基
因中的几乎一半具有“免疫反应”类别中的基因本体分类,这表明这些基因在复发过程中的
主要功能是调节免疫反应。而且,发现了CD4+和CD8+T细胞抗原(CD8A,CD3,PRP1,TRA@,
TRB@)或功能相关抗原,例如主要组织相容性分子,干扰素γ诱导蛋白和IL2RB也在共表达
列表中。肿瘤特异性CD4+T细胞CD8+T细胞的活化导致了在小鼠结直肠模型中的肿瘤排斥
(37)。共同地,这些发现表明淋巴细胞形成部分参与了原发性肿瘤细胞扩散的最小化肿瘤
特异性宿主反应。
[0257] 实施例17:附加预后信号的选择
[0258] 经在两个数据组中的交叉验证,上述两个预后信号的性能是极好的。开展了进一步研究,利用纯粹的统计途径开发了除前述之外的各种信号,它们也可预测其它数据组
的预后。该研究的其它目标之一就是确保用于标准化微阵列数据(稳健多元阵列的平均
(robust multi-array average))的方法在基因选择中不产生负面影响。
[0259] 图4显示了由可变长度信号获得的分类率。分类率是正确的复发预测的比例(以占总预测的百分比表示)即被正确分类样品的比例。利用11重交叉验证确定分类率。对
于这种交叉验证,在基因选择之前,从其中取出随机选择的分类样品(即:按全样品的复发
比不复发的比值)作为验证组,并构建模型(利用剩余50个样品的训练组)。然后将交叉
验证重复10次以便全部55个样品都出现在每次验证集中。该11重交叉验证过程重复10
次,而结果图示在图4和5中。利用自助偏差校正(43)来修正显示的分类率,以给出信号
应用于另一数据组的预期分类率。从这个分析中,可确定更短的信号有最佳的分类率。此
外,对最频繁出现在分类器中的基因的分析显示了差异力(discriminatory power)通常是
源于两个基因的效力:FAS和ME2。这在图5中表现的最清楚,其显示了从数据组中去除两
个基因FAS和ME2后信号的效力。更多的细节参见图5的图例。
[0260] 可通过从原始肿瘤集的1000个分级的亚样品中生成基因列表以充分研究特征选择标准化的影响,并每次从数据组中去除5个样品(即总样品数的1/11)。(这与11重交
叉验证效果相同。)并标记下每个基因出现在基因列表“前n”(即前10,前20,前100和前
325)的次数。该值称为“前数”。采用三种不同的标准化方法(40)(图6)和三种不同的过
滤统计(图7)生成前数。前数和所用的标准化方案和过滤统计(41,42)之间是密切相关
的。因而,虽然标准化和特征选择方法是重要的,所列出基因中的许多基因不依赖于数据前
处理方法而出现在基因列表中。这表明标准化方法的选择对于选用于构建信号的基因仅有
最小的影响。发现由所有标准方法和统计总结而得前数是复发和不复发肿瘤之间基因差异
表达的稳健指标。
[0261] 通过随机取样利用基因列表(参见表1和表2)中的基因生成信号。具有更高前数的基因更可能被选中,因此样品的生成是有利的。利用在2-55之间的Affymetrix探针
生成各种信号。利用三种分类器:k=1的k最近邻法,k=3的k最近邻法,和带线性核函
数的支持矢量机,并采用留一法交叉验证选择中值分类率>80%的信号。
[0262] 平均而言,鉴于对新数据组预后的预测能力(图4和图5),较长的预后信号优于较短的信号。基因FAS和ME2也是重要的(上文已讨论)。根据这两个因素,以及不含有FAS
或ME2的较短信号性能更差的事实,来选择显示在下表9中的候选信号。(从随机生成的信
号池中)利用留一法交叉验证选择中值中值分类率>80%的信号(利用三种分类器:k=
1的k最近邻法,k=3的k最近邻法,和带线性核函数的支持矢量机)。
[0263] 此外,因为平均起来较长信号(>10个基因/信号)性能趋向更好,我们从含30个或更多探针/每个信号的信号池中选择含20或更多个基因/信号的信号。根据图4和
图5显示的结果,可预期这些信号(表10)应用于其它数据组时将表现出约70%的分类率。
据发现所有以这种方式生成的信号都含有ME2,并除一个外都含有FAS,这可能是由于这些
基因在提供预后预测中的重要性。应该注意的是,在其它数据组中利用这种方法在内部数
据组中获得的高分类率并不一定表示这些信号将比实施例12所列信号表现更好。更适当
的说,目的是产生一系列信号,期望其至少和前述信号一样应用于其它数据组。含有预后信
号的标记如表9所列。
[0264] 表9:附加预后信号(注意在复发预测中SVM=支持矢量机,3NN=3最近邻法,1NN=1最近邻法,Sens=灵敏度,Spec=特异性)
[0265]
[0266]
[0267]
[0268]
[0269]
[0270]
[0271]
[0272]
[0273]
[0274]
[0275]
[0276]
[0277]
[0278]
[0279]
[0280]
[0281]
[0282]
[0283]
[0284]
[0285]
[0286]
[0287]
[0288]
[0289]
[0290]
[0291]
[0292]
[0293]
[0294]
[0295]
[0296]
[0297]
[0298]
[0299]
[0300]
[0301]
[0302]
[0303]
[0304]
[0305]
[0306]
[0307]
[0308]
[0309]
[0310]
[0311]
[0312]
[0313]
[0314]
[0315]
[0316]
[0317]
[0318]
[0319]
[0320]
[0321]
[0322]
[0323]
[0324]
[0325]
[0326]
[0327]
[0328]
[0329]
[0330]
[0331]
[0332]
[0333]
[0334]
[0335]
[0336]
[0337]
[0338]
[0339]
[0340]
[0341]
[0342] 实施例20:预测方法的特定应用
[0343] 在上述基因信号的选择中,采用了两种不同统计方法以描绘信号:k最近邻法,和支持矢量机。这些方法通过分类(ref)和e1071(ref)包以R统计软件系统包来提供。
[0344] 本文所述的信号按如下进行检测。在两种情况下,用于开发给定信号的预测信号模型的10个数据是在复发和不复发样品中的基因表达值(来自于Affymetrix阵列数据的
未标准化光密度)相对于包含在信号中基因的探针:
[0345] ·对于k最近邻法:我们采用k=1和k=3的留一法交叉验证,获得的灵敏度(正确分类的阳性样品即复发的比例)和特异性(被正确分类的阴性样品即不复发样品的
比例),如表9所示。
[0346] ·采用下列的支持矢量机参数通过数据组获得留一法交叉验证灵敏度和特异性数据:通过采用线性核来生成支持矢量机模型,所有所用其它参数是从el 071包的svm函数
中获取的缺省值。
[0347] 应该注意的是含有信号的基因本身是从明显差异表达的探针列表中获取的,并且发现来自于基因列表的这些基因与NZ 22基因信号中的基因相关。在某些情况下每个基因
有超过一种的重要(或相关)探针。在这些情况下,预测模型使用该基因的所有重要探针
(即在重要探针列表中的那些,参见表1)的中值光密度数据。
[0348] 参考文献
[0349] 1.Arnold CN,Goel A,Blum HE,Richard Boland C.Molecularpathogenesis ofcolorectal cancer.Cancer 2005;104:2035-47.
[0350] 2.Anwar S,Frayling IM,Scott NA,Carlson GL.Systematic review ofgeneticinfluences on the prognosis of colorectal cancer.Br J Surg 2004;91:1275-91.
[0351] 3.Wang Y,Jatkoe T,Zhang Y,et al.Gene expression profiles andmolecularmarkers to predict recurrence of Dukes′B colon cancer.J Clin Oncol2004;22:
1564-71.
[0352] 4.Eschrich S,Yang I,Bloom G,et al.Molecular staging forsurvivalprediction of colorectal cancer patients.J Clin Oncol 2005;23:3526-35.
[0353] 5.Barrier A,Lemoine A,Boelle PY,et al.Colon cancerprognosisprediction by gene expression profiling.Oncogene 2005;24:
6155-64.6.Simon R.Roadmap for developing and validating therapeutically
relevant genomicclassifiers.J Clin Oncol 2005;23:7332-41.
[0354] 7.Michiels S,Koscielny S,Hill C.Prediction of cancer outcomewithmicroarrays:a multiple random validation strategy.Lancet 2005;365:488-92.
[0355] 8.Marshall E.Getting the noise out of gene arrays.Science2004;306:630-31.9.Birkenkamp-Demtroder K,Christensen LL,Olesen SH,et al.Gene expression
in colorectal cancer.Cancer Res 2002;62:4352-63.
[0356] 10.Ihaka R,Gentleman R.R:A language for data analysis and graphics.Journal of Computational and Graphical Statistics 1996;5:299-314.
[0357] 11.Smyth GK.Linear models and empirical Bayes methods forassessingdifferential expression in microarray experiments.Statistical
Applications inGenetics and Molecular Biology 2004;3:Article 3.
[0358] 12.Gentleman RC,Carey VJ5 Bates DM,et al.B ioconductor:opensoftwaredevelopment for computational biology and bioinformatics.Genome
Biol2004;5:R80.
[0359] 13.Smyth GK,Speed TP.Normalization of cDNA microarray data.In:CarterD,ed.METHODS:Selecting Candidate Genes from DNA Array Screens:Application
to Neuroscience.Vol.31;2003:265-73.14.Mzarry RA,Hobbs B,Collin F,et
al.Exploration,normalization,and summaries of high densityoligonucleotide
array probe level data.Biostatistics 2003,4:249-64.
[0360] 15.Harrington DP,Fleming TR.A class of rank test procedures forcensoredsurvival data.Biometrika 1982,69:553-66.16.Barnes CJ,Li F,Mandal M,
YangZ,Sahin AA,Kumar R.Heregulin induces expression,ATPase activity,andnuclear
localization of G3BP,a Ras signaling component,in human breasttumors.Cancer Res
2002;62:1251-55.
[0361] 17.NiM T,Izumi S,Saegusa Y,et al.MSSP promotes ras/myc cooperativecelltransforming activity by binding to c-Myc.Genes Cells 2000,5:127-41.18.Rein
DT,Roehrig K,Schondorf T,et al.Expression of the hyaluronan receptorRHAMM in
endometrial carcinomas suggests a role in tumor progression andmetastasis.J
Cancer Res Clin Oncol 2003,129:161-64.
[0362] 19.Fernandez P,Carretero J,Medina PP,et al.Distinctive geneexpressionof human lung adenocarcinomas carrying LKBl mutations.Oncogene2004,
23:5084-91.20.Frey UH,Eisenhardt A,Lummen G,et al.The T393Cpolymorphism of
the G alpha s gene(GNASl)is a hovel prognostic marker inbladder cancer.Cancer
Epidemiol Biomarkers Prev 2005;14:871-77.
[0363] 21.Niini T,Vettenranta K,Holhnen J,et al.Expression ofmyeloid-speciflcgenes in childhood acute lymphoblastic leukemia-a cDNA array
study.Leukemia 2002,16:2213-21.
[0364] 22.Yasui K,Mihara S,Zhao C,et al.Alteration in copy numbers of genesasa mechanism for acquired drug resistance.Cancer Res 2004;64:1403-10.
[0365] 23.Nomura J,Matsumoto K,Iguchi-Aiiga SM5Ariga H.Positive regulationofFas gene expression by MSSP and abrogation of Fas-mediated apoptosisinduction
in MSSP-deficient mice.Exp Cell Res 2005,305:324-32.
[0366] 24.Mayeur GL,Fraser CS,Peiretti F,Block KL,Hershey JW.Characterizationof eIF3k:a newly discovered subunit of mammalian translationinitiation factor
elF3.Eur J Biochem 2003;270:4133-39.
[0367] 25.Hsieh YJ,Wang Z5Kovelman R,Roeder RG.Cloning andcharacterizationof two evolutionarily conserved subunits(TFIIIC 102andTFIIIC63)of human TFIIIC
and their involvement in functional interactions withTFIIIB and RNA polymerase
III.MoI Cell Biol 1999;19:4944-52.
[0368] 26.Matsumoto S,Abe Y,Fujibuchi T,et al.Characterization of aMAPKK-likeprotein kinase TOPK.Biochem Biophys Res Commun2004;325:997-1004.
[0369] 27.Dong VM,McDermott DH,Abdi R.Chemokmes and diseases.Eur JDermatol2003;13:224-30.28.Abe Y,Matsumoto S,Kito K,Ueda N.Cloningand expression of a
novel MAPKK-like protein kinase,lymphokine-activatedkiller T-cell-originated
protein kinase,specifically expressed in the testis andactivated lymphoid
cells.J Biol Chem 2000,275:21525-31.
[0370] 29.Logan GJ,Smyth CM,Earl JW,et al.HeLa cells cocultured withperipheralblood lymphocytes acquire an immuno-inhibitory phenotype throughup-regulation
of indoleamine 2,3-dioxygenase activity.Immunology2002;105:478-87.
[0371] 30.Lubeseder-Martellato C,Guenzi E,Jorg A,et al.Guanylate-bindingprotein-1expression is selectively induced by inflammatory cytokines and is
anactivation marker of endothelial cells during inflammatory diseases.Am J
Pathol2002,161:1749-59.
[0372] 31.Phillips SM,Banerjea A,Feakins R,Li SR,Bustin SA,Dorudi S.Tumor-infiltrating lymphocytes in colorectal cancer with
microsatelliteinstability are activated and cytotoxic.Br J Surg 2004;91:
469-75.
[0373] 32.Oliveira SH,Taub DD,Nagel J5et al.Stem cell factor induceseosinophilactivation and degranulation:mediator release and gene array analysis.Blood
2002,100:4291-97.
[0374] 33.Xanthoulea S,Pasparakis M5Kousteni S,et al.Tumor necrosisfactor(TNF)receptor shedding controls thresholds of innate immune activation
thatbalance opposing TNF functions in infectious and inflammatoty diseases.J
ExpMed 2004;200:367-76.
[0375] 34.Brennan DJ,O ′ Brien SL,Fagan A,et al.Application of DNAmicroarraytechnology in determining breast cancer prognosis and therapeutic
response.Expert Opin Biol Ther 2005;5:1069-83.
[0376] 35.Canna K,McArdle PA,McMillan DC,et al.The relationship betweentumorT-lymphocyte infiltration,the systemic inflammatory response andsurvival in
patients undergoing curative resection for colorectal cancer.Br JCancer 2005;
92:651-54.36.Rossi D,Zlotnik A.The biology of chemokines andtheir receptors.
Annu Rev Immunol 2000;18:217-42.
[0377] 37.Miyazaki M,Nakatsura T,Yokomine K,et al.DNA vaccination ofHSP105leads to tumor rejection of colorectal cancer and melanoma in micethrough
activation of both CD4T cells and CD8T cells.Cancer Sci2005;96:695-705.38.
Ein-Dor L,KeIa I,Getz G,Givol D,Domany E.Outcomesignature genes in breast
cancer:is there a unique set?Bioinformatics2005;21:171-78.
[0378] 39.Becker RA,Chambers,JM and Wilks AR The New S Language.Wadsworth&Brooks/Cole 1988.
[0379] 40.Gentleman R.,Carey VJ,Huber W.,Irizarry RA,Dudoit S.Bioinformaticsand Computational Biology Solutions Using R and Bioconductor.Springer 2005.
[0380] 41.Bauer DF.Constructing confidence sets using rank statistics.Journalofthe American Statistical Association 1972;67:687-690.
[0381] 42.Lδnnstedt I.and Speed TP.Replicated microarray data.StatisticaSinica2002;12:31-46.43.Efron,B.and Tibshirani,R.An Introduction to the
Bootstrap.Chapman&Hall.2005
[0382] 44.Harraway J.Introductory Statistical Methods and the AnalysisofVariance.University of Otago Press 1993.
[0383] 45.McCabe GP,Moore DS Introduction to the Practice of StatisticsW.H.Freeman&Co.2005
[0384] 46.Casella G,Berger RL Statistical Inference Wadsworth 2001
[0385] 47.McLaughlan GJ,Do K,Ambroise C Analyzing Microarray GeneExpressionData(Wiley Series in Probability and Statistics)2004
[0386] 48.Wright GW5Simon RM A random variance model for detectionofdifferential gene expression in small microarray experiments.
Bioinformatics2003;19:2448-2455
[0387] 49.Hastie T,Tibshirani R,Friedman J The Elements of StatisticalLearningData Mining,Inference and Prediction Springer 200350.Neter J,Kutner
MH,Wasserman W5Nachtsheim CJ,Applied Linear Statistical ModelsMcGraw-Hill/
frwin 1996
[0388] 51.Venables,WN5Ripley,BD Modern Applied Statistics with S.4th ed..Springer 2002.
[0389] 52.Ripley,B.D.Pattern Recognition and Neural NetworksCambridgeUniversity Press 1996
[0390] 53.Cristianini N5Shawe-Taylor J An Introduction to SupportVectorMachines(and other kernel-based learning methods)Cambridge University
Press2000
[0391] 54.Breiman L5Friedman J,Stone CJ,Olshen RA Classification andRegressionTrees Chapman&Hall/CRC 198455.Good,PI Resampling Methods:A Practical Guide to
Data Analysis Birkhauser 1999
[0392] 说明书中的参考文献当成整体或分成具有公知等效的成分,这种等效如果单独列出则在此合并。
[0393] 尽管通过实施例和相关可能的实施方式描述了本发明,但应该重视的是可实施的改进和/或修正都不偏离它们的范围。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈