首页 / 专利库 / 病理 / 结直肠癌 / 结肠直肠癌的预后预测

结肠直肠癌的预后预测

阅读:463发布:2020-05-11

专利汇可以提供结肠直肠癌的预后预测专利检索,专利查询,专利分析的服务。并且本 发明 涉及判断癌症尤其是结肠直肠癌患者的 预后 的预后 信号 ,组合物和方法。具体而言,本发明涉及基因标记在预测癌症如结肠直肠癌的预后中的应用,其是基于基因标记的信号。在不同方面,本发明涉及了一种预测癌症患者长期存活可能性的方法,一种确定癌症患者 治疗 方案 的方法,一种制定癌症患者治疗模式的方法等,以及实施上述方法的 试剂 盒 和装置。,下面是结肠直肠癌的预后预测专利的具体信息内容。

1.一种判断CRC发展的预后信号,其含有两种或多种选自表1和2的 基因。
2.如权利要求1所述的信号,其选自表3,4或表9之一中的任一信号。
3.一种判断CRC预后的装置,其包括:其上有一个或多个位点的基片, 每个位点上有两种或多种寡核苷酸,每种寡核苷酸选自表1和2中的基因。
4.根据权利要求3所述装置,其中所述的两种或多种寡核苷酸是选自表 3,4或表9之一的预后信号。
5.一种判断患者CRC预后的方法,其包括以下步骤:
(i)测定患者CRC肿瘤样品中含有两种或多种来自于表1和2的基 因的预后信号的表达平;
(ii)应用预测模型,所述模型是通过将预测方法应用于复发和不复 发肿瘤样品中预测信号的表达水平而建立的;
(iii)确定预后。
6.根据权利要求5所述方法,其中信号选自表3,4或表9之一。
7.根据权利要求5所述方法,其中所述预测方法选自线性模型(linear model),支持矢量机(support vector machine),神经网络(neural networks),分 类和回归树(classification and regression trees),集结学习方法(ensemble learning methods),差异分析(discriminant analysis),最近邻法(nearest neighbor method),贝叶斯网络(Bayesian networks),独立成分分析(independent components analysis)组成的组。
8.根据权利要求5-7任一所述的方法,其中测定预后信号表达水平的步 骤是通过检测每种基因的mRNA表达水平来进行的。
9.根据权利要求5-7任一所述的方法,其中测定预后信号表达水平的步 骤是通过检测每种基因的cDNA表达水平来进行的。
10.根据权利要求9所述的方法,其中测定预后信号表达水平的步骤 是利用与所述cDNA的至少一部分互补的核苷酸来进行的。
11.根据权利要求8所述的方法,其中测定预后信号表达水平的步骤 是通过使用qPCR方法来进行的,其中所述qPCR方法利用正向引物和反向 引物。
12.根据权利要求8所述的方法,其中测定预后信号表达水平的步骤 使用权利要求3或4所述的装置来进行的。
13.根据权利要求5-7任一所述方法,其中测定预后信号表达水平的 步骤是通过检测每种标记的蛋白表达水平来进行的。
14.根据权利要求5-7任一所述方法,其中测定预后信号表达水平的 步骤是通过检测每种标记的肽表达水平来进行的。
15.根据权利要求12或13所述方法,其中所述的检测步骤利用针对 每种标记的抗体来进行。
16.根据权利要求12-14任一所述方法,其中所述检测步骤利用夹心 免疫测定法(sandwich-type immunoassay method)来进行。
17.根据权利要求12-15任一所述方法,其中所述抗体是单克隆抗体。
18.根据权利要求12-15任一所述方法,其中所述抗体是多克隆抗血 清。

说明书全文

技术领域

发明涉及判断癌症尤其是结肠直肠癌(colorectal cancer)患者的预后的 方法和组合物。具体而言,本发明涉及基因标记在判断癌症如结肠直肠癌的 预后中的应用,所述应用基于预后信号

背景技术

结肠直肠癌(CRC)是发达国家最常见的癌症之一,而且它的影响范围还 在持续扩大。尽管结肠直肠癌从良性息肉到腺瘤到癌的发展进程已被研究透 彻(1),但分子机制对于肿瘤转移的转变和确立的影响仍不是十分清楚。目前 CRC的预后和治疗是依靠诊断时对于疾病的临床病理分期,和一期外科治 疗。不幸的是仅靠疾病分期并不能准确预测单个患者的预后。若能更准确地 预测患者预后,就可调整治疗以避免将会复发的治疗不足(under-treating)患 者,或仅靠手术治疗的过度治疗患者。
已经作了大量的尝试以识别预测CRC临床预后的标记。直到最近致 于单个蛋白或基因成熟的大多数研究才获得关于预后信息的有限成果(2)。微 阵列技术能识别基因集,即与癌症预后相关的所谓的分类器或信号。该方法 被应用到多种癌症中,包括CRC(3-5),但在方法上的缺陷和缺乏独立验证 引起了对该方法的怀疑(6,7)。而且,由于不同研究者采用不同技术平台和 方法得到的识别一致性较差,还出现了对预测预后的分离器/信号能力的怀疑 (8)。
因此需要更多的手段来预测结肠直肠癌的预后。本发明提供了更多的基 于癌症预后标记、尤其是结肠直肠癌预后标记的方法,组合物,试剂盒和装 置,以帮助癌症的预后和治疗。
发明简述
在某些实施方式中,提供了一组经识别在复发和不复发结直肠肿瘤中差 异表达的标记基因。这组基因可用于产生含有两个或多个标记的可预测患者 结直肠肿瘤发展进程的预后信号。
根据肿瘤是否为复发的,单个标记的表达会有差异。通过将标记整合到 预后信号中可提高预测的准确性,其相比单基因方法可提供更有效的个体检 测。还提供技术的应用,如预后信号的统计,机器学习人工智能,和数据 挖掘以产生预测模型。在另一实施方式中,患者肿瘤中特定预后信号的标记 的表达平被应用到判断预后的预测模型中。
在某些实施方式中,标记的表达水平可通过微阵列技术,定量聚合酶链 式反应(qPCR),或免疫方法来确立。
附图说明
参考特定实施方式和附图来描述本发明,其为:
图1为流程图,显示了来自于149例新西兰(NZ)和55例德国(DE) 结肠直肠癌(CRC)样品的预后信号的制备方法。将新西兰RNA样品与含 有经留一法交叉验证(LOOCV)制备的22基因信号的寡核苷酸点阵列进行杂 交,然后利用55例德国样品数据组通过LOOCV进行独立验证。将德国RNA 样品与含有经LOOCV制备的19基因信号的Affymetrix阵列进行杂交,然 后利用新西兰数据组通过LOOCV进行独立验证。
图2为高肿瘤复发险和低肿瘤复发风险的患者无病存活时间的卡普兰 -迈耶分析(Kaplan-Meier):a,对149例新西兰肿瘤患者使用NZ 22基因 信号;b,对55例德国肿瘤患者使用DE 19基因信号;c,由55例德国肿瘤 患者验证NZ预后信号;d,由149例新西兰肿瘤患者验证DE预后信号。由 时序检验法(log-rank)计算P值。
图3为高肿瘤复发风险和低肿瘤复发风险的患者无病存活时间的卡普兰 -迈耶分析(Kaplan-Meier):a,在新西兰II期和III期癌症患者上使用22 基因NZ信号;b,在新西兰II期和III期癌症患者上使用19基因DE信号。
图4显示了结肠直肠癌预后可变长度信号的预测值。这些信号源自于11 重交叉验证(11-fold cross validation)的10次重复运行。用不同的虚线指示11 重交叉验证的每次重复;用粗线指示交叉重复的平均值。在交叉验证的每重 中,若交叉级别的倍数变化<1.1则去除基因(因为在该重中未取出保留样 品)。然后利用修正t-统计法将基因分类,获得每重中不同的基因集,并为 每重建立利用前n基因(n=2-200)的分类器。因此11重交叉验证的每次 重复的每重中的基因都是不同的。图4A:基因数目/信号的灵敏度(正确分 类的复发肿瘤比例)。图4B:基因数目/信号的特异性(正确分类的不复发 肿瘤比例)。图4C:基因数目/信号的分类率(正确分类的肿瘤比例)。统 计员所用术语如下:I表示I期或II期结肠直肠癌(未发展),而IV表示最 后发展成IV期转移癌。
图5显示了除FAS和ME2两个基因外(从数据组中去除)在图4实验 的重复中,降低的结肠直肠癌预后信号预测值。图5A:基因数目/信号的灵 敏度(正确分类的复发肿瘤比例)。图5B:基因数目/信号的特异性(正确 分类的不复发肿瘤比例)。图5C:基因数目/信号的分类率(正确分类的肿 瘤比例)。
图6显示了“前数(top count)”的对表(每个基因出现在“前-n”基 因列的次数,即,实施例17中描述的前10,前20,前100和前325),如 以下的实施例17,其采用了利用R统计计算包的三种不同的标准化方法。 Becker等在其关于S语言的论文中(以R语言为基础;参见参考文献39) 描述过“对(pairs)”表。为比较方法,用对线上定义的行和列以在这两种 方法之间获得弥散点,类似于在按比例制取的地图上读取距离。
图7显示了前数的对表(每个基因出现在“前n”基因列表中的次数, 即,实施例17中描述的前10,前20,前100和前325),其采用了三种不 同的过滤统计法:(a)双样品威斯康星检验法(Wilcoxon)(41),(b)t- 检验法(利用分母中的ad-hoc修正系数修正以消除错误表现为显著的低差异 基因的影响)和(c)由Bioconductor(12,40)的"limma"(10,40,42)包提 供的经验贝叶斯法(empirical Bayes)。
发明内容详述
在详细描述发明实施方式之前的定义,用于解释本文所用某些术语的定 义。
术语“标记”是指与生物现象的出现定性或定量相关的一类分子。“标 记”的实例包括聚核苷酸,如基因或基因片段,RNA或RNA片段;或基因 产物,包括多肽如肽,寡肽,蛋白,或蛋白片段;或任意相关的代谢物,副 产物,或任何其它识别分子,如抗体或抗体片段,无论与现象潜在机制是直 接还是间接相关。本发明的标记包括本文所公开的核苷酸序列(如:GenBank 序列),尤其是全长序列,任意编码序列,任意片段,或它的任意互补序列, 和上述的任意可测量标记。
术语“CCPM”或“结肠直肠癌预后标记”或“CCPM家族成员”是指 与特定预后(如:本文所述的较高或较低的癌症复发可能性)相关的差异表 达的标记,但不包括现有技术中已知的与结肠直肠癌预后相关的分子。应理 解的是术语CCPM不要求标记仅对结直肠肿瘤是特异的。而是,在其它类型 的肿瘤(包括恶性肿瘤)中CCPM的表达可能会改变。
术语“预后信号”“信号”等等是指一组含两种或多种的标记,例如 CCPM,当它们作为组被共同分析时能够判断或预测事件,例如结肠直肠癌 的预后结果。采用含有两种或多种标记的信号可降低个体差异的影响并获得 更稳健的预测。CCPM的非限制性实例在表1,2,5和9中列出,而预后信 号的非限制性实例在表3,4,8A,8B和9中列出。在本发明的上下文中, 涉及任意特定组所列的“至少一种”,“至少两种”“至少五种”等任意特 定组所列(例如任意信号)的标记意味着所列标记的任一或任意或整体组合。
术语“预测方法”被定义为覆盖了来自于统计,机器学习,人工智能和 数据挖掘领域的宽泛方法种类,它们可用于指定的预测模型。这将在发明详 述部分中进一步讨论。
术语“预测模型”是指通过将预测方法应用到一组数据中而获得的特定 数学模式。在本文详述的实施例中,这类数据组是由取自复发和不复发结肠 直肠癌患者的组织样品中的基因活性测定值所组成的,且每个样品的分类 (复发型或不复发型)是已知的。该模式可用于(1)将未知复发状态的样品 归类为复发型或不复发型,或(2)做概率预测(即生成表示概率的比例或者 百分比),它表示未知样品为复发型的可能性,其基于对未知样品中mRNA 的表达水平或表达产物以及特定基因集的测定。这类特定基因如何组合以产 生归类和概率预测的具体细节取决于用于构建所述模型的预测方法的特定 机制。
当“灵敏度”“特异性”(或“选择性”),和“分类率”用于描述预 测模型的有效性时,其意义如下:“灵敏度”表示被预测(依靠模型)为阳 性的真阳性样品的比例,在CRC复发的检测中,即表示为由模型预测的复 发肿瘤占复发肿瘤的比例。“特异性”或“选择性”表示被预测(依靠模型) 为阴性的真阴性样品的比例。在CRC复发的检测中,即等于被模型预测为 不复发肿瘤的不复发样品的比例。“分类率”是指由预测模型正确分类的所 有样品的比例(为阳性或阴性)。
本文所有的“抗体”和类似术语是指免疫球蛋白分子和免疫球蛋白(Ig) 分子的免疫活性部分,即含有可与抗原特异结合(发生免疫反应)的抗原结 合位点的分子。其包括但不限于:多克隆抗体,单克隆抗体,嵌合体,单链, Fc,Fab,Fab′,和Fab2片段,和Fab表达文库。抗体分子涉及任何种类的IgG, IgM,IgA,IgE,和IgD,它们的分子中重链特性相互区别。其还包括亚类, 如IgG1,IgG2和其它。轻链可以是K链或λ链。本文所涉及的抗体包括所 有种类,亚类和类型。还包括嵌合抗体,例如:对多于一种来源(如小鼠或 人序列)有特异性的单克隆抗体或其片段。还包括camelid抗体,鲨鱼抗体 (sharkantibodies)或纳米抗体。
术语“癌”和“癌型的”是指通常以异常的或失控的细胞生长为特征来 描述的哺乳动物生理状况。癌和癌病理是与例如肿瘤转移,干扰正常的邻近 细胞功能,以异常水平释放细胞因子或其它分泌产物,抑制或恶化炎症或免 疫反应,瘤形成,癌前病变(premalignancy),恶性肿瘤,入侵周围或较远组 织或器官如淋巴结等相关联的。具体包括结肠直肠癌,如肠癌(如:大肠), 肛癌和直肠癌。
术语“结肠直肠癌”包括结肠,直肠,和/或肛门的癌,具体是腺癌,还 包括癌(如鳞状泄殖腔原癌(cloacogenic carcinoma)),黑素瘤,淋巴瘤,和 肉瘤。也包括表皮样癌(非角化鳞状细胞或基底细胞)。癌可能与特定类型 的息肉或其它病变,例如管状腺瘤,绒毛管状腺瘤(tubulovillous adenomas) (如:绒毛腺性息肉),绒毛(例如:乳头状)腺癌(带或不带腺癌),增 生性息肉,错构瘤,幼年性息肉,息肉样癌,假息肉,脂肪瘤,或平滑肌瘤 是相关的。癌还可能与家族性息肉和相关病症如加德纳综合症(Gardner’s syndrome)或黑斑息肉综合症(peutz-Jeghers syndrome)相关联。癌可能与慢性 瘘,照射肛门皮肤,粘膜白斑病,性病性淋巴肉芽肿,博文氏病(上皮内癌), 尖锐湿疣,或人乳头瘤病毒相关联。在其它方面,癌可能与基底细胞癌,乳 腺外佩吉特氏病(extramammary Paget’s disease),泄殖腔原的癌,或恶性黑素 瘤相关。
术语“差异表达”“差异的表达”和类似短语是指基因标记在个体(如: 检测样品)中的表达相对于在对照个体(如:参照样品)中的表达被激活至 更高或更低水平,所述个体患有病症特别是癌症,如结肠直肠癌。该术语还 包括在相同病症的不同分期;复发或不复发疾病;或高水平或低水平增殖的 细胞中其表达被激活至更高或更低水平的标记。差异表达的标记可以是在聚 核苷酸水平或多肽水平被激活或被抑制,或可能经过选择性剪接而生成了不 同的多肽产物。这种差异可以体现为例如多肽在mRNA水平,表面表达, 分泌或其它划分(partitioning)上的变化。
差异表达可包括两种或多种标记(例如:基因或其基因产物)表达的对 比;或两种或多种标记(例如:基因或其基因产物)表达率的对比;或同一 标记的两种不同加工产物(例如:转录物或多肽)的对比,它们在正常个体 和患病个体之间,或同一疾病的不同分期之间;或复发和不复发疾病之间; 或高水平增殖细胞和低水平增殖细胞之间;或正常组织和病变组织具体是癌 或结肠直肠癌之间是有差异的。差异表达包括在例如正常和病变细胞之中, 或经历不同疾病机制或病期的细胞之中,或不同增殖水平的细胞之中的基因 或其表达产物的时间或细胞表达模式的定量以及定性差异。
术语“表达”包括聚核苷酸和多肽的产生,尤其是,由基因或基因片段 产生RNA(如mRNA),还包括由RNA或基因或基因片段编码产生多肽, 和与表达相关的可检测物质的出现。例如,复合物的形成,例如源于多肽与 多肽相互作用的,源于多肽与核苷酸相互作用的等也包括在术语“表达”的 范围内。另一实例是结合配体(如杂交探针或抗体)与基因或其它聚核苷酸 或寡核苷酸,多肽或蛋白片段的结合,和配体的可视化。因而,在微阵列上, 在杂交印迹如RMA印迹上或在免疫印迹如蛋白印迹上,或在球微阵列上, 或通过PCR分析的点的光密度也属于术语基本生物分子的“表达”。
可互换使用的术语“表达阈值”和“定义的表达阈值”是指所讨论的标 记水平超出了聚核苷酸或多肽作为患者存活且不复发癌症的预测标记。阈值 取决于由如以下实施例所述的临床实验研究而建立的预测模型。根据所采用 的预测模型,表达阈值可开始获得最高灵敏度,或最强特异性,或最小误差 (最佳分类率)。例如更高阈值可实现最小误差,但它可造成较低的灵敏度。 因此,对于任何给定的预测模型,需通过临床研究来设定通常可获得最高灵 敏度又具备最小误差率的表达阈值。任何情况下表达阈值的确定都是本领域 技术人员熟知的。
本文所用的术语“长期存活”是指经手术或其它治疗后存活至少5年, 优选至少8年,最优选至少10年。
术语“微阵列”是指规则或不规则的捕获剂的排列,优选在基片上的聚 核苷酸(探针)或多肽。参见如Microarray Analysis,M.Schena,John Wiley & Sons,2002;Microarray Biochip Technology,M.Schena,ed.,Eaton Publishing, 2000;Guide to Analysis of DNA Microarray Data,S.Knudsen,John Wiley & Sons,2004;和Protein Microarray Technology,D.Kambhampati,ed.,John Wiley & Sons,2004。
术语“寡核苷酸”是指一种聚核苷酸,通常是一种探针或引物,包括但 不限于:单链脱核糖核苷酸,单链或双链核糖核苷酸,RNA:DNA杂交链, 和双链DNAs。寡核苷酸,如单链DNA探针寡核苷酸,通常经化学方法合 成,例如通过商业可供的自动寡核苷酸合成仪,或通过多种其它方法合成, 包括体外表达体系,重组技术,和在细胞和生物体中的表达。
单数形式或复数形式的术语“聚核苷酸”,通常是指任何聚核糖核酸或 聚脱氧核糖核酸,其可以是未经修饰的RNA或DNA或经修饰的RNA或 DNA。包括但不限于:单链和双链DNA,含有单链和双链区域的DNA,单 链和双链RNA,和含有单链和双链区域的RNA,含有RNA和DNA的杂交 分子其可以是单链或更通常是双链或含有单链和双链区域。还包括含有RNA 或DNA或同时含有RNA和DNA的三链区域分子。具体包括mRNAs, cDNAs,和基因组DNAs,和它们的任意片段。术语包括含有一个或多个修 饰基(如含氚碱基,或稀有碱基)的DNAs和RNAs,如次黄嘌呤核苷。 本发明的聚核苷酸还包括编码或非编码序列,或正义或反义序列。应理解的 是本文中涉及“聚核苷酸”或类似术语即包括全长序列以及它的任意片段, 衍生物,或变异体。
本文所用的“多肽”是指寡肽,肽,或蛋白序列,或其片段,和天然存 在的,重组的,合成的,或半合成的分子。本文所述的“多肽”是指天然存 在的蛋白分子的基酸序列,“多肽”和类似术语并不限定氨基酸序列是完 整的,天然的全长分子的氨基酸序列。应理解的是本文中涉及“多肽”或类 似术语即包括全长序列以及它的任意片段,衍生物,或变异体。
术语“预后”是指对医疗结果的预测,例如差的或好的结果(如长期存 活的可能性);阴性预后,或差的结果,包括复发,疾病发展(如:肿瘤生 长或转移,或药物抗性),或死亡的预测;而阳性预后,或好的结果,包括 疾病缓解(如:无病状态),病情改善(如:肿瘤衰退),或病情稳定的预 测。
术语“增殖”是指引起细胞大小或细胞数量增多的过程,可包括一种或 多种:肿瘤或细胞的生长,血管生成,神经支配,和癌转移。
术语“qPCR”或“QPCR”是指在例如PCR Technique:Quantitative PCR, J.W.Larrick,ed.,Eaton Publishing,1997,和A-Z of Quantitative PCR,S. Bustin,ed.,IUL Press,2004中所述的定量聚合酶链式反应。
术语“肿瘤”是指所有的无论是恶性或良性的肿瘤细胞生长和增殖,和 所有癌前和癌细胞和组织。
本领域普通技术人员可容易地确定的杂交反应的“严格性”,通常是根 据探针长度,洗涤温度,和盐浓度得到的经验结果,通常,较长探针要求更 高的退火温度,而较短探针需要更低的退火温度。杂交通常取决于变性DNA 在互补链处于低于其熔点温度的环境中时的再退火能力。探针和杂交序列之 间理想的同源性越高,所采用的相对温度也越高。结果是更高的相对温度使 反应条件趋于更严格,而较低温度使其更不严格。关于杂交反应的严格性的 更多细节和解释可参见例如Ausubel et al.,Current Protocols in Molecular Biology,Wiley Interscience Publishers,(1995)。
本文所定义的“严格条件”或“高度严格条件”通常是:(1)洗涤中采 用低离子强度和高温,例如0.015M氯化钠/0.0015Ms柠檬酸钠/0.1%十二 烷基硫酸钠于50℃;(2)在杂交过程中使用变性剂,如甲酰胺,例如含0.1% 血清白蛋白的50%(v/v)甲酰胺/0.1%聚蔗糖(Ficoll)/0.1%聚乙烯吡咯烷 /含750mM氯化钠,75mM柠檬酸钠pH6.5的50mM磷酸钠缓冲液于 42℃;或(3)采用50%甲酰胺,5X SSC(0.75M NaCl,0.075M柠檬酸钠), 50mM磷酸钠(pH6.8),0.1%焦磷酸钠,5X丹哈德溶液(Denhardt′s solution), 超声处理的鲑鱼精DNA(50μg/ml),0.1%SDS,和10%硫酸葡聚糖于42℃, 以及于42℃用0.2X SSC(氯化钠/柠檬酸钠)和50%甲酰胺于55℃洗涤,然 后利用含有包括EDTA的0.1X SSC于55℃进行高度严格的洗涤。
“适度严格条件”可认为是如Sambrook et al.,Molecular Cloning:A LaboratoryManual,New York:Cold Spring Harbor Press,1989中所述,包括采 用低于以上所述严格的洗涤液和杂交条件(如:温度,离子强度和%SDS)。 适度严格条件的实例是在含有:20%甲酰胺,5X SSC(150mM NaCl2 15mM 柠檬酸三钠),50mM磷酸钠(pH 7.6),5X丹哈德溶液(Denhardt′s solution), 10%硫酸葡聚糖,和20mg/ml变性剪切鲑鱼精DNA的溶液中37℃温育过 夜,然后用1X SSC约37-50℃洗涤。技术人员熟知根据探针长度等类似因 素如何必要地调整温度,离子强度等。
除非另有说明,在本发明的操作中将采用常规的分子生物(包括重组技 术),微生物,细胞生物和生物化学技术,这些技术都属于现有技术范畴。 此类技术在下列文献中有详细解释,例如Molecular Cloning:A Laboratory Manual,2nd edition,Sambrook et al.,1989;Oligonucleotide Synthesis,MJ Gait, ed.,1984;Animal Cell Culture,RJ.Freshney,ed.,1987;Methods in Enzymology, Academic Press,Inc.;Handbook of Experimental Immunology,4th edition,D.M. Weir & CC.Blackwell,eds.,Blackwell Science Inc.,1987;Gene Transfer Vectors for Mammalian Cells,J.M.Miller & M.P.Calos,eds.,1987;Current Protocols in Molecular Biology,F.M.Ausubel et al.,eds.,1987;和PCR:The Polymerase Chain Reaction,Mullis et al.,eds.,1994。

具体实施方式

已有关于结肠直肠癌中预后标记的不佳效果的报导。本发明公开了一种 微阵列在获得稳固结论,确定结肠直肠癌中特定预后信号的预后作用中的应 用。本文中基于微阵列的研究证实了结肠直肠癌中具体预后信号与预后是相 关联的。因此本发明可用于识别癌症复发风险高的患者或复发可能性高的患 者。
本发明提供了判断疾病预后的标记,例如包括结直肠肿瘤的肿瘤复发可 能性。采用本发明的方法,发现了大量标记与结肠直肠癌预后是相关的,并 可用于预测疾病结果。对不同病期的结直肠肿瘤患者样品的微阵列分析获得 了预料不到的发现,即标记表达的特定模式与癌症预后是相关的。因此本发 明提供了一组基因(如表1和表2所列),其在复发和不复发结肠直肠癌中 是差异表达的。表1和表2所列基因提供了一组结肠直肠癌预后标记 (CCPMs)。
某些结肠直肠癌预后标记(CCPMs)的减少,如与免疫反应相关的标记, 指示特定的预后。其包括经标准治疗后癌症复发可能性的增加,尤其是结肠 直肠癌。相反地,其它CCPMs的增加指示另一特定的预后。包括疾病发展 或癌症复发可能的增加,尤其是结肠直肠癌。表达的减少或增加可通过例如 将检测样品(如患者肿瘤样品)与参照样品(如已知预后的相关样品)进行 对比来确定。尤其可采用一种或多种来自不复发癌症患者的样品作为参照样 品。
例如,为获知预后,可将患者样品(如肿瘤样品)中的表达水平与已知 结果的患者样品进行比较。若患者样品与好结果(不复发)样品相比表现出 一种或多种CCPMs表达水平的或高或低,就意味着是阳性预后,或不可能 复发。若患者样品中一种或多种CCPMs表达与差结果(复发)样品相当, 就意味着是阳性预后,或肿瘤的复发是可能的。
另一实例中,将来自于患者样品(如肿瘤样品)的含有两种或多种CCPMs 的预后信号的表达水平与复发/不复发癌样品进行比较。若患者样品表现出 CCPMs的表达与不复发癌症样品相比或高或低和/或与复发癌症样品相当, 即意味着是阴性预后。若患者样品表现出CCPMs表达与不复发癌症样品相 当,和/或与复发癌症样品表达相比或高或低,则意味着是阳性预后。
作为一种途径,可将预测方法应用到标记组,例如表1和表2所列的 CCPMs组,以产生一种预测模型。其包括产生一种含两种或多种CCPMs的 预后信号。
因此表1和表2公开的CCPMs提供了一组用于产生可判断癌症预后, 以及建立具体是针对肿瘤的治疗方案或治疗模式的预测信号的标记。具体 地,阳性预后可用于患者决定选择标准或介入性较低的治疗。阴性预后可用 于患者决定终止治疗或进行高侵袭性(highly aggressive)或实验性治疗。此外, 患者可根据对预后标记(如CCPMs)表达的影响来选择治疗。
可通过任何适当技术来检测肿瘤组织,接近肿瘤的组织,淋巴结样品, 血样,血清样品,尿样,或排泄物样品中的CCPMs水平,所述技术可包括 但不限于寡核苷酸探针,定量PCR,或高度针对标记的抗体。需重视的是通 过分析预测信号中的多个CCPMs的表达量和存在并构建预后信号(如表3, 4,8A,8B,和9所列出),将提高预后的灵敏度和准确性。因此,本发明 中的各种标记可用于判断癌症的预后。
本发明包括存档的石蜡包埋的活检组织在分析成组标记中的应用,因此 本发明适合于大多数广泛可用活检组织类型。还适合于几种不同肿瘤组织切 取方法,例如,经穿刺活检或细针抽吸。在某些方面,将RNA从固定化的 蜡包埋患者癌组织标本中分离出。分离可通过任何已知的现有技术来实施, 例如穿刺活检组织或细针抽吸细胞。
在一个方面,发明涉及了一种预测预后的方法,如癌症患者不复发癌症 长期存活的可能性,包括测定取自患者的样品中一种或多种预后标记或其表 达产物的表达水平,针对样品中其它RNA转录物或其产物的表达水平或 RNA转录物或其表达产物的参考集的表达水平标准化。在特定方面,预后 标记是表1,2或5中所列的一种或多种标记,或被包括作为源自表1,2和 5中所列标记的一种或多种预后信号,或被包括作为表3,4,8A,8B或9 所列的预后信号。
在另一方面,测定了预后标记或其表达产物的表达水平,如:表1,2 或5所列的标记,源自于表1,2或5所列标记的预后信号,如:表3,4, 8A,8B或9所列的预后信号。在另一方面,所述方法包括测定全组预后标 记或其表达产物(如:表1,2或5所列的标记)或源自于表1,2或5所列 标记的预后信号(如:表3,4,8A,8B或9所列的预后信号)的表达水平。
在其它方面,本发明涉及一种含有与两种或多种标记(如:表1,2和5 所列的标记)或源自于表1,2或5所列标记的预后信号(如:表3,4,8A, 8B和9所列的预后信号)杂交的聚核苷酸的阵列(如微阵列)。在一特定 方面,所述阵列含有与源自于表1,2和5所列标记的预后信号或与如表3, 4,8A,8B或9所列的预后信号杂交的聚核苷酸。在另一特定方面,所述阵 列含有与全组标记(如:表1,2或5所列的标记)或与如表3,4,8A,8B 或9所列的预后信号杂交的聚核苷酸。
这些阵列中,所述聚核苷酸可以是cDNAs,或寡核苷酸,并且显示它们 的固体表面可以是例如玻璃。聚核苷酸可与本文所公开的一种或多种标记如 全长序列,任意编码序列,或它们的任意互补序列杂交。在特定方面,一种 或多种CCPM表达水平的增加或减少表示长期存活可能性的减少,如:由于 癌症复发,而一种或多种CCPM表达水平没有增加或减少则表示不复发癌症 的长期存活可能性增加。
表1:结肠直肠癌预测标记(对应显示出统计学显著差异表达的 Affymetrix基因芯片探针,P<0.05,由BRB阵列分析仪确定的)
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  ME2         210154_at,                  210153_s_at, 209397_at     NM_002396                     苹果酶(malic enzyme)2,依赖 NAD(+),线粒体内                                    Hs.233119                     M55905,          BC000147 0.74           STAT1                                                                                                 AFFX-HUMI                       SGF3A/          M97935_MA       at,            AFFX-HUMI       SGF3A/          M97935_MB       _at,           AFFX-HUMI       SGF3A/          M97935_3_at     ,200887_s_at, AFFX-HUMI       SGF3A/          M97935_5_at     ,                209969_s_at     NM_007315,             NM_139266                                                                                                                                                                           信号转导子和转录活化子1, 91kDa                                                                                                                                                                                                                                                                                                                                                                                                                           Hs.470943                                                                                                                                                                 NM_007315,             BC002704                                                                                                                                                                            0.58                                                                                 CXCL 10 204533_at NM_001565 趋化因子(C-X-CJ基序)配体 10                       Hs.413924 NM_001565 0.29 FAS                         215719_x_at, 216252_x_at, 204780_s_at, 204781_s_at                                             NM_000043, NM_152871, NM_152872, NM_152873, NM_152874, NM_152875, NM_152876, NM_152877   FAS(TNF受体超家族成员6)                                                                                                                                                 Hs.244139                                                             X83493,   Z70519,   AA164751, NM_000043                                   0.68                              

  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  CDC40 203377_s_at NM_015891 细胞分裂周期蛋白40同源物 (酵母)                   Hs.428147 NM_015891 0.8 WHSC1                                           209053_s_at, 209054_s_at, 209052_s_at                                                                         NM_007331, NM_014919, NM_133330, NM_133331, NM_133332, NM_133333, NM_133334, NM_133335, NM_133336   午希二氏综合症候选基因1                                                                                                                                                                         Hs.113876                                                                       BE793789, AF083389, BF111870                                                          0.75                                    C1QBP 208910_s_at, 214214_s_at   NM_001212 补体成分1,q亚成分结合蛋白 Hs.555866 L04636, AU151801 0.71 RBM25 212031_at NM_021239 RNA结合基序蛋白25 Hs.531106 AV757384 0.83 SLC25A11          209003_at,             207088_s_at NM_003562           溶质运载蛋白家族25(线粒体 载体,酮戊二酸载体)成员11 Hs.184877           AF070548,            NM_003562  0.83      TK1 202338_at NM_003258 胸腺嘧啶核苷激酶1,可溶 Hs.515122 NM_003258 0.73 ETNK1 222262_s_at, 219017_at     NM_018638 乙醇胺激酶1 Hs.240056 AL137750, NM_018638  0.66 KLHL24 221985_at NM_017644 Kelch样蛋白24(果蝇) Hs.407709 AW006750 1.4 AK2     212175_s_at, 205996_s_at, 212174_at     NM_001625, NM_013411   腺苷酸激酶2             Hs.470907           AL513611,  NM_013411, W02312      0.8     HNRPD                         221481_x_at, 209330_s_at,               200073_s_at                 NM_0010038   10,NM_00213              8,          NM_031369,  NM_031370    异质性胞核核糖核蛋白D(富含 AU元件RNA结合蛋白1,       37kDa)蛋白                                                                       Hs.480073                                         D55672, D55674,          M94630            0.8                 GTPBP3 213835_x_at NM_032620, NM_133644   GTP结合蛋白3(线粒体内) Hs.334885 AL524262 0.87 PSAT1 220892_s_at NM_021154, 磷酸丝氨酸转氨酶1 Hs.494261 NM_021154 0.54
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  NM_058179 AP1G1             203350_at                     NM_0010300                07,NM_00112 8            衔接因子相关蛋白复合物1,σ 1亚基                                                   Hs.461253                     NM_001128                     0.89           SMCHD1 212577_at 染色体结构维持蛋白包含柔性 铰链域1                    Hs.8118 AA868754 0.74 SLC4A4                      210738_s_at, 203908_at,                 211494_s_at, 210739_x_at   NM_003759                               溶质运载蛋白家族4,重酸钠 协同转运子,成员4                                                                   Hs.5462                         AF011390,              NM_003759, AF157492,  AF069510    0.7             RBMS3             206767_at                     NM_0010037   92,NM_00100 3793,NM_014 483          RNA结合基序,单链相互作用 蛋白                                                Hs.221436                     NM_014483                     1.2         LARP4       214155_s_at             NM_052879, NM_199188, NM_199190   La核糖蛋白域家族成员4                       Hs.26613          AI743740          0.66      FANCA       203805_s_at             NM_000135, NM_0010181  12          范可尼贫血互补组A                   Hs.284153           AW083279          0.78      SOS1 212780_at NM_005633 非七激酶子同源物1(果蝇) Hs.278733 AA700167 0.84 IFT20 210312_s_at NM_174887 内鞭毛运输20同源物(衣滴虫) Hs.4187 BC002640 1.2 NUP210        212316_at, 220035_at, 213947_s_at NM_024923           核孔蛋白210Dka                Hs.475525           AA502912,  NM_024923, AI867102    0.78      IRF8 204057_at NM_002163 干扰素调控因子8 Hs.137427 AI073984 0.75 SGPP1 221268_s_at NM_030791 鞘氨醇-1-磷酸磷酸酶1 Hs.24678 NM_030791 0.76 MAD2L1        203362_s_at             NM_002358           MAD2有丝分裂终止缺失样蛋 白1(酵母)                Hs.509523,             Hs.533185   NM_002358           0.7     PAICS             201013_s_at,               20101_s_at    NM_006452                     磷酸核糖氨基咪唑羧化酶,磷酸 核糖氨基咪唑腺苷酸羧基酰胺                                合成酶                       Hs.518774                     AA902652,            NM_006452  0.71           RPS2      217466_x_at             NM_002952           核糖体蛋白S2              Hs.356366, Hs.381079, Hs.498569, L48784        0.83     
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  Hs.506997, Hs.556270   TMED5 202195_s_at NM_016040 跨膜emp24蛋白包含传送结构 域5                       Hs.482873 NM_016040 0.86 GTSE1 204317_at, 204318_s_at NM_016426 G2和S期表达1 Hs.386189, Hs.475140   BF305380, NM_016426  0.8 DCK 203302_at NM_000788 脱氧胞苷激酶 Hs.709 NM_000788 0.77 DKFZp762E13 12          218726_at NM_018410 假定蛋白DKFzp762E1312 Hs.532968 NM_018410 0.81 BAZ1A 217986_s_at NM_013448, NM_182648   溴结构域邻近锌指域,1A Hs.509140 NM_013448 0.8 HIP2 202346_at NM_005339 亨廷顿相互作用蛋白2 Hs.50308 NM_005339 0.78 HNRPA3P1 206809_s_at 异质性胞核核糖核蛋白A3假基 因1                        Hs.524276 NM_005758 0.83 CDC42BPA          214464_at           NM_003607,             NM_014826   CDC42结合蛋白激酶α(DMPK 样)                      Hs.35433          NM_003607           1.4     P15RS 218209_s_at NM_018170 假定蛋白FLJ10656 Hs.464912 NM_018170 0.79 FLJ10534TSR             1           218156_s_at             NM_018128           TSR1,20SrRNA聚集体同源物 (酿酒酵母)                Hs.388170           NM_018128           0.75      RRM1 201476_s_at NM_001033 核糖核苷酸还原酶M1多肽 Hs.383396 AI692974 0.76 USP4 202682_s_at NM_003363, NM_199443   泛素特异性肽酶4(原癌基因) Hs.77500 NM_003363 1.2 ZNF304 207753_at NM_020657 锌指蛋白304 Hs.287374 NM_020657 1.3 CA2 209301_at NM_000067 碳酸酐酶II Hs.155097 M36532 0.25 LOC92249 212957_s_at 假定蛋白LOC92249 Hs.31532 AU154785 1.1 MARCH5 218582_at NM_017824 膜相关环指(C3HC4)5 Hs.549165 NM_017824 0.81 TRMT5 221952_x_at NM_020810 TRMT5 tRNA甲基转移酶5同 源物(酿酒酵母)         Hs.380159 AB037814 0.81 PRDX3 201619_at NM_006793, NM_014098   硫氧还原蛋白过氧化物酶 (peroxiredoxin)3       Hs.523302 NM_006793 0.73 RAP1GDS1 217457_s_at NM_021159 RAP1,GTP-GDP解离刺激因子 1                         Hs.132858 X63465 0.82
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  NUMB                209073_s_at                                     NM_0010057   43,NM_00100 5744,NM_001 005745,NM_0 03744        Numb同源物(果蝇)                                                    Hs.509909                               AF015040                            0.82                KIF2 203087_s_at NM_004520 驱动蛋白重链成员2 Hs.533222 NM_004520 0.72 ACADSB 205355_at NM_001609 酰基辅酶A脱氢酶,短链/支链 Hs.81934 NM_001609 0.87 IBRDC3 213038_at NM_153341 含有IBR结构域2 Hs.546478 AL031602 0.88 TES     202719_s_at             NM_015641,             NM_152829   睾丸衍生的转录物(3LIM结构 域)                       Hs.533391           BC001451          1.3     YDD19 37079_at YDD19蛋白 Hs.525826 U82319 0.92 GZMB 210164_at NM_004131 粒酶B(粒酶2,细胞毒T淋巴 细胞相关丝氨酸酯酶1)     Hs.1051 J03189 0.66 LAP3 217933_s_at NM_015907 亮氨酸氨基肽酶 Hs.479264 NM_015907 0.67 C17orf25 209092_s_at NM_016080 染色体17开放读码框25 Hs.279061 AF061730 0.72 ZNF345 207236_at NM_003419 锌指蛋白345 Hs.362324 NM_003419 1.1 KITLG 207029_at, 211124_s_at NM_000899, NM_003994   KIT配体 Hs.1048 NM_000899, AF119835    0.75 CAMSAP1L1 212765_at NM_203459 调素调控膜收缩相关蛋白1 样蛋白1                   Hs.23585 AB029001 1.3 YTHDC2 205835_s_at, 205836_s_at   NM_022828 含有YTH结构域2 Hs.231942 AW975818, NM_022828  0.84 RABIF 204477_at NM_002871 RAB相互作用因子 Hs.90875 U74324 1.2 SERBP1                      217725_x_at                                     NM_0010180   67,NM_00101 8068,NM_001 018069,NM_0 15640        SERBP1mRNA结合蛋白1                                                             Hs.369448, Hs.519284, Hs.530412               NM_015640                               0.81                KPNB1 208975_s_at NM_002265 亲核蛋白(输入蛋白)β1 Hs.532793 L38951 0.74 BRIP1 221703_at NM_032043 BRCA1相互作用蛋白C末端解 旋酶1                    Hs.532799 AF360549 0.86 IRF1 202531_at NM_002198 干扰素调控因子1 Hs.436061 NM_002198 0.62 TIPIN 219258_at NM_017858 TIMELESS相互作用蛋白 Hs.426696 NM_017858 0.73 SPFH1 202444_s_at NM_006459 SPFH结构域家族成员1 Hs.150087 NM_006459 0.76
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  SFPQ 201586_s_at NM_005066 剪接因子富含脯氨酸/甘氨酸 (多嘧啶区结合蛋白相关的)  Hs.355934 NM_005066 0.83 MGAT2       211061_s_at             NM_0010158   83,NM_00240 8            甘露糖(α-1,6)-糖蛋白β-1, 2-N-乙酰葡糖胺基转移酶       Hs.93338          BC006390          0.79      MCCC2 209624_s_at NM_022132 甲基巴豆酰辅酶A羧化酶2(β) Hs.167531 AB050049 0.6 DDAH2       215537_x_at,               214909_s_at   NM_013974           二甲基精氨酸二甲基氨基水解 酶2                        Hs.247362           AJ012008,A             K026191     1.2     NP 201695_s_at NM_000270 核苷磷酸化酶 Hs.75514 NM_000270 0.79 CHEK1       205393_s_at,               205394_at     NM_001274           CHK1校验点同源物(栗酒裂殖 酵母)                     Hs.24529          NM_001274           0.7     MYO1B 212365_at NM_012223 肌球蛋白IB Hs.439620 BF215996 0.85 ATP5A1                      213738_s_at                                     NM_0010019   35,NM_00100              1937,NM_004 046          ATP合成酶,H+转运,线粒体   F1复合物,α亚基,异构体1, 心肌                                                    Hs.298280, Hs.551998                           AI587323                            0.82                IL2RB 205291_at NM_000878 白细胞介素2受体,β Hs.474787 NM_000878 0.73 RPL39 217665_at NM_001000 核糖体蛋白L39(RPL39) Hs.558387 AA420614 1.3 CD59                212463_at                               NM_000611, NM_203329,             NM_203330, NM_203331   CD59抗原p18-20(单克隆抗体    识别抗原16.3A5,EJ16,EJ30, EL32和G344)                                               Hs.278573                               BE379006                            1.5             AMD1      201196_s_at             NM_0010330   59,NM_00163 4            腺苷甲硫氨酸脱羧酶1                     Hs.159118           M21154        0.74      GGA2 210658_s_at NM_015044, NM_138640   高尔基体相关,含γ衔接蛋白 ,ARF结合蛋白2           Hs.460336 BC000284 0.82 MCM6      201930_at           NM_005915           MCM6小染色体结构维持缺失 蛋白6(MIS5同源物,栗酒裂 殖酵母)(酿酒酵母)        Hs.444118           NM_005915           0.75      SCC-112 213983_s_at, 212138_at     NM_015200 SCC-112蛋白 Hs.331431 AW991219, AK021757   0.8 BCL7C 219072_at NM_004765 B细胞CLL/淋巴瘤7C Hs.303197 NM_004765 1.2 HMGN2 208668_x_at NM_005517 高迁移率组核小体结合结构域 2                          Hs.181163 BC003689 0.9

  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  GEMIN4 217099_s_at NM_015721 Gem(核细胞器)相关蛋白4 Hs.499620 AF258545 0.76 CTSS 202902_s_at NM_004079 组织蛋白酶S Hs.181301 NM_004079 0.74 MCM2 202107_s_at NM_004526 MCM2小染色体结构维持缺失  蛋白2,丝裂蛋白(酿酒酵母) Hs.477481 NM_004526 0.71 GPHN      220773_s_at             NM_0010242   18,NM_02080 6            桥尾素        Hs.208765           NM_020806           0.67      NUP50       218295_s_at             NM_007172, NM_153645, NM_153684   核孔蛋白50kDa               Hs.475103           NM_007172           0.78      RANBP2L1 210676_x_at NM_005054, NM_032260   RAN结合蛋白2样蛋白1 Hs.469630 U64675 0.83 NR5A2 208337_s_at NM_003822, NM_205860   核受体亚族5,族A,成员2 Hs.33446 NM_003822 0.77 PGD 201118_at NM_002631 磷酸葡萄糖脱氢酶 Hs.464071 NM_002631 0.75 FUT4      209892_at,20 9893_s_at     NM_002033           藻糖基转移酶4(α(1,3)骨 髓特异性藻糖基转移酶)    Hs.390420           AF305083,M             58596       0.78      RAB6A 201048_x_at NM_002869, NM_198896   RAB6A,成员RAS癌基因家族 Hs.503222, Hs.535586   NM_002869 0.81 CCNT2 204645_at NM_001241, NM_058241   细胞周期蛋白T2 Hs.292754 NM_001241 0.87 TFRC 207332_s_at NM_003234 转蛋白受体(p90,CD71) Hs.529618 NM_003234 0.63 BIRC5             202095_s_at                         NM_0010122   70,NM_00101 2271,NM_001 168          杆状病毒含IAP重复域5(存活 素)                                                 Hs.514527                     NM_001168                     0.7         PGGT1B        206288_at           NM_005023           蛋白狵牛儿基狵牛儿基转移酶     (geranylgeranyltransferase)类I, β亚基                         Hs.254006           NM_005023           0.8     USP14 201672_s_at NM_005151 泛素特异性肽酶14(tRNA嘌 呤转糖基酶)               Hs.464416 NM_005151 0.81 PURA 204020_at NM_005859 富含嘌呤元件结合蛋白A Hs.443121 BF739943 1.2 LMAN1       203293_s_at, 203294_s_at   NM_005570           外源凝集素,甘露糖结合蛋白, 1                            Hs.465295           NM_005570,             U09716      0.82     
  基因标识 Affymetrix探 针编号 Refseq登录号 基因说明 Unigene登 录号 其它 Genebank登 录号 表达倍数 差异(复发 /不复发) WDR45L 209076_s_at NM_019613 WDR45样蛋白 Hs.201390 BC000974 0.82 SGCD 213543_at NM_000337, NM_172244 肌聚糖,δ(35kDa抗肌萎缩蛋 白相关糖蛋白) Hs.387207 AA570453 1.2 LRP8 205282_at NM_0010180 54,NM_00463 1, NM_017522, NM_033300 低密度脂蛋白受体相关蛋白8, 载脂蛋白e受体 Hs.444637 NM_004631 0.78 ITGA4 205885_s_at NM_000885 整合蛋白,α4(抗原CD49D, VLA4受体α4亚基) Hs.555880 L12002 0.74 BUB3 201458_s_at NM_0010077 93,NM_00472 5 BUB3苯并咪唑3出芽抑制解除 同源物(酵母) Hs.418533 NM_004725 0.79 KIF18A 221258_s_at NM_031217 驱动蛋白家族成员18A Hs.301052 NM_031217 0.83 FKBP9 212169_at NM_007270 FK506结合蛋白9,63kDa Hs.103934 AL050187 1.2 ATF6 217550_at NM_007348 活化转录因子6 Hs.492740 AA576497 1.4 TNFRSF11A 207037_at NM_003839 肿瘤坏死因子受体超家族成 11a,NFKB活化子 Hs.204044 NM_003839 0.68 KIAA0841 213054_at KIAA0841 Hs.7426 AA845355 0.9 TGFB2 209909_s_at NM_003238 转移成长因子,β2 Hs.133379 M19154 1.1 ITGB5 201125_s_at, 201124_at, 214021_x_at NM_002213 整合蛋白,β5 Hs.13155 NM_002213, AL048423,A I335208 1.2 RABGEF1 218310_at NM_014504 RAB鸟嘌呤核酸交换因子 (GEF)1 Hs.530053 NM_014504 1.2 PBX1 205253_at,21 2148_at NM_002585 前B细胞白血病转录因子 Hs.493096 NM_002585, AL049381 1.2 ZNF148 203318_s_at NM_021964 锌指蛋白148(pHZ-52) Hs.380334 NM_021964 1.2 ZWINT 204026_s_at NM_0010054 13,NM_00100 5414,NM_007 057, NM_032997 ZW10作用因子 Hs.42650 NM_007057 0.66 ZDHHC3 213675_at NM_016598 锌指,包含DHHC类3 Hs.61430 W61005 1.3
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  CDCA8 221520_s_at NM_018101 细胞解离周期相关蛋白8 Hs.524571 BC001651 0.76 CUTL1             214743_at                   NM_001913,             NM_181500, NM_181552   截断样1,CCAAT替代蛋白(果 蝇)                                                 Hs.438974                     BE046521                   1.3         C18orf9 219311_at NM_024899 染色体18开放读码框9 Hs.236940 NM_024899 0.73 TXNDC 209476_at NM_030755 含硫氧还蛋白结构域 Hs.125221 AL080080 0.75 POLE2 205909_at NM_002692 聚合酶(针对DNA),ε2(59p 亚基)                    Hs.162777 NM_002692 0.73 SPCS3 218817_at NM_021928 信号多肽复合物亚基3同源物 (酿酒酵母)                Hs.42194 NM_021928 0.7 CAND1 208839_s_at NM_018448 清选蛋白相关和      NEDDYLATION解离蛋白1 Hs.546407 AL136810 0.84 U2AF2       218381_s_at             NM_0010124   78,NM_00727 9            U2(RNU2)小核RNA辅助因子2                          Hs.528007           NM_007279           0.83      WDHD1       204728_s_at             NM_0010083   96,NM_00708 6            wD重复和HMG盒DNA结合 蛋白1                Hs.385998           NM_007086           0.73      HEM1 209734_at NM_005337 造血蛋白1 Hs.182014 BC001604 0.9 RABEP1 214552_s_at NM_004703 Rab接触蛋白,RABGTP酶结合 影响因子蛋白1             Hs.551518 AF098638 0.84 SYDE1 44702_at NM_033025 突触检测1,RhoGTP酶同源物 1(线虫)                   Hs.528701 R77097 1.1 WFDC1 219478_at NM_021197 wAP四双硫核结构域1 Hs.36688 NM_021197 1.2 TBX2 40560_at NM_005994 T盒2 Hs.531085 U28049 1.1 GART           210005_at                     NM_000819,             NM_175085   磷酸核糖甘氨酰胺甲酰转移酶, 磷酸核糖甘氨酰胺合成酶,磷酸                              核糖氨基咪唑合成酶,         Hs.473648                     D32051               0.84           H2AFZ 213911_s_at, 200853_at     NM_002106 H2A组蛋白家族成员Z Hs.119192 BF718636, NM_002106  0.8 CD7 214551_s_at NM_006137 CD7抗原(P41) Hs.36972 NM_006137 0.8 ELOVL6       210868_s_at             NM_024090           ELOVL家族成员6,长链脂肪 酸的延伸(FEN1/Elo2,     SUR4/Elo3样,酵母)       Hs.412939           BC001305          0.81      CACNB3 34726_at NM_000725 钙通道,电压依赖性,β3亚基 Hs.250712 U07139 1.2 TAP1 202307_s_at NM_000593 ATP结合盒转运子1,亚家族B (ADR/TAP)                 Hs.352018 NM_000593 0.68
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  NUP98             210793_s_at                         NM_005387, NM_016320, NM_139131, NM_139132   核孔蛋白98kDa                             Hs.524750                     U41815               0.75           CHAF1A        214426_x_at, 203976_s_at   NM_005483           染色质装配因子1,亚基A (p150)                 Hs.79018          BF062223,            NM_005483  0.83      EPAS1 200878_at NM_001430 内皮PAS结构域蛋白1 Hs.468410 AF052094 1.3 RNGTT 204207_s_at NM_003800 RNA狵牛儿基转移酶5’磷酸酶 Hs.127219 AB012142 0.8 KLF7 204334_at NM_003709 Kuppel样因子7(遍在的) Hs.471221 AA488672 1.1 C4orf16 219023_at NM_018569 染色体4开放读码框16 Hs.435991 NM_018569 0.77 YBX2 219704_at NM_015982 Y盒结合蛋白2 Hs.380691 NM_015982 0.75 IVD 216958_s_at NM_002225 异戊酰辅酶A脱氢酶 Hs.513646 AK022777 0.81 PEG3 209242_at NM_006210 亲本表达3 Hs.201776 AL042588 1.2 FBXL14 213145_at NM_152441 F盒和富含亮氨酸重复蛋白14 Hs.367956 BF001666 0.83 TMEPAI               217875_s_at                         NM_020182, NM_199169, NM_199170, NM_199171   跨膜,前列腺雄激素诱导RNA                                                     Hs.517155                     NM_020182                     1.4         RNF138 218738_s_at NM_016271, NM_198128   锌指蛋白138 Hs.302408, Hs.501040   NM_016271 0.82 DNM1L       203105_s_at             NM_005690, NM_012062, NM_012063   动力蛋白1样蛋白                 Hs.550499           NM_012062           0.87      LHCGR 215306_at NM_000233 促黄体生成素/绒毛膜促性腺激 素受体                      Hs.468490 AL049443 1.3 SOCS6      214462_at,             206020_at   NM_004232           细胞因子信号转导抑制因子6 (SOCS6)                    Hs.591068           NM_004232,             NM_016387   0.85      CEP350 213956_at NM_014810 中心体蛋白350kDa Hs.413045 AW299294 1.3 PTGER3               210374_x_at, 210831_s_at                 NM_000957, NM_198712, NM_198713, NM_198714, 前列腺E受体3(亚类EP3)                                             Hs.445000                     D38300, L27489            1.1        
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  NM_198715, NM_198716, NM_198717, NM_198718, NM_198719, NM_198720   M11S1 200723_s_at NM_005898, NM_203364   膜组件,染色体11,表面标记1 Hs.471818 NM_005898 0.9 RFC5      203210_s_at             NM_007370,             NM_181578   复制因子C(活化因子1)5, 36.5kDa                 Hs.506989           NM_007370           0.79      [NDO 210029_at NM_002164 吲哚胺-吡咯2,3双加氧酶 Hs.840 M34455 0.74 KIAA0286 212619_at NM_015257 NA Hs.533787 AW205215 0.77 MOBK1B 201298_s_at NM_018221 MOB1,Mps单结合激酶活化因 子样蛋白1B(酵母)         Hs.196437 BC003398 0.84 FLJ20273 218035_s_at NM_019027 RNA结合蛋白 Hs.518727 NM_019027 0.73 HADHSC 211569_s_at NM_005327 L-3-羧酰辅酶A脱氢酶,短链 Hs.438289 AF001903 0.62 SSPN 204964_s_at NM_005086 肌长(Kras癌基因相关基因) Hs.183428 NM_005086 1.6 AP2B1       200615_s_at             NM_0010300   06,NM_00128 2            衔接因子相关蛋白复合物2,β 1亚基                       Hs.514819           AL567295          0.77      EIF4A1        201530_x_at,               214805_at     NM_001416           真核细胞翻译起始因子4A,异 构体1                      Hs.129673           NM_001416, U79273      0.79      DEPDC1 220295_x_at NM_017779 含有DEP结构域1 Hs.445098 NM_017779 0.66 AGPAT5 218096_at NM_018361 1-甘油酯-3-磷酸-O-酰基转移酶 5(溶血磷脂酸转移酶,ε)     Hs.490899 NM_018361 0.68 HNRPDL        201993_x_at             NM_005463,             NM_031372   异质性胞核核糖核蛋白D样蛋 白                        Hs.527105           NM_005463           0.86      GBP1      202270_at           NM_002053           干扰素诱导的鸟苷酸结合蛋白 1,67kDa                   Hs.62661,            Hs.443527  NM_002053           0.61      AMIGO2 222108_at NM_181847 带1g样结构域的粘附分子2 Hs.121520 AC004010 1.6 XPO7 208459_s_at NM_015024 输出蛋白7 Hs.172685 NM_015024 0.78 PAWR 204005_s_at NM_002583 PRKC,凋亡,WT1,调控因子 Hs.406074 NM_002583 0.71 NARS 200027_at NM_004539 天冬酰胺-tRNA合成酶 Hs.465224 NM_004539 0.84
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  CENPA 204962_s_at NM_001809 着丝粒蛋白A,17kDa Hs.1594 NM_001809 0.69 KIF15 219306_at NM_020242 驱动蛋白家族成员15 Hs.307529 NM_020242 0.78 ZNF518 204291_at NM_014803 锌指结构蛋白518 Hs.147895 NM_014803 0.88 LPP 202821_s_at NM_005578 含LIM结构域优选脂瘤中的易 位伴侣基因                Hs.444362 AL044018 1.3 BRRN1 212949_at NM_015341 不孕同源物(果蝇) Hs.308045 D38553 0.76 C5orf4 48031_r_at NM_016348, NM_032385   染色体5开放读码框4 Hs.519694 H93077 1.2 UBAP1 46270_at NM_016525 泛素相关蛋白1 Hs.268963 AL039447 1.1 SH3GLB1 209090_s_at NM_016009 SH3结构域GRB2样内吞蛋白 B1                      Hs.136309 AL049597 1.2 CDKN1C 213182_x_at NM_000076 依赖周期蛋白激酶抑制因子1C (p57,Kip2)                Hs.106070 R78668 1.4 MCM10       220651_s_at             NM_018518,             NM_182751   MCM10小染色体结构维持缺失 蛋白10(酿酒酵母)          Hs.198363           NM_018518           0.74      KIAA0265 209254_at NM_014997 KIAA0265蛋白 Hs.520710 AI808625 1.2 BUB1 209642_at NM_004336 BUB1苯并咪唑1出芽抑制解除 同源物(酵母)              Hs.469649 AF043294 0.68 LGALS3BP 200923_at NM_005567 外源凝集素,半乳糖苷结合,溶 质,3结合蛋白                Hs.514535 NM_005567 0.8 NCAPD2 201774_s_at NM_014865 非SMC浓缩速I复合物,亚基 D2                       Hs.5719 AK022511 0.73 CD86      205686_s_at             NM_006889, NM_175862   CD86抗原(CD28抗原配体2,                          B7-2抗原)                Hs.171182           NM_006889           0.88      C16orf30 219315_s_at NM_024600 染色体16开放读码框30 Hs.459652 NM_024600 1.2 RBBP8       203344_s_at             NM_002894, NM_203291, NM_203292   成视网膜细胞瘤结合蛋白8                         Hs.546282           NM_002894           0.79      FEM1C 213341_at NM_020177 Fem-1同源物C(线虫) Hs.47367 AI862658 0.82 NUP160 214962_s_at NM_015231 核孔蛋白160kDa Hs.372099 AK026236 0.84 VAMP4 213480_at NM_003762, NM_201994   小泡相关膜蛋白4 Hs.6651 AF052100 1.1 C9orf76 218979_at NM_024945 染色体9开放读码框76 Hs.284137 NM_024945 0.8 DHX15 201386_s_at NM_001358 DEAH(Asp-Glu-Ala-His)盒多肽 15                        Hs.5683 AF279891 0.83
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  RIG 221127_s_at 脑胶质瘤调控 Hs.292156 NM_006394 1.2 HBP1 209102_s_at NM_012257 HMG盒转录因子1 Hs.162032 AF019214 1.2 ABCE1       201873_s_at,               201872_s_at   NM_002940           ATP结合盒,亚族E(OABP), 成员1                   Hs.12013          NM_002940,             AI002002    0.79      PPA2           220741_s_at                         NM_006903, NM_176866, NM_176867, NM_176869   焦磷酸化酶(无机)2                                     Hs.480452                     NM_006903                     0.81           CPD 201942_s_at NM_001304 羧肽酶D Hs.446079 D85390 0.68 KIAA0828 215672_s_at NM_015328 腺苷半胱氨酸水解酶3 Hs.195058 AK025372 0.73 K-ALPHA-1 211058_x_at NM_006082 α微管蛋白 Hs.524390 BC006379 0.85 RNMT 202684_s_at NM_003799 RNA(鸟嘌呤-7)甲基转移酶 Hs.8086 AB020966 0.9 MIS12 221559_s_at NM_024039 MIS12同源物(酵母) Hs.267194 BC000229 0.8 AURKB 209464_at NM_004217 Aurora激酶B Hs.442658 AB011446 0.71 FAM64A 221591_s_at NM_019013 序列同源性家族64,成员A Hs.404323 BC005004 0.8 TAP2 204770_at NM_000544, NM_018833   转移因子2,ATP结合盒,亚族 B(MDR/TAP)                 Hs.502 NM_000544 0.82 PCDHGC3         205717_x_at             NM_002588, NM_032402, NM_032403   原钙粘蛋白γ亚族C3                    Hs.368160           NM_002588           1.2     AVEN 219366_at NM_020371 凋亡,半胱氨酸蛋白酶活化抑制 因子                         Hs.555966 NM_020371 1.1 HMGB2 208808_s_at NM_002129 高迁移率组盒2 Hs.434953 BC000903 0.76 CDC2      203214_x_at             NM_001786,             NM_033379   细胞解离周期2,G1至S和G2 至M                      Hs.334562           NM_001786           0.72      RIF1 214700_x_at NM_018151 RAP1相关作用因子同源物(酵 母)                       Hs.536537 AK000323 0.84 TCF7L2 216511_s_at NM_030756 转录因子7样蛋白2(T细胞特 异性,HMG盒)             Hs.501080 AJ270770 0.8 KIF11 204444_at NM_004523 驱动蛋白家族成员11 Hs.8878 NM_004523 0.68 TTC19 217964_at NM_017775 三角四肽重复结构域19 Hs.462316 NM_017775 0.67 MDS032 221706_s_at NM_018467 未成型的造血干/祖细胞蛋白 MDS032                    Hs.16187 BC006005 1.2
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数  差异(复发 /不复发)  PSMA3       201532_at           NM_002788, NM_152132   蛋白酶体(前体,巨蛋白因子)                            亚基,α类,3              Hs.531089           NM_002788           0.76      PDGFA 205463_s_at 血小板源生长因子α多肽 Hs.376032, Hs.521331   NM_002607 1.3 GTF2H2        221540_x_at             NM_001515           普通转录因子IIH,多肽2, 44kDa                    Hs.191356,             Hs.398348   AF078847          0.86      CXCL13 205242_at NM_006419 趋化因子(C-X-C基序)配体 13(B细胞趋化引诱剂)     Hs.100431 NM_006419 0.36 FOXM1      202580_x_at             NM_021953, NM_202002, NM_202003   叉头框M1          Hs.239        NM_021953           0.7     YARS 212048_s_at NM_003680 酪氨酸-tRNA合成酶 Hs.213264 AW245400 0.87 SE57-1 220180_at NM_025214 含卷曲状卷曲结构域68 Hs.120790 NM_025214 0.77 CLCA4 220026_at NM_012128 钙活化的氯通道,家族成员4 Hs.546343 NM_012128 0.64 MCAM 211340_s_at NM_006500 黑色素瘤细胞粘附分子 Hs.511397 M28882 1.2 PBXIP1 214177_s_at NM_020524 前B细胞白血病转录因子相互 作用蛋白1                 Hs.505806 AI935162 1.2 PPM1D 204566_at NM_003620 依赖镁的蛋白磷酸化酶ID,δ 异构体                     Hs.286073 NM_003620 0.88 FLJ22471 218175_at NM_025140 NA Hs.114111 NM_025140 1.2 ZBTB20 205383_s_at NM_015642 含锌指和BTB结构域20 Hs.122417 NM_015642 1.4 RRM2 209773_s_at NM_001034 核糖核酸还原酶M2多肽 Hs.226390 BC001886 0.69
表2:其表达与NZ信号22基因的表达相关的标记
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    CCL5      1405_i_at, 204655_at    NM_002985                                                         趋化因子(C-C基序)配体5 Hs.514821           M21121,  NM_002985 0.69      SFRS10 200893_at NM_004593                             富含精氨酸/丝氨酸的剪接因子 Hs.533122 NM_004593 0.96
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    10(转化子同源物,果蝇) HLA-E       200904_at           NM_005516                                        主要的组织相容性复合物,I,E 类                           Hs.381008           X56841        1   K-ALPHA-1 201090_x_at NM_006082            α微管蛋白 Hs.524390 NM_006082 0.87 PSMA5       201274_at          NM_002790                                      蛋白酶体(前体,巨蛋白因子) 亚基,α类,5              Hs.485246           NM_002790           0.95      TOP2A 201292_at NM_001067                             拓扑异构酶(DNA)IIα,170kDa Hs.156346 AL561834 0.77 EBNA1BP2 201323_at NM_006824                EBNA1结合蛋白2 Hs.346868 NM_006824 0.98 SNRPC 201342_at NM_003093                     小核核糖核蛋白多肽C Hs.1063 NM_003093 1 UBE2L6        201649_at           NM_004223,             NM_198183                  泛素偶联酶E2L6 Hs.425777           NM_004223           0.75      LAPTM5 201720_s_at NM_006762                       溶酶体相关多跨膜蛋白5 Hs.371021 AI589086 0.89 CTSL      202087_s_at             NM_001912,             NM_145918               组织蛋白酶L Hs.418123           NM_001912           0.97      GBP1           202269_x_at                         NM_002053                                                干扰素诱导的鸟苷酸结合蛋白                            1,67kDa                   Hs.62661,            Hs.443527  BC002666                   0.69           TNFAIP2 202510_s_at NM_006291                         肿瘤坏死因子α诱导蛋白2 Hs.525607 NM_006291 0.91 CCNB2 202705_at NM_004701                细胞周期蛋白B2 Hs.194698 NM_004701 0.83 GBP2      202748_at           NM_004120                                      干扰素诱导的鸟苷酸结合蛋白 2                          Hs.386567           NM_004120           0.87      CDC20       202870_s_at             NM_001255                                     CDC20细胞解离周期20同源物 (酿酒酵母)                Hs.524947           NM_001255           0.78      HAT1      203138_at          NM_0010330                85,NM_00364                     组蛋白乙酰基转移酶1 Hs.470611           NM_003642           0.95     
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    2 SPAG5 203145_at NM_006461               血清相关抗原5 Hs.514033 NM_006461 0.87 RFC5           203209_at                     NM_007370,             NM_181578                           复制因子C(活化因子1)5,                         36.5kDa                 Hs.506989                     BC001866                   0.79           MYCBP 203360_s_at NM_012333               C-myc结合蛋白 Hs.370040 D50692 1 BUB1B       203755_at          NM_001211                                     BUB1苯并咪唑1出芽抑制解除 同源物β(酵母)            Hs.36708          NM_001211           0.85      SLA 203761_at NM_006748               Src样衔接因子 Hs.75367 NM_006748 0.97 VRK1 203856_at NM_003384               牛痘相关激酶1 Hs.422662 NM_003384 0.72 PIK3CD 203879_at NM_005026                             肌醇磷脂3激酶,催化,δ多肽 Hs.518451 U86453 0.99 HLA-DMB         203932_at          NM_002118                                      主要的组织相容性复合物,II 类,DMβ                   Hs.1162         NM_002118           0.82      TRIP13 204033_at NM_004237                          甲状腺激素受体作用因子13 Hs.436187 NM_004237 0.78 RARRES3         204070_at           NM_004585                                       视黄酸受体应答体(他扎罗汀诱 导的)3                      Hs.17466          NM_004585           0.96      CKS2 204170_s_at NM_001827                        CDC28蛋白激酶调控亚基2 Hs.83758 NM_001827 0.8 APOBEC3G         204205_at           NM_021822                                     载脂蛋白BmRNA编辑酶,催化 多肽样蛋白3G              Hs.474853           NM_021822           0.74      PSMB9                   204279_at                               NM_002800,             NM_148954                                          蛋白酶体(前体,巨蛋白因子)                            亚基,β类,9(大多功能多肽 2)                         Hs.381081                               NM_002800                               0.63                FUSIP1        204299_at           NM_054016                                    FUS相互作用蛋白(富含丝氨 酸/精氨酸)1              Hs.3530         NM_021993           0.9    
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    SELL      204563_at           NM_000655                                      选择蛋白L(淋巴细胞粘附分子 1)                         Hs.82848          NM_000655           0.88      DKK1 204602_at NM_012242                           Dickkopf同源物1(非洲爪蟾) Hs.40499 NM_012242 0.95 KIF23       204709_s_at             NM_004856,             NM_138555                      驱动蛋白家族成员23 Hs.270845           NM_004856           0.9     TTK 204822_at NM_003318             TTK蛋白激酶 Hs.169840 NM_003318 0.8 ECGF1       204858_s_at             NM_001953                                    内皮细胞生长因子1(血小板 源)                      Hs.546251           NM_001953           0.85      LCP2           205269_at,             205270_s_at NM_005565                                             淋巴细胞胞液蛋白2(含SH2                         结构域白细胞蛋白76kDa)  Hs.304475                     AI123251,N             M_005565    0.91           BTN2A2               205298_s_at                         NM_006995,             NM_181531                             嗜乳脂蛋白,超家族2,成员                           A2                        Hs.373938                     W58757               0.94           BMP5 205431_s_at NM_021073                 骨形态发生蛋白5 Hs.296648 NM_021073 0.9 GZMA      205488_at          NM_006144                                    粒酶A(粒酶1,细胞毒T淋巴 细胞相关丝氨酸酯酶1)     Hs.90708          NM_006144           0.68      SMURF2        205596_s_at             NM_022739                                    SMAD特异性E3泛素蛋白连接 酶2                      Hs.515011           AY014180          1   CD8A      205758_at           NM_001768,             NM_171827                        CD8抗原,α多肽(p32) Hs.85258          AW006735          0.78      CD2     205831_at           NM_001767                                    CD2抗原(p50),绵羊红血球 西巴受体                 Hs.523500           NM_001767           0.87      JAK2      205842_s_at             NM_004972                                    詹纳斯激酶2(一种蛋白酪氨酸 激酶)                    Hs.434374           AF001362          0.86      UBD 205890_s_at NM_006398       泛素D Hs.44532 NM_006398 0.41
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    ADH1C 206262_at NM_000669                           酒精脱氢酶1C(I类),γ多肽 Hs.2523 NM_000669 0.33 AIM2 206513_at NM_004833                   黑色素瘤缺乏因子2 Hs.281898 NM_004833 0.91 SI    206664_at           NM_001041                                      蔗糖酶-异麦芽糖酶(α葡萄糖 苷酶)                      Hs.429596           NM_001041           0.39      NAT2      206797_at           NM_000015                                    N乙酰基转移酶2(芳基胺N乙 酰基转移酶)              Hs.2      NM_000015           0.82      SP110             208012_x_at                         NM_004509,             NM_004510, NM_080424                 SP110核体蛋白               Hs.145150                     NM_004509                     0.95           PRDX1       208680_at           NM_002574, NM_181696, NM_181697                           硫氧还原蛋白过氧化物酶1 Hs.180909           L19184        1   PSMA6       208805_at           NM_002791                                      蛋白酶体(前体,巨蛋白因子) 亚基,α类,6              Hs.446260           BC002979          0.87      IFI16 208966_x_at NM_005531                    干扰素γ诱导蛋白16 Hs.380250 AF208043 1.2 PPIG      208995_s_at             NM_004792                                      肽基脯氨酸异构酶G(亲环蛋白 G)                         Hs.470544           U40763        0.98      KIF2C       209408_at,             211519_s_at NM_006845                              驱动蛋白家族成员2C Hs.69360          U63743,          AY026505 0.75      APOL1           209546_s_at                         NM_003661,             NM_145343, NM_145344              载脂蛋白L1            Hs.114309                     AF323540                   0.98           CD74           209619_at                     NM_0010251   58,NM_00102 5159,NM_004 355                                      CD74抗原(主要组织相容性复   合物的恒定链,II类相关抗原) Hs.436568                     K01144               0.76           HMMR           209709_s_at                         NM_012484,             NM_012485                          透明质酸调节的运动受体                        (RHAMM)                Hs.72550                   U29343               0.84          
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    CDKN3             209714_s_at                         NM_005192                                               细胞周期依赖激酶抑制因子3 (CDK2相关双特异性磷酸化   酶)                       Hs.84113                   AF213033                   0.71           BUB3           209974_s_at                         NM_0010077                93,NM_00472 5                                      BUB3苯并咪唑3出芽抑制解除                           同源物(酵母)              Hs.418533                     AF047473                   0.84           SOCS1 210001_s_at NM_003745                           细胞因子信号转导抑制因子1 Hs.50640 AB005043 0.93 CD3Z           210031_at                     NM_000734,             NM_198053                             CD3Z抗原,ζ多肽(TiT3复合                           物)                       Hs.156445                     J04132               0.87           CACYBP               210691_s_at                         NM_0010072                14,NM_01441 2                           钙周期结合蛋白                Hs.508524                     AF275803                   0.97           HLA-DRA         210982_s_at             NM_019111                                      主要组织相容性复合物II类, DRα                       Hs.520048           M60333        0.74      NEK2      211080_s_at             NM_002497                                   NIMA(永离有丝分裂基因a) 相关激酶2               Hs.153704           Z25425        0.77      NF2                                                 211091_s_at                                                                                                                                                 NM_000268,             NM_016418, NM_181825, NM_181826, NM_181827, NM_181828, NM_181829, NM_181830, NM_181831, NM_181832, NM_181833, NM_181834, NM_181835                             神经纤维素2(双侧听神经瘤)                                                                                                                                                                                                                                                                                               Hs.187898                                                                                                                         AF122828                                                                                                             0.96                                                             FYB 211795_s_at NM_001465,                         FYN结合蛋白(FYB120/130) Hs.370503 AF198052 0.83
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    NM_199335 HLA-DPA1          211991_s_at             NM_033554                                        主要组织相容性复合物,II类, DPα1                        Hs.347270           M27487        0.75      PTPRC                   212587_s_at, 212588_at                                 NM_002838, NM_080921,             NM_080922, NM_080923                                蛋白酪氨酸磷酸化酶,受体类,                              C                            Hs.192039                               AI809341,Y             00062                   0.77                SP3     213168_at           NM_0010173   71,NM_00311 1                        Sp3转录因子 Hs.531587           AU145005          0.98      ITGAL             213475_s_at                         NM_002209                                                整合蛋白,αL(抗原CD11A    (p180),淋巴细胞功能相关抗 原1,α多肽)               Hs.174103                     AC002310                   0.85           RAC2      213603_s_at             NM_002872                                    Ras相关的肉毒素底物2(rho 家族,小GTP结合蛋白Rac2) Hs.517601           BE138888          0.92      DNA2L       213647_at                                 DNA2DNA复制解旋酶2样蛋 白(酵母)               Hs.532446           D42046        0.87      TRAF3IP3 213888_s_at NM_025228                    TRAF3相互作用蛋白3 Hs.147434 AL022398 0.86 NKG7 213915_at NM_005601                     自然杀伤细胞7组序列 Hs.10306 NM_005601 0.72 SFRS7       214141_x_at             NM_0010316   84,NM_00627 6                                        富含精氨酸/丝氨酸的剪接因子 7,35kDa                    Hs.309090           BF033354          0.88      ZG16 214142_at NM_152338                酶原颗粒蛋白16 Hs.184507 AI732905 0.18 PRF1 214617_at NM_005041                   穿孔素1(成孔蛋白) Hs.2200 AI445650 0.81 CCNB1 214710_s_at NM_031966                细胞周期蛋白B1 Hs.23960 BE407516 0.63 KIAA0907 214995_s_at NM_014949           KIIAA0907 Hs.24656 BF508948 0.82
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    GTSE1       215942_s_at             NM_016426                        G2和S期表达1 Hs.386189,             Hs.475140   BF973178          0.86      HMGB3 216548_x_at NM_005342               高迁移率组盒3 Hs.19114 AL049709 0.97 HLA-DMA         217478_s_at             NM_006120                                        主要组织相容性复合物,II类, DMα                         Hs.351279           X76775        0.8     C20orf45 217851_s_at NM_016045                      染色体20开放读码框45 Hs.3945 NM_016045 1.1 MRPL42        217919_s_at             NM_014050, NM_172177, NM_172178                       线粒体核糖体蛋白L42 Hs.199579           BE782148          0.79      NUSAP1        218039_at,             219978_s_at NM_016359,             NM_018454                       核仁纺锤体相关蛋白1 Hs.511093           NM_016359,             NM_018454   0.92      TMEM48 218073_s_at NM_018087            跨膜蛋白48 Hs.476525 NM_018087 0.71 DHX40       218277_s_at             NM_024612                                     DEAH(Asp-Glu-Ala-His)盒多肽 40                        Hs.29403          NM_024612           1.1     NFS1           218455_at                   NM_021100,             NM_181679                            NFS1固氮作用因子1(酿酒酵                          母)                      Hs.194692                     NM_021100                     1     C10orf3 218542_at NM_018131                     染色体10开放读码框3 Hs.14559 NM_018131 0.77 NCAPG             218663_at                     NM_022346                                              非SMC浓缩速I复合物,亚基                          G                        Hs.446201,             Hs.479270   NM_022346                     0.73           FBXO5 218875_s_at NM_012177          F盒蛋白5 Hs.520506 NM_012177 0.89 SLAMF8 219385_at NM_020125               SLAM家族成员8 Hs.438683 NM_020125 0.94 CENPN 219555_s_at NM_018455             中心体蛋白N Hs.283532 NM_018455 0.81 ATP13A3 219558_at             ATP酶类13A3 Hs.529609 NM_024524 0.75 ECT2 219787_s_at NM_018098                         上皮细胞转移序列2癌基因 Hs.518299 NM_018098 0.75
  基因标识          Affymetrix探 针编号       Refseq登录号              基因说明          Unigene登 录号      其它       Genebank登 录号       表达倍数差 异(复发/   不复发)    ASPM      219918_s_at             NM_018136                                     Asp(异常纺锤体)样,头小畸 形相关因子(果蝇)          Hs.121028           NM_018123           0.89      ZC3HAV1         220104_at           NM_020119,             NM_024625                       锌指CCCH类,抗病毒1 Hs.133512           NM_020119           0.93      CLEC2D               220132_s_at                         NM_0010044   19,NM_00100 4420,NM_013 269                                   C类外源凝集素超家族2成员 D                        Hs.268326                     NM_013269                     0.91           MS4A12        220834_at          NM_017716                                      跨膜4结构域,超家族A,成员 12                         Hs.272789           NM_017716           0.5     Clorf112 220840_s_at NM_018186                      染色体1开放读码框112 Hs.443551 NM_018186 0.96 TPRT 220865_s_at NM_014317                转异戊烯转移酶 Hs.555924 NM_014317 0.92 APOL3                     221087_s_at                                                 NM_014349, NM_030644, NM_145639, NM_145640, NM_145641, NM_145642              载脂蛋白L3                                  Hs.474737                                         NM_014349                                         0.84                     C14orf156 221434_s_at NM_031210                       染色体14开放读码框156 Hs.324521 NM_031210 0.9 YTHDF3 221749_at NM_152758                      YTH结构域家族,成员3 Hs.491861 AU157915 0.95 LOC146909 222039_at                  假定蛋白LOC146909 Hs.135094 AA292789 0.83 TRAFD1 35254_at NM_006700                     含TRAF类锌指结构域1 Hs.5148 AB007447 0.98 ESPL1       38158_at         NM_012291                                    外纺锤体极样蛋白1(酿酒酵 母)                      Hs.153479           D79987        0.87      BTN3A3               38241_at                   NM_006994,             NM_197974                             嗜乳脂蛋白,超家族3,成员                           A3                        Hs.167741                     U90548               0.9        
预后标记检测的常规途径
以下途径是可用于检测包括CCPM家族成员的增殖标记的非限制性方 法:利用为CCPM所选的聚核苷酸探针的微阵列方法;利用CCPM特异性 引物和探针的肿瘤样品的实时定量PCR;利用CCPM特异性引物和探针的 淋巴结,血液,血清,排泄物,或尿液样品的实时定量PCR;酶联免疫吸附 法(ELISA);利用抗标记抗体的免疫组织化学法;和阵列或定量PCR数据 的计算机分析。
其它可用方法包括RNA印迹和原位杂交(Parker and Barnes,Methods in Molecular Biology 106:247-283(1999));RNA酶保护试验(Hod,BioTechniques 13:852-854(1992));逆转录酶链式反应(RT-PCR;Weis et al.,Trends in Genetics 8:263-264(1992));基因表达的系列分析(SAGE;Velculescu et.al., Science 270:484-487(1995)和Velculescu et al.,Cell 88:243-51(1997)),时间 飞行质谱生物芯片系统技术(MassARRAY technology)(Sequenom,San Diego,CA),和通过大规模平行信号测序技术的基因分析(MPSS;Brenner et al.,Nature Biotechnology 18:630-634(2000))。可选择地,可采用能识别特定 复合物的抗体,包括DNA双螺旋,RNA双螺旋,和DNA-RNA杂交双螺旋 或DNA-多肽双螺旋。
可收集原始数据并进行倍数变化分析,例如,通过对比肿瘤组织和非肿 瘤组织中标记表达水平;通过对比复发肿瘤和不复发肿瘤中测得的标记表达 水平;通过对比转移肿瘤和不转移肿瘤中测得的标记表达水平;通过对比不 同病期肿瘤中测得的标记表达水平;或通过对比不同增殖水平的细胞中测得 的标记表达水平。并根据这些分析来判断是阴性还是阳性预后。肿瘤标记表 达的进一步分析包括将那些表现出表达或高或低的标记与已知的结直肠肿 瘤表达谱进行匹配以提供预后。
确定表达增加的阈值是由特定标记以及所应用的特定预测模型所决定 的。阈值通常设定为可获得最高灵敏度和选择性以及最低的误差率,并根据 特定临床状况合理地变化。可通过分析足够大的人群并考虑任意预测模型的 统计可变性来确定合理阈值并通过用于产生预测模型的样品大小来计算合 理阈值。同样适用于确定表达减少结论的阈值。值得注意的是在不偏离本发 明范围的情况下可选择其它的确定表达增加或减少的阈值或其它建立阈值 的方法。
还可能的是预测模型可输出数值,如评分,可能性值或概率。在这些情 况下,可以将阈值应用到预测模型生成的结果中,并且在这些情况下按所用 的将类似的原则应用到设定表达值的阈值中。
一旦获得肿瘤样品中预测信号的表达水平或预测模型的输出值,就可确 定癌症复发的可能性。
通过对比一种或多种标记和已公开的预后信号的表达水平,来自于被识 别的标记的含有一种或多种CCPMs的预后信号可用于确定癌症的预后。通 过比较肿瘤样品中的一种或多种CCPMs和已公开的预后信号的表达水平, 可确定癌症复发的可能性。为建立预后的预后信号表达水平的对比可通过前 述的预测模型来完成。
确定癌症复发的可能性对于医疗工作者有重大价值。高的复发可能性意 味着应给予更长或更高剂量的治疗,并应对患者进行更密切的癌症复发信号 的监测。准确的预后对患者也是有益的。可使患者和他们的伴侣,家庭,和 朋友一起作出有关治疗,以及有关未来和改变生活方式的决定。因此,发明 提供了一种基于通过将肿瘤样品中标记表达与不同信号表达进行匹配而确 定的预后为特定癌症建立治疗方案的方法。
应该重视的是标记的选择或预后信号的构建不要求限制于本文表1,2, 或5中所公开的CCPMs,或表3,4,8A,8B和9所公开的预后信号,但 可以包括使用一种或多种来自于已公开的信号的CCPMs,或利用选自于已 公开标记列表中的CCPMs建立新的信号。要求任何信号需充分准确地描述 复发可能性以协助医疗工作者建立治疗方案。
逆转录PCR(RT-PCR)
在以上所列技术中,最灵敏和最灵活的定量方法是RT-PCR,它可用于 对比在不同样品人群,在正常组织和肿瘤组织,经药物治疗或不经药物治疗 情况中的RNA水平,以描述表达模式,从中辨别密切相关的RNAs,并分 析RNA结构。
对于RT-PCR,第一步是从目标样品中分离RNA。原料通常是分别从人 肿瘤或肿瘤细胞株和相应的正常组织或细胞株中分离的总RNA。RNA可从 各种样品中分离,如来自于乳腺,,肠(如大肠或小肠),结直肠,胃, 食道,肛门,直肠,前列腺,脑,肝,肾,胰腺,脾,胸腺,睾丸,卵巢, 子宫等的肿瘤样品,来自于原发性肿瘤,或肿瘤细胞株的组织,和来自于健 康捐赠者的混合样品。如果RNA源是肿瘤,可从例如冷冻或存档石蜡包埋 和固定(如:福尔林固定)组织样品中提取RNA。
由RT-PCR获得基因表达谱的第一步是将RNA模板逆转录成cDNA, 接着通过PCR反应进行指数扩增。两种最常用的逆转录酶是禽类成髓细胞 白血病病毒逆转录酶(AMV-RT)和莫罗尼氏鼠白血病病毒逆转录酶 (MMLV-RT)。根据环境和表达谱的目标,逆转录步骤中通常主要使用特异 性引物,随机六聚体,或oligo-dT引物。例如,提取的RNA可利用GeneAmp RNA PCR试剂盒(Perkin Elmer,CA,美国)按供应商的说明进行逆转录。而 获得的cDNA可作为后续PCR反应的模板。
尽管PCR步骤可采用多种耐热的依赖于DNA的DNA聚合酶,但通常 采用Taq DNA聚合酶,它具有5′-3′核酸酶活性但没有3′-5′校对核酸内切酶 活性。因而,TaqMan(定量)PCR通常利用Taq或Tth聚合酶的5′核酸酶活 性以水解结合在目标扩增子上的杂交探针,但也可采用任何具有等效5′核酸 酶活性的酶。
两段寡核苷酸引物被用于产生PCR反应的典型扩增子。第三段寡核苷 酸或探针被设计来检测位于两段PCR引物之间的核苷酸序列。探针是不能 被Taq DNA聚合酶所延伸的,并被标记上报告荧光染料和淬灭荧光染料。 当在探针上的两种染料距离很近时,任何报告染料的激光诱导辐射可被淬灭 染料所淬灭。在扩增反应期间,Taq DNA聚合酶以依赖于模板的方式切割探 针。切得的探针片段分散在溶液,报告染料释放的信号不被第二荧光基团所 淬灭。随着每个新分子的合成,就释放了一分子的报告染料,检测未淬灭的 报告染料为数据定量解析提供了基础。
TaqMan RT-PCR可利用商业可供的设备来实施,如ABI PRISM 7700序 列检测系统(Perkin-Elmer-Applied Biosystems,Foster City,CA,美国),或 Lightcycler(Roche Molecular Biochemicals,Mannheim,德国)。在一优选实施 方式中,在实时定量PCR装置如ABI PRISM 7700tam序列检测系统中运行 5′核酸酶程序。系统由热循环仪,激光器,电荷耦合器件(CCD),照相机, 和计算机组成。系统在热循环仪中的96孔板里扩增样品。在扩增过程中, 通过纤维光缆实时收集全部96孔中的激光诱导荧光信号,并在CCD中检测。 系统还包括用于运行装置和数据分析的软件
5′核酸酶试验数据最初以Ct或阈值循环表示。如上所述,在每个循环中 记录的荧光值代表了在扩增反应中扩增至该点的产物数量。当荧光信号开始 进行有统计意义的记录时的点为循环阈值。
为使误差和样品间差异影响最小,通常在RT-PCR中使用内标。理想的 内标是在不同组织中以恒定水平表达的,并不受实验处理的影响。最常用于 标准化基因表达模式的RNAs是看家基因3-磷酸甘油脱氢酶(GAPDH) 和β-肌动蛋白的mRNAs。
实时定量PCR(qPCR)
一种RT-PCR的最新变体是实时定量PCR,其通过双标记的荧光生成探 针(如TaqMan探针)来测定PCR产物积累。实时PCR与定量竞争PCR和 定量比较PCR是一致的。前者利用了一个用于标准化的每个目标序列的内 部竞争子,而后者利用了一个包含在样品内的标准化基因,或一个用于 RT-PCR的看家基因。这在Held et al.,Genome Research 6:986-994(l996)有 更多的说明。
可采用作为RNA源的固定石蜡包埋组织来测定表达水平。根据本发明 的一个方面,可根据存在于被扩增基因中的内含子序列来设计PCR引物和 探针。在这个实施方式中,引物/探针设计的第一步是描绘基因中的内含子序 列。这可通过公开可用软件来完成,如由Kent,W.J.,Genome Res.12(4): 656-64(2002)开发的DNA BLAT软件,或包括其变体的BLAST软件。之后 的后续步骤是建立适宜的PCR引物和探针设计方法。
为避免非特异性信号,在设计引物和探针时去除内含子中的重复序列是 有益的。这可利用贝勒医学院的在线可用Repeat Masker程序来完成,其针 对重复序列文库扫描DNA序列并返回一个去除了重复序列的查询序列。而 去重序列就可用于设计引物和探针,其利用任何商业或其它公共可用的引物 /探针设计包,如Primer Express(Applied Biosystems);MGB assay-by-design (Applied Biosystems);Primer3(Steve Rozen and Helen J.Skaletsky(2000); 在互联网上针对普通用户和生物领域程序员的Primer3:Krawetz S,Misener S(eds)Bioinformatics Methods and Protocols:Methods in Molecular Biology. Humana Press,Totowa,NJ,pp 365-386)。
在PCR引物设计中被认为是最重要的因素包括引物长度,熔解温度 (Tm),和G/C含量,特异性,互补引物序列,和3′末端序列。通常,最理想 的PCR引物一般是17-30个碱基的长度,并含有20-80%如50-60%的G+C 碱基。通常优选熔解温度为50-80℃如约50-70℃。关于PCR引物和探针设 计的更多原则可参见:如Dieffenbach,C.W.et al.,General Concepts for PCR Primer Design in:PCR Primer,A Laboratory Manual,Cold Spring Harbor Laboratory Press,New York,1995,pp.133-155;Innis and Gelfand,Optimization of PCRs in:PCR Protocols,A Guide to Methods and Applications,CRC Press, London,1994,pp.5-11;和Plasterer,T.N.Primerselect:Primer and probe design. Methods MoI.Biol.70:520-527(1997),上述文献的公开内容都引入本文作为 参考。
微阵列分析
可利用微阵列技术来识别或确定差异表达。因而,可利用微阵列技术测 定在新鲜或石蜡包埋肿瘤组织中CCPMs的表达谱。在这个方法中,将感兴 趣的聚核苷酸序列(包括cDNAs和寡核苷酸)固定在,或排列在微芯片基 片上。然后将排列的序列(如捕获探针)与来自于感兴趣的细胞或组织(即, 目标)特定聚核苷酸杂交。就如RT-PCR方法中,RNA的来源通常是从人 体组织或肿瘤细胞株和相应的正常组织或细胞株中分离的总RNA。因而 RNA可从各种原发性肿瘤或肿瘤细胞株中分离。如果RNA源是原发性肿瘤, 可从例如在日常临床实践中常规制备和保存的冷冻或存档的福尔马林固定 石蜡包埋(FFPE)组织样品和固定(如:福尔马林固定)组织样品中提取RNA。
在一特定的微阵列技术实施方式中,PCR扩增的cDNA克隆插入片段被 施加到基片上。基片可包含多达1,2,5,10,15,20,25,30,35,40,45,50,或75 个核苷酸序列。在其它方面,基片可包含至少10000个核苷酸序列。固定在 微芯片上的微阵列序列适合于在严格条件下进行杂交。如其它实施方式,微 阵列的目标序列可以是至少50,100,200,400,500,1000,或2000个碱基长 度,或50-100,100-200,100-500,100-1000,100-2000,或500-5000个碱基长 度。如更多实施方式,微阵列的捕获探针可以是至少10,15,20,25,50,75,80, 或100个碱基长度;或10-15,10-20,10-25,10-50,10-75,10-80,或20-80个 碱基长度。
光标记的cDNA探针的制备可经由通过从感兴趣组织中提取的RNA 的逆转录来形成荧光核苷酸。将标记的cDNA探针施加到芯片上并与阵列中 的每个DNA点进行特异性杂交。经过严格洗涤后去除非特异性结合探针, 利用共焦激光显微镜或其它检测方法如CCD照相机扫描芯片。每个阵列元 件的杂交定量可评估相应的mRNA丰度。以两种颜色荧光分别标记的由两 种RNA源生成的cDNA探针可与阵列成对杂交。并同时测定相应于每个特 定基因的两种来源的转录物的相对丰度。实施例4详细描述了示范性方案。
小规模的杂交可方便快速地评估大量基因表达模式。这种方法显示出已 具备检测在细胞中以低拷贝数表达的稀有转录物所必需的灵敏度,和重复性 检测在表达水平上的至少约两倍差异(Schena et al.,Proc.Natl.Acad.Sci. USA 93(2):106-149(1996))。微阵列分析可通过商业可供的设备按供应商的 方案来实施,如通过采用Affymetrix基因芯片技术,Iuumina微阵列技术或 Incyte′s微阵列技术。微阵列方法发展成大规模的基因表达分析使其可以系 统地搜索在多种肿瘤类型中的癌症分类和预后预测分子标记。
RNA的分离,纯化,和扩增
mRNA提取的常规方法是本领域所公知的并公开在分子生物学的标准 教科书上,包括Ausubel et al.,Current Protocols of Molecular Biology,John Wiley and Sons(1997)。从石蜡包埋组织中提取RNA的方法公开在例如Rupp and Locker,Lab Invest.56:A67(1987),和De Sandres et al.,BioTechniques 18: 42044(1995)。尤其是,可利用商业化供应商如Qiagen提供的纯化试剂盒, 缓冲液,和蛋白酶并根据供应商的说明来实施RNA分离。例如,可利用 Qiagen的RNA酶迷你柱来分离培养物中的细胞总RNA。其它商业可供的 RNA分离试剂盒包括MasterPure的全DNA和RNA纯化试剂盒 (EPICENTRE(D,Madison,WI),和石蜡封闭RNA分离试剂盒(Ambion,Inc.)。 可使用RNA Stat-60(Tel-Test)分离组织样品中的总RNA。可通过例如氯化铯 密度梯度离心来分离肿瘤中的RNA。
以固定石蜡包埋组织作为RNA源的基因表达制谱典型方案中的步骤, 包括mRNA分离,纯化,引物延伸和扩增,它们已在多种公开的期刊文献 中公开(例如:T.E.Godfrey et al.J.Molec.Diagnostics 2:84-91(2000);K. Specht et al.,Am.J.Pathol.158:419-29(2001))。简单而言,典型的处理始于 从石蜡包埋的肿瘤组织样品切下10μm切片。然后提取RNA,并去除蛋白和 DNA。在分析RNA密度之后,如果需要可进行RNA修复和/或扩增步骤, 并利用基因特定启动子进行RNA逆转录,然后RT-PCR。最后,分析数据 并根据检测肿瘤样品确定的基因表达模式特征以确定最佳的对于患者可用 的治疗选择。
免疫组织化学和蛋白质
免疫组织化学方法也适用于检测本发明中增殖标记的表达水平。因而, 抗体或抗血清,优选多克隆抗血清,最优选每个标记的特异性单克隆抗体, 可用于检测表达。抗体可通过直接标记抗体本身来检测,例如,放射性标记, 荧光标记,半抗原标记如生物素,或酶如辣根过氧化物酶或碱性磷酸酶。可 选择地,未标记的原始抗体可偶联被标记的第二抗体,包括抗血清,多克隆 抗血清或原始抗体的特异性单克隆抗体。免疫组织化学方案和试剂盒是本领 域公知的和商业可供的。
蛋白质组可用于分析在特定时间点存在于样品中(如:组织,器官,或 细胞培养物)的多肽,尤其是,蛋白质组技术可用于评价样品中多肽表达的 全局变化(也称为表达蛋白质组)。蛋白质组分析通常包括:(1)通过双向 凝胶电泳(2-D PAGE)分离样品中的单个多肽;(2)如通过质谱或N末端测序 来鉴别从凝胶中回收的单个多肽,和(3)利用生物信息学进行数据分析。蛋 白质组方法是其它基因表达谱方法的有益补充,并可单独或与其他方法联合 使用以检测本发明中标记增殖的产物。
一旦评估出肿瘤样品中一种或多种预后标记的表达水平,就可确定癌症 复发的可能性。本发明人已鉴别了大量在不复发结肠直肠癌和复发结肠直肠 癌患者数据组中差异表达的标记。这些标记在以下实施例的表1,2,和9 中列出。
差异表达基因的选择
早期的认为显著基因的选择途径包括仅考虑在两个感兴趣组之间给定 基因的“倍数变化”。该途径训练了那些看起来变化最显著的基因,考虑基 本统计使人认为如果差异(或噪音水平)非常高(在微阵列实验中经常可观 察到),就碰巧频繁发生了看起来很大的倍数变化。
如此处所述的微阵列实验通常是同时测定数千个基因。若要对比两组之 间特定基因的表达水平(例如复发和不复发肿瘤),对于显著性而言典型检 验(例如t检验)是不适用的。这是因为在数千个实验的集合中(在此处每 个基因构成一个“实验”),至少一个实验碰巧符合一般的显著性标准的概 率是基本一致的,在显著性检验中,通常认为“零假设”是正确的概率。在 对比两组的情况下,零假设表示两组之间没有差异。若统计检验获得的零假 设概率低于某些阈值(通常是0.05或0.01),那么我们可否定零假设而接受 两组存在显著性差异的假设。显然,在这样的检验中,碰巧否定零假设可预 期为1/20(或1/100)。在微阵列中采用t检验或其它类似的显著性统计检 验是错误的,将产生非常多的假阳性(或I类错误)。
在这种情况下,应用典型的多元对比程序,如Bonferroni法(43)同时 检验多元假设。但这种检验对于大多数微阵列实验而言太过保守,导致太多 假阴性(II类错误)。
最近的途径是抛弃试图应用给定检验是显著性的概率,建立选择的实验 亚集的平均,以控制I类错误(或错误发现率;47)的预期比例。本研究中 通过多种措施利用这种途径,即采用了BRB Array Tools(48),和Bioconductor 的limma(11,42)包(采用了R统计环境;10,39)的方法。
数据挖掘的常规方法:预后信号的产生
数据挖掘是用于“知识”提炼中的术语,也称为“懂得如何做”,或(通 常)来自于大容量数据(数据组)的预测能力。它是本研究中所采用的产生 预后信号的途径。在本研究中“懂得如何做”是指由给定的基因表达测定数 据组或(在本部分通常如此描述且在实施例部分更为详细)“信号”来准确 预测预后的能力。
本研究中所用方法的具体细节在实施例17-20中有描述。但是,(实施 例中所述的和此处所述的)任何数据挖掘方法的应用可遵循常规方案。
数据挖掘(49)和相关主题机器学习(40)是一项复杂,重复的涉及一种或 多种适当计算机软件包(如下)的数学任务。使用软件一方面是有利的,因 为如果坚持了正确的方法,就不需要完全了解为了顺利使用数据挖掘技术所 用的每种技术背后的复杂理论。而不利之处在于数据挖掘应用常被视为“暗 箱”:输入数据接收答案。这是如何实现的通常不为终端用户所知(这是许 多所述技术的现状)并通常影响为数据挖掘所选的统计方法。例如神经网络 和支持矢量机具有特殊的复合执行机制使其难以为终端用户提取出用于执 行决策的“规则”。在另一方面,k-最近邻方法和线性判别分析是不对用 户隐藏的非常透明的决策程序。
有两类用于数据挖掘的途径:监督和无人监督途径。在监督途径中,与 数据相连的信息是已知的,如分类数据(如复发对不复发肿瘤)。所要求的 是将观察到的反应(如复发对不复发)与输入的变量联系起来的能力。在无 人监督途径中,预先不知道数据组内的分类,而数据挖掘方法被用于试图查 出数据组内的分类或结构。
在本实施例中采用了并详细讨论了监督途径,但应注意的是也可采用任 何其它技术。
整体方案包括下列步骤:
●数据表示。这涉及数据向最可能与所选数据挖掘技术成功合作的形式 的转换,此处的数据是数字化的,如本研究中待研究的数据表示相关的基因 表达水平,这是相当简单的。如果数据涉及了大动态范围(即多个数量级) 通常采用数据的对数形式。如果数据涉及了个别研究者提供的在个别天数中 个别样品的测量值,可采取特定处理以确保系统误差最小化。系统误差最小 化(即由方案差异,机器差异,操作者差异和其它可计量因素造成的误差) 是在此处被称为“标准化”的程序。
●特征选择。通常数据组包括许多多于日常基础中用于测量的数据元 素,和额外的不提供产生预测模型所需的信息的许多元素。一个预测模型描 述数据组的实际能力是源自于技术集全维的某些亚集。这些维数是数据组最 重要的构成(或特征)。本文所记的微阵列数据,数据组的维数是单个的基 因。此处所述的特征选择是要找出那些最“差异表达”的基因。更为普通含 义,它是指那些通过某些显著性统计检验的组,即在被研究的一组或其他组 中特定变量(或维数)的水平或更高或更低。有时特征是那些显示出最大差 异的变量(或维数)。特征选择的应用完全不依赖于所用的创造预测模型的 方法,并涉及大量获得所需结果的实验。在本发明中,显著性基因和那些与 更早成功模式(NZ分类器)相关联的基因的选择蕴含了特征选择。此外, 数据还原的方法(如主要构成分析法)可应用于数据组。
●训练。一旦建立了数据组的分类(如复发/不复发)和特征,数据表示 为数据挖掘输入可接受的形式,就可将还原数据组(以特征描述的)应用于 预测模型的选择。该模式的输入通常以多维数字输入的形式(称为矢量), 并输出信息(一种分类标签或一个响应)。在训练程序中,将所选数据输入 预测模型,或依次输入(按技术如神经网络)或者整体输入(按应用某些回 归形式的技术如线性模型,线性判别分析,支持矢量机)。在某些情况下(如 k-最近邻方法)数据组(或经特征选择后获得的数据组的亚集)本身就是模 型。正如所讨论的,通过利用各种软件包其中模型的参数已由职业分析员按 最可能获得成功结果的情况预先确定好,可建立对具体数学只需最少理解的 有效模式。
●验证。这是数据挖掘方案的关键构成部分,它的不恰当应用往往引起 误差。部分数据组将被取出,以从特征分析和训练中分离,用于检验预测模 型的成功性。另外,若验证的结果影响模型的特征选择和训练,则在应用于 现实状况前需对模式进行进一步验证。如果该程序不能严格地支持模型则可 能在现实情况中失败。验证的方法在以下详述。
●应用。一旦模式构建起来并经验证,它必须以终端用户容易理解的方 式包装。这通常包括运行某些形式的植入模型的电子表格程序,统计软件包 的脚本,或通过信息技术将模型重构入硬编码程序。
经常使用的软件包实例是:
-电子表格插件,由多元矢量获得。
-R统计环境。
-商业软件包:MatLab,S-plus,SAS,SPSS,STATA。
-免费的开放源码软件如Octave(一个MatLab克隆)
-许多和可变的C++库,其可用于在商业的,封闭源码装置中运行预测 模型。
数据挖掘方法的实例。
该方法可首先实施数据挖掘处理(上述的)的步骤,然后应用适当的已 知软件包。关于数据挖掘处理的更多说明在许多极为精彩的文献(49)中有详 细描述。
·线性模型(49,50):数据按线性回归模型的输入处理,输出的是分类标 签或响应变量。分类标签,或其它分类数据,必需转换成数值(通常是整数)。 在广义线性模型中,分类标签或响应变量它们本身与输入数据不是线性相 关,但是可利用“连接函数”进行转换。逻辑回归是最普通的广义线性模型 形式。
·线性判别分析(49,51,52)。倘若数据是线性可分的(即:数据的组或 类别可被阈值的n维扩展超平面分离),可采用这种技术。变量的组合用于 分离类别,如组之间变量是最大,而组内部变量是最小。它的副产品是分类 规则的形成。该规则应用于未知类别的样品可实现样品中类别成员的预测或 分类。线性判别分析如微阵列中最常用的最近质心收缩法(nearest shrunken centroids)是有变化的。
·支持矢量机(53):一组变量与一组重量协同使用以确定在类别之间重 量变量分离最大化的模型。将模型应用于样品则可生成样品的类别成员关系 的分类或预测。
·神经网络(52):数据按输入神经网络节点来处理,其有点类似生物神 经,将来自于所有节点的输入应用到连通的那几个,并将输入转换成输出。 一般地,神经网络利用“乘和加”运算法则将来自于多重连通输入节点的输 入转化成单一的输出。一个节点不一定会产生一个输出除非节点的输入超过 了特定阈值。每个节点以来自几个其它节点的输出作为它的输入,最终输出 节点通常是与分类变量相连。节点的数量和节点的拓扑可在有限方式中变 化,以提供对不可能以其它方法分类的极其嘈杂数据的分类能力。最常用的 神经网络是多层感知器。
·分类和回归树(54):在这里,变量被用于定义在以渐进方式来确定样 品的类别中所遵循的规则的等级。典型的方法是创造一套可实现特定类别的 输出或特定不能判别的状态的规则。分类树的实例是运行如下运算法则:
如果基因A>x并且Y>x并且Z=z

A类
否则如果基因A=q

B类
·最近邻方法(51,52)。通过比较样品(未知类别)和接近它的样品(已 知类别)并以距离函数定义接近度来进行预测和分类。可能定义许多不同的 距离函数。常用的距离函数是Euclidean距离(为Pythagorean距离的推广, 三角测量中,n维),各种相关形式(包括Pearson相关系数)。也有可将 通过有意义的距离度量不能正常互相连接的数据点转换成euclidean空间的 转换函数,以便之后应用Euclidean距离(如Mahalanobis距离)。尽管距离 度量可能非常复杂,但k-最近邻法的基本前提是非常简单的,本质上是一种 “找出最类似于未知输入的k数据矢量,查明它们所对应的类别,并表决未 知输入属于哪个类别”的重述。
·其他方法
-贝叶斯网络。一种有向无环图可用于表示一组变量与它们的联合概率 分布,然后用于确定样品类别成员的概率。
-独立成分分析,其中独立信号(如:类别成员)是从一组变量中分离 (进入成分)出的。这些成分可用于生成样品类别成员关系的分类或预测。
-集结学习方法,其中一组预测方法与生成样品类别成员关系的共同分 类或预测组合。
存在许多这类方法的可开发变体(49),并且不断地定义和发展了许多新 方法。值得注意的是为获得一个可接受的结果,可应用这种方法的任何一种。 必须采取特殊关注以避免过拟合,经由全面的验证方案确保所有结果被检 验。
验证
在将方法应用到新数据组之前(如来自于临床试验的数据),所描述的 任何预测方法的应用都包括训练和交叉验证(43,55)。训练包括取得感兴趣 的数据组的子集(如来自于结直肠肿瘤的基因表达测量值),以便将其分级 到正被检测的类别中(如复发和不复发肿瘤)。该训练集用于生成预测模型 (如上所定义的),并用其检验剩余的数据(检测集)。
改变预测模型的参数以在检验集中获得更好结果是可能的。但是,这可 能导致过拟合的状况,此处预测模型用于训练数据组但不用于任何外部数据 组。为解决这个问题,进行了验证程序。一般应用两种主要类型的验证,第 一种(保持验证)包括将数据组分割成三组:检测,训练,和验证。其中验 证集不输入训练程序,因此任何参数的调整或其它细化必须发生在检测集应 用过程中(而不是验证集)。第二种主要类型是交叉验证,它可通过以下所 述的几种不同方式应用。
交叉验证有两种主要的亚类型:K重交叉验证和留一法交叉验证。
K重交叉验证:数据组被分成K个子样品,每个子样品含有与原来大约 相同类别组的比例。在每轮验证中,K个子样品之一被取出,利用剩余的数 据组完成训练。这轮的训练有效性通过对保留组的分类正确程度来指示。该 程序被重复K次,并通过对比预测类别和已知类别来确定整体有效性。
留一法交叉验证:一种常用的K重交叉验证的变体,K=n,其中n是 样品数量。
如表1和2所描述的那些CCPMS的组合可用于构建预后的预测模型。
预后信号
含有一种或多种这些标记的预后信号可通过源自这些信号的一种或多 种预测模型的应用用于确定患者的结果。尤其是,临床医生或研究者可测定 信号中一种或多种标记的差异表达(如:增加或减少表达),应用到预测模 型,并因此预测阴性预后,如患者疾病复发的可能形,或可选择地阳性预后 的可能性(持续地缓解)。
已开发一组预后信号。首先,通过在两个数据组中交叉对比预测能力开 发了两种信号:包括德国结肠直肠癌样品的微阵列实验集,和包括新西兰样 品的微阵列实验集(实施例6所讨论的)。之后,进行了单独基于德国数据 组的有效信号的穷举统计搜索(实施例17所讨论的)。
如以下的实施例6所述,由一组德国结肠直肠癌样品已经建立了一种含 有19个基因的预后信号(表4)。还由新西兰患者结直肠肿瘤样品建立了另一 含有22个基因的预后信号(表3)。通过获取患者样品(如肿瘤样品),并将 样品中一种或多种标记的表达水平与差异表达谱进行匹配,可确定癌症复发 的可能性。
表3:新西兰预后信号
  WDR44 WD重复结构域44 0.81 Hs.98510 NM_019045 RBMS1 Rna结合基序,单链相互作 用1,异构体d            1.27 Hs.470412 NM_016836 SACM1L Ras-GTP酶活化蛋白SH3 结构域结合蛋白2      0.84 Hs.156509 NM_014016 SOAT1 固醇o酰基转移酶酰基辅  酶a:胆固醇酰基转移酶1 1.21 Hs.496383 NM_003101 PBK Pdz结合激酶 0.76 Hs.104741 NM_018492 G3BP2 Ras-GTP酶活化蛋白SH3 结构域结合蛋白2      0.86 Hs.303676 NM_012297 ZBTB20 含锌指和BTB结构域20 1.2 Hs.477166 NM_015642 ZNF410 锌指蛋白410 0.84 Hs.270869 NM_021188 COMMD2 含COMM结构域2 1.09 Hs.591315 NM_016094 PSMC1 蛋白酶体(前体,巨蛋白因 子)26s亚基,atp酶1      0.79 Hs.356654 NM_002802 COX10      COX10同源物,细胞色素c    氧化酶聚集蛋白,亚铁血红 素A:法尼基转移酶(酵母)  0.9     Hs.462278           NM_001303           GTF3C5 普通转录因子iiic,多肽5 (63kDa)                 0.84 Hs.495417 NM_012087 HMMR 透明质酸调节的运动受体 (rhamm)                0.78 Hs.72550 NM_012485 UBE2L3 泛素偶联酶e213 0.83 Hs.108104 NM_003347 GNAS gnas复合体位点 1.26 Hs.125898 NM_000516 PPP2R2A         蛋白磷酸化酶2(前体2a), 调控亚基b(pr52),α异   构体                    0.91      Hs.146339           NM_002717          
  RNASE2        核糖核酸酶,RNA酶a家   族,2(肝,嗜酸性粒细胞 衍生神经毒素)          0.83      Hs.728        NM_002934           SCOC 短卷曲状卷曲蛋白 0.78 Hs.480815 NM_032547 PSMD9 蛋白酶体(前体,巨蛋白因 子)26s亚基,atp酶9      0.89 Hs.131151 NM_002813 EIF3S7 真核细胞翻译起始因子3, 亚基7(ζ,66/67kDa)     0.85 Hs.55682 NM_003753 ATP2B4        ATP酶,Ca++运输,等离 子膜(plasma membrane)4  1.11      Hs.343522           NM_001001396              NM_001684    ABCC9 ATP结合盒,亚家族c,成 员9,异构体超2a-δ-14  0.9 Hs.446050 NM_020298
表4:德国预后信号
  基因标识 基因说明 表达倍数差异(复 发/不复发)      Unigene聚类 Genebank 登录号   CXCL10 趋化因子(C-X-C基序) 配体10              0.87 Hs.413924 NM_001565 FAS                 FAS(TNF受体超家族成 员6)                                                                            0.9                 Hs.244139                                         NM_000043           NM_152871 NM_152872 NM_152873 NM_152874
  NM_152875 NM_152876 NM_152877 CXCL9 趋化因子(C-X-C基序) 配体9               0.87 Hs.77367 NM_002416 TLK1 卷毛样激酶1 0.91 Hs.470586 NM_012290 CXCL11 趋化因子(C-X-C基序) 配体11              0.75 Hs.518814 NM_005409 PBK T-LAK细胞源蛋白激酶 0.86 Hs.104741 NM_018492 PSAT1 磷酸丝氨酸氨基转移酶1 0.91 Hs.494261 NM_021154 MAD2L1 MAD2有丝分裂终止缺失 样蛋白1(酵母)        0.89 Hs.533185 NM_002358 CA2 碳酸脱水酶II 0.84 Hs.155097 NM_000067
  GZMB      粒酶B(粒酶2,细胞毒T   淋巴细胞相关丝氨酸酯酶 1)                     0.9     Hs.1051         NM_004131           SLC4A4        溶质运载蛋白家族4,重  碳酸钠协同转运子,成员 4                      0.86      Hs.5462         NM_003759           DLG7 盘状大同源物7(果蝇) 0.89 Hs.77695 NM_014750 TNFRSF11A           肿瘤坏死因子受体超家 族,成员11a,NFKB活  化因子               0.9     Hs.204044           NM_003839           KITLG KIT配体 0.91 Hs.1048 NM_000899 INDO 吲哚胺-吡咯2,3双加氧 酶                    0.91 Hs.840 NM_002164 GBP1 干扰素诱导的粒酶结合蛋 白1,67kDa             0.9 Hs.62661 NM_002053 CXCL13        趋化因子(C-X-C基序)  配体13(B细胞趋化引诱 剂)                  0.86      Hs.100431           NM_006419          
  CLCA4 钙活化氯通道,家族成员 4                      0.84 Hs.546343 NM_012128 PCP4 Purkinje细胞蛋白4 1.14 Hs.80296 NM_006198
表5:免疫反应基因
  基因标识 基因说明 表达倍数差异(复发 /不复发)          Unigene聚类 Genebank登 录号             CXCL9 趋化因子(C-X-C基序) 配体9                    0.87          Hs.77367           NM_002416        CXCL10 趋化因子(C-X-C基序) 配体10                   0.87           Hs.413924           NM_001565        CXCL11 趋化因子(C-X-C基序) 配体11                   0.75           Hs.518814          AF030514               CXCL13 趋化因子(C-X-C基序) 配体13(B细胞趋化引  诱剂)                         0.86                     Hs.100431                     NM_006419     PBK T-LAK细胞源蛋白激 酶                     0.86           Hs.104741           NM_018492     INDO 吲哚胺-吡咯2,3双加 氧酶                     0.91        Hs.840        M34455      GBP1 干扰素诱导的粒酶结 合蛋白1,67kDa         0.9          Hs.62661           NM_002053      GZMB 粒酶B(粒酶2,细胞毒 T淋巴细胞相关丝氨酸     0.9         Hs.1051        J03189
  基因标识 基因说明 表达倍数差异(复发 /不复发)          Unigene聚类 Genebank登 录号       酯酶1) KITLG KIT配体 0.91 Hs.1048 NM_000899                     TNFRSF11A 肿瘤坏死因子受体超  家族,成员11a,NFKB 活化因子                    0.9                     Hs.204044                     NM_003839     FAS FAS(TNF受体超家族 成员6)                0.9           Hs.244139        Z70519
在某些方面,本发明提供了一种判断癌症预后的方法,包括(a)提供癌 样品;(b)检测所述样品中CCPM家族成员的表达水平;和(c)判断癌症的 预后。在一个方面,癌症是结肠直肠癌。
在其它方面,发明包括检测CCPM mRNA表达水平的步骤。在其它方 面,发明包括检测CCPM多肽表达水平的步骤。在进一方面,发明包括检测 CCPM肽表达水平的步骤。在更多方面,发明包括检测在所述样品中的多于 一种CCPM家族成员的表达水平的步骤。在更多方面,CCPM是一个免疫 反应相关基因。在进一方面,CCPM选自于表3,4,8A,8B,或9所列的 标记。在更多方面,CCPM被包含在选自表3,4,8A,8B,或9所列的信 号中。
在更多方面,发明包括了检测WDR44,RBMS1,SACM1L,SOAT1, PBK,G3BP2,ZBTB20,ZNF410,COMMD2,PSMC1,COX10,GTF3C5, HMMR,UBE2L3,GNAS,PPP2R2A,RNASE2,SCOC,PSMD9,EIF3S7, ATP2B4,和ABCC9的表达水平。在更多方面,发明包括了检测CXCL10, FAS,CXCLO,TLK1,CXCLI1,PBK,PSAT1,MAD2L1,CA2,GZMB, SLC4A4,DLG7,TNFRSFI1A,KITLG,INDO,GBP1,CXCL13,CLCA4, 和PCP4的表达水平。
在更多方面,发明包括了一种为癌症确定治疗方案的方法,包括:(a)提 供癌样品;(b)检测所述样品中CCPM家族成员的表达水平;和(c)根据 CCPM家族成员的表达水平判断癌症的预后;和(d)根据预后确定治疗方案。
在更多方面,发明包括了一种检测CCPM的装置,包括:其上具有CCPM 捕获剂的基片;和与基片相连的检测器,所述检测器可检测与捕获剂相关的 CCPM。附加方面包括检测癌的试剂盒,包括:基片;CCPM捕获剂;和使 用说明。发明更多方面包括利用qPCR检测CCPM的方法,包括:所述CCPM 的特异性正向引物;所述CCPM的特异性反向引物;PCR试剂;反应瓶; 和使用说明。
本发明的附加方面包括检测CCPM多肽或肽存在的试剂盒,包括:具有 所述CCPM多肽或肽的捕获剂的基片;所述CCPM多肽或肽的特异性抗体; 可在所述CCPM多肽或肽的结合抗体上加标签的试剂;和使用说明。
在更多方面,本发明包括一种判断结肠直肠癌预后的方法,包括以下步 骤:提供一种来自于疑似结肠直肠癌患者的肿瘤样品;利用ELISA方法测 定其中存在的CCPM多肽。在本发明的特定方面,发明的CCPM是选自表 1,2,5或9所列的标记。在更多方面,CCPM被包含在选自于表3,4,8A, 8B,或9所列的信号的预后信号中。
实施例
本文中所描述的实施例是用于解释发明的实施方式。分子诊断领域普通 技术人员所知的其它实施方式,方法和分析类型无需在此详细描述。本领域 范围内的其它实施方式也被认为是本发明的一部分。
实施例1:患者和方法
本研究中包括两组患者,一组来自于新西兰(NZ)而第二组来自于德国 (DE)。NZ患者是包括所有病期的前瞻性群组研究的部分,而DE样品是选 自于肿瘤库。临床信息如表6所述,而图1概述了实验设计。
实施例2:肿瘤样品
来自于149例NA患者的原发性结直肠肿瘤样品是取自1995-2000年间 在Dunedin医院和Auckland医药进行手术的患者。
肿瘤样品在液氮中速冻。由单个病理学家(H-S Y)评价了所有的手术标 本,并估计其中含有平均85%的肿瘤细胞。在149例CRC患者中,12例存 在肿瘤转移,35例已复发癌症,而102例在跟踪至少5年后仍没病。
来自于DE患者的原发性结直肠肿瘤样品是取自1995-2001年间在慕尼 黑科技大学的外科系进行手术的患者。从库存的由手术室中现取并经液氮速 冻的肿瘤中选取了一组55例结肠直肠癌样品。样品取自于11例I期癌症患 者和44例II期癌症患者。有29例患者没有复发而26例患者在跟踪至少5 年后复发了癌症。肿瘤含量范围在70-100%之间,平均87%。
表6:新西兰和德国结直肠肿瘤的临床特征
1.持续性疾病


实施例3:RNA的提取和目标标记
NZ肿瘤:将肿瘤均质并利用Tri-试剂(Progenz,Auckland,新西兰)提取 RNA。然后利用RNeasy迷你柱(Qiagen,Victoria,澳大利亚)进一步纯化 RNA。按间接氨基酸烯丙基cDNA标记方案用Cy5 dUTP标记10微克RNA。 来自于12株不同细胞株的参照RNA用Cy5 dUTP标记。利用QiaQuick PCR 纯化试剂盒(Qiagen,Victoria,澳大利亚)按供应商的方案纯化荧光素标记的 cDNA。
DE肿瘤:将肿瘤均质并利用RNeasy迷你试剂盒(Qiagen,Hilden,德国) 分离RNA。按之前所述制备cRNA(9),并在RNeasy柱中纯化(Qiagen,Hilden, 德国),用55μl水洗脱。将15微克cRNA在95℃破碎35分钟并和oligo-dT-T7 引物(Eurogentec,Kóln,德国)合成双链cDNA,并利用Promega RiboMax T7- 试剂盒(Promega,Madison,WI)和生物素-NTP标记混合物(Loxo, Dossenheim,德国)将其转录。
实施例4:微阵列实验
NZ肿瘤:利用印在环氧(epoxy)包被玻片上的MWG Human 30K Array 寡核苷酸实施标记的目标cDNA的杂交。玻片用1%BSA封闭,在预杂交缓 冲液中于42℃杂交至少12小时然后进行高严格性洗涤。用GenePix微阵列 扫描仪扫描载片并用GenePix Pro 4.1微阵列获取器和分析软件(Axon,CA) 分析数据。
DE肿瘤:将cRNA与B2对照寡核苷酸(Affymetrix,Santa Clara,加拿 大),真核杂交对照(Affymetrix,Santa Clara,加拿大),鱼精(Promega,Madison, WI),缓冲液和BSA混合至最终体积300μl,并于45℃杂交到微阵列芯片 16小时(Affymetrix,Santa Clara,加拿大)。按供应商的方案在Affymetrix 流式工作站中实施洗涤步骤,并与链霉亲和素(Roche,Mannheim,德国)、生 物素基化的羊抗链霉亲和素抗体(Serva,Heidelberg,德国)、羊IgG(Sigma, Taufkirchen,德国)和链霉亲和素藻红蛋白(Molecular Probes,Leiden,荷兰) 温育。然后用HP氩离子激光共焦显微镜扫描阵列并利用Affymetrix Microarray Suite 5.0软件处理数码图片数据。
实施例5:数据预处理
NZ数据:在R计算环境(10)中进行数据预处理和标准化。将log2转换 应用于每个阵列的每行中的最显著光密度(foreground intensity)上。每点的数 据用在每个阵列上以便由Bioconductor分析工具组件(12)的limma包(11)进 行点样针头(print-tip)损耗标准化。然后将规模标准化(13)用于阵列间log光 密度比值分布的标准化。标准化后聚类分析显示出数据中存在的基因特异性 点样位移(print-run)效应。差异分析(ANOVA)标准化用于评估和去除每个 基因数据中的点样位移(print-run)效应。149个样品中可用的重复阵列数 据是46个。整体数据组聚类分析显示出互相聚类良好的两次重复阵列表明 阵列平台(array platform)的内部一致性。低光密度基因,在重复之间差异巨 大(重复之间的平均log2差异高于0.5),并从数据组中去除了未知蛋白。 经过起始的标准化程序后,选择10,318个基因的子集用于进一步分析。
DE数据:所有的Affymetrix U133A基因芯片都通过质量控制以消除有 异常特征的扫描,它们是异常低或高的动态范围,高度理想匹配饱和度,高 象素噪声,栅格未对准问题,和低平均信噪比。在R计算环境(10,40)中进 行背景的修正和标准化。利用在昂飞Bioconductor包中运行的稳健多阵列平 均函数(robust multi-array average function)(14)获取来自于探针水平数据 (cel文件)的背景修正和标准化表达测量值。
实施例6:预后信号和交叉验证
利用BRB阵列工具包(超文本转化方案://linus.nci.nih.gov/BRB-Array Tools.html)进行数据分析。利用随机差异模型f检验进行基因选择。在DE 数据中,当采用显著性阈值0.01时发现318个基因差异表达。由于大多数差 异表达的基因在表达上表现出相对小的变化,DE数据的基因选择程序中添 加了两个类别间倍数变化的平均log2值要求高于1.1的条件。利用NZ和 DE数据组中的每个数据的留一法交叉验证(LOOCV)生成了基于基因的预后 信号。为避免过拟合问题,在每个LOOCV反复中进行基因选择和信号构建。 在LOOCV之后,通过被正确预测的样品部分估算预测率,为了找出可为未 知样品做最佳预测的基因,联合六种分类方法研究了采用随机差异模型的不 同t检验阈值:复合共变量分类器(CCP),对角化线性判别分析(DLD),3-最 近邻法(3-NN),1-最近邻法(1-NN),最近质心(NC),和支持矢量机(SVM)。
为确定NZ和DE预后信号的正确性,进行了相互验证(reciprocal validation),即用DE数据组验证NZ信号和进行反向验证。为检测NZ基因, 在DE数据中确定了相对NZ信号中22个基因的探针,并采用LOOCV评价 DE样品的信号仅基于这些探针的性能。类似地,在NZ数据中确定了相对 DE信号中19个基因的探针,并采用LOOCV评价NZ样品的信号的性能。 在上述两种情况下都采用了显著性阈值0.999以确保在每次LOOCV反复中 采用所有的基因。平台(platform)之间的差异(尤其是,log-比率数据对log- 光密度数据)表示预测规则在各数据组中的直接应用是可行的。仅是基因集 而不是所用预测规则的结果对新样品是一般化的。通过置换样品类别标签来 计算LOOCV预测结果的显著性并求出置换数据获得更高的LOOCV预测率 比非置换数据获得的预测率的倍数比例。所有置换分析包括具有表示预测结 果不可能是偶然的小P值的2000次置换。
实施例7:存活分析
利用在R计算环境下的存活包对检查数据进行卡普兰-迈耶存活分析。 存活的定义为手术后的“无病存活”。对于每个分析,构建了存活曲线,并 采用时序检验(the log-rank test)(15)评估存在于正被讨论的两组曲线之间 的显著性差异。考虑对NZ和DE数据组都进行检查。对于无病存活数据, 五年前的正确检查只存在于已死亡的不复发患者,或者最近的临床跟踪发生 在小于五年内。采用R语言的epitools包生成比数比和置信区间。
实施例8:与趋化因子配体共表达的标记的识别
从DE数据中选择与存在于不复发组的预测器中的四个趋化因子的至少 一个的Pearson相关系数高于0.75的基因进行本体分析。采用DAVID进行 本体分析(超本文转化方案://apps 1.niaid.nih.gov/david/)。
实施例9:结果和分析
为识别稳健的预后信号以预测CRC的疾病复发,采用来自于NZ和DE 的两个独立样品集来生成来自于分离的经五年或以上的临床跟踪的原发性 肿瘤系列的阵列表达数据组。经标准化后,采用相同的统计方法分析每个数 据组以产生预后信号,然后在替换的患者系列中验证它。按此方法,在NZ 数据组中验证DE预后信号又在DE数据组中验证NZ预后信号。
实施例10:差异表达标记的彻底识别
DE数据组:BRB阵列工具类别比较程序被用于检测用于显示复发和不 复发样品之间的平均光密度的统计显著性差异的探针。再用RVM(随机差 异模型)生成数据组中每个探针的P值。在第二轮中,采用任意显著性阈值 0.05发现共325个探针在两组样品中显著差异表达。注意基因选择没应用任 何倍数改变的阈值,而是采用了0.05的显著性截止值,并不是实施例6中所 采用的0.001阈值。该不严格阈值(p=0.05代替p=0.001)的目的在于选出 更多的基因用于第二轮信号构建(参见实施例17)。这些探针表示270个独 立基因(表1和表2)。
明显地,显著性检验(随机差异模型)包括下列步骤:为每个基因生成 一个检验统计式,除了在通过将所有基因方差结构表示成一个F分布获取的 合并方差评估中,其对于标准的两组样品t检验(45)是相同的,然后利用该 分布中的参数a和b(由经验似然函数获得的)以形成以下的合并方差的估 值(参看下页),
s 2 = ( n - 2 ) s 2 pooled + 2 b - 1 ( n - 2 ) + 2 a
其中s2是合并方差的新估值,s2pooled是合并方差的标准估值(45),n是 样品数目,而a和b是F分布(46)的参数。基于成形的t统计,可采用自由 度为(n-2)+2a的t分布以获得每个基因的P值。为调整多重假设检验,采 用Benjamini和Hochberg(7)的错误发现率(False DiscoveryRate)控制程序 以生成调整后的每个基因的P值。如果调整后的P值小于0.05则认为该基 因为显著的差异表达。
实施例11:相关标记的识别
为识别可用作预后预测的其它基因,利用R统计计算软件包进行相关分 析。该分析揭示了有167个探针的Pearson相关系数(40,44,45)至少为0.8。 在这些探针中,51个属于325个差异表达探针组,而剩余的116个被认为是 非显著性的(利用阈值0.05的FDR,或“错误发现率(False Discovery Rate)” 控制程序,RVM,或随机差异模型)。该116个探针代表了111个差异基因 (表2)。
实施例12:预后信号的构建
利用寡核苷酸微阵列生成NZ数据组。构建了六种不同信号,其中支持 矢量机(SVM)采用0.0008的基因选择阈值产生最高的LOOCV预测率,并 产生一个22基因信号(77%预测率,53%灵敏度,88%特异性;P=0.002, 表7,8A和8B)。对于表8A和8B,其基因说明在表3和4中。
表7:预后信号构建

SVM:支持矢量机信号;3-NN:3最近邻信号。
§95%置信区间
●P值:从2000个置换分类标签计算而得。
表8A:NZ预后信号
新西兰22基因预后信号
  P值 基因标识 GeneBank登录 分析时未在德
  号 国数据中发现              的基因       2.30E-05 WDR44 NM_019045 * 3.30E-05 RBMS1 NM_016836 4.60E-05 SACM1L NM_014016 6.80E-05 SOAT1 NM_003101 7.90E-05 PBK NM_018492 0.00014 G3BP2 NM_012297 0.000163 ZBTB20 NM_015642 0.000214 ZNF410 NM_021188 * 0.00022 COMMD2 NM_016094 * 0.000293 PSMC1 NM_002802 0.000321 COX10 NM_001303 0.000334 GTF3C5 NM_012087 0.000367 HMMR NM_012485 0.000405 UBE2L3 NM_003347 0.000417 GNAS NM_000516 0.000467 PPP2R2A NM_002717 0.000493 RNASE2 NM_002934 0.000532 SCOC NM_032547 * 0.000578 PSMD9 NM_002813 0.000593 EIF3S7 NM_003753 0.000649 ATP2B4 NM_001001396 NM_001684    0.000737 ABCC9 NM_020298
表8B:DE预后信号
德国19基因预后信号
  P值     基因标识          GeneBank登录 号           分析时未在NZ 数据中发现的 基因         3.00E-06 CXCL10 NM_001565          4.00E-06                                                  FAS                     NM_000043 NM_152871 NM_152872 NM_152873 NM_152874 NM_152875 NM_152876 NM_152877 8.00E-06 CXCL9 NM_002416 * 1.20E-05 TLK1 NM_012290 1.30E-05 CXCL11 NM_005409 2.10E-05 PBK NM_018492 4.20E-05 PSAT1 NM_021154 7.60E-05 MAD2L1 NM_002358 9.80E-05 CA2 NM_000067 0.000128 GZMB NM_004131 * 0.000177 SLC4A4 NM_003759 0.000215 DLG7 NM_014750 * 0.000376 TNFRSF11A NM_003839 0.00038 KITLG NM_000899 0.000579 INDO NM_002164 0.000634 GBP1 NM_002053 0.000919 CXCL13 NM_006419 * 0.000942 CLCA4 NM_012128 * 0.001636 PCP4 NM_006198
NZ信号具有在NZ患者中疾病复发的比数比8.4(95% CI3.5-21.4)。
利用Affymetrix阵列生成DE数据组得到19基因(22探针)和3最近 邻(3-NN)信号(选择阈值0.002,log2倍数变化>1.1,分级率84%,灵敏度 85%,特异性83%,P<0.0001,表3,4,7)。DE信号具有在DE患者中疾 病复发的比数比24.1(95% CI 5.3-144.7)。在卡普兰-迈耶分析(Kaplan-Meier) 中,NZ和DE患者的无病存活明显区别于预测为复发或不复发的患者(NZ 信号,P<0.0001,图2A;DE信号,P<0.0001,图2B)。
实施例13:NZ和DE预后信号的外部验证
为验证NZ信号,通过LOOCV用22个基因构建了DE数据组的SVM 信号。获得了71%的预测率,其是非常有意义的(p=0.002,表7)。利用NZ 信号获得的DE患者复发比数比为5.9(95% CI 1.6-24.5)。我们猜测预测率从 NZ患者的77%减少至DE患者的71%(表7)是由于DE数据中没有NZ 信号中的4个基因。根据NZ信号,预测为复发的DE患者的无病存活明显 低于预测为不复发的患者的无病存活(p=0.0049,图2C)。
然后通过LOOCV利用19个基因构建NZ数据组的3-NN信号来验证 DE信号。经DE信号验证而确定的预测率67%又是有意义的(p=0.046;Table 7)。利用DE信号获得的NZ患者复发的比数比为2.6(95% CI 1.2-6.0)。我们 认为预测率的减少是由于NZ数据中没有DE信号中的5个基因。这由从DE 数据组中去除那5个基因后导致了LOOCV预测率从84%减少至67%得到 证实(表7)。根据DE信号,预测为复发的DE患者的无病存活明显低于 预测为不复发的患者的无病存活(p=0.029,图2D)。
实施例14:通过现行分期体系比较NZ和DE预后信号
在相同的临床病理分期中也观察到了被预测为复发或预测为不复发的 患者之间无病存活的显著差异(图3)。当根据疾病分期将患者预测分级时, NZ信号可以识别在II期(p=0.0013,图3A)和III期(p=0.0295,图3A)亚组 中更可能复发的患者。若DE信号被应用于NZ数据组时表现出更小的范围, 此处只在III期患者中观察到差异(p=0.0491,图3B)。DE信号预测准确率的 下降可能还是由于没有NZ数据中的降低LOOCV预测率的5个基因。
实施例15:信号中与CRC疾病发展有关的基因
据报导,在NZ信号(表3)中的许多基因包括G3BP2(16),RBMS1(17), HMMR(18),UBE2L3(19),GNAS(20),RNASE2(21)和ABCC9(22)都参 与了癌症的发展,而RBMS1(23),EIF3S7(24)和GTF3C5(25)参与了转录或 翻译。PBK是一种蛋白激酶,它参与了有丝分裂的过程(26),并且是NZ和 DE信号中唯一的共有基因。在DE信号(表4)中的19个基因中的11个参 与了免疫反应,包括4个趋化因子配体(CXCL9,CXCL10,CXCL11,CXCL12; (27)),PBK(28),INDO(29),GBP1(30),GZMB(31),KITLG(32),和肿瘤坏死 因子族中的两个受体(TNFRSF1IA,FAS;33))。
据发现86个基因与DE数据中4个趋化因子配体中的至少一个适度相 关(Pearson相关系数>0.75)。经本体分析发现这65个基因中的39个属于 免疫反应的类别(p<10-26)。这个结果表明宿主免疫反应在确定CRC复发中 起关键作用。
实施例16:NZ和DE预后信号的讨论
已经表明两种不同的预后信号可用于改进目前结肠直肠癌的预后。
对于DE信号,令人惊奇和预料不到的是I/II期样品可用于预测III期结 果。还令人惊奇的是许多与疾病复发相关的基因与免疫反应相关。免疫反应 在不同癌以及CRC患者中的T淋巴细胞浸润的发展中发挥重要作用指示良 好的预后(36-38)。全部11个免疫反应基因(表5)在复发患者中都下调,这 是基于已知生物机制所预料不到的。
为进一步确认这些结果,选择了4个趋化因子进行进一步分析。趋化因 子配体不仅反应免疫系统活性和介导白细胞再生还参与了趋化现象,细胞粘 附和运动,和血管形成(36)。为研究免疫反应基因的作用,鉴别了86个与趋 化因子配体共表达的基因。这些基因中的几乎一半具有“免疫反应”类别中 的基因本体分类,这表明这些基因在复发过程中的主要功能是调节免疫反 应。而且,发现了CD4+和CD8+T细胞抗原(CD8A,CD3,PRP1,TRA@, TRB@)或功能相关抗原,例如主要组织相容性分子,干扰素γ诱导蛋白和 IL2RB也在共表达列表中。肿瘤特异性CD4+ T细胞CD8+ T细胞的活化导 致了在小鼠结直肠模型中的肿瘤排斥(37)。共同地,这些发现表明淋巴细胞 形成部分参与了原发性肿瘤细胞扩散的最小化肿瘤特异性宿主反应。
实施例17:附加预后信号的选择
经在两个数据组中的交叉验证,上述两个预后信号的性能是极好的。开 展了进一步研究,利用纯粹的统计途径开发了除前述之外的各种信号,它们 也可预测其它数据组的预后。该研究的其它目标之一就是确保用于标准化微 阵列数据(稳健多元阵列的平均(robust multi-array average))的方法在基 因选择中不产生负面影响。
图4显示了由可变长度信号获得的分类率。分类率是正确的复发预测的 比例(以占总预测的百分比表示)即被正确分类样品的比例。利用11重交 叉验证确定分类率。对于这种交叉验证,在基因选择之前,从其中取出随机 选择的分类样品(即:按全样品的复发比不复发的比值)作为验证组,并构 建模型(利用剩余50个样品的训练组)。然后将交叉验证重复10次以便全 部55个样品都出现在每次验证集中。该11重交叉验证过程重复10次,而 结果图示在图4和5中。利用自助偏差校正(43)来修正显示的分类率,以给 出信号应用于另一数据组的预期分类率。从这个分析中,可确定更短的信号 有最佳的分类率。此外,对最频繁出现在分类器中的基因的分析显示了差异 力(discriminatory power)通常是源于两个基因的效力:FAS和ME2。这在图 5中表现的最清楚,其显示了从数据组中去除两个基因FAS和ME2后信号 的效力。更多的细节参见图5的图例。
可通过从原始肿瘤集的1000个分级的亚样品中生成基因列表以充分研 究特征选择标准化的影响,并每次从数据组中去除5个样品(即总样品数的 1/11)。(这与11重交叉验证效果相同。)并标记下每个基因出现在基因列 表“前n”(即前10,前20,前100和前325)的次数。该值称为“前数”。 采用三种不同的标准化方法(40)(图6)和三种不同的过滤统计(图7)生成前 数。前数和所用的标准化方案和过滤统计(41,42)之间是密切相关的。因而, 虽然标准化和特征选择方法是重要的,所列出基因中的许多基因不依赖于数 据前处理方法而出现在基因列表中。这表明标准化方法的选择对于选用于构 建信号的基因仅有最小的影响。发现由所有标准方法和统计总结而得前数是 复发和不复发肿瘤之间基因差异表达的稳健指标。
通过随机取样利用基因列表(参见表1和表2)中的基因生成信号。具 有更高前数的基因更可能被选中,因此样品的生成是有利的。利用在2-55 之间的Affymetrix探针生成各种信号。利用三种分类器:k=1的k最近邻法, k=3的k最近邻法,和带线性核函数的支持矢量机,并采用留一法交叉验证 选择中值分类率>80%的信号。
平均而言,鉴于对新数据组预后的预测能力(图4和图5),较长的预 后信号优于较短的信号。基因FAS和ME2也是重要的(上文已讨论)。根 据这两个因素,以及不含有FAS或ME2的较短信号性能更差的事实,来选 择显示在下表9中的候选信号。(从随机生成的信号池中)利用留一法交叉 验证选择中值中值分类率>80%的信号(利用三种分类器:k=1的k最近邻 法,k=3的k最近邻法,和带线性核函数的支持矢量机)。
此外,因为平均起来较长信号(>10个基因/信号)性能趋向更好,我们 从含30个或更多探针/每个信号的信号池中选择含20或更多个基因/信号的 信号。根据图4和图5显示的结果,可预期这些信号(表10)应用于其它数 据组时将表现出约70%的分类率。据发现所有以这种方式生成的信号都含有 ME2,并除一个外都含有FAS,这可能是由于这些基因在提供预后预测中的 重要性。应该注意的是,在其它数据组中利用这种方法在内部数据组中获得 的高分类率并不一定表示这些信号将比实施例12所列信号表现更好。更适 当的说,目的是产生一系列信号,期望其至少和前述信号一样应用于其它数 据组。含有预后信号的标记如表9所列。
表9:附加预后信号(注意在复发预测中SVM=支持矢量机,3NN=3最 近邻法,1NN=1最近邻法,Sens=灵敏度,Spec=特异性)













































































实施例20:预测方法的特定应用
在上述基因信号的选择中,采用了两种不同统计方法以描绘信号:k最 近邻法,和支持矢量机。这些方法通过分类(ref)和el071(ref)包以R统计软 件系统包来提供。
本文所述的信号按如下进行检测。在两种情况下,用于开发给定信号的 预测信号模型的10个数据是在复发和不复发样品中的基因表达值(来自于 Affymetrix阵列数据的未标准化光密度)相对于包含在信号中基因的探针:
·对于k最近邻法:我们采用k=1和k=3的留一法交叉验证,获得的灵 敏度(正确分类的阳性样品即复发的比例)和特异性(被正确分类的阴性样 品即不复发样品的比例),如表9所示。
·采用下列的支持矢量机参数通过数据组获得留一法交叉验证灵敏度 和特异性数据:通过采用线性核来生成支持矢量机模型,所有所用其它参数 是从el 071包的svm函数中获取的缺省值。
应该注意的是含有信号的基因本身是从明显差异表达的探针列表中获 取的,并且发现来自于基因列表的这些基因与NZ 22基因信号中的基因相 关。在某些情况下每个基因有超过一种的重要(或相关)探针。在这些情况 下,预测模型使用该基因的所有重要探针(即在重要探针列表中的那些,参 见表1)的中值光密度数据。
参考文献
1.Arnold CN,Goel A,Blum HE,Richard Boland C.Molecular pathogenesis of colorectal cancer.Cancer 2005;104:2035-47.
2.Anwar S,Frayling IM,Scott NA,Carlson GL.Systematic review of genetic influences on the prognosis of colorectal cancer.Br J Surg 2004;91: 1275-91.
3.Wang Y,Jatkoe T,Zhang Y,et al.Gene expression profiles and molecular markers to predict recurrence of Dukes′B colon cancer.J Clin Oncol 2004;22:1564-71.
4.Eschrich S,Yang I,Bloom G,et al.Molecular staging for survival prediction of colorectal cancer patients.J Clin Oncol 2005;23:3526-35.
5.Barrier A,Lemoine A,Boelle PY,et al.Colon cancer prognosis prediction by gene expression profiling.Oncogene 2005;24:6155-64.6.Simon R. Roadmap for developing and validating therapeutically relevant genomic classifiers.J Clin Oncol 2005;23:7332-41.
7.Michiels S,Koscielny S,Hill C.Prediction of cancer outcome with microarrays:a multiple random validation strategy.Lancet 2005;365:488-92.
8.Marshall E.Getting the noise out of gene arrays.Science 2004;306:630-31.9.Birkenkamp-Demtroder K,Christensen LL,Olesen SH,et al. Gene expression in colorectal cancer.Cancer Res 2002;62:4352-63.
10.Ihaka R,Gentleman R.R:A language for data analysis and graphics. Journal of Computational and Graphical Statistics 1996;5:299-314.
11.Smyth GK.Linear models and empirical Bayes methods for assessing differential expression in microarray experiments.Statistical Applications in Genetics and Molecular Biology 2004;3:Article 3.
12.Gentleman RC,Carey VJ5 Bates DM,et al.Bioconductor:open software development for computational biology and bioinformatics.Genome Biol 2004;5:R80.
13.Smyth GK,Speed TP.Normalization of cDNA microarray data.In: Carter D,ed.METHODS:Selecting Candidate Genes from DNA Array Screens: Application to Neuroscience.Vol.31;2003:265-73.14.Mzarry RA,Hobbs B, CollinF,et al.Exploration,normalization,and summaries of high density oligonucleotide array probe level data.Biostatistics 2003,4:249-64.
15.Harrington DP,Fleming TR.A class of ranktest procedures for censored survival data.Biometrika 1982,69:553-66.16.Barnes CJ,Li F,Mandal M,Yang Z,Sahin AA,Kumar R.Heregulin induces expression,ATPase activity,and nuclear localization of G3BP,a Ras signaling component,in human breast tumors.Cancer Res 2002;62:1251-55.
17.NiM T,Izumi S,Saegusa Y,et al.MSSP promotes ras/myc cooperative cell transforming activity by binding to c-Myc.Genes Cells 2000,5:127-41.18. Rein DT,Roehrig K,Schondorf T,et al.Expression of the hyaluronan receptor RHAMM in endometrial carcinomas suggests a role in tumor progression and metastasis.J Cancer Res Clin Oncol 2003,129:161-64.
19.Fernandez P,Carretero J,Medina PP,et al.Distinctive gene expression of human lung adenocarcinomas carrying LKB1 mutations.Oncogene 2004,23:5084-91.20.Frey UH,Eisenhardt A,Lummen G,et al.The T393C polymorphism of the G alpha s gene(GNAS1)is a novel prognostic marker in bladder cancer.Cancer Epidemiol Biomarkers Prev 2005;14:871-77.
21.Niini T,Vettenranta K,Holhnen J,et al.Expression of myeloid-speciflc genes in childhood acute lymphoblastic leukemia-a cDNA array study. Leukemia 2002,16:2213-21.
22.Yasui K,Mihara S,Zhao C,et al.Alteration in copy numbers of genes as a mechanism for acquired drug resistance.Cancer Res 2004;64:1403-10.
23.Nomura J,Matsumoto K,Iguchi-Aiiga SM5 Ariga H.Positive regulation of Fas gene expression by MSSP and abrogation of Fas-mediated apoptosis induction in MSSP-deficient mice.Exp Cell Res 2005,305:324-32.
24.MayeurGL,Fraser CS,Peiretti F,Block KL,Hershey JW. Characterization of eIF3k:a newly discovered subunit of mammalian translation initiation factor elF3.Eur J Biochem 2003;270:4133-39.
25.Hsieh YJ,Wang Z5 Kovelman R,Roeder RG.Cloning and characterization of two evolutionarily conserved subunits(TFIIIC 102 and TFIIIC63)of human TFIIIC and their involvement in functional interactions with TFIIIB and RNA polymerase III.MoI Cell Biol 1999;19:4944-52.
26.Matsumoto S,Abe Y,Fujibuchi T,et al.Characterization of a MAPKK-like protein kinase TOPK.Biochem Biophys Res Commun 2004;325:997-1004.
27.Dong VM,McDermott DH,Abdi R.Chemokmes and diseases.Eur J Dermatol 2003;13:224-30.28.Abe Y,Matsumoto S,Kito K,Ueda N.Cloning and expression of a novel MAPKK-like protein kinase,lymphokine-activated killer T-cell-originated protein kinase,specifically expressed in the testis and activated lymphoid cells.J Biol Chem 2000,275:21525-31.
29.Logan GJ,Smyth CM,Earl JW,et al.HeLa cells cocultured with peripheral blood lymphocytes acquire an immuno-inhibitory phenotype through up-regulation of indoleamine 2,3-dioxygenase activity.Immunology 2002;105:478-87.
30.Lubeseder-Martellato C,Guenzi E,Jorg A,et al.Guanylate-binding protein-1 expression is selectively induced by inflammatory cytokines and is an activation marker of endothelial cells during inflammatory diseases.Am J Pathol 2002,161:1749-59.
31.Phillips SM,Banerjea A,Feakins R,Li SR,Bustin SA,Dorudi S. Tumor- infiltrating lymphocytes in colorectal cancer with microsatellite instability are activated and cytotoxic.Br J Surg 2004;91:469-75.
32.Oliveira SH,Taub DD,Nagel J5 et al.Stem cell factor induces eosinophil activation and degranulation:mediator release and gene array analysis. Blood 2002,100:4291-97.
33.Xanthoulea S,Pasparakis M5 Kousteni S,et al.Tumor necrosis factor (TNF)receptor shedding controls thresholds of innate immune activation that balance opposing TNF functions in infectious and inflammatory diseases.J Exp Med 2004;200:367-76.
34.Brennan DJ,O′Brien SL,Fagan A,et al.Application of DNA microarray technology in determining breast cancer prognosis and therapeutic response. Expert Opin Biol Ther 2005;5:1069-83.
35.Canna K,McArdle PA,McMillan DC,et al.The relationship between tumor T-lymphocyte infiltration,the systemic inflammatory response and survival in patients undergoing curative resection for colorectal cancer.Br J Cancer 2005;92:651-54.36.Rossi D,Zlotnik A.The biology of chemokines and their receptors.Annu Rev Immunol 2000;18:217-42.
37.Miyazaki M,Nakatsura T,Yokomine K,et al.DNA vaccination of HSP105 leads to tumor rejection of colorectal cancer and melanoma in mice through activation of both CD4 T cells and CD8 T cells.Cancer Sci 2005;96:695-705.38.Ein-Dor L,KeIa I,Getz G,Givol D,Domany E.Outcome signature genes in breast cancer:is there a unique set?Bioinformatics 2005;21:171-78.
39.Becker RA,Chambers,JM and Wilks AR The New S Language. Wadsworth & Brooks/Cole 1988.
40.Gentleman R.,Carey VJ,Huber W.,Irizarry RA,Dudoit S. Bioinformatics and Computational Biology Solutions Using R and Bioconductor. Springer 2005.
41.Bauer DF.Constructing confidence sets using rank statistics.Journal of the American Statistical Association 1972;67:687-690.
42.Lδnnstedt I.and Speed TP.Replicated microarray data.Stati stica Sinica 2002;12:31-46.43.Efron,B.and Tibshirani,R.An Introduction to the Bootstrap. Chapman & Hall.2005
44.Harraway J.Introductory Statistical Methods and the Analysis of Variance.University of Otago Press 1993.
45.McCabe GP,Moore DS Introduction to the Practice of Statistics W.H. Freeman & Co.2005
46.Casella G,Berger RL Statistical Inference Wadsworth 2001
47.McLaughlan GJ,Do K,Ambroise C Analyzing Microarray Gene Expression Data(Wiley Series in Probability and Statistics)2004
48.Wright GW5 Simon RM A random variance model for detection of differential gene expression in small microarray experiments.Bioinformatics 2003;19:2448-2455
49.Hastie T,Tibshirani R,Friedman J The Elements of Statistical Learning Data Mining,Inference and Prediction Springer 2003 50.Neter J,Kutner MH, Wasserman W5 Nachtsheim CJ,Applied Linear Statistical Models McGraw-Hill/frwin 1996
51.Venables,WN5 Ripley,BD Modern Applied Statistics with S.4th ed.. Springer 2002.
52.Ripley,B.D.Pattern Recognition and Neural Networks Cambridge University Press 1996
53.Cristianini N5 Shawe-Taylor J An Introduction to Support Vector Machines(and other kernel-based learning methods)Cambridge University Press 2000
54.Breiman L5 Friedman J,Stone CJ,Olshen RA Classification and Regression Trees Chapman & Hall/CRC 1984 55.Good,PI Resampling Methods: A Practical Guide to Data Analysis Birkhauser 1999
说明书中的参考文献当成整体或分成具有公知等效的成分,这种等效如 果单独列出则在此合并。
尽管通过实施例和相关可能的实施方式描述了本发明,但应该重视的是 可实施的改进和/或修正都不偏离它们的范围。
相关申请
本申请要求以2005年12月23日提交的申请号为544432的新西兰临时 专利申请为优先权,其被全文引入本文作为参考。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈