首页 / 专利库 / 人工智能 / 置信度 / 涉及乳癌诊断的材料和方法

涉及乳癌诊断的材料和方法

阅读:744发布:2024-02-22

专利汇可以提供涉及乳癌诊断的材料和方法专利检索,专利查询,专利分析的服务。并且将乳瘤分类为雌 激素 受体阳性和阴性(ER+和ER-)亚型是乳癌 治疗 中进行的一项重要的 鉴别 项目。通常根据已知其表达受ER活性影响的基因的表达谱来进行ER分型。有些 肿瘤 不能根据这些表达数据确信的归入特定ER类型。本 发明 人 发现,这些“低 置信度 ”肿瘤构成了乳瘤的一类独特 生物 学亚型,它的总体存活比高置信度肿瘤显著更差。本发明提供了能够鉴别低置信度肿瘤与高置信度肿瘤的几组基因,以及用于对乳瘤进行恰当分类的方法和装置。,下面是涉及乳癌诊断的材料和方法专利的具体信息内容。

1.用于将乳瘤样品分类为“低置信度”或“高置信度”的方法, 该方法包括提供所述乳瘤样品的表达谱,其中该表达谱包含多基因分 类物的表达平,所述多基因分类物至少包含表S4的5种基因,并根 据该表达谱将肿瘤分类为高或低置信度肿瘤。
2.依照权利要求1的方法,包括确定样品的雌激素受体(ER) 状态。
3.依照权利要求1或2的方法,包括步骤:
(a)由取自患者的乳瘤样品获得表达产物;
(b)通过将所述表达产物接触结合成员来测定多基因分类物的表 达水平,所述多基因分类物至少包含表S4的5种基因,每个结合成员 能够与多基因分类物的表达产物特异结合;并
(c)根据该表达水平鉴定所述患者中低置信度乳瘤的存在。
4.依照权利要求3的方法,其中表达产物是cDNA且结合成员是 能够与该cDNA特异杂交的核酸探针。
5.依照权利要求3的方法,其中表达产物是RNA或mRNA且结合 成员是能够与RNA或mRNA特异杂交并在PCR中扩增它们的核酸引物。
6.依照权利要求3的方法,其中表达产物是多肽且结合成员是 能够与该多肽特异结合的抗体结合结构域。
7.依照权利要求3至6任一项的方法,包括将来自测试乳瘤样 品的表达产物的结合谱与其它先前获得的结合谱的数据库和/或先前 确定的存在低置信度肿瘤的特征性“标准”谱进行比较。
8.依照权利要求7的方法,其中比较是通过计算机进行的,它 被编程报告测试谱与标准谱之间的统计学相似性,从而可以进行分类。
9.依照权利要求1至8任一项的方法,其中将乳瘤样品分类的 步骤包括使用加权表决、支持矢量系统和/或分级聚类。
10.依照权利要求1至9任一项的方法,其中多基因分类物包含 表S4(a)的基因、表S4(b)的基因或二者之一的子集。
11.依照权利要求10的方法,其中基因的子集来自表S4(a)或表 S4(b)的上半部。
12.依照权利要求10或11的方法,其中多基因分类物包含表 S4(a)和/或表S4(b)的上调和下调基因的混合。
13.用于将乳瘤样品分类为“低置信度”或“高置信度”的方法, 包括提供所述乳瘤样品的表达谱,其中该表达谱包含多基因分类物的 表达水平,所述多基因分类物至少包含表2的5种基因,并根据该表 达谱将肿瘤分类为高或低置信度肿瘤。
14.依照权利要求13的方法,包括确定样品的雌激素受体(ER) 状态。
15.依照权利要求13或14的方法,包括步骤:
(a)由取自患者的乳瘤样品获得表达产物;
(b)通过将所述表达产物接触结合成员来确定多基因分类物的表 达水平,所述多基因分类物至少包含表2的5种基因,每个结合成员 能够与多基因分类物的表达产物特异结合;并
(c)根据表达水平鉴定所述患者中低置信度乳瘤的存在。
16.依照权利要求15的方法,其中表达产物是cDNA且结合成员 是能够与该cDNA特异杂交的核酸探针。
17.依照权利要求15的方法,其中表达产物是RNA或mRNA且结 合成员是能够与该RNA或mRNA特异杂交并在PCR中扩增它们的核酸引 物。
18.依照权利要求15的方法,其中表达产物是多肽且结合成员是 能够与该多肽特异结合的抗体结合结构域。
19.依照权利要求15至18任一项的方法,包括将来自测试乳瘤 样品的表达产物的结合谱与其它先前获得的结合谱的数据库和/或先 前测定的存在低置信度肿瘤的特征性“标准”谱进行比较。
20.依照权利要求19的方法,其中比较是通过计算机进行的,它 被编程报告测试谱与标准谱之间的统计学相似性,从而可以进行分类。
21.依照权利要求13至20任一项的方法,其中将乳瘤样品分类 的步骤包括使用加权表决、支持矢量系统和/或分级聚类。
22.依照权利要求13至21任一项的方法,其中多基因分类物包 含表2(a)的基因、表2(b)的基因或二者之一的子集。
23.依照权利要求22的方法,其中基因的子集来自表2(a)或表 2(b)的上半部。
24.依照权利要求22或23的方法,其中多基因分类物包含表2(a) 和/或表2(b)的上调和下调基因的混合。
25.用于将乳瘤样品分类为“低置信度”或“高置信度”的方法, 该方法包括提供所述乳瘤样品的表达谱,其中该表达谱包含多基因分 类物的表达水平,所述多基因分类物包含表A1和/或表A2和/或表A3 和/或表A4的至少5种基因,并根据表达谱将所述肿瘤分类为高或低 置信度肿瘤。
26.依照权利要求25的方法,包括步骤:
(a)由取自患者的乳瘤样品获得表达产物;
(b)通过将所述表达产物接触结合成员来确定多基因分类物的表 达水平,所述多基因分类物包含表A1和/或表A2和/或表A3和/或表 A4的至少5种基因,每个结合成员能够与多基因分类物的表达产物特 异结合;并
(c)根据表达水平鉴定所述患者中低置信度乳瘤的存在。
27.依照权利要求26的方法,其中表达产物是cDNA且结合成员 是能够与该cDNA特异杂交的核酸探针。
28.依照权利要求26的方法,其中表达产物是RNA或mRNA且结 合成员是能够与该RNA或mRNA特异杂交并在PCR中扩增它们的核酸引 物。
29.依照权利要求26的方法,其中表达产物是多肽且结合成员是 能够与该多肽特异结合的抗体结合结构域。
30.依照权利要求26至29任一项的方法,包括将来自测试乳瘤 样品的表达产物的结合谱与其它先前获得的结合谱的数据库和/或先 前确定的存在低置信度肿瘤的特征性“标准”谱进行比较。
31.依照权利要求30的方法,其中比较是通过计算机进行的,它 被编程报告测试谱与标准谱之间的统计学相似性,从而可以进行分类。
32.依照权利要求25至31任一项的方法,其中将乳瘤样品分类 的步骤包括使用加权表决、支持矢量系统和/或分级聚类。
33.依照权利要求25至32任一项的方法,其中多基因分类物包 含表A4的基因或其子集。
34.生成乳瘤样品的核酸表达谱的方法,包括步骤:
(a)由所述乳瘤样品分离表达产物;
(b)确定多基因分类物的表达水平,所述多基因分类物包含选自表 S4、表2、表A1、表A2、表A3和表A4任一项的至少5种基因;并
(c)由表达水平生成所述乳瘤样品的表达谱。
35.依照权利要求34的方法,包括步骤:
(a)由乳瘤样品分离表达产物;
(b)将所述表达产物接触多基因分类物,所述多基因分类物包含至 少5种能够与选自表S4或表2或者独立选自表A1和/或表A2和/或表 A3和/或表A4的多种基因的表达产物特异且独立结合的结合成员,从 而由所述多基因分类物的表达水平产生肿瘤样品的第一表达谱;
(c)将该表达谱与高置信度肿瘤和/或低置信度肿瘤的特征性表达 谱进行比较。
36.包含高置信度和/或低置信度乳瘤样品的多种基因表达谱的 表达谱数据库,其中每个基因表达谱都源自多基因分类物,后者包含 选自表S4或表2或者独立选自表A1和/或表A2和/或表A3和/或表 A4的至少5种基因,且其中数据库以可获取方式保存在数据载体上。
37.依照权利要求36的表达谱数据库,其中构成该数据库的表达 谱是通过权利要求34或35的方法生成的。
38.用于将乳瘤样品分类为“高置信度”或“低置信度”的装置, 包括附着在固体支持物上的多种结合成员,每种结合成员能够与多基 因分类物的表达产物特异结合,所述多基因分类物包含表S4、表2、 表A1、表A2、表A3和表A4一个或多个中的至少5种基因。
39.依照权利要求38的装置,包括能够与所述每一个表的多种基 因的表达产物结合的结合成员。
40.依照权利要求38或39的装置,包括能够与表A4中的所有基 因的表达产物特异且独立结合的结合成员。
41.依照权利要求38至40任一项的装置,包括微阵列,其中结 合成员是能够与RNA或mRNA表达产物或由其衍生的cDNA特异杂交的 核酸序列。
42.用于将乳瘤样品分类为“高置信度”或“低置信度”的试剂 盒,所述试剂盒包含多种结合成员和检测剂,每种结合成员能够与多 基因分类物之一的表达产物特异结合,所述多基因分类物包含表S4、 表2、表A1、表A2、表A3和表A4任一项或多项中的至少5种基因。
43.依照权利要求42的试剂盒,其中结合成员是固定在一个或多 个固体支持物上的抗体结合结构域或核酸序列。
44.依照权利要求43的试剂盒,包括微阵列。
45.依照权利要求42的试剂盒,其中结合成员是能够与表达产物 结合从而能够在PCR中扩增它们的核酸引物。
46.依照权利要求42至45任一项的试剂盒,还包含用于与测试 样品的表达谱进行比较、以可获取方式保存在数据载体上的一个或多 个标准表达谱。
47.依照权利要求46的试剂盒,其中一个或多个标准表达谱是通 过权利要求34或35的方法生成的。

说明书全文

                    发明领域

本发明涉及与乳癌诊断有关的材料和方法。具体的说,本发明涉 及“低置信度(low confidence)”肿瘤的诊断和/或分类,所述“低置 信度”肿瘤与它们的“高置信度”对应物相比,展示显著更差的总体 存活和更短时间的远程转移。

                    发明背景

人们对基因表达数据在生物学分类中的用途存在浓厚兴趣,特别 是肿瘤学和医学领域。这种方法的一个令人兴奋的方面是它确定癌的 临床相关亚型的能,而这些亚型先前逃过了比较传统的光学显微镜 术方法(15,16)。尽管具有这种潜力,然而在基因表达数据用于临床诊 断成为现实之前,还必需解决许多问题。例如,需要提供这样的算法, 它除了能进行正确的分类,还能精确的确定预测的置信度。如果分类 影响后续治疗过程的话,那么这将是特别重要的--一旦获得了这些 信息,主治医师就能够用具体干预的潜在发病率权衡预测的置信度, 从而做出明智的临床选择。

将乳瘤分类为雌激素受体阳性(ER+)和阴性(ER-)亚型是乳癌 治疗中一项关键的鉴别项目。ER-肿瘤通常比它们的ER+对应物在临床 上更具攻击性,而ER+肿瘤通常使用抗激素疗法进行治疗,诸如三苯 胺(1)。目前,通常使用ER抗体通过免疫组化(IHC)或免疫印迹来 确定肿瘤的ER状态。然而,这种技术是有缺陷的,例如,它可能不能 检测出在ER中包含基因改变从而使其没有活性或组成性有活性的肿 瘤(2)。因此,至关重要的是要开发出更加精确的方法学来改进乳瘤的 ER亚型分类,从而随后可以采用恰当的疗法。许多小组最近发表了利 用表达谱(expression profile)数据将乳癌分为ER+和ER-类别的报 告。在一项研究中发现ER+和ER-肿瘤的表达谱“显著不同”,支持了 先前关于ER+和ER-肿瘤可能源自不同乳房上皮细胞类型的理论(3)。

另一个小组报告了受监督学习方法学(supervised learning methodology)在基于表达数据根据ER亚型将乳瘤分类中的用途(4)。 这些研究中的一项共同观察结果是,尽管大多数乳瘤常常能够高度确 信的精确分为ER+和ER-亚型,然而始终存在一些“低置信度”样品, 它们或是被错误分类或是预测的统计学“置信度”处于边缘。尽管有 人提出这些“低置信度”样品可能反映了群体异质性的影响(4),但是 至今没有彻底探究关于这些“低置信度”样品与它们的“高置信度” 对应物可能在生物学上有所不同的假说。

                    发明概述

发明人考虑了“低置信度”样品可能具有不同生物学特征的可 能性。为了评估这种可能性,他们使用内部生成的乳癌表达数据集进 行了分类分析,并且确定了与“高置信度”肿瘤相比,“低置信度” 肿瘤在对ER亚型鉴别重要的多种基因的表达中展示普遍扰动 (widespread perturbation)。尽管“高”和“低”置信度肿瘤之间的 区别最初源自纯粹的计算手段,然而其在临床上意义重大,因为与它 们的“高置信度”对应物相比,“低置信度”肿瘤展示显著更差的总 体存活(p=0.0003)和更短时间的远程转移(p=0.0001)。这种区别 是目前用于检测ER的常规免疫组化策略所不能鉴别的。

发明人还令人惊讶的确定了ERBB2受体的高表达平与具有“低 置信度”预测的乳瘤显著相关,并且在由不同患者群/阵列技术生成并 使用不同计算方法分析的三个独立起源的乳癌表达数据集间确认了这 种关联。在“低置信度”肿瘤中观察到的ERBB2表达与ER鉴别基因的 普遍扰动之间的关联是诱人的,因为已知ERBB2活性在乳瘤和细胞系 中都有助于抗激素疗法耐受的形成(5,6)且抑制ER的转录活性(5,7)。

然而,尽管对于鉴别ER亚型是重要的,发明人发现这些“扰动 (perturbed)”基因中的显著比例并非已知是雌激素响应性的,而且使 用最近描述的生物信息学算法(DEREF)还证明了这些基因在它们的启 动子中不含潜在的雌激素响应元件(ERE)。这些结果说明,除了目前 关于ERBB2主要通过破坏ER转录活性来发挥作用的模型以外,ERBB2 对乳瘤的作用中的显著部分可能还牵涉ER不依赖性基因激活机制,它 们可能共同促成了“低置信度”肿瘤亚型的临床攻击性本质。

由此,本发明人确定了可用于将乳瘤样品分类为“低置信度”肿 瘤或“高置信度”肿瘤的几组基因(“多基因分类物(multigene classifier)”)。发明人首次确定了“低置信度”肿瘤组在预后和治 疗方面具有重要的医学意义。

对于ER+和ER-中的每一个,发明人都提供了在“高置信度”和“低 置信度”肿瘤之间具有不同表达水平的许多基因。表2中确定了这些 基因。这些扰动基因的表达水平可用于鉴别高置信度和低置信度肿瘤。 表S4中确定了在低置信度肿瘤与高置信度肿瘤之间具有不同表达水 平的另一组基因。不管肿瘤的ER状态,表A1-A4中确定了在低置信度 肿瘤和高置信度肿瘤之间具有不同表达水平的其它几组基因。下面的 描述将利用术语“表达谱(expression profile)”,它指多基因分类 物中的一组基因在样品中的表达水平。

表达水平通常以数值表示。因此,表达谱通常包括一组数值,每 个数值代表多基因分类物中一种基因的表达水平。下面的描述将利用 术语“多种基因”。该术语指多基因分类物的基因子集。子集可能对 应于多基因分类物的一个亚群,例如ER+低置信度乳瘤中的上调基因。 多种基因的内容可能随多基因分类物的不同而变化,而且对于特定的 多基因分类物,又随本发明的不同方面而变化。它可以指特定多基因 分类物的所有基因或其子集。

因此,最一般的说,本发明提供了使用多基因分类物将乳瘤样品 分类为高或低置信度样品的新型诊断方法和检验方法。本发明还鉴定 了用于乳瘤样品分类的多基因分类物和包含多基因分类物或其多种基 因的装置。表S4、2、A1、A2、A3和A4显示了本发明的各个方面所使 用的多基因分类物。

表S4列出了在ER+和ER-肿瘤每一个中在整体规模进行检验时在 高置信度和低置信度肿瘤之间展示显著不同的转录调节的基因。

在第一个方面,本发明提供了产生对于乳瘤样品的核酸表达谱的 方法,包括下列步骤:(a)由所述乳瘤样品分离表达产物;(b)确定选 自表S4的多种基因的表达水平;并(c)由表达水平产生对于所述乳瘤 样品的表达谱。

肿瘤样品可以是高置信度的和/或低置信度的。肿瘤样品可以是 ER+高置信度乳瘤样品和/或ER+低置信度乳瘤样品和/或ER-高置信度 乳瘤样品和/或ER-低置信度乳瘤样品。优选的是,确定了乳瘤样品的 ER状态。优选在上述方法的步骤(a)之前确定了乳瘤样品的ER状态。 可以如我们共同悬而未决的申请PCT/GB03/000755中所述通过制作基 因表达谱来确定乳瘤样品的ER状态。

表S4分子集显示基因。子集(a)中是在ER+高置信度样品和ER+ 低置信度肿瘤中显示显著不同表达的基因。表S4(a)的第一个部分是 与ER+高置信度肿瘤相比在ER+低置信度肿瘤中上调的一组基因(表 S4(a)“上调的”)。表S4(a)的第二个部分显示了与ER+高置信度肿 瘤相比在ER+低置信度肿瘤中下调的一组基因(表S4(a)“下调的”)。

表S4的部分(b)中是与ER-高置信度肿瘤相比在ER-低置信度样品 中显示表达上调的基因。

多基因分类物中单独基因的表达谱在独立样品之间将有略微差 异。然而,发明人认识到,多基因分类物的基因表达谱提供了在高置 信度和低置信度肿瘤之间不同的、可用于鉴别的特征性表达模式。

通过由许多已知的高和低置信度样品生成许多多基因分类物表达 谱,有可能生成高置信度和低置信度这两类样品的(表达)谱库。表 达谱的数目越多,生成在诊断测定法中可用作对照的可靠特征性表达 谱标准(即包括统计差异)越容易。由此,标准谱可以是衍生自多个 个体表达谱且在统计差异内从而代表高置信度或低置信度样品谱的表 达谱。

由此,依照本发明第一方面的方法可以包括以下步骤:(a)由乳瘤 样品分离表达产物;(b)将所述表达产物接触多种结合成员,它们能够 与选自表S4的多种基因的表达产物特异且独立结合,从而由所述多种 基因的表达水平产生肿瘤样品的第一个表达谱;并(c)将该表达谱与高 置信度肿瘤和/或低置信度肿瘤的特征性表达谱进行比较。

为了生成所述表达谱,需要评估多种基因的表达水平。可以绝对 评估表达水平,即测量表达产物的数量。也可以相对评估表达水平, 即将表达与一些其它因素进行比较,诸如但不限于样品中另一种基因 的表达,或是一组基因(优选所述方法中所使用的多基因分类物未包 含的一组基因)的表达平均值/中值/模式,或者在一组样品间进行比 较。例如,可以作为在样品中多种基因的平均表达的倍数或分数来测 量基因表达。表达优选表示为正数或负数,以指示表达相对于平均值 的升高或降低。

优选使用统计和/或概率模型来测量预测强度。所述模型包括加权 表决(Weighted Voting,WV)和/或支持矢量系统(Support Vector Machines,SVM)。可以使用加权表决和排除一项交叉验证(Leave One Out Cross Validation,LOOCV)来测定预测强度(见实施例)。在使 用双色cDNA微阵列进行计算时,例如用于评估Stanford数据集的微 阵列,低置信度可能意味着预测强度值(magnitude)小于或等于0.4。 优选的是,低置信度肿瘤的预测强度的范围是≥-0.4且优选≤0.4。对 于低置信度肿瘤,预测强度可以是≥-0.35且优选≤0.35。对于低置信 度肿瘤,预测强度可以是≥-0.3且优选≤0.3。

优选的是,高置信度样品的预测强度值大于0.4。优选的是,高 置信度肿瘤的预测强度≥0.4且优选≤-0.4。

然而,高/低置信度肿瘤预测强度的截止值可能随所用数据集和/ 或阵列技术而变化。例如,在使用双色寡核苷酸微阵列评估的Rosetta 数据集中,高置信度肿瘤指预测强度值大于0.7的肿瘤。优选的是, 高置信度样品的预测强度值大于0.7。因此,对于低置信度肿瘤,预 测强度可以是≥-0.7且优选≤0.7。对于低置信度肿瘤,预测强度可以 是≥-0.6且优选≤0.6。对于低置信度肿瘤,预测强度可以是≥-0.5且 优选≤0.5。更优选的是,低置信度肿瘤的预测强度的范围是≥-0.4且 优选≤0.4。

在Stanford和Rosetta这两个数据集中比较在乳瘤群中的预测强 度时,高和低置信度肿瘤之间的分界线可以确定为这样的点,即此时 数据集中的肿瘤预测强度开始在质量上小于这群肿瘤的大多数预测强 度。尽管每个数据集是独立分析的,然而独立的Rosetta和Stanford 数据集之间低置信度肿瘤的比例是相似的。

因此,低置信度肿瘤可能落入乳瘤群体的ER预测强度的最低的 20%内,更优选的是ER预测强度的最低的15-19%内。优选的是,乳 瘤群包含至少25个肿瘤的最小数据集,更优选至少25-30个肿瘤,更 优选至少30个肿瘤,更优选至少50个肿瘤,更优选至少80个肿瘤, 最优选大约80-100个肿瘤。

表达产物优选是mRNA或由所述mRNA制备的cDNA,或是cDNA。或 者,表达产物可以是表达的多肽。表达谱的鉴定优选使用这样的结合 成员来进行,即它能够特异鉴定表S4中确定的多种基因的表达产物。 例如,如果表达产物是cDNA,那么结合成员将是能够与cDNA特异杂 交的核酸探针。

优选的是,表达产物或结合成员二者之一将被标记,从而可以检 测两种成分的结合。优选选择这样的标记物,即能够检测表达产物的 相对水平/数量和/或绝对水平/数量,从而根据多基因分类物中个体基 因的上调或下调来确定表达谱。一般而言,结合成员应当能够不仅检 测表达产物的存在与否,而且能检测它的相对丰度(即可利用产物的 量)。

然而,最近出现了利用“无标记物”技术来进行定量的许多新技 术,例如由Xagros开发的技术。表达产物和/或结合成员可以是未经 标记的。可以通过测量由两种引物结合到靶表达产物上并通过聚合酶 延伸引起的电阻变化来检测和/或定量结合成员的结合。

核酸表达谱的确定可以在某些先前设定的参数内进行,以避免假 阳性和假阴性。可以使用计算机来确定核酸表达谱。

然后,如上所述,计算机能够提供低置信度或高置信度乳房细胞 的特征性表达谱标准。然后,可以将确定的表达谱用于将乳房组织样 品分类,作为诊断的一种方式。

由此,在第二个方面,本发明提供了包含高置信度和/或低置信度 乳瘤样品的多个基因表达谱的表达谱数据库,其中每个基因表达谱都 源自选自表S4的多种基因,且数据库以可获取的(retrievably)方式 保存在数据载体上。优选的是,构成数据库的表达谱是通过第一个方 面的方法生成的。

凭借多基因分类物的知识,有可能设计出用于确定特定测试样品 的基因表达模式或谱的许多方法。例如,可以使用标准分子生物学技 术由样品分离所表达的核酸(RNA、mRNA)。然后,可以在PCR中使用 对所表达序列特异的核酸引物扩增与来自表S4中给出的基因鉴别物 (genetic identifier)的所述多种基因对应的所表达核酸序列。如果 分离的所表达核酸是mRNA,那么可以使用标准方法将它转变成cDNA 从而用于PCR。

引物可以方便的将标记物导入所扩增的核酸,从而可以对它进行 鉴定。理想的是,标记物能够指示扩增事件后存在的核酸序列的相对 数量或比例,它反映了原始测试样品中存在的相对数量或比例。例如, 如果标记物是荧光放射性,那么信号强度将指示所表达序列的相对 数量/比例或甚至绝对数量。每一种基因鉴别物的表达产物的相对数量 或比例将构成测试样品的特定表达谱。通过将它与已知谱或标准表达 谱进行比较,有可能确定测试样品是来自正常乳房组织还是恶性乳房 组织。如上所述,引物和/或扩增核酸可以是未标记的。

或者,可以使用能够与基因鉴别物的表达产物(例如mRNA、相应 的cDNA或表达的多肽)相结合的结合成员来确定表达模式或谱。通过 标记表达产物或结合成员,有可能鉴定表达产物的相对数量或比例, 并确定基因鉴别物的表达谱。由此,可以通过将表达谱与已知谱或标 准谱进行比较而将样品分类为高置信度或低置信度。结合成员可以是 互补核酸序列或特异抗体。下文将更加详细的讨论使用这些结合成员 的微阵列检验。

在第三个方面,本发明提供了用于将乳瘤样品分类为低置信度或 高置信度的方法,该方法包括提供所述乳瘤样品的表达谱,其中表达 谱包含来自表S4的多种基因的表达水平,并根据该表达谱将肿瘤分为 高或低置信度肿瘤。

本发明第三个方面的方法包括步骤:(a)获得取自患者的乳瘤样品 的表达产物;(b)通过将所述表达产物接触结合成员来确定表S4中所 示的多种基因的表达水平,每个结合成员能够与该多种基因的一种表 达产物特异结合;并(c)根据表达水平确定所述患者中是否存在低置信 度乳瘤。

优选的是,该方法还包括确定肿瘤的ER状态的步骤,优选在提供 肿瘤的表达谱之前。

确定是否存在低置信度乳瘤的步骤可以使用计算机来进行,它能 够将来自测试乳瘤样品的表达产物的结合谱与其它先前获得的谱的数 据库和/或先前确定的存在低置信度肿瘤的特征性“标准”谱进行比较。 可以将计算机编程,使之报告测试谱与标准谱之间的统计学相似性, 从而可以进行分类。

将乳瘤样品分类的步骤可以包括使用统计和/或概率技术,诸如加 权表决(WV)(13),即一种受监督学习技术。在WV中,可以进行二元 分类。将乳瘤样品中多基因分类物的基因表达水平与该基因在不同类 型间的表达水平平均值进行比较。例如,可以由已经给定了类型的表 达谱计算平均值,例如高和/或低置信度样品的表达谱数据库。优选的 是,表达谱已经给定了ER状态。

将表达水平和类型间基因表达平均值之间的差异加权(weight), 并对应该基因对该类型的‘投票’。对于特定肿瘤,对于每一种类, 将对所有基因的投票加到一起,产生每一类的总票数。将肿瘤判定为 具有最高票数的类型。然后可以将获胜类型的胜利幅度表述成预测强 度。

表达水平的差异是使用包括两种类型每一种的基因表达水平的平 均值和标准偏差在内的公式加权的。一般而言,每一种类型的平均值 和标准偏差是由具有或代表特定肿瘤类型(例如高置信度和低置信度) 的表达谱计算的。

另外/或者,步骤(c)可以包括使用分级聚类(hierarchical clustering),特别是在使用与评估具有指定类型的表达谱或与样品 表达谱进行比较的标准谱相比不同的阵列技术来评估肿瘤样品的时 候。步骤(c)的结果可以使用已经建立的排除一项交叉验证(LOOCV) 检验法(见实施例)进行验证。步骤(c)可以使用计算机来进行。

在分级聚类中,可以将每个表达谱表述成由n个基因组成的矢量 (vector),其中(g1,g2...gn)代表基因的表达水平。然后,将每个 矢量与分析中的每一个其它谱进行比较,并将两个彼此具有最高相关 的矢量配成对,直至尽可能多的将分析中的谱配成对。

本领域知道许多方法可以计算相关性,诸如Pearson的相关系数 (28)。在下一步中,由每一对衍生一个合成矢量(composite vector) (在平均连接聚类(average-linkage clustering)中,这通常是两 个谱的平均值),然后重复配对过程。继续,直至不可能进行更多的 配对。这个过程就是“分级”,因为是由底部(单个谱)开始并向上 升。在本发明中,优选由单个谱建成两个合成矢量,每个矢量代表一 种类型(即高置信度和低置信度)。对于来自未知类型的一个新样品, 将样品与标准谱/样品进行聚类。根据样品在反复配对结束时所属的簇 /矢量来确定“未知”样品的类型。

因此,本发明在一个实施方案中提供了通过例如将所述肿瘤的表 达谱与肿瘤类型特征谱进行比较(优选通过将肿瘤的表达谱与高置信 度和/或低置信度肿瘤的特征谱进行比较)来鉴定患者中的攻击性乳瘤 的方法。该方法还包括对如果肿瘤具有低置信度肿瘤特征性表达谱的 患者指出不佳预后的步骤。

预后可能影响患者的治疗过程。在鉴定了低置信度肿瘤后,可以 使用攻击性技术来治疗患者,以治疗低置信度肿瘤。

不佳预后包括与高置信度肿瘤患者相比患者的总体存活率显著更 差和/或远程转移的时间显著更短。

如上所述,本发明人鉴定了在低置信度乳瘤和高置信度乳瘤中具 有不同表达模式的几种关键基因,即它们能够区别乳瘤的高和低置信 度类型。

多基因分类物可包含表S4中列出的基因。通过确定测试样品的表 达谱并将该表达谱与低和/或高置信度乳瘤的特征性表达谱进行比较 (和/或使用诸如加权表决等技术分析表达谱),例如它们的表达相对 于在高置信度样品中看到的标准模式或谱的升高或降低,有可能将样 品分为低置信度或高置信度肿瘤。

多种基因可以是表S4(a)和/或表S4(b)的基因,或者是表S4(a) 的基因子集和/或表S4(b)的基因子集。

多种基因可以包含表S4(a)的至少10、20、30、40、50、60、70、 80种或所有基因。

多种基因可以是表S4(a)的所有或基本上所有上调和/或下调基 因。多种基因可以包含约30种、或约20种、或约10种、或约5种表 S4(a)的上调基因或由其组成。多种基因可以包含约30种、或约20 种、或约10种、或约5种表S4(a)的下调基因或由其组成。

优选的是,多种基因包含约80、或约70、或约60、或约50、或 约40、或约30、或约20、或约10种表S4(a)的基因或由其组成。多 种基因可以包含约50、或约40、或约30、或约20、或约10、或约5 种表S4(a)的上调基因或由其组成。

来自表S4(a)的基因优选选自上调基因组的上部和/或下调基因 组的上部。上部优选表或组的上半部,因为每个组中的基因是根据显 著性排序的。在高置信度和低置信度肿瘤之间显示最大差异表达的基 因出现在表S4(a)的每组的上部,而表达差异较小的基因出现在下部。

多种基因可以包括不超过80、或70、或60、或50、或40、或30、 或20、或10或5种表S4(a)的基因。

多种基因可以包含5-30种表S4(a)的上调基因和/或表S4(a)的下 调基因或主要由其组成。多种基因可以包含10-30种表S4(a)的上调 基因和/或表S4(a)的下调基因或主要由其组成。多种基因可以包含 10-20种表S4(a)的上调基因和/或表S4(a)的下调基因或20-30种表 S4(a)的上调基因和/或表S4(a)的下调基因或主要由其组成。多种基 因可以包含5-40种或5-50种表S4(a)的上调基因或由基本由其组成。

多种基因(可以是约10种基因)可以选自表S4(a)的前约40、或 约30或约20种上调基因和/或下调基因。该约10种基因可以选自表 S4(a)上调和/或下调基因的前约15种。该约10种基因可以选自表 S4(a)的前10种上调基因或下调基因。多种基因(可以是约10种基因) 可以选自表S4(a)的前约50或约40种上调基因。

优选的是,多种基因包含表S4(a)上调和/或表S4(a)下调基因前 约30种中的约10-20种基因。

多种基因可以包含选自下组的约30或约20或约10种基因或由其 组成:表S4(a)的前约40、或约30、或约20、或约10种上调基因和 表S4(a)的前约30、或约20、或约10种下调基因。多种基因可以包 含选自下组的约10、约15、或约20种基因或由其组成:表S4(a)的 前约10或约15种上调基因和表S4(a)的前约10、约15、或约20种 下调基因。

多种基因可以是表S4(b)的所有或基本上所有基因。多种基因可 以是表S4(b)的所有或基本上所有基因。多种基因可以包括表S4(b) 的至少10、20、30、40、50或所有基因。

多种基因可以包含约50、或约40、或约30、或约20、或约10、 或约5种表S4(b)的基因或由其组成。

来自表S4(b)的基因优选选自表的上部。上部优选表的上半部, 因为每个组中的基因是根据显著性排序的。在高置信度和低置信度肿 瘤之间显示最大差异表达的基因出现在表S4(b)组的上部,而表达差 异较小的基因出现在下部。

多种基因可以包括不超过50、或40、或30、或20、或10、或5 种表S4(b)的基因。

多种基因可以包含5-50种表S4(b)的基因或基本上由其组成。多 种基因可以包含10-40种表S4(b)的基因或基本上由其组成。多种基 因可以包含10-30种表S4(b)的基因或基本上由其组成。多种基因可 以包含10-20种或20-30种表S4(b)的基因或基本上由其组成。

多种基因(优选约30、或约20、或约10种基因)可以选自表S4(b) 的前约40、或约30或约20种基因。该约10种基因可以选自表S4(b) 的前约15或20种基因。该约10种基因可以是表S4(b)的前10种基 因。

优选的是,多种基因包含表S4(b)前约30种基因中的约10或20 种基因。

如上所述,本领域技术人员将领会,与生成特征性表达谱所需要 的最不显著的基因数目相比,生成特征性表达谱所需要的最显著的基 因数目较少。

所选择的所述多种基因的数目和种类是为了提供能够鉴别高置信 度和低置信度肿瘤的表达特征。

优选的是,多种基因包括来自表S4(a)和/或表S4(b)的上调和下 调基因的混合。

肿瘤分类的步骤可以包括对这样的基因进行评估,与高置信度肿 瘤相比所述基因在低置信度肿瘤中上调。

另外/或者,步骤(c)可以包括对这样的基因进行评估,与高置信 度肿瘤相比所述基团在低置信度肿瘤中下调。

表2中显示了构成另一个多基因分类物的基因。本发明的第一个、 第二个和第三个方面加以必要改动后可适用表2,即多种基因可以来 自表2。本发明第一个、第二个和第三个方面的优选实施方案和任选 特征加以必要改动后可适用表2。

因此,在第四个方面,本发明提供了生成针对乳瘤样品的核酸表 达谱的方法,包括以下步骤:(a)由所述乳瘤样品分离表达产物;(b) 确定表2的多种基因的表达水平;并(c)由表达水平生成表达谱。

乳瘤样品可以是任何类型的乳瘤,正如本发明第一个方面所述。 优选的是,确定了乳瘤样品的ER状态,优选在步骤(a)之前。

在第五个方面,本发明提供了包含高置信度和/或低置信度乳房样 品的多个基因表达谱的表达谱数据库,其中每个表达谱来自表2的多 种基因,且数据库以可获取的方式保存在数据载体上。优选的是,构 成数据库的表达谱是通过第四个方面的方法生成的。

表2的基因提供了候选的多基因分类物。

在第六个方面,本发明提供了用于将乳瘤样品分类为低置信度或 高置信度的方法,该方法包括提供所述样品的表达谱,其中表达谱包 含表2的多种基因的表达水平,并根据表达谱将肿瘤分为高或低置信 度肿瘤。

本发明第六个方面的方法可以包括步骤:(a)由取自患者的乳瘤样 品获得表达产物;(b)通过将所述表达产物接触结合成员来测定表2 中所示的多种基因的表达水平,每个结合成员能够与多种基因的一种 表达产物特异结合;并(c)根据表达水平确定所述患者中是否存在低置 信度乳瘤。

步骤(c)可以包括将结合谱与低置信度肿瘤的特征谱进行比较。低 置信度肿瘤可以是ER+或ER-。步骤(c)可以包括使用统计技术,诸如 加权表决和/或支持矢量系统(SVM)。

多种基因可以包含表2的所有或基本上所有基因或表2a或表2b 的所有或基本上所有基因或由其组成。

多种基因可以包括表2的至少10、20、30、40、50、60、70、80、 90种或所有基因。

优选的是,多种基因包含约50、或约40、或约30、或约20、或 约10种表2a和/或表2b的基因或由其组成。来自表2的基因优选选 自上部,优选表2a和/或表2b的上半部,因为表2a和表2b每一组中 的基因是根据显著性排序的。在高置信度和低置信度肿瘤之间显示最 大扰动(perturbation)的基因出现在表2a和表2b每一个的上部,而 扰动较小的基因出现在下部。

本领域技术人员将领会,与生成低和/或高置信度乳瘤的特征性表 达谱所需要的最不显著的基因数目相比,生成所述特征性表达谱所需 要的最显著的基因的数目较少。例如,与选自表2a下半部的基因相比, 需要来自表上半部的基因的数目较少。

所选择的所述多种基因的数目和种类是为了提供能够鉴别高置信 度和低置信度肿瘤的表达特征。

多种基因可以包括不超过50种表2a和/或表2b的基因。多种基 因可以包括不超过40种表2a和/或表2b的基因。多种基因可以包括 不超过30种表2a和/或表2b的基因。多种基因可以包括不超过20 种表2a和/或表2b的基因。多种基因可以包括不超过10种表2a和/ 或表2b的基因。多种基因可以包括不超过5种表2a和/或表2b的基 因。

多种基因可以包含5-50种表2a和/或表2b的基因或基本上由其 组成。多种基因可以包含10-40种表2a和/或表2b的基因或基本上由 其组成。多种基因可以包含10-30种表2a和/或表2b的基因或基本上 由其组成。多种基因可以包含10-20种或20-30种表2a和/或表2b 的基因或基本上由其组成。

所述基因(优选约10种基因)可以选自表2a的前约40、或约30、 或约20种基因。该约10种基因可以选自表2a的前约15种基因。该 约10种基因可以是表2a的前10种基因。所述基因(优选约10种基 因)可以选自表2b的前约40、或约30、或约20种基因。该约10种 基因可以选自表2b的前该约15种基因。该约10种基因可以是表2b 的前10种基因。

所述基因(优选约10-20种基因)优选选自表2a和/或表2b的前 约30种基因。

多种基因可以包含选自下组的约30、或约20、或约10种基因或 由其组成:表2a的前约20种基因和表2b的前约20种基因。多种基 因可以包含选自下组的约10、或约15或约20种基因或由其组成:表 2a的前约10种基因和表2b的前约10种基因。

本发明的方法优选还包括确定ER+或ER-状态的预分类步骤。ER 状态可以通过免疫组化(例如使用ER抗体)或通过使用适于评估基因 表达谱的概率/统计模型来确定。

为了区别高和低置信度肿瘤,发明人还进行了进一步分析并鉴定 了其它多基因分类物。这些分析的目的是鉴定可用于不管它们的ER 状态而对“高”和“低置信度”肿瘤进行分类的最佳基因组(set)。使 用了一系列三种独立的分析方法(微阵列的显著性分析、基因分级、 和Wilcoxon检验)来鉴定在两个组(LC和HC)之间差异表达的基因。 分析的结果就是表A1、A2、A3和A4中显示的其它多基因分类物。

在表A1中,是可用于区别高和低置信度肿瘤的88种基因。表A1 的基因是使用SAM(微阵列的显著性分析)鉴定的。其中,86种基因 在低置信度肿瘤中上调,而2种基因在高置信度肿瘤中上调。

在表A2中,是可用于区别高和低置信度肿瘤的251种基因。表 A2的基因是使用GR(基因分级)通过SVM鉴定的。

在表A3中,是可用于区别高和低置信度肿瘤的38种基因。表A3 的基因是使用WT(Wilcoxon检验)鉴定的,P值<0.05且变化截止值 ≥2倍。

在表A4中,是13种共有基因(即表A1、A2、A3中都有的基因)。 这13种“共有基因”是强有力的显著标志物,而且能够像其它“完整” 标志物组一样获得相当的有差别的表现。

因此,在第七个方面,本发明提供了针对乳瘤样品生成核酸表达 谱的方法,包括步骤:(a)由所述乳瘤样品分离表达产物;(b)鉴定来 自表A4和/或表A1和/或表A2和/或表A3的多种基因的表达水平;并 (c)由表达水平生成表达谱。

乳瘤样品可以是任何类型的乳瘤,正如本发明第一个方面所述。

在第八个方面,本发明提供了包含高置信度和/或低置信度乳房样 品的多种基因表达谱的表达谱数据库,其中每个表达谱衍生自表A4 和/或表A1和/或表A2和/或表A3的多种基因,且其中数据库以可获 取的方式保存在数据载体上。优选的是,构成数据库的表达谱是通过 第七个方面的方法生成的。

在第九个方面,本发明提供了用于将乳瘤样品分为低置信度或高 置信度的方法,该方法包括提供所述样品的表达谱,其中该表达谱包 含来自表A4和/或表A1和/或表A2和/或表A3的多种基因的表达水平, 且根据表达谱将肿瘤分为高或低置信度肿瘤。

本发明第九个方面的方法可以包括步骤:(a)由取自患者的乳瘤样 品获得表达产物;(b)通过将所述表达产物接触结合成员来测定表A4 和/或表A1和/或表A2和/或表A3中所示的多种基因的表达水平,每 个结合成员能够与所述多种基因的表达产物特异结合;并(c)根据表达 水平确定所述患者中是否存在低置信度乳瘤。

步骤(c)可包括将表达水平与低和/或高置信度肿瘤的特征谱进行 比较。低置信度肿瘤可能是ER+或ER-。步骤(c)可包括使用统计技术, 诸如加权表决和/或支持矢量系统(SVM)。

所述多种基因优选包含表A4的基本上所有基因或基本上由其组 成。可包含表A1、A2和A3中每一个的其它基因,尽管是独立的,该 多种基因可来自表A1、A2和A3中的任何一个或多个。该多种基因并 非必需包含表A4的基因。

因此,本发明的第一个、第二个和第三个方面加以必要改动后可 适用表A1、A2和A3中的每一个,即在本发明的每个方面,所述多种 基因可以来自表A1和表A2和表A3中的任何一个或多个。本发明第一 个、第二个和第三个方面的实施方案和优选/任选特征加以必要改动后 可适用表A1、A2、A3和A4。

所述多种基因可包括表A1的至少10、20、30、40、50、60、70、 80种或所有基因。

所述多种基因可以是表A1的所用或基本上所有“在低置信度中上 调的”和/或“在高置信度中上调的基因”。该多种基因可包含约80、 或约70、或约60、或约50、或约40、或约30、或约20、或约10或 约5种表A1中“在低置信度中上调的”基因或由其组成。多种基因可 包含表A1中“在高置信度中上调的”基因中的任一种或二者。

来自表A1的基因优选选自“在低置信度中上调的”组基因的上部。 上部优选表的上半部,因为所述基因是根据显著性排序的。在高置信 度和低置信度肿瘤之间显示最大差异表达的基因出现在表A1的上部, 而表达差异较小的基因出现在下部。

所述多种基因可包含不超过80、或70、或60、或50、或40、或 30、或20、或10或5种表A1的基因。

所述多种基因可包含5-70种表A1的基因或基本上由其组成。所 述多种基因可包含10-60种表A1的基因或基本上由其组成。所述多种 基因可包含10-50种、或10-40种、或10-30种表A1的基因或基本上 由其组成。

所述多种基因(可是约10-15种基因)可选自表A1的前约40、 或约30、或约20种基因。优选的是,该多种基因包含表A1前约30 种基因的约10-20种基因。

所述多种基因可包含表A2的至少10、20、30、40、50、60、70、 80、90、100、110、120、130、140、150种或所有基因。

所述多种基因可包含不超过250、或240、或230、或220、或210、 或200、或190、或180、或170、或160、或150、或140、或130、 或120、或110、或100、或90、或80、或70、或60、或50、或40、 或30、或20、或10或5种表A2的基因。

所述多种基因可包含5-200种表A2的基因或基本上由其组成。所 述多种基因可包含10-150种表A2的基因或基本上由其组成。所述多 种基因可包含10-100种、或10-70种或10-50种表A2的基因或基本 上由其组成。

所述多种基因(可是约10-15种基因)可选自表A2的前约50、 或约40、或约30、或约20种基因。优选的是,所述多种基因包含表 A2前约30种基因的约10-20种基因。

所述多种基因可包含表A3的至少10、20、30、35种或所有基因。

所述多种基因可包含不超过35、或30、或20、或10或5种表A3 的基因。

所述多种基因可包含5-35种表A3的基因或基本上由其组成。所 述多种基因可包含10-30种表A3的基因或基本上由其组成。所述多种 基因可包含10-20种或20-30种表A3的基因或基本上由其组成。

所述多种基因(可以是约10-15种基因)可选自表A3的前30或 约20种基因。优选的是,该多种基因包含表A3前约30种基因中的约 10-20种基因。

所述多种基因可包括表A4的至少5、10、15种或所有基因。

所述多种基因可包括不超过10、或8、或6、或5种表A4的基因。

所述多种基因可包含5-13种表A4的基因或基本上由其组成。所 述多种基因可包含10-13种表A4的基因或基本上由其组成。

在所述多种基因的内容中,术语“约”意味着所述基因数目加上 或减去如下二者中的较大者:所述基因数目的10%或一种基因。

如上,表达产物可以是转录的核酸序列或表达的多肽。该转录的 核酸序列可以是RNA或mRNA。表达产物还可以是由所述mRNA生成的 cDNA。表达产物可以是cRNA。

所述的结合成员可以是能够在合适杂交条件下与所述转录的核酸 特异结合的互补核酸序列。通常使用cDNA或寡核苷酸序列。

当表达产物是表达的蛋白质时,所述结合成员优选是对所述表达 的多肽特异的抗体或包含抗体结合结构域的分子。

可以出于检测目的而使用本领域已知标准流程对所述结合成员进 行标记。或者,可以在由测试样品中分离出表达产物后进行标记。优 选的检测手段是使用能够通过光度表进行检测的荧光标记物。其它检 测手段包括电信号。例如,Motorola的e传感器系统具有两个探针, 一个是自由漂浮的“捕捉探针”,另一个是附着在固体表面上的“信 号探针”,所述固体表面同时作为电极表面。两个探针都作为表达产 物的结合成员而发挥功能。当发生结合时,两个探针彼此靠拢,产生 可以检测的电信号。

如上所述,所述结合成员可以是用于在PCR(例如多重PCR)中特 异扩增基因鉴别物的表达产物的寡核苷酸引物。然后可以在凝胶上分 析所述产物。然而,优选的是,所述结合成员是固定在固体支持物上 的单一核酸探针或抗体。然后可以让表达产物经过固体支持物,使得 它们与结合成员接触。所述固体支持物可以是玻璃表面,例如显微镜 载玻片;珠(Lynx);或光纤。在珠的情况中,可以将每种结合成员 固定在各个珠上,然后让它们在溶液中接触所述表达产物。

本领域存在多种方法可用于确定特定的基因组(set)的表达谱,这 些方法都可应用于本发明。例如,基于珠的方法(Lynx)或分子条形 码(Surromed)就是已知的技术。在这些情况中,将每种结合成员附 着在单个可读且自由漂浮的珠或“条形码”上,以便于与表达产物的 接触。所述结合成员与表达产物(靶)的结合是在溶液中完成的,然 后让打上标签的珠或条形码经过某种装置(例如流式细胞仪)并读数。

确定表达谱的另一种已知方法是由Illumina开发的仪器,即光 纤。在这种情况中,将每种结合成员附着在光纤缆末端的特定“地址” 上。表达产物与结合成员的结合可以诱导荧光变化,它可以通过光纤 缆另一端的装置读出。

本发明人成功的使用了包含固定在固体支持物上的多种核酸序列 的核酸微阵列。通过让代表所表达基因的核酸序列(例如cDNA)经过 微阵列,它们能够产生来自肿瘤样品的表达产物和衍生自乳房组织的 正常细胞的特征性结合谱。

本发明还提供了用于将乳瘤样品分类的装置(优选微阵列),包 括附着在固体支持物上的多种结合成员,优选核酸序列,每种结合成 员能够与来自多基因分类物中任何一组或多组的基因的表达产物特异 结合:表S4、表2、表A1、表A2、表A3、和表A4。优选的是,该装 置包含能够与多种基因的表达产物结合的结合成员或基本上由其组 成,正如先前关于所述多基因分类物中每一个的定义(见上文)。该 装置可以包含能够与来自每一个多基因分类物的多种基因或来自一个 或多个多基因分类物的多种基因的表达产物结合的结合成员或基本上 由其组成。

该装置可包含能够与所述多基因分类物或其子集的至少5种基 因、更优选至少10种基因或至少15种基因的表达产物特异结合的结 合成员。所述多基因分类物的子集可以是例如表2中的ER+/低对ER+/ 高基因或表S4(a)中在ER+/低中上调组的基因。在一个最优选的实施 方案中,所述固体支持物将容纳能够与表A4中所示的所有基因的表达 产物特异且独立结合的结合成员。

该装置优选包含能够与多基因分类物的表达产物或其多种基因特 异结合的结合成员,而且可包含能够与U133A微阵列上不超过14396 种基因的表达产物特异结合的结合成员。该装置可包含能够与U133A 微阵列上不超过90%的基因的表达产物特异结合的结合成员。该装置 可包含能够与U133A微阵列上不超过80%、或70%、或50%、或40 %、或30%、或20%、或10%、或5%的基因的表达产物特异结合的 结合成员。

另外/或者,固体支持物可容纳不超过14000种、不超过10000 种、不超过5000种、不超过3000种、不超过1000种、不超过500 种、或不超过400种、或不超过300种、或不超过200种、或不超过 100种、或不超过90种、或不超过80种、或不超过70种、或不超过 60种、或不超过50种、或不超过40种、或不超过30种、或不超过 20种、或不超过10种、或不超过5种不同基因的结合成员。

通常,将高密度核酸序列(通常是cDNA或寡核苷酸)固定在固体 支持物上很小的离散区域或点上。该固体支持物常常是用某种基质包 被的显微镜载玻片或滤膜(或芯片)。通常通过机器自动化系统将核 酸序列投递(或印制)到经过包被的固体支持物上,然后固定在支持 物上。

在一个优选的实施方案中,将由样品衍生的表达产物进行标记, 通常使用荧光标记物,然后与固定的核酸序列接触。杂交后,使用检 测仪检测荧光标记物,诸如高清晰度激光扫描仪。在另一种方法中, 可以用非荧光标记物给表达产物打上标签,例如生物素。杂交后,用 与第一种非荧光标记物结合/键合的荧光染料给微阵列“染色”(例如 荧光标记的与生物素结合的链霉亲和素)。

通过用数字成像软件分析每个离散点发出的信号得到指示基因表 达模式的结合谱(表达模式或谱)。然后,可以将实验样品的基因表 达模式与对照(即高置信度或低置信度样品的表达谱)进行比较从而 进行差异分析。

如上所述,对照或标准可以是先前判定为正常或恶性细胞的典型 的一个或多个表达谱。所述一个或多个表达谱可以以可获取的方式保 存在数据载体上,作为数据库的一部分。这在上文中已有讨论。然而, 还有可能的是,在检验流程中导入一个对照。换言之,测试样品中可 以“掺入”一个或多个“人工肿瘤”或“人工正常”表达产物,担当 与测试样品的基因鉴别物表达水平进行比较时的对照。

大多数微阵利用一种或两种荧光团。对于双色阵列,最常用的荧 光团是Cy3(绿色通道激发)和Cy5(红色通道激发)。微阵列图像分 析的目的是由每种表达产物提取杂交信号。对于单色阵列,对指定的 靶(基本上是与单一样品杂交的阵列)测量绝对强度作为信号。对于 双色阵列,测量具有不同荧光标记物的两份表达产物(例如样品和对 照,对照在其它方面也称为参照)的比率作为信号。

依照本发明的装置(例如微阵列)优选包含多个离散点,每个点 含有一种或多种寡核苷酸且每个点代表选自所述多基因分类物的基因 的表达产物的不同结合成员。在一个实施方案中,所述微阵列将包含 一个或多个多基因分类物中每个基因的点。每个点将包含多个相同寡 核苷酸,每个都能够与它所代表的表S4基因的表达产物(例如mRNA 或cDNA)结合。

在本发明的还有一个方面,提供了用于将乳瘤样品分类为高置信 度或低置信度的试剂盒,所述试剂盒包含结合成员和检测试剂,每种 结合成员能够与所述多基因分类物中所示的多种基因的表达产物特异 结合。

多基因分类物的基因以它们的Unigene编号列出(对应于Unigene 的build 160)。由此可以由Unigene数据库获取每种基因的序列。 另外,为了确认这些基因,Affymetrix(www.affymetrix.com)提供 了探针组的实例,包括探针的序列(即寡核苷酸序列形式的结合成员), 它们在固体支持物上使用时能够检测基因的表达。探针的详情可以由 Affymetrix网站的U133部分使用靶基因的Unigene ID获取。

如果在未来,表中所列的一个Unigene ID以新ID出现、或分裂 成两个或多个ID(例如在数据库的新build中)、或完全删除,那么 本发明人预期的基因序列可以通过访问Unigene的build 160来获取。

优选的是,将试剂盒中的一种或多种结合成员(抗体结合结构域 或核酸序列,例如寡核苷酸)固定到一个或多个固体支持物上,例如 微阵列或光纤测定法的单一支持物或诸如珠等多个支持物。检测手段 优选用于标记测试样品表达产物的标记物(放射性或染料,例如荧光)。 试剂盒还可以包含用于检测和分析所测试表达产物的结合谱的手段。

或者,结合成员可以是能够在PCR中与表达产物结合从而能够扩 增它们的核苷酸引物。该引物可以还包含检测手段,即可用于鉴定扩 增序列及其相对于其它扩增序列的丰度的标记物。

所述试剂盒还可包含以可获取方式保存在数据载体上用于与测试 样品的表达谱进行比较的一个或多个标准表达谱。该一个或多个表达 谱可以是依照本发明的第一个方面生成的。

乳房组织样品可以切除的乳房活检物或细针吸取物来获得。

再次,表达产物优选mRNA或由其生成的cDNA,或cRNA。结合成 员优选固定在一种或多种微阵列或珠形式的固体支持物上的寡核苷酸 (见上文)。结合谱优选通过能够检测用于标记表达产物的标记物的 检测仪来分析。可以通过将样品的结合谱与对照的结合谱(例如标准 表达谱)进行比较来做出是否存在或有险患上乳癌的判定。

在所有上述方面中,优选使用能够特异结合(且在核酸引物的情 况中扩增)所述多基因分类物的表达产物的结合成员。这是因为所有 基因的表达水平构成测试样品特异的表达谱。测试的基因表达水平的 数目越多,表达谱的分类越可靠。由此,优选评估选自一个或多个多 基因分类物的超过5种基因的表达水平、更优选超过10种、超过20 种、超过30种、甚至更优选超过40种、且优选所述多基因分类物的 所有基因。例如,结合成员可能能够与表S4所有基因或其多种基因的 表达产物结合,正如先前定义的。

已知的微阵列和基因芯片技术容许利用大量的结合成员。因此, 更优选的方法将是使用代表所述多基因分类物所有基因或其多种基因 的结合成员,正如先前关于每一个所述多基因分类物的定义。然而, 技术人员将领会,可省略这些基因中的一定比例,而仍然以可靠且统 计上精确的方式执行该方法。在大多数情况中,将优选使用代表所述 多基因分类物至少70%、80%、或90%基因的结合成员。在本文中, 多基因分类物优选指表S4的基因或其子集或组。多基因分类物可是表 A4的基因。

因此,如上所述,多种可能指多基因分类物的至少50%、更优选 至少70%、甚至更优选至少90%。

提供了基因鉴别物就容许定制诊断工具(例如核酸微阵列)并用 于肿瘤的预测、诊断和分型。另外,这些诊断工具可联合计算机,将 其编程来确定使用该诊断工具(例如微阵列)得到的表达谱并将它与 高置信度肿瘤对低置信度肿瘤的特征性“标准”表达谱进行比较。在 此过程中,计算机不仅为用户提供了可用于将患者的肿瘤分类的信息, 同时计算机还获得了另一个表达谱,由此确定“标准”表达谱,从而 能够更新其自身数据库。

由此,本发明首次制作了包含与所述多基因分类物或其多种基因 对应的探针的专用芯片(微阵列)。该阵列的实际物理结构可能在附 着在二维固体基质上的寡核苷酸探针至自由漂浮的用独特标记物(例 如“条形码”)分别“打上标签”的探针的范围内变化。

可生成与各种生物学分类(例如高置信度或低置信度ER+/ER-)对 应的数据库,它们将由使用专用微阵列测定的各种乳房组织的表达谱 组成。然后可以加工和分析该数据库,使之最终包含(i)与数据库中每 个表达谱对应的数值数据;(ii)作为特定分类的规范谱发挥功能的“标 准”谱;和(iii)代表各个谱相对于“标准”谱的观测统计变差的数据。

在一个实施方案中,为了评估患者的样品,首先分离该患者的乳 房样品(通过切除的活检物或细针吸取物获得)的表达产物,并使用 专用微阵列测定该样品的表达谱。为了将患者的样品分类,对上文所 述数据库询问患者样品的表达谱。询问可以以直接或间接方式进行。 “直接”方式指将患者的表达谱与数据库中的其它各个表达谱直接进 行比较,以确定哪个谱(及由此哪个分类)给出最佳匹配。或者,可 以更“间接”的进行询问,例如,可以将患者的表达谱仅仅与数据库 中的“标准”谱进行比较。间接法的优势在于“标准”谱(因为它们 代表了许多个别谱的集合)的数据强度低得多,而且可以保存在较为 便宜的计算机系统上,而它可能构成依照本发明的试剂盒的一部分(即 与微阵列相关)。在直接法中,有可能的是数据载体的规模将大得多 (例如计算机服务器),因为将要保存很多个别谱。

通过将患者的表达谱与标准谱(间接法)和预先测定的群体统计 变差进行比较,还将可能给出“置信度数值”,即患者的表达谱与高 或低置信度肿瘤的“标准”规范谱是多么匹配。该数值将为临床医师 提供关于分类可信度和例如是否应当重复分析的有价值信息。

如上所述还可能将患者的表达谱保存在数据库中,而且它们可在 任何时间用于更新数据库。

下面将参照附图通过实施例说明本发明的各个方面和实施方案。 其它方面和实施方案对于本领域技术人员将是显而易见的。将本文中 提到的所有文件收入本文作为参考。

                    附图简述

图1:具有低预测强度(“低置信度”)的肿瘤的鉴定。

将练习(training)组(a)和测试组(b)中的每份样品(x轴)对样 品的预测强度(PS,y轴)作图。练习数据集由55个肿瘤组成,而测 试数据集由41个肿瘤组成。将展示高正数PS值的样品归入ER+,而 将展示高负数PS值的样品归于ER-。蓝色样品指得到了正确的分类, 而红色样品指得到了错误的分类。通常会在练习和测试肿瘤中都观察 到一些“低置信度”样品(灰框)。

图2:比较“高”和“低置信度”肿瘤临床表现的Kaplan-Meier 分析。

(a)和(b)中的总体存活数据是由Stanford数据集(9)获得的,而 (c)和(d)中的远程转移时间数据是由Rosetta数据集(10)获得的。具 有“高置信度”肿瘤的患者以绿色表示,而具有“低置信度”肿瘤的 患者以粉色表示。a)具有“高”(60名患者)和“低置信度”(14 名患者)肿瘤的患者的总体存活,不管ER状态;b)具有ER+“高”(48 名)和“低置信度”(7名)肿瘤的患者的总体存活;c)在具有“高” (82名)和“低置信度”(15名)肿瘤的患者中由最初诊断出肿瘤至 出现远程转移的时间,不管ER状态;d)在具有ER+“高”(63名)和 “低置信度”(5)肿瘤的患者中由最初诊断出肿瘤至出现远程转移的 时间。

图3:低对高置信度样品中ER相关基因的广泛扰动(widespread perturbation)。

(a)和(b)描绘的是前122种与ER+状态正相关的ER区别基因(由 SAM-133基因组(set)获得,见正文)在(a)ER+/高(黄色)和ER+/低 (青绿色)以及(b)ER-/高(深蓝色)和ER-/低(粉色)样品中的相 对表达水平。122种基因沿着x轴的顺序是由它们的S2N比率决定的 (见材料和方法)。特定基因的S2N度量既要考虑两种类型之间平均 表达水平的差异,还要考虑在进行比较的每个类型内的该基因表达的 标准偏差。注意,这122种基因在(a)和(b)中的具体顺序是不同的, 这取决于它们的S2N比率(表2)。(c)和(d)描绘的是与ER+状态负相 关的前54种ER区别基因(其中11种属于SAM-133基因组(set),见 详情的补充信息)在(c)ER/高(黄色)和ER+/低(青绿色)以及(d)ER-/ 高(深蓝色)和ER-/低(粉色)样品中的相对表达水平。它们的扰动 要比在(a)和(b)中观察到的低得多。

图4:ERBB2+与在多个乳癌表达数据集间的“低置信度”预测有 关。数据来自参考文献3。a)表达高水平的ERBB2和与17q ERBB2染 色体基因座物理连的其它基因(MLN64,GRB7)(行)的肿瘤样品(列) 的鉴定。高表达以红色正方形表示。肿瘤样品5141、8443、7636、4527、 5955、10444、5985、6936展示高表达的ERBB2和ERBB2连锁基因, 而6080和10188展示升高但较弱的表达。b)ER分类的ANN模型的概 述(由参考文献3中的图1b修改而成)。分类为ER+的肿瘤样品以蓝 色显示,而ER-肿瘤以橙色显示。预测置信度由每个样品的标准偏差 (SD)表示,其中“低置信度”样品具有高SD。描述了八份“高度表 达”ERBB2阳性(+ve)样品(ERBB2位于样品SD的左侧或右侧)。注意, 具有高SD的肿瘤样品倾向于ERBB2阳性(+ve)。

图5:主成分分析(PCA),即将复杂的数据集投射(projection) 到简化的、易于显现的空间上的一种数学方法,为关于根据SAM-133 基因组(set)是如何清楚的区别样品的问题提供了有用的形象评估方 法。ER+和ER-肿瘤彼此区别明显,而ERBB2+样品位于中间部。彩色编 码方案:ER+ERBB2-,黄色;ER+ERBB2-,青绿色;ER-ERBB2+,蓝色; 和ER-ERBB2+,粉色。彩色编码方案:ER+ERBB2-,黄色;ER+ERBB2+, 青绿色;ER-ERBB2-,蓝色;和ER-ERBB2+,粉色。X轴是主成分1, 而Y轴是成分2。位于红线左侧的样品是ER+样品,除了两个ER-样品; 而位于右侧的样品是ER-样品,除了一个错误分类。接近边界的样品 (正方形中的)都是ERBB2+。

图6显示了具有“高置信度”ER阴性肿瘤的患者与携带“低置信 度”ER阴性肿瘤的患者的临床预后。分析了两个独立的数据集,称为 “Rosetta”和“Stanford”数据集。图6(a)显示了Rosetta肿瘤: 测量了无复发存活。11/19(58%)的高置信度患者在5年内形成远程 转移;而在低置信度ER-中,这个数值是8/10(80%)。图6(b)显示 了Stanford肿瘤:测量了总体存活。7/12(58%)的高置信度患者死 亡;而在低置信度ER-中,这个数值是5/7(71%)。

图7显示了Stanford和Rosetta数据集中具有低预测强度(“低 置信度”)的肿瘤的鉴定。

结果

使用中国患者的表达谱通过ER状态进行的乳瘤分类揭示了“低置信 度”样品的独特群体

乳癌在高加索和亚洲人群中的总体发病模式是截然不同的(8),这 促使发明人去调查在他们的当地患者群中是否也能观察到先前报告 (3,4)中的发现。他们首先使用基因表达谱数据根据它们的ER状态对 一组乳瘤进行分类。选择了一组55个乳瘤的练习组,其中通过IHC 预先测定了每个肿瘤的ER状态。测试了两种分类方法:加权表决(WV) 和支持矢量系统(SVM),并通过排除一项交叉验证(LOOCV)(补充 信息)评估了分类的精确度。除了将样品分类,还通过定量度量提供 了对分类不确定性的评估(材料和方法)。练习组的总体分类精确度 是95%(WV)和96%(SVM),其中七份样品鉴定为“低置信度”或 边缘预测(灰框,图1a)。为了确定是否能够在一组独立的肿瘤中也 观察到这种低置信度样品,使用第二组41个肿瘤作为独立的测试组。 虽然独立测试组的总体分类精确度是91%(WV和SVM),但是九份样 品再次展示“低置信度”预测(图1b)。由此,使用两种不同的分类 方法(WV和SVM),发现某些乳瘤在根据它们的基因表达谱根据ER 状态进行分类时展示独特的“低置信度”特征。

与具有“高置信度”肿瘤的患者相比,具有“低置信度”肿瘤的患者 展示总体存活降低且远程转移时间缩短

因为将肿瘤区分成“高”和“低置信度”亚群是通过肿瘤基因表 达谱的纯粹计算分析而完成的,所以不清楚这种区别是否具有生物学 或临床意义,以及以这种方式使用基因表达谱是否在确定乳瘤的ER 状态方面提供优于常规免疫组化技术的任何实质性优势。为了解决这 个问题,发明人调查了“低置信度”肿瘤是否可能展示与它们的“高 置信度”对应物截然不同的任何临床表现。他们使用了两个公开的乳 癌表达数据集,由此可以获得相关但不同类型的临床信息。第一个数 据集(9)由78个乳癌和7个非恶性样品的cDNA微阵列数据集以及总体 患者存活信息组成(称为Stanford数据集)。第二个数据集(10)由使 用基于寡核苷酸的微阵列描述的71个ER+和46个ER淋巴结阴性肿瘤 的谱组成,其中97份样品具有这样的临床信息,即由最初诊断出肿瘤 至出现新的远程转移的时间(称为Rosetta数据集)。发明人使用WV 将Stanford和Rosetta数据集中的乳瘤根据它们的ER亚型进行分类。 与他们自己的数据集一致的是,在Stanford数据集的56个ER+和18 个ER肿瘤中(由于缺乏ER状态信息除去了4个肿瘤),他们观察到 93%的总体LOOCV精确度,且14个肿瘤分为“低置信度”。类似的, WV分析也鉴定出Rosetta数据集中的15个肿瘤展示“低置信度”分 类,且总体LOOCV精确度为92%。这些数值与在发明人自己的患者群 中观察到的相当。

然后,他们使用Kaplan-Meier分析比较了该“高”和“低置信度” 肿瘤群的临床表现。如图2所示,与它们的“高置信度”对应物相比, 具有“低置信度”肿瘤的患者展示显著更差的总体存活(p=0.0003, 对数排序检验(log rank test))更短时间的远程转移(p=0.0001,对 数-排序检验)。这一结果指示“高”对“低置信度”二元区别确实富 有临床意义。然后发明人重复了这种分析,但是首先将肿瘤细分成独 立的ER+和ER-类型。对于ER+肿瘤,他们再次发现,与“高置信度” ER+肿瘤相比,“低置信度”ER+肿瘤与显著更差的总体存活(p=0.03, 对数-排序检验)和较短时间的转移(p=0.004,对数-排序检验)有关 (图2)。对于ER-肿瘤没有在总体存活和转移时间中观察到统计学显 著差异。这些结果指示ER+肿瘤可以根据“高”和“低置信度”二元 分类法细分成截然不同的展示不同临床表现的疾病组。因为目前不可 能通过用于ER检测的常规免疫组化方法来区别这两个组,这一结果还 显示了基因表达谱数据如何有助于用于乳癌预后和分级(staging)的 常规策略。

“低置信度”肿瘤在对区别ER亚型重要的基因的表达中展示广泛扰动

这些和其它研究中所使用的分类算法(例如WV、SVM、ANN,见下 文)都依赖多种区别基因的组合输入,然后将它们各自贡献组合起来 做出具体的分类决定(即肿瘤是ER+或ER-)。在形式上有可能的是, 这些乳瘤的“低置信度”预测状态是由于少数关键区别元素的显著反 常(即特异作用),或是由于大量区别基因的更微妙扰动(即广泛作 用)。为了区分这两种可能性,发明人比较了“高”和“低置信度” 肿瘤之间区别ER亚型的重要基因的表达水平。首先,为了鉴定在ER+ 和ER-肿瘤之间受到差异调节的ER区别基因,他们采用了称为微阵列 显著性分析(SAM)(11)的一种统计方法。

采用他们的联合数据集(总数=96个肿瘤),以“假发现率”(FDR) 为0%鉴定出总共133种受到差异调控的基因(SAM-133)(FDR是SAM 用于评估假阳性数目的指数-对于100种基因而言,FDR为10%指示 10种基因有可能是假阳性)。在这个数据集中,122种基因在ER+样 品中上调(即与ER状态正相关),而其余11种基因在ER+肿瘤中下 调(即与ER状态负相关)。正如预测的,SAM-133基因组(set)包含 许多与ER途径有关的基因,诸如ESR1、LIV1(一种雌激素可诱导的 基因)、和TFF1,并且多次鉴定出某些基因(例如GATA-3)。SAM-133 表中的许多基因还存在于其他人报告的类似表中(3,4)。

然后,发明人将ER+和ER-肿瘤各自细分成“高”和“低”置信度 类型(即ER+/高、ER+/低、ER-/高、ER-/低),并在各组之间比较了 SAM-133基因的表达水平(图3)。在SAM-133基因组(set)中与ER 状态正相关的122种基因中,大约62%在ER+/低样品中展示与ER+/ 高肿瘤相比显著更低的平均表达水平(称为“扰动表达”)(p<0.05, 图3a和表2)。具有“扰动”表达的基因包括ER、GATA3、BCL2、IGF1R、 和RARA,而其它ER区别基因(诸如TFF1、TFF3、和XBP1)不受影响。 类似的,在ER-“高”和“低”置信度样品中,发明人发现了一种相 反的模式(reciprocal pattern),其中122种基因的大约42%在ER-/ 低样品中展示与ER-/高肿瘤相比更高的平均表达水平(p<0.05,图3b 和表2)。有趣的是,虽然某些基因(例如GATA3、BCL2)的表达水平 在ER+和ER-两种亚型中在“低”和“高”置信度样品之间都发生扰动, 但是其它基因的扰动似乎是亚型特异的。例如,ESR1和IGFR1只在ER+ 样品中发生扰动,而XBP1只在ER-样品中发生扰动。最后,与ER+状 态负相关(即在ER-肿瘤中高度表达)的ER区别基因的表达水平变化 很小(图3c和d)。这一结果说明在“低置信度”样品中观察到的表 达扰动虽然是广泛的,但是主要是在其表达与ER正相关的基因中观察 到的(补充信息)。

ERBB2原癌基因的表达升高与“低置信度”预测显著相关

在“低置信度”乳瘤中观察到的表达扰动可以归于多种原因,从 实验变差(例如样品品质、肿瘤切除、和操作差)、分类方法的选择、 至人群和样品异质性。为了洞察隐藏在这些表达扰动下的可能机制, 发明人试图确定是否存在可能与“低置信度”状态有关的任何特异组 织病理学参数。在肿瘤的“低置信度”状态与患者年龄、淋巴结状态、 肿瘤分级、p53突变状态或孕受体状态之间没有观察到显著关联(表 1)。然而,发明人在肿瘤ERBB2状态与“低置信度”预测之间发现了 显著正相关(p<0.001,补充信息)。然后,对使用练习数据集观察到 的这种关联又使用独立的测试样品集进行评估。在独立的测试集中的 九份“低置信度”样品中,八个肿瘤也是ERBB2+(8/9),指示这种 关联不是数据集特异的。

发明人还调查了是否能够通过比较“高”和“低”置信度肿瘤的 整体表达谱来独立发现“低置信度”预测与高ERBB2表达之间的关联。 首先,他们比较了属于ER+亚型的“高置信度”和“低置信度”肿瘤。 总共89种基因鉴定为受到显著调控(FDR=14%)。在ER+“低置信度” 样品中上调最显著的前50种基因中,特别关注3种基因,即PMNT(排 序第4位)、GRB7V(排序第8位)、和ERBB2(排序第36位)(补 充信息),因为它们都在物理上位于17q区,这是乳癌中DNA扩增的 通常目标(12)。还在一项分开的分析中比较了ER-“高置信度”和 ER-“低置信度”样品。在鉴定为受到差异调控的前50种基因(FDR=4 %)中,发明人再次鉴定出17q基因PMNT(排序第5位)、GRB7V(第 10位)、和ERBB2(第28位)展示在“低置信度”样品中表达升高(补 充信息)。总之,这些结果说明,对于ER+和ER-两种亚型,与“高置 信度”肿瘤比较,“低置信度”乳瘤与ERBB2表达升高显著相关,最 有可能是由于17q基因座的DNA扩增。然而,请注意,“低置信度” 预测与ERBB2+表达之间的关联虽然是高度显著的,但是并不是完美 的,因为通过常规IHC判定为ERBB2+的少数肿瘤展示“高置信度”预 测,并非所有的“低置信度”肿瘤都是ERBB2+的。一种可能是除了ERBB2 以外的其它基因可能也促使乳瘤展示“低置信度”状态。

为了验证他们的发现,发明人分析了其它独立衍生的乳癌表达数 据集。首先,在Stanford数据集中的九个ERBB2+肿瘤中,所有九个 都预测为属于“低置信度”组(p<0.001,补充信息)。第二,在Rosetta 数据集中,他们再次发现了预测的置信度水平与ERBB2表达之间的显 著关联(p<0.001,补充信息)。第三,Gruvberger和他的同事采用 人工神经网络(ANN)对28个ER+和30个ER-样品的cDNA微阵列数据 集预测乳瘤的ER状态(3)。他们的结果显示于图4b,描绘了使用ER 亚型的前100种区别基因评估的ANN模型的输出以及样品标准偏差 (SD)。具有宽SD的样品与WV和SVM方法学的“低置信度”状态类 似。由图4b可以看出,ERBB2+样品(在图4a中测定的)趋于与指示 高不确定性的大SD相关,特别是ER+肿瘤。总之,在源自不同实验室 的广泛数据集中观察到ER预测的置信度水平与ERBB2状态之间的关 联,这些数据集采用不同的微阵列技术(Affymetrix,eDNA和寡核苷 酸),对不同的患者群(亚洲、欧洲/高加索)进行测定,并通过不同 的分类算法(WV、SVM、ANN)进行预测。这些结果在发明人的数据集 和公开的数据集中的共性说明高ERBB2表达与“低置信度”预测状态 之间的关联可能是乳癌的普遍内在特点。

在低置信度样品中扰动的显著比例的基因尚未知道受雌激素调控且在 它们的启动子中缺少潜在的ERE

在“低置信度”肿瘤中观察到的高ERBB2水平和ER-亚型区别基 因的广泛扰动之间的强关联提出了这样的可能性,即ERBB2可能在功 能上有助于这种现象。这能够发生的一种可能的机制是通过ERBB2信 号途径,已经有人提出它抑制ER的转录活性(见讨论)。在这种设想 下,可能预期“高置信度”(ERBB2-)和“低置信度”(ERBB2+)肿 瘤之间扰动的显著比例的基因将由受ER调控的基因组成。发明人以两 种方法检验了这种假说。首先,他们将他们的显著扰动基因表(表2) 与衍生自经雌激素(E2)刺激的MCF-7细胞的SAGE表达数据(13)进行 了比较,以确定二者之间的交叠程度。在SAGE数据和“扰动”基因表 之间只找到了两种共有的基因(STC2、TFF1),而且其中之一(TFF1) 以与预期相反的方式受到调控,即在ERBB2+样品中展示更高表达。这 一结果(在细胞系测定法的限度内)说明“低置信度”肿瘤中的许多 “扰动”基因可能不是直接受雌激素调控的。第二,因为体外细胞系 研究可能不能完全重现雌激素在体内的作用,所以发明人采用了一种 生物信息学方法,使用最近描述的算法Dragon雌激素响应元件探测器 (DEREF)在扰动基因的启动子区域中搜索假定的雌激素响应元件 (ERE)(14)。DEREF的预测精确度已经在许多体内实施例中得到了验 证-它在微阵列实验中在雌激素响应性基因的启动子区域中检测出 ERE模式的频率比不响应性基因高2.8倍,而且在属于雌激素诱导的 SAGE数据集的基因的启动子中检测出ERE模式的频率比在乳癌中的表 达与ER负相关的基因高5.4倍(补充信息)。在ER+肿瘤的前50种 扰动基因(表2)中,35种可以精确确定转录起始位点,因而随后通 过DEREF进行分析。在这35种中,只在12个启动子中以高置信度检 测到ERE(总频率34%)(表2)。

相反,在ER-肿瘤的前50种扰动基因中,33种通过DEREF进行了 分析,而且只在3种中检测到高置信度ERE(总频率9%)(表2)。 由此,在ER+肿瘤扰动基因的启动子中检测到ERE的频率比ER-肿瘤高 3.7倍。这种差异根据卡方分析(chi-square analysis)是显著的 (p=0.012),说明ERBB2可能经由不同机制影响ER+和ER肿瘤中的 转录(见讨论)。无论如何,ERE在两种亚型(ER+和ER-)的扰动基 因中都没有检测出过度体现,说明这些基因可能不是ER的直接转录 靶。这些基因可能代表了ER的间接靶,或者可能经由ER不依赖性机 制调控转录。

用于不管ER型将低和高置信度肿瘤分类的最佳基因组(gene set) 的定义

这项分析的目的是鉴定在不管它们的ER状态的前提下可用于将 “高”和“低置信度”肿瘤分类的基因的最佳组。

详情

分析了总共96个肿瘤,其中16个是LC,80个是HC。使用一系 列三种独立分析方法(SAM、GR、和WT,见下文)来鉴定在两个组之 间(LC和HC)受到不同调控的基因。通过排除一项交叉验证检验法使 用支持矢量系统或加权表决作为分类算法评估了这些基因组别用于将 肿瘤HC或LC状态分类的能力。

结果

SAM(微阵列显著性分析):在FDR(假发现率)<15%时,在低 置信度肿瘤中鉴定出总共86种上调基因和2种下调基因。使用这个基 因组(gene set),LOOCV检验法得到了84%的分类精确度。表A1显示 了这88种基因。

GR(由SVM进行的基因排序):鉴定出总共251种基因具有将肿 瘤HC或LC状态分类的能力,且分类精确度为86%。表A2显示了这 251种基因。

WT(Wilcoxon检验):在P值<0.05且变化截止值≥2倍时,鉴定 出总共38种基因。这38种基因组(set)给出的LOOCV精确度是80%。 表A3显示了这38种基因。

然后鉴定出上述三个基因组别(SAM-88、GR-251、WT-38)的13 种“共有”基因。这13个成员基因通过LOOCV实现的分类精确度是 84%。本质上,这13种“共有基因”是强有力的显著标志物,而且能 够像其它“完整”标志物组一样获得相当的性能。因此,它们可以作 为“最佳”基因。表A4显示了这13种基因。

ER阴性“高置信度”与“低置信度”肿瘤的临床结果

这项分析的目的是比较具有“高置信度”ER阴性肿瘤的患者与携 带“低置信度”ER阴性肿瘤的患者的临床预后

详情

分析了两个独立的数据集,称为“Rosetta”和“Stanford”数据 集。Rosetta数据集包含29个阴性肿瘤,其中19个是“高置信度”, 10个是“低置信度”。Stanford数据集包含19个ER阴性肿瘤,其中 12个是“高置信度”,7个是“低置信度”。分析结果显示于图6(a) 和6(b)。

在两种情况中,具有“低置信度”肿瘤的患者展示比它们的高置 信度对应物更差的预后。虽然这种差异不是统计学显著的,但是这可 能是由于这些研究中分析的患者数目较少。

讨论

这份报告中的发现补充并扩充了与根据ER亚型将乳瘤分类有关 的这一领域先前的工作。一般而言,这些研究显示了,虽然基因表达 数据可以成功的用于将大多数肿瘤的ER亚型分类,但是总是存在展示 低置信度预测因而不能准确分类的某一群肿瘤(3,4)。发明人决定通过 对这些“低置信度”肿瘤进行深入分析来研究这些“低置信度”样品。 他们得到了许多令人惊讶的发现。他们发现与具有“高置信度”肿瘤 的患者相比,具有“低置信度”肿瘤的患者展示显著更差的总体存活 和更短时间的远程转移。通过对基因表达谱进行计算分析得出的“高” 对“低置信度”分类还可用于将ER+肿瘤分成展示不同临床表现的组 (图2)。因为目前不可能使用常规免疫组织病理学技术区别这些亚 群,所以这些结果还显示了通过表达谱和计算分析对乳瘤ER状态的分 类是如何在医学上极其有用的。

发明人还令人惊讶的发现,“低置信度”状态与ERBB2受体表达 升高显著相关。然而,他们强调ERBB2与“低置信度”预测之间的联 系仍然是一种联想,而且在这点上他们没有证据(来自他们自己的数 据)来证明ERBB2在功能上导致引起“低置信度”状态。无论如何, 考虑到ER和ERBB2是目前在临床上在乳癌中最有关联的两种分子生物 标志物,令人感兴趣的是推测这些结果说明在乳癌中这两种信号途径 之间可能存在实质性串扰(cross-talk),其他人也提出了这种可能 性(7)。有趣的是,ERBB2+与“低置信度”预测之间的关联虽然是高度 显著的,但是并不是完美的,因为在并非所有的“低置信度”肿瘤都 是ERBB2+的同时,也发现少数ERBB2+肿瘤展示“高置信度”预测。由 此,不可能通过用于检测ERBB2的常规组织病理学技术(诸如IHC和 FISH)来鉴别“低置信度”乳瘤群。相反发明人相信,对于通过常规 组织病理学判定为ERBB2+的肿瘤,对这些肿瘤进一步检查这些特征性 “表达扰动”的存在与否可能是一种有希望的方法,可用于区别有可 能是在临床上更具攻击性的肿瘤与将沿着相对更为缓慢的过程发展的 肿瘤。

探索这种可能性将是未来研究的一项重要任务。在临床上,早就 将在ER+乳瘤中ERBB2表达升高与对抗激素疗法的敏感性降低联系起 来,而且已经报告了许多实验论文,它们提出了ERBB2活性可能引起 这种效果的可能机制。一般而言,在一种最流行的模型中,ERBB2信 号的升高引起ER展示降低的转录活性,或是通过ER基因的转录下调 (17)、ER的翻译后修饰(例如磷酸化)(18),或是通过ER结合共抑 制物诸如MTA1的诱导(19)。如果ERBB2的作用主要是通过对ER转录 活性的作用来介导的,那么可以预计其转录在ERBB2+“低置信度”样 品中显著扰动的大量的基因应当对应于作为ER直接靶的基因。然而, 发明人发现,在ER+和ER-肿瘤中都显著扰动的显著比例的基因先前并 未鉴定为受雌激素诱导的基因,而且这些基因在它们的启动子中似乎 还缺少ERE。ER-肿瘤格外如此,其中发现只有9%的显著扰动基因在 它们的启动子中含有高置信度的假定ERE。尽管发明人不能排除这些 扰动基因可能是ER的间接靶或者可能经非ERE机制由ER激活的可能 性,然而这些发现提出了ERBB2活性可能在乳瘤中以ER不依赖性方式 调控显著比例的基因的可能性。这可以通过许多途径发生。例如,ERBB2 可能通过RAS/MAPK的激活或PI3/Akt途径调控ER以外的其它转录因 子(18)。

或者,ERBB2活性可能导致染色质因子诸如MTA1的诱导,而它们 可能发挥更加多效的作用(19)。

材料和方法

乳房组织样品和患者数据

在由新加坡国立癌症中心协会的组织库和道德委员会得到相应的 批准后,可以由组织库获得乳房组织样品和临床数据。样品在手术切 除后立即在操作室中进行粗略分割,并在液氮中骤冻。组织学信息(ER, ERBB2)是由新加坡综合医院病理科提供的,并且选择样品从而为每个 数据集提供相当数目的ER+和ER-肿瘤(通过IHC测定)。

根据冷冻切片的评估,肿瘤样品含有>50%的肿瘤含量。使用55 个肿瘤(35个ER+样品和20个ER-样品)作为练习数据,且将另一单 独组41个肿瘤(21个ER+和20个ER-样品)用于盲检。表S1包括了 所有样品和患者临床数据的详细列表。

样品制备和微阵列杂交

使用Trizol试剂由组织提取RNA,并且为了使用U133A基因芯片 进行Affymetrix基因芯片杂交依照制造商的指示进行加工。

数据预加工

使用Genedate Refiner程序对原始的芯片扫描结果进行质量控 制,并保存在中央数据存储设备中。对表达数据进行预加工,即清除 其表达在所有样品中都不存在的基因(即“A”call),将剩余基因进 行log2转化,并由样品介导集中(mediate-centering)。

ER状态的预测

使用两种分类算法即加权表决(WV)(20)和支持矢量系统(SVM) (21)将乳瘤根据ER亚型进行分类。分类精确度定义为正确分类的样品 数目除以样品总数。对于WV分析,分类精确度是使用前50种ER状态 区别基因的基因组(set)测定的,而基于SVM的二元分类器采用所有基 因。

加权表决(WV):加权表决算法采用信噪比(S2N)度量来进行二 元分类。给属于预测物组的每种基因分派“选票”,表述为待分类样 品基因表达水平与平均类型平均表达水平之间的加权差异。权重是使 用如下相关性度量确定的:

P ( g , c ) = μ 1 - μ 2 σ 1 + σ 2

(μ和σ表示基因在两种类型每一种中的表达水平的平均值和标准偏 差)。判定特定类型的最终表决是通过将类型区别中所使用的每种基 因的所有加权选票求和而计算出来的。“预测强度”(PS)定义为:

其中V胜和V败分别指获胜或失败类型的总票数。PS反映了获胜的相对 幅度,从而定量反映了预测的确定性。

支持矢量系统(SVM):支持矢量系统是这样一种分类算法,它在 所采用的特征(基因)空间中定义了一个区别表面,试图最大程度的 将练习数据的类型分开(21)。未知测试样品相对于区别表面的位置决 定其类型。常常计算在n维基因空间中的距离,对应于所考虑基因表 达值的总数。发明人使用具有线性影响函数(linear kernel)的SVM-FU (可以由 www.ai.mit.edu/projects/cbcl/获得)来执行SVM分析。 每个SVM预测的置信度是以测试样品与区别表面的距离为基础的,正 如先前所述(22)。

低置信度肿瘤的鉴定

由于实现高预测置信度的临床重要性,发明人谨慎选择了高置信 度阈值,将潜在的假阳性分类降至最低。根据排除一项交叉验证 (LOOCV)的结果,他们使用0.4作为阈值,并鉴定出16份样品(来 自总计96份样品)是“低置信度”组中的。若肿瘤样品来自WV的预 测强度(PS)低于该阈值,则将它判定为“低置信度”类型。

差异表达基因的选择和表达扰动的测定

微阵列显著性分析(SAM)是开发用于鉴定在不同组之间得到差异 表达的基因的一种统计方法(11)。根据基因受到调控的统计学可能性 将它们排序。SAM算法还对表达数据进行排列分析以评估随机鉴定为 “受到差异调控的”(即假阳性)基因的数目。这个数值即“假发现 率”(FDR)。根据期望的严谨度,不同报告使用的FDR范围由<5%至 33%(23,24)。

使用Student′st检验来比较高”和“低置信度”组之间SAM-133 基因组(set)的表达水平。若基因的p值低于0.05,则将它归入具有 显著的“扰动表达”。

使用DEREF进行的雌激素响应元件(ERE)的计算鉴定

使用一种计算算法即Dragon ERE探测器(Dragon ERE Finder) (DEREF)(14)来鉴定假定的雌激素响应元件(ERE),即启动子中ER 的DNA结合位点(关于DEREF的根本方法学的描述见 http://sdmc.lit.org.sg/ERE-V2/index)。在缺省设置,DEREF在人 类基因组DNA上平均每13,000nt产生一个ERE模式预测,且灵敏度为 83%。为了减少假阳性的数目,发明人在这份报告中运用了额外的标 准,即预测的17个核苷酸的ERE模式(14)还必须与来自至少一个其它 人基因启动子的类似ERE模式匹配(根据BLAST(25)匹配且不容许缺 口),且条件是后一种模式可以由DEREF以97%灵敏度预测。这份报 告中的ERR搜索是使用FIE2程序(26,27)对包含大约11,000种参考人 启动子序列的数据库进行的,这些序列覆盖相对于基因5′末端的 [-3000,+1000]范围。将要分析的有些基因没有包含在这个启动子数 据库中,因而没有对这些基因进行ERE搜索。这些基因在表2中以N/A 表示。

Stanford和Rosetta数据集中具有低预测强度(“低置信度”)的肿 瘤的鉴定

对两个独立的数据集(称为“Stanford”和“Rosetta”数据集) 独立进行加权表决和排除一项交叉验证。以与图1相似的方式将结果 制图,并显示于图7。在两个数据集中,低置信度肿瘤可以鉴定为这 样的点,即此处肿瘤开始显示在质量上比肿瘤群主体低的预测强度 (“PS”)(“cliff-point”)。尽管每个数据集是独立进行分析的, 然而所有数据集中“低置信度”肿瘤的比例是高度相当的,范围为所 有肿瘤的15-19%(图7(a)中所示Rosetta数据集=18/117(15.4%); 图7(b)中所示Stanford数据集=14/74(18.9%),我们的数据集=16/96 (16.7%))。

用于生成图7数据的不同阵列技术的详情

Stanford数据集:该数据是使用双色cDNA微阵列产生的,其中 将通过PCR扩增的cDNA片段(代表不同基因)机器自动地放置到固体 基质上而形成微阵列。

Rosetta数据集:该数据是使用双色寡核苷酸微阵产生的,其中 将70-80聚物寡核苷酸(代表不同基因)通过化学方法在固体基质上 原位合成而形成微阵列。

患者群的详情

Stanford数据集由78份乳癌(肿瘤)和7份非恶性样品的cDNA 微阵列数据以及总体患者存活信息组成。

Rosetta数据集由使用基于寡核苷酸的微阵列描绘(profiled) 的117个早期(淋巴结阴性)乳瘤组成。

群体大小

如上所示,低置信度肿瘤占据了每个乳瘤群的约15-19%。为了 确信的鉴定这个肿瘤亚群,优选需要至少25-30份图谱的最小数据集, 优选更多图谱(约80-100个肿瘤,正如上文三个数据集)。

样品数据

表S7显示了加权表决算法中使用的SAM-133基因组(geneset)中 每种基因的平均值(μ)和标准偏差(σ)参数。给予SAM-133基因组 (geneset)中一组基因的表达水平后,这些数据可用于确定未知乳瘤样 品为高或低置信度。表2的基因包括在SAM-133基因组中。该数据特 异于加权表决技术,这种技术可应用于来自Affymetrix U133基因芯 片的表达数据。

表S8显示了高置信度和低置信度样品间表A4多基因分类物(共 有的13种基因)的表达数据。该数据特异于Affymetrix U133A基因 芯片,而且已经进行了数据预加工。表A4多基因分类物的基因表达谱 可以作为练习数据用于构建预测模型(例如WV和SVM),然后可以确 定未知乳瘤的置信度。

数据以制表符为界,而且具有如下格式:

列:

第1列:预后基因组(set)的探针ID

第2列:基因名称

第3列和其它列:基因表达数据

行:

第1行:样品Id(35份样品)

第2行:样品的置信度(高或低)

第3行和其它行:基因表达数据

基因表达数据是如“样品制备和微阵列杂交”和“数据预加工” (见材料和方法部分)中所述产生的。

表S9显示了用于表A4基因组(gene set)中每种基因的加权表决 算法中所使用的平均值(μ)和标准偏差(σ)参数。给予表A4基因组中 一组基因的表达水平,这些数据可用于确定未知乳瘤样品为高或低置 信度,不管肿瘤的ER状态。该数据特异于加权表决技术,这种技术可 应用于来自Affymetrix U133基因芯片的表达数据。

参考文献

1.Tavassoli,F.A.and Schhitt S.J.(1992)Pathology of the Breast.In(Elsevier)

2.Biswas,D.K.,Averboukh,L.,Sheng,S.,Martin,K. Ewaniuk,D.S.,Jawde,T.F.,Wang,F.,pardee,A.B.(1998) Classification of brsast cancer cells on the basis of a functional assay for estrogen receptor.Mol Med,4,454-467

3.Gruvberger,S.,M.Ringner,Y.Chen,S.panavally,L.H. Saal,A.Borg,M.Ferno,C.Peterson,and P.Meltzer(2001) Estrogen Receptor Status in Breast Cancer is Associated with Remarkably Distinct Gene Expression Patterns.Cancer Research,61,5979-5984

4.West,M.,Blanchette,C.,Dressman,H.,Huang,E., Ishida,S.,Spang,R.,Zuzan,H.,Olson,J.A.Jr,Marks, J.R.,Nevins,J.R.(2001)Predicting the clinical status of human breast cancer by using gene expression profiles.Proc Natl Acad Sci USA.98,11462-67.

5.Pietras R.J.,Arboleda,J.,Reese,D.M.,Wongvipat,N., Pegram,M.D.,Ramos,L.,Gorman,C.M.,Parker,M.G., Sliwkowski,M.X.,Slamon,D.J.(1995)HER-2 tyrosine kinase pathway targets estrogen receptor and promotes hormone-independent growth in human breast cancer cells.Oncogene,10,2435-2446

6.Kurokawa,H.and Arteaga,C.L.(2001)Inhibition of erbB receptor(HER)tyrosine kinases as a strategy to abrogate antiestrogen resistance in human breast cancer.Clinical Cancer Research,12,4436s-4442s

7.Bange,J.,Zwick,E.,and Ullrich,A.(2001)Molecular targets for breast cancer therapy and prevention.Nature Medicine,7,548-552

8.Chia,K.S.,A.Seow,H.P.Lee,and K.Shanmugaratnam (2000)Cancer Incidence in Singapore,1993-1997.In (Singapore Cancer Registry)

9.Sorlie T,Perou CM,Tibshirani R,Aas T,Geisler S, Johnsen H,Hastie T,Eisen MB,van de Rijn M,Jeffrey SS, Thorsen T,Quist H,Matese JC,Brown PO,Botstein D, Eystein Lonning P,Borresen-Dale AL.(2001)Gene expression patterns of breast carcinomas distinguish tumour subclasses with clinical implications.Proc Natl Acad Sci USA.98, 10869-74.

10.Van′t Veer LJ,Dai H,van de vijver MJ,He YD,Hart AA, Mao M,Peterse HL,van der Kooy K,Marton MJ,Witteveen AT, Schreiber GJ,Kerkhoven RM,Roberts C,Linsley PS,Bernards R,Friend SH.(2002)Gene expression profiling predicts clinical outcome of breast cancer.Nature,415,530-6.

11.Tusher,V.G.,R.Tibshirani,and G.Chu(2001) Significance Analysis of Microarrays Applied to the Ionizing Radiation Response.Proc.Natl.Acad.Sci USA.98,5116- 5121

12.Kallioniemi A,Kallioniemi OP,Piper J,Tanner M,Stokke T,Chen L,Smith HS,Pinkel D,Gray JW,Waldman FM.(1994) Detection and mapping of amplified DNA sequences in breast cancer by comparative genomic hybridization.Proc Natl Acad Sci USA.91,2156-60.

13.Charpentier AH,Bednarek AK,Daniel RL ,Hawkins KA, Laflin KJ,Gaddis S,MacLeod MC,Aldaz CM.(2000)Effects of estrogen on global gene expression:identification of novel targets of estrogen action.Cancer Research,60,5977-83.

14.Bajic,V.B.,Tan,S.L.,Chong,A.,Tang,S.,Strom,A., Gustafsson,J.,Lin,C.Y.,Liu,E.(2002)Dragon ERE Finder ver.2:A tool for accurate detection and analysis of estrogen response elements in vertebrate genomes.Nucleic Acid Res.,in press

15.Alizadeh,A.A.,M.B.Eisen,R.E.Davis,C.Ma,I.S. Lossos,A.Rosenwald,J.C.Boldrick,H.Sabet,T.Truc,Y. Xin,J.I.powell,L.Yang,G.E.Marti,T.Moore,J. Hudson,L.Lisheng,D.B.Lewis,R.Tibshirani,G.Sherlock, W.C.Chan,T.C.Greiner,D.D.Weisenburger,J.O. Armitage,R.Warnke,R.Levy,W.Wilson,M.R. Grever,J.C.Byrd,D.Botstein,P.O.Brown,and L.M. Staudt(2000)Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.Nature, 403,503-511

16.Bittner,M.,P.Meltzer,Y.Chen,Y.Jiang,E.Seftor, M.Hendeix,M.Radmacher,R.Simon,Z.Yakhini,A.Ben-Dor, N.Sampas,E.Dougherty,E.Wang,F.Marincola,C. Gooden,J.Lueders,A.Glatfelter,P.Pollock,J.Carpten, E.Gillanders,D.Leja,K.Dietrich,C.Beaudry,M.Berens, D.Alberts,V.Sondak,N.Hayward,and J.Trent(2000) Molecular classification of cutaneous malignant melenoma by gene expression profiling.Nature,406,536-540

17.Grunt TW,Saceda M,Martin MB,Lupu R,Dittrich E, Krupitza G,Harant H,Huber H,Dittrich C(1995). Bidirectional interactions between the estrogen receptor and the cerbB-2 signaling pathways:heregulin inhibits estrogenic effects in breast cancer cells.Int J Cancer,63, 560-567

18.Stoica GE,Franke TF,Wellstein A,Morgan E,Czubayko F, List HJ,Reiter R,Martin MB,Stoica A(2003).Heregulin- betal regulates the estrogen receptor-alpha gene expression and activity via the ErbB2/PI 3-K/Akt pathway.Oncogene,22, 2073-2087.

19.Mazumdar,A.,Wang,R.A.,Mishra,S.K.,Adam,L., Bagheri-Yarmand,R.,Mandal,M.,Vadlamudi,R.K.,Kumar,R. (2000)Transcriptional repression of oestrogen receptor by metastasis-associated protein 1 corepressor.Nature Cell Biol,3,30-37

20.Golub TR,Slonim DK,Tamayo p,Huard C,Gaasenbeek M, Mesirov JP,Coller H,Loh ML,Downing JR,Caligiuri MA, Bloomfield CD,Lander ES.(1999).Molecular classification of cancer:class discovery and class prediction by gene expression monitoring.Science,286,531-7.

21.Vapnik V.(1998)Statistical Learning Theory.Wiley,New York.

22.Ramaswamy S,Tamayo P,Rifkin R,Mukherjee S,Yeang CH, Angelo M,Ladd C,Reich M,Latulippe E,Mesirov JP,Poggio T,Gerald W,Loda M,Lander ES,Golub TR.(2001)Multiclass cancer diagnosis using tumour gene expression signatures. proc Natl Acad Sci USA.98,15149-54.

23.Mueller,A.,O′Rourke,J.,Grimm,J.,Guillemin,K., Dixon,M.F.,Lee,A.and Falkow,S.(2003)Distinct gene expression profiles characterize the histopathological stages of disease in Helicobacter-induced mucosa-associated lymphoid tissue lymphoma.Proc Natl Acad Sci USA,100,1292 -1297.

24.Sanoudou,D.,Haslett,J.N.,Kho,A.T.,Guo,S.,Gazda, H.T.,Greenberg,S.A.,Lidov,H.G.V.,Kohane,I.S.,Kunkel, L.M.,and Beggs,A.H.(2003)Expression profiling reveals altered satellite cell numbers and glycolytic enzyme transcription in nemaline myopathy muscle.proc Natl Acad Sci USA,100,4666-4671.

25.Altschul,S.F.,Madden,T.L.,Schaffer,A.A.,Zhang,J., Zhang,Z.,Miller,W.and Lipman,D.J.(1997)Gapped BLAST and PSI-BLAST:a new generation of protein database search programs,Nucleic Acids Res.25,3389-3402.

26.Chong,A.,Zhang,G.,Bajic,V.B.(2002)Information and sequence extraction around the 5′-end and translation initiation site of human genes,In Silico Biology,2,461- 465.

27.Chong,A.,Zhang,G.,Bajic,V.B.(2003)FIE2:A program for the extraction of genomic DNA sequences around the start and translation initiation site of human genes,Nucleic Acids Research,in press.

28.Eisen MB,Spellman pT,Brown PO,Botstein D.(1998) Cluster analysis and display of genome-wide expression patterns.Proc Natl Acad Sci USA.95(25),14863-14868.   表1:临床参数与ER分类置信度之间的关联   练习数据集(这份报告)   标准数据集   参数   患者人数   平均   置信度   P值   参数   患者人数   平均   置信度   P值   ERBB2   <0.001   ERBB2   <0.001   阳性   阴性   18   37   0.58   0.89   阳性   阴性   9   65   0.233   0.667   年龄   0.45   年龄   0.03   <55岁   ≥55岁   25   30   0.76   0.81   <55岁   ≥55岁   33   41   0.545   0.669   瘤(node)   0.98   瘤   0.91   0个   1-2个   21   30   0.787   0.785   0个   1-2个   22   52   0.619   0.612   组织学分级   0.98   组织学分级   0.28   1级   2级   3级   7   36   8   0.804   0.784   0.779   1级   2级   3级   9   32   32   0.727   0.631   0.583   PR   0.03   TP53   0.11   阳性   阴性   19   31   0.88   0.71   野生型   突变型   38   36   0.659   0.567

表2:在ER+/低和ER+/高样品(a)以及ER-/低和ER-/高样品(b) 之间显著扰动的前50种基因。在ERE列中,“ERE”指示启动子含有 由DEREF预测的高置信度假定ERE;“无ERE”指示没有发现假定ERE, 而“低”指示对于该启动子以中置信度发现ERE。N/A表示没有分析该 启动子,因为不可能根据全长转录本确定它们的转录起始位点。基因 根据它们在高和低置信度样品之间的S2N比率排序。

表2   (a)ER+/低对ER+/高   基因名称   UniGen.e   ERE   排   序   雌激素受体1   Hs.1657   无ERE   1   动力蛋白、轴丝(axonemal)、光中间多肽1   Hs.406050   低   2   细胞色素c氧化酶亚基VIc   Hs.351875   无ERE   3   膜联蛋白A9   Hs.279928   ERE   4   N-乙酰基转移酶1(芳基胺N-乙酰基转移酶)   Hs.155956   ERE   5   细胞色素P450,亚家族IIB(苯巴比妥可诱导的),多肽6   Hs.1360   低   6   视黄酸受体α   Hs.361071   ERE   7   胰岛素样生长因子1受体   Hs.239176   N/A   8   丝酸(或半胱氨酸)蛋白酶抑制物,进化枝A(α-1抗蛋   白酶、抗胰蛋白酶),成员5   Hs.76353   低   9   人类cDNA:FLJ21695 fis,克隆COL09653,mRNA序列   Hs.306803   N/A   10   B细胞CLL/淋巴瘤2   Hs.79241   ERE   11   GREB1蛋白   Hs.193914   无ERE   12   RNB6   Hs.241471   ERE   13   GATA结合蛋白3   Hs.169946   无ERE   14   人类mRNA;cDNA DKFZp564F053(来自克隆DKFZp564F053),   mRNA序列   Hs.71968   N/A   15   含WW结构域蛋白1   Hs.355977   无ERE   16   GDNF家族受体α1   Hs.105445   无ERE   17   染色体1开放读码框34   Hs.125783   N/A   18   与AF4有关的淋巴样核蛋白   Hs.38070   N/A   19   白介素6信号转导物(gp130,制瘤素M受体)   Hs.82065   无ERE   20   G蛋白信号调节物11   Hs.65756   ERE   21   人胰岛素样生长因子1受体mRNA,3′序列,mRNA序列   Hs.405998   N/A   22   hepsin(跨膜蛋白酶,丝氨酸1)   Hs.823   无ERE   23   sema结构域,免疫球蛋白结构域(Ig),短基本结构域,分   泌的,(semaphorin)3B   Hs.82222   无ERE   24   UDP-葡萄糖神经酰胺葡萄糖基转移酶   Hs.432605   ERE   25   细胞色素P450,亚家族IIB(苯巴比妥可诱导的),多肽7   Hs.330780   N/A   26   肌蛋白T1,骨骼的,缓慢的   Hs.73980   N/A   27   微管相关蛋白τ   Hs.101174   无ERE   28   seven in absentia同系物2(果蝇)   Hs.20191   无ERE   29   孕酮受体   Hs.2905   无ERE   30   KIAA0882蛋白   Hs.90419   N/A   31   假定蛋白FLJ20151   Hs.279916   低   32   ATP结合盒,亚家族A(ABC1),成员3   Hs.26630   ERE   33   酸酐酶XII   Hs.5338   ERE   34   溶质载体家族16(一元羧酸转运蛋白),成员6   Hs.114924   低   35   假定蛋白FLJ12910   Hs.15929   无ERE   36   假定蛋白FLJ20627   Hs.238270   无ERE   37   毛发鼻指(趾)综合征1   Hs.26102   无ERE   38   calsyntenin 2   Hs.12079   N/A   39   丝氨酸(或半胱氨酸)蛋白酶抑制物,进化枝A(α-1抗蛋   白酶、抗胰蛋白酶),成员3   Hs.234726   ERE   40   vav 3癌基因   Hs.267659   无ERE   41   LIV-1蛋白,受雌激素调节   Hs.79136   N/A   42   人类mRNA;cDNA DKFZp434E082(来自克隆DKFZp434E082),   mRNA序列   Hs.432587   N/A   43   腺苷酸环化酶9   Hs.20196   ERE   44   KIAA0876蛋白   Hs.301011   N/A   45   血红素结合蛋白1   Hs.294133   ERE   46   stanniocalcin 2   Hs.155223   低   47   补体成分4B   Hs.433721   N/A   48   可溶性载体家族27(脂肪酸转运蛋白),成员2   Hs.11729   N/A.   49   T盒3(ulnar mammary syndrome)   Hs.267182   无ERE   50   (b)ER-/低对ER-/高   假定蛋白FLJ20151   Hs.279916   低   1   碳酸酐酶XII   Hs.5338   低   2   GATA结合蛋白3   Hs.169946   无ERE   3   酵母长链多不饱和脂肪酸延长酶2同系物   Hs.250175   无ERE   4   含WW结构域蛋白1   Hs.355977   无ERE   5   X盒结合蛋白1   Hs.149923   无ERE   6   脂肪特异2   Hs.74120   低   7   黑素瘤抗原,家族D,2   Hs.4943   N/A   8   anterior gradient 2同系物(非洲爪蟾Xenepus laevis)   Hs.91011   无ERE   9   细胞色素c氧化酶亚基VIc   Hs.351875   无ERE   10   酮还原酶家族7,成员A3(黄曲霉毒素醛还原酶)   Hs.284236   N/A   11   紧密连接蛋白3(闭锁小带3)   Hs.25527   N/A   12   LAG1长寿确保同系物2(酿酒酵母(S.cerevisiae))   Hs.285976   ERE   13   肌醇1,4,5-三磷酸受体,1型   Hs.198443   无ERE   14   果糖-1,6-二磷酸酶1   Hs.574   ERE   15   KIAA0882蛋白   Hs.90419   N/A   16   假定蛋白FLJ12910   Hs.15929   无ERE   17   LIV-1蛋白,受雌激素调节   Hs.79136   N/A   18   甲基巴豆酰-辅酶A羧化酶2(β)   Hs.167531   无ERE   19   细胞色素P450,亚家族IIB(苯巴比妥可诱导的),多肽7   Hs.330780   N/A   20   三叶草因子3(肠)   Hs.82961   低   21   人克隆23948mRNA序列   Hs.159264   N/A   22   N-乙酰基转移酶1(芳基胺N-乙酰基转移酶)   Hs.155956   低   23   GREB1蛋白   Hs.193914   无ERE   24   视黄酸诱导的3   Hs.194691   无ERE   25   溶质载体家族16(一元羧酸转运蛋白),成员6   Hs.114924   低   26   动力蛋白、轴丝、光中间多肽1   Hs.406050   低   27   溶质载体家族7(阳离子氨基酸转运蛋白,y+系统),成员   8   Hs.22891   低   28   WD重复结构域10   Hs.70202   无ERE   29   calsyntenin 2   Hs.12079   N/A   30   v-myb成髓细胞病病毒癌基因同系物(禽类)   Hs.1334   低   31   三叶草因子1(在乳癌中表达的雌激素可诱导的序列)   Hs.350470   低   32   假定蛋白MGC2601   Hs.124915   ERE   33   dachshund同系物(果蝇)   Hs.63931   无ERE   34   粘蛋白1,跨膜   Hs.89603   N/A   35   补体成分4B   Hs.433721   N/A   36   富含半胱氨酸蛋白1(肠)   Hs.423190   N/A   37   NPD009蛋白   Hs.283675   低   38   sema结构域,免疫球蛋白结构域(Ig),短基本结构域,分   泌的,(semaphorin)3B   Hs.82222   无ERE   39   HRAS样抑制物3   Hs.37189   N/A   40   ATP结合盒,亚家族A(ABC1),成员3   Hs.26630   低   41   微管相关蛋白τ   Hs.101174   无ERE   42   肌球蛋白VI(人类),mRNA序列   Hs.385834   N/A   43   CGI-49蛋白   Hs.238126   N/A   44   视黄酸受体,α   Hs.361071   低   45   vav 3癌基因   Hs.267659   无ERE   46   染色体1开放读码框34   Hs.125783   N/A   47   雌激素受体1   Hs.1657   无ERE   48   溶质载体家族27(脂肪酸转运蛋白),成员2   Hs.11729   N/A   49   TBX 3同工蛋白   Hs.332150   N/A   50

表S1:乳瘤样品的临床信息                           表S1:我们的数据集的临床信息   样品ID   ER   ERBB2*   PR   年龄   瘤   阶段   人种   最初的集合(55份样品)   980177   980178   980194   980197   980203   980208   980214   980215   980216   980217   980220   980221   980238   980247   980261   980338   980346   980353   980373   980380   980383   980391   980395   980396   980403   980404   980409   980411   980434   980441   990075   990082   990107   990113   990115   990123   990134   990148   990174   990223     990262   +   +   -   +   +   +   +   +   -   +   +   +   -   -   +   -   +   -   -   -   +   +   -   -   +   +   +   -   +   -   +   +   +   +   +   +   -   +   -   +   -   阴性   阴性   阳性   阳性   阴性   阴性   阳性   阴性   阴性   阴性   阳性   阴性   阳性   阴性   阴性   阴性   阴性   阴性   阳性   阳性   阴性   阴性   阳性   阳性   阴性   阴性   阴性   阴性   阴性   阴性   阴性   阴性   阴性   阴性   阳性   阴性   阳性   阳性   阴性   阳性   阳性   +   -   -   +   +   +   -   -   -       +       -   -   +   -   -   -     +   -   -   +   +   -   -   +   -   +   +   -   +   +   +   -   -   -   -   -   75   69   58   55   44   42   49   54   65   54   43   34   62   35   60   55   54   59   77   55   66   56   68   66   73   46   48   72   73   66   66   49   51   70   38   53   43   60   56   52   68   2   1   1   1   0   1   1     1   1   0   1         0   0   0   0   0   0   0   1   1   0   1   0   0   0   1   1   1   1   1   1   1   0   1   1   1   1   IIIA   IIB   IIB   IIB   I   IIB   IIIB     IIB   IIB   IIA   IV         IIA   I   IIA   IIA   I   IIA   I   IIB   IIB   IIA   IIB   I   IIA   IIA   IIB   IIB   IIB   IIB   IIIA   IIB   IIIA   IIA   IIB   IIB   IIA   IIB   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   印度人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   印度人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   990299   990375   2000209   2000422   2000500   2000683   2000759   2000768   2000775   2000779   2000804   2000813   2000829   2000948   -   +   +   +   -   +   -   +   +   +   +   -   -   +   阴性   阴性   阳性   阴性   阴性   阴性   阳性   阴性   阴性   阴性   阴性   阳性   阳性   阴性   -   -   -   +   -   +   -   +   -   -   +   -   -   -   58   38   58   52   44   72   57   39   51   48   39   60   51   56   1   0   0   1   1   0   0   0   0   0   1   1   1   1   IIIA   I   IIA   IIIA   IV   IIA   I   IIA   IIA   IIB   IIB   IIB   IIB   IIB   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   第二集合(41个样品)   980058   980193   980256   980278   980285   980288   980315   980333   980335   2000104   2000171   2000210   2000215   2000220   2000237   2000272   2000274   2000287   2000320   2000376   2000399   2000401   2000593   2000597   2000609   2000638   2000641   2000651   2000652   2000675   +   -   -   +   -   +   -   +   -   +   -   -   +   +   +   +   +   -   -   -   -   +   -   +   +   -   -   +   -   -   阴性   阴性   阴性   阴性   阴性   阳性   阴性   阴性   阳性   阳性   阳性   阳性   阴性   阴性   阳性   阴性   阴性   阳性   阴性   阳性   阳性   阴性   阴性   阴性   阴性   阴性   阳性   阴性   阳性   阳性   72   49   46   64   49   45   59   51   33   59   50   50   50   52   43   50   40   53   67   65   44   51   60   57   62   60   47   45   56   78   中国人   中国人   中国人   中国人   中国人   印度人   中国人   中国人   中国人   中国人   中国人   来西亚人   中国人   中国人   中国人   印度人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   中国人   马来西亚人   中国人   中国人   中国人   2000709   2000731   2000787   2000818   2000880   20020021   20020051   20020056   20020071   20020090   20020160   -   -   +   +   -   +   +   +   +   -   +   阳性   阴性   阴性   阴性   阴性   阴性   阴性   阴性   阴性   阳性   阴性   45   68   57   52   54   64   38   71   58   60   82   中国人   印度人   中国人   中国人   中国人   中国人   马来西亚人   印度人   中国人   中国人   中国人

*ERBB2状态的确定:在练习组(55份样品)中,ERBB2状态是通过常 规的免疫组化测定的,而且与表达谱一致。21份报告为ERBB2+。对于 其它数据集,ERBB2状态是通过ERBB2和其它17q连锁基因的表达谱 和分析来测定的。

表S2:独立检验和外部乳癌数据库的分类结果

排除一项交叉验证(LOOCV):我们使用标准的排除一项交叉验证 (LOOCV)方法来评估练习组的分类精确度。在LOOCV中,首先将练习 组中的一个样品“省去”,并对剩余样品进行分类操作(例如基因选 择和分类练习)。然后使用练习后的算法将“省去的”样品分类,并 对练习组中的所有样品重复这一过程。

对所有四个数据集(包括PS)进行WV分析的结果以及ERBB2表达与 预测置信度之间关联的相应p值可以由 http://www.omnjarray.com/ERClassification.html的Excel文件获 得。

表S3:对ER亚型区别重要的基因的鉴定

使用微阵列显著性分析(SAM)对在ER+和ER-肿瘤之间受到差异调控 (FDR为0%,表达变化≥2倍)的133种基因进行鉴定和排序。其中 122种在ER+中上调(阳性基因),11种在ER+中下调(阴性基因)。 特定基因的S2N比率反映了在低和高置信度样品间观察到的表达扰动 的程度。                                           表S3:SAM-133基因表   与ER+状态正相关的122种基因                     S2N比率   排序   探针-ID   UG   基因名称   GB编号   ER-   ER+   1   2   3   4   5   6     7   8   9   10   11   12   13   14   15   16   17   18   19   20   21     22   23   24   25     26   27     28   29   30   205225_at   209603_at   204508_s_at   209604_s_at   209602_s_at   206754_s_at     203963_at   214164_x_at   212956_at   215867_x_at   210735_s_at   214440_at   202089_s_at   210085_s_at   205862_at   202088_at   211712_s_at   206401_s_at   215304_at   218195_at   212195_at     203928_x_at   209460_at   212960_at   209443_at     209173_at   203071_at     203571_s_at   205354_at   213712_at   Hs.1657   Hs.169946   Hs.279916   Hs.169946   Hs.169946   Hs.1360     Hs.5338   Hs.5344   Hs.90419   Hs.5344   Hs.5338   Hs.155956   Hs.79136   Hs.279928   Hs.193914   Hs.79136     Hs.101174   Hs.159264   Hs.15929   Hs.71968     Hs.101174   Hs.283675   Hs.90419   Hs.76353     Hs.91011   Hs.82222     Hs.74120   Hs.81131   Hs.30504   雌激素受体1   GATA结合蛋白3   假定蛋白FLJ20151   GATA结合蛋白3   GATA结合蛋白3   细胞色素P450,亚家族IIB(苯巴比妥可诱   导的),多肽6   碳酸酐酶XII   衔接物相关蛋白复合物1,γ1亚基   KIAA0882蛋白   衔接物相关蛋白复合物1,γ1亚基   碳酸酐酶XII   N-乙酰基转移酶1(芳基胺N-乙酰基转移酶)   LIV-1蛋白,受雌激素调节   膜联蛋白A9   KIAA0575基因产物   LIV-1蛋白,受雌激素调节   人类,克隆MGC:1925,mRNA,完整cds   微管相关蛋白τ     人克隆23948mRNA序列   假定蛋白FLJ12910   人类mRNA;cDNA DKFZp564F053(来自克隆   DKFZp564F053)   微管相关蛋白τ     NPD009蛋白   KIAA0882蛋白   丝氨酸(或半胱氨酸)蛋白酶抑制物,进化   枝A(α-1抗蛋白酶、抗胰蛋白酶),成员5   anterior gradient 2(非洲爪蟾)同系物   sema结构域,免疫球蛋白结构域(Ig),短基   本结构域,分泌的,(semaphorin)3B   脂肪特异的2   醋酸胍N-甲基转移酶   人类mRNA;cDNA DKFZp434E082(来自克隆   DKFZp434E082)   NM_000125.1   AI796169_RC   BC001012.1   BC003070.1   AI796169_RC   NM_000767.2     NM_001218.2   BF752277   AI348094_RC   AL050025.1   BC000278.1   NM_000662.1   NM_012319.2   AF230929.1   NM_014668.1   AI635449_RC   BC005830.1   J03778.1   U79293.1   NM_024573.1   AL049265.1     AI870749_RC   AF237813.1   BE646554_RC   J02639.1     AF088867.1   NM_004636.1     NM_006829.1   NM_000156.3   BF508639_RC   -0.29577   -1.08401   -1.78617   -1.45575   -0.8137   -0.2593     -1.46907   -1.38937   -0.64903   -1.63678   -1.44687   -0.52605   -0.61899   -0.24463   -0.51927   -0.5332     -0.33797   -0.52908   -0.62769   -0.22898     -0.35356   -0.18444   -0.58169   0.065273     -0.80392   -0.39014     -0.81429   -0.01557   0.008265   1.273725   0.863193   0.608118   0.776251   0.654881   1.022511     0.598453   0.650127   0.68526   0.613887   0.484214   1.043165   0.528173   1.123041   0.883508   0.584697     0.700836   0.19541   0.590894   0.854505     0.682993   0.451265   1.072165   0.94045     -0.25677   0.726153     0.240008   0.074452   0.522867   31       32   33   34         35   36     37   38   39     40   41   42   43   44   45     46   47   48   49   50   51   52   53   54     55   56   57   58   59   60   61   62   63   64   65     66     67     68   69   41660_at       220744_s_at   204798_at   215552_s_at         209339_at   210272_at     205186_at   207414_s_at   205009_at     203628_at   211323_s_at   201825_s_at   211234_x_at   209459_s_at   212196_at     203438_at   217838_s_at   204041_at   203929_s_at   200670_at   219414_at   203627_at   208451_s_at   213419_at     205768_s_at   204862_s_at   210480_s_at   205696_s_at   203685_at   218976_at   219197_s_at   202996_at   205734_s_at   211235_s_at   211000_s_at     217190_x_at     202752_x_at     201754_at   204623_at           Hs.70202   Hs.1334   Hs.272288         Hs.20191   Hs.330780     Hs.33846   Hs.170414   Hs.1406     Hs.239176   Hs.198443   Hs.238126   Hs.1657   Hs.283675   Hs.71968     Hs.155223   Hs.241471   Hs.82163   Hs.101174   Hs.149923   Hs.12079   Hs.239176   Hs.278625   Hs.324125     Hs.11729   Hs.81687   Hs.22564   Hs.105445   Hs.79241   Hs.260720   Hs.222399   Hs.62520   Hs.38070   Hs.1657   Hs.82065     Hs.247976     Hs.22891     Hs.74649   Hs.82961   包括AL031588:dJ1163J1.1(小鼠跨膜受钵   Celsr1的直向同源物)的簇(KIAA0279像与   大鼠MEG相似的含EGF样结构域蛋白质   WD重复结构域10   v-myb禽类成髓细胞病病毒癌基因同系物   来自染色体6q25.1-26上克隆RP1-6315的人   DNA序列,包含一种新基因的3个部分和雌激   素受体1(NR3A1,雌二醇受体)的ESR1基匹   的一个外显子、EST、STS、和GSS。   seven in absontia(果蝇)同系物2   人细胞色素P450-IIB(hIIB3)mRNA,完整   cds   动力蛋白,轴丝,光中间多肽   配对性氨基酸切除系统4   三叶草因子1(在乳癌中表达的雌激素可诱导   的序列)   胰岛素样生长因子1受体   肌醇1,4,5-三磷酸受体,1型   CGI-49蛋白   雌激素受体1   NPD009蛋白   人类mRNA;cDNA DKFZp564F053(来自克隆   DKFZp564F053)   stanniocalcin 2   RNB6   单胺氧化酶B   微管相关蛋白τ     X盒结合蛋白1   calsyntenin 2   胰岛素样生长因子1受体   补体成分4B   淀粉状蛋白β(A4)前体蛋白结合,家族B,   成员2(Fe65样)   脂肪酸-辅酶A连接酶,非常长链1   非转移细胞3中表达的蛋白质   肌球蛋白VI   GDNF家族受体α1   B细胞CLL淋巴瘤2   含J结构域蛋白1   CEGP1蛋白   聚合酶(DNA指导的),δ4   与AF4有关的淋巴样核蛋白   雌激素受体1   白介素6信号转导蛋白(gp130,制瘤素M受   体)   雌激素受体(外显子6),人的,三苯氧胺耐   受性乳瘤17,基因组突变体,187nt   溶质载体家族7(阳离子氨基酸转运蛋白,y+   系统),成员8   细胞色素c氧化酶亚基V1c   三叶草因子(肠)         NM_018262.1   NM_005375.1   AI073549_RC         U76248.1   M29873.1     NM_003462.2   NM_002570.1   NM_003225.1     H05812_RC   L38019.1   AL572542_RC   AF258449.1   AF237813.1   AW242916_RC     AI435628_RC   NM_016337.1   NM_000898.1   AI05535_RC   NM_005060.1   NM_022131.1   AI830698_RC   NM_000592.2   U62325.1     NM_003645.1   NM_002513.1   U90236.2   NM_005264.1   NM_000833.1   NM_021800.1   AI424243_RC   NM_021173.1   AI990465_RC   AF258450.1   AB015706.1     S67777     NM_012244.1     NM_04374.1   NM_003226.1         -0.48046   -0.46303   -0.19227         -0.0458   -0.58159     -0.49548   -0.00943   -0.44277     0.241512   -0.72886   -0.32444   0.268077   -0.40497   -0.0843     -0.15925   0.38602   0.050799   -0.27747   -0.83621   -0.47893   0.088492   -0.42162   -0.01491     -0.26778   -0.24568   -0.3344   0.013863   0.385651   -0.17876   -0.09661   0.158087   0.187651   0.269909   0.204138     0.17102     -0.48423     -0.79643   -0.53903         0.159954   0.284211   0.946801         0.698282   0.717949     1.221071   0.222009   0.213135     0.748503   0.116021   0.398111   0.482442   0.048419   0.516679     0.456003   0.872588   0.120203   0.427658   0.279976   0.553864   0.976305   0.448767   -0.06708     0.41298   0.320418   -0.15111   0.846687   0.915025   0.280663   0.157384   0.060137   0.796703   0.7271   0.785104     0.653981     0.153806     1.207003   0.149093     70     71     72   73   74     75   76   77   78   79   80   81   82   83   84   85   86   87     88     89   90     91     92   93   94   95   96   97   98   99   100   101   102   103   104   105   106   107   108   109   110   111   112   113     207038_at     212637_s_at     208682_s_at   218502_s_at   202376_at     215616_s_at   211233_x_at   205081_at   214428_x_at   209696_at   219682_s_at   212496_s_at   203108_at   206107_at   218806_s_at   209581_at   213412_at   212638_s_at     206469_x_at     210652_s_at   216381_x_at     216092_s_at     208788_at   204792_s_at   207847_s_at   213201_s_at   204497_at   222314_x_at   222212_s_at   219919_s_at   214053_at   204934_s_at   216109_at   203749_s_at   220329_s_at   204881_s_at   208305_at   209623_at   218450_at   204343_at   219051_x_at   205471_s_at   203439_s_at   204863_s_at     Hs.114924     Hs.324275     Hs.4943   Hs.26102   Hs.234726     Hs.301011   Hs.1657   Hs.17409   Hs.170250   Hs.574   Hs.332150   Hs.301011   Hs.194691   Hs.65756   Hs.267659   Hs.37189   Hs.25527   Hs.324275     Hs.284236     Hs.125783   Hs.284236     Hs.22891     Hs.250175   Hs.111862   Hs.89603   Hs.73980   Hs.20196   Hs.205660   Hs.285976   Hs.279808   Hs.7888   Hs.823   Hs.306803   Hs.250505   Hs.238270   Hs.152601   Hs.2905   Hs.167531   Hs.108675   Hs.26630   Hs.124915   Hs.63931   Hs.155223   Hs.82065     溶质载体家族16(一元羧酸转运蛋白),成员   6   人类mRNA;cDNA DKFZp434D2111(来自克隆   DKFZp434D2111)   肝细胞癌相关蛋白;乳癌相关基因1   毛鼻指(趾)综合征1   丝氨酸(或半胱氨酸)蛋白酶抑制物,进化   枝A(α-1抗蛋白酶、抗胰蛋白酶),成员3   KIAA0876蛋白   雌激素受体1   富含半胱氨酸蛋白1(肠)   补体成分4A   果糖-1,6-二磷酸酶1   TBX3同工蛋白   KIAA0876蛋白   视黄酸诱导的3   G蛋白信号调节物11   vav3癌基因   与大鼠HREV107类似   紧密连接蛋白3(闭锁小带3)   人类mRNA;cDNA DKFZp434D2111(来自克隆   DKFZp434D2111)   醛酮还原酶家族7,成员A3(黄曲霉毒素醛   还原酶)   DEME-6蛋白   醛酮还原酶家族7,成员A3(黄曲霉毒素醛   还原酶)   溶质载体家族7(阳离子氨基酸转运蛋白,y+   系统),成员8   酵母长链多不饱和脂肪酸延长酶同系物2   KIAA0590基因产物   粘蛋白1,跨膜   肌钙蛋白T1,骨骼的,缓慢的   腺苷酸环化酶9   EST   肿瘤转移抑制基因   假定蛋白FLJ10928   人类克隆23736mRNA序列   hepsin(跨膜蛋白酶,丝氨酸1)   人类cDNA:FLJ21695 fis,克隆COL09653   视黄酸受体,α     假定蛋白FLJ20627   UDP-葡萄糖神经酰胺葡萄糖基转移酶   孕酮受体   甲基巴豆酰-辅酶A羧化酶2(β)   血红素结合蛋白   ATP结合盒,亚家族A(ABC1),成员3   假定蛋白MGC2601   dachshund(果蝇)同系物   stanniocalcin 2   白介素6信号转导蛋白(gp130,制瘤素M受   NM_004694.1     AU155187_RC     AF126181.1   NM_014112.1   NM_001085.2     AB020683.1   M12674.1   NM_001311.1   K02403.1   D26054.1   NM_016569.1   BE256900   NM_003979.2   NM_003834.1   AF118887.1   BC001387.1   NM_014428.1   BF131791     NM_012067.1     BC004399.1   AL035413     AL385347.1     AL136939.1   NM_014714.1   NM_002456.1   AJ011712   AB011092.1   AW970881_RC   AK001105.1   NM_018276.1   AW772192_RC   NM_002151.1   AK025348.1   AI806984_RC   NM_017909.1   NM_003358.1   NM_000926.1   AW439494_RC   NM_015987.1   NM_001089.1   NM_024042.1   AW772082_RC   8C000658.1   BE856546_RC   -0.50672     -0.851     -0.80969   -0.26191   0.02888     -0.00184   0.360947   -0.41153   -0.22882   -0.68072   -0.26452   -0.272   -0.51766   -0.0233   -0.3126   -0.37261   -0.76231   -0.76733     -0.77705     -0.29655   -0.61275     -0.67193     -0.871210   0.085973   -0.42941   -0.11892   0.007184   -0.1322   -0.74148   0.085456   -0.21533   -0.03851   -0.03594   -0.3159   0.068053   -0.248   0.145722   -0.61293   -0.07982   -0.36256   -0.43578   -0.43168   -0.28836   0.259289   0.593732     0.852788     -0.06845   0.571226   0.549323     0.507129   0.949046   -0.05483   0.346824   0.137814   0.412502   0.841331   0.212322   0.778074   0.544105   0.359298   0.227893   0.888627     0.278936     0.806265   0.253454     0.152525     0.346787   0.134751   -0.24975   0.71764   0.509774   0.201872   0.357607   0.152147   0.32841   0.743961   0.921802   1.006049   0.588123   0.724338   0.687258   0.369239   0.486745   0.648789   0.112222   -0.26408   0.67174   0.691633   114   115   116   117   118   119   120   121   122   203289_s_at   221765_at   219001_s_at   220581_at   211596_s_at   205645_at   219663_s_at   205380_at   201508_at   Hs.19699   Hs.23703   Hs.317589   Hs.287738     Hs.80667   Hs.157527   Hs.15456   Hs.1516   体)   α球蛋白簇末端的保守基因   ESTS   假定蛋白MGC10765   假定蛋白FLJ23305   膜糖蛋白LIG-1的人类mRNA,完整cds   含RALBP1相关Eps结构域2   假定蛋白MGC4659   含PDZ结构域1   胰岛素样生长因子结合蛋白4   BE791629   AI378044_RC   NM_024345.1   NM_025059.1   AB050468.1   NM_004726.1   NM_025266.1   NM_002614.1   NM_001552.1   -0.18036   -0.0539   -0.28755   -0.13763     -0.29164   0.059072   0.094959   0.102433   0.122646   0.714017   0.64098   0.781039     0.308819   -0.06016   0.486972   0.237825   与ER+状态负相关的11种基因   1   2       3   4   5     6   7   8     9     10   11     215729_s_at   201983_s_at       204914_s_at   204913_s_at   205646_s_at     207030_s_at   204915_s_at   203021_at     209800_at     203234_at   201984_s_at     Hs.9030   Hs.77432       Hs.32964   Hs.32964   Hs.89506     Hs.10526   Hs.32964   Hs.251754     Hs.115947     Hs.77573   Hs.77432     TONDU   表皮生长因子受体(禽类成红   细胞性白血病病毒(v-erb-b)   癌基因同系物)   SRY(性别决定区Y)盒11   SRY(性别决定区Y盒11   配对盒基因6(无虹膜,膜   炎)   富含半胱氨酸和甘氨酸蛋白2   SRY(性别决定区Y)盒11   分泌性白细胞蛋白酶抑制物   (抗白细胞蛋白酶)   角蛋白16(病灶非表皮松懈   性掌跖角化病)   尿苷磷酸化酶   表皮生长因子受体(禽类成红   细胞性白血病病毒(v-erb-b)   癌基因同系物)   BE542323   AW157070_RC       AW157202_RC   AI360875_RC   NM_000280.1     NM_001321.1   AB028641.1   NM_003064.1     AF061812.1     NM_003364.1   NM_005228.1     0.729732   0.183968       -0.3552   -0.54222   0.667994     0.526203   -0.4419   -0.08293     0.573263     0.30456   0.416409     -0.40161   -0.10873       -0.61822   -0.6594   -0.15217     -0.44193   -0.47414   -1.00559     -0.29962     0.307505   0.086073  

与ER+状态负相关的前54种ER区别基因

由于ER阴性基因的数目有限,因此我们降低了SAM的阈值来衍生FDR 为0%的54种基因。这些阴性基因用于图2c和d中。 表S4:“高”和“低置信度”肿瘤整体表达谱的比较

使用SAM鉴定在a)ER+“高”和“低”置信度肿瘤以及b)ER-“高” 和“低”置信度肿瘤之间受到差异调节的基因。对于ER+的比较,50 种基因鉴定为在ER+/低中与ER+/高肿瘤相比上调,39种下调。对于 ER-的比较,50种基因鉴定为在ER-/低中与ER-/高肿瘤相比上调,没 有基因鉴定为下调。                             表S4:在低/高置信度样品中差异表达的排序靠前的基因                                              a)ER+/低对ER+/高   在ER+/低中上调的基因   Unigene   排序   染色体   氯化物通道,由钙激活,家族成员2   EST,与人类假定蛋白微弱相似   v-myc禽类髓细胞瘤病病毒相关癌基因,由成神经细胞瘤衍生   苯乙醇胺N-甲基转移酶   具有锌指结构域的Alu结合蛋白   纤维细胞生长因子受体4   KIAA0300蛋白   生长因子受体结合蛋白7     肌球蛋白,重链多肽4,骨骼肌   apomucin   脯氨酸氧化酶同系物   S100钙结合蛋白A8(calgranulin A)   甘氨酸C-乙酰基转移酶(2-氨基-3-酮丁酸辅酶A连接酶)   受磷蛋白   CGI-96蛋白   leptin(鼠肥胖同系物)   假定蛋白FLJ14146   犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   抑制素,βB(激活素AB β多肽)   羟基类固醇(17-β)脱氢酶2   脂肪酸结合蛋白7,脑   血清类粘蛋白2   分泌性白细胞蛋白酶抑制物(抗白细胞蛋白酶)   肌动蛋白,γ2,平滑肌,肠   人类mRNA;cDNA DKFZp564G112(来自克隆DKFZp564G112)   III型肽酰精氨酸脱亚氨酶   肌球蛋白,重链多肽11,平滑肌   S100钙结合蛋白A9(calgranulin B)   人类克隆23809mRNA序列   整合素,β6   脂多糖结合蛋白   谷氨酸受体,亲离子的,AMPA 3   Hs.241551   Hs.106642   Hs.25960   Hs.1892   Hs.289104   Hs.165950   Hs.173035   Hs.86859   Hs.272207     Hs.103707   Hs.274550   Hs.100000   Hs.54609   Hs.85050   Hs.239934   Hs.194236   Hs.103395   Hs.107318   Hs.1735   Hs.155109   Hs.26770   Hs.278388   Hs.251754   Hs.78045   Hs.51515   Hs.149195   Hs.78344   Hs.112405   Hs.6932   Hs.123125   Hs.154078   Hs.100014   1   2   3   4   5   6   7   8   9     10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   25   26   27   28   29   30   31   32         17q21-q22         17q21.1   来自7q11.23-q21的人类FAC克隆RP5-1093017   KIAA1102蛋白   跨膜4超家族成员3   v-erb-b2禽类成红细胞白血病病毒癌基因同系物2(成神经胶质瘤衍生的癌   基因同系物)   蛋白质磷酸酶1,调节(抑制物)亚基1A   HGC6.1.1蛋白   粘蛋白和钙粘着蛋白样   同源框A9   4-羟基苯基丙酮酸双加氧酶   乳运蛋白   KIAA1069蛋白   叶酸水解酶(前列腺特异膜抗原)1   精氨基琥珀酸合成酶   角蛋白7   血管紧张素受体2   钙调蛋白样皮肤蛋白质   电子转移黄素蛋白,α多肽(戊二酸尿II)   S100钙结合蛋白A7(皮癣素1)   Hs.193606   Hs.202949   Hs.84072   Hs.323910     Hs.76780   Hs.225962   Hs.165619   Hs.127428   Hs.2899   Hs.105938   Hs.193143   Hs.1915   Hs.160786   Hs.23881   Hs.3110   Hs.180142   Hs.169919   Hs.112408   33   34   35   36     37   38   39   40   41   42   43   44   45   46   47   48   49   50         17q11.2-q12   在ER+/低中下调的基因   佛波醇-12-肉豆蔻酸酯-13-乙酸酯诱导的蛋白质1   动力蛋白、轴丝、光中间多肽   细胞色素P450,亚家族IIB(苯巴比妥可诱导的),多肽6   雌激素受体1   arternin   癌胚抗原相关细胞粘附分子1(胆汁糖蛋白)   EST   KIAA0575基因产物   视黄酸受体,α   膜联蛋白A9   Cas-BF M(鼠)ectropic逆转录病毒转化序列c   GATA结合蛋白3   假定蛋白FLJ12650   砷酸耐受蛋白ARS2   huntingtin相互作用蛋白2   假定蛋白FLJ13134   锌指蛋白165   人类cDNA:FLJ21695 fis,克隆COL09653   胰岛素样生长因子1受体   hepsin(跨膜蛋白酶,丝氨酸1)   双孔通道KT3.3   UDP-葡萄糖神经酰胺葡萄糖基转移酶   人细胞色素P450-IIB(hIIB3)mRNA,完整cds   sema结构域,免疫球蛋白结构域(Ig),短基本结构域,分泌的,(semaphorin)   3F   微管相关蛋白τ   Hs.96   Hs.33846   Hs.1360   Hs.1657   Hs.194689   Hs.50964   Hs.23703   Hs.193914   Hs.250505   Hs.279928   Hs.156637   Hs.169946   Hs.4243   Hs.111801   Hs.155485   Hs.99603   Hs.55481   Hs.306803   Hs.239176   Hs.823   Hs.203845   Hs.152601   Hs.330780   Hs.32981     Hs.101174   1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24     25   磷脂酰丝氨酸特异磷脂酶A1α   与假定蛋白PR02831(人类)类似的mRNA序列   细胞色素c氧化酶亚基Vlc   腺苷酸环化酶9   人类细胞因子样核因子n-pac mRNA,完整cds   来自染色体6q25.1-26上克隆RP1-6315的人DNA序列,包含一种新基因的3   个部分和雌激素受体1(NR3A1,雌二醇受体)的ESR1基因的一个外显子、   EST、STS、和GSS。   calsyntenin 2   白介素6信号转导蛋白(gp130,制瘤素M受体)   激酶(PRKA)锚定蛋白10   N-乙酰基转移酶1(芳基胺N-乙酰基转移酶)   假定蛋白FLJ13687   cystatin SA   热休克27kD蛋白1   synaptojanin 2   Hs.17752   Hs.406646   Hs.74649   Hs.20196   Hs.331584   Hs.272288       Hs.12079   Hs.82065   Hs.75456   Hs.155956   Hs.278850   Hs.247955   Hs.76067   Hs.61289   26   27   28   29   30   31       32   33   34   35   36   37   38   39                                            b)ER-/低对ER-/高   在ER-/低中上调的基因   排序   染色体   UDP-N-乙酰基-α-D-半乳糖胺:多肽N-乙酰基半乳糖胺转移酶6(GalNAc-T6)   醛脱氢酶4家族,成员A1   染色体6开放读码框29   黑素瘤抗原,家族D,2   苯乙醇胺N-甲基转移酶   含三元基序3   假定基因MGC9753   ATP结合盒,亚家族C(CFTR/MRP),成员6   SH3结构域结合富含谷氨酸蛋白样   生长因子受体结合蛋白7   3-羟基-3-甲基谷氨酰-辅酶A合酶(线粒体)   成纤维细胞生长因子受体4   脂肪酸合酶   粘蛋白1,跨膜   phafin 2   肉毒碱乙酰基转移酶   假定蛋白FLJ20151   GATA结合蛋白3   含WW结构域蛋白1   转录因子AP-2β(激活增强子结合蛋白2β)   KIAA0882蛋白   tetraspan 1   过氧化物酶体生物合成因子11A   溶质载体家族4,碳酸氢钠辅助转运蛋白,成员8   假定基因MGC9753   叉头盒A1   aquaporin  3   v-erb-b2成红细胞白血病病毒癌基因同系物2,成神经细胞/神经胶质细胞瘤   Hs.151678   Hs.77448   Hs.334514   Hs.4943   Hs.1892   Hs.321576   Hs.91668   Hs.274260   Hs.14368   Hs.86859   Hs.59889   Hs.165950   Hs.83190   Hs.89603   Hs.29724   Hs.12068   Hs.279916   Hs.169946   Hs.355977   Hs.33102   Hs.90419   Hs.38972   Hs.31034   Hs.132136   Hs.91668   Hs.70604   Hs.234642   Hs.323910   1   2   3   4   5   6   7   8   9   10   11   12   13   14   15   16   17   18   19   20   21   22   23   24   25   26   27   28           17q21-q22           17q21.1                                     17q11.2-q12   衍生的癌基因同系物(禽类)   肌醇1,4,5-三磷酸酯受体,1型   假定蛋白PRO1489   醛脱氢酶3家族,成员B2   假定蛋白(人类),mRNA序列   双特异性磷酸酶6   碳酸酐酶XII   NAD(P)H脱氢酶,醌1   甘露糖苷酶,α,类型1C,成员1   KIAA0703基因产物   硬脂酰-CoA去饱和酶(δ-9-去饱和酶)   果糖-1,6-二磷酸酯酶1   芳基硫酸酯酶D   X盒结合蛋白1   甲基巴豆酰-辅酶A羧化酶2(β)   突触体相关蛋白,23kDa   角蛋白样   anterior gradient 2同系物(非洲爪蟾)   假定蛋白FLJ20174   含TCP1陪伴蛋白,亚基2(β)   免疫球蛋白重链恒定区γ3(G3m标志物)   跨膜4超家族成员3   山梨糖醇脱氢酶   Hs.198443   Hs.197922   Hs.87539   Hs.381412   Hs.180383   Hs.5338   Hs.406515   Hs.8910   Hs.6168   Hs.119597   Hs.574   Hs.326525   Hs.149923   Hs.167531   Hs.184376   Hs.301947   Hs.91011   Hs.114556   Hs.432970   Hs.300697   Hs.84072   Hs.878   29   30   31   32   33   34   35   36   37   38   39   40   41   42   43   44   45   46   47   48   49   50

DRAGON ERE探测器(DEREF)用于在基因启动子中鉴定假定ERE 的用途

使用DEREF算法在属于多种类型的基因的启动子中确定潜在的 ERE(关于DEREF的根本方法学描述见 http://sdmc.lit.org.sg/ERE-V2/index)。参考文献14的原稿可以 经由 http://www.omniarray.com/ERCLassification.html获得。雌 激素诱导的SAGA数据集衍生自 http://143.111.133.249/ggep(见参 考文献13),采用阈值3hr,增加倍数≥2和3hr,p值<0.005。选择 了65种SAGE标签。这65种SAGE标签与68种基因匹配,并将它们进 一步进行ERE分析。与ER状态负相关的前100种基因的基因组(gene set)是使用SAM衍生的。表S6a描述了结果。

表S6a:对多个数据集的ERE预测:E2诱导的SAGE数据集、与ER+负 相关的基因和SAM-133基因组(set)   数据集   无ERE   低   高   具有高置信度的ERE命中(hit)   N/A   E2诱导SAGE   ER负相关基因   SAM-133   21   50   15   15   22   15   21   6   17   41.18%   7.69%   36.17%   11   22   23

表S6b:通过DEREF对正文主体表2所列基因预测的ERE模式                                  表2的ERE模式  基因名称 排序   ERE模式  在ER+中扰动的50种基因中具有高置信度的12种ERE  膜联蛋白A9      N-乙酰基转移酶1(芳基胺N-乙酰基转  移酶)    视黄酸受体α      B细胞CLL/淋巴瘤2      RNB6      G蛋白信号的调节物11      UDP-葡萄糖神经酰胺葡萄糖基转移酶      ATP结合盒,亚家族A(ABC1),成员3      碳酸酐酶XII      丝氨酸(或半胱氨酸)磷酸酶抑制物,  进化枝A(α-1抗蛋白酶、抗胰蛋白酶),    成员3  腺苷酸环化酶9      血红素结合蛋白1     4       5       7       11       13       21       25       33       34       40         44       46     PP 2783 CA-GGGCA-CCC-CAGCC-TG新的   CCTGTTGGGGCACATACCAGCAGGGCACCCCAGCCT   GCACCCCAGAGGGGGTCCCAG 21   PP 150 AA-GGTTA-CAA-TAACC-AA新的   CCACCTTCAAATCATACTACAAGGTTACAATAACCAA   AACAGCGTGGTACTGATACA 21   PP 2149 GA-GGTCC-CTC-TGCCC-CT新的   TGAAGTTGATCTGTTGTATTGAGGTCCCTCTGCCCCT   ATATTTATCCTAAATGGTAT 21   PP 647 CA-GGGCA-CAG-TGGCT-CA新的   GACAAAATAAAGATGTCAGGCAGGGCACAGTGGCTC   ATGTCTGTAATCCCAGCACTT 21   PP 1920 TT-GGTCA-GGC-TGGTC-TC已知的   AAAGACAGGGTTTCACCATGTTGGTCAGGCTGGTCT   CGAACTTCTGACCTCAGGTGA 21   PP 847 CG-GGTCA-CTG-CAACC-TC新的   GGAGTGCAATGGTGCAATCTCGGGTCACTGCAACCT   CCGCCTCCTGGGTTCAAGCGA 21   PP 466 TG-AGTCA-CCG-TGCCC-AG新的   AAGTGCTGGGATTACAGGCGTGAGTCACCGTGCCCA   GCCAATGGCTTGTGGTTTTCT 21   PP 1363 CA-GGGCA-CAG-TGGCT-CA新的   GCACAGAGATAAAACCTCGGCAGGGCACAGTGGCTC   ACGCCTGTAATCCCCACACTT 21   PP 1376 TA-GGCCA-AAC-TAACC-TT新的   TCCTTATTCATTCCTGGGCATAGGCCAAACTAACCTT   AGAAAGGAATTCAGTTTATG 21   PP 2408 TT-GGTCG-GAC-TGGTC-TT新的   AGAGACAGGGTTTCACCTTGTTGGTCGGACTGGTCT   TGAACTCCTGACCTCGTGATC 21     PP 710 TT-GGTCA-GGC-TGGTC-TC已知的   AGAGATGGGGTTTCTCCGTGTTGGTCAGGCTGGTCT   CGAACTCCCGACCTCAGGTGA 21   PP 1738 GA-GGTCC-GGG-TGGCC-GC新的   AAAGAGCAGAGGCGCCCGTAGAGGTCCGGGTGGCC   GCTGCTGTTAACATCCATCACT 21  在ER-中扰动的50种基因中具有高置信度的3种ERE  LAG1长寿确保同系物2(酿酒酵母)      果糖-1,6-二磷酸酶1      假定蛋白MGC2601     13       15       33     PP 3662 CA-GGCCA-GGG-CAACC-CC新的   CCCAAGCCACAGGACGCGTCCAGGCCAGGGCAACC   CCGCGGGCCGCTGCCAGGGTGG 21   PP 776 TT-GGTCA-GGC-TGGTC-TC已知的   AGAGACGGGGTTTCTCCATGTTGGTCAGGCTGGTCT   CGAGCTCCCAACCTCAGGTGA 21   PP 966 CT-GGTCA-GGC-TGGTC-TT新的   AGAGACGAGGTTTCTCCATGCTGGTCAGGCTGGTCT   TGAACTCCCGACCTCAGGTGA 21

表S7:SAM-133基因集表达数据的平均值(μ)和标准偏差(σ)的加权表决参数   探针ID   基因名称             ER-               ER+   平均值   SD   平均值   SD   200670_at   X盒结合蛋白1   0.786506   0.716285   4.265411   1.422852   201508_at   胰岛素样生长因子结合蛋白4   -0.34357   1.388805   2.57045   0.925761   201754_at   细胞色素c氧化酶亚基Vlc   -1.58027   1.870693   1.927493   1.237708   201825_s_at   CGI-49蛋白   3.371655   1.153737   5.720964   0.582412   201983_s_at   表皮生长因子受体(禽类成红细胞性白血病病毒(v-erb-b)癌基因同系物)   -0.23687   1.75591   2.753161   0.803569   201984_s_at   表皮生长因子受体(禽类成红细胞性白血病病毒(v-erb-b)癌基因同系物)   -1.44281   0.960058   2.42027   2.337701   202088_at   LIV-1蛋白,受雌激素调控   1.312524   1.221556   3.870357   0.929939   202089_s_at   LIV-1蛋白,受雌激素调控   1.734565   1.093064   4.085214   0.81537   202376_at   6_at   丝氨酸(或半胱氨酸)蛋白酶抑制物,进化枝A(α-1抗蛋白酶、抗胰蛋白酶),成员3   2.023548   1.032196   4.420661   0.934515   202752_x_at   溶质载体家族7(阳离子氨基酸转运蛋白,y+系统),成员8   1.981605   1.049118   4.149982   0.712426   202996_at   聚合酶(DNA指导的),δ4   0.786499   1.029001   3.014232   0.865812   203021_at   分泌性白细胞蛋白酶抑制物(抗白细胞蛋白酶)   0.355523   0.675879   3.16287   1.761351   203071_at   sema结构域,免疫球蛋白结构域(Ig),短基本结构域,分泌的,(semaphorin)3B   1.825558   0.726706   4.052804   1.145816   203108_at   视黄酸3诱导的   -2.75146   0.887259   -0.09227   1.606679   203234_at   尿苷磷酸化酶   -2.68964   1.552946   0.243702   1.641435   203289_s_at   α球蛋白簇末端的保守基因   3.20195   0.718557   5.197518   0.987453   203438_at   stanniocalcin 2   -1.29648   1.055361   0.795528   0.993152   203439_s_at   stanniocalcin 2   -1.57332   1.345545   0.998514   1.454402   203571_s_at   脂肪特异的2   0.233895   0.988328   2.283714   1.060332   203627_at   胰岛素样生长因子1受体   0.141016   0.610073   2.127288   1.174363   203628_at   胰岛素样生长因子1受体   2.29995   0.509475   3.833107   0.788714   203685_at   B细胞CLL淋巴瘤2   -1.10751   1.324287   1.15701   1.355875   203749_s_at   视黄酸受体α   -1.58118   1.167735   0.537334   1.268906   203928_x_at   微管相关蛋白τ   0.359852   0.516477   1.888305   0.821962   203929_s_at   微管相关蛋白τ   -2.59884   0.565755   -0.00962   2.145673   203963_at   碳酸酐酶XII   1.190756   3.229512   4.402   1.181501   204041_at   单胺氧化酶B   -3.13061   1.085626   -0.75919   1.755041   204343_at   ATP结合盒,亚家族A(ABC1),成员3   -0.29571   1.843682   2.228971   1.512389   204497_at   腺苷酸环化酶9   -2.34613   1.534418   -0.05573   1.429526   204508_s_at   假定蛋白FLJ20151   -3.52135   1.303031   -0.87495   2.10528   204623_at   三叶草因子3(肠)   -0.37083   1.33889   1.50405   0.899477   204792_s_at   KIAA0590基因产物   -0.9475   1.745737   1.257564   1.170708   204798_at   v-myb禽类成髓细胞病病毒癌基因同系物   1.288571   1.107004   3.060625   0.97928   204862_s_at   在非转移细胞3中表达的蛋白质   -1.44821   0.786716   0.388854   1.271171   204863_s_at   白介素6信号转导蛋白(gp130,制瘤素M受体)   -0.10956   1.179102   1.970259   1.431009   204881_s_at   UDP-葡萄糖神经酰胺葡萄糖基转移酶   -1.39262   1.195462   1.156751   2.153286   204913_s_at   SRY(性别决定区Y)盒11   -2.53383   1.536914   -0.16571   1.727001   204914_s_at   SRY(性别决定区Y)盒11   -1.8799   1.273909   0.144791   1.375233   204915_s_at   SRY(性别决定区Y)盒11   0.484505   1.125341   2.823356   1.941558   204934_s_at   hepsin(跨膜蛋白酶,丝氨酸1)   0.462278   0.985428   2.501289   1.570414   205009_at   三叶草因子1(在乳癌中表达的雌激素可诱导的序列)   -1.98675   1.39922   -0.14861   0.959657   205081_at   富含半胱氨酸蛋白1(肠)   0.366598   1.124549   1.87895   0.590829   205186_at   动力蛋白、轴丝、光中间多肽   -2.39302   0.959482   -0.48343   1.433455   205225_at   雌激素受体1   -1.62943   1.558096   0.488988   1.459551   205354_at   醋酸胍N-甲基转移酶   0.719039   0.547264   2.096279   0.868384   205380_at   含PDZ结构域1   -0.92507   1.254295   1.252606   1.789471   205471_s_at   dachshund(果蝇)同系物   1.676963   0.591793   3.169036   1.05951   205645_at   含RALBP1相关Eps结构域2   -0.63258   1.838056   2.053427   2.368533   205646_s_at   配对盒基因6(无虹膜,角膜炎)   -0.06075   0.836545   1.524428   1.119938   205696_s_at   GDNF家族受体α1   3.8834   1.041947   5.212661   0.43379   205734_s_at   与AF4相关的淋巴样核蛋白   -1.3702   1.00987   0.420671   1.393757   205768_s_at   脂肪酸-辅酶A连接酶,非常长链1   0.5008   0.790296   2.069968   1.166292   205862_at   KIAA0575基因产物   2.848348   1.291904   4.670661   1.303459   206107_at   G蛋白信号调控物11   -1.36697   1.337414   0.179662   0.681822   206401_s_at   微管相关蛋白τ otein tau   -3.3514   1.637863   -1.01214   2.020108   206469_x_at   醛酮还原酶家族7,成员A3(黄曲霉毒素醛还原酶)   0.948475   0.99349   2.289914   0.621401   5754_s_at   细胞色素P450,亚家族IIB(苯巴比妥可诱导的),多肽6   -0.71324   1.775643   1.082716   0.869708   207030_s_at   富含半胱氨酸和甘氨酸蛋白2   -2.03214   1.126525   -0.19338   1.540646   207038_at   溶质载体家族16(一元羧酸转运蛋白),成员6   0.374876   0.580637   1.790818   1.094049   207414_s_at   配对碱性氨基酸切除系统4   0.341324   1.065353   2.062852   1.376036   207847_s_at   粘蛋白1,跨膜   0.247008   1.354516   2.257601   1.737215   208305_at   孕酮受体   -1.24605   0.974745   0.384022   1.29497   208451_s_at   补体成分4B   -4.78762   1.049086   -2.66361   2.080728   208682_s_at   肝细胞癌相关蛋白;乳癌相关基因1   -1.959   0.821013   -0.3239   1.382716   208788_at   酵母长链多不饱和脂肪酸延长酶同系物2   0.152008   0.660975   1.523099   1.038038   209173_at   anterior gradient 2(非洲爪蟾)同系物   -4.28803   0.661578   -2.56017   1.677193   209339_at   eeven in absentia(果蝇)同系物2   1.270858   1.066389   2.646046   0.849767   209443_at   丝氨酸(或半胱氨酸)蛋白酶抑制物,进化枝A(α-1抗蛋白酶、抗胰蛋白酶),成员5   4.667825   0.671724   5.873446   0.804606   209459_s_at   NPD009蛋白   1.072112   1.457092   2.973341   1.645057   209460_at   NPD009蛋白   -0.96002   1.349904   0.607753   1.04472   209581_at   与大鼠HREV107类似   -0.56188   0.872894   0.668399   0.727131   209602_s_at   GATA结合蛋白3   2.019065   1.056594   3.416464   0.940078   209603_at   GATA结合蛋白3   1.985985   0.863569   3.186089   0.674166   209604_s_at   GATA结合蛋白3   2.395052   1.790175   4.34208   1.519527   209623_at   甲基巴豆酰-辅酶A羧化酶2(β)   -1.00419   1.154041   0.445889   1.017354   209696_at   果糖-1,6-二磷酸酶1   -1.68104   0.963742   -0.1215   1.377052   209800_at   角蛋白16(病灶非表皮松懈性掌跖角化病)   2.324715   1.562155   4.012295   1.229197   210085_s_at   膜联蛋白A9   2.4829   1.125042   4.043161   1.290489   210272_at   人细胞色素P450-IIB(hIIB3)mRNA,完整cds   1.01495   0.91653   2.191543   0.64021   210480_s_at   肌球蛋白VI   -0.14392   1.616287   1.455335   1.006298   210652_s_at   DEME-6蛋白   1.251577   0.889677   2.556116   0.970199   210735_s_at   碳酸酐酶XII   1.213425   2.03426   3.084783   1.272118   211000_s_at   白介素6信号转导蛋白(gp130,制瘤素M受体)   -3.02427   1.43442   -1.18813   1.697067   211233_x_at   雌激素受体1   -0.0459   1.740133   1.544577   0.867934   211234_x_at   雌激素受体1   0.044649   1.763802   1.765441   1.206805   211235_s_at   雌激素受体1   -2.24335   1.765844   -0.48324   1.306074   211323_s_at   肌醇1,4,5-三磷酸酯受体,1型   2.749775   0.789763   3.855643   0.652063   211596_s_at   膜糖蛋白LIG-1的人类mRNA,完整cds   0.451307   1.03825   1.691284   0.751559   211712_s_at   人类克隆MGC:1925,mRNA,完整cds   0.615955   1.516076   2.069047   0.790366   212195_at   人类mRNA;cDNA DKFZp564F053(来自克隆DKFZp564F053)   0.66476   0.873729   1.797193   0.663081   212196_at   人类mRNA;cDNA DKFZp564F053(来自克隆DKFZp564F053)   1.370605   0.637597   2.49272   0.820267   212496_s_at   KIAA0876蛋白   2.9339   0.874367   4.097768   0.756001   212637_s_at   人类mRNA;cDNA DKFZp434D2111(来自克隆DKFZp434D2111)   -1.88266   1.081913   -0.63578   0.780821   212638_s_at   人类mRNA;cDNA DKFZp434D2111(来自克隆DKFZp434D2111)   2.261515   1.394089   3.785398   1.192581   212956_at   KIAA0882蛋白   -2.7829   1.397052   -0.86347   2.046812   212960_at   KIAA0882蛋白   -0.50333   1.45485   0.947772   1.02444   213201_s_at   肌钙蛋白T1,骨骼的,缓慢的   -1.9544   1.210569   -0.40381   1.441706   213412_at   紧密连接蛋白3(闭锁小带3)   2.951875   0.714379   4.007446   0.711117   213419_at   淀粉状蛋白β(A4)前体蛋白结合,家族B,成员2(Fe65样)   -2.21361   1.478023   -0.51415   1.591816   213712_at   人类mRNA;cDNA DKFZp434E082(来自克隆DKFZp434E082)   0.270749   0.847277   1.499404   1.020576   214053_at   人类克隆23736 mRNA序列   -0.39205   1.186238   0.845048   0.820314   214164_x_at   衔接物相关蛋白复合物1,γ1亚基   -1.08541   1.111223   0.178117   0.95879   214428_x_at   补体成分4A   0.533406   0.838849   1.642348   0.807099   214440_at   N-乙酰基转移酶1(芳基胺N-乙酰基转移酶)   -0.99962   0.684062   0.154358   0.999297   215304_at   人类克隆23948 mRNA序列   2.4353   0.529481   3.488893   0.879103   215552_s_at   来自染色体6α25.1-26上克隆RP1-6315的人DNA序列,包含一种新基因的3个部分和   雌激素受体1(NR3A1,雌二醇受体)的ESR1基因的一个外显子、EST、STS、和GSS。   -4.0518   1.024367   -2.20072   2.254477   215616_s_at   KIAA0876蛋白   2.582125   0.659442   3.570411   0.700552   215729_s_at   TONDU   1.641575   0.849076   2.756482   0.863148   215867_x_at   衔接物相关蛋白复合物1,γ1亚基   -0.42352   0.884606   0.727052   0.926142   216092_s_at   溶质载体家族7(阳离子氨基酸转运蛋白,y+系统),成员8   0.063651   1.352604   1.366287   0.918248   216109_at   人类cDNA:FLJ21695 fis,克隆COL09653   -1.17386   1.143511   0.232514   1.345207   216381_x_at   醛酮还原酶家族7,成员A3(黄曲霉毒素醛还原酶)   0.46636   0.383625   1.657506   1.251032   217190_x_at   雌激素受体(外显子6),人的,三苯氧胺耐受性乳瘤17,基因组突变体,187nt   0.899139   0.533766   2.030393   1.097631   217838_s_at   RNB6   -1.31066   0.930532   -0.16453   0.933916   218195_at   假定蛋白FLJ12910   0.847629   0.786234   2.077682   1.202885   218450_at   血红素结合蛋白   0.080843   0.82158   1.234993   1.027254   218502_s_at   毛鼻指(趾)综合征1   -1.57325   1.012703   -0.27651   1.276184   218806_s_at   vav3癌基因   1.662298   0.790643   2.689179   0.799202   218976_at   含J结构域蛋白1   -1.84709   1.306292   -0.43267   1.374615   219001_s_at   假定蛋白MGC10765   -2.18314   1.146729   -0.93169   1.100879   219051_x_at   假定蛋白MGC2601   -1.64776   1.079359   -0.04531   1.917545   219197_s_at   CEGP1蛋白   3.017955   0.866409   4.110571   0.929583   219414_at   calsyntenin-2   219663_s_at   假定蛋白MGC4659   219682_s_at   TBX3同工蛋白   -2.31967   2.774285   -5.24093   1.743328   219919_s_at   假定蛋白FLJ10928   1.5957   1.348698   -0.22476   1.003375   220329_s_at   假定蛋白FLJ20627   1.476165   1.643622   -0.81183   1.617203   220581_at   假定蛋白FLJ23305   0.707923   1.691725   -1.11592   1.188481   220744_s_at   WD重复结构域10   -1.15664   1.569856   -2.79242   0.859538   221765_at   ESTs   1.266316   0.936218   -0.08462   0.892242   222212_s_at   肿瘤转移抑制基因   0.105187   1.541242   -1.65582   1.335109   222314_x_at   ESTs   2.914925   1.476344   1.290308   1.093452   41660_at   包括AL031588:dJ1163J1.1(小鼠跨膜受体Celsr1的直向同系物)的簇(KIAA0279像与大鼠   MEG相似的含EGF秤结构域蛋白质   -1.50101   2.986928   -3.88453   1.411412   -0.50993   0.923661   -1.93244   1.140847   0.987597   0.893199   -0.11725   0.498882

表S8:表A4的基因(共有的13种基因)的基因表达数据

UID    名称      2000683T+neg      2000775T+neg       2000804T+neg      980346T+pos       980383T+neg

990082T+neg      980177T+neg       980178T+neg        980403T+neg       980434T+neg       990075T+neg

990113T+neg      990107T+neg       980203T+neg        980208T+pos       980220T+pos       980221T+neg

990115T+pos      990375T+neg       980404T+neg        980409T+neg       990123T+neg       2000422T+neg

2000787T-LA      2000818T-LA       20020021T-LA       20020051T-LA      20020056T-LA      980197T+pos

980215T+neg      980217T+neg       980261T+neg        980391T+neg       2000768T+pos      2000779T+neg

2000948T+neg     20020160T-LA      2000401T-LA        20020071T-LA      2000215T-正常样

2000220T-LA      980333T-LA        980058T-LA         980278T-LA        980288T-ERBB2     2000597T-LA

2000609T-LA      2000272T-LA       2000274T-正常样            980285T-基础      2000593T-基础

2000638T-基础    2000641T-ERBB2    2000675T-ERBB2     2000287T-ERBB2    2000320T-基础

2000880T-基础    2000731T-基础     980353T-neg        2000829T-pos      980373T-pos       2000500T-neg

2000759T-pos     980238T-pos       980395T-pos        980396T-pos       980411T-neg       980441T-neg

990262T-neg      980216T-neg       980194T-pos        980247T-pos       980338T-neg       990174T-neg

990299T-neg      2000210T-ERBB2    980315T-LA         980335T-ERBB2     980193T-基础

980256T-基础     980214T+pos       990148T+pos        2000209T+pos      990223T+pos

2000104T-ERBB2   2000651T-正常样           2000237T-ERBB2     2000652T-ERBB2   2000376T-ERBB2

2000399T-ERBB2   20020090T-ERBB2   2000709T-ERBB2     2000813T-pos      980380T-pos       990134T-pos

2000171T-ERBB2

置信度                     高       高       高       高       高       高       高       高       高

高       高       高       高       高       高       高       高       高       高       高       高

高       高       高       高       高       高       高       高       高       高       高       高

高       高       高       高       高       高       高       高       高       高       高       高

高       高       高       高       高       高       高       高       高       高       高       高

高       高       高       高       高       高       高       高       高       高       高       高

高       高       高       高       高       高       高       高       高       高       高       低

低       低       低       低       低       低       低       低       低       低       低       低

低       低       低

201525_at         载脂蛋白D                  2.749    7.332    2.111    2.803    1.752    1.958    1.75

2.712    4.541    3.009    3.613    4.291    1.486    4.204    2.849    3.388    3.262    3.603

3.097    7.419    5.491    4.873    1.444    2.954    1.296    3.352    2.856    2.266    5.145

4.695    4.072    6.963    4.804    2.886    0.7888   3.226    0.3389   1.921    2.803    4.261

4.993    4.251    0.785    6.066    4.539    2.019    5.235    1.808    4.592    0.09904  2.77     2.85

3.059    3.353    1.229    1.679    1.879    2.77     0.9126   4.246    6.957    3.753    7.109    4.31

1.624    2.986    2.603    0.984    4.797    0.5836   5.433    2.722    1.66     3.161    2.94

0.3395   1.008    4.023    2.417    4.21     4.833    5.118    0.7322   7.893    5.443    5.369

1.104    6.198    2.819    3.773    1.536    1.673    6.562    4.973    6.796    6.121

202991_at         含START结构域3                      0.1623   0.7959   -0.3925  3.014    0.4513

0.2522   0.3208   -0.2599  0.5714   -0.5644  0.5246   0.8061   0.6035   -0.3416  2.886    0.8943

-0.6905  2.991    0.6204   0.4511   -0.4408  -0.2534  0.07863  1.517    0.6792   0.6636   0.2455

-0.1443  2.871    -0.3209  -0.05486          1.605    0.1314   2.252    0.002929          0.9972

0.08306  2.623    0.4914   0.4794   -0.02506          0.1142   0.3137   0.5399   3.005    0.2001

2.758    0.1815   0.1945   -0.05305          0.6643   0.5267   2.002    0.462    3.014    0.2885

0.1389   -0.05295          -1.923   1.882    0.5175   0.09324  1.667    3.328    2.384    3.651

1.299    0.1444   0.158    1.234    2.21     0.1798   -0.1465  0.411    0.5087   3.457    1.745

3.551    -0.2846  0.158    2.62     3.53     3.728    3.149    0.2238   -0.9861  -0.3033  3.286

-0.07757          2.736    3.579    2.466    1.495    2.523    3.703    3.77

203628_at         人胰岛素样生长因子1受体mRNA,3′序列,mRNA序列

2.795    2.381    5.773    1.45     3.568    3.288    2.631    2.062    2.515    4.693    2

2.984    3.098    4.667    2.513    2.232    2.442    0.5148   2.452    3.675    4.111    2.55

3.705    1.115    1.538    1.731    2.76     3.559    2.259    1.855    0.6405   3.657    4.928

2.664    6.732    6.752    0.5081   2.53     1.503    1.872    4.124    1.466    3.48     2.903

0.2213   3.556    1.22     1.193    3.206    -0.1502  0.07299  0.3962   0.5347   0.7098   0.06693

0.09198  0.3905   -0.02844          -0.009415         1.025    0.7389   2.194    0.4784   1.723

0.222    0.05793  0.573    3.054    1.338    0.6058   1.426    1.54     0.9868   0.84     0.1264

0.2324   -0.258   1.21     -0.8171  1.998    1.449    -0.1467  0.3772   1.21     -0.4615  1.451

0.1205   -0.1947  -0.9146  1.441    -0.8475  0.04923  0.4557   -2.688   0.2235   0.5537

205307_s_at       犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)                           -0.117   -1.011

-2.489   -0.9037  -1.085   -1.12    -1.219   -1.735   -1.829   -1.721   -1.433   -0.02038

1.167    -1.694   -1.571   1.055    -2.743   0.03987  0.01731  0.1225   0.1203   -1.484   -0.591

-1.35    -0.2275  0.7435   -1.218   -0.4883  -0.8609  -0.7848  -0.2848  -1.499   -0.3403  -1.388

-0.9036  -0.3888  -0.4186  -1.082   -1.261   -1.201   -0.1329  -1.222   -1.679   -0.2855  0.5551

-1.587   -0.1132  -1.485   -1.13    0.7033   -0.7773  0.7705   0.008025          -0.2992  0.06924

-0.3291  -2.038   -1.017   -3.967   -0.4769  0.8039   -1.589   -0.7423  -0.4919  -1.328   0.2971

-1.549   -0.7277  1.643    -1.604   0.5154   -0.09918          -0.6515  -0.8327  -0.986   -0.04337

-0.95    -0.273   -0.3601  -2.266   1.182    0.7985   -0.8065  1.063    2.302    -0.6945  -1.219

0.9502   -0.894   0.7855   -1.668   0.1515   -0.3956  -1.677   0.22     1.595

210761_s_at       生长因子受体结合蛋白7                        0.4452   1.205    1.412    2.858

1.493    1.508    0.3961   0.7703   1.033    0.922    0.4947   1.016    1.668    1.669    2.906

1.568    0.889    3.42     1.335    0.6151   0.7453   0.6185   1.248    1.748    2.238    0.6557

0.7697   1.296    4.588    0.7527   0.5559   0.7794   0.9863   1.981    1.503    0.3864   0.5489

3.704    0.7039   1.561    0.9271   0.6039   0.9461   1.471    3.699    1.334    1.981    0.6054

0.5662   1.051    1.677    1.507    3.042    1.307    4.472    1.189    0.7615   0.228    0.6253

3.214    1.966    0.6688   2.263    3.093    2.839    1.988    1.721    1.684    0.6625   1.159    2.94

1.063    0.1599   1.04     0.2849   3.697    2.31     3.887    0.6321   0.7463   3.728    5.268

3.912    3.666    1.984    0.7088   0.5511   3.982    5.042    4.321    4.339    4.248    2.174

3.317    4.032    4.736

210930_s_at       v-erb-b2成红细胞性白血病病毒癌基因同系物2,成神经细胞/胶质

细胞瘤衍生癌基因同系物(禽类)                                   -0.8461  -2.708   -0.9694  0.3187

-1.475   -1.568   0.3559   -1.343   -2.559   -0.9886  -1.727   -1.466   -0.1998  -0.8977  0.3377

-0.374   8-1.943  1.36     -1.455   -1.361   -1.218   -1.374   -0.4494  1.16     0.7238   -0.4209

-2.201   -0.4352  1.833    -1.829   -0.6478  -4.138   -0.5983  0.6215   -1.066   -1.07    -0.332

1.556    -0.5345  -0.8175  -0.2384  -1.649   -0.837   0.487    1.322    -0.7451  0.7285   -0.9136

-1.812   -3.225   -0.1626  -1.19    1.542    -0.4326  1.705    0.2116   -0.2503  -1.408   -1.292

1.544    -0.8231  -1.735   0.4762   0.09548  -0.7243  -0.7869  -1.927   -1.524   -2.637   -4.457

-0.278   -2.773   -2.013   -1.611   -2.056   1.532    0.08922  2.774    -0.2269  -1.08    1.078    2.7

1.397    1.554    -1.5     -0.9627  -0.8952  2.069    1.728    3.212    3.121    3.149    1.108

-0.7891  0.9288   2.864

211657_at         癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原)

                           3.887    1.127    5.069    1.162    4.256    2.372    0.06854  2.496

0.534    1.805    0.6949   4.237    3.755    -0.05911          1.471    1.388    1.548    1.032

4.176    0.407    3.742    3.638    4.006    3.88     5.988    1.433    0.1368   2.179    3.537

0.7946   0.4718   3.327    -0.02141          1.842    0.3149   5.084    0.3826   1.889    -0.9834

2.416    0.3955   0.08346  1.603    2.92     3.158    0.7611   5.397    -0.485   0.3396   0.1982

0.2382   1.376    4.494    0.6605   4.674    4.38     -0.2242  0.2056   -0.3151  3.863    0.983

0.8939   1.474    0.5326   3.265    -0.034   -0.8774  -0.5614  2.687    5.257    4.683    0.7389

0.7168   0.8051   4.189    4.894    4.905    1.134    0.431    0.5341   3.92     5.643    4.536

4.869    3.96     0.6223   5.275    4.33     3.687    4.673    0.2819   1.224    2.126    5.62

3.871    0.6072

213557_at         EST,与普遍转录的tetratricopeptide重复基因微弱相似,Y染色体;Y染色体上的普遍转录的TPR基因(人类)

[H.sapiens]       1.252    1.184    0.5043   3.153    1.387    1.868    0.5293   -0.2155  0.3275

0.5276   1.395    1.851    1.543    0.5434   2.397    1.591    0.1861   1.623    1.723    0.7596

0.5377   0.3335   1.596    2.154    1.513    1.603    0.1632   1.181    3.969    0.5737   1.136

2.645    0.6143   2.339    0.2645   0.7221   0.6219   3.499    0.5513   1.099    0.9166   1.378

0.6302   0.9299   3.592    0.9732   3.427    0.7249   0.7654   0.586    1.397    -1.58    3.088

0.7145   4.663    0.5107   1.368    1.251    0.8759   1.862    2.072    1.048    0.8533   3.836

2.693    4.055    1.126    0.493    0.3712   1.462    1.211    0.621    1.516    0.4326   1.09     2.63

2.419    0.667    0.5337   0.3296   3.749    3.494    3.834    3.956    1.295    -0.3071  0.5377

0.8307   1.086    2.534    3.733    3.321    2.127    0.05067  3.98     4.461

214451_at    转录因子AP-2β(激活增强子结合蛋白2β)

-3.097   2.467    -3.372   3.439    0.1365   -1.298   2.39     1.441    2.839    2.516    -1.258

-2.597   -0.5943  1.978    -0.9813  -1.202   1.496    3.43     3.001    -1.562   2.541    -4.519

2.889    0.6659   1.661    -2.472   1.623    3.059    -2.935   3.575    1.469    -4.59    3.603

3.517    -3.813   -0.1878  4.003    -0.4031  0.88     2.51     -4.28    2.753    1.234    -4.588

3.173    -4.705   1.066    -1.809   1.967    -2.498   1.153    0.279    2.117    3.623    -0.005383

1.745    -4.141   -1.479   -1.257   1.798    4.45     -1.547   2.506    3.646    -3.226   -0.913

-3.058   -3.123   3.658    -1.289   3.548    -0.2634  -1.531   -4.923   2.247    1.723    -2.025

3.197    -2.015   -0.7008  4.068    3.333    -1.154   4.028    3.88     0.3311   3.34     2.444

2.631    3.682    3.38     3.92     3.618    4.305    3.96     4.973

215465_at         ATP结合盒,亚家族A(ABC1),成员12                               -5.53    -0.2993

-2.982   -1.196   -1.515   -1.129   1.018    -2.386   -0.3181  -1.932   -1.838   0.7215   -1.211

-1.273   -1.483   -0.995   -1.928   -1.288   -1.39    -0.7415  -0.23    -2.464   -1.478   -0.2715

-1.114   -2.064   1.22     -2.498   -0.9399  -2.507   -0.4786  -2.321   -0.5358  -2.004   -2.388

-2.234   0.078    -1.043   1.185    -1.93    -1.992   -2.169   -2.156   -2.18    0.381    -4.889

1.702    -1.345   -1.946   -1.149   -0.7878  -0.6671  -1.429   -0.559   -1.242   -2.897   -2.329

-1.631   -2.476   -0.6065  0.4199   -2.905   -0.8082  -1.942   -1.804   -1.404   -1.384   -3.471

0.2961   -0.6596  -0.5091  -2.246   -2.386   -2.697   -1.245   0.4357   -0.7417  -0.01172

-1.168   -2.224   -0.5227  1.617    -0.04832          0.4729   -0.4882  -2.002   -0.5482  1.449

-1.664   0.7275   0.8683   -2.091   0.14     0.4634   1.916    0.7919

219429_at         脂肪酸羟化酶               -1.539   -0.2486  -0.06329          -0.606   -1.426

-1.273   0.05695  0.4841   0.3636   -0.7702  -1.403   -0.7     -1.611   -0.5367  0.6557   -0.5048

-0.9159  0.8194   -1.687   -1.037   -0.6167  -0.1531  -1.306   0.1918   -0.531   0.2454   0.7654

-1.344   0.7986   0.2327   -0.9519  -0.8758  -1.052   -0.6758  0.8207   -0.1432  -0.4994  -0.0002446

-0.2944  -1.152   -0.2746  -1.314   0.3005   -0.5842  0.218    -0.5254  -0.7197  -0.6967  -0.2

-0.8899  -0.2978  0.2625   1.562    -1.044   1.383    -0.5091  -0.3997  -0.8286  -3.217   -0.2482

0.5994   0.06282  0.06886  0.1471   0.9134   0.1739   0.6888   -1.575   0.3812   -0.6085  0.7442

-0.7528  -0.5949  -0.4236  -0.7073  1.218    -0.4363  1.209    0.3444   -0.969   0.2863   0.9532

0.7178   1.296    0.6456   -0.4466  1.152    0.4512   1.933    1.497    -0.3116  0.1834   0.142

1.228    1.876    1.35

220149_at         假定蛋白FLJ22671                    -0.585   -1.416   -0.7662  2.221    -0.3646

-0.8895  -0.6838  -0.5557  -0.4347  -0.4597  -0.07175          -0.09613          -0.4148  -0.781

-1.112   -0.482   -1.328   -0.6111  -2.445   -1.028   -0.6113  -0.08989          -1.397   -0.5025

-0.3443  -1.424   -0.3695  -0.8427  0.4616   -1.052   -1.163   -0.9368  -0.3882  0.7431   -0.04467

-0.4188  -0.7193  2.204    -1.393   -0.7435  -1.423   -0.5707  -0.4196  -0.6552  2.686    -0.6905

4.914    -0.3156  -0.9062  -0.1168  0.2261   0.1723   0.386    1.191    2.885   -0.7671   -2.42

-0.2398  -1.799   2.044    0.8819   -0.3224  3.604    1.023    3.736    2.807   -0.5473   -1.357

0.3665   -0.2828  -0.246   -0.01971          0.4476   -0.5921  -0.2366  1.906   -0.3266   2.079

0.2249   -0.5295  0.08667  2.691    1.636    1.349    -0.3243  -1.536   1.435   4.099     -0.8161

1.734    2.641    1.301    1.355    -1.242   1.708    3.096

39248_at          aquaporin 3       0.4769   -0.2623  -0.7927  1.948    0.03186 2.194     0.6044

2.335    -0.1663  0.4244   1.476    3.025    0.6734   2.102    3.241    -0.5173 0.8267    3.789

2.556    -0.07496          2.804    1.786    -1.024   0.4586   2.795    0.6762  0.07351   0.3396

0.4198   0.7147   1.677    2.114    -0.1301  0.06363  3.336    3.314    0.1946  1.919     -0.1613

0.8785   -0.1946  -0.1926  -1.876   3.881    0.3148   -1.082   -0.852   0.0508  0.3455    -0.9268

0.2052   0.2611   0.8294   2.1      1.987    3.696    0.8302   1.104    -1.175  3.041     0.07521

3.434    3.543    0.13     1.305    0.1424   2.271    1.841    0.7022   4.044   4.959     0.2898

0.4821   1.642    0.9258   1.169    -0.382   -0.8969  0.8155   1.156    3.712   2.333     1.722

1.466    3.247    1.128    1.167    3.68     4.088    4.324    -0.5153  2.505   5.002     0.05894

5.292    0.9251

注:neg-阴性;pos-阳性

表S9:表A4(共有的13种)基因组(geneset)表达数据的平均值(μ)和标准偏差(σ)的加权表决参数   探针ID   基因名称   全长参考序列   Unigene        高置信度          低置信度   平均值   SD   平均值   SD   在低置信度肿瘤中上调的   201525_at   载脂蛋白D   NM_001647   Hs.75736   3.213993   1.711066   4.43395   2.23157   202991_at   含START结构域3   NM_006804   Hs.77628   0.838735   1.186229   2.215114   1.621765   205307_s_at   犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   NM_003679   Hs.107318   -0.75339   0.924201   0.105819   1.199695   210761_s_at   生长因子受体结合蛋白7 iprotein 7   NM_005310   Hs.86859   1.512564   1.051211   3.500556   1.421506   210930_s_at   v-erb-b2成红细胞性白血病病毒癌基因同系物2,成神经   细胞/胶质细胞瘤衍生癌基因同系物(禽类)   NM_004448   Hs.323910   -0.71309   1.339254   1.297613   1.591897   211657_at   癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原)   NM_002483   Hs.73848   1.948209   1.842322   3.452838   1.859184       213557_at   EST,与普遍转录的tetratricopeptide   重复基因微弱相似,Y染色体;Y染色体上的   普遍转录的TPR基因(人类)       ---       Hs.14691       1.359728       1.098941       2.417623       1.605763   214451_at   转录因子AP-2β(激活增强子结合蛋白2β)   NM_003221   Hs.33102   0.234429   2.657284   3.171194   1.547226   215465_at   ATP结合盒,亚家族A(ABC1),成员12   NM_015657   Hs.134585   -1.35669   1.237705   0.067599   1.228661   219429_at   脂肪酸羟化酶   ---   Hs.249163   -0.32527   0.827988   0.809581   0.722212   220149_at   假定蛋白FLJ22671   NM_024861   Hs.193745   -0.05674   1.363225   1.200829   1.596251   39248_at   aquaporin 3   NM_004925   Hs.234642   1.076674   1.458035   2.508421   1.755277   在高置信度肿瘤中上调的   203628_at   人胰岛素样生长因子1受体mRNA,3′序列,mRNA序列  ---   Hs.405998   1.956068   1.625758   0.129864   1.072433

表A1:SAM(微阵列显著性分析):在FDR(假发现率)<15%,鉴定了总共86种在低置信度肿瘤中上调 的基因和2种下调的基因。使用这个基因组(gene set),LOOCV检验得到84%的分类精确度。   在低置信度肿瘤中上调的基因   基因名称   得分(d)   q值(%)   Unigene   全长参考序列   206793_at   4.1852709   1.3837984   Hs.1892   NM_002686//苯乙醇胺N-甲基转移酶   211237_s_at   4.071839   1.3837984   Hs.165950   NM_002011//成纤维细胞生长因子受体4异构体1前体//NM_022963//成纤维细胞生长因子   受体4异构体2前体   210761_s_at   3.9001438   1.3837984   Hs.86859   NM_005310//生长因子受体结合蛋白7   206164_at   3.8109161   1.3837984   Hs.241551   NM_006536//钙激活氯化物通道2   204913_s_at   3.4806716   1.3837984   Hs.32964   NM_003108//SRY(性别决定区Y)盒11   210930_s_at   3.4544924   1.3837984   Hs.323910   NM_004448//v-erb-b2成红细胞性白血病病毒癌基因同系物2,成神经细胞/胶质细胞瘤   衍生癌基因同系物   204910_s_at   3.3311974   1.3837984   Hs.321576   NM_006458//含三元基序3异构体α///NM_033278//含三元基序3异构体β///NM_033279   //含三元基序3异构体γ   214451_at   3.2935388   1.3837984   Hs.33102   NM_003221//转录因子AP-2β(激活增强子结合蛋白2β)   217562_at   3.2344498   1.3837984   Hs.106642   ---   217276_x_at   3.0703975   1.3837984   Hs.301947   NM_014509//kraken样   215686_x_at   3.0323791   1.3837984   ---   ---   215559_at   3.0225718   1.3837984   Hs.274260   NM_001171//ATP结合盒,亚家族C,成员6   206827_s_at   2.9342047   1.3837984   Hs.302740   NM_014274//瞬时受体潜在阳离子通道,亚家族V,成员6///NM_018646//瞬时受体潜在阳离子通道,   亚家族V,成员6   208893_s_at   2.9089684   1.3837984   Hs.180383   NM_001946//双特异性磷酸酶6异构体a///NM_022652//双特异性磷酸酶6异构体b   203619_s_at   2.8107802   1.3837984   Hs.182859   ---   203824_at   2.7813798   1.3837984   Hs.84072   NM_004616//跨膜4超家族成员3   221811_at   2.747613   1.3837984   Hs.91668   ---   216202_s_at   2.7319622   1.3837984   Hs.59403   NM_004863//丝氨酸棕榈酰转移酶,长链基本亚基2   209757_s_at   2.7152502   1.3837984   Hs.25960   NM_005378//v-myc髓细胞瘤病病毒相关癌基因,由成神经细胞瘤衍生   219429_at   2.665359   1.3837984   Hs.249163   ---   216465_at   2.628031   1.3837984   Hs.134585   NM_015657//ATP结合盒,亚家族A,成员12异构体b///NM_173076//ATP结合盒,亚家族A,   成员12异构体a   214203_s_at   2.6018018   1.3837984   Hs.343874   NM_005974// /// NM_016335//脯氨酸脱氢酶(氧化酶)1   202942_at   2.5652724   1.3837984   Hs.74047   NM_001985//电子转移黄素蛋白,β多肽   205478_at   2.545305   1.3837984   Hs.76780   NM_006741//蛋白质磷酸酶1,调节(抑制物)亚基1A   203722_at   2.5390254   1.3837984   Hs.77448   NM_003748//醛脱氢酶4A1前体// /// NM_170726//醛脱氢酶4A1前体   202991_at   2.5022628   1.3837984   Hs.77628   NM_006804//类固醇生成急性调节蛋白相关的   205104_at   2.4827654   1.3837984   Hs.323833   NM_014723//syntaphilin   215659_at   2.4619073   1.3837984   Hs.306777   ---   220622_at   2.407245   1.3837984   Hs.114005   NM_024727//假定蛋白FLJ23259   208083_s_at   2.3715062   1.3637984   Hs.57664   NM_000888//整合素,β6   208043_s_at   2.3543638   1.3837984   Hs.6168   NM_014861//KIAA0703基因产物   221345_at   2.3351396   1.3837984   Hs.248056   NM_005306//G蛋白偶联受体43   39248_at   2.3213986   1.3837984   Hs.234642   NM_004925//aquaporin 3   205766_at   2.3057935   1.3837984   Hs.343603   NM_003673//telethonin   211682_x_at   2.2.991204   1.3837984   Hs.137585   NM_053039//UDP糖基转移酶2家族,多肽B28   210571_s_at   2.2806771   1.3837984   Hs.24697   XR_000114//   219233_s_at   2.2752973   1.3837984   Hs.19054   NM_018530//假定蛋白PRO2521   204818_at   2.2720676   1.3837984   Hs.155109   NM_002153//羟基类固醇(17-β)脱氢酶2   211828_s_at   2.2270979   1.3837984   Hs.170204   ---   205916_at   2.2142817   1.3837984   Hs.112408   NM_002963//S100钙结合蛋白A7   209522_s_at   2.2117774   1.3837984   Hs.12068   NM_000755//肉毒碱乙酰基转移酶前体,异构体1///NM_004003//肉毒碱乙酰基转移酶异构体2   ///NM_144782//肉毒碱乙酰基转移酶前体,异构体3   209016_s_at   2.2112214   1.3837984   Hs.23881   ---   209505_at   2.2006627   1.3837984   Hs.374991   ---   200831_s_at   2.1927228   1.3837984   Hs.119597   NM_005063//硬脂酰-CoA去饱和酶(δ-9-去饱和酶)   207802_at   2.1832898   1.3837984   Hs.54431   NM_006061//特异颗粒蛋白(28kDa)   216633_s_at   2.1766477   1.3837984   Hs.193143   ---   214614_at   2.1670563   1.3837984   Hs.37035   NM_005515//同源框HB9   204607_at   2.1402505   1.3837984   Hs.59889   NM_005518//3-羟基-3-甲基谷氨酰-辅酶A合酶2(线粒体)   220149_at   2.1400852   1.3837984   Hs.193745   NM_024861//假定蛋白FLJ22671   219756_s_at   2.1391208   1.3837984   Hs.267038   NM_024921//卵巢早衰1B   213674_x_at   2.1351759   1.3837984   Hs.300697   ---   211657_at   2.1231572   1.3837984   Hs.73848   NM_002483//癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原)   204941_s_at   2.1178907   1.3837984   Hs.87539   NM_000695//醛脱氢酶3B2   214133_at   2.0836401   3.5733527   Hs.99918   ---   210663_s_at   2.0766057   3.5733527   Hs.169139   NM_003937//犬尿氨酸酶(L-犬尿氨酸水解酶)   220414_at   2.0543228   3.5733527   Hs.180142   NM_017422//钙调蛋白样皮肤蛋白质   205808_at   2.0365629   3.5733527   Hs.283664   NM_004318//天冬氨酸β-羟化酶异构体a///NM_020164//天冬氨酸β-羟化酶异构体e///   NM_032466//天冬氨酸β-羟化酶异构体c///NM_032467//天冬氨酸β-羟化酶异构体d///   NM_032468//天冬氨酸β-羟化酶异构体b   203365_s_at   2.0185514   3.5733527   Hs.80343   NM_002428//基质金属蛋白酶15前原蛋白   206509_at   2.0114514   3.5733527   Hs.99949   NM_002652//催乳素诱导的蛋白质   213557_at   1.9942427   3.5733527   Hs.14691   ---   214971_s_at   1.9917977   3.5733527   Hs.2554   NM_003032//唾液酸转换酶1异构体a///NM_173216//唾液酸转换酶1异构体a///NM_173217//   唾液酸转换酶1异构体b   211899_s_at   1.9768615   4.5901604   Hs.8375   NM_004295//TNF受体相关因子4异构体1///NM_145751//TNF受体相关因子4异构体2   220615_s_at   1.9216703   4.5901604   Hs.100895   NM_018099//假定蛋白FLJ10462   206915_at   1.8471141   7.400989   Hs.355454   NM_002509//NK2转录因子相关的,基因座2   201388_at   1.8446012   7.400989   Hs.9736   NM_002809//蛋白酶体26S非ATP酶亚基3   205307_s_at   1.8282052   7.400989   Hs.107318   NM_003679//犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   209616_s_at   1.8059335   7.400989   Hs.76688   NM_001266//羧酸酯酶1(单核细胞/巨噬细胞丝氨酸酯酶1)   205910_s_at   1.7828285   7.400989   Hs.406160   NM_001807//羧酸酯脂肪酶前体   201525_at   1.7490382   7.400989   Hs.75736   NM_001647//载脂蛋白D前体   201729_s_at   1.7197176   9.106286   Hs.151761   ---   204304_s_at   1.6603865   9.106286   Hs.112360   NM_006017//prominin样1   220225_at   1.6559087   9.106286   Hs.196927   NM_016358//iroquois同源框蛋白4   209560_s_at   1.6357376   10.248328   Hs.169228   NM_003836//δ样同系物   207131_x_at   1.6311017   10.248328   Hs.401847   NM_005265//γ-谷氨酰转移酶1///NM_013421//γ-谷氨酰转移酶1前体///NM_013430//   γ-谷氨酰转移酶1   220972_s_at   1.6233436   10.248328   Hs.307010   NM_030975//角蛋白相关蛋白9.9     209641_s_at     1.6169812     10.248328     Hs.90786   NM_003786//ATP结合盒,亚家族C,成员3异构体MRP3///NM_020037//ATP结合盒,亚家族C,   成员3异构体MRP3A///NM_020038//ATP结合盒,亚家族C,成员3异构体MRP3B   211588_s_at   1.6135313   10.248328   Hs.381618   ---   201946_s_at   1.5784917   10.248328   Hs.432970   NM_006431//含TCP1陪伴蛋白,亚基2(β)   205029_s_at   1.5779091   10.248328   Hs.26770   NM_001446//脂肪酸结合蛋白7,脑   201942_s_at   1.5530281   11.432502   Hs.5057   NM_001304//羧肽酶D前体 rsor   213913_s_at   1.5514129   11.432502   Hs.11912   ---   207102_at   1.5436816   11.432502   Hs.201667   NM_005989//醛酮还原酶家族1,成员D1   214624_at   1.5133976   11.432502   Hs.159309   NM_007000//uroplakin 1A///NM_032896//   206714_at   1.5040028   11.432502   Hs.111256   NM_001141//花生四烯酸15-脂氧化酶,第二型   205765_at   1.4589879   12.831585   Hs.104117   NM_000777//细胞色素P450,家族3,亚家族A,多肽5   213043_s_at   1.4469888   12.831585   Hs.23106   NM_014815//甲状腺激素受体相关蛋白 protein   在高置信度肿瘤中上调的基因   基因名称   得分(d)   q(值%)   204286_s_at   -3.429773   1.3837984   Hs.96   NM_021127//佛波醇-12-肉豆蔻酸酯-13-乙酸酯诱导的蛋白质1   203628_at   -2.907564   1.3837984   Hs.405998   ---

表A2:GR(由SVM进行的基因排序):鉴定出总共251种基因具有将肿瘤HC或LC状态分类的能力,且分 类精确度为86%。根据基因的区别性强度将它们排序,这是通过基因特异错误分类率计算的。基因排序 SVM软件包由GeneDataTM(巴塞尔,瑞士)提供。   探针ID   基因描述   Unigene ID   205225_at   雌激素受体1   Hs.1657   206165_s_at   钙激活的氯化物通道,家族成员2   Hs.241551   202917_s_at   S100钙结合蛋白A8(calgranulin A)   Hs.100000   210761_s_at   生长因子受体结合蛋白7   Hs.86859   202376_at   丝氨酸(或半胱氨酸)蛋白酶抑制物,进化枝A(α-1抗蛋白酶、抗胰蛋白酶),成员3   Hs.234726   211657_at   癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原)   Hs.73848   206509_at   催乳素诱导的蛋白质   Hs.99949   201650_at   角蛋白19   Hs.182265   204734_at   角蛋白15   Hs.80342   203627_at   人胰岛素样生长因子1受体mRNA,3′序列,mRNA序列   Hs.405998   39248_at   aquaporin 3   Hs.234642   209603_at   GATA结合蛋白3   Hs.169946   204508_s_at   假定蛋白FLJ20151   Hs.279916   215470_at   人类cDNA FLJ36630 fis,克隆TRACH2018278,mRNA序列   Hs.14658   203749_s_at   视黄酸受体,α   Hs.361071   210930_s_at   v-erb-b2成红细胞白血病病毒癌基因同系物2,成神经细胞/神经胶质瘤衍生的癌基因同系物(禽类)   Hs.323910   219233_s_at   假定蛋白PRO2521   Hs.19054   204475_at   基质金属蛋白酶1(肠胶原酶)   Hs.83169   203875_at   SWI/SNF相关的,基质相关的,染色质的肌动蛋白依赖性调控物,亚家族a,成员1   Hs.152292   211699_x_at   血红蛋白,α1   Hs.272572   205239_at   amphiregulin(许旺氏细胞瘤衍生因子)   Hs.270833   205009_at   三叶草因子1(在乳癌中表达的雌激素可诱导的序列)   Hs.350470   221811_at   假定蛋白MGC9753   Hs.91668   218541_s_at   染色体8开放读码框4   Hs.283683   203628_at   人胰岛素样生长因子1受体mRNA,3′序列,mRNA序列   Hs.405998   209301_at   碳酸酐酶II   Hs.155097   219263_at   假定蛋白FLJ23516   Hs.9238   203917_at   柯萨奇病毒(coxsackie virus)和腺病毒受体   Hs.79187   203980_at   脂肪酸结合蛋白4,脂肪细胞   Hs.391561   207076_s_at   精氨(基)琥珀酸合成酶   Hs.160786   203408_s_at   特殊的富含AT序列结合蛋白1(与核基质/支架相关DNA结合)   Hs.74592   203060_s_at   3′-磷酸腺苷5′-磷酸硫酸酯合酶2   Hs.274230   63825_at   与假定蛋白PRO2831相似(人类),mRNA序列   Hs.406646   222303_at   EST   Hs.292477   211959_at   未知(IMAGE:4183312的蛋白质)(人类),mRNA序列   Hs.380833   217776_at   视黄醇脱氢酶11(所有-反式和9-顺式)   Hs.179817   204863_s_at   白介素6信号转导蛋白(gp130,制瘤素M受体)   Hs.82065   202887_s_at   HIF-1响应性RTP801   Hs.111244   201841_s_at   热休克27kDa蛋白1   Hs.76067   207847_s_at   粘蛋白1,跨膜   Hs.89603   215294_s_at   SWI/SNF相关的,基质相关的,染色质的肌动蛋白依赖性调控物,亚家族a,成员1   Hs.152292   218677_at   S100钙结合蛋白A14   Hs.288998   201931_at   电子转移黄素蛋白,α多肽(戊二酸尿II)   Hs.169919   202991_at   含START结构域3   Hs.77628   210633_x_at   角蛋白10(表皮松懈性角化过度症;掌跖角化症)   Hs.99936   203571_s_at   脂肪特异的2   Hs.74120   220625_s_at   E74样因子5(ets结构域转录因子)   Hs.11713   205567_at   碳水化合物(keratan硫酸酯Ga1-6)磺基转移酶1   Hs.104576   212202_s_at   DKFZP564G2022蛋白   Hs.16492   202888_s_at   丙氨酰(膜)氨肽酶(氨肽酶N、氨肽酶M、微粒体氨肽酶、CD13、p150)   Hs.1239   207023_x_at   角蛋白10(表皮松懈性角化过度症;掌跖角化症)   Hs.99936   204913_s_at   SRY(性别决定区Y)盒11   Hs.32964   204404_at   溶质载体家族12(钠/钾/氯化物转运蛋白),成员2   Hs.110736   211719_x_at   纤连蛋白1   Hs.287820   216510_x_at   免疫球蛋白重链恒定区μ   Hs.153261   218772_x_at   假定蛋白FLJ10493   Hs.279610   201951_at   活化白细胞细胞粘着分子   Hs.10247   209250_at   退化精母细胞同系物,脂质去饱和酶(果蝇)   Hs.185973   214745_at   KIAA1069蛋白   Hs.193143   201946_s_at   含TCP1陪伴蛋白,亚基2(β)   Hs.432970   205916_at   S100钙结合蛋白A7(牛皮癣素1)   Hs.112408   212736_at   假定基因BC008967   Hs.6349   213438_at   人类cDNA FLJ34019 fis,克隆FCBBF2002898,mRNA序列   Hs.7309   205518_s_at   胞苷单磷酸-N-乙酰神经氨酸羟化酶(CMP-N-乙酰神经氨酸单加氧酶)   Hs.24697   221728_x_at   人类cDNA FLJ30298 fis,克隆BRACE2003172,mRNA序列   Hs.351546   205943_at   色氨酸2,3-加双氧酶   Hs.183671   207431_s_at   退化精母细胞同系物,脂质去饱和酶(果蝇)   Hs.185973   209267_s_at   单核细胞中由BCG诱导的基因,克隆103   Hs.284205   204018_x_at   血红蛋白,α1   Hs.272572   212204_at   DKFZP564G2022蛋白   Hs.16492   202310_s_at   胶原,I型,α1   Hs.172928   201998_at   唾液酸转移酶1(β-半乳糖苷α-2,6-唾液酸转移酶)   Hs.2554   208792_s_at   clusterin(补体裂解抑制物,SP-40,40,硫酸化糖蛋白2,受睾酮抑制的前列腺信息2,载脂蛋白J)   Hs.75106   204731_at   转化生长因子,β受体III(β聚糖,300kDa)   Hs.342874   204881_s_at   UDP-葡萄糖神经酰胺葡萄糖基转移酶   Hs.432605   205242_at   趋化因子(C-X-C基元)配体13(B细胞化学引诱物)   Hs.100431   200601_at   辅肌动蛋白,α4   Hs.182485   202037_s_at   分泌的卷曲相关蛋白1   Hs.7306   219795_at   溶质载体家族6(神经递质转运蛋白),成员14   Hs.162211   217028_at   趋化因子(C-X-C基元)受体4   Hs.89414   205066_s_at   ectonucleotide磷酸酶/磷酸二酯酶1   Hs.11951   202357_s_at   B因子,备解素   Hs.69771   202743_at   磷酸肌醇-3-激酶,调节亚基,多肽3(p55,γ)   Hs.372548   203874_s_at   SWI/SNF相关的,基质相关的,染色质的肌动蛋白依赖性调控物,亚家族a,成员1   Hs.152292   210072_at   趋化因子(C-C基元)配体19   Hs.50002   202990_at   磷酸化酶,糖原;肝(赫氏病,糖原积贮病VI型)   Hs.771   206115_at   早期生长应答3   Hs.74088   205498_at   生长激素受体   Hs.125180   212789_at   KIAA0056蛋白   Hs.13421   222155_s_at   假定G蛋白偶联受体GPCR41   Hs.6459   218776_s_at   假定蛋白FLJ23375   Hs.285996   200820_at   蛋白酶体(prosome,macropain)26S亚基,非ATP酶,8   Hs.78466   203337_x_at   整合素胞质结构域相关蛋白1   Hs.173274   214218_s_at   人XIST,编码序列“a”mRNA(基因座DXS399E),mRNA序列   Hs.352403   201729_s_at   KIAA0100基因产物   Hs.151761   204285_s_at   佛波醇-12-肉豆蔻酸-13-乙酸酯诱导的蛋白质1   Hs.96   214451_at   转录因子AP-2β(激活增强子结合蛋白2β)   Hs.33102   218313_s_at   UDP-N-乙酰基-α-D-半乳糖胺:多肽N-乙酰基半乳糖胺转移酶7(GalNAc-T7)   Hs.246315   217838_s_at   RNB6   Hs.241471   209189_at   v-fos FBJ鼠骨肉瘤病毒癌基因同系物   Hs.25647   201131_s_at   cadherin 1,1型,E-cadherin(表皮)   Hs.194657   203058_s_at   3′-磷酸腺苷5′-磷酸硫酸酯合酶2   Hs.274230   213557_at   EST,与普遍转录的tetratricopeptide重复基因微弱相似,Y染色体;Y染色体上的普遍转录的TPR基因(人类)   Hs.14691   215465_at   ATP结合盒,亚家族A(ABC1),成员12   Hs.134585   213693_s_at   粘蛋白1,跨膜   Hs.89603   202218_s_at   脂肪酸去饱和酶2   Hs.184641   207175_at   脂肪最丰富基因转录本1   Hs.80485   205798_at   白介素7受体   Hs.362807   200916_at   transgelin 2   Hs.406504   216623_x_at   含三核苷酸重复9   Hs.110826   211776_s_at   红细胞膜蛋白带4.1样3   Hs.103839   204472_at   在骨骼肌中过度表达的GTP结合蛋白   Hs.79022   220149_at   假定蛋白FLJ22671   Hs.193745   219517_at   假定蛋白FLJ22637   Hs.296178   208653_s_at   CD164抗原,唾液粘蛋白   Hs.43910   202457_s_at   蛋白质磷酸酶3(以前的2B),催化亚基,α异构体(calcineurin Aα)   Hs.272458   222108_at   ---   ---   200648_s_at   谷氨酸-氨连接酶(谷氨酰胺合酶)   Hs.170171   203287_at   ladinin 1   Hs.18141   219429_at   脂肪酸羟化酶   Hs.249163   212934_at   人类cDNA FLJ30096 fis,克隆BNGH41000045,mRNA序列   Hs.155572   205307_s_at   犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   Hs.107318   212686_at   KIAA1157蛋白   Hs.21894   204623_at   三叶草因子3(肠)   Hs.82961   209459_s_at   NPD009蛋白   Hs.283675   203827_at   假定蛋白FLJ10055   Hs.9398   201952_at   活化白细胞细胞粘着分子   Hs.10247   202047_s_at   chromobox同系物6   Hs.107374   206036_s_at   v-rel网状内皮增生病毒癌基因同系物(禽类)   Hs.44313   205048_s_at   磷酸丝氨酸磷酸酶样   Hs.369508   211527_x_at   血管内皮生长因子   Hs.73793   202660_at   次要组织相容性抗原HA-1   Hs.196914   210495_x_at   纤连蛋白1   Hs.287820   216442_x_at   纤连蛋白1   Hs.287820   212865_s_at   胶原,XIV型,α1(undulin)   Hs.403836   221765_at   UDP-葡萄糖神经酰胺葡萄糖基转移酶   Hs.432605   210538_s_at   杆状病毒含IAP重复序列3   Hs.127799   204151_x_at   醛酮还原酶家族1,成员C1(二氢二醇脱氢酶1;20-α(3-α)-羟基类固醇脱氢酶)   Hs.306098   213836_s_at   假定蛋白FLJ10055   Hs.9398   202724_s_at  叉头盒01A(横纹肌肉瘤)   Hs.170133   202404_s_at  胶原,I型,α2   Hs.179573   202871_at  TNF受体相关因子4   Hs.8375   204455_at  大疱性类天疱疮抗原1,230/240kDa   Hs.198689   203640_at  muscleblind样蛋白MBLL39   Hs.283609   823_at  趋化因子(C-X3-C基元)配体1   Hs.80420   214203_s_at  脯氨酸脱氢酶(氧化酶)1   Hs.343874   201963_at  脂肪酸-辅酶A连接酶,长链2   Hs.154890   221730_at  胶原,V型,α2   Hs.82985   217047_s_at  具有序列相似性的家族13,成员A1   Hs.177664   203814_s_at  NAD(P)H脱氢酶,醌2   Hs.73956   202581_at  热休克70kDa蛋白1B   Hs.274402   218640_s_at  phafin 2   Hs.29724   201752_s_at  adducin 3(γ)   Hs.324470   221558_s_at  淋巴样增强子结合因子1   Hs.44865   211798_x_at  免疫球蛋白λ连接3   Hs.102950   218400_at  2′-5′-寡腺苷酸合成酶3,100kDa   Hs.56009   203549_s_at  脂蛋白脂肪酶   Hs.180878   201525_at  载脂蛋白D   Hs.75736   203207_s_at  有可能是具有多脯氨酸区的鸡软骨细胞蛋白的同系物   Hs.170198   201397_at  磷酸甘油酯脱氢酶   Hs.3343   217996_at  pleckstrin同源性样结构域,家族A,成员1   Hs.82101   211479_s_at  5-羟色胺(血清素)受体2C   Hs.46362   213287_s_at  角蛋白10(表皮松懈性角化过度症;掌跖角化症)   Hs.99936   221517_s_at  Sp1转录激活所需要的辅助因子,亚基6,77kDa   Hs.22630   212775_at  KIAA0657蛋白   Hs.6654   217791_s_at  吡咯啉-5-羧酸合成酶(谷氨酸γ半醛合成酶)   Hs.114366   215250_at  人类cDNA FLJ12140 fis,克隆MAMMA1000340,mRNA序列   Hs.287491   208733_at  RAB2,膜RAS癌基因家族   Hs.78305   219629_at   假定蛋白FLJ20635   Hs.265018   205542_at   前列腺的六种跨膜上皮抗原   Hs.61635   208682_s_at   黑素瘤抗原,家族D,2   Hs.4943   218729_at   乳汁蛋白   Hs.109276   205376_at   肌醇多磷酸-4-磷酸酶,II型,105kDa   Hs.153687   203953_s_at   claudin 3   Hs.25640   206916_x_at   酪氨酸氨基转移酶   Hs.161640   212196_at   人类mRNA;cDNA DKFZp564F053(来自克隆DKFZp564F053),mRNA序列   Hs.71968   211000_s_at   白介素6信号转导蛋白(gp130,制瘤素M受体)   Hs.82065   212254_s_at   大疱性类天疱疮抗原1,230/240kDa   Hs.198689   204914_s_at   SRY(性别决定区Y)盒11   Hs.32964   221505_at   富含亮氨酸酸性核蛋白样   Hs.71331   208498_s_at   淀粉酶,α1A;唾液的   Hs.274376   201694_s_at   早期生长应答1   Hs.326035   201936_s_at   真核细胞翻译起始因子4γ,3   Hs.25732   203090_at   基质细胞衍生因子2   Hs.118684   37117_at   σGTP酶激活蛋白8   Hs.102336   202770_s_at   细胞周期蛋白G2   Hs.429880   209522_s_at   肉毒碱乙酰基转移酶   Hs.12068   212451_at   KIAA0256基因产物   Hs.118978   201839_s_at   肿瘤相关钙信号转导蛋白1   Hs.692   218309_at   假定蛋白PR01489   Hs.197922   212450_at   KIAA0256基因产物   Hs.118978   221589_s_at   醛脱氢酶6家族,成员A1   Hs.293970   217281_x_at   免疫球蛋白重链恒定γ3(G3m标志物)   Hs.300697   217388_s_at   犬尿氨酸酶(L-犬尿氨酸水解酶)   Hs.169139   203336_s_at   整合素胞质结构域相关蛋白1   Hs.173274   217704_x_at   ---   ---   201563_at   山梨糖醇脱氢酶   Hs.878   208151_x_at   DEAD/H(Asp-G1u-Ala-Asp/His)盒多肽17,72kDa   Hs.349121   217880_at   细胞分裂周期27   Hs.406631   213229_at   Dicerl,Der-1同系物(果蝇)   Hs.87889   219768_at   假定蛋白FLJ22418   Hs.36563   200602_at   淀粉状蛋白β(A4)前体蛋白(蛋白酶微管连接蛋白II,阿尔茨海默氏病)   Hs.177486   201082_s_at   dynactin 1(p150,胶合同系物,果蝇)   Hs.74617   214774_x_at   含三核苷酸重复序列9   Hs.110826   208654_s_at   CD164抗原,唾液粘蛋白   Hs.43910   202018_s_at   乳转铁蛋白   Hs.105938   212915_at   有可能是小鼠semaF胞质结构域相关蛋白3的同系物   Hs.177635   202196_s_at   dickkopf同系物3(非洲爪蟾)   Hs.4909   221024_s_at   溶质载体家族2(易化葡萄糖转运蛋白),成员10   Hs.305971   211702_s_at   泛素特异蛋白酶   Hs.155787   205110_s_at   成纤维细胞生长因子13   Hs.6540   219956_at   UDP-N-乙酰基-α-D半乳糖胺:多肽N-乙酰基半乳糖胺转移酶6(GalNAc-T6)   Hs.151678   202687_s_at   肿瘤坏死因子(配体)超家族,成员10   Hs.83429   205882_x_at   adducin 3(γ)   Hs.324470   203476_at   滋养层糖蛋白   Hs.82128   208991_at   人类cDNA FLJ35646 fis,克隆SPLEN2012743,mRNA序列   Hs.381933   204866_at   KIAA0215基因产物   Hs.82292   208180_s_at   H4组蛋白家族,成员H   Hs.421737   219410_at   假定蛋白FLJ10134   Hs.104800   209290_s_at   核因子I/B   Hs.33287   202718_at   胰岛素样生长因子结合蛋白2,36kDa   Hs.433326   205862_at   GREB1蛋白   Hs.193914   203895_at   人类mRNA;cDNA DKFZp434E235(来自克隆DKFZp434E235),mRNA序列   Hs.348724   212171_x_at   血管内皮生长因子   Hs.73793   217762_s_at   RAB31,膜RAS癌基因家族   Hs.223025   208891_at   双特异性磷酸酶6   Hs.180383   221543_s_at   染色体8开放读码框2   Hs.125849   218834_s_at   假定蛋白F1J20539   Hs.118552   201852_x_at   胶原,III型,α1(Ehlers-Danlos综合征IV型,常染色体显性)   Hs.119571   211965_at   锌指蛋白36,C3H型样1   Hs.85155   202015_x_at   甲硫氨酰氨肽酶2   Hs.78935   203348_s_at   ets变体基因5(ets相关分子)   Hs.43697   202783_at   烟酰胺核苷酸转氢酶   Hs.18136   202403_s_at   胶原,I型,α2   Hs.179573   214440_at   N-乙酰基转移酶1(芳基胺N-乙酰基转移酶)   Hs.155956   211748_x_at   前列腺素D2合酶21kDa(脑)   Hs.8272   215073_s_at   人类,克隆IMAGE:5287010,mRNA,mRNA序列   Hs.288869   215806_x_at   T细胞受体γ恒定区2   Hs.274509   205158_at   核酸酶,RNA酶A家族,4   Hs.283749   221841_s_at   人类cDNA FLJ38575 fis,克隆HCHON2007046,mRNA序列   Hs.376206   214858_at   人类克隆24566 mRNA序列   Hs.133342   212464_s_at   纤连蛋白1   Hs.287820   206510_at   sine oculis同源框同系物2(果蝇)   Hs.101937   216246_at   核糖体蛋白S20   Hs.173717   200923_at   凝集素,半乳糖苷结合的,可溶的,3结合蛋白   Hs.79339   221989_at   核糖体蛋白L10   Hs.29797   211284_s_at   颗粒体蛋白   Hs.180577   209173_at   anterior gradient 2同系物(Xenepus laevis)   Hs.91011   200924_s_at   溶质载体家族3(二碱和中性氨基酸转运蛋白激活物),成员2   Hs.79748   212859_x_at   ---   ---   213109_at   KIAA0551蛋白   Hs.170204

表A3:WT(Wilcoxon检验):在P值<0.05且截止值≥2倍变化时,鉴定出总共38种基因。这38种基因 的组给出的LOOCV精确度是80%。根据基因的显著性(P值)将它们排序。   探针   基因描述   Unigene   210761_s_at   生长因子受体结合蛋白7   Hs.86859   201931_at   电子转移黄素蛋白,α多肽(戊二酸尿II)   Hs.169919   219429_at   脂肪酸羟化酶   Hs.249163   204285_s_at   佛波醇-12-肉豆蔻酸-13-乙酸酯诱导的蛋白质1   Hs.96   209603_at   GATA结合蛋白3   Hs.169946   206165_s_at   氯化物通道,由钙激活,家族成员2   Hs.241551   216836_s_at   v-erb-b2成红细胞白血病病毒癌基因同系物2,成神经细胞/神经胶质细胞瘤衍生的癌基因同系物(禽类)   Hs.323910   203627_at   人胰岛素样生长因子1受体mRNA,3’序列,mRAN序列   Hs.405998   205225_at   雌激素受体1   Hs.1657   215465_at   ATP结合盒,亚家族A(ABC1),成员12   Hs.134585   203628_at   人胰岛素样生长因子1受体mRNA,3′序列,mRNA序列   Hs.405998   202991_at   含START结构域3   Hs.77628   208891_at   双特异性磷酸酶6   Hs.180383   214451_at   转录因子AP-2β(激活增强子结合蛋白2β)   Hs.33102   204508_s_at   假定蛋白FLJ20151   Hs.279916   202376_at   丝氨酸(或半胱氨酸)蛋白酶抑制物,进化枝A(α-1抗蛋白酶、抗胰蛋白酶),成员3   Hs.234726   200832_s_at   硬脂酰-CoA去饱和酶(δ-9-去饱和酶)   Hs.119597   205307_s_at   犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   Hs.107318   203060_s_at   3′-磷酸腺苷5′-磷酸硫酸酯合酶2   Hs.274230   201963_at   脂肪酸-辅酶A连接酶,长链2   Hs.154890   209602_s_at   GATA结合蛋白3   Hs.169946   211138_s_at   犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   Hs.107318   39248_at   aquaporin 3   Hs.234642   220149_at   假定蛋白FLJ22671   Hs.193745   55616_at   假定基因MGC9753   Hs.91668   205306_x_at   犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   Hs.107318   205862_at   GREB1蛋白   Hs.193914   217388_s_at   犬尿氨酸酶(L-犬尿氨酸水解酶)   Hs.169139   204942_s_at   醛脱氢酶3家族,成员B2   Hs.87539   202218_s_at   脂肪酸去饱和酶2   Hs.184641   213557_at   EST,与普遍转录的tetratricopeptide重复基因微弱相似,Y染色体;Y染色体上的普遍转录的TPR基因(人类)   Hs.14691   211657_at   癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原)   Hs.73848   214598_at   claudin 8   Hs.162209   218532_s_at   假定蛋白FLJ20152   Hs.82273   202917_s_at   S100钙结合蛋白A8(calgranulin A)   Hs.100000   208792_s_at   clusterin(补体裂解抑制物,SP-40,40,硫酸化糖蛋白2,受睾酮抑制的前列腺信息2,载脂蛋白J)   Hs.75106   215659_at   人类cDNA:FLJ21521 fis,克隆COL05880,mRNA序列   Hs.306777   201525_at   载脂蛋白D   Hs.75736

表A4:然后鉴定出三个基因组(SAM-88、GR-251、WT-38)的13种“共有”基因。这13种成员基因通过 LOOCV实现的分类精确度是84%。本质上,这13种“共有基因”是强有力的显著标志物,而且能够像其 它“完整”标志物集一样获得类似的性能。   探针ID   Unigene   全长参考序列   位置   39248_at   Hs.234642   NM_004925//aquaporin 3   Chr:9p13   201525_at   Hs.75736   NM_001647//载脂蛋白D前体   Chr:3q26.2-qter   202991_at   Hs.77628   NM_006804//类固醇生成急性调节蛋白相关的   Chr:17q11-q12   203628_at   Hs.405998   ---   ---   205307_s_at   Hs.107318   NM_003679//犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶)   Chr:1q42-q44   210761_s_at   Hs.86859   NM_005310//生长因子受体结合蛋白7   Chr:17q21.1   211657_at   Hs.73848   NM_002483//癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原)   Chr:19q13.2   213557_at   Hs.14691   ---   ---   214451_at   Hs.33102   NM_003221//转录因子AP-2β(激活增强子结合蛋白2β)//NM_173076//   Chr:6p12   215465_at   Hs.134585   NM_015657//ATP结合盒,亚家族A,成员12异构体b///NM_173076//ATP结合盒,亚家族A,成员12异构体a   Chr:2q35   219429_at   Hs.249163   ---   Chr:16q23   220149_at   Hs.193745   NM_024861//假定蛋白FLJ22671   Chr:2q37.3   210930_s_at   Hs.323910   NM_004448//v-erb-b2成红细胞性白血病病毒癌基因同系物2,成神经细胞/胶质细胞瘤衍生癌基因同系物   Chr:17q11.2-q12

表LI:SAM-133基因的查阅ID表

SAM-133

顺序    探针_ID      Unlgene     GenBank

1       205225_at    Hs.1657     NM_000125.1

2       209603_at    Hs.169946   AI796169

3       204508_s_at  Hs.279916   BC001012.1

4       209604_s_at  Hs.169946   BC003070.1

5       209602_s at  Hs.169946   AI796169

6       206754_s_at  Hs.1360     NM_000767.2

7       203963_at    Hs.5338     NM_001218.2

8       214164_x_at  Hs.5344     BF752277

9       212956_at    Hs.90419    AI348094

10      215867_x_at  Hs.5344     AL050025.1

11      210735_s_at  Hs.5338     BC000278.1

12      214440_at    Hs.155956   NM_000662.1

13      202089_s_at  Hs.79136    NM_012319.2

14      210085_s_at  Hs.279928   AF230929.1

15      205862_at    Hs.193914   NM_014668.1

16      202088_at    Hs.79136    AI635449

17      211712_s_at              BC005830.1

18      206401_s_at  Hs.101174   J03778.1

19      215304_at    Hs.159264   U79293.1

20      218195_at    Hs.15929    NM_024573.1

21      212195_at    Hs.71968    AL049265.1

22      203928_x_at  Hs.101174   AI870749

23      209460_at    Hs.283675   AF237813.1

24      212960_at    Hs.90419    BE646554

25      209443_at    Hs.76353    J02639.1

26      209173_at    Hs.91011    AF088867.1

27      203071_at    Hs.82222    NM_004636.1

28      203571_s_at  Hs.74120    NM_006829.1

29      205354_at    Hs.81131    NM_000156.3

30      213712_at    Hs.30504    BF508639

31      41660_at

32      220744_s_at  Hs.70202    NM_018262.1

33      204798_at    Hs.1334     NM_005375.1

34      215552_s_at  Hs.272288   AI073549

35      209339_at    Hs.20191    U76248.1

36      210272_at    Hs.330780   M29873.1

37      205186_at    Hs.33846    NM_003462.2

38      207414_s_at  Hs.170414   NM_002570.1

39      205009_at    Hs.1406     NM_003225.1

40      203628_at    Hs.239176   H05812

41      211323_s_at  Hs.198443   L38019.1

42      201825_s_at  Hs.238126   AL572542

43      211234_x_at  Hs.1657     AF258449.1

44      209459_s_at  Hs.283675   AF237813.1

45      212196_at    Hs.71968    AW242916

46      203438_at    Hs.155223   AI435828

47      217838_s_at  Hs.241471   NM_016337.1

48      204041_at    Hs.82163    NM_000898.1

49      203929_s_at  Hs.101174   AI056359

50      200670_at    Hs.149923   NM_005080.1

51      219414_at    Hs.12079    NM_022131.1

52      203627_at    Hs.239176   AI830698

53      208451_s_at  Hs.278625   NM_000592.2

54      213419_at    Hs.324125   U62325.1

55      205768_s_at  Hs.11729    NM_003645.1

56      204862_s_at  Hs.81687    NM_002513.1

57      210480_s_at  Hs.22564    U90236.2

58      205696_s_at  Hs.105445   NM_005264.1

59      203685_at    Hs.79241    NM_000633.1

60      218976_at    Hs.260720   NM_021800.1

61      219197_s_at  Hs.222399   AI424243

62      202996_at    Hs.82520    NM_0211731

63      205734_s_at  Hs.38070    AI990465

64      21123_s_at   Hs.1657     AF258450.1

65      211000_s_at  Hs.82065    AB015706.1

66      217190_x_at  Hs.247976   S67777

67      202752_x_at  Hs.22891    NM_0122441

68      201754_at    Hs.74649    NM_0043741

69      204623_at    Hs.82961    NM_0032261

70      207038_at    Hs.114924   NM_004694.1

71      212637_s_at  Hs.324275   AU155187

72      208682_s_at  Hs.4943     AF126181.1

73      218502_s_at  Hs.26102    NM_014112.1

74      202376_at    Hs.234726   NM_001085.2

75      215616_s_at  Hs.301011   AB020683.1

76      211233_x_at  Hs.1657     M12674.1

77      205081_at    Hs.17409    NM_001311.1

78      214429__at   Hs.170250   K02403.1

79      209696_at    Hs.574      D26054.1

80      219682_s_at  Hs.332150   NM_016569.1

81      212496_s_at  Hs.301011   BE256900

82      203108_at    Hs.194691   NM_003979.2

83      206107_at    Hs.65756    NM_003834.1

84      218806_s_at  Hs.267659   AF118887.1

85      209581_at    Hs.37189    BC001387.1

86      213412_at    Hs.25527    NM_014428.1

87      212638_s_at  Hs.324275   BF131791

88      206469_x_at  Hs.284236   NM_012067.1

89      210652_s_at  Hs.125783   BC004399.1

90      216381_x_at  Hs.284236   AL035413

91      216092_s_at  Hs.22891    AL365347.1

92      208788_at    Hs.250175   AL136939.1

93      204792_s_at  Hs.111862   NM_014714.1

94      207847_s_at  Hs.89603    NM_002456.1

95      213201_s_at  Hs.73980    AJ011712

96      204497_at    Hs.20196    AB011092.1

97      222314_x_at  Hs.205660   AW970881

98      222212_s_at  Hs.285976   AK001105.1

99      219919_s_at  Hs.279808   NM_018276.1

100     214053_at    Hs.7888     AW772192

101     204934_s_at  Hs.823      NM_0021511

102     216109_at    Hs.306803   AK025348.1

103     203749_s_at  Hs.250505   AI806984

104     220329_s_at  Hs.238270   NM_017909.1

105     204881_s_at  Hs.152601   NM_003358.1

106     208305_at    Hs.2905     NM_000926.1

107     209623_at    Hs.167531   AW439494

108     218450_at    Hs.108675   NM 015987.1

109     204343_at    Hs.26630    NM_001089.1

110     219051_x_at  Hs.124915   NM_024042.1

111     205471_s_at  Hs.63931    AW772082

112     203439_s_at  Hs.155223   BC000658.1

113     204863_s_at  Hs.82065    BE856546

114     203289_s_at  Hs.19699    BE791629

115     221765_at    Hs.23703    AI378044

116     219001_s_at  Hs.317589   NM_024345.1

117     220581_at    Hs.287738   NM_025059.1

118     211596_s_at              AB050468.1

119     205645_at    Hs.80667    NM_004726.1

120     219663_s_at  Hs.157527   NM_025268.1

121     205380_at    Hs.15456    NM_002614.1

122     201508_at    Hs.1516     NM_001552.1

1       215729_s_at  Hs.9030     BE542323

2       201983_s_at  Hs.77432    AW157070

3       204914_s_at  Hs.32964    AW157202

4       204913_s_at  Hs.32964    AI360875

5       205646_s_at  Hs.89506    NM_000280.1

6       207030_s_at  Hs.10526    NM_001321.1

7       204915_s_at  Hs 32964    AB028641.1

8       203021_at    Hs.251754   NM_0030641

9       209800_at    Hs.115947   AF061812.1

10      203234_at    Hs.77573    NM_003364.1

11      201984_s_at  Hs.77432    NM_005228.1

表L2:表2基因的查阅表

表2

探针_ID      Unigene      GenBank

205225_at    Hs.1657      NM_000125.1

205186_at    Hs.406050    NM_003462.2

201754_at    Hs.351875    NM_004374.1

210085_s_at  Hs.279928    AF230929.1

214440_at    Hs.155956    NM_000662.1

206754_s_at  Hs.1360      NM_000767.2 _   203749_s_at  Hs.361071    AI806984

215552_s_at  Hs.239176    AI073549

209443_at    Hs.76353     J02639.1

216109_at    Hs.306803    AK025348.1

203685_at    Hs.79241     NM_000633.1

205862_at    Hs.193914    NM_014668.1

217838_s_at  Hs.241471    NM_016337.1

209603_at    Hs.169946    AI796169

212195_at    Hs.71968     AL049265.1

212637_s_at  Hs.355977    AU155187

205696_s_at  Hs.105445    NM_005264.1

210652_s_at  Hs.125783    BC004399.1

205734_s_at  Hs.38070     AI990465

211000_s_at  Hs.82065     AB015706.1

206107_at    Hs.65756     NM_003834.1

203628_at    Hs.405998    H05812

204934_s_at  Hs.823.      NM_002151.1

203071_at    Hs.82222     NM_004636.1

204881_s_at  Hs.432605    NM_0033581

210272_at    Hs.330780    M29873.1

213201_s_at  Hs.73980     AJ011712

206401_s_at  Hs.101174    J03778.1

209339_at    Hs.20191     U76248.1

208305_at    Hs.2905      NM_000926.1

212956_at    Hs.90419     AI348094

214164_x_at  Hs.279916    BF752277

204343_at    Hs.26630     NM_001089.1

203963_at    Hs.5338      NM_001218.2

207038_at    Hs.114924    NM_004694.1

218195_at    Hs.15929     NM_024573.1

220329_s_at  Hs.238270    NM_017909.1

218502_s_at  Hs.26102     NM_014112.1

219414_at    Hs.12079     NM_022131.1

202376_at    Hs.234726    NM_001085.2

218806_s_at  Hs.267659    AF118887.1

202089_s_at  Hs.79136     NM_012319.2

213712_at    Hs.432587    BF508639

204497_at    Hs.20196     AB011092.1

215616_s_at  Hs.301011    AB020683.1

218450_at    Hs.294133    NM_015987.1

203438_at    Hs.155223    AI435828

208451_s_at  Hs.433721    NM_000592.2

205768_s_at  Hs.11729     NM_003645.1

219682_s_at  Hs.267182    NM_016569.1

204508_s_at  Hs.279916    BC001012.1

203963_at    Hs.5338      NM_001218.2

209603_at    Hs.169946    AI796169

208788_at    Hs.250175    AL136939.1

212637_s_at  Hs.355977    AU_155187

200670_at    Hs.149923    NM_005080.1

203571_s_at  Hs.74120     NM_006829.1

208682_s_at  Hs.4943      AF126181.1

209173_at    Hs.91011     AF088867.1

201754_at    Hs.351875    NM_004374.1

206469_x_at  Hs.284236    NM_012067.1

213412_at    Hs.25527     NM_014428.1

222212_s_at  Hs.285976    AK001105.1

211323_s_at  Hs.198443    L38019.1

209696_at    Hs.574       D26054.1

212956_at    Hs.90419     AI348094

218195_at    Hs.15929     NM_024573.1

202089_s_at  Hs.79136     NM_012319.2

209623_at    Hs.167531    AW439494

210272_at    Hs.330780    M29873.1

204623_at    Hs.82961     NM_003226.1

215304_at    Hs.159264    U79293.1

214440_at    Hs.155956    NM_000662.1

205862_at    Hs.193914    NM_014668.1

203108_at    Hs.194691    NM_003979.2

207038_at    Hs.114924    NM_004694.1

205186_at    Hs.406050    NM_003462.2

202752_x_at  Hs.22891     NM_012244.1

220744_s_at  Hs.70202     NM_018262.1

219414_at    Hs.12079     NM_022131.1

204798_at    Hs.1334      NM_005375.1

205009_at    Hs.350470    NM_003225.1

219051_x_at  Hs.124915    NM_024042.1

205471_s_at  Hs.63931     AW772082

207847_s_at  Hs.89603     NM_002456.1

208451_s_at  Hs.433721    NM_000592.2

205081_at    Hs.423190    NM_001311.1

209459_s_at  Hs.283675    AF237813.1

203071_at    Hs.82222     NM_004636.1

209581_at    Hs.37189     BC001387.1

204343_at    Hs.26630     NM_001089.1

206401_s_at  Hs.101174    J03778.1

210480_s_at  Hs.385834    U90236.2

201825_s_at  Hs.238126    AL572542

203749_s_at  Hs.361071    AI806984

218806_s_at  Hs.267659    AF118887.1

210652_s_at  Hs.125783    BC004399.1

205225_at    Hs.1657      NM_000125.1

205768_s_at  Hs.11729     NM_003645.1

219682_s_at  Hs.332150    NM_016569.1

表L3:表S4基因的查阅表

Unigene      GenBank

Hs.106642    BF589529

Hs.25960     AF320053.1

Hs.1892      NM_002686.1

Hs.289104    NM_014274.1

Hs.165950    NM_002011.2

Hs.173035    AF338650.1

Hs.86859     AB008790.1

Hs.272207    NM_017533.1

Hs.103707    AW192795

Hs.274550    AA074145

Hs.100000    AW238654

Hs.54609     NM_014291.1

Hs.85050     NM_002667.1

Hs.239934    AL022316

Hs.194236    NM_000230.1

Hs.103395    NM_024709.1

Hs.107318    NM_003679.1

Hs.1735      NM_002193.1

Hs.155109    NM_002153.1

Hs.26770     NM_001446.1

Hs.278388    NM_000608.1

Hs.251754    NM_003064.1

Hs.378774    NM_001615.2

Hs.51515     AA053967

Hs.149195    NM_016233.1

Hs.78344     AI889739

Hs.112405    NM_002965.2

Hs.417091    AF052117.1

Hs.57664     NM_000888.3

Hs.154078    NM_004139.1

Hs.100014    NM_007325.1

Hs.193606    AA343027

Hs.202949    AK027231.1

Hs.84072     NM_004616.1

Hs.323910    AF177761.2

Hs.76780     NM_006741.1

Hs.225962    NM_014354.1

Hs.165619    NM_017717.2

Hs.127428    AI246769

Hs.2899      NM_002150.1

Hs.105938    NM_002343.1

Hs.193143    AK022610.1

Hs.1915      NM_004476.1

Hs.160786    NM_000050.1

Hs.23881     AI920979

Hs.3110      NM_000686.2

Hs.180142    NM_017422.2

Hs.169919    NM_000126.1

Hs.112408    NM_002963.2

Hs.96        NM_021127.1

Hs.33846     NM_003462.2

Hs.1360      NM_000767.2

Hs.1657      NM_000125.1

Hs.194689    AF120274.1

Hs.50964     NM_001712.1

Hs.23703     BF970427

Hs.193914    NM_014668.1

Hs.250505    AI806984

Hs.279928    AF230929.1

Hs.156637    NM_012116.1

Hs.169946    AI796169

Hs.4243      NM_024522.1

Hs.111801    NM_015908.1

Hs.155485    NM_005339.2

Hs.99603     NM_024701.1

Hs.55481     NM003447.1

Hs.306803    AK025348.1

Hs.239176    NM_000875.2

Hs.823       NM_002151.1

Hs.203845    NM_022358.1

Hs.432605    NM_003358.1

Hs.330780    M29873.1

Hs.32981     U38276

Hs.101174    NM_016835.1

Hs.17752     NM_015900.1

Hs.406646    Data not found

Hs.351875    NM_004374.1

Hs.20196     AB011092.1

Hs.331584    AF326966.1

Hs.272288    AI073549

Hs.12079     NM_022131.1

Hs.82065     NM_002184.1

Hs.372446    NM_007202.1

Hs.155956    NM_000662.1

Hs.278850    NM_024935.1

Hs.247955    NM_001322.1

Hs.76067     NM_001540.2

Hs.61289     AL157424.1

UniGene

Hs.334514    NM_032794

Hs.4943      NM_177433

Hs.1892      NM_002686

Hs.321576    NM_006458

Hs.91668     BF033007

Hs.274260    NM_001171

Hs.14368     NM_003022

Hs.86859     NM_005310

Hs.59889     NM_005518

Hs.165950    NM_002011

Hs.83190     NM_004104

Hs.89603     NM_002456

Hs.29724     NM_024813.1

Hs.12068     NM_000755

Hs.279916    NM_017689

Hs.169946    NM_002051

Hs.355977    NM_007013

Hs.33102     NM_003221

Hs.90419     XM_093895

Hs.38972     NM_005727

Hs.31034     NM_003847

Hs.132136    NM_004858

Hs.91668     BF033007

Hs.70604     NM_004496

Hs.234642    NM_004925

Hs.323910    NM_004448

Hs.198443    NM_002222

Hs.197922    NM_018584.1

Hs.87539     NM_000695

Hs.381412    Dala not found

Hs.180383    NM_001946

Hs.5338      NM_001218

Hs.406515    NM_000903

Hs.8910      NM_020379

Hs.6168      NM_014861

Hs.119597    NM_005063

Hs.574       NM_000507

Hs.326525    NM_009589

Hs.149923    NM_005080

Hs.167531    NM_022132

Hs.184376    NM_003825

Hs.301947    NM_014509

Hs.91011     NM_006408

Hs.114556    NM_017699

Hs.432970    NM_006431

Hs.300697    AK090461

Hs.84072     NM_004616

Hs.878       NM_003104

高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈