涉及乳癌诊断的材料和方法专利检索-置信度人工智能专利检索查询-专利查询网

涉及乳癌诊断的材料和方法

阅读：744发布：2024-02-22

专利汇可以提供涉及乳癌诊断的材料和方法专利检索，专利查询，专利分析的服务。并且将乳瘤分类为雌激素受体阳性和阴性(ER+和ER－)亚型是乳癌治疗中进行的一项重要的鉴别项目。通常根据已知其表达受ER活性影响的基因的表达谱来进行ER分型。有些肿瘤不能根据这些表达数据确信的归入特定ER类型。本发明人发现，这些“低置信度 ”肿瘤构成了乳瘤的一类独特生物学亚型，它的总体存活比高置信度肿瘤显著更差。本发明提供了能够鉴别低置信度肿瘤与高置信度肿瘤的几组基因，以及用于对乳瘤进行恰当分类的方法和装置。，下面是涉及乳癌诊断的材料和方法专利的具体信息内容。

权利要求

1.用于将乳瘤样品分类为“低置信度”或“高置信度”的方法，该方法包括提供所述乳瘤样品的表达谱，其中该表达谱包含多基因分类物的表达水平，所述多基因分类物至少包含表S4的5种基因，并根据该表达谱将肿瘤分类为高或低置信度肿瘤。
2.依照权利要求1的方法，包括确定样品的雌激素受体(ER) 状态。
3.依照权利要求1或2的方法，包括步骤：
(a)由取自患者的乳瘤样品获得表达产物；
(b)通过将所述表达产物接触结合成员来测定多基因分类物的表达水平，所述多基因分类物至少包含表S4的5种基因，每个结合成员能够与多基因分类物的表达产物特异结合；并
(c)根据该表达水平鉴定所述患者中低置信度乳瘤的存在。
4.依照权利要求3的方法，其中表达产物是cDNA且结合成员是能够与该cDNA特异杂交的核酸探针。
5.依照权利要求3的方法，其中表达产物是RNA或mRNA且结合成员是能够与RNA或mRNA特异杂交并在PCR中扩增它们的核酸引物。
6.依照权利要求3的方法，其中表达产物是多肽且结合成员是能够与该多肽特异结合的抗体结合结构域。
7.依照权利要求3至6任一项的方法，包括将来自测试乳瘤样品的表达产物的结合谱与其它先前获得的结合谱的数据库和/或先前确定的存在低置信度肿瘤的特征性“标准”谱进行比较。
8.依照权利要求7的方法，其中比较是通过计算机进行的，它被编程报告测试谱与标准谱之间的统计学相似性，从而可以进行分类。
9.依照权利要求1至8任一项的方法，其中将乳瘤样品分类的步骤包括使用加权表决、支持矢量系统和/或分级聚类。
10.依照权利要求1至9任一项的方法，其中多基因分类物包含表S4(a)的基因、表S4(b)的基因或二者之一的子集。
11.依照权利要求10的方法，其中基因的子集来自表S4(a)或表 S4(b)的上半部。
12.依照权利要求10或11的方法，其中多基因分类物包含表 S4(a)和/或表S4(b)的上调和下调基因的混合。
13.用于将乳瘤样品分类为“低置信度”或“高置信度”的方法，包括提供所述乳瘤样品的表达谱，其中该表达谱包含多基因分类物的表达水平，所述多基因分类物至少包含表2的5种基因，并根据该表达谱将肿瘤分类为高或低置信度肿瘤。
14.依照权利要求13的方法，包括确定样品的雌激素受体(ER) 状态。
15.依照权利要求13或14的方法，包括步骤：
(a)由取自患者的乳瘤样品获得表达产物；
(b)通过将所述表达产物接触结合成员来确定多基因分类物的表达水平，所述多基因分类物至少包含表2的5种基因，每个结合成员能够与多基因分类物的表达产物特异结合；并
(c)根据表达水平鉴定所述患者中低置信度乳瘤的存在。
16.依照权利要求15的方法，其中表达产物是cDNA且结合成员是能够与该cDNA特异杂交的核酸探针。
17.依照权利要求15的方法，其中表达产物是RNA或mRNA且结合成员是能够与该RNA或mRNA特异杂交并在PCR中扩增它们的核酸引物。
18.依照权利要求15的方法，其中表达产物是多肽且结合成员是能够与该多肽特异结合的抗体结合结构域。
19.依照权利要求15至18任一项的方法，包括将来自测试乳瘤样品的表达产物的结合谱与其它先前获得的结合谱的数据库和/或先前测定的存在低置信度肿瘤的特征性“标准”谱进行比较。
20.依照权利要求19的方法，其中比较是通过计算机进行的，它被编程报告测试谱与标准谱之间的统计学相似性，从而可以进行分类。
21.依照权利要求13至20任一项的方法，其中将乳瘤样品分类的步骤包括使用加权表决、支持矢量系统和/或分级聚类。
22.依照权利要求13至21任一项的方法，其中多基因分类物包含表2(a)的基因、表2(b)的基因或二者之一的子集。
23.依照权利要求22的方法，其中基因的子集来自表2(a)或表 2(b)的上半部。
24.依照权利要求22或23的方法，其中多基因分类物包含表2(a) 和/或表2(b)的上调和下调基因的混合。
25.用于将乳瘤样品分类为“低置信度”或“高置信度”的方法，该方法包括提供所述乳瘤样品的表达谱，其中该表达谱包含多基因分类物的表达水平，所述多基因分类物包含表A1和/或表A2和/或表A3 和/或表A4的至少5种基因，并根据表达谱将所述肿瘤分类为高或低置信度肿瘤。
26.依照权利要求25的方法，包括步骤：
(a)由取自患者的乳瘤样品获得表达产物；
(b)通过将所述表达产物接触结合成员来确定多基因分类物的表达水平，所述多基因分类物包含表A1和/或表A2和/或表A3和/或表 A4的至少5种基因，每个结合成员能够与多基因分类物的表达产物特异结合；并
(c)根据表达水平鉴定所述患者中低置信度乳瘤的存在。
27.依照权利要求26的方法，其中表达产物是cDNA且结合成员是能够与该cDNA特异杂交的核酸探针。
28.依照权利要求26的方法，其中表达产物是RNA或mRNA且结合成员是能够与该RNA或mRNA特异杂交并在PCR中扩增它们的核酸引物。
29.依照权利要求26的方法，其中表达产物是多肽且结合成员是能够与该多肽特异结合的抗体结合结构域。
30.依照权利要求26至29任一项的方法，包括将来自测试乳瘤样品的表达产物的结合谱与其它先前获得的结合谱的数据库和/或先前确定的存在低置信度肿瘤的特征性“标准”谱进行比较。
31.依照权利要求30的方法，其中比较是通过计算机进行的，它被编程报告测试谱与标准谱之间的统计学相似性，从而可以进行分类。
32.依照权利要求25至31任一项的方法，其中将乳瘤样品分类的步骤包括使用加权表决、支持矢量系统和/或分级聚类。
33.依照权利要求25至32任一项的方法，其中多基因分类物包含表A4的基因或其子集。
34.生成乳瘤样品的核酸表达谱的方法，包括步骤：
(a)由所述乳瘤样品分离表达产物；
(b)确定多基因分类物的表达水平，所述多基因分类物包含选自表 S4、表2、表A1、表A2、表A3和表A4任一项的至少5种基因；并
(c)由表达水平生成所述乳瘤样品的表达谱。
35.依照权利要求34的方法，包括步骤：
(a)由乳瘤样品分离表达产物；
(b)将所述表达产物接触多基因分类物，所述多基因分类物包含至少5种能够与选自表S4或表2或者独立选自表A1和/或表A2和/或表 A3和/或表A4的多种基因的表达产物特异且独立结合的结合成员，从而由所述多基因分类物的表达水平产生肿瘤样品的第一表达谱；
(c)将该表达谱与高置信度肿瘤和/或低置信度肿瘤的特征性表达谱进行比较。
36.包含高置信度和/或低置信度乳瘤样品的多种基因表达谱的表达谱数据库，其中每个基因表达谱都源自多基因分类物，后者包含选自表S4或表2或者独立选自表A1和/或表A2和/或表A3和/或表 A4的至少5种基因，且其中数据库以可获取方式保存在数据载体上。
37.依照权利要求36的表达谱数据库，其中构成该数据库的表达谱是通过权利要求34或35的方法生成的。
38.用于将乳瘤样品分类为“高置信度”或“低置信度”的装置，包括附着在固体支持物上的多种结合成员，每种结合成员能够与多基因分类物的表达产物特异结合，所述多基因分类物包含表S4、表2、表A1、表A2、表A3和表A4一个或多个中的至少5种基因。
39.依照权利要求38的装置，包括能够与所述每一个表的多种基因的表达产物结合的结合成员。
40.依照权利要求38或39的装置，包括能够与表A4中的所有基因的表达产物特异且独立结合的结合成员。
41.依照权利要求38至40任一项的装置，包括微阵列，其中结合成员是能够与RNA或mRNA表达产物或由其衍生的cDNA特异杂交的核酸序列。
42.用于将乳瘤样品分类为“高置信度”或“低置信度”的试剂盒，所述试剂盒包含多种结合成员和检测剂，每种结合成员能够与多基因分类物之一的表达产物特异结合，所述多基因分类物包含表S4、表2、表A1、表A2、表A3和表A4任一项或多项中的至少5种基因。
43.依照权利要求42的试剂盒，其中结合成员是固定在一个或多个固体支持物上的抗体结合结构域或核酸序列。
44.依照权利要求43的试剂盒，包括微阵列。
45.依照权利要求42的试剂盒，其中结合成员是能够与表达产物结合从而能够在PCR中扩增它们的核酸引物。
46.依照权利要求42至45任一项的试剂盒，还包含用于与测试样品的表达谱进行比较、以可获取方式保存在数据载体上的一个或多个标准表达谱。
47.依照权利要求46的试剂盒，其中一个或多个标准表达谱是通过权利要求34或35的方法生成的。

说明书全文

发明领域

本发明涉及与乳癌诊断有关的材料和方法。具体的说，本发明涉及“低置信度(low confidence)”肿瘤的诊断和/或分类，所述“低置信度”肿瘤与它们的“高置信度”对应物相比，展示显著更差的总体存活和更短时间的远程转移。

发明背景

人们对基因表达数据在生物学分类中的用途存在浓厚兴趣，特别是肿瘤学和医学领域。这种方法的一个令人兴奋的方面是它确定癌的临床相关亚型的能力，而这些亚型先前逃过了比较传统的光学显微镜术方法(15，16)。尽管具有这种潜力，然而在基因表达数据用于临床诊断成为现实之前，还必需解决许多问题。例如，需要提供这样的算法，它除了能进行正确的分类，还能精确的确定预测的置信度。如果分类影响后续治疗过程的话，那么这将是特别重要的--一旦获得了这些信息，主治医师就能够用具体干预的潜在发病率权衡预测的置信度，从而做出明智的临床选择。

将乳瘤分类为雌激素受体阳性(ER+)和阴性(ER-)亚型是乳癌治疗中一项关键的鉴别项目。ER-肿瘤通常比它们的ER+对应物在临床上更具攻击性，而ER+肿瘤通常使用抗激素疗法进行治疗，诸如三苯氧胺(1)。目前，通常使用ER抗体通过免疫组化(IHC)或免疫印迹来确定肿瘤的ER状态。然而，这种技术是有缺陷的，例如，它可能不能检测出在ER中包含基因改变从而使其没有活性或组成性有活性的肿瘤(2)。因此，至关重要的是要开发出更加精确的方法学来改进乳瘤的 ER亚型分类，从而随后可以采用恰当的疗法。许多小组最近发表了利用表达谱(expression profile)数据将乳癌分为ER+和ER-类别的报告。在一项研究中发现ER+和ER-肿瘤的表达谱“显著不同”，支持了先前关于ER+和ER-肿瘤可能源自不同乳房上皮细胞类型的理论(3)。

另一个小组报告了受监督学习方法学(supervised learning methodology)在基于表达数据根据ER亚型将乳瘤分类中的用途(4)。这些研究中的一项共同观察结果是，尽管大多数乳瘤常常能够高度确信的精确分为ER+和ER-亚型，然而始终存在一些“低置信度”样品，它们或是被错误分类或是预测的统计学“置信度”处于边缘。尽管有人提出这些“低置信度”样品可能反映了群体异质性的影响(4)，但是至今没有彻底探究关于这些“低置信度”样品与它们的“高置信度” 对应物可能在生物学上有所不同的假说。

发明概述

本发明人考虑了“低置信度”样品可能具有不同生物学特征的可能性。为了评估这种可能性，他们使用内部生成的乳癌表达数据集进行了分类分析，并且确定了与“高置信度”肿瘤相比，“低置信度” 肿瘤在对ER亚型鉴别重要的多种基因的表达中展示普遍扰动 (widespread perturbation)。尽管“高”和“低”置信度肿瘤之间的区别最初源自纯粹的计算手段，然而其在临床上意义重大，因为与它们的“高置信度”对应物相比，“低置信度”肿瘤展示显著更差的总体存活(p＝0.0003)和更短时间的远程转移(p＝0.0001)。这种区别是目前用于检测ER的常规免疫组化策略所不能鉴别的。

发明人还令人惊讶的确定了ERBB2受体的高表达水平与具有“低置信度”预测的乳瘤显著相关，并且在由不同患者群/阵列技术生成并使用不同计算方法分析的三个独立起源的乳癌表达数据集间确认了这种关联。在“低置信度”肿瘤中观察到的ERBB2表达与ER鉴别基因的普遍扰动之间的关联是诱人的，因为已知ERBB2活性在乳瘤和细胞系中都有助于抗激素疗法耐受的形成(5，6)且抑制ER的转录活性(5，7)。

然而，尽管对于鉴别ER亚型是重要的，发明人发现这些“扰动 (perturbed)”基因中的显著比例并非已知是雌激素响应性的，而且使用最近描述的生物信息学算法(DEREF)还证明了这些基因在它们的启动子中不含潜在的雌激素响应元件(ERE)。这些结果说明，除了目前关于ERBB2主要通过破坏ER转录活性来发挥作用的模型以外，ERBB2 对乳瘤的作用中的显著部分可能还牵涉ER不依赖性基因激活机制，它们可能共同促成了“低置信度”肿瘤亚型的临床攻击性本质。

由此，本发明人确定了可用于将乳瘤样品分类为“低置信度”肿瘤或“高置信度”肿瘤的几组基因(“多基因分类物(multigene classifier)”)。发明人首次确定了“低置信度”肿瘤组在预后和治疗方面具有重要的医学意义。

对于ER+和ER-中的每一个，发明人都提供了在“高置信度”和“低置信度”肿瘤之间具有不同表达水平的许多基因。表2中确定了这些基因。这些扰动基因的表达水平可用于鉴别高置信度和低置信度肿瘤。表S4中确定了在低置信度肿瘤与高置信度肿瘤之间具有不同表达水平的另一组基因。不管肿瘤的ER状态，表A1-A4中确定了在低置信度肿瘤和高置信度肿瘤之间具有不同表达水平的其它几组基因。下面的描述将利用术语“表达谱(expression profile)”，它指多基因分类物中的一组基因在样品中的表达水平。

表达水平通常以数值表示。因此，表达谱通常包括一组数值，每个数值代表多基因分类物中一种基因的表达水平。下面的描述将利用术语“多种基因”。该术语指多基因分类物的基因子集。子集可能对应于多基因分类物的一个亚群，例如ER+低置信度乳瘤中的上调基因。多种基因的内容可能随多基因分类物的不同而变化，而且对于特定的多基因分类物，又随本发明的不同方面而变化。它可以指特定多基因分类物的所有基因或其子集。

因此，最一般的说，本发明提供了使用多基因分类物将乳瘤样品分类为高或低置信度样品的新型诊断方法和检验方法。本发明还鉴定了用于乳瘤样品分类的多基因分类物和包含多基因分类物或其多种基因的装置。表S4、2、A1、A2、A3和A4显示了本发明的各个方面所使用的多基因分类物。

表S4列出了在ER+和ER-肿瘤每一个中在整体规模进行检验时在高置信度和低置信度肿瘤之间展示显著不同的转录调节的基因。

在第一个方面，本发明提供了产生对于乳瘤样品的核酸表达谱的方法，包括下列步骤：(a)由所述乳瘤样品分离表达产物；(b)确定选自表S4的多种基因的表达水平；并(c)由表达水平产生对于所述乳瘤样品的表达谱。

肿瘤样品可以是高置信度的和/或低置信度的。肿瘤样品可以是 ER+高置信度乳瘤样品和/或ER+低置信度乳瘤样品和/或ER-高置信度乳瘤样品和/或ER-低置信度乳瘤样品。优选的是，确定了乳瘤样品的 ER状态。优选在上述方法的步骤(a)之前确定了乳瘤样品的ER状态。可以如我们共同悬而未决的申请PCT/GB03/000755中所述通过制作基因表达谱来确定乳瘤样品的ER状态。

表S4分子集显示基因。子集(a)中是在ER+高置信度样品和ER+ 低置信度肿瘤中显示显著不同表达的基因。表S4(a)的第一个部分是与ER+高置信度肿瘤相比在ER+低置信度肿瘤中上调的一组基因(表 S4(a)“上调的”)。表S4(a)的第二个部分显示了与ER+高置信度肿瘤相比在ER+低置信度肿瘤中下调的一组基因(表S4(a)“下调的”)。

表S4的部分(b)中是与ER-高置信度肿瘤相比在ER-低置信度样品中显示表达上调的基因。

多基因分类物中单独基因的表达谱在独立样品之间将有略微差异。然而，发明人认识到，多基因分类物的基因表达谱提供了在高置信度和低置信度肿瘤之间不同的、可用于鉴别的特征性表达模式。

通过由许多已知的高和低置信度样品生成许多多基因分类物表达谱，有可能生成高置信度和低置信度这两类样品的(表达)谱库。表达谱的数目越多，生成在诊断测定法中可用作对照的可靠特征性表达谱标准(即包括统计差异)越容易。由此，标准谱可以是衍生自多个个体表达谱且在统计差异内从而代表高置信度或低置信度样品谱的表达谱。

由此，依照本发明第一方面的方法可以包括以下步骤：(a)由乳瘤样品分离表达产物；(b)将所述表达产物接触多种结合成员，它们能够与选自表S4的多种基因的表达产物特异且独立结合，从而由所述多种基因的表达水平产生肿瘤样品的第一个表达谱；并(c)将该表达谱与高置信度肿瘤和/或低置信度肿瘤的特征性表达谱进行比较。

为了生成所述表达谱，需要评估多种基因的表达水平。可以绝对评估表达水平，即测量表达产物的数量。也可以相对评估表达水平，即将表达与一些其它因素进行比较，诸如但不限于样品中另一种基因的表达，或是一组基因(优选所述方法中所使用的多基因分类物未包含的一组基因)的表达平均值/中值/模式，或者在一组样品间进行比较。例如，可以作为在样品中多种基因的平均表达的倍数或分数来测量基因表达。表达优选表示为正数或负数，以指示表达相对于平均值的升高或降低。

优选使用统计和/或概率模型来测量预测强度。所述模型包括加权表决(Weighted Voting，WV)和/或支持矢量系统(Support Vector Machines，SVM)。可以使用加权表决和排除一项交叉验证(Leave One Out Cross Validation，LOOCV)来测定预测强度(见实施例)。在使用双色cDNA微阵列进行计算时，例如用于评估Stanford数据集的微阵列，低置信度可能意味着预测强度值(magnitude)小于或等于0.4。优选的是，低置信度肿瘤的预测强度的范围是≥-0.4且优选≤0.4。对于低置信度肿瘤，预测强度可以是≥-0.35且优选≤0.35。对于低置信度肿瘤，预测强度可以是≥-0.3且优选≤0.3。

优选的是，高置信度样品的预测强度值大于0.4。优选的是，高置信度肿瘤的预测强度≥0.4且优选≤-0.4。

然而，高/低置信度肿瘤预测强度的截止值可能随所用数据集和/ 或阵列技术而变化。例如，在使用双色寡核苷酸微阵列评估的Rosetta 数据集中，高置信度肿瘤指预测强度值大于0.7的肿瘤。优选的是，高置信度样品的预测强度值大于0.7。因此，对于低置信度肿瘤，预测强度可以是≥-0.7且优选≤0.7。对于低置信度肿瘤，预测强度可以是≥-0.6且优选≤0.6。对于低置信度肿瘤，预测强度可以是≥-0.5且优选≤0.5。更优选的是，低置信度肿瘤的预测强度的范围是≥-0.4且优选≤0.4。

在Stanford和Rosetta这两个数据集中比较在乳瘤群中的预测强度时，高和低置信度肿瘤之间的分界线可以确定为这样的点，即此时数据集中的肿瘤预测强度开始在质量上小于这群肿瘤的大多数预测强度。尽管每个数据集是独立分析的，然而独立的Rosetta和Stanford 数据集之间低置信度肿瘤的比例是相似的。

因此，低置信度肿瘤可能落入乳瘤群体的ER预测强度的最低的 20％内，更优选的是ER预测强度的最低的15-19％内。优选的是，乳瘤群包含至少25个肿瘤的最小数据集，更优选至少25-30个肿瘤，更优选至少30个肿瘤，更优选至少50个肿瘤，更优选至少80个肿瘤，最优选大约80-100个肿瘤。

表达产物优选是mRNA或由所述mRNA制备的cDNA，或是cDNA。或者，表达产物可以是表达的多肽。表达谱的鉴定优选使用这样的结合成员来进行，即它能够特异鉴定表S4中确定的多种基因的表达产物。例如，如果表达产物是cDNA，那么结合成员将是能够与cDNA特异杂交的核酸探针。

优选的是，表达产物或结合成员二者之一将被标记，从而可以检测两种成分的结合。优选选择这样的标记物，即能够检测表达产物的相对水平/数量和/或绝对水平/数量，从而根据多基因分类物中个体基因的上调或下调来确定表达谱。一般而言，结合成员应当能够不仅检测表达产物的存在与否，而且能检测它的相对丰度(即可利用产物的量)。

然而，最近出现了利用“无标记物”技术来进行定量的许多新技术，例如由Xagros开发的技术。表达产物和/或结合成员可以是未经标记的。可以通过测量由两种引物结合到靶表达产物上并通过聚合酶延伸引起的电阻变化来检测和/或定量结合成员的结合。

核酸表达谱的确定可以在某些先前设定的参数内进行，以避免假阳性和假阴性。可以使用计算机来确定核酸表达谱。

然后，如上所述，计算机能够提供低置信度或高置信度乳房细胞的特征性表达谱标准。然后，可以将确定的表达谱用于将乳房组织样品分类，作为诊断的一种方式。

由此，在第二个方面，本发明提供了包含高置信度和/或低置信度乳瘤样品的多个基因表达谱的表达谱数据库，其中每个基因表达谱都源自选自表S4的多种基因，且数据库以可获取的(retrievably)方式保存在数据载体上。优选的是，构成数据库的表达谱是通过第一个方面的方法生成的。

凭借多基因分类物的知识，有可能设计出用于确定特定测试样品的基因表达模式或谱的许多方法。例如，可以使用标准分子生物学技术由样品分离所表达的核酸(RNA、mRNA)。然后，可以在PCR中使用对所表达序列特异的核酸引物扩增与来自表S4中给出的基因鉴别物 (genetic identifier)的所述多种基因对应的所表达核酸序列。如果分离的所表达核酸是mRNA，那么可以使用标准方法将它转变成cDNA 从而用于PCR。

引物可以方便的将标记物导入所扩增的核酸，从而可以对它进行鉴定。理想的是，标记物能够指示扩增事件后存在的核酸序列的相对数量或比例，它反映了原始测试样品中存在的相对数量或比例。例如，如果标记物是荧光或放射性，那么信号强度将指示所表达序列的相对数量/比例或甚至绝对数量。每一种基因鉴别物的表达产物的相对数量或比例将构成测试样品的特定表达谱。通过将它与已知谱或标准表达谱进行比较，有可能确定测试样品是来自正常乳房组织还是恶性乳房组织。如上所述，引物和/或扩增核酸可以是未标记的。

或者，可以使用能够与基因鉴别物的表达产物(例如mRNA、相应的cDNA或表达的多肽)相结合的结合成员来确定表达模式或谱。通过标记表达产物或结合成员，有可能鉴定表达产物的相对数量或比例，并确定基因鉴别物的表达谱。由此，可以通过将表达谱与已知谱或标准谱进行比较而将样品分类为高置信度或低置信度。结合成员可以是互补核酸序列或特异抗体。下文将更加详细的讨论使用这些结合成员的微阵列检验。

在第三个方面，本发明提供了用于将乳瘤样品分类为低置信度或高置信度的方法，该方法包括提供所述乳瘤样品的表达谱，其中表达谱包含来自表S4的多种基因的表达水平，并根据该表达谱将肿瘤分为高或低置信度肿瘤。

本发明第三个方面的方法包括步骤：(a)获得取自患者的乳瘤样品的表达产物；(b)通过将所述表达产物接触结合成员来确定表S4中所示的多种基因的表达水平，每个结合成员能够与该多种基因的一种表达产物特异结合；并(c)根据表达水平确定所述患者中是否存在低置信度乳瘤。

优选的是，该方法还包括确定肿瘤的ER状态的步骤，优选在提供肿瘤的表达谱之前。

确定是否存在低置信度乳瘤的步骤可以使用计算机来进行，它能够将来自测试乳瘤样品的表达产物的结合谱与其它先前获得的谱的数据库和/或先前确定的存在低置信度肿瘤的特征性“标准”谱进行比较。可以将计算机编程，使之报告测试谱与标准谱之间的统计学相似性，从而可以进行分类。

将乳瘤样品分类的步骤可以包括使用统计和/或概率技术，诸如加权表决(WV)(13)，即一种受监督学习技术。在WV中，可以进行二元分类。将乳瘤样品中多基因分类物的基因表达水平与该基因在不同类型间的表达水平平均值进行比较。例如，可以由已经给定了类型的表达谱计算平均值，例如高和/或低置信度样品的表达谱数据库。优选的是，表达谱已经给定了ER状态。

将表达水平和类型间基因表达平均值之间的差异加权(weight)，并对应该基因对该类型的‘投票’。对于特定肿瘤，对于每一种类，将对所有基因的投票加到一起，产生每一类的总票数。将肿瘤判定为具有最高票数的类型。然后可以将获胜类型的胜利幅度表述成预测强度。

表达水平的差异是使用包括两种类型每一种的基因表达水平的平均值和标准偏差在内的公式加权的。一般而言，每一种类型的平均值和标准偏差是由具有或代表特定肿瘤类型(例如高置信度和低置信度) 的表达谱计算的。

另外/或者，步骤(c)可以包括使用分级聚类(hierarchical clustering)，特别是在使用与评估具有指定类型的表达谱或与样品表达谱进行比较的标准谱相比不同的阵列技术来评估肿瘤样品的时候。步骤(c)的结果可以使用已经建立的排除一项交叉验证(LOOCV) 检验法(见实施例)进行验证。步骤(c)可以使用计算机来进行。

在分级聚类中，可以将每个表达谱表述成由n个基因组成的矢量 (vector)，其中(g1，g2...gn)代表基因的表达水平。然后，将每个矢量与分析中的每一个其它谱进行比较，并将两个彼此具有最高相关的矢量配成对，直至尽可能多的将分析中的谱配成对。

本领域知道许多方法可以计算相关性，诸如Pearson的相关系数 (28)。在下一步中，由每一对衍生一个合成矢量(composite vector) (在平均连接聚类(average-linkage clustering)中，这通常是两个谱的平均值)，然后重复配对过程。继续，直至不可能进行更多的配对。这个过程就是“分级”，因为是由底部(单个谱)开始并向上升。在本发明中，优选由单个谱建成两个合成矢量，每个矢量代表一种类型(即高置信度和低置信度)。对于来自未知类型的一个新样品，将样品与标准谱/样品进行聚类。根据样品在反复配对结束时所属的簇 /矢量来确定“未知”样品的类型。

因此，本发明在一个实施方案中提供了通过例如将所述肿瘤的表达谱与肿瘤类型特征谱进行比较(优选通过将肿瘤的表达谱与高置信度和/或低置信度肿瘤的特征谱进行比较)来鉴定患者中的攻击性乳瘤的方法。该方法还包括对如果肿瘤具有低置信度肿瘤特征性表达谱的患者指出不佳预后的步骤。

预后可能影响患者的治疗过程。在鉴定了低置信度肿瘤后，可以使用攻击性技术来治疗患者，以治疗低置信度肿瘤。

不佳预后包括与高置信度肿瘤患者相比患者的总体存活率显著更差和/或远程转移的时间显著更短。

如上所述，本发明人鉴定了在低置信度乳瘤和高置信度乳瘤中具有不同表达模式的几种关键基因，即它们能够区别乳瘤的高和低置信度类型。

多基因分类物可包含表S4中列出的基因。通过确定测试样品的表达谱并将该表达谱与低和/或高置信度乳瘤的特征性表达谱进行比较 (和/或使用诸如加权表决等技术分析表达谱)，例如它们的表达相对于在高置信度样品中看到的标准模式或谱的升高或降低，有可能将样品分为低置信度或高置信度肿瘤。

多种基因可以是表S4(a)和/或表S4(b)的基因，或者是表S4(a) 的基因子集和/或表S4(b)的基因子集。

多种基因可以包含表S4(a)的至少10、20、30、40、50、60、70、 80种或所有基因。

多种基因可以是表S4(a)的所有或基本上所有上调和/或下调基因。多种基因可以包含约30种、或约20种、或约10种、或约5种表 S4(a)的上调基因或由其组成。多种基因可以包含约30种、或约20 种、或约10种、或约5种表S4(a)的下调基因或由其组成。

优选的是，多种基因包含约80、或约70、或约60、或约50、或约40、或约30、或约20、或约10种表S4(a)的基因或由其组成。多种基因可以包含约50、或约40、或约30、或约20、或约10、或约5 种表S4(a)的上调基因或由其组成。

来自表S4(a)的基因优选选自上调基因组的上部和/或下调基因组的上部。上部优选表或组的上半部，因为每个组中的基因是根据显著性排序的。在高置信度和低置信度肿瘤之间显示最大差异表达的基因出现在表S4(a)的每组的上部，而表达差异较小的基因出现在下部。

多种基因可以包括不超过80、或70、或60、或50、或40、或30、或20、或10或5种表S4(a)的基因。

多种基因可以包含5-30种表S4(a)的上调基因和/或表S4(a)的下调基因或主要由其组成。多种基因可以包含10-30种表S4(a)的上调基因和/或表S4(a)的下调基因或主要由其组成。多种基因可以包含 10-20种表S4(a)的上调基因和/或表S4(a)的下调基因或20-30种表 S4(a)的上调基因和/或表S4(a)的下调基因或主要由其组成。多种基因可以包含5-40种或5-50种表S4(a)的上调基因或由基本由其组成。

多种基因(可以是约10种基因)可以选自表S4(a)的前约40、或约30或约20种上调基因和/或下调基因。该约10种基因可以选自表 S4(a)上调和/或下调基因的前约15种。该约10种基因可以选自表 S4(a)的前10种上调基因或下调基因。多种基因(可以是约10种基因) 可以选自表S4(a)的前约50或约40种上调基因。

优选的是，多种基因包含表S4(a)上调和/或表S4(a)下调基因前约30种中的约10-20种基因。

多种基因可以包含选自下组的约30或约20或约10种基因或由其组成：表S4(a)的前约40、或约30、或约20、或约10种上调基因和表S4(a)的前约30、或约20、或约10种下调基因。多种基因可以包含选自下组的约10、约15、或约20种基因或由其组成：表S4(a)的前约10或约15种上调基因和表S4(a)的前约10、约15、或约20种下调基因。

多种基因可以是表S4(b)的所有或基本上所有基因。多种基因可以是表S4(b)的所有或基本上所有基因。多种基因可以包括表S4(b) 的至少10、20、30、40、50或所有基因。

多种基因可以包含约50、或约40、或约30、或约20、或约10、或约5种表S4(b)的基因或由其组成。

来自表S4(b)的基因优选选自表的上部。上部优选表的上半部，因为每个组中的基因是根据显著性排序的。在高置信度和低置信度肿瘤之间显示最大差异表达的基因出现在表S4(b)组的上部，而表达差异较小的基因出现在下部。

多种基因可以包括不超过50、或40、或30、或20、或10、或5 种表S4(b)的基因。

多种基因可以包含5-50种表S4(b)的基因或基本上由其组成。多种基因可以包含10-40种表S4(b)的基因或基本上由其组成。多种基因可以包含10-30种表S4(b)的基因或基本上由其组成。多种基因可以包含10-20种或20-30种表S4(b)的基因或基本上由其组成。

多种基因(优选约30、或约20、或约10种基因)可以选自表S4(b) 的前约40、或约30或约20种基因。该约10种基因可以选自表S4(b) 的前约15或20种基因。该约10种基因可以是表S4(b)的前10种基因。

优选的是，多种基因包含表S4(b)前约30种基因中的约10或20 种基因。

如上所述，本领域技术人员将领会，与生成特征性表达谱所需要的最不显著的基因数目相比，生成特征性表达谱所需要的最显著的基因数目较少。

所选择的所述多种基因的数目和种类是为了提供能够鉴别高置信度和低置信度肿瘤的表达特征。

优选的是，多种基因包括来自表S4(a)和/或表S4(b)的上调和下调基因的混合。

肿瘤分类的步骤可以包括对这样的基因进行评估，与高置信度肿瘤相比所述基因在低置信度肿瘤中上调。

另外/或者，步骤(c)可以包括对这样的基因进行评估，与高置信度肿瘤相比所述基团在低置信度肿瘤中下调。

表2中显示了构成另一个多基因分类物的基因。本发明的第一个、第二个和第三个方面加以必要改动后可适用表2，即多种基因可以来自表2。本发明第一个、第二个和第三个方面的优选实施方案和任选特征加以必要改动后可适用表2。

因此，在第四个方面，本发明提供了生成针对乳瘤样品的核酸表达谱的方法，包括以下步骤：(a)由所述乳瘤样品分离表达产物；(b) 确定表2的多种基因的表达水平；并(c)由表达水平生成表达谱。

乳瘤样品可以是任何类型的乳瘤，正如本发明第一个方面所述。优选的是，确定了乳瘤样品的ER状态，优选在步骤(a)之前。

在第五个方面，本发明提供了包含高置信度和/或低置信度乳房样品的多个基因表达谱的表达谱数据库，其中每个表达谱来自表2的多种基因，且数据库以可获取的方式保存在数据载体上。优选的是，构成数据库的表达谱是通过第四个方面的方法生成的。

表2的基因提供了候选的多基因分类物。

在第六个方面，本发明提供了用于将乳瘤样品分类为低置信度或高置信度的方法，该方法包括提供所述样品的表达谱，其中表达谱包含表2的多种基因的表达水平，并根据表达谱将肿瘤分为高或低置信度肿瘤。

本发明第六个方面的方法可以包括步骤：(a)由取自患者的乳瘤样品获得表达产物；(b)通过将所述表达产物接触结合成员来测定表2 中所示的多种基因的表达水平，每个结合成员能够与多种基因的一种表达产物特异结合；并(c)根据表达水平确定所述患者中是否存在低置信度乳瘤。

步骤(c)可以包括将结合谱与低置信度肿瘤的特征谱进行比较。低置信度肿瘤可以是ER+或ER-。步骤(c)可以包括使用统计技术，诸如加权表决和/或支持矢量系统(SVM)。

多种基因可以包含表2的所有或基本上所有基因或表2a或表2b 的所有或基本上所有基因或由其组成。

多种基因可以包括表2的至少10、20、30、40、50、60、70、80、 90种或所有基因。

优选的是，多种基因包含约50、或约40、或约30、或约20、或约10种表2a和/或表2b的基因或由其组成。来自表2的基因优选选自上部，优选表2a和/或表2b的上半部，因为表2a和表2b每一组中的基因是根据显著性排序的。在高置信度和低置信度肿瘤之间显示最大扰动(perturbation)的基因出现在表2a和表2b每一个的上部，而扰动较小的基因出现在下部。

本领域技术人员将领会，与生成低和/或高置信度乳瘤的特征性表达谱所需要的最不显著的基因数目相比，生成所述特征性表达谱所需要的最显著的基因的数目较少。例如，与选自表2a下半部的基因相比，需要来自表上半部的基因的数目较少。

所选择的所述多种基因的数目和种类是为了提供能够鉴别高置信度和低置信度肿瘤的表达特征。

多种基因可以包括不超过50种表2a和/或表2b的基因。多种基因可以包括不超过40种表2a和/或表2b的基因。多种基因可以包括不超过30种表2a和/或表2b的基因。多种基因可以包括不超过20 种表2a和/或表2b的基因。多种基因可以包括不超过10种表2a和/ 或表2b的基因。多种基因可以包括不超过5种表2a和/或表2b的基因。

多种基因可以包含5-50种表2a和/或表2b的基因或基本上由其组成。多种基因可以包含10-40种表2a和/或表2b的基因或基本上由其组成。多种基因可以包含10-30种表2a和/或表2b的基因或基本上由其组成。多种基因可以包含10-20种或20-30种表2a和/或表2b 的基因或基本上由其组成。

所述基因(优选约10种基因)可以选自表2a的前约40、或约30、或约20种基因。该约10种基因可以选自表2a的前约15种基因。该约10种基因可以是表2a的前10种基因。所述基因(优选约10种基因)可以选自表2b的前约40、或约30、或约20种基因。该约10种基因可以选自表2b的前该约15种基因。该约10种基因可以是表2b 的前10种基因。

所述基因(优选约10-20种基因)优选选自表2a和/或表2b的前约30种基因。

多种基因可以包含选自下组的约30、或约20、或约10种基因或由其组成：表2a的前约20种基因和表2b的前约20种基因。多种基因可以包含选自下组的约10、或约15或约20种基因或由其组成：表 2a的前约10种基因和表2b的前约10种基因。

本发明的方法优选还包括确定ER+或ER-状态的预分类步骤。ER 状态可以通过免疫组化(例如使用ER抗体)或通过使用适于评估基因表达谱的概率/统计模型来确定。

为了区别高和低置信度肿瘤，发明人还进行了进一步分析并鉴定了其它多基因分类物。这些分析的目的是鉴定可用于不管它们的ER 状态而对“高”和“低置信度”肿瘤进行分类的最佳基因组(set)。使用了一系列三种独立的分析方法(微阵列的显著性分析、基因分级、和Wilcoxon检验)来鉴定在两个组(LC和HC)之间差异表达的基因。分析的结果就是表A1、A2、A3和A4中显示的其它多基因分类物。

在表A1中，是可用于区别高和低置信度肿瘤的88种基因。表A1 的基因是使用SAM(微阵列的显著性分析)鉴定的。其中，86种基因在低置信度肿瘤中上调，而2种基因在高置信度肿瘤中上调。

在表A2中，是可用于区别高和低置信度肿瘤的251种基因。表 A2的基因是使用GR(基因分级)通过SVM鉴定的。

在表A3中，是可用于区别高和低置信度肿瘤的38种基因。表A3 的基因是使用WT(Wilcoxon检验)鉴定的，P值＜0.05且变化截止值 ≥2倍。

在表A4中，是13种共有基因(即表A1、A2、A3中都有的基因)。这13种“共有基因”是强有力的显著标志物，而且能够像其它“完整” 标志物组一样获得相当的有差别的表现。

因此，在第七个方面，本发明提供了针对乳瘤样品生成核酸表达谱的方法，包括步骤：(a)由所述乳瘤样品分离表达产物；(b)鉴定来自表A4和/或表A1和/或表A2和/或表A3的多种基因的表达水平；并 (c)由表达水平生成表达谱。

乳瘤样品可以是任何类型的乳瘤，正如本发明第一个方面所述。

在第八个方面，本发明提供了包含高置信度和/或低置信度乳房样品的多种基因表达谱的表达谱数据库，其中每个表达谱衍生自表A4 和/或表A1和/或表A2和/或表A3的多种基因，且其中数据库以可获取的方式保存在数据载体上。优选的是，构成数据库的表达谱是通过第七个方面的方法生成的。

在第九个方面，本发明提供了用于将乳瘤样品分为低置信度或高置信度的方法，该方法包括提供所述样品的表达谱，其中该表达谱包含来自表A4和/或表A1和/或表A2和/或表A3的多种基因的表达水平，且根据表达谱将肿瘤分为高或低置信度肿瘤。

本发明第九个方面的方法可以包括步骤：(a)由取自患者的乳瘤样品获得表达产物；(b)通过将所述表达产物接触结合成员来测定表A4 和/或表A1和/或表A2和/或表A3中所示的多种基因的表达水平，每个结合成员能够与所述多种基因的表达产物特异结合；并(c)根据表达水平确定所述患者中是否存在低置信度乳瘤。

步骤(c)可包括将表达水平与低和/或高置信度肿瘤的特征谱进行比较。低置信度肿瘤可能是ER+或ER-。步骤(c)可包括使用统计技术，诸如加权表决和/或支持矢量系统(SVM)。

所述多种基因优选包含表A4的基本上所有基因或基本上由其组成。可包含表A1、A2和A3中每一个的其它基因，尽管是独立的，该多种基因可来自表A1、A2和A3中的任何一个或多个。该多种基因并非必需包含表A4的基因。

因此，本发明的第一个、第二个和第三个方面加以必要改动后可适用表A1、A2和A3中的每一个，即在本发明的每个方面，所述多种基因可以来自表A1和表A2和表A3中的任何一个或多个。本发明第一个、第二个和第三个方面的实施方案和优选/任选特征加以必要改动后可适用表A1、A2、A3和A4。

所述多种基因可包括表A1的至少10、20、30、40、50、60、70、 80种或所有基因。

所述多种基因可以是表A1的所用或基本上所有“在低置信度中上调的”和/或“在高置信度中上调的基因”。该多种基因可包含约80、或约70、或约60、或约50、或约40、或约30、或约20、或约10或约5种表A1中“在低置信度中上调的”基因或由其组成。多种基因可包含表A1中“在高置信度中上调的”基因中的任一种或二者。

来自表A1的基因优选选自“在低置信度中上调的”组基因的上部。上部优选表的上半部，因为所述基因是根据显著性排序的。在高置信度和低置信度肿瘤之间显示最大差异表达的基因出现在表A1的上部，而表达差异较小的基因出现在下部。

所述多种基因可包含不超过80、或70、或60、或50、或40、或 30、或20、或10或5种表A1的基因。

所述多种基因可包含5-70种表A1的基因或基本上由其组成。所述多种基因可包含10-60种表A1的基因或基本上由其组成。所述多种基因可包含10-50种、或10-40种、或10-30种表A1的基因或基本上由其组成。

所述多种基因(可是约10-15种基因)可选自表A1的前约40、或约30、或约20种基因。优选的是，该多种基因包含表A1前约30 种基因的约10-20种基因。

所述多种基因可包含表A2的至少10、20、30、40、50、60、70、 80、90、100、110、120、130、140、150种或所有基因。

所述多种基因可包含不超过250、或240、或230、或220、或210、或200、或190、或180、或170、或160、或150、或140、或130、或120、或110、或100、或90、或80、或70、或60、或50、或40、或30、或20、或10或5种表A2的基因。

所述多种基因可包含5-200种表A2的基因或基本上由其组成。所述多种基因可包含10-150种表A2的基因或基本上由其组成。所述多种基因可包含10-100种、或10-70种或10-50种表A2的基因或基本上由其组成。

所述多种基因(可是约10-15种基因)可选自表A2的前约50、或约40、或约30、或约20种基因。优选的是，所述多种基因包含表 A2前约30种基因的约10-20种基因。

所述多种基因可包含表A3的至少10、20、30、35种或所有基因。

所述多种基因可包含不超过35、或30、或20、或10或5种表A3 的基因。

所述多种基因可包含5-35种表A3的基因或基本上由其组成。所述多种基因可包含10-30种表A3的基因或基本上由其组成。所述多种基因可包含10-20种或20-30种表A3的基因或基本上由其组成。

所述多种基因(可以是约10-15种基因)可选自表A3的前30或约20种基因。优选的是，该多种基因包含表A3前约30种基因中的约 10-20种基因。

所述多种基因可包括表A4的至少5、10、15种或所有基因。

所述多种基因可包括不超过10、或8、或6、或5种表A4的基因。

所述多种基因可包含5-13种表A4的基因或基本上由其组成。所述多种基因可包含10-13种表A4的基因或基本上由其组成。

在所述多种基因的内容中，术语“约”意味着所述基因数目加上或减去如下二者中的较大者：所述基因数目的10％或一种基因。

如上，表达产物可以是转录的核酸序列或表达的多肽。该转录的核酸序列可以是RNA或mRNA。表达产物还可以是由所述mRNA生成的 cDNA。表达产物可以是cRNA。

所述的结合成员可以是能够在合适杂交条件下与所述转录的核酸特异结合的互补核酸序列。通常使用cDNA或寡核苷酸序列。

当表达产物是表达的蛋白质时，所述结合成员优选是对所述表达的多肽特异的抗体或包含抗体结合结构域的分子。

可以出于检测目的而使用本领域已知标准流程对所述结合成员进行标记。或者，可以在由测试样品中分离出表达产物后进行标记。优选的检测手段是使用能够通过光度表进行检测的荧光标记物。其它检测手段包括电信号。例如，Motorola的e 传感器系统具有两个探针，一个是自由漂浮的“捕捉探针”，另一个是附着在固体表面上的“信号探针”，所述固体表面同时作为电极表面。两个探针都作为表达产物的结合成员而发挥功能。当发生结合时，两个探针彼此靠拢，产生可以检测的电信号。

如上所述，所述结合成员可以是用于在PCR(例如多重PCR)中特异扩增基因鉴别物的表达产物的寡核苷酸引物。然后可以在凝胶上分析所述产物。然而，优选的是，所述结合成员是固定在固体支持物上的单一核酸探针或抗体。然后可以让表达产物经过固体支持物，使得它们与结合成员接触。所述固体支持物可以是玻璃表面，例如显微镜载玻片；珠(Lynx)；或光纤。在珠的情况中，可以将每种结合成员固定在各个珠上，然后让它们在溶液中接触所述表达产物。

本领域存在多种方法可用于确定特定的基因组(set)的表达谱，这些方法都可应用于本发明。例如，基于珠的方法(Lynx)或分子条形码(Surromed)就是已知的技术。在这些情况中，将每种结合成员附着在单个可读且自由漂浮的珠或“条形码”上，以便于与表达产物的接触。所述结合成员与表达产物(靶)的结合是在溶液中完成的，然后让打上标签的珠或条形码经过某种装置(例如流式细胞仪)并读数。

确定表达谱的另一种已知方法是由Illumina开发的仪器，即光纤。在这种情况中，将每种结合成员附着在光纤缆末端的特定“地址” 上。表达产物与结合成员的结合可以诱导荧光变化，它可以通过光纤缆另一端的装置读出。

本发明人成功的使用了包含固定在固体支持物上的多种核酸序列的核酸微阵列。通过让代表所表达基因的核酸序列(例如cDNA)经过微阵列，它们能够产生来自肿瘤样品的表达产物和衍生自乳房组织的正常细胞的特征性结合谱。

本发明还提供了用于将乳瘤样品分类的装置(优选微阵列)，包括附着在固体支持物上的多种结合成员，优选核酸序列，每种结合成员能够与来自多基因分类物中任何一组或多组的基因的表达产物特异结合：表S4、表2、表A1、表A2、表A3、和表A4。优选的是，该装置包含能够与多种基因的表达产物结合的结合成员或基本上由其组成，正如先前关于所述多基因分类物中每一个的定义(见上文)。该装置可以包含能够与来自每一个多基因分类物的多种基因或来自一个或多个多基因分类物的多种基因的表达产物结合的结合成员或基本上由其组成。

该装置可包含能够与所述多基因分类物或其子集的至少5种基因、更优选至少10种基因或至少15种基因的表达产物特异结合的结合成员。所述多基因分类物的子集可以是例如表2中的ER+/低对ER+/ 高基因或表S4(a)中在ER+/低中上调组的基因。在一个最优选的实施方案中，所述固体支持物将容纳能够与表A4中所示的所有基因的表达产物特异且独立结合的结合成员。

该装置优选包含能够与多基因分类物的表达产物或其多种基因特异结合的结合成员，而且可包含能够与U133A微阵列上不超过14396 种基因的表达产物特异结合的结合成员。该装置可包含能够与U133A 微阵列上不超过90％的基因的表达产物特异结合的结合成员。该装置可包含能够与U133A微阵列上不超过80％、或70％、或50％、或40 ％、或30％、或20％、或10％、或5％的基因的表达产物特异结合的结合成员。

另外/或者，固体支持物可容纳不超过14000种、不超过10000 种、不超过5000种、不超过3000种、不超过1000种、不超过500 种、或不超过400种、或不超过300种、或不超过200种、或不超过 100种、或不超过90种、或不超过80种、或不超过70种、或不超过 60种、或不超过50种、或不超过40种、或不超过30种、或不超过 20种、或不超过10种、或不超过5种不同基因的结合成员。

通常，将高密度核酸序列(通常是cDNA或寡核苷酸)固定在固体支持物上很小的离散区域或点上。该固体支持物常常是用某种基质包被的显微镜载玻片或滤膜(或芯片)。通常通过机器自动化系统将核酸序列投递(或印制)到经过包被的固体支持物上，然后固定在支持物上。

在一个优选的实施方案中，将由样品衍生的表达产物进行标记，通常使用荧光标记物，然后与固定的核酸序列接触。杂交后，使用检测仪检测荧光标记物，诸如高清晰度激光扫描仪。在另一种方法中，可以用非荧光标记物给表达产物打上标签，例如生物素。杂交后，用与第一种非荧光标记物结合/键合的荧光染料给微阵列“染色”(例如荧光标记的与生物素结合的链霉亲和素)。

通过用数字成像软件分析每个离散点发出的信号得到指示基因表达模式的结合谱(表达模式或谱)。然后，可以将实验样品的基因表达模式与对照(即高置信度或低置信度样品的表达谱)进行比较从而进行差异分析。

如上所述，对照或标准可以是先前判定为正常或恶性细胞的典型的一个或多个表达谱。所述一个或多个表达谱可以以可获取的方式保存在数据载体上，作为数据库的一部分。这在上文中已有讨论。然而，还有可能的是，在检验流程中导入一个对照。换言之，测试样品中可以“掺入”一个或多个“人工肿瘤”或“人工正常”表达产物，担当与测试样品的基因鉴别物表达水平进行比较时的对照。

大多数微阵利用一种或两种荧光团。对于双色阵列，最常用的荧光团是Cy3(绿色通道激发)和Cy5(红色通道激发)。微阵列图像分析的目的是由每种表达产物提取杂交信号。对于单色阵列，对指定的靶(基本上是与单一样品杂交的阵列)测量绝对强度作为信号。对于双色阵列，测量具有不同荧光标记物的两份表达产物(例如样品和对照，对照在其它方面也称为参照)的比率作为信号。

依照本发明的装置(例如微阵列)优选包含多个离散点，每个点含有一种或多种寡核苷酸且每个点代表选自所述多基因分类物的基因的表达产物的不同结合成员。在一个实施方案中，所述微阵列将包含一个或多个多基因分类物中每个基因的点。每个点将包含多个相同寡核苷酸，每个都能够与它所代表的表S4基因的表达产物(例如mRNA 或cDNA)结合。

在本发明的还有一个方面，提供了用于将乳瘤样品分类为高置信度或低置信度的试剂盒，所述试剂盒包含结合成员和检测试剂，每种结合成员能够与所述多基因分类物中所示的多种基因的表达产物特异结合。

多基因分类物的基因以它们的Unigene编号列出(对应于Unigene 的build 160)。由此可以由Unigene数据库获取每种基因的序列。另外，为了确认这些基因，Affymetrix(www.affymetrix.com)提供了探针组的实例，包括探针的序列(即寡核苷酸序列形式的结合成员)，它们在固体支持物上使用时能够检测基因的表达。探针的详情可以由 Affymetrix网站的U133部分使用靶基因的Unigene ID获取。

如果在未来，表中所列的一个Unigene ID以新ID出现、或分裂成两个或多个ID(例如在数据库的新build中)、或完全删除，那么本发明人预期的基因序列可以通过访问Unigene的build 160来获取。

优选的是，将试剂盒中的一种或多种结合成员(抗体结合结构域或核酸序列，例如寡核苷酸)固定到一个或多个固体支持物上，例如微阵列或光纤测定法的单一支持物或诸如珠等多个支持物。检测手段优选用于标记测试样品表达产物的标记物(放射性或染料，例如荧光)。试剂盒还可以包含用于检测和分析所测试表达产物的结合谱的手段。

或者，结合成员可以是能够在PCR中与表达产物结合从而能够扩增它们的核苷酸引物。该引物可以还包含检测手段，即可用于鉴定扩增序列及其相对于其它扩增序列的丰度的标记物。

所述试剂盒还可包含以可获取方式保存在数据载体上用于与测试样品的表达谱进行比较的一个或多个标准表达谱。该一个或多个表达谱可以是依照本发明的第一个方面生成的。

乳房组织样品可以切除的乳房活检物或细针吸取物来获得。

再次，表达产物优选mRNA或由其生成的cDNA，或cRNA。结合成员优选固定在一种或多种微阵列或珠形式的固体支持物上的寡核苷酸 (见上文)。结合谱优选通过能够检测用于标记表达产物的标记物的检测仪来分析。可以通过将样品的结合谱与对照的结合谱(例如标准表达谱)进行比较来做出是否存在或有风险患上乳癌的判定。

在所有上述方面中，优选使用能够特异结合(且在核酸引物的情况中扩增)所述多基因分类物的表达产物的结合成员。这是因为所有基因的表达水平构成测试样品特异的表达谱。测试的基因表达水平的数目越多，表达谱的分类越可靠。由此，优选评估选自一个或多个多基因分类物的超过5种基因的表达水平、更优选超过10种、超过20 种、超过30种、甚至更优选超过40种、且优选所述多基因分类物的所有基因。例如，结合成员可能能够与表S4所有基因或其多种基因的表达产物结合，正如先前定义的。

已知的微阵列和基因芯片技术容许利用大量的结合成员。因此，更优选的方法将是使用代表所述多基因分类物所有基因或其多种基因的结合成员，正如先前关于每一个所述多基因分类物的定义。然而，技术人员将领会，可省略这些基因中的一定比例，而仍然以可靠且统计上精确的方式执行该方法。在大多数情况中，将优选使用代表所述多基因分类物至少70％、80％、或90％基因的结合成员。在本文中，多基因分类物优选指表S4的基因或其子集或组。多基因分类物可是表 A4的基因。

因此，如上所述，多种可能指多基因分类物的至少50％、更优选至少70％、甚至更优选至少90％。

提供了基因鉴别物就容许定制诊断工具(例如核酸微阵列)并用于肿瘤的预测、诊断和分型。另外，这些诊断工具可联合计算机，将其编程来确定使用该诊断工具(例如微阵列)得到的表达谱并将它与高置信度肿瘤对低置信度肿瘤的特征性“标准”表达谱进行比较。在此过程中，计算机不仅为用户提供了可用于将患者的肿瘤分类的信息，同时计算机还获得了另一个表达谱，由此确定“标准”表达谱，从而能够更新其自身数据库。

由此，本发明首次制作了包含与所述多基因分类物或其多种基因对应的探针的专用芯片(微阵列)。该阵列的实际物理结构可能在附着在二维固体基质上的寡核苷酸探针至自由漂浮的用独特标记物(例如“条形码”)分别“打上标签”的探针的范围内变化。

可生成与各种生物学分类(例如高置信度或低置信度ER+/ER-)对应的数据库，它们将由使用专用微阵列测定的各种乳房组织的表达谱组成。然后可以加工和分析该数据库，使之最终包含(i)与数据库中每个表达谱对应的数值数据；(ii)作为特定分类的规范谱发挥功能的“标准”谱；和(iii)代表各个谱相对于“标准”谱的观测统计变差的数据。

在一个实施方案中，为了评估患者的样品，首先分离该患者的乳房样品(通过切除的活检物或细针吸取物获得)的表达产物，并使用专用微阵列测定该样品的表达谱。为了将患者的样品分类，对上文所述数据库询问患者样品的表达谱。询问可以以直接或间接方式进行。 “直接”方式指将患者的表达谱与数据库中的其它各个表达谱直接进行比较，以确定哪个谱(及由此哪个分类)给出最佳匹配。或者，可以更“间接”的进行询问，例如，可以将患者的表达谱仅仅与数据库中的“标准”谱进行比较。间接法的优势在于“标准”谱(因为它们代表了许多个别谱的集合)的数据强度低得多，而且可以保存在较为便宜的计算机系统上，而它可能构成依照本发明的试剂盒的一部分(即与微阵列相关)。在直接法中，有可能的是数据载体的规模将大得多 (例如计算机服务器)，因为将要保存很多个别谱。

通过将患者的表达谱与标准谱(间接法)和预先测定的群体统计变差进行比较，还将可能给出“置信度数值”，即患者的表达谱与高或低置信度肿瘤的“标准”规范谱是多么匹配。该数值将为临床医师提供关于分类可信度和例如是否应当重复分析的有价值信息。

如上所述还可能将患者的表达谱保存在数据库中，而且它们可在任何时间用于更新数据库。

下面将参照附图通过实施例说明本发明的各个方面和实施方案。其它方面和实施方案对于本领域技术人员将是显而易见的。将本文中提到的所有文件收入本文作为参考。

附图简述

图1：具有低预测强度(“低置信度”)的肿瘤的鉴定。

将练习(training)组(a)和测试组(b)中的每份样品(x轴)对样品的预测强度(PS，y轴)作图。练习数据集由55个肿瘤组成，而测试数据集由41个肿瘤组成。将展示高正数PS值的样品归入ER+，而将展示高负数PS值的样品归于ER-。蓝色样品指得到了正确的分类，而红色样品指得到了错误的分类。通常会在练习和测试肿瘤中都观察到一些“低置信度”样品(灰框)。

图2：比较“高”和“低置信度”肿瘤临床表现的Kaplan-Meier 分析。

(a)和(b)中的总体存活数据是由Stanford数据集(9)获得的，而 (c)和(d)中的远程转移时间数据是由Rosetta数据集(10)获得的。具有“高置信度”肿瘤的患者以绿色表示，而具有“低置信度”肿瘤的患者以粉色表示。a)具有“高”(60名患者)和“低置信度”(14 名患者)肿瘤的患者的总体存活，不管ER状态；b)具有ER+“高”(48 名)和“低置信度”(7名)肿瘤的患者的总体存活；c)在具有“高” (82名)和“低置信度”(15名)肿瘤的患者中由最初诊断出肿瘤至出现远程转移的时间，不管ER状态；d)在具有ER+“高”(63名)和 “低置信度”(5)肿瘤的患者中由最初诊断出肿瘤至出现远程转移的时间。

图3：低对高置信度样品中ER相关基因的广泛扰动(widespread perturbation)。

(a)和(b)描绘的是前122种与ER+状态正相关的ER区别基因(由 SAM-133基因组(set)获得，见正文)在(a)ER+/高(黄色)和ER+/低 (青绿色)以及(b)ER-/高(深蓝色)和ER-/低(粉色)样品中的相对表达水平。122种基因沿着x轴的顺序是由它们的S2N比率决定的 (见材料和方法)。特定基因的S2N度量既要考虑两种类型之间平均表达水平的差异，还要考虑在进行比较的每个类型内的该基因表达的标准偏差。注意，这122种基因在(a)和(b)中的具体顺序是不同的，这取决于它们的S2N比率(表2)。(c)和(d)描绘的是与ER+状态负相关的前54种ER区别基因(其中11种属于SAM-133基因组(set)，见详情的补充信息)在(c)ER/高(黄色)和ER+/低(青绿色)以及(d)ER-/ 高(深蓝色)和ER-/低(粉色)样品中的相对表达水平。它们的扰动要比在(a)和(b)中观察到的低得多。

图4：ERBB2+与在多个乳癌表达数据集间的“低置信度”预测有关。数据来自参考文献3。a)表达高水平的ERBB2和与17q ERBB2染色体基因座物理连锁的其它基因(MLN64，GRB7)(行)的肿瘤样品(列) 的鉴定。高表达以红色正方形表示。肿瘤样品5141、8443、7636、4527、 5955、10444、5985、6936展示高表达的ERBB2和ERBB2连锁基因，而6080和10188展示升高但较弱的表达。b)ER分类的ANN模型的概述(由参考文献3中的图1b 修改而成)。分类为ER+的肿瘤样品以蓝色显示，而ER-肿瘤以橙色显示。预测置信度由每个样品的标准偏差 (SD)表示，其中“低置信度”样品具有高SD。描述了八份“高度表达”ERBB2阳性(+ve)样品(ERBB2位于样品SD的左侧或右侧)。注意，具有高SD的肿瘤样品倾向于ERBB2阳性(+ve)。

图5：主成分分析(PCA)，即将复杂的数据集投射(projection) 到简化的、易于显现的空间上的一种数学方法，为关于根据SAM-133 基因组(set)是如何清楚的区别样品的问题提供了有用的形象评估方法。ER+和ER-肿瘤彼此区别明显，而ERBB2+样品位于中间部。彩色编码方案：ER+ERBB2-，黄色；ER+ERBB2-，青绿色；ER-ERBB2+，蓝色；和ER-ERBB2+，粉色。彩色编码方案：ER+ERBB2-，黄色；ER+ERBB2+，青绿色；ER-ERBB2-，蓝色；和ER-ERBB2+，粉色。X轴是主成分1，而Y轴是成分2。位于红线左侧的样品是ER+样品，除了两个ER-样品；而位于右侧的样品是ER-样品，除了一个错误分类。接近边界的样品 (正方形中的)都是ERBB2+。

图6显示了具有“高置信度”ER阴性肿瘤的患者与携带“低置信度”ER阴性肿瘤的患者的临床预后。分析了两个独立的数据集，称为 “Rosetta”和“Stanford”数据集。图6(a)显示了Rosetta肿瘤：测量了无复发存活。11/19(58％)的高置信度患者在5年内形成远程转移；而在低置信度ER-中，这个数值是8/10(80％)。图6(b)显示了Stanford肿瘤：测量了总体存活。7/12(58％)的高置信度患者死亡；而在低置信度ER-中，这个数值是5/7(71％)。

图7显示了Stanford和Rosetta数据集中具有低预测强度(“低置信度”)的肿瘤的鉴定。

结果

使用中国患者的表达谱通过ER状态进行的乳瘤分类揭示了“低置信度”样品的独特群体

乳癌在高加索和亚洲人群中的总体发病模式是截然不同的(8)，这促使发明人去调查在他们的当地患者群中是否也能观察到先前报告 (3，4)中的发现。他们首先使用基因表达谱数据根据它们的ER状态对一组乳瘤进行分类。选择了一组55个乳瘤的练习组，其中通过IHC 预先测定了每个肿瘤的ER状态。测试了两种分类方法：加权表决(WV) 和支持矢量系统(SVM)，并通过排除一项交叉验证(LOOCV)(补充信息)评估了分类的精确度。除了将样品分类，还通过定量度量提供了对分类不确定性的评估(材料和方法)。练习组的总体分类精确度是95％(WV)和96％(SVM)，其中七份样品鉴定为“低置信度”或边缘预测(灰框，图1a)。为了确定是否能够在一组独立的肿瘤中也观察到这种低置信度样品，使用第二组41个肿瘤作为独立的测试组。虽然独立测试组的总体分类精确度是91％(WV和SVM)，但是九份样品再次展示“低置信度”预测(图1b)。由此，使用两种不同的分类方法(WV和SVM)，发现某些乳瘤在根据它们的基因表达谱根据ER 状态进行分类时展示独特的“低置信度”特征。

与具有“高置信度”肿瘤的患者相比，具有“低置信度”肿瘤的患者展示总体存活降低且远程转移时间缩短

因为将肿瘤区分成“高”和“低置信度”亚群是通过肿瘤基因表达谱的纯粹计算分析而完成的，所以不清楚这种区别是否具有生物学或临床意义，以及以这种方式使用基因表达谱是否在确定乳瘤的ER 状态方面提供优于常规免疫组化技术的任何实质性优势。为了解决这个问题，发明人调查了“低置信度”肿瘤是否可能展示与它们的“高置信度”对应物截然不同的任何临床表现。他们使用了两个公开的乳癌表达数据集，由此可以获得相关但不同类型的临床信息。第一个数据集(9)由78个乳癌和7个非恶性样品的cDNA微阵列数据集以及总体患者存活信息组成(称为Stanford数据集)。第二个数据集(10)由使用基于寡核苷酸的微阵列描述的71个ER+和46个ER淋巴结阴性肿瘤的谱组成，其中97份样品具有这样的临床信息，即由最初诊断出肿瘤至出现新的远程转移的时间(称为Rosetta数据集)。发明人使用WV 将Stanford和Rosetta数据集中的乳瘤根据它们的ER亚型进行分类。与他们自己的数据集一致的是，在Stanford数据集的56个ER+和18 个ER肿瘤中(由于缺乏ER状态信息除去了4个肿瘤)，他们观察到 93％的总体LOOCV精确度，且14个肿瘤分为“低置信度”。类似的， WV分析也鉴定出Rosetta数据集中的15个肿瘤展示“低置信度”分类，且总体LOOCV精确度为92％。这些数值与在发明人自己的患者群中观察到的相当。

然后，他们使用Kaplan-Meier分析比较了该“高”和“低置信度” 肿瘤群的临床表现。如图2所示，与它们的“高置信度”对应物相比，具有“低置信度”肿瘤的患者展示显著更差的总体存活(p＝0.0003，对数排序检验(log rank test))更短时间的远程转移(p＝0.0001，对数-排序检验)。这一结果指示“高”对“低置信度”二元区别确实富有临床意义。然后发明人重复了这种分析，但是首先将肿瘤细分成独立的ER+和ER-类型。对于ER+肿瘤，他们再次发现，与“高置信度” ER+肿瘤相比，“低置信度”ER+肿瘤与显著更差的总体存活(p＝0.03，对数-排序检验)和较短时间的转移(p＝0.004，对数-排序检验)有关 (图2)。对于ER-肿瘤没有在总体存活和转移时间中观察到统计学显著差异。这些结果指示ER+肿瘤可以根据“高”和“低置信度”二元分类法细分成截然不同的展示不同临床表现的疾病组。因为目前不可能通过用于ER检测的常规免疫组化方法来区别这两个组，这一结果还显示了基因表达谱数据如何有助于用于乳癌预后和分级(staging)的常规策略。

“低置信度”肿瘤在对区别ER亚型重要的基因的表达中展示广泛扰动

这些和其它研究中所使用的分类算法(例如WV、SVM、ANN，见下文)都依赖多种区别基因的组合输入，然后将它们各自贡献组合起来做出具体的分类决定(即肿瘤是ER+或ER-)。在形式上有可能的是，这些乳瘤的“低置信度”预测状态是由于少数关键区别元素的显著反常(即特异作用)，或是由于大量区别基因的更微妙扰动(即广泛作用)。为了区分这两种可能性，发明人比较了“高”和“低置信度” 肿瘤之间区别ER亚型的重要基因的表达水平。首先，为了鉴定在ER+ 和ER-肿瘤之间受到差异调节的ER区别基因，他们采用了称为微阵列显著性分析(SAM)(11)的一种统计方法。

采用他们的联合数据集(总数＝96个肿瘤)，以“假发现率”(FDR) 为0％鉴定出总共133种受到差异调控的基因(SAM-133)(FDR是SAM 用于评估假阳性数目的指数-对于100种基因而言，FDR为10％指示 10种基因有可能是假阳性)。在这个数据集中，122种基因在ER+样品中上调(即与ER状态正相关)，而其余11种基因在ER+肿瘤中下调(即与ER状态负相关)。正如预测的，SAM-133基因组(set)包含许多与ER途径有关的基因，诸如ESR1、LIV1(一种雌激素可诱导的基因)、和TFF1，并且多次鉴定出某些基因(例如GATA-3)。SAM-133 表中的许多基因还存在于其他人报告的类似表中(3，4)。

然后，发明人将ER+和ER-肿瘤各自细分成“高”和“低”置信度类型(即ER+/高、ER+/低、ER-/高、ER-/低)，并在各组之间比较了 SAM-133基因的表达水平(图3)。在SAM-133基因组(set)中与ER 状态正相关的122种基因中，大约62％在ER+/低样品中展示与ER+/ 高肿瘤相比显著更低的平均表达水平(称为“扰动表达”)(p＜0.05，图3a和表2)。具有“扰动”表达的基因包括ER、GATA3、BCL2、IGF1R、和RARA，而其它ER区别基因(诸如TFF1、TFF3、和XBP1)不受影响。类似的，在ER-“高”和“低”置信度样品中，发明人发现了一种相反的模式(reciprocal pattern)，其中122种基因的大约42％在ER-/ 低样品中展示与ER-/高肿瘤相比更高的平均表达水平(p＜0.05，图3b 和表2)。有趣的是，虽然某些基因(例如GATA3、BCL2)的表达水平在ER+和ER-两种亚型中在“低”和“高”置信度样品之间都发生扰动，但是其它基因的扰动似乎是亚型特异的。例如，ESR1和IGFR1只在ER+ 样品中发生扰动，而XBP1只在ER-样品中发生扰动。最后，与ER+状态负相关(即在ER-肿瘤中高度表达)的ER区别基因的表达水平变化很小(图3c和d)。这一结果说明在“低置信度”样品中观察到的表达扰动虽然是广泛的，但是主要是在其表达与ER正相关的基因中观察到的(补充信息)。

ERBB2原癌基因的表达升高与“低置信度”预测显著相关

在“低置信度”乳瘤中观察到的表达扰动可以归于多种原因，从实验变差(例如样品品质、肿瘤切除、和操作差)、分类方法的选择、至人群和样品异质性。为了洞察隐藏在这些表达扰动下的可能机制，发明人试图确定是否存在可能与“低置信度”状态有关的任何特异组织病理学参数。在肿瘤的“低置信度”状态与患者年龄、淋巴结状态、肿瘤分级、p53突变状态或孕酮受体状态之间没有观察到显著关联(表 1)。然而，发明人在肿瘤ERBB2状态与“低置信度”预测之间发现了显著正相关(p＜0.001，补充信息)。然后，对使用练习数据集观察到的这种关联又使用独立的测试样品集进行评估。在独立的测试集中的九份“低置信度”样品中，八个肿瘤也是ERBB2+(8/9)，指示这种关联不是数据集特异的。

发明人还调查了是否能够通过比较“高”和“低”置信度肿瘤的整体表达谱来独立发现“低置信度”预测与高ERBB2表达之间的关联。首先，他们比较了属于ER+亚型的“高置信度”和“低置信度”肿瘤。总共89种基因鉴定为受到显著调控(FDR＝14％)。在ER+“低置信度” 样品中上调最显著的前50种基因中，特别关注3种基因，即PMNT(排序第4位)、GRB7V(排序第8位)、和ERBB2(排序第36位)(补充信息)，因为它们都在物理上位于17q区，这是乳癌中DNA扩增的通常目标(12)。还在一项分开的分析中比较了ER-“高置信度”和 ER-“低置信度”样品。在鉴定为受到差异调控的前50种基因(FDR＝4 ％)中，发明人再次鉴定出17q基因PMNT(排序第5位)、GRB7V(第 10位)、和ERBB2(第28位)展示在“低置信度”样品中表达升高(补充信息)。总之，这些结果说明，对于ER+和ER-两种亚型，与“高置信度”肿瘤比较，“低置信度”乳瘤与ERBB2表达升高显著相关，最有可能是由于17q基因座的DNA扩增。然而，请注意，“低置信度” 预测与ERBB2+表达之间的关联虽然是高度显著的，但是并不是完美的，因为通过常规IHC判定为ERBB2+的少数肿瘤展示“高置信度”预测，并非所有的“低置信度”肿瘤都是ERBB2+的。一种可能是除了ERBB2 以外的其它基因可能也促使乳瘤展示“低置信度”状态。

为了验证他们的发现，发明人分析了其它独立衍生的乳癌表达数据集。首先，在Stanford数据集中的九个ERBB2+肿瘤中，所有九个都预测为属于“低置信度”组(p＜0.001，补充信息)。第二，在Rosetta 数据集中，他们再次发现了预测的置信度水平与ERBB2表达之间的显著关联(p＜0.001，补充信息)。第三，Gruvberger和他的同事采用人工神经网络(ANN)对28个ER+和30个ER-样品的cDNA微阵列数据集预测乳瘤的ER状态(3)。他们的结果显示于图4b，描绘了使用ER 亚型的前100种区别基因评估的ANN模型的输出以及样品标准偏差 (SD)。具有宽SD的样品与WV和SVM方法学的“低置信度”状态类似。由图4b可以看出，ERBB2+样品(在图4a中测定的)趋于与指示高不确定性的大SD相关，特别是ER+肿瘤。总之，在源自不同实验室的广泛数据集中观察到ER预测的置信度水平与ERBB2状态之间的关联，这些数据集采用不同的微阵列技术(Affymetrix，eDNA和寡核苷酸)，对不同的患者群(亚洲、欧洲/高加索)进行测定，并通过不同的分类算法(WV、SVM、ANN)进行预测。这些结果在发明人的数据集和公开的数据集中的共性说明高ERBB2表达与“低置信度”预测状态之间的关联可能是乳癌的普遍内在特点。

在低置信度样品中扰动的显著比例的基因尚未知道受雌激素调控且在它们的启动子中缺少潜在的ERE

在“低置信度”肿瘤中观察到的高ERBB2水平和ER-亚型区别基因的广泛扰动之间的强关联提出了这样的可能性，即ERBB2可能在功能上有助于这种现象。这能够发生的一种可能的机制是通过ERBB2信号途径，已经有人提出它抑制ER的转录活性(见讨论)。在这种设想下，可能预期“高置信度”(ERBB2-)和“低置信度”(ERBB2+)肿瘤之间扰动的显著比例的基因将由受ER调控的基因组成。发明人以两种方法检验了这种假说。首先，他们将他们的显著扰动基因表(表2) 与衍生自经雌激素(E2)刺激的MCF-7细胞的SAGE表达数据(13)进行了比较，以确定二者之间的交叠程度。在SAGE数据和“扰动”基因表之间只找到了两种共有的基因(STC2、TFF1)，而且其中之一(TFF1) 以与预期相反的方式受到调控，即在ERBB2+样品中展示更高表达。这一结果(在细胞系测定法的限度内)说明“低置信度”肿瘤中的许多 “扰动”基因可能不是直接受雌激素调控的。第二，因为体外细胞系研究可能不能完全重现雌激素在体内的作用，所以发明人采用了一种生物信息学方法，使用最近描述的算法Dragon雌激素响应元件探测器 (DEREF)在扰动基因的启动子区域中搜索假定的雌激素响应元件 (ERE)(14)。DEREF的预测精确度已经在许多体内实施例中得到了验证-它在微阵列实验中在雌激素响应性基因的启动子区域中检测出 ERE模式的频率比不响应性基因高2.8倍，而且在属于雌激素诱导的 SAGE数据集的基因的启动子中检测出ERE模式的频率比在乳癌中的表达与ER负相关的基因高5.4倍(补充信息)。在ER+肿瘤的前50种扰动基因(表2)中，35种可以精确确定转录起始位点，因而随后通过DEREF进行分析。在这35种中，只在12个启动子中以高置信度检测到ERE(总频率34％)(表2)。

相反，在ER-肿瘤的前50种扰动基因中，33种通过DEREF进行了分析，而且只在3种中检测到高置信度ERE(总频率9％)(表2)。由此，在ER+肿瘤扰动基因的启动子中检测到ERE的频率比ER-肿瘤高 3.7倍。这种差异根据卡方分析(chi-square analysis)是显著的 (p＝0.012)，说明ERBB2可能经由不同机制影响ER+和ER肿瘤中的转录(见讨论)。无论如何，ERE在两种亚型(ER+和ER-)的扰动基因中都没有检测出过度体现，说明这些基因可能不是ER的直接转录靶。这些基因可能代表了ER的间接靶，或者可能经由ER不依赖性机制调控转录。

用于不管ER型将低和高置信度肿瘤分类的最佳基因组(gene set) 的定义

这项分析的目的是鉴定在不管它们的ER状态的前提下可用于将 “高”和“低置信度”肿瘤分类的基因的最佳组。

详情

分析了总共96个肿瘤，其中16个是LC，80个是HC。使用一系列三种独立分析方法(SAM、GR、和WT，见下文)来鉴定在两个组之间(LC和HC)受到不同调控的基因。通过排除一项交叉验证检验法使用支持矢量系统或加权表决作为分类算法评估了这些基因组别用于将肿瘤HC或LC状态分类的能力。

结果

SAM(微阵列显著性分析)：在FDR(假发现率)＜15％时，在低置信度肿瘤中鉴定出总共86种上调基因和2种下调基因。使用这个基因组(gene set)，LOOCV检验法得到了84％的分类精确度。表A1显示了这88种基因。

GR(由SVM进行的基因排序)：鉴定出总共251种基因具有将肿瘤HC或LC状态分类的能力，且分类精确度为86％。表A2显示了这 251种基因。

WT(Wilcoxon检验)：在P值＜0.05且变化截止值≥2倍时，鉴定出总共38种基因。这38种基因组(set)给出的LOOCV精确度是80％。表A3显示了这38种基因。

然后鉴定出上述三个基因组别(SAM-88、GR-251、WT-38)的13 种“共有”基因。这13个成员基因通过LOOCV实现的分类精确度是 84％。本质上，这13种“共有基因”是强有力的显著标志物，而且能够像其它“完整”标志物组一样获得相当的性能。因此，它们可以作为“最佳”基因。表A4显示了这13种基因。

ER阴性“高置信度”与“低置信度”肿瘤的临床结果

这项分析的目的是比较具有“高置信度”ER阴性肿瘤的患者与携带“低置信度”ER阴性肿瘤的患者的临床预后

详情

分析了两个独立的数据集，称为“Rosetta”和“Stanford”数据集。Rosetta数据集包含29个阴性肿瘤，其中19个是“高置信度”， 10个是“低置信度”。Stanford数据集包含19个ER阴性肿瘤，其中 12个是“高置信度”，7个是“低置信度”。分析结果显示于图6(a) 和6(b)。

在两种情况中，具有“低置信度”肿瘤的患者展示比它们的高置信度对应物更差的预后。虽然这种差异不是统计学显著的，但是这可能是由于这些研究中分析的患者数目较少。

讨论

这份报告中的发现补充并扩充了与根据ER亚型将乳瘤分类有关的这一领域先前的工作。一般而言，这些研究显示了，虽然基因表达数据可以成功的用于将大多数肿瘤的ER亚型分类，但是总是存在展示低置信度预测因而不能准确分类的某一群肿瘤(3，4)。发明人决定通过对这些“低置信度”肿瘤进行深入分析来研究这些“低置信度”样品。他们得到了许多令人惊讶的发现。他们发现与具有“高置信度”肿瘤的患者相比，具有“低置信度”肿瘤的患者展示显著更差的总体存活和更短时间的远程转移。通过对基因表达谱进行计算分析得出的“高” 对“低置信度”分类还可用于将ER+肿瘤分成展示不同临床表现的组 (图2)。因为目前不可能使用常规免疫组织病理学技术区别这些亚群，所以这些结果还显示了通过表达谱和计算分析对乳瘤ER状态的分类是如何在医学上极其有用的。

发明人还令人惊讶的发现，“低置信度”状态与ERBB2受体表达升高显著相关。然而，他们强调ERBB2与“低置信度”预测之间的联系仍然是一种联想，而且在这点上他们没有证据(来自他们自己的数据)来证明ERBB2在功能上导致引起“低置信度”状态。无论如何，考虑到ER和ERBB2是目前在临床上在乳癌中最有关联的两种分子生物标志物，令人感兴趣的是推测这些结果说明在乳癌中这两种信号途径之间可能存在实质性串扰(cross-talk)，其他人也提出了这种可能性(7)。有趣的是，ERBB2+与“低置信度”预测之间的关联虽然是高度显著的，但是并不是完美的，因为在并非所有的“低置信度”肿瘤都是ERBB2+的同时，也发现少数ERBB2+肿瘤展示“高置信度”预测。由此，不可能通过用于检测ERBB2的常规组织病理学技术(诸如IHC和 FISH)来鉴别“低置信度”乳瘤群。相反发明人相信，对于通过常规组织病理学判定为ERBB2+的肿瘤，对这些肿瘤进一步检查这些特征性 “表达扰动”的存在与否可能是一种有希望的方法，可用于区别有可能是在临床上更具攻击性的肿瘤与将沿着相对更为缓慢的过程发展的肿瘤。

探索这种可能性将是未来研究的一项重要任务。在临床上，早就将在ER+乳瘤中ERBB2表达升高与对抗激素疗法的敏感性降低联系起来，而且已经报告了许多实验论文，它们提出了ERBB2活性可能引起这种效果的可能机制。一般而言，在一种最流行的模型中，ERBB2信号的升高引起ER展示降低的转录活性，或是通过ER基因的转录下调 (17)、ER的翻译后修饰(例如磷酸化)(18)，或是通过ER结合共抑制物诸如MTA1的诱导(19)。如果ERBB2的作用主要是通过对ER转录活性的作用来介导的，那么可以预计其转录在ERBB2+“低置信度”样品中显著扰动的大量的基因应当对应于作为ER直接靶的基因。然而，发明人发现，在ER+和ER-肿瘤中都显著扰动的显著比例的基因先前并未鉴定为受雌激素诱导的基因，而且这些基因在它们的启动子中似乎还缺少ERE。ER-肿瘤格外如此，其中发现只有9％的显著扰动基因在它们的启动子中含有高置信度的假定ERE。尽管发明人不能排除这些扰动基因可能是ER的间接靶或者可能经非ERE机制由ER激活的可能性，然而这些发现提出了ERBB2活性可能在乳瘤中以ER不依赖性方式调控显著比例的基因的可能性。这可以通过许多途径发生。例如，ERBB2 可能通过RAS/MAPK的激活或PI3/Akt途径调控ER以外的其它转录因子(18)。

或者，ERBB2活性可能导致染色质因子诸如MTA1的诱导，而它们可能发挥更加多效的作用(19)。

材料和方法

乳房组织样品和患者数据

在由新加坡国立癌症中心协会的组织库和道德委员会得到相应的批准后，可以由组织库获得乳房组织样品和临床数据。样品在手术切除后立即在操作室中进行粗略分割，并在液氮中骤冻。组织学信息(ER， ERBB2)是由新加坡综合医院病理科提供的，并且选择样品从而为每个数据集提供相当数目的ER+和ER-肿瘤(通过IHC测定)。

根据冷冻切片的评估，肿瘤样品含有＞50％的肿瘤含量。使用55 个肿瘤(35个ER+样品和20个ER-样品)作为练习数据，且将另一单独组41个肿瘤(21个ER+和20个ER-样品)用于盲检。表S1包括了所有样品和患者临床数据的详细列表。

样品制备和微阵列杂交

使用Trizol试剂由组织提取RNA，并且为了使用U133A基因芯片进行Affymetrix基因芯片杂交依照制造商的指示进行加工。

数据预加工

使用Genedate Refiner程序对原始的芯片扫描结果进行质量控制，并保存在中央数据存储设备中。对表达数据进行预加工，即清除其表达在所有样品中都不存在的基因(即“A”call)，将剩余基因进行log2转化，并由样品介导集中(mediate-centering)。

ER状态的预测

使用两种分类算法即加权表决(WV)(20)和支持矢量系统(SVM) (21)将乳瘤根据ER亚型进行分类。分类精确度定义为正确分类的样品数目除以样品总数。对于WV分析，分类精确度是使用前50种ER状态区别基因的基因组(set)测定的，而基于SVM的二元分类器采用所有基因。

加权表决(WV)：加权表决算法采用信噪比(S2N)度量来进行二元分类。给属于预测物组的每种基因分派“选票”，表述为待分类样品基因表达水平与平均类型平均表达水平之间的加权差异。权重是使用如下相关性度量确定的：

$P (g, c) = \frac{μ_{1} - μ_{2}}{σ_{1} + σ_{2}}$

(μ和σ表示基因在两种类型每一种中的表达水平的平均值和标准偏差)。判定特定类型的最终表决是通过将类型区别中所使用的每种基因的所有加权选票求和而计算出来的。“预测强度”(PS)定义为：

其中V胜和V败分别指获胜或失败类型的总票数。PS反映了获胜的相对幅度，从而定量反映了预测的确定性。

支持矢量系统(SVM)：支持矢量系统是这样一种分类算法，它在所采用的特征(基因)空间中定义了一个区别表面，试图最大程度的将练习数据的类型分开(21)。未知测试样品相对于区别表面的位置决定其类型。常常计算在n维基因空间中的距离，对应于所考虑基因表达值的总数。发明人使用具有线性影响函数(linear kernel)的SVM-FU (可以由 www.ai.mit.edu/projects/cbcl/获得)来执行SVM分析。每个SVM预测的置信度是以测试样品与区别表面的距离为基础的，正如先前所述(22)。

低置信度肿瘤的鉴定

由于实现高预测置信度的临床重要性，发明人谨慎选择了高置信度阈值，将潜在的假阳性分类降至最低。根据排除一项交叉验证 (LOOCV)的结果，他们使用0.4作为阈值，并鉴定出16份样品(来自总计96份样品)是“低置信度”组中的。若肿瘤样品来自WV的预测强度(PS)低于该阈值，则将它判定为“低置信度”类型。

差异表达基因的选择和表达扰动的测定

微阵列显著性分析(SAM)是开发用于鉴定在不同组之间得到差异表达的基因的一种统计方法(11)。根据基因受到调控的统计学可能性将它们排序。SAM算法还对表达数据进行排列分析以评估随机鉴定为 “受到差异调控的”(即假阳性)基因的数目。这个数值即“假发现率”(FDR)。根据期望的严谨度，不同报告使用的FDR范围由＜5％至 33％(23，24)。

使用Student′st检验来比较高”和“低置信度”组之间SAM-133 基因组(set)的表达水平。若基因的p值低于0.05，则将它归入具有显著的“扰动表达”。

使用DEREF进行的雌激素响应元件(ERE)的计算鉴定

使用一种计算算法即Dragon ERE探测器(Dragon ERE Finder) (DEREF)(14)来鉴定假定的雌激素响应元件(ERE)，即启动子中ER 的DNA结合位点(关于DEREF的根本方法学的描述见 http://sdmc.lit.org.sg/ERE-V2/index)。在缺省设置，DEREF在人类基因组DNA上平均每13,000nt产生一个ERE模式预测，且灵敏度为 83％。为了减少假阳性的数目，发明人在这份报告中运用了额外的标准，即预测的17个核苷酸的ERE模式(14)还必须与来自至少一个其它人基因启动子的类似ERE模式匹配(根据BLAST(25)匹配且不容许缺口)，且条件是后一种模式可以由DEREF以97％灵敏度预测。这份报告中的ERR搜索是使用FIE2程序(26，27)对包含大约11,000种参考人启动子序列的数据库进行的，这些序列覆盖相对于基因5′末端的 [-3000，+1000]范围。将要分析的有些基因没有包含在这个启动子数据库中，因而没有对这些基因进行ERE搜索。这些基因在表2中以N/A 表示。

Stanford和Rosetta数据集中具有低预测强度(“低置信度”)的肿瘤的鉴定

对两个独立的数据集(称为“Stanford”和“Rosetta”数据集) 独立进行加权表决和排除一项交叉验证。以与图1相似的方式将结果制图，并显示于图7。在两个数据集中，低置信度肿瘤可以鉴定为这样的点，即此处肿瘤开始显示在质量上比肿瘤群主体低的预测强度 (“PS”)(“cliff-point”)。尽管每个数据集是独立进行分析的，然而所有数据集中“低置信度”肿瘤的比例是高度相当的，范围为所有肿瘤的15-19％(图7(a)中所示Rosetta数据集＝18/117(15.4％)；图7(b)中所示Stanford数据集＝14/74(18.9％)，我们的数据集＝16/96 (16.7％))。

用于生成图7数据的不同阵列技术的详情

Stanford数据集：该数据是使用双色cDNA微阵列产生的，其中将通过PCR扩增的cDNA片段(代表不同基因)机器自动地放置到固体基质上而形成微阵列。

Rosetta数据集：该数据是使用双色寡核苷酸微阵产生的，其中将70-80聚物寡核苷酸(代表不同基因)通过化学方法在固体基质上原位合成而形成微阵列。

患者群的详情

Stanford数据集由78份乳癌(肿瘤)和7份非恶性样品的cDNA 微阵列数据以及总体患者存活信息组成。

Rosetta数据集由使用基于寡核苷酸的微阵列描绘(profiled) 的117个早期(淋巴结阴性)乳瘤组成。

群体大小

如上所示，低置信度肿瘤占据了每个乳瘤群的约15-19％。为了确信的鉴定这个肿瘤亚群，优选需要至少25-30份图谱的最小数据集，优选更多图谱(约80-100个肿瘤，正如上文三个数据集)。

样品数据

表S7显示了加权表决算法中使用的SAM-133基因组(geneset)中每种基因的平均值(μ)和标准偏差(σ)参数。给予SAM-133基因组 (geneset)中一组基因的表达水平后，这些数据可用于确定未知乳瘤样品为高或低置信度。表2的基因包括在SAM-133基因组中。该数据特异于加权表决技术，这种技术可应用于来自Affymetrix U133基因芯片的表达数据。

表S8显示了高置信度和低置信度样品间表A4多基因分类物(共有的13种基因)的表达数据。该数据特异于Affymetrix U133A基因芯片，而且已经进行了数据预加工。表A4多基因分类物的基因表达谱可以作为练习数据用于构建预测模型(例如WV和SVM)，然后可以确定未知乳瘤的置信度。

数据以制表符为界，而且具有如下格式：

列：

第1列：预后基因组(set)的探针ID

第2列：基因名称

第3列和其它列：基因表达数据

行：

第1行：样品Id(35份样品)

第2行：样品的置信度(高或低)

第3行和其它行：基因表达数据

基因表达数据是如“样品制备和微阵列杂交”和“数据预加工” (见材料和方法部分)中所述产生的。

表S9显示了用于表A4基因组(gene set)中每种基因的加权表决算法中所使用的平均值(μ)和标准偏差(σ)参数。给予表A4基因组中一组基因的表达水平，这些数据可用于确定未知乳瘤样品为高或低置信度，不管肿瘤的ER状态。该数据特异于加权表决技术，这种技术可应用于来自Affymetrix U133基因芯片的表达数据。

参考文献

1.Tavassoli，F.A.and Schhitt S.J.(1992)Pathology of the Breast.In(Elsevier)

2.Biswas，D.K.，Averboukh，L.，Sheng，S.，Martin，K. Ewaniuk，D.S.，Jawde，T.F.，Wang，F.，pardee，A.B.(1998) Classification of brsast cancer cells on the basis of a functional assay for estrogen receptor.Mol Med，4，454-467

3.Gruvberger，S.，M.Ringner，Y.Chen，S.panavally，L.H. Saal，A.Borg，M.Ferno，C.Peterson，and P.Meltzer(2001) Estrogen Receptor Status in Breast Cancer is Associated with Remarkably Distinct Gene Expression Patterns.Cancer Research，61，5979-5984

4.West，M.，Blanchette，C.，Dressman，H.，Huang，E.， Ishida，S.，Spang，R.，Zuzan，H.，Olson，J.A.Jr，Marks， J.R.，Nevins，J.R.(2001)Predicting the clinical status of human breast cancer by using gene expression profiles.Proc Natl Acad Sci USA.98，11462-67.

5.Pietras R.J.，Arboleda，J.，Reese，D.M.，Wongvipat，N.， Pegram，M.D.，Ramos，L.，Gorman，C.M.，Parker，M.G.， Sliwkowski，M.X.，Slamon，D.J.(1995)HER-2 tyrosine kinase pathway targets estrogen receptor and promotes hormone-independent growth in human breast cancer cells.Oncogene，10，2435-2446

6.Kurokawa，H.and Arteaga，C.L.(2001)Inhibition of erbB receptor(HER)tyrosine kinases as a strategy to abrogate antiestrogen resistance in human breast cancer.Clinical Cancer Research，12，4436s-4442s

7.Bange，J.，Zwick，E.，and Ullrich，A.(2001)Molecular targets for breast cancer therapy and prevention.Nature Medicine，7，548-552

8.Chia，K.S.，A.Seow，H.P.Lee，and K.Shanmugaratnam (2000)Cancer Incidence in Singapore，1993-1997.In (Singapore Cancer Registry)

9.Sorlie T，Perou CM，Tibshirani R，Aas T，Geisler S， Johnsen H，Hastie T，Eisen MB，van de Rijn M，Jeffrey SS， Thorsen T，Quist H，Matese JC，Brown PO，Botstein D， Eystein Lonning P，Borresen-Dale AL.(2001)Gene expression patterns of breast carcinomas distinguish tumour subclasses with clinical implications.Proc Natl Acad Sci USA.98， 10869-74.

10.Van′t Veer LJ，Dai H，van de vijver MJ，He YD，Hart AA， Mao M，Peterse HL，van der Kooy K，Marton MJ，Witteveen AT， Schreiber GJ，Kerkhoven RM，Roberts C，Linsley PS，Bernards R，Friend SH.(2002)Gene expression profiling predicts clinical outcome of breast cancer.Nature，415，530-6.

11.Tusher，V.G.，R.Tibshirani，and G.Chu(2001) Significance Analysis of Microarrays Applied to the Ionizing Radiation Response.Proc.Natl.Acad.Sci USA.98，5116- 5121

12.Kallioniemi A，Kallioniemi OP，Piper J，Tanner M，Stokke T，Chen L，Smith HS，Pinkel D，Gray JW，Waldman FM.(1994) Detection and mapping of amplified DNA sequences in breast cancer by comparative genomic hybridization.Proc Natl Acad Sci USA.91，2156-60.

13.Charpentier AH，Bednarek AK，Daniel RL ，Hawkins KA， Laflin KJ，Gaddis S，MacLeod MC，Aldaz CM.(2000)Effects of estrogen on global gene expression：identification of novel targets of estrogen action.Cancer Research，60，5977-83.

14.Bajic，V.B.，Tan，S.L.，Chong，A.，Tang，S.，Strom，A.， Gustafsson，J.，Lin，C.Y.，Liu，E.(2002)Dragon ERE Finder ver.2：A tool for accurate detection and analysis of estrogen response elements in vertebrate genomes.Nucleic Acid Res.，in press

15.Alizadeh，A.A.，M.B.Eisen，R.E.Davis，C.Ma，I.S. Lossos，A.Rosenwald，J.C.Boldrick，H.Sabet，T.Truc，Y. Xin，J.I.powell，L.Yang，G.E.Marti，T.Moore，J. Hudson，L.Lisheng，D.B.Lewis，R.Tibshirani，G.Sherlock， W.C.Chan，T.C.Greiner，D.D.Weisenburger，J.O. Armitage，R.Warnke，R.Levy，W.Wilson，M.R. Grever，J.C.Byrd，D.Botstein，P.O.Brown，and L.M. Staudt(2000)Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling.Nature， 403，503-511

16.Bittner，M.，P.Meltzer，Y.Chen，Y.Jiang，E.Seftor， M.Hendeix，M.Radmacher，R.Simon，Z.Yakhini，A.Ben-Dor， N.Sampas，E.Dougherty，E.Wang，F.Marincola，C. Gooden，J.Lueders，A.Glatfelter，P.Pollock，J.Carpten， E.Gillanders，D.Leja，K.Dietrich，C.Beaudry，M.Berens， D.Alberts，V.Sondak，N.Hayward，and J.Trent(2000) Molecular classification of cutaneous malignant melenoma by gene expression profiling.Nature，406，536-540

17.Grunt TW，Saceda M，Martin MB，Lupu R，Dittrich E， Krupitza G，Harant H，Huber H，Dittrich C(1995). Bidirectional interactions between the estrogen receptor and the cerbB-2 signaling pathways：heregulin inhibits estrogenic effects in breast cancer cells.Int J Cancer，63， 560-567

18.Stoica GE，Franke TF，Wellstein A，Morgan E，Czubayko F， List HJ，Reiter R，Martin MB，Stoica A(2003).Heregulin- betal regulates the estrogen receptor-alpha gene expression and activity via the ErbB2/PI 3-K/Akt pathway.Oncogene，22， 2073-2087.

19.Mazumdar，A.，Wang，R.A.，Mishra，S.K.，Adam，L.， Bagheri-Yarmand，R.，Mandal，M.，Vadlamudi，R.K.，Kumar，R. (2000)Transcriptional repression of oestrogen receptor by metastasis-associated protein 1 corepressor.Nature Cell Biol，3，30-37

20.Golub TR，Slonim DK，Tamayo p，Huard C，Gaasenbeek M， Mesirov JP，Coller H，Loh ML，Downing JR，Caligiuri MA， Bloomfield CD，Lander ES.(1999).Molecular classification of cancer：class discovery and class prediction by gene expression monitoring.Science，286，531-7.

21.Vapnik V.(1998)Statistical Learning Theory.Wiley，New York.

22.Ramaswamy S，Tamayo P，Rifkin R，Mukherjee S，Yeang CH， Angelo M，Ladd C，Reich M，Latulippe E，Mesirov JP，Poggio T，Gerald W，Loda M，Lander ES，Golub TR.(2001)Multiclass cancer diagnosis using tumour gene expression signatures. proc Natl Acad Sci USA.98，15149-54.

23.Mueller，A.，O′Rourke，J.，Grimm，J.，Guillemin，K.， Dixon，M.F.，Lee，A.and Falkow，S.(2003)Distinct gene expression profiles characterize the histopathological stages of disease in Helicobacter-induced mucosa-associated lymphoid tissue lymphoma.Proc Natl Acad Sci USA，100，1292 -1297.

24.Sanoudou，D.，Haslett，J.N.，Kho，A.T.，Guo，S.，Gazda， H.T.，Greenberg，S.A.，Lidov，H.G.V.，Kohane，I.S.，Kunkel， L.M.，and Beggs，A.H.(2003)Expression profiling reveals altered satellite cell numbers and glycolytic enzyme transcription in nemaline myopathy muscle.proc Natl Acad Sci USA，100，4666-4671.

25.Altschul，S.F.，Madden，T.L.，Schaffer，A.A.，Zhang，J.， Zhang，Z.，Miller，W.and Lipman，D.J.(1997)Gapped BLAST and PSI-BLAST：a new generation of protein database search programs，Nucleic Acids Res.25，3389-3402.

26.Chong，A.，Zhang，G.，Bajic，V.B.(2002)Information and sequence extraction around the 5′-end and translation initiation site of human genes，In Silico Biology，2，461- 465.

27.Chong，A.，Zhang，G.，Bajic，V.B.(2003)FIE2：A program for the extraction of genomic DNA sequences around the start and translation initiation site of human genes，Nucleic Acids Research，in press.

28.Eisen MB，Spellman pT，Brown PO，Botstein D.(1998) Cluster analysis and display of genome-wide expression patterns.Proc Natl Acad Sci USA.95(25)，14863-14868. 表1：临床参数与ER分类置信度之间的关联练习数据集(这份报告) 标准数据集参数患者人数平均置信度 P值参数患者人数平均置信度 P值 ERBB2 ＜0.001 ERBB2 ＜0.001 阳性阴性 18 37 0.58 0.89 阳性阴性 9 65 0.233 0.667 年龄 0.45 年龄 0.03 ＜55岁 ≥55岁 25 30 0.76 0.81 ＜55岁 ≥55岁 33 41 0.545 0.669 瘤(node) 0.98 瘤 0.91 0个 1-2个 21 30 0.787 0.785 0个 1-2个 22 52 0.619 0.612 组织学分级 0.98 组织学分级 0.28 1级 2级 3级 7 36 8 0.804 0.784 0.779 1级 2级 3级 9 32 32 0.727 0.631 0.583 PR 0.03 TP53 0.11 阳性阴性 19 31 0.88 0.71 野生型突变型 38 36 0.659 0.567

表2：在ER+/低和ER+/高样品(a)以及ER-/低和ER-/高样品(b) 之间显著扰动的前50种基因。在ERE列中，“ERE”指示启动子含有由DEREF预测的高置信度假定ERE；“无ERE”指示没有发现假定ERE，而“低”指示对于该启动子以中置信度发现ERE。N/A表示没有分析该启动子，因为不可能根据全长转录本确定它们的转录起始位点。基因根据它们在高和低置信度样品之间的S2N比率排序。

表2 (a)ER+/低对ER+/高基因名称 UniGen.e ERE 排序雌激素受体1 Hs.1657 无ERE 1 动力蛋白、轴丝(axonemal)、光中间多肽1 Hs.406050 低 2 细胞色素c氧化酶亚基VIc Hs.351875 无ERE 3 膜联蛋白A9 Hs.279928 ERE 4 N-乙酰基转移酶1(芳基胺N-乙酰基转移酶) Hs.155956 ERE 5 细胞色素P450，亚家族IIB(苯巴比妥可诱导的)，多肽6 Hs.1360 低 6 视黄酸受体α Hs.361071 ERE 7 胰岛素样生长因子1受体 Hs.239176 N/A 8 丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员5 Hs.76353 低 9 人类cDNA：FLJ21695 fis，克隆COL09653，mRNA序列 Hs.306803 N/A 10 B细胞CLL/淋巴瘤2 Hs.79241 ERE 11 GREB1蛋白 Hs.193914 无ERE 12 RNB6 Hs.241471 ERE 13 GATA结合蛋白3 Hs.169946 无ERE 14 人类mRNA；cDNA DKFZp564F053(来自克隆DKFZp564F053)， mRNA序列 Hs.71968 N/A 15 含WW结构域蛋白1 Hs.355977 无ERE 16 GDNF家族受体α1 Hs.105445 无ERE 17 染色体1开放读码框34 Hs.125783 N/A 18 与AF4有关的淋巴样核蛋白 Hs.38070 N/A 19 白介素6信号转导物(gp130，制瘤素M受体) Hs.82065 无ERE 20 G蛋白信号调节物11 Hs.65756 ERE 21 人胰岛素样生长因子1受体mRNA，3′序列，mRNA序列 Hs.405998 N/A 22 hepsin(跨膜蛋白酶，丝氨酸1) Hs.823 无ERE 23 sema结构域，免疫球蛋白结构域(Ig)，短基本结构域，分泌的，(semaphorin)3B Hs.82222 无ERE 24 UDP-葡萄糖神经酰胺葡萄糖基转移酶 Hs.432605 ERE 25 细胞色素P450，亚家族IIB(苯巴比妥可诱导的)，多肽7 Hs.330780 N/A 26 肌钙蛋白T1，骨骼的，缓慢的 Hs.73980 N/A 27 微管相关蛋白τ Hs.101174 无ERE 28 seven in absentia同系物2(果蝇) Hs.20191 无ERE 29 孕酮受体 Hs.2905 无ERE 30 KIAA0882蛋白 Hs.90419 N/A 31 假定蛋白FLJ20151 Hs.279916 低 32 ATP结合盒，亚家族A(ABC1)，成员3 Hs.26630 ERE 33 碳酸酐酶XII Hs.5338 ERE 34 溶质载体家族16(一元羧酸转运蛋白)，成员6 Hs.114924 低 35 假定蛋白FLJ12910 Hs.15929 无ERE 36 假定蛋白FLJ20627 Hs.238270 无ERE 37 毛发鼻指(趾)综合征1 Hs.26102 无ERE 38 calsyntenin 2 Hs.12079 N/A 39 丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员3 Hs.234726 ERE 40 vav 3癌基因 Hs.267659 无ERE 41 LIV-1蛋白，受雌激素调节 Hs.79136 N/A 42 人类mRNA；cDNA DKFZp434E082(来自克隆DKFZp434E082)， mRNA序列 Hs.432587 N/A 43 腺苷酸环化酶9 Hs.20196 ERE 44 KIAA0876蛋白 Hs.301011 N/A 45 血红素结合蛋白1 Hs.294133 ERE 46 stanniocalcin 2 Hs.155223 低 47 补体成分4B Hs.433721 N/A 48 可溶性载体家族27(脂肪酸转运蛋白)，成员2 Hs.11729 N/A. 49 T盒3(ulnar mammary syndrome) Hs.267182 无ERE 50 (b)ER-/低对ER-/高假定蛋白FLJ20151 Hs.279916 低 1 碳酸酐酶XII Hs.5338 低 2 GATA结合蛋白3 Hs.169946 无ERE 3 酵母长链多不饱和脂肪酸延长酶2同系物 Hs.250175 无ERE 4 含WW结构域蛋白1 Hs.355977 无ERE 5 X盒结合蛋白1 Hs.149923 无ERE 6 脂肪特异2 Hs.74120 低 7 黑素瘤抗原，家族D，2 Hs.4943 N/A 8 anterior gradient 2同系物(非洲爪蟾Xenepus laevis) Hs.91011 无ERE 9 细胞色素c氧化酶亚基VIc Hs.351875 无ERE 10 醛酮还原酶家族7，成员A3(黄曲霉毒素醛还原酶) Hs.284236 N/A 11 紧密连接蛋白3(闭锁小带3) Hs.25527 N/A 12 LAG1长寿确保同系物2(酿酒酵母(S.cerevisiae)) Hs.285976 ERE 13 肌醇1，4，5-三磷酸受体，1型 Hs.198443 无ERE 14 果糖-1，6-二磷酸酶1 Hs.574 ERE 15 KIAA0882蛋白 Hs.90419 N/A 16 假定蛋白FLJ12910 Hs.15929 无ERE 17 LIV-1蛋白，受雌激素调节 Hs.79136 N/A 18 甲基巴豆酰-辅酶A羧化酶2(β) Hs.167531 无ERE 19 细胞色素P450，亚家族IIB(苯巴比妥可诱导的)，多肽7 Hs.330780 N/A 20 三叶草因子3(肠) Hs.82961 低 21 人克隆23948mRNA序列 Hs.159264 N/A 22 N-乙酰基转移酶1(芳基胺N-乙酰基转移酶) Hs.155956 低 23 GREB1蛋白 Hs.193914 无ERE 24 视黄酸诱导的3 Hs.194691 无ERE 25 溶质载体家族16(一元羧酸转运蛋白)，成员6 Hs.114924 低 26 动力蛋白、轴丝、光中间多肽1 Hs.406050 低 27 溶质载体家族7(阳离子氨基酸转运蛋白，y+系统)，成员 8 Hs.22891 低 28 WD重复结构域10 Hs.70202 无ERE 29 calsyntenin 2 Hs.12079 N/A 30 v-myb成髓细胞病病毒癌基因同系物(禽类) Hs.1334 低 31 三叶草因子1(在乳癌中表达的雌激素可诱导的序列) Hs.350470 低 32 假定蛋白MGC2601 Hs.124915 ERE 33 dachshund同系物(果蝇) Hs.63931 无ERE 34 粘蛋白1，跨膜 Hs.89603 N/A 35 补体成分4B Hs.433721 N/A 36 富含半胱氨酸蛋白1(肠) Hs.423190 N/A 37 NPD009蛋白 Hs.283675 低 38 sema结构域，免疫球蛋白结构域(Ig)，短基本结构域，分泌的，(semaphorin)3B Hs.82222 无ERE 39 HRAS样抑制物3 Hs.37189 N/A 40 ATP结合盒，亚家族A(ABC1)，成员3 Hs.26630 低 41 微管相关蛋白τ Hs.101174 无ERE 42 肌球蛋白VI(人类)，mRNA序列 Hs.385834 N/A 43 CGI-49蛋白 Hs.238126 N/A 44 视黄酸受体，α Hs.361071 低 45 vav 3癌基因 Hs.267659 无ERE 46 染色体1开放读码框34 Hs.125783 N/A 47 雌激素受体1 Hs.1657 无ERE 48 溶质载体家族27(脂肪酸转运蛋白)，成员2 Hs.11729 N/A 49 TBX 3同工蛋白 Hs.332150 N/A 50

表S1：乳瘤样品的临床信息表S1：我们的数据集的临床信息样品ID ER ERBB2* PR 年龄瘤阶段人种最初的集合(55份样品) 980177 980178 980194 980197 980203 980208 980214 980215 980216 980217 980220 980221 980238 980247 980261 980338 980346 980353 980373 980380 980383 980391 980395 980396 980403 980404 980409 980411 980434 980441 990075 990082 990107 990113 990115 990123 990134 990148 990174 990223 990262 + + - + + + + + - + + + - - + - + - - - + + - - + + + - + - + + + + + + - + - + - 阴性阴性阳性阳性阴性阴性阳性阴性阴性阴性阳性阴性阳性阴性阴性阴性阴性阴性阳性阳性阴性阴性阳性阳性阴性阴性阴性阴性阴性阴性阴性阴性阴性阴性阳性阴性阳性阳性阴性阳性阳性 + - - + + + - - - + - - + - - - + - - + + - - + - + + - + + + - - - - - 75 69 58 55 44 42 49 54 65 54 43 34 62 35 60 55 54 59 77 55 66 56 68 66 73 46 48 72 73 66 66 49 51 70 38 53 43 60 56 52 68 2 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 0 1 1 1 1 IIIA IIB IIB IIB I IIB IIIB IIB IIB IIA IV IIA I IIA IIA I IIA I IIB IIB IIA IIB I IIA IIA IIB IIB IIB IIB IIIA IIB IIIA IIA IIB IIB IIA IIB 中国人中国人中国人中国人中国人中国人中国人中国人印度人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人印度人中国人中国人中国人中国人中国人中国人中国人中国人 990299 990375 2000209 2000422 2000500 2000683 2000759 2000768 2000775 2000779 2000804 2000813 2000829 2000948 - + + + - + - + + + + - - + 阴性阴性阳性阴性阴性阴性阳性阴性阴性阴性阴性阳性阳性阴性 - - - + - + - + - - + - - - 58 38 58 52 44 72 57 39 51 48 39 60 51 56 1 0 0 1 1 0 0 0 0 0 1 1 1 1 IIIA I IIA IIIA IV IIA I IIA IIA IIB IIB IIB IIB IIB 中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人第二集合(41个样品) 980058 980193 980256 980278 980285 980288 980315 980333 980335 2000104 2000171 2000210 2000215 2000220 2000237 2000272 2000274 2000287 2000320 2000376 2000399 2000401 2000593 2000597 2000609 2000638 2000641 2000651 2000652 2000675 + - - + - + - + - + - - + + + + + - - - - + - + + - - + - - 阴性阴性阴性阴性阴性阳性阴性阴性阳性阳性阳性阳性阴性阴性阳性阴性阴性阳性阴性阳性阳性阴性阴性阴性阴性阴性阳性阴性阳性阳性 72 49 46 64 49 45 59 51 33 59 50 50 50 52 43 50 40 53 67 65 44 51 60 57 62 60 47 45 56 78 中国人中国人中国人中国人中国人印度人中国人中国人中国人中国人中国人马来西亚人中国人中国人中国人印度人中国人中国人中国人中国人中国人中国人中国人中国人中国人中国人马来西亚人中国人中国人中国人 2000709 2000731 2000787 2000818 2000880 20020021 20020051 20020056 20020071 20020090 20020160 - - + + - + + + + - + 阳性阴性阴性阴性阴性阴性阴性阴性阴性阳性阴性 45 68 57 52 54 64 38 71 58 60 82 中国人印度人中国人中国人中国人中国人马来西亚人印度人中国人中国人中国人

*ERBB2状态的确定：在练习组(55份样品)中，ERBB2状态是通过常规的免疫组化测定的，而且与表达谱一致。21份报告为ERBB2+。对于其它数据集，ERBB2状态是通过ERBB2和其它17q连锁基因的表达谱和分析来测定的。

表S2：独立检验和外部乳癌数据库的分类结果

排除一项交叉验证(LOOCV)：我们使用标准的排除一项交叉验证 (LOOCV)方法来评估练习组的分类精确度。在LOOCV中，首先将练习组中的一个样品“省去”，并对剩余样品进行分类操作(例如基因选择和分类练习)。然后使用练习后的算法将“省去的”样品分类，并对练习组中的所有样品重复这一过程。

对所有四个数据集(包括PS)进行WV分析的结果以及ERBB2表达与预测置信度之间关联的相应p值可以由 http://www.omnjarray.com/ERClassification.html的Excel文件获得。

表S3：对ER亚型区别重要的基因的鉴定

使用微阵列显著性分析(SAM)对在ER+和ER-肿瘤之间受到差异调控 (FDR为0％，表达变化≥2倍)的133种基因进行鉴定和排序。其中 122种在ER+中上调(阳性基因)，11种在ER+中下调(阴性基因)。特定基因的S2N比率反映了在低和高置信度样品间观察到的表达扰动的程度。表S3：SAM-133基因表与ER+状态正相关的122种基因 S2N比率排序探针-ID UG 基因名称 GB编号 ER- ER+ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 205225_at 209603_at 204508_s_at 209604_s_at 209602_s_at 206754_s_at 203963_at 214164_x_at 212956_at 215867_x_at 210735_s_at 214440_at 202089_s_at 210085_s_at 205862_at 202088_at 211712_s_at 206401_s_at 215304_at 218195_at 212195_at 203928_x_at 209460_at 212960_at 209443_at 209173_at 203071_at 203571_s_at 205354_at 213712_at Hs.1657 Hs.169946 Hs.279916 Hs.169946 Hs.169946 Hs.1360 Hs.5338 Hs.5344 Hs.90419 Hs.5344 Hs.5338 Hs.155956 Hs.79136 Hs.279928 Hs.193914 Hs.79136 Hs.101174 Hs.159264 Hs.15929 Hs.71968 Hs.101174 Hs.283675 Hs.90419 Hs.76353 Hs.91011 Hs.82222 Hs.74120 Hs.81131 Hs.30504 雌激素受体1 GATA结合蛋白3 假定蛋白FLJ20151 GATA结合蛋白3 GATA结合蛋白3 细胞色素P450，亚家族IIB(苯巴比妥可诱导的)，多肽6 碳酸酐酶XII 衔接物相关蛋白复合物1，γ1亚基 KIAA0882蛋白衔接物相关蛋白复合物1，γ1亚基碳酸酐酶XII N-乙酰基转移酶1(芳基胺N-乙酰基转移酶) LIV-1蛋白，受雌激素调节膜联蛋白A9 KIAA0575基因产物 LIV-1蛋白，受雌激素调节人类，克隆MGC：1925，mRNA，完整cds 微管相关蛋白τ 人克隆23948mRNA序列假定蛋白FLJ12910 人类mRNA；cDNA DKFZp564F053(来自克隆 DKFZp564F053) 微管相关蛋白τ NPD009蛋白 KIAA0882蛋白丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员5 anterior gradient 2(非洲爪蟾)同系物 sema结构域，免疫球蛋白结构域(Ig)，短基本结构域，分泌的，(semaphorin)3B 脂肪特异的2 醋酸胍N-甲基转移酶人类mRNA；cDNA DKFZp434E082(来自克隆 DKFZp434E082) NM_000125.1 AI796169_RC BC001012.1 BC003070.1 AI796169_RC NM_000767.2 NM_001218.2 BF752277 AI348094_RC AL050025.1 BC000278.1 NM_000662.1 NM_012319.2 AF230929.1 NM_014668.1 AI635449_RC BC005830.1 J03778.1 U79293.1 NM_024573.1 AL049265.1 AI870749_RC AF237813.1 BE646554_RC J02639.1 AF088867.1 NM_004636.1 NM_006829.1 NM_000156.3 BF508639_RC -0.29577 -1.08401 -1.78617 -1.45575 -0.8137 -0.2593 -1.46907 -1.38937 -0.64903 -1.63678 -1.44687 -0.52605 -0.61899 -0.24463 -0.51927 -0.5332 -0.33797 -0.52908 -0.62769 -0.22898 -0.35356 -0.18444 -0.58169 0.065273 -0.80392 -0.39014 -0.81429 -0.01557 0.008265 1.273725 0.863193 0.608118 0.776251 0.654881 1.022511 0.598453 0.650127 0.68526 0.613887 0.484214 1.043165 0.528173 1.123041 0.883508 0.584697 0.700836 0.19541 0.590894 0.854505 0.682993 0.451265 1.072165 0.94045 -0.25677 0.726153 0.240008 0.074452 0.522867 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 41660_at 220744_s_at 204798_at 215552_s_at 209339_at 210272_at 205186_at 207414_s_at 205009_at 203628_at 211323_s_at 201825_s_at 211234_x_at 209459_s_at 212196_at 203438_at 217838_s_at 204041_at 203929_s_at 200670_at 219414_at 203627_at 208451_s_at 213419_at 205768_s_at 204862_s_at 210480_s_at 205696_s_at 203685_at 218976_at 219197_s_at 202996_at 205734_s_at 211235_s_at 211000_s_at 217190_x_at 202752_x_at 201754_at 204623_at Hs.70202 Hs.1334 Hs.272288 Hs.20191 Hs.330780 Hs.33846 Hs.170414 Hs.1406 Hs.239176 Hs.198443 Hs.238126 Hs.1657 Hs.283675 Hs.71968 Hs.155223 Hs.241471 Hs.82163 Hs.101174 Hs.149923 Hs.12079 Hs.239176 Hs.278625 Hs.324125 Hs.11729 Hs.81687 Hs.22564 Hs.105445 Hs.79241 Hs.260720 Hs.222399 Hs.62520 Hs.38070 Hs.1657 Hs.82065 Hs.247976 Hs.22891 Hs.74649 Hs.82961 包括AL031588：dJ1163J1.1(小鼠跨膜受钵 Celsr1的直向同源物)的簇(KIAA0279像与大鼠MEG相似的含EGF样结构域蛋白质 WD重复结构域10 v-myb禽类成髓细胞病病毒癌基因同系物来自染色体6q25.1-26上克隆RP1-6315的人 DNA序列，包含一种新基因的3个部分和雌激素受体1(NR3A1，雌二醇受体)的ESR1基匹的一个外显子、EST、STS、和GSS。 seven in absontia(果蝇)同系物2 人细胞色素P450-IIB(hIIB3)mRNA，完整 cds 动力蛋白，轴丝，光中间多肽配对碱性氨基酸切除系统4 三叶草因子1(在乳癌中表达的雌激素可诱导的序列) 胰岛素样生长因子1受体肌醇1，4，5-三磷酸受体，1型 CGI-49蛋白雌激素受体1 NPD009蛋白人类mRNA；cDNA DKFZp564F053(来自克隆 DKFZp564F053) stanniocalcin 2 RNB6 单胺氧化酶B 微管相关蛋白τ X盒结合蛋白1 calsyntenin 2 胰岛素样生长因子1受体补体成分4B 淀粉状蛋白β(A4)前体蛋白结合，家族B，成员2(Fe65样) 脂肪酸-辅酶A连接酶，非常长链1 非转移细胞3中表达的蛋白质肌球蛋白VI GDNF家族受体α1 B细胞CLL淋巴瘤2 含J结构域蛋白1 CEGP1蛋白聚合酶(DNA指导的)，δ4 与AF4有关的淋巴样核蛋白雌激素受体1 白介素6信号转导蛋白(gp130，制瘤素M受体) 雌激素受体(外显子6)，人的，三苯氧胺耐受性乳瘤17，基因组突变体，187nt 溶质载体家族7(阳离子氨基酸转运蛋白，y+ 系统)，成员8 细胞色素c氧化酶亚基V1c 三叶草因子(肠) NM_018262.1 NM_005375.1 AI073549_RC U76248.1 M29873.1 NM_003462.2 NM_002570.1 NM_003225.1 H05812_RC L38019.1 AL572542_RC AF258449.1 AF237813.1 AW242916_RC AI435628_RC NM_016337.1 NM_000898.1 AI05535_RC NM_005060.1 NM_022131.1 AI830698_RC NM_000592.2 U62325.1 NM_003645.1 NM_002513.1 U90236.2 NM_005264.1 NM_000833.1 NM_021800.1 AI424243_RC NM_021173.1 AI990465_RC AF258450.1 AB015706.1 S67777 NM_012244.1 NM_04374.1 NM_003226.1 -0.48046 -0.46303 -0.19227 -0.0458 -0.58159 -0.49548 -0.00943 -0.44277 0.241512 -0.72886 -0.32444 0.268077 -0.40497 -0.0843 -0.15925 0.38602 0.050799 -0.27747 -0.83621 -0.47893 0.088492 -0.42162 -0.01491 -0.26778 -0.24568 -0.3344 0.013863 0.385651 -0.17876 -0.09661 0.158087 0.187651 0.269909 0.204138 0.17102 -0.48423 -0.79643 -0.53903 0.159954 0.284211 0.946801 0.698282 0.717949 1.221071 0.222009 0.213135 0.748503 0.116021 0.398111 0.482442 0.048419 0.516679 0.456003 0.872588 0.120203 0.427658 0.279976 0.553864 0.976305 0.448767 -0.06708 0.41298 0.320418 -0.15111 0.846687 0.915025 0.280663 0.157384 0.060137 0.796703 0.7271 0.785104 0.653981 0.153806 1.207003 0.149093 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 207038_at 212637_s_at 208682_s_at 218502_s_at 202376_at 215616_s_at 211233_x_at 205081_at 214428_x_at 209696_at 219682_s_at 212496_s_at 203108_at 206107_at 218806_s_at 209581_at 213412_at 212638_s_at 206469_x_at 210652_s_at 216381_x_at 216092_s_at 208788_at 204792_s_at 207847_s_at 213201_s_at 204497_at 222314_x_at 222212_s_at 219919_s_at 214053_at 204934_s_at 216109_at 203749_s_at 220329_s_at 204881_s_at 208305_at 209623_at 218450_at 204343_at 219051_x_at 205471_s_at 203439_s_at 204863_s_at Hs.114924 Hs.324275 Hs.4943 Hs.26102 Hs.234726 Hs.301011 Hs.1657 Hs.17409 Hs.170250 Hs.574 Hs.332150 Hs.301011 Hs.194691 Hs.65756 Hs.267659 Hs.37189 Hs.25527 Hs.324275 Hs.284236 Hs.125783 Hs.284236 Hs.22891 Hs.250175 Hs.111862 Hs.89603 Hs.73980 Hs.20196 Hs.205660 Hs.285976 Hs.279808 Hs.7888 Hs.823 Hs.306803 Hs.250505 Hs.238270 Hs.152601 Hs.2905 Hs.167531 Hs.108675 Hs.26630 Hs.124915 Hs.63931 Hs.155223 Hs.82065 溶质载体家族16(一元羧酸转运蛋白)，成员 6 人类mRNA；cDNA DKFZp434D2111(来自克隆 DKFZp434D2111) 肝细胞癌相关蛋白；乳癌相关基因1 毛鼻指(趾)综合征1 丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员3 KIAA0876蛋白雌激素受体1 富含半胱氨酸蛋白1(肠) 补体成分4A 果糖-1，6-二磷酸酶1 TBX3同工蛋白 KIAA0876蛋白视黄酸诱导的3 G蛋白信号调节物11 vav3癌基因与大鼠HREV107类似紧密连接蛋白3(闭锁小带3) 人类mRNA；cDNA DKFZp434D2111(来自克隆 DKFZp434D2111) 醛酮还原酶家族7，成员A3(黄曲霉毒素醛还原酶) DEME-6蛋白醛酮还原酶家族7，成员A3(黄曲霉毒素醛还原酶) 溶质载体家族7(阳离子氨基酸转运蛋白，y+ 系统)，成员8 酵母长链多不饱和脂肪酸延长酶同系物2 KIAA0590基因产物粘蛋白1，跨膜肌钙蛋白T1，骨骼的，缓慢的腺苷酸环化酶9 EST 肿瘤转移抑制基因假定蛋白FLJ10928 人类克隆23736mRNA序列 hepsin(跨膜蛋白酶，丝氨酸1) 人类cDNA：FLJ21695 fis，克隆COL09653 视黄酸受体，α 假定蛋白FLJ20627 UDP-葡萄糖神经酰胺葡萄糖基转移酶孕酮受体甲基巴豆酰-辅酶A羧化酶2(β) 血红素结合蛋白 ATP结合盒，亚家族A(ABC1)，成员3 假定蛋白MGC2601 dachshund(果蝇)同系物 stanniocalcin 2 白介素6信号转导蛋白(gp130，制瘤素M受 NM_004694.1 AU155187_RC AF126181.1 NM_014112.1 NM_001085.2 AB020683.1 M12674.1 NM_001311.1 K02403.1 D26054.1 NM_016569.1 BE256900 NM_003979.2 NM_003834.1 AF118887.1 BC001387.1 NM_014428.1 BF131791 NM_012067.1 BC004399.1 AL035413 AL385347.1 AL136939.1 NM_014714.1 NM_002456.1 AJ011712 AB011092.1 AW970881_RC AK001105.1 NM_018276.1 AW772192_RC NM_002151.1 AK025348.1 AI806984_RC NM_017909.1 NM_003358.1 NM_000926.1 AW439494_RC NM_015987.1 NM_001089.1 NM_024042.1 AW772082_RC 8C000658.1 BE856546_RC -0.50672 -0.851 -0.80969 -0.26191 0.02888 -0.00184 0.360947 -0.41153 -0.22882 -0.68072 -0.26452 -0.272 -0.51766 -0.0233 -0.3126 -0.37261 -0.76231 -0.76733 -0.77705 -0.29655 -0.61275 -0.67193 -0.871210 0.085973 -0.42941 -0.11892 0.007184 -0.1322 -0.74148 0.085456 -0.21533 -0.03851 -0.03594 -0.3159 0.068053 -0.248 0.145722 -0.61293 -0.07982 -0.36256 -0.43578 -0.43168 -0.28836 0.259289 0.593732 0.852788 -0.06845 0.571226 0.549323 0.507129 0.949046 -0.05483 0.346824 0.137814 0.412502 0.841331 0.212322 0.778074 0.544105 0.359298 0.227893 0.888627 0.278936 0.806265 0.253454 0.152525 0.346787 0.134751 -0.24975 0.71764 0.509774 0.201872 0.357607 0.152147 0.32841 0.743961 0.921802 1.006049 0.588123 0.724338 0.687258 0.369239 0.486745 0.648789 0.112222 -0.26408 0.67174 0.691633 114 115 116 117 118 119 120 121 122 203289_s_at 221765_at 219001_s_at 220581_at 211596_s_at 205645_at 219663_s_at 205380_at 201508_at Hs.19699 Hs.23703 Hs.317589 Hs.287738 Hs.80667 Hs.157527 Hs.15456 Hs.1516 体) α球蛋白簇末端的保守基因 ESTS 假定蛋白MGC10765 假定蛋白FLJ23305 膜糖蛋白LIG-1的人类mRNA，完整cds 含RALBP1相关Eps结构域2 假定蛋白MGC4659 含PDZ结构域1 胰岛素样生长因子结合蛋白4 BE791629 AI378044_RC NM_024345.1 NM_025059.1 AB050468.1 NM_004726.1 NM_025266.1 NM_002614.1 NM_001552.1 -0.18036 -0.0539 -0.28755 -0.13763 -0.29164 0.059072 0.094959 0.102433 0.122646 0.714017 0.64098 0.781039 0.308819 -0.06016 0.486972 0.237825 与ER+状态负相关的11种基因 1 2 3 4 5 6 7 8 9 10 11 215729_s_at 201983_s_at 204914_s_at 204913_s_at 205646_s_at 207030_s_at 204915_s_at 203021_at 209800_at 203234_at 201984_s_at Hs.9030 Hs.77432 Hs.32964 Hs.32964 Hs.89506 Hs.10526 Hs.32964 Hs.251754 Hs.115947 Hs.77573 Hs.77432 TONDU 表皮生长因子受体(禽类成红细胞性白血病病毒(v-erb-b) 癌基因同系物) SRY(性别决定区Y)盒11 SRY(性别决定区Y盒11 配对盒基因6(无虹膜，角膜炎) 富含半胱氨酸和甘氨酸蛋白2 SRY(性别决定区Y)盒11 分泌性白细胞蛋白酶抑制物 (抗白细胞蛋白酶) 角蛋白16(病灶非表皮松懈性掌跖角化病) 尿苷磷酸化酶表皮生长因子受体(禽类成红细胞性白血病病毒(v-erb-b) 癌基因同系物) BE542323 AW157070_RC AW157202_RC AI360875_RC NM_000280.1 NM_001321.1 AB028641.1 NM_003064.1 AF061812.1 NM_003364.1 NM_005228.1 0.729732 0.183968 -0.3552 -0.54222 0.667994 0.526203 -0.4419 -0.08293 0.573263 0.30456 0.416409 -0.40161 -0.10873 -0.61822 -0.6594 -0.15217 -0.44193 -0.47414 -1.00559 -0.29962 0.307505 0.086073

与ER+状态负相关的前54种ER区别基因

由于ER阴性基因的数目有限，因此我们降低了SAM的阈值来衍生FDR 为0％的54种基因。这些阴性基因用于图2c和d中。表S4：“高”和“低置信度”肿瘤整体表达谱的比较

使用SAM鉴定在a)ER+“高”和“低”置信度肿瘤以及b)ER-“高” 和“低”置信度肿瘤之间受到差异调节的基因。对于ER+的比较，50 种基因鉴定为在ER+/低中与ER+/高肿瘤相比上调，39种下调。对于 ER-的比较，50种基因鉴定为在ER-/低中与ER-/高肿瘤相比上调，没有基因鉴定为下调。表S4：在低/高置信度样品中差异表达的排序靠前的基因 a)ER+/低对ER+/高在ER+/低中上调的基因 Unigene 排序染色体氯化物通道，由钙激活，家族成员2 EST，与人类假定蛋白微弱相似 v-myc禽类髓细胞瘤病病毒相关癌基因，由成神经细胞瘤衍生苯乙醇胺N-甲基转移酶具有锌指结构域的Alu结合蛋白成纤维细胞生长因子受体4 KIAA0300蛋白生长因子受体结合蛋白7 肌球蛋白，重链多肽4，骨骼肌 apomucin 脯氨酸氧化酶同系物 S100钙结合蛋白A8(calgranulin A) 甘氨酸C-乙酰基转移酶(2-氨基-3-酮丁酸辅酶A连接酶) 受磷蛋白 CGI-96蛋白 leptin(鼠肥胖同系物) 假定蛋白FLJ14146 犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) 抑制素，βB(激活素AB β多肽) 羟基类固醇(17-β)脱氢酶2 脂肪酸结合蛋白7，脑血清类粘蛋白2 分泌性白细胞蛋白酶抑制物(抗白细胞蛋白酶) 肌动蛋白，γ2，平滑肌，肠人类mRNA；cDNA DKFZp564G112(来自克隆DKFZp564G112) III型肽酰精氨酸脱亚氨酶肌球蛋白，重链多肽11，平滑肌 S100钙结合蛋白A9(calgranulin B) 人类克隆23809mRNA序列整合素，β6 脂多糖结合蛋白谷氨酸受体，亲离子的，AMPA 3 Hs.241551 Hs.106642 Hs.25960 Hs.1892 Hs.289104 Hs.165950 Hs.173035 Hs.86859 Hs.272207 Hs.103707 Hs.274550 Hs.100000 Hs.54609 Hs.85050 Hs.239934 Hs.194236 Hs.103395 Hs.107318 Hs.1735 Hs.155109 Hs.26770 Hs.278388 Hs.251754 Hs.78045 Hs.51515 Hs.149195 Hs.78344 Hs.112405 Hs.6932 Hs.123125 Hs.154078 Hs.100014 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 17q21-q22 17q21.1 来自7q11.23-q21的人类FAC克隆RP5-1093017 KIAA1102蛋白跨膜4超家族成员3 v-erb-b2禽类成红细胞白血病病毒癌基因同系物2(成神经胶质瘤衍生的癌基因同系物) 蛋白质磷酸酶1，调节(抑制物)亚基1A HGC6.1.1蛋白粘蛋白和钙粘着蛋白样同源框A9 4-羟基苯基丙酮酸双加氧酶乳运铁蛋白 KIAA1069蛋白叶酸水解酶(前列腺特异膜抗原)1 精氨基琥珀酸合成酶角蛋白7 血管紧张素受体2 钙调蛋白样皮肤蛋白质电子转移黄素蛋白，α多肽(戊二酸尿II) S100钙结合蛋白A7(牛皮癣素1) Hs.193606 Hs.202949 Hs.84072 Hs.323910 Hs.76780 Hs.225962 Hs.165619 Hs.127428 Hs.2899 Hs.105938 Hs.193143 Hs.1915 Hs.160786 Hs.23881 Hs.3110 Hs.180142 Hs.169919 Hs.112408 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 17q11.2-q12 在ER+/低中下调的基因佛波醇-12-肉豆蔻酸酯-13-乙酸酯诱导的蛋白质1 动力蛋白、轴丝、光中间多肽细胞色素P450，亚家族IIB(苯巴比妥可诱导的)，多肽6 雌激素受体1 arternin 癌胚抗原相关细胞粘附分子1(胆汁糖蛋白) EST KIAA0575基因产物视黄酸受体，α 膜联蛋白A9 Cas-BF M(鼠)ectropic逆转录病毒转化序列c GATA结合蛋白3 假定蛋白FLJ12650 砷酸耐受蛋白ARS2 huntingtin相互作用蛋白2 假定蛋白FLJ13134 锌指蛋白165 人类cDNA：FLJ21695 fis，克隆COL09653 胰岛素样生长因子1受体 hepsin(跨膜蛋白酶，丝氨酸1) 双孔钾通道KT3.3 UDP-葡萄糖神经酰胺葡萄糖基转移酶人细胞色素P450-IIB(hIIB3)mRNA，完整cds sema结构域，免疫球蛋白结构域(Ig)，短基本结构域，分泌的，(semaphorin) 3F 微管相关蛋白τ Hs.96 Hs.33846 Hs.1360 Hs.1657 Hs.194689 Hs.50964 Hs.23703 Hs.193914 Hs.250505 Hs.279928 Hs.156637 Hs.169946 Hs.4243 Hs.111801 Hs.155485 Hs.99603 Hs.55481 Hs.306803 Hs.239176 Hs.823 Hs.203845 Hs.152601 Hs.330780 Hs.32981 Hs.101174 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 磷脂酰丝氨酸特异磷脂酶A1α 与假定蛋白PR02831(人类)类似的mRNA序列细胞色素c氧化酶亚基Vlc 腺苷酸环化酶9 人类细胞因子样核因子n-pac mRNA，完整cds 来自染色体6q25.1-26上克隆RP1-6315的人DNA序列，包含一种新基因的3 个部分和雌激素受体1(NR3A1，雌二醇受体)的ESR1基因的一个外显子、 EST、STS、和GSS。 calsyntenin 2 白介素6信号转导蛋白(gp130，制瘤素M受体) 激酶(PRKA)锚定蛋白10 N-乙酰基转移酶1(芳基胺N-乙酰基转移酶) 假定蛋白FLJ13687 cystatin SA 热休克27kD蛋白1 synaptojanin 2 Hs.17752 Hs.406646 Hs.74649 Hs.20196 Hs.331584 Hs.272288 Hs.12079 Hs.82065 Hs.75456 Hs.155956 Hs.278850 Hs.247955 Hs.76067 Hs.61289 26 27 28 29 30 31 32 33 34 35 36 37 38 39 b)ER-/低对ER-/高在ER-/低中上调的基因排序染色体 UDP-N-乙酰基-α-D-半乳糖胺：多肽N-乙酰基半乳糖胺转移酶6(GalNAc-T6) 醛脱氢酶4家族，成员A1 染色体6开放读码框29 黑素瘤抗原，家族D，2 苯乙醇胺N-甲基转移酶含三元基序3 假定基因MGC9753 ATP结合盒，亚家族C(CFTR/MRP)，成员6 SH3结构域结合富含谷氨酸蛋白样生长因子受体结合蛋白7 3-羟基-3-甲基谷氨酰-辅酶A合酶(线粒体) 成纤维细胞生长因子受体4 脂肪酸合酶粘蛋白1，跨膜 phafin 2 肉毒碱乙酰基转移酶假定蛋白FLJ20151 GATA结合蛋白3 含WW结构域蛋白1 转录因子AP-2β(激活增强子结合蛋白2β) KIAA0882蛋白 tetraspan 1 过氧化物酶体生物合成因子11A 溶质载体家族4，碳酸氢钠辅助转运蛋白，成员8 假定基因MGC9753 叉头盒A1 aquaporin 3 v-erb-b2成红细胞白血病病毒癌基因同系物2，成神经细胞/神经胶质细胞瘤 Hs.151678 Hs.77448 Hs.334514 Hs.4943 Hs.1892 Hs.321576 Hs.91668 Hs.274260 Hs.14368 Hs.86859 Hs.59889 Hs.165950 Hs.83190 Hs.89603 Hs.29724 Hs.12068 Hs.279916 Hs.169946 Hs.355977 Hs.33102 Hs.90419 Hs.38972 Hs.31034 Hs.132136 Hs.91668 Hs.70604 Hs.234642 Hs.323910 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 17q21-q22 17q21.1 17q11.2-q12 衍生的癌基因同系物(禽类) 肌醇1，4，5-三磷酸酯受体，1型假定蛋白PRO1489 醛脱氢酶3家族，成员B2 假定蛋白(人类)，mRNA序列双特异性磷酸酶6 碳酸酐酶XII NAD(P)H脱氢酶，醌1 甘露糖苷酶，α，类型1C，成员1 KIAA0703基因产物硬脂酰-CoA去饱和酶(δ-9-去饱和酶) 果糖-1，6-二磷酸酯酶1 芳基硫酸酯酶D X盒结合蛋白1 甲基巴豆酰-辅酶A羧化酶2(β) 突触体相关蛋白，23kDa 角蛋白样 anterior gradient 2同系物(非洲爪蟾) 假定蛋白FLJ20174 含TCP1陪伴蛋白，亚基2(β) 免疫球蛋白重链恒定区γ3(G3m标志物) 跨膜4超家族成员3 山梨糖醇脱氢酶 Hs.198443 Hs.197922 Hs.87539 Hs.381412 Hs.180383 Hs.5338 Hs.406515 Hs.8910 Hs.6168 Hs.119597 Hs.574 Hs.326525 Hs.149923 Hs.167531 Hs.184376 Hs.301947 Hs.91011 Hs.114556 Hs.432970 Hs.300697 Hs.84072 Hs.878 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

DRAGON ERE探测器(DEREF)用于在基因启动子中鉴定假定ERE 的用途

使用DEREF算法在属于多种类型的基因的启动子中确定潜在的 ERE(关于DEREF的根本方法学描述见 http://sdmc.lit.org.sg/ERE-V2/index)。参考文献14的原稿可以经由 http://www.omniarray.com/ERCLassification.html获得。雌激素诱导的SAGA数据集衍生自 http://143.111.133.249/ggep(见参考文献13)，采用阈值3hr，增加倍数≥2和3hr，p值＜0.005。选择了65种SAGE标签。这65种SAGE标签与68种基因匹配，并将它们进一步进行ERE分析。与ER状态负相关的前100种基因的基因组(gene set)是使用SAM衍生的。表S6a描述了结果。

表S6a：对多个数据集的ERE预测：E2诱导的SAGE数据集、与ER+负相关的基因和SAM-133基因组(set) 数据集无ERE 低高具有高置信度的ERE命中(hit) N/A E2诱导SAGE ER负相关基因 SAM-133 21 50 15 15 22 15 21 6 17 41.18％ 7.69％ 36.17％ 11 22 23

表S6b：通过DEREF对正文主体表2所列基因预测的ERE模式表2的ERE模式基因名称排序 ERE模式在ER+中扰动的50种基因中具有高置信度的12种ERE 膜联蛋白A9 N-乙酰基转移酶1(芳基胺N-乙酰基转移酶) 视黄酸受体α B细胞CLL/淋巴瘤2 RNB6 G蛋白信号的调节物11 UDP-葡萄糖神经酰胺葡萄糖基转移酶 ATP结合盒，亚家族A(ABC1)，成员3 碳酸酐酶XII 丝氨酸(或半胱氨酸)磷酸酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员3 腺苷酸环化酶9 血红素结合蛋白1 4 5 7 11 13 21 25 33 34 40 44 46 PP 2783 CA-GGGCA-CCC-CAGCC-TG新的 CCTGTTGGGGCACATACCAGCAGGGCACCCCAGCCT GCACCCCAGAGGGGGTCCCAG 21 PP 150 AA-GGTTA-CAA-TAACC-AA新的 CCACCTTCAAATCATACTACAAGGTTACAATAACCAA AACAGCGTGGTACTGATACA 21 PP 2149 GA-GGTCC-CTC-TGCCC-CT新的 TGAAGTTGATCTGTTGTATTGAGGTCCCTCTGCCCCT ATATTTATCCTAAATGGTAT 21 PP 647 CA-GGGCA-CAG-TGGCT-CA新的 GACAAAATAAAGATGTCAGGCAGGGCACAGTGGCTC ATGTCTGTAATCCCAGCACTT 21 PP 1920 TT-GGTCA-GGC-TGGTC-TC已知的 AAAGACAGGGTTTCACCATGTTGGTCAGGCTGGTCT CGAACTTCTGACCTCAGGTGA 21 PP 847 CG-GGTCA-CTG-CAACC-TC新的 GGAGTGCAATGGTGCAATCTCGGGTCACTGCAACCT CCGCCTCCTGGGTTCAAGCGA 21 PP 466 TG-AGTCA-CCG-TGCCC-AG新的 AAGTGCTGGGATTACAGGCGTGAGTCACCGTGCCCA GCCAATGGCTTGTGGTTTTCT 21 PP 1363 CA-GGGCA-CAG-TGGCT-CA新的 GCACAGAGATAAAACCTCGGCAGGGCACAGTGGCTC ACGCCTGTAATCCCCACACTT 21 PP 1376 TA-GGCCA-AAC-TAACC-TT新的 TCCTTATTCATTCCTGGGCATAGGCCAAACTAACCTT AGAAAGGAATTCAGTTTATG 21 PP 2408 TT-GGTCG-GAC-TGGTC-TT新的 AGAGACAGGGTTTCACCTTGTTGGTCGGACTGGTCT TGAACTCCTGACCTCGTGATC 21 PP 710 TT-GGTCA-GGC-TGGTC-TC已知的 AGAGATGGGGTTTCTCCGTGTTGGTCAGGCTGGTCT CGAACTCCCGACCTCAGGTGA 21 PP 1738 GA-GGTCC-GGG-TGGCC-GC新的 AAAGAGCAGAGGCGCCCGTAGAGGTCCGGGTGGCC GCTGCTGTTAACATCCATCACT 21 在ER-中扰动的50种基因中具有高置信度的3种ERE LAG1长寿确保同系物2(酿酒酵母) 果糖-1，6-二磷酸酶1 假定蛋白MGC2601 13 15 33 PP 3662 CA-GGCCA-GGG-CAACC-CC新的 CCCAAGCCACAGGACGCGTCCAGGCCAGGGCAACC CCGCGGGCCGCTGCCAGGGTGG 21 PP 776 TT-GGTCA-GGC-TGGTC-TC已知的 AGAGACGGGGTTTCTCCATGTTGGTCAGGCTGGTCT CGAGCTCCCAACCTCAGGTGA 21 PP 966 CT-GGTCA-GGC-TGGTC-TT新的 AGAGACGAGGTTTCTCCATGCTGGTCAGGCTGGTCT TGAACTCCCGACCTCAGGTGA 21

表S7：SAM-133基因集表达数据的平均值(μ)和标准偏差(σ)的加权表决参数探针ID 基因名称 ER- ER+ 平均值 SD 平均值 SD 200670_at X盒结合蛋白1 0.786506 0.716285 4.265411 1.422852 201508_at 胰岛素样生长因子结合蛋白4 -0.34357 1.388805 2.57045 0.925761 201754_at 细胞色素c氧化酶亚基Vlc -1.58027 1.870693 1.927493 1.237708 201825_s_at CGI-49蛋白 3.371655 1.153737 5.720964 0.582412 201983_s_at 表皮生长因子受体(禽类成红细胞性白血病病毒(v-erb-b)癌基因同系物) -0.23687 1.75591 2.753161 0.803569 201984_s_at 表皮生长因子受体(禽类成红细胞性白血病病毒(v-erb-b)癌基因同系物) -1.44281 0.960058 2.42027 2.337701 202088_at LIV-1蛋白，受雌激素调控 1.312524 1.221556 3.870357 0.929939 202089_s_at LIV-1蛋白，受雌激素调控 1.734565 1.093064 4.085214 0.81537 202376_at 6_at 丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员3 2.023548 1.032196 4.420661 0.934515 202752_x_at 溶质载体家族7(阳离子氨基酸转运蛋白，y+系统)，成员8 1.981605 1.049118 4.149982 0.712426 202996_at 聚合酶(DNA指导的)，δ4 0.786499 1.029001 3.014232 0.865812 203021_at 分泌性白细胞蛋白酶抑制物(抗白细胞蛋白酶) 0.355523 0.675879 3.16287 1.761351 203071_at sema结构域，免疫球蛋白结构域(Ig)，短基本结构域，分泌的，(semaphorin)3B 1.825558 0.726706 4.052804 1.145816 203108_at 视黄酸3诱导的 -2.75146 0.887259 -0.09227 1.606679 203234_at 尿苷磷酸化酶 -2.68964 1.552946 0.243702 1.641435 203289_s_at α球蛋白簇末端的保守基因 3.20195 0.718557 5.197518 0.987453 203438_at stanniocalcin 2 -1.29648 1.055361 0.795528 0.993152 203439_s_at stanniocalcin 2 -1.57332 1.345545 0.998514 1.454402 203571_s_at 脂肪特异的2 0.233895 0.988328 2.283714 1.060332 203627_at 胰岛素样生长因子1受体 0.141016 0.610073 2.127288 1.174363 203628_at 胰岛素样生长因子1受体 2.29995 0.509475 3.833107 0.788714 203685_at B细胞CLL淋巴瘤2 -1.10751 1.324287 1.15701 1.355875 203749_s_at 视黄酸受体α -1.58118 1.167735 0.537334 1.268906 203928_x_at 微管相关蛋白τ 0.359852 0.516477 1.888305 0.821962 203929_s_at 微管相关蛋白τ -2.59884 0.565755 -0.00962 2.145673 203963_at 碳酸酐酶XII 1.190756 3.229512 4.402 1.181501 204041_at 单胺氧化酶B -3.13061 1.085626 -0.75919 1.755041 204343_at ATP结合盒，亚家族A(ABC1)，成员3 -0.29571 1.843682 2.228971 1.512389 204497_at 腺苷酸环化酶9 -2.34613 1.534418 -0.05573 1.429526 204508_s_at 假定蛋白FLJ20151 -3.52135 1.303031 -0.87495 2.10528 204623_at 三叶草因子3(肠) -0.37083 1.33889 1.50405 0.899477 204792_s_at KIAA0590基因产物 -0.9475 1.745737 1.257564 1.170708 204798_at v-myb禽类成髓细胞病病毒癌基因同系物 1.288571 1.107004 3.060625 0.97928 204862_s_at 在非转移细胞3中表达的蛋白质 -1.44821 0.786716 0.388854 1.271171 204863_s_at 白介素6信号转导蛋白(gp130，制瘤素M受体) -0.10956 1.179102 1.970259 1.431009 204881_s_at UDP-葡萄糖神经酰胺葡萄糖基转移酶 -1.39262 1.195462 1.156751 2.153286 204913_s_at SRY(性别决定区Y)盒11 -2.53383 1.536914 -0.16571 1.727001 204914_s_at SRY(性别决定区Y)盒11 -1.8799 1.273909 0.144791 1.375233 204915_s_at SRY(性别决定区Y)盒11 0.484505 1.125341 2.823356 1.941558 204934_s_at hepsin(跨膜蛋白酶，丝氨酸1) 0.462278 0.985428 2.501289 1.570414 205009_at 三叶草因子1(在乳癌中表达的雌激素可诱导的序列) -1.98675 1.39922 -0.14861 0.959657 205081_at 富含半胱氨酸蛋白1(肠) 0.366598 1.124549 1.87895 0.590829 205186_at 动力蛋白、轴丝、光中间多肽 -2.39302 0.959482 -0.48343 1.433455 205225_at 雌激素受体1 -1.62943 1.558096 0.488988 1.459551 205354_at 醋酸胍N-甲基转移酶 0.719039 0.547264 2.096279 0.868384 205380_at 含PDZ结构域1 -0.92507 1.254295 1.252606 1.789471 205471_s_at dachshund(果蝇)同系物 1.676963 0.591793 3.169036 1.05951 205645_at 含RALBP1相关Eps结构域2 -0.63258 1.838056 2.053427 2.368533 205646_s_at 配对盒基因6(无虹膜，角膜炎) -0.06075 0.836545 1.524428 1.119938 205696_s_at GDNF家族受体α1 3.8834 1.041947 5.212661 0.43379 205734_s_at 与AF4相关的淋巴样核蛋白 -1.3702 1.00987 0.420671 1.393757 205768_s_at 脂肪酸-辅酶A连接酶，非常长链1 0.5008 0.790296 2.069968 1.166292 205862_at KIAA0575基因产物 2.848348 1.291904 4.670661 1.303459 206107_at G蛋白信号调控物11 -1.36697 1.337414 0.179662 0.681822 206401_s_at 微管相关蛋白τ otein tau -3.3514 1.637863 -1.01214 2.020108 206469_x_at 醛酮还原酶家族7，成员A3(黄曲霉毒素醛还原酶) 0.948475 0.99349 2.289914 0.621401 5754_s_at 细胞色素P450，亚家族IIB(苯巴比妥可诱导的)，多肽6 -0.71324 1.775643 1.082716 0.869708 207030_s_at 富含半胱氨酸和甘氨酸蛋白2 -2.03214 1.126525 -0.19338 1.540646 207038_at 溶质载体家族16(一元羧酸转运蛋白)，成员6 0.374876 0.580637 1.790818 1.094049 207414_s_at 配对碱性氨基酸切除系统4 0.341324 1.065353 2.062852 1.376036 207847_s_at 粘蛋白1，跨膜 0.247008 1.354516 2.257601 1.737215 208305_at 孕酮受体 -1.24605 0.974745 0.384022 1.29497 208451_s_at 补体成分4B -4.78762 1.049086 -2.66361 2.080728 208682_s_at 肝细胞癌相关蛋白；乳癌相关基因1 -1.959 0.821013 -0.3239 1.382716 208788_at 酵母长链多不饱和脂肪酸延长酶同系物2 0.152008 0.660975 1.523099 1.038038 209173_at anterior gradient 2(非洲爪蟾)同系物 -4.28803 0.661578 -2.56017 1.677193 209339_at eeven in absentia(果蝇)同系物2 1.270858 1.066389 2.646046 0.849767 209443_at 丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员5 4.667825 0.671724 5.873446 0.804606 209459_s_at NPD009蛋白 1.072112 1.457092 2.973341 1.645057 209460_at NPD009蛋白 -0.96002 1.349904 0.607753 1.04472 209581_at 与大鼠HREV107类似 -0.56188 0.872894 0.668399 0.727131 209602_s_at GATA结合蛋白3 2.019065 1.056594 3.416464 0.940078 209603_at GATA结合蛋白3 1.985985 0.863569 3.186089 0.674166 209604_s_at GATA结合蛋白3 2.395052 1.790175 4.34208 1.519527 209623_at 甲基巴豆酰-辅酶A羧化酶2(β) -1.00419 1.154041 0.445889 1.017354 209696_at 果糖-1，6-二磷酸酶1 -1.68104 0.963742 -0.1215 1.377052 209800_at 角蛋白16(病灶非表皮松懈性掌跖角化病) 2.324715 1.562155 4.012295 1.229197 210085_s_at 膜联蛋白A9 2.4829 1.125042 4.043161 1.290489 210272_at 人细胞色素P450-IIB(hIIB3)mRNA，完整cds 1.01495 0.91653 2.191543 0.64021 210480_s_at 肌球蛋白VI -0.14392 1.616287 1.455335 1.006298 210652_s_at DEME-6蛋白 1.251577 0.889677 2.556116 0.970199 210735_s_at 碳酸酐酶XII 1.213425 2.03426 3.084783 1.272118 211000_s_at 白介素6信号转导蛋白(gp130，制瘤素M受体) -3.02427 1.43442 -1.18813 1.697067 211233_x_at 雌激素受体1 -0.0459 1.740133 1.544577 0.867934 211234_x_at 雌激素受体1 0.044649 1.763802 1.765441 1.206805 211235_s_at 雌激素受体1 -2.24335 1.765844 -0.48324 1.306074 211323_s_at 肌醇1，4，5-三磷酸酯受体，1型 2.749775 0.789763 3.855643 0.652063 211596_s_at 膜糖蛋白LIG-1的人类mRNA，完整cds 0.451307 1.03825 1.691284 0.751559 211712_s_at 人类克隆MGC：1925，mRNA，完整cds 0.615955 1.516076 2.069047 0.790366 212195_at 人类mRNA；cDNA DKFZp564F053(来自克隆DKFZp564F053) 0.66476 0.873729 1.797193 0.663081 212196_at 人类mRNA；cDNA DKFZp564F053(来自克隆DKFZp564F053) 1.370605 0.637597 2.49272 0.820267 212496_s_at KIAA0876蛋白 2.9339 0.874367 4.097768 0.756001 212637_s_at 人类mRNA；cDNA DKFZp434D2111(来自克隆DKFZp434D2111) -1.88266 1.081913 -0.63578 0.780821 212638_s_at 人类mRNA；cDNA DKFZp434D2111(来自克隆DKFZp434D2111) 2.261515 1.394089 3.785398 1.192581 212956_at KIAA0882蛋白 -2.7829 1.397052 -0.86347 2.046812 212960_at KIAA0882蛋白 -0.50333 1.45485 0.947772 1.02444 213201_s_at 肌钙蛋白T1，骨骼的，缓慢的 -1.9544 1.210569 -0.40381 1.441706 213412_at 紧密连接蛋白3(闭锁小带3) 2.951875 0.714379 4.007446 0.711117 213419_at 淀粉状蛋白β(A4)前体蛋白结合，家族B，成员2(Fe65样) -2.21361 1.478023 -0.51415 1.591816 213712_at 人类mRNA；cDNA DKFZp434E082(来自克隆DKFZp434E082) 0.270749 0.847277 1.499404 1.020576 214053_at 人类克隆23736 mRNA序列 -0.39205 1.186238 0.845048 0.820314 214164_x_at 衔接物相关蛋白复合物1，γ1亚基 -1.08541 1.111223 0.178117 0.95879 214428_x_at 补体成分4A 0.533406 0.838849 1.642348 0.807099 214440_at N-乙酰基转移酶1(芳基胺N-乙酰基转移酶) -0.99962 0.684062 0.154358 0.999297 215304_at 人类克隆23948 mRNA序列 2.4353 0.529481 3.488893 0.879103 215552_s_at 来自染色体6α25.1-26上克隆RP1-6315的人DNA序列，包含一种新基因的3个部分和雌激素受体1(NR3A1，雌二醇受体)的ESR1基因的一个外显子、EST、STS、和GSS。 -4.0518 1.024367 -2.20072 2.254477 215616_s_at KIAA0876蛋白 2.582125 0.659442 3.570411 0.700552 215729_s_at TONDU 1.641575 0.849076 2.756482 0.863148 215867_x_at 衔接物相关蛋白复合物1，γ1亚基 -0.42352 0.884606 0.727052 0.926142 216092_s_at 溶质载体家族7(阳离子氨基酸转运蛋白，y+系统)，成员8 0.063651 1.352604 1.366287 0.918248 216109_at 人类cDNA：FLJ21695 fis，克隆COL09653 -1.17386 1.143511 0.232514 1.345207 216381_x_at 醛酮还原酶家族7，成员A3(黄曲霉毒素醛还原酶) 0.46636 0.383625 1.657506 1.251032 217190_x_at 雌激素受体(外显子6)，人的，三苯氧胺耐受性乳瘤17，基因组突变体，187nt 0.899139 0.533766 2.030393 1.097631 217838_s_at RNB6 -1.31066 0.930532 -0.16453 0.933916 218195_at 假定蛋白FLJ12910 0.847629 0.786234 2.077682 1.202885 218450_at 血红素结合蛋白 0.080843 0.82158 1.234993 1.027254 218502_s_at 毛鼻指(趾)综合征1 -1.57325 1.012703 -0.27651 1.276184 218806_s_at vav3癌基因 1.662298 0.790643 2.689179 0.799202 218976_at 含J结构域蛋白1 -1.84709 1.306292 -0.43267 1.374615 219001_s_at 假定蛋白MGC10765 -2.18314 1.146729 -0.93169 1.100879 219051_x_at 假定蛋白MGC2601 -1.64776 1.079359 -0.04531 1.917545 219197_s_at CEGP1蛋白 3.017955 0.866409 4.110571 0.929583 219414_at calsyntenin-2 219663_s_at 假定蛋白MGC4659 219682_s_at TBX3同工蛋白 -2.31967 2.774285 -5.24093 1.743328 219919_s_at 假定蛋白FLJ10928 1.5957 1.348698 -0.22476 1.003375 220329_s_at 假定蛋白FLJ20627 1.476165 1.643622 -0.81183 1.617203 220581_at 假定蛋白FLJ23305 0.707923 1.691725 -1.11592 1.188481 220744_s_at WD重复结构域10 -1.15664 1.569856 -2.79242 0.859538 221765_at ESTs 1.266316 0.936218 -0.08462 0.892242 222212_s_at 肿瘤转移抑制基因 0.105187 1.541242 -1.65582 1.335109 222314_x_at ESTs 2.914925 1.476344 1.290308 1.093452 41660_at 包括AL031588：dJ1163J1.1(小鼠跨膜受体Celsr1的直向同系物)的簇(KIAA0279像与大鼠 MEG相似的含EGF秤结构域蛋白质 -1.50101 2.986928 -3.88453 1.411412 -0.50993 0.923661 -1.93244 1.140847 0.987597 0.893199 -0.11725 0.498882

表S8：表A4的基因(共有的13种基因)的基因表达数据

UID 名称 2000683T+neg 2000775T+neg 2000804T+neg 980346T+pos 980383T+neg

990082T+neg 980177T+neg 980178T+neg 980403T+neg 980434T+neg 990075T+neg

990113T+neg 990107T+neg 980203T+neg 980208T+pos 980220T+pos 980221T+neg

990115T+pos 990375T+neg 980404T+neg 980409T+neg 990123T+neg 2000422T+neg

2000787T-LA 2000818T-LA 20020021T-LA 20020051T-LA 20020056T-LA 980197T+pos

980215T+neg 980217T+neg 980261T+neg 980391T+neg 2000768T+pos 2000779T+neg

2000948T+neg 20020160T-LA 2000401T-LA 20020071T-LA 2000215T-正常样

2000220T-LA 980333T-LA 980058T-LA 980278T-LA 980288T-ERBB2 2000597T-LA

2000609T-LA 2000272T-LA 2000274T-正常样 980285T-基础 2000593T-基础

2000638T-基础 2000641T-ERBB2 2000675T-ERBB2 2000287T-ERBB2 2000320T-基础

2000880T-基础 2000731T-基础 980353T-neg 2000829T-pos 980373T-pos 2000500T-neg

2000759T-pos 980238T-pos 980395T-pos 980396T-pos 980411T-neg 980441T-neg

990262T-neg 980216T-neg 980194T-pos 980247T-pos 980338T-neg 990174T-neg

990299T-neg 2000210T-ERBB2 980315T-LA 980335T-ERBB2 980193T-基础

980256T-基础 980214T+pos 990148T+pos 2000209T+pos 990223T+pos

2000104T-ERBB2 2000651T-正常样 2000237T-ERBB2 2000652T-ERBB2 2000376T-ERBB2

2000399T-ERBB2 20020090T-ERBB2 2000709T-ERBB2 2000813T-pos 980380T-pos 990134T-pos

2000171T-ERBB2

置信度高高高高高高高高高

高高高高高高高高高高高高

高高高高高高高高高高高低

低低低低低低低低低低低低

低低低

201525_at 载脂蛋白D 2.749 7.332 2.111 2.803 1.752 1.958 1.75

2.712 4.541 3.009 3.613 4.291 1.486 4.204 2.849 3.388 3.262 3.603

3.097 7.419 5.491 4.873 1.444 2.954 1.296 3.352 2.856 2.266 5.145

4.695 4.072 6.963 4.804 2.886 0.7888 3.226 0.3389 1.921 2.803 4.261

4.993 4.251 0.785 6.066 4.539 2.019 5.235 1.808 4.592 0.09904 2.77 2.85

3.059 3.353 1.229 1.679 1.879 2.77 0.9126 4.246 6.957 3.753 7.109 4.31

1.624 2.986 2.603 0.984 4.797 0.5836 5.433 2.722 1.66 3.161 2.94

0.3395 1.008 4.023 2.417 4.21 4.833 5.118 0.7322 7.893 5.443 5.369

1.104 6.198 2.819 3.773 1.536 1.673 6.562 4.973 6.796 6.121

202991_at 含START结构域3 0.1623 0.7959 -0.3925 3.014 0.4513

0.2522 0.3208 -0.2599 0.5714 -0.5644 0.5246 0.8061 0.6035 -0.3416 2.886 0.8943

-0.6905 2.991 0.6204 0.4511 -0.4408 -0.2534 0.07863 1.517 0.6792 0.6636 0.2455

-0.1443 2.871 -0.3209 -0.05486 1.605 0.1314 2.252 0.002929 0.9972

0.08306 2.623 0.4914 0.4794 -0.02506 0.1142 0.3137 0.5399 3.005 0.2001

2.758 0.1815 0.1945 -0.05305 0.6643 0.5267 2.002 0.462 3.014 0.2885

0.1389 -0.05295 -1.923 1.882 0.5175 0.09324 1.667 3.328 2.384 3.651

1.299 0.1444 0.158 1.234 2.21 0.1798 -0.1465 0.411 0.5087 3.457 1.745

3.551 -0.2846 0.158 2.62 3.53 3.728 3.149 0.2238 -0.9861 -0.3033 3.286

-0.07757 2.736 3.579 2.466 1.495 2.523 3.703 3.77

203628_at 人胰岛素样生长因子1受体mRNA，3′序列，mRNA序列

2.795 2.381 5.773 1.45 3.568 3.288 2.631 2.062 2.515 4.693 2

2.984 3.098 4.667 2.513 2.232 2.442 0.5148 2.452 3.675 4.111 2.55

3.705 1.115 1.538 1.731 2.76 3.559 2.259 1.855 0.6405 3.657 4.928

2.664 6.732 6.752 0.5081 2.53 1.503 1.872 4.124 1.466 3.48 2.903

0.2213 3.556 1.22 1.193 3.206 -0.1502 0.07299 0.3962 0.5347 0.7098 0.06693

0.09198 0.3905 -0.02844 -0.009415 1.025 0.7389 2.194 0.4784 1.723

0.222 0.05793 0.573 3.054 1.338 0.6058 1.426 1.54 0.9868 0.84 0.1264

0.2324 -0.258 1.21 -0.8171 1.998 1.449 -0.1467 0.3772 1.21 -0.4615 1.451

0.1205 -0.1947 -0.9146 1.441 -0.8475 0.04923 0.4557 -2.688 0.2235 0.5537

205307_s_at 犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) -0.117 -1.011

-2.489 -0.9037 -1.085 -1.12 -1.219 -1.735 -1.829 -1.721 -1.433 -0.02038

1.167 -1.694 -1.571 1.055 -2.743 0.03987 0.01731 0.1225 0.1203 -1.484 -0.591

-1.35 -0.2275 0.7435 -1.218 -0.4883 -0.8609 -0.7848 -0.2848 -1.499 -0.3403 -1.388

-0.9036 -0.3888 -0.4186 -1.082 -1.261 -1.201 -0.1329 -1.222 -1.679 -0.2855 0.5551

-1.587 -0.1132 -1.485 -1.13 0.7033 -0.7773 0.7705 0.008025 -0.2992 0.06924

-0.3291 -2.038 -1.017 -3.967 -0.4769 0.8039 -1.589 -0.7423 -0.4919 -1.328 0.2971

-1.549 -0.7277 1.643 -1.604 0.5154 -0.09918 -0.6515 -0.8327 -0.986 -0.04337

-0.95 -0.273 -0.3601 -2.266 1.182 0.7985 -0.8065 1.063 2.302 -0.6945 -1.219

0.9502 -0.894 0.7855 -1.668 0.1515 -0.3956 -1.677 0.22 1.595

210761_s_at 生长因子受体结合蛋白7 0.4452 1.205 1.412 2.858

1.493 1.508 0.3961 0.7703 1.033 0.922 0.4947 1.016 1.668 1.669 2.906

1.568 0.889 3.42 1.335 0.6151 0.7453 0.6185 1.248 1.748 2.238 0.6557

0.7697 1.296 4.588 0.7527 0.5559 0.7794 0.9863 1.981 1.503 0.3864 0.5489

3.704 0.7039 1.561 0.9271 0.6039 0.9461 1.471 3.699 1.334 1.981 0.6054

0.5662 1.051 1.677 1.507 3.042 1.307 4.472 1.189 0.7615 0.228 0.6253

3.214 1.966 0.6688 2.263 3.093 2.839 1.988 1.721 1.684 0.6625 1.159 2.94

1.063 0.1599 1.04 0.2849 3.697 2.31 3.887 0.6321 0.7463 3.728 5.268

3.912 3.666 1.984 0.7088 0.5511 3.982 5.042 4.321 4.339 4.248 2.174

3.317 4.032 4.736

210930_s_at v-erb-b2成红细胞性白血病病毒癌基因同系物2，成神经细胞/胶质

细胞瘤衍生癌基因同系物(禽类) -0.8461 -2.708 -0.9694 0.3187

-1.475 -1.568 0.3559 -1.343 -2.559 -0.9886 -1.727 -1.466 -0.1998 -0.8977 0.3377

-0.374 8-1.943 1.36 -1.455 -1.361 -1.218 -1.374 -0.4494 1.16 0.7238 -0.4209

-2.201 -0.4352 1.833 -1.829 -0.6478 -4.138 -0.5983 0.6215 -1.066 -1.07 -0.332

1.556 -0.5345 -0.8175 -0.2384 -1.649 -0.837 0.487 1.322 -0.7451 0.7285 -0.9136

-1.812 -3.225 -0.1626 -1.19 1.542 -0.4326 1.705 0.2116 -0.2503 -1.408 -1.292

1.544 -0.8231 -1.735 0.4762 0.09548 -0.7243 -0.7869 -1.927 -1.524 -2.637 -4.457

-0.278 -2.773 -2.013 -1.611 -2.056 1.532 0.08922 2.774 -0.2269 -1.08 1.078 2.7

1.397 1.554 -1.5 -0.9627 -0.8952 2.069 1.728 3.212 3.121 3.149 1.108

-0.7891 0.9288 2.864

211657_at 癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原)

3.887 1.127 5.069 1.162 4.256 2.372 0.06854 2.496

0.534 1.805 0.6949 4.237 3.755 -0.05911 1.471 1.388 1.548 1.032

4.176 0.407 3.742 3.638 4.006 3.88 5.988 1.433 0.1368 2.179 3.537

0.7946 0.4718 3.327 -0.02141 1.842 0.3149 5.084 0.3826 1.889 -0.9834

2.416 0.3955 0.08346 1.603 2.92 3.158 0.7611 5.397 -0.485 0.3396 0.1982

0.2382 1.376 4.494 0.6605 4.674 4.38 -0.2242 0.2056 -0.3151 3.863 0.983

0.8939 1.474 0.5326 3.265 -0.034 -0.8774 -0.5614 2.687 5.257 4.683 0.7389

0.7168 0.8051 4.189 4.894 4.905 1.134 0.431 0.5341 3.92 5.643 4.536

4.869 3.96 0.6223 5.275 4.33 3.687 4.673 0.2819 1.224 2.126 5.62

3.871 0.6072

213557_at EST，与普遍转录的tetratricopeptide重复基因微弱相似，Y染色体；Y染色体上的普遍转录的TPR基因(人类)

[H.sapiens] 1.252 1.184 0.5043 3.153 1.387 1.868 0.5293 -0.2155 0.3275

0.5276 1.395 1.851 1.543 0.5434 2.397 1.591 0.1861 1.623 1.723 0.7596

0.5377 0.3335 1.596 2.154 1.513 1.603 0.1632 1.181 3.969 0.5737 1.136

2.645 0.6143 2.339 0.2645 0.7221 0.6219 3.499 0.5513 1.099 0.9166 1.378

0.6302 0.9299 3.592 0.9732 3.427 0.7249 0.7654 0.586 1.397 -1.58 3.088

0.7145 4.663 0.5107 1.368 1.251 0.8759 1.862 2.072 1.048 0.8533 3.836

2.693 4.055 1.126 0.493 0.3712 1.462 1.211 0.621 1.516 0.4326 1.09 2.63

2.419 0.667 0.5337 0.3296 3.749 3.494 3.834 3.956 1.295 -0.3071 0.5377

0.8307 1.086 2.534 3.733 3.321 2.127 0.05067 3.98 4.461

214451_at 转录因子AP-2β(激活增强子结合蛋白2β)

-3.097 2.467 -3.372 3.439 0.1365 -1.298 2.39 1.441 2.839 2.516 -1.258

-2.597 -0.5943 1.978 -0.9813 -1.202 1.496 3.43 3.001 -1.562 2.541 -4.519

2.889 0.6659 1.661 -2.472 1.623 3.059 -2.935 3.575 1.469 -4.59 3.603

3.517 -3.813 -0.1878 4.003 -0.4031 0.88 2.51 -4.28 2.753 1.234 -4.588

3.173 -4.705 1.066 -1.809 1.967 -2.498 1.153 0.279 2.117 3.623 -0.005383

1.745 -4.141 -1.479 -1.257 1.798 4.45 -1.547 2.506 3.646 -3.226 -0.913

-3.058 -3.123 3.658 -1.289 3.548 -0.2634 -1.531 -4.923 2.247 1.723 -2.025

3.197 -2.015 -0.7008 4.068 3.333 -1.154 4.028 3.88 0.3311 3.34 2.444

2.631 3.682 3.38 3.92 3.618 4.305 3.96 4.973

215465_at ATP结合盒，亚家族A(ABC1)，成员12 -5.53 -0.2993

-2.982 -1.196 -1.515 -1.129 1.018 -2.386 -0.3181 -1.932 -1.838 0.7215 -1.211

-1.273 -1.483 -0.995 -1.928 -1.288 -1.39 -0.7415 -0.23 -2.464 -1.478 -0.2715

-1.114 -2.064 1.22 -2.498 -0.9399 -2.507 -0.4786 -2.321 -0.5358 -2.004 -2.388

-2.234 0.078 -1.043 1.185 -1.93 -1.992 -2.169 -2.156 -2.18 0.381 -4.889

1.702 -1.345 -1.946 -1.149 -0.7878 -0.6671 -1.429 -0.559 -1.242 -2.897 -2.329

-1.631 -2.476 -0.6065 0.4199 -2.905 -0.8082 -1.942 -1.804 -1.404 -1.384 -3.471

0.2961 -0.6596 -0.5091 -2.246 -2.386 -2.697 -1.245 0.4357 -0.7417 -0.01172

-1.168 -2.224 -0.5227 1.617 -0.04832 0.4729 -0.4882 -2.002 -0.5482 1.449

-1.664 0.7275 0.8683 -2.091 0.14 0.4634 1.916 0.7919

219429_at 脂肪酸羟化酶 -1.539 -0.2486 -0.06329 -0.606 -1.426

-1.273 0.05695 0.4841 0.3636 -0.7702 -1.403 -0.7 -1.611 -0.5367 0.6557 -0.5048

-0.9159 0.8194 -1.687 -1.037 -0.6167 -0.1531 -1.306 0.1918 -0.531 0.2454 0.7654

-1.344 0.7986 0.2327 -0.9519 -0.8758 -1.052 -0.6758 0.8207 -0.1432 -0.4994 -0.0002446

-0.2944 -1.152 -0.2746 -1.314 0.3005 -0.5842 0.218 -0.5254 -0.7197 -0.6967 -0.2

-0.8899 -0.2978 0.2625 1.562 -1.044 1.383 -0.5091 -0.3997 -0.8286 -3.217 -0.2482

0.5994 0.06282 0.06886 0.1471 0.9134 0.1739 0.6888 -1.575 0.3812 -0.6085 0.7442

-0.7528 -0.5949 -0.4236 -0.7073 1.218 -0.4363 1.209 0.3444 -0.969 0.2863 0.9532

0.7178 1.296 0.6456 -0.4466 1.152 0.4512 1.933 1.497 -0.3116 0.1834 0.142

1.228 1.876 1.35

220149_at 假定蛋白FLJ22671 -0.585 -1.416 -0.7662 2.221 -0.3646

-0.8895 -0.6838 -0.5557 -0.4347 -0.4597 -0.07175 -0.09613 -0.4148 -0.781

-1.112 -0.482 -1.328 -0.6111 -2.445 -1.028 -0.6113 -0.08989 -1.397 -0.5025

-0.3443 -1.424 -0.3695 -0.8427 0.4616 -1.052 -1.163 -0.9368 -0.3882 0.7431 -0.04467

-0.4188 -0.7193 2.204 -1.393 -0.7435 -1.423 -0.5707 -0.4196 -0.6552 2.686 -0.6905

4.914 -0.3156 -0.9062 -0.1168 0.2261 0.1723 0.386 1.191 2.885 -0.7671 -2.42

-0.2398 -1.799 2.044 0.8819 -0.3224 3.604 1.023 3.736 2.807 -0.5473 -1.357

0.3665 -0.2828 -0.246 -0.01971 0.4476 -0.5921 -0.2366 1.906 -0.3266 2.079

0.2249 -0.5295 0.08667 2.691 1.636 1.349 -0.3243 -1.536 1.435 4.099 -0.8161

1.734 2.641 1.301 1.355 -1.242 1.708 3.096

39248_at aquaporin 3 0.4769 -0.2623 -0.7927 1.948 0.03186 2.194 0.6044

2.335 -0.1663 0.4244 1.476 3.025 0.6734 2.102 3.241 -0.5173 0.8267 3.789

2.556 -0.07496 2.804 1.786 -1.024 0.4586 2.795 0.6762 0.07351 0.3396

0.4198 0.7147 1.677 2.114 -0.1301 0.06363 3.336 3.314 0.1946 1.919 -0.1613

0.8785 -0.1946 -0.1926 -1.876 3.881 0.3148 -1.082 -0.852 0.0508 0.3455 -0.9268

0.2052 0.2611 0.8294 2.1 1.987 3.696 0.8302 1.104 -1.175 3.041 0.07521

3.434 3.543 0.13 1.305 0.1424 2.271 1.841 0.7022 4.044 4.959 0.2898

0.4821 1.642 0.9258 1.169 -0.382 -0.8969 0.8155 1.156 3.712 2.333 1.722

1.466 3.247 1.128 1.167 3.68 4.088 4.324 -0.5153 2.505 5.002 0.05894

5.292 0.9251

注：neg-阴性；pos-阳性

表S9：表A4(共有的13种)基因组(geneset)表达数据的平均值(μ)和标准偏差(σ)的加权表决参数探针ID 基因名称全长参考序列 Unigene 高置信度低置信度平均值 SD 平均值 SD 在低置信度肿瘤中上调的 201525_at 载脂蛋白D NM_001647 Hs.75736 3.213993 1.711066 4.43395 2.23157 202991_at 含START结构域3 NM_006804 Hs.77628 0.838735 1.186229 2.215114 1.621765 205307_s_at 犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) NM_003679 Hs.107318 -0.75339 0.924201 0.105819 1.199695 210761_s_at 生长因子受体结合蛋白7 iprotein 7 NM_005310 Hs.86859 1.512564 1.051211 3.500556 1.421506 210930_s_at v-erb-b2成红细胞性白血病病毒癌基因同系物2，成神经细胞/胶质细胞瘤衍生癌基因同系物(禽类) NM_004448 Hs.323910 -0.71309 1.339254 1.297613 1.591897 211657_at 癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原) NM_002483 Hs.73848 1.948209 1.842322 3.452838 1.859184 213557_at EST，与普遍转录的tetratricopeptide 重复基因微弱相似，Y染色体；Y染色体上的普遍转录的TPR基因(人类) --- Hs.14691 1.359728 1.098941 2.417623 1.605763 214451_at 转录因子AP-2β(激活增强子结合蛋白2β) NM_003221 Hs.33102 0.234429 2.657284 3.171194 1.547226 215465_at ATP结合盒，亚家族A(ABC1)，成员12 NM_015657 Hs.134585 -1.35669 1.237705 0.067599 1.228661 219429_at 脂肪酸羟化酶 --- Hs.249163 -0.32527 0.827988 0.809581 0.722212 220149_at 假定蛋白FLJ22671 NM_024861 Hs.193745 -0.05674 1.363225 1.200829 1.596251 39248_at aquaporin 3 NM_004925 Hs.234642 1.076674 1.458035 2.508421 1.755277 在高置信度肿瘤中上调的 203628_at 人胰岛素样生长因子1受体mRNA，3′序列，mRNA序列 --- Hs.405998 1.956068 1.625758 0.129864 1.072433

表A1：SAM(微阵列显著性分析)：在FDR(假发现率)＜15％，鉴定了总共86种在低置信度肿瘤中上调的基因和2种下调的基因。使用这个基因组(gene set)，LOOCV检验得到84％的分类精确度。在低置信度肿瘤中上调的基因基因名称得分(d) q值(％) Unigene 全长参考序列 206793_at 4.1852709 1.3837984 Hs.1892 NM_002686//苯乙醇胺N-甲基转移酶 211237_s_at 4.071839 1.3837984 Hs.165950 NM_002011//成纤维细胞生长因子受体4异构体1前体//NM_022963//成纤维细胞生长因子受体4异构体2前体 210761_s_at 3.9001438 1.3837984 Hs.86859 NM_005310//生长因子受体结合蛋白7 206164_at 3.8109161 1.3837984 Hs.241551 NM_006536//钙激活氯化物通道2 204913_s_at 3.4806716 1.3837984 Hs.32964 NM_003108//SRY(性别决定区Y)盒11 210930_s_at 3.4544924 1.3837984 Hs.323910 NM_004448//v-erb-b2成红细胞性白血病病毒癌基因同系物2，成神经细胞/胶质细胞瘤衍生癌基因同系物 204910_s_at 3.3311974 1.3837984 Hs.321576 NM_006458//含三元基序3异构体α///NM_033278//含三元基序3异构体β///NM_033279 //含三元基序3异构体γ 214451_at 3.2935388 1.3837984 Hs.33102 NM_003221//转录因子AP-2β(激活增强子结合蛋白2β) 217562_at 3.2344498 1.3837984 Hs.106642 --- 217276_x_at 3.0703975 1.3837984 Hs.301947 NM_014509//kraken样 215686_x_at 3.0323791 1.3837984 --- --- 215559_at 3.0225718 1.3837984 Hs.274260 NM_001171//ATP结合盒，亚家族C，成员6 206827_s_at 2.9342047 1.3837984 Hs.302740 NM_014274//瞬时受体潜在阳离子通道，亚家族V，成员6///NM_018646//瞬时受体潜在阳离子通道，亚家族V，成员6 208893_s_at 2.9089684 1.3837984 Hs.180383 NM_001946//双特异性磷酸酶6异构体a///NM_022652//双特异性磷酸酶6异构体b 203619_s_at 2.8107802 1.3837984 Hs.182859 --- 203824_at 2.7813798 1.3837984 Hs.84072 NM_004616//跨膜4超家族成员3 221811_at 2.747613 1.3837984 Hs.91668 --- 216202_s_at 2.7319622 1.3837984 Hs.59403 NM_004863//丝氨酸棕榈酰转移酶，长链基本亚基2 209757_s_at 2.7152502 1.3837984 Hs.25960 NM_005378//v-myc髓细胞瘤病病毒相关癌基因，由成神经细胞瘤衍生 219429_at 2.665359 1.3837984 Hs.249163 --- 216465_at 2.628031 1.3837984 Hs.134585 NM_015657//ATP结合盒，亚家族A，成员12异构体b///NM_173076//ATP结合盒，亚家族A，成员12异构体a 214203_s_at 2.6018018 1.3837984 Hs.343874 NM_005974// /// NM_016335//脯氨酸脱氢酶(氧化酶)1 202942_at 2.5652724 1.3837984 Hs.74047 NM_001985//电子转移黄素蛋白，β多肽 205478_at 2.545305 1.3837984 Hs.76780 NM_006741//蛋白质磷酸酶1，调节(抑制物)亚基1A 203722_at 2.5390254 1.3837984 Hs.77448 NM_003748//醛脱氢酶4A1前体// /// NM_170726//醛脱氢酶4A1前体 202991_at 2.5022628 1.3837984 Hs.77628 NM_006804//类固醇生成急性调节蛋白相关的 205104_at 2.4827654 1.3837984 Hs.323833 NM_014723//syntaphilin 215659_at 2.4619073 1.3837984 Hs.306777 --- 220622_at 2.407245 1.3837984 Hs.114005 NM_024727//假定蛋白FLJ23259 208083_s_at 2.3715062 1.3637984 Hs.57664 NM_000888//整合素，β6 208043_s_at 2.3543638 1.3837984 Hs.6168 NM_014861//KIAA0703基因产物 221345_at 2.3351396 1.3837984 Hs.248056 NM_005306//G蛋白偶联受体43 39248_at 2.3213986 1.3837984 Hs.234642 NM_004925//aquaporin 3 205766_at 2.3057935 1.3837984 Hs.343603 NM_003673//telethonin 211682_x_at 2.2.991204 1.3837984 Hs.137585 NM_053039//UDP糖基转移酶2家族，多肽B28 210571_s_at 2.2806771 1.3837984 Hs.24697 XR_000114// 219233_s_at 2.2752973 1.3837984 Hs.19054 NM_018530//假定蛋白PRO2521 204818_at 2.2720676 1.3837984 Hs.155109 NM_002153//羟基类固醇(17-β)脱氢酶2 211828_s_at 2.2270979 1.3837984 Hs.170204 --- 205916_at 2.2142817 1.3837984 Hs.112408 NM_002963//S100钙结合蛋白A7 209522_s_at 2.2117774 1.3837984 Hs.12068 NM_000755//肉毒碱乙酰基转移酶前体，异构体1///NM_004003//肉毒碱乙酰基转移酶异构体2 ///NM_144782//肉毒碱乙酰基转移酶前体，异构体3 209016_s_at 2.2112214 1.3837984 Hs.23881 --- 209505_at 2.2006627 1.3837984 Hs.374991 --- 200831_s_at 2.1927228 1.3837984 Hs.119597 NM_005063//硬脂酰-CoA去饱和酶(δ-9-去饱和酶) 207802_at 2.1832898 1.3837984 Hs.54431 NM_006061//特异颗粒蛋白(28kDa) 216633_s_at 2.1766477 1.3837984 Hs.193143 --- 214614_at 2.1670563 1.3837984 Hs.37035 NM_005515//同源框HB9 204607_at 2.1402505 1.3837984 Hs.59889 NM_005518//3-羟基-3-甲基谷氨酰-辅酶A合酶2(线粒体) 220149_at 2.1400852 1.3837984 Hs.193745 NM_024861//假定蛋白FLJ22671 219756_s_at 2.1391208 1.3837984 Hs.267038 NM_024921//卵巢早衰1B 213674_x_at 2.1351759 1.3837984 Hs.300697 --- 211657_at 2.1231572 1.3837984 Hs.73848 NM_002483//癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原) 204941_s_at 2.1178907 1.3837984 Hs.87539 NM_000695//醛脱氢酶3B2 214133_at 2.0836401 3.5733527 Hs.99918 --- 210663_s_at 2.0766057 3.5733527 Hs.169139 NM_003937//犬尿氨酸酶(L-犬尿氨酸水解酶) 220414_at 2.0543228 3.5733527 Hs.180142 NM_017422//钙调蛋白样皮肤蛋白质 205808_at 2.0365629 3.5733527 Hs.283664 NM_004318//天冬氨酸β-羟化酶异构体a///NM_020164//天冬氨酸β-羟化酶异构体e/// NM_032466//天冬氨酸β-羟化酶异构体c///NM_032467//天冬氨酸β-羟化酶异构体d/// NM_032468//天冬氨酸β-羟化酶异构体b 203365_s_at 2.0185514 3.5733527 Hs.80343 NM_002428//基质金属蛋白酶15前原蛋白 206509_at 2.0114514 3.5733527 Hs.99949 NM_002652//催乳素诱导的蛋白质 213557_at 1.9942427 3.5733527 Hs.14691 --- 214971_s_at 1.9917977 3.5733527 Hs.2554 NM_003032//唾液酸转换酶1异构体a///NM_173216//唾液酸转换酶1异构体a///NM_173217// 唾液酸转换酶1异构体b 211899_s_at 1.9768615 4.5901604 Hs.8375 NM_004295//TNF受体相关因子4异构体1///NM_145751//TNF受体相关因子4异构体2 220615_s_at 1.9216703 4.5901604 Hs.100895 NM_018099//假定蛋白FLJ10462 206915_at 1.8471141 7.400989 Hs.355454 NM_002509//NK2转录因子相关的，基因座2 201388_at 1.8446012 7.400989 Hs.9736 NM_002809//蛋白酶体26S非ATP酶亚基3 205307_s_at 1.8282052 7.400989 Hs.107318 NM_003679//犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) 209616_s_at 1.8059335 7.400989 Hs.76688 NM_001266//羧酸酯酶1(单核细胞/巨噬细胞丝氨酸酯酶1) 205910_s_at 1.7828285 7.400989 Hs.406160 NM_001807//羧酸酯脂肪酶前体 201525_at 1.7490382 7.400989 Hs.75736 NM_001647//载脂蛋白D前体 201729_s_at 1.7197176 9.106286 Hs.151761 --- 204304_s_at 1.6603865 9.106286 Hs.112360 NM_006017//prominin样1 220225_at 1.6559087 9.106286 Hs.196927 NM_016358//iroquois同源框蛋白4 209560_s_at 1.6357376 10.248328 Hs.169228 NM_003836//δ样同系物 207131_x_at 1.6311017 10.248328 Hs.401847 NM_005265//γ-谷氨酰转移酶1///NM_013421//γ-谷氨酰转移酶1前体///NM_013430// γ-谷氨酰转移酶1 220972_s_at 1.6233436 10.248328 Hs.307010 NM_030975//角蛋白相关蛋白9.9 209641_s_at 1.6169812 10.248328 Hs.90786 NM_003786//ATP结合盒，亚家族C，成员3异构体MRP3///NM_020037//ATP结合盒，亚家族C，成员3异构体MRP3A///NM_020038//ATP结合盒，亚家族C，成员3异构体MRP3B 211588_s_at 1.6135313 10.248328 Hs.381618 --- 201946_s_at 1.5784917 10.248328 Hs.432970 NM_006431//含TCP1陪伴蛋白，亚基2(β) 205029_s_at 1.5779091 10.248328 Hs.26770 NM_001446//脂肪酸结合蛋白7，脑 201942_s_at 1.5530281 11.432502 Hs.5057 NM_001304//羧肽酶D前体 rsor 213913_s_at 1.5514129 11.432502 Hs.11912 --- 207102_at 1.5436816 11.432502 Hs.201667 NM_005989//醛酮还原酶家族1，成员D1 214624_at 1.5133976 11.432502 Hs.159309 NM_007000//uroplakin 1A///NM_032896// 206714_at 1.5040028 11.432502 Hs.111256 NM_001141//花生四烯酸15-脂氧化酶，第二型 205765_at 1.4589879 12.831585 Hs.104117 NM_000777//细胞色素P450，家族3，亚家族A，多肽5 213043_s_at 1.4469888 12.831585 Hs.23106 NM_014815//甲状腺激素受体相关蛋白 protein 在高置信度肿瘤中上调的基因基因名称得分(d) q(值％) 204286_s_at -3.429773 1.3837984 Hs.96 NM_021127//佛波醇-12-肉豆蔻酸酯-13-乙酸酯诱导的蛋白质1 203628_at -2.907564 1.3837984 Hs.405998 ---

表A2：GR(由SVM进行的基因排序)：鉴定出总共251种基因具有将肿瘤HC或LC状态分类的能力，且分类精确度为86％。根据基因的区别性强度将它们排序，这是通过基因特异错误分类率计算的。基因排序 SVM 软件包由GeneDataTM(巴塞尔，瑞士)提供。探针ID 基因描述 Unigene ID 205225_at 雌激素受体1 Hs.1657 206165_s_at 钙激活的氯化物通道，家族成员2 Hs.241551 202917_s_at S100钙结合蛋白A8(calgranulin A) Hs.100000 210761_s_at 生长因子受体结合蛋白7 Hs.86859 202376_at 丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员3 Hs.234726 211657_at 癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原) Hs.73848 206509_at 催乳素诱导的蛋白质 Hs.99949 201650_at 角蛋白19 Hs.182265 204734_at 角蛋白15 Hs.80342 203627_at 人胰岛素样生长因子1受体mRNA，3′序列，mRNA序列 Hs.405998 39248_at aquaporin 3 Hs.234642 209603_at GATA结合蛋白3 Hs.169946 204508_s_at 假定蛋白FLJ20151 Hs.279916 215470_at 人类cDNA FLJ36630 fis，克隆TRACH2018278，mRNA序列 Hs.14658 203749_s_at 视黄酸受体，α Hs.361071 210930_s_at v-erb-b2成红细胞白血病病毒癌基因同系物2，成神经细胞/神经胶质瘤衍生的癌基因同系物(禽类) Hs.323910 219233_s_at 假定蛋白PRO2521 Hs.19054 204475_at 基质金属蛋白酶1(肠胶原酶) Hs.83169 203875_at SWI/SNF相关的，基质相关的，染色质的肌动蛋白依赖性调控物，亚家族a，成员1 Hs.152292 211699_x_at 血红蛋白，α1 Hs.272572 205239_at amphiregulin(许旺氏细胞瘤衍生因子) Hs.270833 205009_at 三叶草因子1(在乳癌中表达的雌激素可诱导的序列) Hs.350470 221811_at 假定蛋白MGC9753 Hs.91668 218541_s_at 染色体8开放读码框4 Hs.283683 203628_at 人胰岛素样生长因子1受体mRNA，3′序列，mRNA序列 Hs.405998 209301_at 碳酸酐酶II Hs.155097 219263_at 假定蛋白FLJ23516 Hs.9238 203917_at 柯萨奇病毒(coxsackie virus)和腺病毒受体 Hs.79187 203980_at 脂肪酸结合蛋白4，脂肪细胞 Hs.391561 207076_s_at 精氨(基)琥珀酸合成酶 Hs.160786 203408_s_at 特殊的富含AT序列结合蛋白1(与核基质/支架相关DNA结合) Hs.74592 203060_s_at 3′-磷酸腺苷5′-磷酸硫酸酯合酶2 Hs.274230 63825_at 与假定蛋白PRO2831相似(人类)，mRNA序列 Hs.406646 222303_at EST Hs.292477 211959_at 未知(IMAGE：4183312的蛋白质)(人类)，mRNA序列 Hs.380833 217776_at 视黄醇脱氢酶11(所有-反式和9-顺式) Hs.179817 204863_s_at 白介素6信号转导蛋白(gp130，制瘤素M受体) Hs.82065 202887_s_at HIF-1响应性RTP801 Hs.111244 201841_s_at 热休克27kDa蛋白1 Hs.76067 207847_s_at 粘蛋白1，跨膜 Hs.89603 215294_s_at SWI/SNF相关的，基质相关的，染色质的肌动蛋白依赖性调控物，亚家族a，成员1 Hs.152292 218677_at S100钙结合蛋白A14 Hs.288998 201931_at 电子转移黄素蛋白，α多肽(戊二酸尿II) Hs.169919 202991_at 含START结构域3 Hs.77628 210633_x_at 角蛋白10(表皮松懈性角化过度症；掌跖角化症) Hs.99936 203571_s_at 脂肪特异的2 Hs.74120 220625_s_at E74样因子5(ets结构域转录因子) Hs.11713 205567_at 碳水化合物(keratan硫酸酯Ga1-6)磺基转移酶1 Hs.104576 212202_s_at DKFZP564G2022蛋白 Hs.16492 202888_s_at 丙氨酰(膜)氨肽酶(氨肽酶N、氨肽酶M、微粒体氨肽酶、CD13、p150) Hs.1239 207023_x_at 角蛋白10(表皮松懈性角化过度症；掌跖角化症) Hs.99936 204913_s_at SRY(性别决定区Y)盒11 Hs.32964 204404_at 溶质载体家族12(钠/钾/氯化物转运蛋白)，成员2 Hs.110736 211719_x_at 纤连蛋白1 Hs.287820 216510_x_at 免疫球蛋白重链恒定区μ Hs.153261 218772_x_at 假定蛋白FLJ10493 Hs.279610 201951_at 活化白细胞细胞粘着分子 Hs.10247 209250_at 退化精母细胞同系物，脂质去饱和酶(果蝇) Hs.185973 214745_at KIAA1069蛋白 Hs.193143 201946_s_at 含TCP1陪伴蛋白，亚基2(β) Hs.432970 205916_at S100钙结合蛋白A7(牛皮癣素1) Hs.112408 212736_at 假定基因BC008967 Hs.6349 213438_at 人类cDNA FLJ34019 fis，克隆FCBBF2002898，mRNA序列 Hs.7309 205518_s_at 胞苷单磷酸-N-乙酰神经氨酸羟化酶(CMP-N-乙酰神经氨酸单加氧酶) Hs.24697 221728_x_at 人类cDNA FLJ30298 fis，克隆BRACE2003172，mRNA序列 Hs.351546 205943_at 色氨酸2，3-加双氧酶 Hs.183671 207431_s_at 退化精母细胞同系物，脂质去饱和酶(果蝇) Hs.185973 209267_s_at 单核细胞中由BCG诱导的基因，克隆103 Hs.284205 204018_x_at 血红蛋白，α1 Hs.272572 212204_at DKFZP564G2022蛋白 Hs.16492 202310_s_at 胶原，I型，α1 Hs.172928 201998_at 唾液酸转移酶1(β-半乳糖苷α-2，6-唾液酸转移酶) Hs.2554 208792_s_at clusterin(补体裂解抑制物，SP-40，40，硫酸化糖蛋白2，受睾酮抑制的前列腺信息2，载脂蛋白J) Hs.75106 204731_at 转化生长因子，β受体III(β聚糖，300kDa) Hs.342874 204881_s_at UDP-葡萄糖神经酰胺葡萄糖基转移酶 Hs.432605 205242_at 趋化因子(C-X-C基元)配体13(B细胞化学引诱物) Hs.100431 200601_at 辅肌动蛋白，α4 Hs.182485 202037_s_at 分泌的卷曲相关蛋白1 Hs.7306 219795_at 溶质载体家族6(神经递质转运蛋白)，成员14 Hs.162211 217028_at 趋化因子(C-X-C基元)受体4 Hs.89414 205066_s_at ectonucleotide磷酸酶/磷酸二酯酶1 Hs.11951 202357_s_at B因子，备解素 Hs.69771 202743_at 磷酸肌醇-3-激酶，调节亚基，多肽3(p55，γ) Hs.372548 203874_s_at SWI/SNF相关的，基质相关的，染色质的肌动蛋白依赖性调控物，亚家族a，成员1 Hs.152292 210072_at 趋化因子(C-C基元)配体19 Hs.50002 202990_at 磷酸化酶，糖原；肝(赫氏病，糖原积贮病VI型) Hs.771 206115_at 早期生长应答3 Hs.74088 205498_at 生长激素受体 Hs.125180 212789_at KIAA0056蛋白 Hs.13421 222155_s_at 假定G蛋白偶联受体GPCR41 Hs.6459 218776_s_at 假定蛋白FLJ23375 Hs.285996 200820_at 蛋白酶体(prosome，macropain)26S亚基，非ATP酶，8 Hs.78466 203337_x_at 整合素胞质结构域相关蛋白1 Hs.173274 214218_s_at 人XIST，编码序列“a”mRNA(基因座DXS399E)，mRNA序列 Hs.352403 201729_s_at KIAA0100基因产物 Hs.151761 204285_s_at 佛波醇-12-肉豆蔻酸-13-乙酸酯诱导的蛋白质1 Hs.96 214451_at 转录因子AP-2β(激活增强子结合蛋白2β) Hs.33102 218313_s_at UDP-N-乙酰基-α-D-半乳糖胺：多肽N-乙酰基半乳糖胺转移酶7(GalNAc-T7) Hs.246315 217838_s_at RNB6 Hs.241471 209189_at v-fos FBJ鼠骨肉瘤病毒癌基因同系物 Hs.25647 201131_s_at cadherin 1，1型，E-cadherin(表皮) Hs.194657 203058_s_at 3′-磷酸腺苷5′-磷酸硫酸酯合酶2 Hs.274230 213557_at EST，与普遍转录的tetratricopeptide重复基因微弱相似，Y染色体；Y染色体上的普遍转录的TPR基因(人类) Hs.14691 215465_at ATP结合盒，亚家族A(ABC1)，成员12 Hs.134585 213693_s_at 粘蛋白1，跨膜 Hs.89603 202218_s_at 脂肪酸去饱和酶2 Hs.184641 207175_at 脂肪最丰富基因转录本1 Hs.80485 205798_at 白介素7受体 Hs.362807 200916_at transgelin 2 Hs.406504 216623_x_at 含三核苷酸重复9 Hs.110826 211776_s_at 红细胞膜蛋白带4.1样3 Hs.103839 204472_at 在骨骼肌中过度表达的GTP结合蛋白 Hs.79022 220149_at 假定蛋白FLJ22671 Hs.193745 219517_at 假定蛋白FLJ22637 Hs.296178 208653_s_at CD164抗原，唾液粘蛋白 Hs.43910 202457_s_at 蛋白质磷酸酶3(以前的2B)，催化亚基，α异构体(calcineurin Aα) Hs.272458 222108_at --- --- 200648_s_at 谷氨酸-氨连接酶(谷氨酰胺合酶) Hs.170171 203287_at ladinin 1 Hs.18141 219429_at 脂肪酸羟化酶 Hs.249163 212934_at 人类cDNA FLJ30096 fis，克隆BNGH41000045，mRNA序列 Hs.155572 205307_s_at 犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) Hs.107318 212686_at KIAA1157蛋白 Hs.21894 204623_at 三叶草因子3(肠) Hs.82961 209459_s_at NPD009蛋白 Hs.283675 203827_at 假定蛋白FLJ10055 Hs.9398 201952_at 活化白细胞细胞粘着分子 Hs.10247 202047_s_at chromobox同系物6 Hs.107374 206036_s_at v-rel网状内皮增生病毒癌基因同系物(禽类) Hs.44313 205048_s_at 磷酸丝氨酸磷酸酶样 Hs.369508 211527_x_at 血管内皮生长因子 Hs.73793 202660_at 次要组织相容性抗原HA-1 Hs.196914 210495_x_at 纤连蛋白1 Hs.287820 216442_x_at 纤连蛋白1 Hs.287820 212865_s_at 胶原，XIV型，α1(undulin) Hs.403836 221765_at UDP-葡萄糖神经酰胺葡萄糖基转移酶 Hs.432605 210538_s_at 杆状病毒含IAP重复序列3 Hs.127799 204151_x_at 醛酮还原酶家族1，成员C1(二氢二醇脱氢酶1；20-α(3-α)-羟基类固醇脱氢酶) Hs.306098 213836_s_at 假定蛋白FLJ10055 Hs.9398 202724_s_at 叉头盒01A(横纹肌肉瘤) Hs.170133 202404_s_at 胶原，I型，α2 Hs.179573 202871_at TNF受体相关因子4 Hs.8375 204455_at 大疱性类天疱疮抗原1，230/240kDa Hs.198689 203640_at muscleblind样蛋白MBLL39 Hs.283609 823_at 趋化因子(C-X3-C基元)配体1 Hs.80420 214203_s_at 脯氨酸脱氢酶(氧化酶)1 Hs.343874 201963_at 脂肪酸-辅酶A连接酶，长链2 Hs.154890 221730_at 胶原，V型，α2 Hs.82985 217047_s_at 具有序列相似性的家族13，成员A1 Hs.177664 203814_s_at NAD(P)H脱氢酶，醌2 Hs.73956 202581_at 热休克70kDa蛋白1B Hs.274402 218640_s_at phafin 2 Hs.29724 201752_s_at adducin 3(γ) Hs.324470 221558_s_at 淋巴样增强子结合因子1 Hs.44865 211798_x_at 免疫球蛋白λ连接3 Hs.102950 218400_at 2′-5′-寡腺苷酸合成酶3，100kDa Hs.56009 203549_s_at 脂蛋白脂肪酶 Hs.180878 201525_at 载脂蛋白D Hs.75736 203207_s_at 有可能是具有多脯氨酸区的鸡软骨细胞蛋白的同系物 Hs.170198 201397_at 磷酸甘油酯脱氢酶 Hs.3343 217996_at pleckstrin同源性样结构域，家族A，成员1 Hs.82101 211479_s_at 5-羟色胺(血清素)受体2C Hs.46362 213287_s_at 角蛋白10(表皮松懈性角化过度症；掌跖角化症) Hs.99936 221517_s_at Sp1转录激活所需要的辅助因子，亚基6，77kDa Hs.22630 212775_at KIAA0657蛋白 Hs.6654 217791_s_at 吡咯啉-5-羧酸合成酶(谷氨酸γ半醛合成酶) Hs.114366 215250_at 人类cDNA FLJ12140 fis，克隆MAMMA1000340，mRNA序列 Hs.287491 208733_at RAB2，膜RAS癌基因家族 Hs.78305 219629_at 假定蛋白FLJ20635 Hs.265018 205542_at 前列腺的六种跨膜上皮抗原 Hs.61635 208682_s_at 黑素瘤抗原，家族D，2 Hs.4943 218729_at 乳汁蛋白 Hs.109276 205376_at 肌醇多磷酸-4-磷酸酶，II型，105kDa Hs.153687 203953_s_at claudin 3 Hs.25640 206916_x_at 酪氨酸氨基转移酶 Hs.161640 212196_at 人类mRNA；cDNA DKFZp564F053(来自克隆DKFZp564F053)，mRNA序列 Hs.71968 211000_s_at 白介素6信号转导蛋白(gp130，制瘤素M受体) Hs.82065 212254_s_at 大疱性类天疱疮抗原1，230/240kDa Hs.198689 204914_s_at SRY(性别决定区Y)盒11 Hs.32964 221505_at 富含亮氨酸酸性核蛋白样 Hs.71331 208498_s_at 淀粉酶，α1A；唾液的 Hs.274376 201694_s_at 早期生长应答1 Hs.326035 201936_s_at 真核细胞翻译起始因子4γ，3 Hs.25732 203090_at 基质细胞衍生因子2 Hs.118684 37117_at σGTP酶激活蛋白8 Hs.102336 202770_s_at 细胞周期蛋白G2 Hs.429880 209522_s_at 肉毒碱乙酰基转移酶 Hs.12068 212451_at KIAA0256基因产物 Hs.118978 201839_s_at 肿瘤相关钙信号转导蛋白1 Hs.692 218309_at 假定蛋白PR01489 Hs.197922 212450_at KIAA0256基因产物 Hs.118978 221589_s_at 醛脱氢酶6家族，成员A1 Hs.293970 217281_x_at 免疫球蛋白重链恒定γ3(G3m标志物) Hs.300697 217388_s_at 犬尿氨酸酶(L-犬尿氨酸水解酶) Hs.169139 203336_s_at 整合素胞质结构域相关蛋白1 Hs.173274 217704_x_at --- --- 201563_at 山梨糖醇脱氢酶 Hs.878 208151_x_at DEAD/H(Asp-G1u-Ala-Asp/His)盒多肽17，72kDa Hs.349121 217880_at 细胞分裂周期27 Hs.406631 213229_at Dicerl，Der-1同系物(果蝇) Hs.87889 219768_at 假定蛋白FLJ22418 Hs.36563 200602_at 淀粉状蛋白β(A4)前体蛋白(蛋白酶微管连接蛋白II，阿尔茨海默氏病) Hs.177486 201082_s_at dynactin 1(p150，胶合同系物，果蝇) Hs.74617 214774_x_at 含三核苷酸重复序列9 Hs.110826 208654_s_at CD164抗原，唾液粘蛋白 Hs.43910 202018_s_at 乳转铁蛋白 Hs.105938 212915_at 有可能是小鼠semaF胞质结构域相关蛋白3的同系物 Hs.177635 202196_s_at dickkopf同系物3(非洲爪蟾) Hs.4909 221024_s_at 溶质载体家族2(易化葡萄糖转运蛋白)，成员10 Hs.305971 211702_s_at 泛素特异蛋白酶 Hs.155787 205110_s_at 成纤维细胞生长因子13 Hs.6540 219956_at UDP-N-乙酰基-α-D半乳糖胺：多肽N-乙酰基半乳糖胺转移酶6(GalNAc-T6) Hs.151678 202687_s_at 肿瘤坏死因子(配体)超家族，成员10 Hs.83429 205882_x_at adducin 3(γ) Hs.324470 203476_at 滋养层糖蛋白 Hs.82128 208991_at 人类cDNA FLJ35646 fis，克隆SPLEN2012743，mRNA序列 Hs.381933 204866_at KIAA0215基因产物 Hs.82292 208180_s_at H4组蛋白家族，成员H Hs.421737 219410_at 假定蛋白FLJ10134 Hs.104800 209290_s_at 核因子I/B Hs.33287 202718_at 胰岛素样生长因子结合蛋白2，36kDa Hs.433326 205862_at GREB1蛋白 Hs.193914 203895_at 人类mRNA；cDNA DKFZp434E235(来自克隆DKFZp434E235)，mRNA序列 Hs.348724 212171_x_at 血管内皮生长因子 Hs.73793 217762_s_at RAB31，膜RAS癌基因家族 Hs.223025 208891_at 双特异性磷酸酶6 Hs.180383 221543_s_at 染色体8开放读码框2 Hs.125849 218834_s_at 假定蛋白F1J20539 Hs.118552 201852_x_at 胶原，III型，α1(Ehlers-Danlos综合征IV型，常染色体显性) Hs.119571 211965_at 锌指蛋白36，C3H型样1 Hs.85155 202015_x_at 甲硫氨酰氨肽酶2 Hs.78935 203348_s_at ets变体基因5(ets相关分子) Hs.43697 202783_at 烟酰胺核苷酸转氢酶 Hs.18136 202403_s_at 胶原，I型，α2 Hs.179573 214440_at N-乙酰基转移酶1(芳基胺N-乙酰基转移酶) Hs.155956 211748_x_at 前列腺素D2合酶21kDa(脑) Hs.8272 215073_s_at 人类，克隆IMAGE：5287010，mRNA，mRNA序列 Hs.288869 215806_x_at T细胞受体γ恒定区2 Hs.274509 205158_at 核酸酶，RNA酶A家族，4 Hs.283749 221841_s_at 人类cDNA FLJ38575 fis，克隆HCHON2007046，mRNA序列 Hs.376206 214858_at 人类克隆24566 mRNA序列 Hs.133342 212464_s_at 纤连蛋白1 Hs.287820 206510_at sine oculis同源框同系物2(果蝇) Hs.101937 216246_at 核糖体蛋白S20 Hs.173717 200923_at 凝集素，半乳糖苷结合的，可溶的，3结合蛋白 Hs.79339 221989_at 核糖体蛋白L10 Hs.29797 211284_s_at 颗粒体蛋白 Hs.180577 209173_at anterior gradient 2同系物(Xenepus laevis) Hs.91011 200924_s_at 溶质载体家族3(二碱和中性氨基酸转运蛋白激活物)，成员2 Hs.79748 212859_x_at --- --- 213109_at KIAA0551蛋白 Hs.170204

表A3：WT(Wilcoxon检验)：在P值＜0.05且截止值≥2倍变化时，鉴定出总共38种基因。这38种基因的组给出的LOOCV精确度是80％。根据基因的显著性(P值)将它们排序。探针基因描述 Unigene 210761_s_at 生长因子受体结合蛋白7 Hs.86859 201931_at 电子转移黄素蛋白，α多肽(戊二酸尿II) Hs.169919 219429_at 脂肪酸羟化酶 Hs.249163 204285_s_at 佛波醇-12-肉豆蔻酸-13-乙酸酯诱导的蛋白质1 Hs.96 209603_at GATA结合蛋白3 Hs.169946 206165_s_at 氯化物通道，由钙激活，家族成员2 Hs.241551 216836_s_at v-erb-b2成红细胞白血病病毒癌基因同系物2，成神经细胞/神经胶质细胞瘤衍生的癌基因同系物(禽类) Hs.323910 203627_at 人胰岛素样生长因子1受体mRNA，3’序列，mRAN序列 Hs.405998 205225_at 雌激素受体1 Hs.1657 215465_at ATP结合盒，亚家族A(ABC1)，成员12 Hs.134585 203628_at 人胰岛素样生长因子1受体mRNA，3′序列，mRNA序列 Hs.405998 202991_at 含START结构域3 Hs.77628 208891_at 双特异性磷酸酶6 Hs.180383 214451_at 转录因子AP-2β(激活增强子结合蛋白2β) Hs.33102 204508_s_at 假定蛋白FLJ20151 Hs.279916 202376_at 丝氨酸(或半胱氨酸)蛋白酶抑制物，进化枝A(α-1抗蛋白酶、抗胰蛋白酶)，成员3 Hs.234726 200832_s_at 硬脂酰-CoA去饱和酶(δ-9-去饱和酶) Hs.119597 205307_s_at 犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) Hs.107318 203060_s_at 3′-磷酸腺苷5′-磷酸硫酸酯合酶2 Hs.274230 201963_at 脂肪酸-辅酶A连接酶，长链2 Hs.154890 209602_s_at GATA结合蛋白3 Hs.169946 211138_s_at 犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) Hs.107318 39248_at aquaporin 3 Hs.234642 220149_at 假定蛋白FLJ22671 Hs.193745 55616_at 假定基因MGC9753 Hs.91668 205306_x_at 犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) Hs.107318 205862_at GREB1蛋白 Hs.193914 217388_s_at 犬尿氨酸酶(L-犬尿氨酸水解酶) Hs.169139 204942_s_at 醛脱氢酶3家族，成员B2 Hs.87539 202218_s_at 脂肪酸去饱和酶2 Hs.184641 213557_at EST，与普遍转录的tetratricopeptide重复基因微弱相似，Y染色体；Y染色体上的普遍转录的TPR基因(人类) Hs.14691 211657_at 癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原) Hs.73848 214598_at claudin 8 Hs.162209 218532_s_at 假定蛋白FLJ20152 Hs.82273 202917_s_at S100钙结合蛋白A8(calgranulin A) Hs.100000 208792_s_at clusterin(补体裂解抑制物，SP-40，40，硫酸化糖蛋白2，受睾酮抑制的前列腺信息2，载脂蛋白J) Hs.75106 215659_at 人类cDNA：FLJ21521 fis，克隆COL05880，mRNA序列 Hs.306777 201525_at 载脂蛋白D Hs.75736

表A4：然后鉴定出三个基因组(SAM-88、GR-251、WT-38)的13种“共有”基因。这13种成员基因通过 LOOCV实现的分类精确度是84％。本质上，这13种“共有基因”是强有力的显著标志物，而且能够像其它“完整”标志物集一样获得类似的性能。探针ID Unigene 全长参考序列位置 39248_at Hs.234642 NM_004925//aquaporin 3 Chr：9p13 201525_at Hs.75736 NM_001647//载脂蛋白D前体 Chr：3q26.2-qter 202991_at Hs.77628 NM_006804//类固醇生成急性调节蛋白相关的 Chr：17q11-q12 203628_at Hs.405998 --- --- 205307_s_at Hs.107318 NM_003679//犬尿氨酸3-单加氧酶(犬尿氨酸3-羟化酶) Chr：1q42-q44 210761_s_at Hs.86859 NM_005310//生长因子受体结合蛋白7 Chr：17q21.1 211657_at Hs.73848 NM_002483//癌胚抗原相关细胞粘附分子6(非特异性交叉反应性抗原) Chr：19q13.2 213557_at Hs.14691 --- --- 214451_at Hs.33102 NM_003221//转录因子AP-2β(激活增强子结合蛋白2β)//NM_173076// Chr：6p12 215465_at Hs.134585 NM_015657//ATP结合盒，亚家族A，成员12异构体b///NM_173076//ATP结合盒，亚家族A，成员12异构体a Chr：2q35 219429_at Hs.249163 --- Chr：16q23 220149_at Hs.193745 NM_024861//假定蛋白FLJ22671 Chr：2q37.3 210930_s_at Hs.323910 NM_004448//v-erb-b2成红细胞性白血病病毒癌基因同系物2，成神经细胞/胶质细胞瘤衍生癌基因同系物 Chr：17q11.2-q12

表LI：SAM-133基因的查阅ID表

SAM-133

顺序探针_ID Unlgene GenBank

1 205225_at Hs.1657 NM_000125.1

2 209603_at Hs.169946 AI796169

3 204508_s_at Hs.279916 BC001012.1

4 209604_s_at Hs.169946 BC003070.1

5 209602_s at Hs.169946 AI796169

6 206754_s_at Hs.1360 NM_000767.2

7 203963_at Hs.5338 NM_001218.2

8 214164_x_at Hs.5344 BF752277

9 212956_at Hs.90419 AI348094

10 215867_x_at Hs.5344 AL050025.1

11 210735_s_at Hs.5338 BC000278.1

12 214440_at Hs.155956 NM_000662.1

13 202089_s_at Hs.79136 NM_012319.2

14 210085_s_at Hs.279928 AF230929.1

15 205862_at Hs.193914 NM_014668.1

16 202088_at Hs.79136 AI635449

17 211712_s_at BC005830.1

18 206401_s_at Hs.101174 J03778.1

19 215304_at Hs.159264 U79293.1

20 218195_at Hs.15929 NM_024573.1

21 212195_at Hs.71968 AL049265.1

22 203928_x_at Hs.101174 AI870749

23 209460_at Hs.283675 AF237813.1

24 212960_at Hs.90419 BE646554

25 209443_at Hs.76353 J02639.1

26 209173_at Hs.91011 AF088867.1

27 203071_at Hs.82222 NM_004636.1

28 203571_s_at Hs.74120 NM_006829.1

29 205354_at Hs.81131 NM_000156.3

30 213712_at Hs.30504 BF508639

31 41660_at

32 220744_s_at Hs.70202 NM_018262.1

33 204798_at Hs.1334 NM_005375.1

34 215552_s_at Hs.272288 AI073549

35 209339_at Hs.20191 U76248.1

36 210272_at Hs.330780 M29873.1

37 205186_at Hs.33846 NM_003462.2

38 207414_s_at Hs.170414 NM_002570.1

39 205009_at Hs.1406 NM_003225.1

40 203628_at Hs.239176 H05812

41 211323_s_at Hs.198443 L38019.1

42 201825_s_at Hs.238126 AL572542

43 211234_x_at Hs.1657 AF258449.1

44 209459_s_at Hs.283675 AF237813.1

45 212196_at Hs.71968 AW242916

46 203438_at Hs.155223 AI435828

47 217838_s_at Hs.241471 NM_016337.1

48 204041_at Hs.82163 NM_000898.1

49 203929_s_at Hs.101174 AI056359

50 200670_at Hs.149923 NM_005080.1

51 219414_at Hs.12079 NM_022131.1

52 203627_at Hs.239176 AI830698

53 208451_s_at Hs.278625 NM_000592.2

54 213419_at Hs.324125 U62325.1

55 205768_s_at Hs.11729 NM_003645.1

56 204862_s_at Hs.81687 NM_002513.1

57 210480_s_at Hs.22564 U90236.2

58 205696_s_at Hs.105445 NM_005264.1

59 203685_at Hs.79241 NM_000633.1

60 218976_at Hs.260720 NM_021800.1

61 219197_s_at Hs.222399 AI424243

62 202996_at Hs.82520 NM_0211731

63 205734_s_at Hs.38070 AI990465

64 21123_s_at Hs.1657 AF258450.1

65 211000_s_at Hs.82065 AB015706.1

66 217190_x_at Hs.247976 S67777

67 202752_x_at Hs.22891 NM_0122441

68 201754_at Hs.74649 NM_0043741

69 204623_at Hs.82961 NM_0032261

70 207038_at Hs.114924 NM_004694.1

71 212637_s_at Hs.324275 AU155187

72 208682_s_at Hs.4943 AF126181.1

73 218502_s_at Hs.26102 NM_014112.1

74 202376_at Hs.234726 NM_001085.2

75 215616_s_at Hs.301011 AB020683.1

76 211233_x_at Hs.1657 M12674.1

77 205081_at Hs.17409 NM_001311.1

78 214429__at Hs.170250 K02403.1

79 209696_at Hs.574 D26054.1

80 219682_s_at Hs.332150 NM_016569.1

81 212496_s_at Hs.301011 BE256900

82 203108_at Hs.194691 NM_003979.2

83 206107_at Hs.65756 NM_003834.1

84 218806_s_at Hs.267659 AF118887.1

85 209581_at Hs.37189 BC001387.1

86 213412_at Hs.25527 NM_014428.1

87 212638_s_at Hs.324275 BF131791

88 206469_x_at Hs.284236 NM_012067.1

89 210652_s_at Hs.125783 BC004399.1

90 216381_x_at Hs.284236 AL035413

91 216092_s_at Hs.22891 AL365347.1

92 208788_at Hs.250175 AL136939.1

93 204792_s_at Hs.111862 NM_014714.1

94 207847_s_at Hs.89603 NM_002456.1

95 213201_s_at Hs.73980 AJ011712

96 204497_at Hs.20196 AB011092.1

97 222314_x_at Hs.205660 AW970881

98 222212_s_at Hs.285976 AK001105.1

99 219919_s_at Hs.279808 NM_018276.1

100 214053_at Hs.7888 AW772192

101 204934_s_at Hs.823 NM_0021511

102 216109_at Hs.306803 AK025348.1

103 203749_s_at Hs.250505 AI806984

104 220329_s_at Hs.238270 NM_017909.1

105 204881_s_at Hs.152601 NM_003358.1

106 208305_at Hs.2905 NM_000926.1

107 209623_at Hs.167531 AW439494

108 218450_at Hs.108675 NM 015987.1

109 204343_at Hs.26630 NM_001089.1

110 219051_x_at Hs.124915 NM_024042.1

111 205471_s_at Hs.63931 AW772082

112 203439_s_at Hs.155223 BC000658.1

113 204863_s_at Hs.82065 BE856546

114 203289_s_at Hs.19699 BE791629

115 221765_at Hs.23703 AI378044

116 219001_s_at Hs.317589 NM_024345.1

117 220581_at Hs.287738 NM_025059.1

118 211596_s_at AB050468.1

119 205645_at Hs.80667 NM_004726.1

120 219663_s_at Hs.157527 NM_025268.1

121 205380_at Hs.15456 NM_002614.1

122 201508_at Hs.1516 NM_001552.1

1 215729_s_at Hs.9030 BE542323

2 201983_s_at Hs.77432 AW157070

3 204914_s_at Hs.32964 AW157202

4 204913_s_at Hs.32964 AI360875

5 205646_s_at Hs.89506 NM_000280.1

6 207030_s_at Hs.10526 NM_001321.1

7 204915_s_at Hs 32964 AB028641.1

8 203021_at Hs.251754 NM_0030641

9 209800_at Hs.115947 AF061812.1

10 203234_at Hs.77573 NM_003364.1

11 201984_s_at Hs.77432 NM_005228.1

表L2：表2基因的查阅表

表2

探针_ID Unigene GenBank

205225_at Hs.1657 NM_000125.1

205186_at Hs.406050 NM_003462.2

201754_at Hs.351875 NM_004374.1

210085_s_at Hs.279928 AF230929.1

214440_at Hs.155956 NM_000662.1

206754_s_at Hs.1360 NM_000767.2 _ 203749_s_at Hs.361071 AI806984

215552_s_at Hs.239176 AI073549

209443_at Hs.76353 J02639.1

216109_at Hs.306803 AK025348.1

203685_at Hs.79241 NM_000633.1

205862_at Hs.193914 NM_014668.1

217838_s_at Hs.241471 NM_016337.1

209603_at Hs.169946 AI796169

212195_at Hs.71968 AL049265.1

212637_s_at Hs.355977 AU155187

205696_s_at Hs.105445 NM_005264.1

210652_s_at Hs.125783 BC004399.1

205734_s_at Hs.38070 AI990465

211000_s_at Hs.82065 AB015706.1

206107_at Hs.65756 NM_003834.1

203628_at Hs.405998 H05812

204934_s_at Hs.823. NM_002151.1

203071_at Hs.82222 NM_004636.1

204881_s_at Hs.432605 NM_0033581

210272_at Hs.330780 M29873.1

213201_s_at Hs.73980 AJ011712

206401_s_at Hs.101174 J03778.1

209339_at Hs.20191 U76248.1

208305_at Hs.2905 NM_000926.1

212956_at Hs.90419 AI348094

214164_x_at Hs.279916 BF752277

204343_at Hs.26630 NM_001089.1

203963_at Hs.5338 NM_001218.2

207038_at Hs.114924 NM_004694.1

218195_at Hs.15929 NM_024573.1

220329_s_at Hs.238270 NM_017909.1

218502_s_at Hs.26102 NM_014112.1

219414_at Hs.12079 NM_022131.1

202376_at Hs.234726 NM_001085.2

218806_s_at Hs.267659 AF118887.1

202089_s_at Hs.79136 NM_012319.2

213712_at Hs.432587 BF508639

204497_at Hs.20196 AB011092.1

215616_s_at Hs.301011 AB020683.1

218450_at Hs.294133 NM_015987.1

203438_at Hs.155223 AI435828

208451_s_at Hs.433721 NM_000592.2

205768_s_at Hs.11729 NM_003645.1

219682_s_at Hs.267182 NM_016569.1

204508_s_at Hs.279916 BC001012.1

203963_at Hs.5338 NM_001218.2

209603_at Hs.169946 AI796169

208788_at Hs.250175 AL136939.1

212637_s_at Hs.355977 AU_155187

200670_at Hs.149923 NM_005080.1

203571_s_at Hs.74120 NM_006829.1

208682_s_at Hs.4943 AF126181.1

209173_at Hs.91011 AF088867.1

201754_at Hs.351875 NM_004374.1

206469_x_at Hs.284236 NM_012067.1

213412_at Hs.25527 NM_014428.1

222212_s_at Hs.285976 AK001105.1

211323_s_at Hs.198443 L38019.1

209696_at Hs.574 D26054.1

212956_at Hs.90419 AI348094

218195_at Hs.15929 NM_024573.1

202089_s_at Hs.79136 NM_012319.2

209623_at Hs.167531 AW439494

210272_at Hs.330780 M29873.1

204623_at Hs.82961 NM_003226.1

215304_at Hs.159264 U79293.1

214440_at Hs.155956 NM_000662.1

205862_at Hs.193914 NM_014668.1

203108_at Hs.194691 NM_003979.2

207038_at Hs.114924 NM_004694.1

205186_at Hs.406050 NM_003462.2

202752_x_at Hs.22891 NM_012244.1

220744_s_at Hs.70202 NM_018262.1

219414_at Hs.12079 NM_022131.1

204798_at Hs.1334 NM_005375.1

205009_at Hs.350470 NM_003225.1

219051_x_at Hs.124915 NM_024042.1

205471_s_at Hs.63931 AW772082

207847_s_at Hs.89603 NM_002456.1

208451_s_at Hs.433721 NM_000592.2

205081_at Hs.423190 NM_001311.1

209459_s_at Hs.283675 AF237813.1

203071_at Hs.82222 NM_004636.1

209581_at Hs.37189 BC001387.1

204343_at Hs.26630 NM_001089.1

206401_s_at Hs.101174 J03778.1

210480_s_at Hs.385834 U90236.2

201825_s_at Hs.238126 AL572542

203749_s_at Hs.361071 AI806984

218806_s_at Hs.267659 AF118887.1

210652_s_at Hs.125783 BC004399.1

205225_at Hs.1657 NM_000125.1

205768_s_at Hs.11729 NM_003645.1

219682_s_at Hs.332150 NM_016569.1

表L3：表S4基因的查阅表

Unigene GenBank

Hs.106642 BF589529

Hs.25960 AF320053.1

Hs.1892 NM_002686.1

Hs.289104 NM_014274.1

Hs.165950 NM_002011.2

Hs.173035 AF338650.1

Hs.86859 AB008790.1

Hs.272207 NM_017533.1

Hs.103707 AW192795

Hs.274550 AA074145

Hs.100000 AW238654

Hs.54609 NM_014291.1

Hs.85050 NM_002667.1

Hs.239934 AL022316

Hs.194236 NM_000230.1

Hs.103395 NM_024709.1

Hs.107318 NM_003679.1

Hs.1735 NM_002193.1

Hs.155109 NM_002153.1

Hs.26770 NM_001446.1

Hs.278388 NM_000608.1

Hs.251754 NM_003064.1

Hs.378774 NM_001615.2

Hs.51515 AA053967

Hs.149195 NM_016233.1

Hs.78344 AI889739

Hs.112405 NM_002965.2

Hs.417091 AF052117.1

Hs.57664 NM_000888.3

Hs.154078 NM_004139.1

Hs.100014 NM_007325.1

Hs.193606 AA343027

Hs.202949 AK027231.1

Hs.84072 NM_004616.1

Hs.323910 AF177761.2

Hs.76780 NM_006741.1

Hs.225962 NM_014354.1

Hs.165619 NM_017717.2

Hs.127428 AI246769

Hs.2899 NM_002150.1

Hs.105938 NM_002343.1

Hs.193143 AK022610.1

Hs.1915 NM_004476.1

Hs.160786 NM_000050.1

Hs.23881 AI920979

Hs.3110 NM_000686.2

Hs.180142 NM_017422.2

Hs.169919 NM_000126.1

Hs.112408 NM_002963.2

Hs.96 NM_021127.1

Hs.33846 NM_003462.2

Hs.1360 NM_000767.2

Hs.1657 NM_000125.1

Hs.194689 AF120274.1

Hs.50964 NM_001712.1

Hs.23703 BF970427

Hs.193914 NM_014668.1

Hs.250505 AI806984

Hs.279928 AF230929.1

Hs.156637 NM_012116.1

Hs.169946 AI796169

Hs.4243 NM_024522.1

Hs.111801 NM_015908.1

Hs.155485 NM_005339.2

Hs.99603 NM_024701.1

Hs.55481 NM003447.1

Hs.306803 AK025348.1

Hs.239176 NM_000875.2

Hs.823 NM_002151.1

Hs.203845 NM_022358.1

Hs.432605 NM_003358.1

Hs.330780 M29873.1

Hs.32981 U38276

Hs.101174 NM_016835.1

Hs.17752 NM_015900.1

Hs.406646 Data not found

Hs.351875 NM_004374.1

Hs.20196 AB011092.1

Hs.331584 AF326966.1

Hs.272288 AI073549

Hs.12079 NM_022131.1

Hs.82065 NM_002184.1

Hs.372446 NM_007202.1

Hs.155956 NM_000662.1

Hs.278850 NM_024935.1

Hs.247955 NM_001322.1

Hs.76067 NM_001540.2

Hs.61289 AL157424.1

UniGene

Hs.334514 NM_032794

Hs.4943 NM_177433

Hs.1892 NM_002686

Hs.321576 NM_006458

Hs.91668 BF033007

Hs.274260 NM_001171

Hs.14368 NM_003022

Hs.86859 NM_005310

Hs.59889 NM_005518

Hs.165950 NM_002011

Hs.83190 NM_004104

Hs.89603 NM_002456

Hs.29724 NM_024813.1

Hs.12068 NM_000755

Hs.279916 NM_017689

Hs.169946 NM_002051

Hs.355977 NM_007013

Hs.33102 NM_003221

Hs.90419 XM_093895

Hs.38972 NM_005727

Hs.31034 NM_003847

Hs.132136 NM_004858

Hs.91668 BF033007

Hs.70604 NM_004496

Hs.234642 NM_004925

Hs.323910 NM_004448

Hs.198443 NM_002222

Hs.197922 NM_018584.1

Hs.87539 NM_000695

Hs.381412 Dala not found

Hs.180383 NM_001946

Hs.5338 NM_001218

Hs.406515 NM_000903

Hs.8910 NM_020379

Hs.6168 NM_014861

Hs.119597 NM_005063

Hs.574 NM_000507

Hs.326525 NM_009589

Hs.149923 NM_005080

Hs.167531 NM_022132

Hs.184376 NM_003825

Hs.301947 NM_014509

Hs.91011 NM_006408

Hs.114556 NM_017699

Hs.432970 NM_006431

Hs.300697 AK090461

Hs.84072 NM_004616

Hs.878 NM_003104

标题	发布/更新时间	阅读量
一种图像显著区域检测方法	2020-10-30	0
运动目标跟踪方法和装置	2021-05-20	2
改善发电设备故障检测的方法和装置	2023-06-21	0
用于MIMO-SCMA系统的低复杂度高译码性能的方法	2020-05-08	2
情感增强型化身动画化	2021-01-09	0
一种汽车轮胎状态诊断系统及其方法	2021-08-05	0
一种针对盲人辅助阅读的文本检测与识别方法	2020-07-02	1
一种基于深度学习的船舶识别系统及其识别方法	2020-08-02	2
SPEECH ENHANCEMENT	2023-06-27	0
DATA ANALYTICS SYSTEM	2021-05-21	0

涉及乳癌诊断的材料和方法

发明领域

该功能需要专业版企业版VIP权限，您可以：