用于诊断病状的方法和组合物专利检索-消融表面处理和涂层专利检索查询-专利查询网

用于诊断病状的方法和组合物

阅读：510发布：2022-05-10

专利汇可以提供用于诊断病状的方法和组合物专利检索，专利查询，专利分析的服务。并且本发明涉及用于诊断甲状腺癌和其他癌症的分子谱分析的组合物、试剂盒和方法。本发明还提供了将分子谱与诊断联系起来的方法以及相关的组合物。，下面是用于诊断病状的方法和组合物专利的具体信息内容。

权利要求

1.一种用于评价甲状腺组织样品的方法，包括：
(a)确定所述甲状腺组织样品的一种或多种基因表达产物的表达水平；以及
(b)通过将所述表达水平与至少两组不同的生物标志物的基因表达数据进行比较，将甲状腺组织样品分类为良性的或疑似的，每组生物标志物的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个参考基因表达水平，其中所述表达水平与所述至少两组生物标志物的基因表达数据连续比较。
2.权利要求1的方法，其中所述连续比较结束于通过使用主分类器分析所述表达水平来比较所述表达水平与最后一组生物标志物的基因表达数据，所述主分类器是从来自一组或多组生物标志物的基因表达数据获得的。
3.权利要求2的方法，其中所述主分类器是从包含与以下组织类型中的一种或多种的存在相关的一个或多个参考基因表达水平的基因表达数据获得的：滤泡性甲状腺腺瘤、滤泡性甲状腺癌、结节性增生、乳头状甲状腺癌、乳头状癌的滤泡变型、Hurthle细胞癌、Hurthle细胞腺瘤和淋巴细胞性甲状腺炎。
4.权利要求2的方法，其中所述连续比较起始于所述表达水平与一组或多组生物标志物的比较，该一组或多组生物标志包含与以下组织类型中的一种或多种的存在相关的一个或多个参考基因表达水平，所述组织类型为：甲状腺髓样癌、肾癌甲状腺转移、甲状旁腺、乳腺癌甲状腺转移和黑色素瘤甲状腺转移。
5.权利要求1的方法，还包括提供从受试者收集的甲状腺组织样品以供在步骤(a)中使用。
6.权利要求1的方法，其中所述连续比较包括将所述甲状腺组织样品表达水平输入计算机系统中，该计算机系统包含与所述多个参考基因表达水平相对应的基因表达数据。
7.权利要求1的方法，其中所述连续比较是通过算法来进行的，该算法由获自所述多个参考样品的所述基因表达数据训练的。
8.权利要求1的方法，其中所述至少两组生物标志物中的一个或多个包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：正常甲状腺、滤泡性甲状腺腺瘤、结节性增生、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤、滤泡性甲状腺癌、乳头状甲状腺癌、乳头状癌的滤泡变型、甲状腺髓样癌、Hurthle细胞癌、甲状腺未分化癌、肾癌甲状腺转移、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、B细胞淋巴瘤甲状腺转移和甲状旁腺。
9.权利要求1的方法，其中所述至少两组生物标志物中的一个或多个包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：滤泡性甲状腺腺瘤、滤泡性甲状腺癌、结节性增生、乳头状甲状腺癌、乳头状癌的滤泡变型、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤和Hurthle细胞癌。
10.权利要求1的方法，其中所述至少两组生物标志物中的一个或多个包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：甲状腺髓样癌、肾癌甲状腺转移、甲状旁腺、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、Hurthle细胞腺瘤和Hurthle细胞癌。
11.权利要求1的方法，其中所述至少两组生物标志物中的第一个包含与选自下组
的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：甲状腺髓样癌、肾癌甲状腺转移、甲状旁腺、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、Hurthle细胞腺瘤和Hurthle细胞癌；所述至少两组生物标志物中的第二个包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：滤泡性甲状腺腺瘤、滤泡性甲状腺癌、结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤和Hurthle细胞癌。
12.权利要求1的方法，其中所述至少两组生物标志物中的一个或多个包含与Hurthle细胞腺瘤和/或Hurthle细胞癌的存在相关的一个或多个基因表达产物水平。
13.权利要求1的方法，其中所述参考基因表达水平是从通过手术活组织检查收集的至少一种手术参考甲状腺组织样品以及通过细针抽吸收集的至少一种FNA参考甲状腺组织样品获得的。
14.权利要求13的方法，其中所述至少一种手术参考甲状腺组织样品包括至少200个手术活组织检查样品。
15.权利要求13的方法，其中所述至少一种FNA参考甲状腺组织样品包括至少200个FNA细针抽吸样品。
16.权利要求1的方法，其中所述分类的阴性预测值为至少95％。
17.权利要求1的方法，其中所述一种或多种基因表达产物对应于选自图4的基因。
18.权利要求1的方法，其中所述一种或多种基因表达产物对应于选自下组的基因：
AFF3、AIMP2、ALDH1B1、BRP44L、C5orf30、CD44、CPE、CYCS、DEFB1、EGF、EIF2AK1、FAH、FRK、FRMD3、GOT1、HSD17B6、HSPA9、IGF2BP2、IQCA1、ITGB3、KCNJ1、LOC100129258、MDH2、NUPR1、ODZ1、PDHA1、PFKFB2、PHYH、PPP2R2B、PVALB、PVRL2、RPL3、RRAGD、SDHA、SDHALP1、SDHALP2、SDHAP3、SLC16A1、SNORD63、ST3GAL5、ZBED2、ABCD2、ACER3、ACSL1、AHNAK、AIM2、ARSG、ASPN、AUTS2、BCL2L1、BTLA、C11orf72、C4orf7、CC2D2B、CCL19、CCND1、CD36、CD52、CD96、CFH、CFHR1、CLDN1、CLDN16、CR2、CREM、CTNNA2、CXCL13、DAB2、DDI2、DNAJC13、DPP4、DPP6、DYNLT1、EAF2、EMR3、FABP4、FBXO2、FLJ42258、FN1、FN1、FPR2、FREM2、FXYD6、G0S2、GABRB2、GAL3ST4、GIMAP2、GMFG、GPHN、GPR174、GZMK、HCG11、HNRNPA3、IGHG1、IL7R、ITGB1、KCNA3、KLRG1、LCP1、LIPH、LOC100131599、LOC647979、LRP12、LRP1B、MAGI3、MAPK6、MATN2、MDK、MPPED2、MT1F、MT1G、MT1H、MT1P2、MYEF2、NDUFC2、NRCAM、OR10D1P、P2RY10、P2RY13、PARVG、PDE8A、PIGN、PIK3R5、PKHD1L1、PLA2G16、PLCB1、PLEK、PRKG1、PRNP、PROS1、PTPRC、PTPRE、PYGL、PYHIN1、PZP、RGS13、RIMS2、RNF24、ROS1、RXRG、SCEL、SCUBE3、SEMA3D、SERGEF、SERPINA1、SERPINA2、SHC1、SLAMF6、SLC24A5、SLC31A1、SLC34A2、SLC35B1、SLC43A3、SLC4A1、SLC4A4、SNCA、STK32A、THRSP、TIMP1、TIMP2、TMSB 10、TNFRSF17、TNFRSF1A、TXNDC12、VWA5A、WAS、WIPI1和ZFYVE16。
19.权利要求1的方法，其中所述甲状腺组织样品是通过针吸、细针抽吸、芯针活组织检查、真空辅助活组织检查、粗针活组织检查、切开活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查获得的。
20.权利要求1的方法，其中所述甲状腺组织样品是通过细针抽吸(FNA)获得的。
21.权利要求7的方法，其中使用多于200个临床样品训练所述训练算法。
22.权利要求7的方法，其中使用来源于至少5个不同地理位置的样品训练所述训练算法。
23.权利要求7的方法，其中使用样品的混合物来训练所述训练算法，其中一些所述样品通过FNA获得，其他所述样品通过手术活组织检查获得。
24.权利要求1的方法，其中所述甲状腺组织样品是人的甲状腺组织样品。
25.权利要求1的方法，其中所述分类的结果通过显示设备报告给用户。
26.一种用于评价甲状腺组织样品的方法，包括
(a)确定所述甲状腺组织样品的一种或多种基因表达产物的表达水平；以及
(b)通过比较所述表达水平和与Hurthle细胞腺瘤或Hurthle细胞癌的存在或不
存在相关的多个参考基因表达水平，来确定所述甲状腺组织样品中Hurthle细胞腺瘤或Hurthle细胞癌的存在。
27.权利要求26的方法，其中所述比较包括将所述甲状腺组织样品表达水平输入计算机系统中，该计算机系统包含与所述多个参考基因表达水平相对应的基因表达数据。
28.权利要求26的方法，其中所述比较是通过算法来进行的，该算法由从所述多个参考样品获得的所述表达数据训练的。
29.权利要求26的方法，还包括提供从受试者收集来的甲状腺组织样品以供在步骤(a)中使用。
30.权利要求26的方法，其中所述参考基因表达水平是从通过手术活组织检查收集的至少一种手术参考甲状腺组织样品和通过细针抽吸收集的至少一种FNA参考甲状腺组织样品获得的。
31.权利要求30的方法，其中所述至少一种手术参考甲状腺组织样品不包括Hurthle细胞腺瘤组织和/或Hurthle细胞癌组织。
32.权利要求30的方法，其中所述至少一种FNA参考甲状腺组织样品不包括Hurthle细胞腺瘤组织和/或Hurthle细胞癌组织。
33.权利要求26的方法，其中所述甲状腺组织样品是通过针吸、细针抽吸、芯针活组织检查、真空辅助活组织检查、粗针活组织检查、切开活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查获得的。
34.权利要求26的方法，其中所述一种或多种基因表达产物对应于选自下组的一个或多个基因：AFF3、AIMP2、ALDH1B1、BRP44L、C5orf30、CD44、CPE、CYCS、DEFB1、EGF、EIF2AK1、FAH、FRK、FRMD3、GOT1、HSD17B6、HSPA9、IGF2BP2、IQCA1、ITGB3、KCNJ1、LOC100129258、MDH2、NUPR1、ODZ1、PDHA1、PFKFB2、PHYH、PPP2R2B、PVALB、PVRL2、RPL3、RRAGD、SDHA、SDHALP1、SDHALP2、SDHAP3、SLC16A1、SNORD63、ST3GAL5和ZBED2。
35.权利要求26的方法，其中所述甲状腺组织样品是人的甲状腺组织样品。
36.权利要求26的方法，其中所述确定的结果通过显示设备报告给用户。
37.一种评价受试者的甲状腺组织的方法，包括以下步骤：
(a)获得来自所述受试者的甲状腺组织样品的两种或多种基因表达产物的表达水平，其中所述两种或多种基因表达产物对应于选自图4的两个或多个基因；以及
(b)通过将所述基因表达水平与所述甲状腺组织样品中甲状腺病状的存在进行关联，来确定所述生物样品具有甲状腺病状。
38.权利要求37的方法，其中所述方法具有至少50％的特异性。
39.权利要求37的方法，其中所述一种或多种基因表达产物对应于至少10个选自图4的基因。
40.权利要求37的方法，其中所述一种或多种基因表达产物对应于至少20个选自图4的基因。
41.权利要求37的方法，其中所述甲状腺组织样品是通过针吸、细针抽吸、芯针活组织检查、真空辅助活组织检查、粗针活组织检查、切开活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查获得的。
42.权利要求37的方法，其中所述受试者是人。
43.权利要求37的方法，其中所述基因表达产物是RNA。
44.权利要求43的方法，其中所述基因表达产物是mRNA、rRNA、tRNA或miRNA。
45.权利要求43的方法，其中通过微阵列、SAGE、印迹法、RT-PCR、测序或定量PCR来测定RNA表达水平。
46.权利要求37的方法，其中所述甲状腺病状是恶性甲状腺病状。
47.权利要求37的方法，其中NPV为至少95％，且特异性为至少50％。
48.权利要求37的方法，其中所述确定的结果通过显示设备报告给用户。
49.一种评价来自患者的甲状腺组织样品的方法，包括以下步骤：
(a)确定所述甲状腺组织样品的一种或多种基因表达产物的表达水平；
(b)将步骤(a)的表达水平与从多个参考样品获得的基因表达数据进行比较，其中所述多个参考样品包括通过甲状腺组织的手术活组织检查而获得的参考甲状腺样品和通过甲状腺组织的细针抽吸而获得的参考甲状腺样品；以及
(c)基于所述关联，(i)确定所述甲状腺组织样品为恶性的，(ii)确定所述甲状腺组织样品为良性的，(iii)确定所述甲状腺组织样品为非癌性的，(iv)确定所述甲状腺组织样品为非恶性的，或(v)确定所述甲状腺组织样品为正常的。
50.权利要求49的方法，其中所述比较是通过算法来进行的，该算法由从所述多个参考样品获得的所述基因表达数据训练的。
51.权利要求49的方法，其中所述多个参考样品包括至少200个参考样品。
52.权利要求49的方法，还包括提供从受试者收集的甲状腺组织样品以供在步骤(a)中使用。
53.权利要求49的方法，其中所述甲状腺组织样品是通过针吸、细针抽吸、芯针活组织检查、真空辅助活组织检查、粗针活组织检查、切开活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查获得的。
54.权利要求49的方法，其中所述甲状腺组织样品是人的甲状腺组织样品。
55.权利要求49的方法，其中所述多个参考样品具有选自下组的病理学：滤泡性甲状腺腺瘤、滤泡性甲状腺癌、结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤和Hurthle细胞癌。
56.权利要求49的方法，其中所述比较包括所述表达水平与至少两组不同的生物标志物的基因表达数据的比较，每组生物标志物的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个参考基因表达水平，其中所述表达水平与所述至少两组生物标志物的基因表达数据进行连续比较。
57.权利要求56的方法，其中所述至少两组生物标志物中的第一个包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：甲状腺髓样癌、肾癌甲状腺转移、甲状旁腺、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、Hurthle细胞腺瘤和Hurthle细胞癌；所述至少两种分类器中的第二种包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：滤泡性甲状腺腺瘤、滤泡性甲状腺癌、结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤和Hurthle细胞癌。
58.一种为具有或疑似具有甲状腺病状的受试者选择治疗的方法，包括：
(a)获得来自所述受试者的甲状腺组织样品的两种或多种基因表达产物的表达水平，其中所述两种或多种基因表达产物对应于选自图4的两个或多个基因；以及
(b)基于所述基因表达水平与所述甲状腺组织样品中甲状腺病状的存在的关联，为所述受试者选择治疗。
59.权利要求58的方法，其中所述治疗选自放射性碘消融术、外科手术、甲状腺切除术和施用治疗剂。
60.权利要求58的方法，其中所述关联包括所述表达水平与至少两组不同的生物标志物的基因表达数据的比较，每组生物标志物的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个参考基因表达水平，其中所述表达水平与所述至少两组生物标志物的基因表达数据进行连续比较。
61.权利要求60的方法，其中所述连续比较结束于通过使用主分类器分析所述表达水平来比较所述表达水平与最后一组生物标志物的基因表达数据，所述主分类器是从来自一组或多组生物标志物的基因表达数据获得的。
62.权利要求61的方法，其中所述主分类器是从包含与以下组织类型中之一种或多种的存在相关的一个或多个参考基因表达水平的基因表达数据获得的：滤泡性甲状腺腺瘤、滤泡性甲状腺癌、结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、Hurthle细胞癌、Hurthle细胞腺瘤和淋巴细胞性甲状腺炎。
63.权利要求58的方法，其中所述甲状腺病状选自滤泡性甲状腺腺瘤、结节增生、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤、滤泡性甲状腺癌、乳头状甲状腺癌、乳头状癌的滤泡变型、甲状腺髓样癌、Hurthle细胞癌、甲状腺未分化癌、肾癌甲状腺转移、乳腺癌甲状腺转移、黑色素瘤甲状腺转移和B细胞淋巴瘤甲状腺转移。
64.权利要求58的方法，其中所述受试者是人类受试者。
65.权利要求58的方法，其中所述关联是通过由从多个参考样品获得的表达数据训练的算法来进行的。
66.权利要求37的方法，其中所述关联的结果通过显示设备报告给用户。

说明书全文

用于诊断病状的方法和组合物

交叉引用

[0001] 本申请要求以下美国临时专利申请的优先权：2010年5月11日提交的美国临时申请号61/333,717；和2010年10月5日提交的美国临时申请号61/389,810；每个申请通
过引用全部并入本文。

背景技术

[0002] 本领域需要分类、表征和诊断疾病或病症的更准确的方法。例如，癌症是全世界的主要死亡原因之一；然而对许多患者而言，简单地明确得到准确诊断这个第一步的过程常
常是令人沮丧且耗时的经历。对于包括甲状腺癌在内的许多癌症而言是这样。对于相对罕
见的疾病，比如占甲状腺肿瘤的大约5％的Hurthle细胞腺瘤和Hurthle细胞癌而言也尤其
是这样。

[0003] 对癌症的不准确诊断可能导致包括昂贵的外科手术在内的不必要的后续程序，更别说给患者带来的不必要的精神痛苦。就甲状腺癌而言，由于怀疑恶性肿瘤，据估计美国每
年进行大约130,000例甲状腺切除手术，其中仅有约54,000例是必要的；因此，每年进行了
数以万计的不必要的甲状腺切除手术。由于需要终身药物治疗来代替损失的甲状腺功能，
持续增加的治疗费用和并发症可能导致进一步的经济和身体伤害。因此，强烈需要用于检
测和/或诊断诸如癌症的疾病以及其他病症的改良方法。
发明内容

[0004] 一方面，本发明提供了用于评价甲状腺组织样品的方法。在一些实施方案中，该方法包括(a)确定所述甲状腺组织样品的一种或多种基因表达产物的表达水平；以及(b)通
过将所述表达水平与至少两组不同的生物标志物的基因表达数据进行比较，将甲状腺组织
样品分类为良性的或疑似的，每组生物标志物的基因表达数据包含与一种或多种组织类型
的存在相关的一个或多个参考基因表达水平，其中所述表达水平与所述至少两组生物标志
物的基因表达数据连续比较。在一些实施方案中，所述方法还包括提供从受试者收集的甲
状腺组织样品以供在步骤(a)中使用。在一些实施方案中，连续比较结束于通过使用主分
类器分析所述表达水平来比较所述表达水平与最后一组生物标志物的基因表达数据，所述
主分类器是从来自一组或多组生物标志物的基因表达数据获得的。在一些实施方案中，主
分类器是从包含与以下组织类型中的一种或多种的存在相关的一个或多个参考基因表达
水平的基因表达数据获得的：滤泡性甲状腺腺瘤、滤泡性甲状腺癌、结节增生、乳头状甲状
腺癌、乳头状癌的滤泡变型、Hurthle细胞癌、Hurthle细胞腺瘤和淋巴细胞性甲状腺炎。在
一些实施方案中，连续比较起始于所述表达水平与包含与以下组织类型中的一种或多种的
存在相关的一个或多个参考基因表达水平的一组或多组生物标志物的比较，这些组织类型
为：甲状腺髓样癌、肾癌甲状腺转移、甲状旁腺、乳腺癌甲状腺转移和黑色素瘤甲状腺转移。
在一些实施方案中，连续比较包括将所述甲状腺组织样品表达水平输入包含与所述多个参
考基因表达水平相对应的基因表达数据的计算机系统中。在一些实施方案中，连续比较是
通过由从所述多个参考样品获得的所述基因表达数据训练的算法来进行的。可使用多个临
床样品比如多于200个临床样品来训练该算法，这些临床样品可包括通过细针抽吸(FNA)
而获得的一个或多个甲状腺组织样品和通过手术活组织检查而获得的一个或多个甲状腺
组织样品。在一些实施方案中，使用来源于至少5个不同地理位置的样品来训练该算法。在
一些实施方案中，该方法具有至少95％的阴性预测值(NPV)。

[0005] 在一个实施方案中，该方法包括(a)确定所述甲状腺组织样品的一种或多种基因表达产物的表达水平；以及(b)通过比较所述表达水平和与Hurthle细胞腺瘤或Hurthle
细胞癌的存在或不存在相关的多个参考基因表达水平，来确定甲状腺组织样品中Hurthle
细胞腺瘤或Hurthle细胞癌的存在。在一些实施方案中，所述方法还包括提供从受试者收
集来的甲状腺组织样品以供在步骤(a)中使用。在一些实施方案中，所述比较步骤包括将
所述甲状腺组织样品表达水平输入包含与所述多个参考基因表达水平相对应的基因表达
数据的计算机系统中。在一些实施方案中，所述比较步骤是通过由从所述多个参考样品获
得的基因表达数据训练的算法来进行的。在一些实施方案中，所述参考基因表达水平是从
通过手术活组织检查收集的至少一种手术参考甲状腺组织样品和通过细针抽吸收集的至
少一种FNA参考甲状腺组织样品获得的。在一些实施方案中，所述至少一种手术参考甲状
腺组织样品和/或所述一种或多种FNA参考甲状腺组织样品不包含Hurthle细胞腺瘤组织
和/或Hurthle细胞癌组织。在一些实施方案中，所述一种或多种基因表达产物对应于选自
下组的一个或多个基因：AFF3、AIMP2、ALDH 1B 1、BRP44L、C5orf30、CD44、CPE、CYCS、DEFB
1、EGF、EIF2AK1、FAH、FRK、FRMD3、GOT1、HSD17B6、HSPA9、IGF2BP2、IQCA1、ITGB3、KCNJ1、LOC100129258、MDH2、NUPR1、ODZ1、PDHA1、PFKFB2、PHYH、PPP2R2B、PVALB、PVRL2、RPL3、RRAGD、SDHA、SDHALP1、SDHALP2、SDHAP3、SLC16A1、SNORD63、ST3GAL5和ZBED2。

[0006] 在一个实施方案中，该方法包括(a)获得来自所述受试者的甲状腺组织样品的两种或多种基因表达产物的表达水平，其中所述两种或多种基因表达产物对应于选自图4的
两个或多个基因；以及(b)通过将所述基因表达水平与所述甲状腺组织样品中甲状腺病状
的存在进行关联，来确定所述生物样品为具有甲状腺病状。在一些实施方案中，该方法具有
至少50％的特异性和/或至少95％的NPV。在一些实施方案中，所述甲状腺病状为恶性甲
状腺病状。在一些实施方案中，所述一种或多种基因表达产物对应于选自图4的至少10个
或至少20个基因。

[0007] 在一个实施方案中，该方法包括以下步骤：(a)确定所述甲状腺组织样品的一种或多种基因表达产物的表达水平；(b)将步骤(a)中的表达水平与从多个参考样品获得的
基因表达数据进行比较，其中所述多个参考样品包括通过甲状腺组织的手术活组织检查而
获得的参考甲状腺样品和通过甲状腺组织的细针抽吸而获得的参考甲状腺样品；以及(c)
基于所述关联，(i)确定所述甲状腺组织样品为恶性的，(ii)确定所述甲状腺组织样品为
良性的，(iii)确定所述甲状腺组织样品为非癌性的，(iv)确定所述甲状腺组织样品为非
恶性的，或(v)确定所述甲状腺组织样品为正常的。在一些实施方案中，该方法还包括提
供从受试者收集来的甲状腺组织样品以供在步骤(a)中使用。在一些实施方案中，通过由
从所述多个参考样品，比如多于200个样品获得的基因表达数据训练的算法来进行所述比
较。在一些实施方案中，所述多个参考样品具有选自滤泡性甲状腺腺瘤、滤泡性甲状腺癌、
结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤和Hurthle细胞癌的病理学。在一些实施方案中，所述比较步骤包括所述表达水平与至少
两组不同的生物标志物的基因表达数据的比较，每组生物标志物的基因表达数据包含与一
种或多种组织类型的存在相关的一个或多个参考基因表达水平，其中所述表达水平与所述
至少两组生物标志物的基因表达数据进行连续比较。

[0008] 在一方面，本发明提供了为具有甲状腺病状或疑似具有甲状腺病状的受试者如人类受试者选择治疗的方法。在一个实施方案中，该方法包括(a)获得来自所述受试者的甲
状腺组织样品的两种或多种基因表达产物的表达水平，其中所述两种或多种基因表达产物
对应于选自图4的两个或多个基因；以及(b)基于所述基因表达水平与所述甲状腺组织样
品中甲状腺病状的存在的关联，为所述受试者选择治疗。在一些实施方案中，所述治疗选
自放射性碘消融术、外科手术、甲状腺切除术和施用治疗剂。在一些实施方案中，所述关联
步骤包括所述表达水平与至少两组不同的生物标志物的基因表达数据的比较，每组生物标
志物的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个参考基因表达
水平，其中所述表达水平与所述至少两组生物标志物的基因表达数据进行连续比较。在一
些实施方案中，连续比较结束于通过使用主分类器分析所述表达水平来比较所述表达水平
与最后一组生物标志物的基因表达数据，所述主分类器是从来自一组或多组生物标志物的
基因表达数据获得的。在一些实施方案中，主分类器是从包含与以下组织类型中的一种或
多种的存在相关的一个或多个参考基因表达水平的基因表达数据获得的：滤泡性甲状腺腺
瘤、滤泡性甲状腺癌、结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、Hurthle细胞癌、Hurthle细胞腺瘤和淋巴细胞性甲状腺炎。所述甲状腺病状可选自滤泡性甲状腺腺瘤、结节
增生、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤、滤泡性甲状腺癌、乳头状甲状腺癌、乳头状癌的滤泡变型、甲状腺髓样癌、Hurthle细胞癌、甲状腺未分化癌、肾癌甲状腺转移、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、B细胞淋巴瘤甲状腺转移。可通过由从多个参考样品获
得的表达数据训练的算法来进行所述关联。

[0009] 在本发明方法的一些实施方案中，所述至少两组生物标志物中的一个或多个包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：正常甲状
腺、滤泡性甲状腺腺瘤、结节增生、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤、滤泡性甲状腺癌、乳头状甲状腺癌、乳头状癌的滤泡变型、甲状腺髓样癌、Hurthle细胞癌、甲状腺未分化癌、肾癌甲状腺转移、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、B细胞淋巴瘤甲状腺转移和甲状旁腺。在一些实施方案中，所述至少两组生物标志物中的一个或多个包含与选自下组
的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：滤泡性甲状腺腺瘤、
滤泡性甲状腺癌、结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤和Hurthle细胞癌。在一些实施方案中，所述至少两组生物标志物中的
一个或多个包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产
物水平：甲状腺髓样癌、肾癌甲状腺转移、甲状旁腺、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、Hurthle细胞腺瘤和Hurthle细胞癌。在一些实施方案中，所述至少两组生物标志物
中的第一组包含与选自下组的一种或多种组织类型的存在相关的一个或多个基因表达产
物水平：甲状腺髓样癌、肾癌甲状腺转移、甲状旁腺、乳腺癌甲状腺转移、黑色素瘤甲状腺转移、Hurthle细胞腺瘤和Hurthle细胞癌；且所述至少两组生物标志物中的第二个包含与选
自下组的一种或多种组织类型的存在相关的一个或多个基因表达产物水平：滤泡性甲状腺
腺瘤、滤泡性甲状腺癌、结节增生、乳头状甲状腺癌、乳头状癌的滤泡变型、淋巴细胞性甲状腺炎、Hurthle细胞腺瘤和Hurthle细胞癌。在一些实施方案中，所述至少两组生物标志物
中的一个或多个包含与Hurthle细胞腺瘤和/或Hurthle细胞癌的存在相关的一个或多个
基因表达产物水平。在本发明的方法的一些实施方案中，通过显示设备将样品的分类或鉴
定结果报告给用户。

[0010] 在本发明的方法的一些实施方案中，参考基因表达水平是从通过手术活组织检查收集的至少一种手术参考甲状腺组织样品以及通过细针抽吸收集的至少一种FNA参考
甲状腺组织样品获得的，该样品可包括至少200个手术活组织检查样品和/或至少200个
FNA细针抽吸样品。在一些实施方案中，所述基因表达产物对应于选自图4的基因。在一
些实施方案中，所述一种或多种基因表达产物对应于选自AFF3、AIMP2、ALDH1B1、BRP44L、
C5orf30、CD44、CPE、CYCS、DEFB1、EGF、EIF2AK1、FAH、FRK、FRMD3、GOT1、HSD17B6、HSPA9、IGF2BP2、IQCA1、ITGB3、KCNJ1、LOC100129258、MDH2、NUPR1、ODZ1、PDHA1、PFKFB2、PHYH、PPP2R2B、PVALB、PVRL2、RPL3、RRAGD、SDHA、SDHALP1、SDHALP2、SDHAP3、SLC16A1、SNORD63、ST3GAL5、ZBED2、ABCD2、ACER3、ACSL1、AHNAK、AIM2、ARSG、ASPN、AUTS2、BCL2L 1、BTLA、C 11orf72、C4orf7、CC2D2B、CCL19、CCND1、CD36、CD52、CD96、CFH、CFHR1、CLDN1、CLDN16、CR2、CREM、CTNNA2、CXCL13、DAB2、DDI2、DNAJC13、DPP4、DPP6、DYNLT1、EAF2、EMR3、FABP4、FBXO2、FLJ42258、FN1、FN1、FPR2、FREM2、FXYD6、G0S2、GABRB2、GAL3ST4、GIMAP2、GMFG、GPHN、GPR174、GZMK、HCG11、HNRNPA3、IGHG1、IL7R、ITGB1、KCNA3、KLRG1、LCP1、LIPH、LOC100131599、LOC647979、LRP12、LRP1B、MAGI3、MAPK6、MATN2、MDK、MPPED2、MT1F、MT1G、MT1H、MT1P2、MYEF2、NDUFC2、NRCAM、OR10D1P、P2RY10、P2RY13、PARVG、PDE8A、PIGN、PIK3R5、PKHD1L1、PLA2G16、PLCB1、PLEK、PRKG1、PRNP、PROS1、PTPRC、PTPRE、PYGL、PYHIN1、PZP、RGS13、RIMS2、RNF24、ROS1、RXRG、SCEL、SCUBE3、SEMA3D、SERGEF、SERPINA1、SERPINA2、SHC1、SLAMF6、SLC24A5、SLC31A1、SLC34A2、SLC35B1、SLC43A3、SLC4A1、SLC4A4、SNCA、STK32A、THRSP、TIMP1、TIMP2、TMSB10、TNFRSF17、TNFRSF1A、TXNDC12、VWA5A、WAS、WIPI1和ZFYVE16的基因。所述甲状腺组织样品可以是人类甲状腺组织样品。在一些实施方案中，甲状腺组
织样品是通过针吸、细针抽吸、芯针活组织检查、真空辅助活组织检查、粗针活组织检查、切开活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组织检查而获
得的。在本发明方法中使用的基因表达产物包括但不限于RNA，比如mRNA、rRNA、tRNA或
miRNA。在一些实施方案中，通过微阵列、SAGE、印迹法、RT-PCR、测序或定量PCR来测定RNA的表达水平。
援引并入

[0011] 在本说明书中所提及的所有出版物和专利申请都通过引用以同种程度全部并入本文，犹如每个单独的出版物或专利申请特别地和单独地通过引用而并入。
附图说明

[0012] 本发明的新特征在附加的权利要求书中详细阐明。通过参考阐述了使用本发明原理的说明性实施方案的以下详细说明和附图而获得对本发明的特征和优点的更好的理解，
附图中：

[0013] 图1A和1B是描述本发明的实施方案的流程图。

[0014] 图1C显示了用于实施本发明方法的系统的架构的一个实施方案。

[0015] 图2是列出可用于诊断甲状腺病状的16个生物标志物组的表格。

[0016] 图3是列出可用于诊断甲状腺病状的7个分类组的表格。本文中分类器7有时称为“主分类器”。

[0017] 图4是列出可分配给所示分类组的生物标志物的单一表格。子图A-H是该表格的任意部分而不一定代表个别生物标志物组。

[0018] 图5是提供使用假设的一组20种生物标志物来区分恶性和良性甲状腺细针抽吸物(FNA)的基因表达矩阵模型的单一表格。子部分A-B是该表格的任意部分。

[0019] 图6是提供使用一组20种生物标志物来区分恶性和良性甲状腺FNA样品的基因表达矩阵模型的单一表格。除了个别生物标志物不同，该图具有与图5所示的相同的生物
标志物特征。子部分A-B是该表格的任意部分。

[0020] 图7是提供使用一组20种生物标志物来区分恶性和良性甲状腺FNA样品的基因表达矩阵模型的单一表格。该表格使用的遗传标志物与图5和图6中的遗传标志物不同，
并且提供的生物标志物特征与图5和图6中的生物标志物特征也不同。子部分A-B是该表
格的任意部分。

[0021] 图8是提供在本发明方法中有用的，特别是在确定甲状腺组织样品中Hurthle细胞腺瘤和/或Hurthle细胞癌的存在中有用的生物标志物的示例性列表的表格。

[0022] 图9图示了根据本发明方法训练的分类器的受试者工作特征(ROC)曲线。

[0023] 图10A和图10B图示了根据本发明方法训练的分子分类器的对比，包括关于对两个独立测试集的性能的灵敏度和特异性的测量。

[0024] 图10C和图10D显示了所述两个独立数据集的亚型分布和对于每个样品的分类器预测。

[0025] 图11表格显示在算法训练和测试中使用的样品组成，其是根据专家术后组织病理学检查所定义的按照亚型排列的。

[0026] 图12A显示了外科手术组织的滤泡(FOL)和淋巴细胞(LCT)综合得分的对比。

[0027] 图12B显示了细针抽吸物的滤泡(FOL)和淋巴细胞(LCT)综合得分的对比。

[0028] 图13图示了计算机(in silico)模拟的混合物和体外混合物对分类器性能的影响。

[0029] 图14表格显示排名前列的差异表达基因的过度代表分析结果。

[0030] 图15是本发明的试剂盒的实施方案。

[0031] 图16示出了一台计算机，其可用于显示、储存、取回或计算来自本发明方法的诊断结果；可用于显示、储存、恢复或计算来自基因组或核酸表达分析的原始数据；或可用于
显示、储存、取回或计算用于本发明方法中的任何样品或客户信息。
发明详述

[0032] I.介绍

[0033] 本公开内容提供了用于鉴定生物测试样品中异常细胞增殖的新方法，以及相关的试剂盒和组合物。提供了区别良性组织和疑似(或恶性)组织的方法，以及明确鉴定良性
组织的方法，以及相关的试剂盒、组合物和商业方法。提供了用于鉴定良性或疑似组织的生
物标志物集(set)，以及获得多个此类生物标志物集的方法。例如，本公开内容提供了可从
表现不同病理学的样品群组的基因表达分析中获得的新分类组。本公开内容也提供了将不
确定的生物样品(例如，外科手术组织、甲状腺组织、甲状腺FNA样品等)重新分类为良性
以及疑似(或恶性)类别的方法，以及相关的组合物、商业方法和试剂盒。在一些情况下，
本公开内容提供了可从使用生物标志物组的表达分析中获得的“主分类器”，其可用于指示
样品为良性或疑似(或恶性)。本公开内容也提供了在将主分类器应用于生物样品如临床
样品的表达水平数据之前的一系列步骤。这样的系列步骤可包括初期对生物样品的细胞学
或组织病理学研究，以及随后对样品中的基因(或其他生物标志物)表达水平的分析。在
一些实施方案中，细胞学或组织病理学研究在应用本文所述的任一种分类器的同时或之后
发生。

[0034] 样品的表达水平可与两组或多组不同的生物标志物的基因表达数据进行比较，每组生物标志物的基因表达数据包含与一种或多种组织类型的存在相关的一个或多个参考
基因表达水平，其中所述表达水平与所述两组或多组生物标志物的基因表达数据以连续方
式进行比较。表达水平与多组生物标志物的基因表达数据的比较可包括分类器的应用。例
如，基因表达水平的分析可涉及将本文所述的不同分类器连续应用于基因表达数据。此类
连续分析可涉及应用从病变组织群组的基因表达分析中获得的分类器，接着应用从不同生
物样品的混合物的分析中获得的分类器，此类样品中的一些包含病变组织，其他样品包含
良性组织。在优选的实施方案中，所述病变组织为恶性或癌变组织(包括从另一个器官转
移的组织)。在更优选的实施方案中，所述病变组织为甲状腺癌或已转移到甲状腺的非甲状
腺癌。在一些实施方案中，所述分类器是从带有外来组织的样品(例如，包含甲状旁腺组织
的甲状腺组织样品)的基因表达分析中获得的。

[0035] 在连续分析中早期使用的分类器可用于将样品归为或者排除良性的或疑似的。在一些实施方案中，此类连续分析结束于将“主”分类器应用于来自未被前面的分类器排除的
样品的数据，其中所述主分类器是从多种类型的组织中的基因表达水平的数据分析中获得
的，并且其中所述主分类器能够指示样品为良性的或疑似的(或恶性的)。

[0036] 可利用本发明方法来鉴定或表征的病状的一个实例为甲状腺癌。甲状腺具有至少两种生成激素的细胞。滤泡细胞生成甲状腺激素，甲状腺激素影响心率、体温和能量水平。
C细胞生成降钙素，一种帮助控制血液中的钙水平的激素。甲状腺中的异常生长可导致结节
的形成，所述结节可能是良性的或疑似的(或恶性的)。甲状腺癌包括至少四种不同的甲状
腺恶性肿瘤：乳头状肿瘤、滤泡性肿瘤、髓样肿瘤和未分化肿瘤。

[0037] 使用生物标志物组的表达谱分析可用于将甲状腺组织表征为良性的、疑似的和/或恶性的。这些组可来源于对包含甲状腺亚型的群组的基因表达水平的分析，所述群组包
含：良性(非癌性)甲状腺亚型，包括滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺
炎(LCT)和Hurthle细胞腺瘤(HA)；恶性亚型，包括滤泡性癌(FC)、乳头状甲状腺癌(PTC)、
乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、Hurthle细胞癌(HC)和甲状腺未分化
癌(ATC)。此类组也可来源于包括肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴
瘤(BCL)和甲状旁腺(PTA)的非甲状腺亚型。与正常甲状腺组织(NML)相关的生物标志物
组也可在本文所提供的方法和组合物中使用。图2提供了示例性的生物标志物组，本文对
此将有进一步描述。需要注意，图2中所列出的每个组涉及生物标志物表达(例如，基因表
达)的特征或模式，该特征或模式与具有特定病理学或描述的样品相关。

[0038] 本发明还提供了用于通过迭代过程(例如，鉴别诊断)来鉴定异常细胞增殖的类型的新方法和新组合物，所述异常细胞增殖例如是：癌，包括滤泡癌(FC)、乳头状甲状
腺癌的滤泡变型(FVPTC)、Hurthle细胞癌(HC)、Hurthle细胞腺瘤(HA)；乳头状甲状腺
癌(PTC)、甲状腺髓样癌(MTC)和未分化癌(ATC)；腺瘤，包括滤泡性腺瘤(FA)；结节增生
(NHP)；胶质结节(CN)；良性结节(BN)；滤泡性瘤(FN)；淋巴细胞性甲状腺炎(LCT)，包括淋
巴细胞性自身免疫性甲状腺炎；甲状旁腺组织；肾癌甲状腺转移；黑素瘤甲状腺转移；B细
胞淋巴瘤甲状腺转移；乳腺癌甲状腺转移；良性(B)肿瘤、恶性(M)肿瘤和正常(N)组织。
本发明还提供了在细胞增殖的表征、诊断和/或治疗中有用的新基因表达标志物以及新基
因和标志物群。此外，本发明提供用于提供细胞增殖的强化诊断、鉴别诊断、监测和治疗的
商业方法。

[0039] 本公开内容提供了可用于甲状腺组织分类的特异性生物标志物的列表。然而，本公开内容并不意味着仅限于本文所公开的特异性生物标志物。而是应当理解，本发明包括
通过本文所述的方法鉴定的任何生物标志物、基因、基因的组或生物标志物的组。

[0040] 在一些情况下，本方法提供了大量或一定数字范围的可用于诊断或以其他方式表征生物样品的生物标志物(包括基因表达产物)。例如，在一些实施方案中，总共使用了
至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、
100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或300种生物标志物。在其他实施方案中，总共使用了至多1、2、3、4、5、6、7、8、9、10、15、20、25、30、
33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、
160、162、167、175、180、185、190、195、200或300种生物标志物。

[0041] 本发明的方法和组合物也涉及用于鉴定、分类、诊断或以其他方式表征生物样品的“生物标志物组”的使用。所述方法和组合物也可使用多组生物标志物组，在本文中其也
被描述为“分类组”，它们的实例可见图3。通常确定一组中的生物标志物的基因表达水平的模式(也称为特征)，然后用来评价生物样品中的同一组生物标志物的特征，例如通过测量
样品特征和参考特征之间的相似性。在一些实施方案中，本方法涉及测量(或获得)生物标
志物组内和/或分类组内的两种或多种基因表达产物的水平。例如，在一些实施方案中，生
物标志物组或分类组可包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、
45、48、50、53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、
180、185、190、195、200或300种生物标志物。在一些实施方案中，生物标志物组或分类组可包含不超过1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、
65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或300种生物标志物。在一些实施方案中，分类组包含至少1个、2个、3个、4个、5个、6个、
7个、8个、9个、10个、15个、20个或25个不同的生物标志物组。在其他实施方案中，分类
组包含不超过1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个不同的生物标志物组。

[0042] 在一些实施方案中，本发明提供了鉴定、分类或诊断癌症的方法，包括以下步骤：获得生物样品的一种或多种基因表达产物的表达水平；以及确定该生物样品为良性的，其
中所述基因表达水平指示在该生物样品中不存在癌。在一些实施方案中，本发明提供了鉴
定、分类或诊断癌症的方法，包括以下步骤：获得生物样品的一种或多种基因表达产物的表
达水平；以及确定该生物样品为恶性的或疑似的，其中所述基因表达水平指示在该生物样
品中存在癌。例如，这可以如下实现：通过将如本文所述分类组中所定义的基因表达水平的
模式与样品中的基因表达水平进行关联，从而确定(或排除)生物样品中甲状腺癌的存在。
在一些实施方案中，所述基因表达产物与选自图4的生物标志物相关。

[0043] 在一些实施方案中，本发明提供了使用本文所述的方法来鉴定、分类或诊断癌症的方法，该方法的特异性和灵敏度分别为至少50％或70％，其中，在生物样品和生物标志
物组之间或在生物样品和分类组之间比较基因表达产物的水平；并且基于基因表达谱的对
比确定该生物样品为癌变的、疑似的或良性的。在一些实施方案中，本方法的特异性为至
少50％、60％、70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、
95％、96％、97％、98％或99％.在一些实施方案中，本方法的灵敏度为至少50％、60％、
70％、75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、
97％、98％或99％。在一些实施方案中，本方法的特异性为至少50％，且灵敏度为至少
50％。在一些实施方案中，本方法的特异性为至少70％，且本方法的灵敏度为至少70％。在
一些实施方案中，特异性为至少50％，而灵敏度为至少70％。

[0044] 在一些实施方案中，名义特异性大于或等于50％。在一些实施方案中，名义特异性大于或等于70％。在一些实施方案中，名义阴性预测值(NPV)大于或等于95％。在一
些实施方案中，NPV为至少90％、91％、92％、93％、94％、95％、95.5％、96％、96.5％、97％、
97.5％、98％、98.5％、99％、99.5％(例如，90％、91％、92％、93％、94％、95％、95.5％、
96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或100％)，且特异性(或阳性预测值(PPV))为至少30％、35％、40％、50％、60％、70％、80％、90％、95％、95.5％、96％、
96.5％、97％、97.5％、98％、98.5％、99％或99.5％(例如，30％、35％、40％、50％、60％、
70％、80％、90％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或
100％)。在一些情况下，NPV为至少95％，且特异性为至少50％。在一些情况下，NPV为至
少95％，且特异性为至少70％。

[0045] 选择标志物组以充分分离良性表达谱与非良性或疑似表达谱的。这种多维分类器(即算法)的训练可在许多生物样品上进行，比如至少50个、100个、200个、300个、400个、
500个、600个、700个、800个、900个、1000个、1500个、2000个、2500个、3000个、3500个或4000个生物样品(例如，甲状腺样品)。总样品群体可由从FNA获得的样品组成，或者
样品群体可以是通过FNA和通过其他方法获得的样品的混合物，例如，术后组织。通过FNA
获得的占总样品群体的百分比可大于10％、20％、30％、40％、50％、60％、70％、80％、90％或95％。在一些实施方案中，使用许多训练/测试集来开发初步算法。算法总错误率可显
示为良性样品对非良性样品的基因数的函数。在一些实施方案中，可使用其他性能指标，比
如为良性∶恶性(B∶M)亚型的基因数的函数的性能指标。此类性能指标可使用CV或本
领域已知的其他方法来获得。可使用在样品上以交叉验证模式训练和测试的支持向量机模
型来获得所有结果。

[0046] 在一些实施方案中，相互比较的亚型或样品集之间的基因表达存在特定(或一定范围的)差异。在一些实例中，一些相似的亚型的基因表达合并形成超类(super-class)，
该超类然后与另一个亚型或另一个超类或所有其他亚型的集进行比较。在一些实施方案
中，基因表达水平的差异为至少5％、10％、15％、20％、25％、30％、35％、40％、45％或50％或更高。在一些实施方案中，基因表达水平的差异为至少2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍或更多倍。

[0047] 在一些实施方案中，生物样品被确定为疑似的(例如，潜在恶性的)，准确度为至少50％、60％、70％、75％、80％、85％、90％、95％、99％或更高。在一些实施方案中，生物样品被确定为良性的，准确度为至少50％、60％、70％、75％、80％、85％、90％、95％、99％或更高。在一些实施方案中，使用经训练的算法来计算准确度。在一些实施方案中，生物样品被
确定为癌变的，灵敏度高于50％或70％。在一些实施方案中，生物样品被确定为癌变的，特
异性高于50％或70％。在一些实施方案中，生物样品被确定为癌变的，灵敏度高于50％且
特异性高于70％。在一些实施方案中，生物样品被确定为良性的，灵敏度高于50％。在一些
实施方案中，生物样品被确定为良性的，特异性高于50％。在一些实施方案中，生物样品被
确定为良性的，灵敏度高于50％且特异性高于50％。在一些实施方案中，方法使用一组生
物标志物(例如，生物标志物组、分类组、分类器)，使得该方法具有高于50％、70％、75％、
80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、
99％或99.5％的特异性和高于50％、70％、75％、80％、85％、86％、87％、88％、89％、90％、
91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的灵敏度。在一些实施方案中，该方法使用一组生物标志物(例如，生物标志物组、分类组、分类器)，使得该方法具有
至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更高的阳性预测值；和/或至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更高的阴性预测值。在一些实施方案中，该方法使用一组生物标志物(例如，生物标志物
组、分类组、分类器)，使得该方法具有高于50％、70％、75％、80％、85％、86％、87％、88％、
89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的特异性或灵敏度，和至少95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、99％、99.5％或更高的阳性预测值或阴性预测值。在一些实施方案中，该方法使用一组生物标志物(例如，生物标
志物组、分类组、分类器)，使得该方法具有至少95％、95.5％、96％、96.5％、97％、97.5％、
98％、98.5％、99％、99.5％或更高的阴性预测值。

[0048] 在一些实施方案中，本发明提供了与选自图4的生物标志物相对应的基因表达产物。本文所提供的方法和组合物可包括与任意组合的选自图4的任何或全部生物标志物以
及它们的任何子集相对应的基因表达产物。例如，该方法可使用与图4中所提供的遗传标
志物中的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个或50个、100个、120个、140个、160个相对应的基因表达产物。在一
些情况下，某些生物标志物可被排除，或者用其他生物标志物来替代，比如用呈现出与特定
组织类型或亚型相似的表达水平谱的生物标志物来替代。

[0049] 在一些实施方案中，本发明的方法力图提高现有癌症诊断方法的准确度。在一些实施方法中，所述方法提供了提高的鉴别良性或明确良性样品(例如，甲状腺样品)的准确
度。可通过使用经特定样品群组、大量样品和/或来自位于不同地理区域的个体的样品训
练的算法来获得提高的准确度。样品群组可来自至少1个、2个、3个、4个、5个、6个、7个、
8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个或80个不同的地理位置(例如，分布在国家如美国、洲或世界的地点)。地理位置
包括但不限于测试中心、医疗设施、医务所、邮局地址、城市、县、州、国家和洲。在一些实施方案中，使用来自美国的样品群组训练的分类器可能需要重新训练以用于来自其他地理区
域(例如，印度、亚洲、欧洲、非洲等)的样品群组。

[0050] 在一些实施方案中，本发明提供了对癌症进行分类的方法，包括以下步骤：获得包含基因表达产物的生物样品；确定该生物样品的一种或多种在不同癌症亚型中差异表
达的基因表达产物的表达水平；以及确定该生物样品为癌性的，其中所述基因表达水平指
示癌症的亚型。在一些实施方案中，本方法将滤泡性癌与髓样癌区别开来。在一些实施方
案中，本方法用于将甲状腺组织样品分类为包含一种或多种良性或恶性组织类型(例如，
癌症亚型)，包括但不限于滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状腺炎(LCT)
和Hurthle细胞腺瘤(HA)、滤泡性癌(FC)、乳头状甲状腺癌(PTC)、乳头状癌的滤泡变型
(FVPTC)、甲状腺髓样癌(MTC)、Hürthle细胞癌(HC)、甲状腺未分化癌(ATC)、肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)和甲状旁腺(PTA)。在一些实施方案中，
本方法用于将甲状腺组织的样品分类为包含HC和/或HA组织类型。在一些实施方案中，
本方法将良性甲状腺疾病与恶性甲状腺肿瘤/癌区别开来。

[0051] 在一些实施方案中，将生物样品分类为癌性的或癌症亚型阳性的，其准确度大于75％、80％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、
98％、99％或99.5％。本文所使用的分类准确度包括特异性、灵敏度、阳性预测值、阴性预测值和/或错误发现率。

[0052] 当在本文中指示了值的范围且所述范围以诸如“大于”、“至少”、“多于”等修饰词开头时，所述修饰词意味着除非另有指示，包括所述范围内的每个值。例如，本文所使用的“至少1、2或3个”意思是“至少1个、至少2个或至少3个”。

[0053] 在一些实施方案中，通过使用较低数量和质量的多种基因表达产物标志物，以及使用本发明的算法的统计分析，本发明的基因表达产物标志物可提供提高的鉴定或诊断疾
病或癌症的准确度。尤其是，本发明提供了但不限于表征、分类或诊断与甲状腺癌相关的基
因表达谱的方法。本发明还提供了用于表征和分类甲状腺组织样品的算法，以及可用于所
述方法的应用的试剂盒和组合物。本公开内容还包括用于运营分子谱分析企业的方法。

[0054] 在本发明的一个实施方案中，标志物和基因可以鉴定为在甲状腺癌样品中与在甲状腺良性样品中相比具有差异表达。具有良性病理学的示例性实例包括：滤泡性腺瘤、
Hurthle细胞腺瘤、淋巴细胞性甲状腺炎和结节增生。具有恶性病理学的示例性实例包括：
滤泡性癌、乳头状甲状腺癌的滤泡变型、髓样癌和乳头状甲状腺癌。

[0055] 可以处理生物样品来提取核酸，例如DNA或RNA。核酸可在允许杂交的条件下与本发明探针阵列接触，或者可通过本领域已知的任何方法对核酸进行测序。可以使用本领域
已知的许多方法以定量方式分析杂交度。在一些情况下，探针位置处的杂交度可能与该分
析提供的信号强度有关，因此其与样品中存在的互补核酸序列的量有关。可利用软件提取、
标准化、总结和分析探针对于整个人基因组或转录组(包括表达的基因、外显子、内含子和
miRNA)的阵列强度数据。在一些实施方案中，良性或恶性样品中的给定探针的强度可以与
参考集进行比较以确定样品中是否发生差异表达。阵列上与表达序列对应的标志物位置处
的相对强度的增加或降低分别指示相应表达序列的表达的增加或降低。或者，相对强度的
降低可以指示表达序列的突变。

[0056] 可使用特征选择技术分析各样品的所得强度值，所述特征选择技术包括通过观察数据的本征性质来评估特征的相关性的过滤器技术；将模型假设嵌入特征子集检索内的包
装器方法(wrapper method)；以及将最佳特征集的检索构建到分类器算法中的嵌入技术。

[0057] 用于本发明方法的过滤器技术包括(1)参数法，例如采用双样品t-检验、ANOVA分析、贝叶斯框架和伽马分布模型；(2)无模型法，例如采用Wilcoxon秩和检验、类间内平方
和检验、秩乘积法、随机置换法或TNoM，TNoM包括设置两个数据集之间表达的倍数变化差
异的阈值点，然后检测使误分类数目最小化的各基因中的阈值点；(3)和多变量法，例如二
变量法、基于相关性的特征选择法(CFS)、最小冗余最大相关法(MRMR)、Markov毯过滤法和
非相关收缩重心法(uncorrelated shrunken centroid method)。可用于本发明方法的包
装器方法包括顺序检索法、遗传算法和分布式算法的评估。可用于本发明方法的嵌入法包
括随机森林算法、支持向量机算法的权向量和逻辑回归算法的权重。Bioinformatics.2007
年10月，1；23(19)：2507-17综述了以上提供的用于分析强度数据的过滤器技术的相对优
点。

[0058] 然后可使用分类器算法对选定的特征进行分类。示例性的算法包括但不限于减少变量数的方法，例如主成分分析算法、部分最小二乘法和独立成分分析算法。示例性的算法
还包括但不限于直接处理大量变量的方法，例如统计方法和基于机器学习技术的方法。统
计方法包括惩罚逻辑回归、微阵列的预测分析(PAM)、基于收缩重心的方法、支持向量机分
析和规范化线性判别分析。机器学习技术包括装袋方法(bagging procedure)、boosting
方法、随机森林算法及其组合。CancerInform.2008；6：77-97综述了以上提供的用于分析
微阵列强度数据的分类技术。

[0059] 本发明的标志物和基因可用于表征细胞或组织的癌性或非癌性状态。本发明包括用于区分良性组织或细胞和恶性组织或细胞的方法，包括确定受试者的甲状腺样品中的一
种或多种标志物或基因的差异表达，其中所述标志物或基因在图4中列出。本发明还包括
用于鉴定甲状腺病理学亚型的方法，包括确定受试者的甲状腺样品中的一种或多种标志物
或基因的差异表达，其中如图4所示，所述标志物或基因和相应的亚型在图4中列出。

[0060] 根据上文，可使用Northern印迹法以及应用本文所确定的用于开发针对此用途的探针的序列，来确定本文所公开的一个基因、多个基因、多种标志物、mRNA、miRNA或它们的组合的差异表达。此类探针可由DNA或RNA或合成核苷酸或它们的组合构成，并且有利
地包含与对应于图4中确定的遗传标志物的序列匹配或互补的核苷酸残基的连续延伸。此
类探针最有用地包含至少15-200个或更多个残基的连续延伸，包括15、16、17、18、19、20、
21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、
46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、
71、72、73、74、75、80、85、90、95、100、110、120、130、140、150、160、175或200个或更多个核苷酸，所述残基来源于与图4中确定的遗传标志物相对应的序列中的一个或多个。因此，
如果单个探针与癌性或疑似癌性或倾向于变成癌性的细胞的样品的转录组多次结合，而相
同探针与来源于相同器官或组织的其他非癌性细胞的基因组的相似量转录组的结合导致
明显更多或更少的结合，这可指示包含或对应于与图4中确定的遗传标志物相对应的序列
(探针序列来源于该序列)的一个基因、多个基因、标志物或miRNA的差异表达。

[0061] 在一个这样的实施方案中，通过测量RNA转录的相对速率，例如通过生成相应的cDNA然后使用根据与图4中确定的遗传标志物相对应的基因序列而开发的探针来分析所
生成的DNA，来确定与相同器官的正常细胞和/或组织相比有所提高的表达。因此，使用逆
转录酶和疑似癌性的细胞的完整RNA互补物而生成的cDNA的水平形成相应量的cDNA，然后
可使用聚合酶链反应或一些其他方法，如线性扩增、等温扩增、NASB或滚环扩增来扩增所述
cDNA，以确定所生成的cDNA的相对水平，从而确定基因表达的相对水平。

[0062] 也可以使用与本文公开的基因的表达产物选择性结合从而检测该表达产物是否存在的试剂来确定增强的表达。例如，可产生针对多肽中的一种的抗体，可能是适当标记的
抗体，比如其中抗体与荧光标记或放射性标记相结合，所述多肽是与图4中确定的遗传标
志物相对应的基因序列之一的基因产物，然后所述抗体将选择性地或特异性地与由对应于
本文所公开的序列的基因之一所编码的多肽反应、结合。这种抗体结合，特别是与来源于其
他非癌性细胞和组织的样品相比，在来源于疑似癌性细胞和组织的样品中的这种结合的相
对程度，可用作本文所确定的癌症相关基因的表达或差异表达程度的量度。因此，本文所确
定的在癌性细胞和组织中差异表达的基因可由于拷贝数增加、拷贝数减少、或者由于过度
转录或转录不足而差异表达，例如过表达是由于激活或抑制基因的转录因子的过度产生或
产生不足而引起的，并且导致RNA聚合酶重复结合，从而生成多于正常量的RNA转录物，所
述转录物随后被翻译成多肽，比如包含与一种序列的基因产物(例如，多肽)相对应的氨基
酸序列的多肽，所述序列与图4中确定的遗传标志物相对应。此类分析提供了确定根据本
发明鉴定的基因的表达，从而确定来源于接受测试的患者的样品中癌性状态的存在，或在
此后的时间内在所述患者中发展为癌症的倾向的其他方法。

[0063] 在应用本发明的方法时，指示癌性状态的基因或标志物表达不需要是每一个被发现为癌性的细胞所特有的。因此，本文所公开的方法可用于检测其中并非所有细胞都表现
出完全的差异表达模式的组织中癌性病状的存在。例如，使用合适的探针(例如，DNA或
RNA探针)可发现一组选择的基因或标志物存在于大约、少于大约或多于大约20％、30％、
40％、50％、60％、70％、80％、90％或更多的来源于肿瘤组织或恶性组织的样品的细胞中，所述选择的基因或标志物包含与对应于图4中确定的遗传标志物的序列中的至少一个在
严格条件下同源或至少90％相同、优选95％相同的序列，或与其全部或一部分互补的探针
序列。在一些实施方案中，与癌性病状相关的且形成表达模式的一组选择的基因或标志物
可能在大约、少于大约或多于大约20％、30％、40％、50％、60％、70％、80％、90％或更多的来源于对应的非癌性组织或其他正常组织的细胞中缺失。在一个实施方案中，癌性病状的
表达模式在从癌组织获得的至少70％的细胞中检测到，而在至少70％的对应的正常、非癌
组织样品中则不存在。在一些实施方案中，发现此表达模式存在于至少80％的从癌组织获
得的细胞中，而在至少80％的对应的正常、非癌性组织样品中则不存在。在一些实施方案
中，发现此表达模式存在于至少90％的从癌组织获得的细胞中，而在至少90％的对应的正
常、非癌组织样品中则不存在。在一些方式中，发现此表达模式存在于至少100％的从癌组
织获得的细胞中，而在至少100％的对应的正常、非癌组织样品中则不存在，虽然后一实施
方案可能极少发生。还应当注意，所述表达模式可完全存在于、部分存在于或不存在于受影
响的细胞以及未受影响的细胞中。因此，在一些实施方案中，所述表达模式以可变的量存在
于受影响的细胞中；在一些实施方案中，所述表达模式以可变的量存在于未受影响的细胞
中。

[0064] 在一些实施方案中，分子谱分析包括核酸(DNA或RNA)、蛋白质或其组合的检测、分析或量化。将通过本发明方法诊断的疾病或病状例如包括受试者的一种或多种组织中
的异常生长的病状，该组织包括但不限于皮肤、心脏、肺、肾脏、乳房、胰腺、肝脏、肌肉、平滑肌、膀胱、胆囊、结肠、肠、脑、食道或前列腺。在一些实施方案中，通过本发明方法分析的组织包括甲状腺组织。

[0065] II.获得生物样品

[0066] 在一些实施方案中，本发明的方法提供从受试者获得样品。如本文所用，术语受试者是指任何动物(例如哺乳动物)，包括但不限于人、非人灵长类动物、啮齿类动物、狗、猫、猪、鱼等。在优选的实施方案中，本发明的方法和组合物应用于来自人的生物样品。在一些
实施方案中，所述人是儿童、青少年或成年人。在一些情况下，所述人的年龄大于1岁、2岁、
5岁、10岁、20岁、30岁、40岁、50岁、60岁、65岁、70岁、75岁或80岁。

[0067] 本文提供的获得方法包括活组织检查方法，包括细针抽吸、芯针活组织检查、真空辅助活组织检查、切开活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或
皮肤活组织检查。在一些情况下，本文所提供的分类器应用于仅来自通过FNA获得的生物
样品的数据。在一些情况下，本文所提供的分类器应用于仅来自通过FNA或手术活组织检
查获得的生物样品的数据。在一些情况下，本文所提供的分类器应用于仅来自通过手术活
组织检查获得的生物样品的数据。在一些情况下，分类器本身是对通过特定程序获得的样
品的数据进行分析而获得的。例如，样品群组可能是针对本文所使用的分类器进行分析的
样品的来源，其中所述样品群组中的一些是通过FNA获得的，而其他则是通过手术活组织
检查获得的。在其他情况下，仅使用来自通过FNA获得的样品的数据来获得本文中的分类
器。在其他情况下，仅使用来自通过外科手术而获得的样品的数据来获得本文中的分类器。

[0068] 样品可从本文提供的任何组织中获得，包括但不限于皮肤、心脏、肺、肾脏、乳房、胰腺、肝脏、肌肉、平滑肌、膀胱、胆囊、结肠、肠、脑、前列腺、食道或甲状腺。或者，样品可从任何其他来源获得，包括但不限于血液、汗液、毛囊、口腔组织、泪液、月经、粪便或唾液。在本发明的一些实施方案中，医学专业人员可以获得用于测试的生物样品。在一些情况下，医学专业人员可以指引受试者去测试中心或实验室以提交生物样品。在其他情况下，受试者
可以提供样品。在一些情况下，本发明的分子谱分析企业可以获得样品。在一些情况下，分
子谱分析企业获得关于生物样品的数据，比如生物标志物表达水平数据，或此类数据的分
析。

[0069] 可通过本领域已知的方法获得样品，例如本文提供的活组织检查法、拭取、刮取、放血或本领域已知的任何其他方法。在一些情况下，可使用本发明试剂盒的组件获得、储存
或运输样品。在一些情况下，可获得多个样品，例如多个甲状腺样品，用于通过本发明的方
法进行诊断。在一些情况下，可获得多个样品，例如来自一种组织类型(例如甲状腺)的一
个或多个样品和来自另一个组织(例如口腔)的一个或多个样品，用于通过本发明的方法
进行诊断。在一些情况下，可在相同或不同时间获得多个样品，例如来自一种组织类型(例
如甲状腺)的一个或多个样品和来自另一个组织(例如口腔)的一个或多个样品。在一些
情况下，在不同时间获得的样品通过不同方法储存和/或分析。例如，可通过细胞学分析
(常规染色)获得并分析样品。在一些情况下，可基于细胞学分析结果从受试者获得进一步
的样品。癌症的诊断可以包括医师、护士或其他医学专业人员对受试者的检查。所述检查
可以是常规检查的一部分，或者所述检查可以源于特定的主诉，包括但不限于以下之一：疼
痛、患病、预感到患病、存在疑似肿块或团块、疾病或病状。受试者可以意识到或没有意识到该疾病或病状。医学专业人员可以获得用于测试的生物样品。在一些情况下，医学专业人
员可以指引受试者去测试中心或实验室以提交生物样品。

[0070] 在一些情况下，可以指引受试者去看专家，例如肿瘤学家、外科医生或内分泌科医师以获得进一步的诊断。所述专家同样可以获得用于测试的生物样品，或指引个体去测试
中心或实验室以提交生物样品。在任何情况下，可由医师、护士或其他医学专业人员例如医
学技师、内分泌科医师、细胞学家、抽血者、放射科医师或胸腔科医师获得生物样品。医学专业人员可以指示对样品进行合适的测试或分析，或者本发明的分子谱分析企业可以咨询哪
些分析或测试最适合。分子谱分析企业可以就其咨询工作、样品获得和/或储存、材料或者
所提供的所有产品和服务向个体或其医学或保险提供者收费。

[0071] 在本发明的一些实施方案中，医学专业人员不必参与初始诊断或样品获得。或者个体可以通过使用非处方的试剂盒来获得样品。所述试剂盒可以包含如本文所述的用于获
得所述样品的手段，用于储存所述样品用于检验的手段，以及指导正确使用所述试剂盒的
说明书。在一些情况下，分子谱分析服务包括在试剂盒的购买价格中。在其他情况下，分子
谱分析服务单独收费。

[0072] 适于分子谱分析企业使用的样品可以是包含待测个体的组织、细胞、核酸、基因、基因片段、表达产物、基因表达产物或基因表达产物片段的任何材料。提供了用于确定样品
适用性和/或充足性的方法。样品可以包括但不限于组织、细胞或来自细胞的生物材料或
由个体的细胞衍生的生物材料。样品可以是细胞或组织的异质群体或同质群体。可使用能
够提供适于本文所述的分析方法的样品的本领域已知的任何方法获得生物样品。

[0073] 可通过非侵入性方法获得样品，包括但不限于：皮肤或子宫颈的刮取、颊部的拭取、唾液收集、尿液收集、粪便收集、月经、泪液或精液的收集。在其他情况下，通过侵入性方法获得样品，包括但不限于：活组织检查、肺泡或肺灌洗、针抽吸或放血。活组织检查法
还可包括切开活组织检查、切除活组织检查、钻取活组织检查、刮取活组织检查或皮肤活组
织检查。针抽吸法还可以包括细针抽吸、芯针活组织检查、真空辅助活组织检查或粗针活
组织检查。在一些实施方案中，可通过本发明的方法获得多个样品以确保足量的生物材
料。获得合适的甲状腺样品的方法是本领域已知的，并进一步描述在甲状腺结节处理ATA
指南中(Cooper等人.Thyroid Vol.16 No.22006)，其通过引用全部并入本文。用于获得
生物样品的一般方法也是本领域已知的，并进一步描述在例如Ramzy，Ibrahim Clinical
Cytopathology andAspiration Biopsy 2001中，其通过引用全部并入本文。在一个实施方
案中，样品是甲状腺结节或疑似甲状腺瘤的细针抽吸物。在一些情况下，所述细针抽吸物的
采样程序可通过使用超声、X-射线或其他成像装置来指导。

[0074] 在本发明的一些实施方案中，分子谱分析企业可以直接从受试者、从医学专业人员、从第三方或从由分子谱分析企业或第三方提供的试剂盒获得生物样品。在一些情况下，
可在受试者、医学专业人员或第三方获得生物样品并将其递送给分子谱分析企业后由分子
谱分析企业获得生物样品。在一些情况下，分子谱分析企业可以提供用于将生物样品储存
并运送给分子谱分析企业的合适的容器和赋形剂。

[0075] III.储存样品

[0076] 在一些实施方案中，本发明的方法提供在获得样品之后和通过本发明的一种或多种方法分析样品之前储存样品一段时间，例如数秒、数分钟、数小时、数天、数周、数月、数年或更久。在一些情况下，在储存步骤或进一步分析之前细分从受试者获得的样品，使得样品
的不同部分经受不同的下游方法或处理，包括但不限于储存、细胞学分析、充足性测试、核
酸提取、分子谱分析或其组合。

[0077] 在一些情况下，可以储存一部分样品而进一步操作另一部分所述样品。这种操作可以包括但不限于：分子谱分析；细胞学染色；核酸(RNA或DNA)提取、检测或定量；基因表
达产物(RNA或蛋白质)提取、检测或定量；固定(例如，福尔马林固定石蜡包埋的样品)；和
检验。可在储存前或过程中通过本领域已知的任何方法，比如使用戊二醛、甲醛或甲醇来固
定样品。在其他情况下，获得、储存并在储存步骤之后细分样品用于进一步分析，使得样品
的不同部分经受不同的下游方法或处理，包括但不限于储存、细胞学分析、充足性测试、核
酸提取、分子谱分析或其组合。在一些情况下，获得样品并通过例如细胞学分析进行分析，
且通过本发明的一种或多种分子谱分析方法进一步分析所得的样品材料。在这种情况下，
可以在细胞学分析步骤和分子谱分析步骤之间储存样品。样品可以在获取时储存以利于运
送或等待其他分析的结果。在另一个实施方案中，可以在等待医师或其他医学专业人员的
指示的同时储存样品。

[0078] 可以将所获取的样品置于合适的介质、赋形剂、溶液或容器中用于短期或长期储存。所述储存可能需要将样品保持在冷藏或冷冻环境中。在储存在冷冻环境之前，样品可
以快速冷冻。冷冻样品可以与合适的低温贮藏介质或化合物接触，所述介质或化合物包括
但不限于：甘油、乙二醇、蔗糖或葡萄糖。合适的介质、赋形剂或溶液可以包括但不限于：
hanks盐溶液、盐水、细胞生长培养基、铵盐溶液例如硫酸铵或磷酸铵或水。合适的铵盐浓
度包括约0.1g/ml、0.2g/ml、0.3g/ml、0.4g/ml、0.5g/ml、0.6g/ml、0.7g/ml、0.8g/ml、0.9g/ml、1.0g/ml、1.1g/ml、1.2g/ml、1.3g/ml、1.4g/ml、1.5g/ml、1.6g/ml、1.7g/ml、1.8g/ml、
1.9g/ml、2.0g/ml、2.2g/ml、2.3g/ml、2.5g/ml或更高浓度的溶液。所述介质、赋形剂或溶液可以是无菌的或可以不是无菌的。

[0079] 样品可以储存在室温下或低温下，例如寒冷温度(例如约20℃至约0℃)，或冷冻温度，包括例如0℃、-1℃、-2℃、-3℃、-4℃、-5℃、-6℃、-7℃、-8℃、-9℃、-10℃、-12℃、-14℃、-15℃、-16℃、-20℃、-22℃、-25℃、-28℃、-30℃、-35℃、-40℃、-45℃、-50℃、-60℃、-70℃、-80℃、-100℃、-120℃、-140℃、-180℃、-190℃或约-200℃。在一些情况下，样品可以储存在冷藏箱中、冰或冷冻凝胶包上、冰箱中、低温冷藏箱中、干冰上、液氮中或与液氮平衡的蒸气相中。

[0080] 所述介质、赋形剂或溶液可以包含防腐剂以使样品维持在适当的状态以供持续的诊断或操作，或防止凝结。所述防腐剂可以包括柠檬酸盐、乙二胺四乙酸、叠氮钠或硫柳汞。
所述介质、赋形剂或溶液可以包含合适的缓冲液或盐，比如Tris缓冲液或磷酸缓冲液、钠
盐(例如，NaCl)、钙盐、镁盐等。在一些情况下，样品可以储存在适于储存细胞以供随后的
细胞学分析的商业制剂中，例如但不限于CytycThinPrep、SurePath或Monoprep。

[0081] 样品容器可以是适于储存和/或运输生物样品的任何容器，包括但不限于：杯子、带盖杯子、试管、无菌管、真空管、注射器、瓶子、显微镜载片或任何其他合适的容器。容器可以是无菌的或可以不是无菌的。

[0082] IV.样品的运输

[0083] 本发明的方法提供样品的运输。在一些情况下，将样品从诊所、医院、医生办公室或其他场所运送到可以储存所述样品和/或通过例如细胞学分析或分子谱分析对其进行
分析的第二场所。在一些情况下，可以将样品运送到分子谱分析公司以进行本文所述的分
析。在其他情况下，可以将样品运送到实验室，例如授权的或经其他方式能够进行本发明的
方法的实验室，例如临床实验室改进法案(CLIA)实验室。可以由样品所来源的个体运输样
品。所述的个体运输可以包括出现在分子谱分析企业或指定的样品接收点并提供样品的个
体。所述的样品提供可以涉及任何本文所述的样品获取技术，或者所述样品可以早已获取
并储存在如本文所述的合适的容器中。在其他情况下，可以使用快递服务、邮政服务、航运
服务或能够以合适方式运送样品的任何方法将样品运送到分子谱分析企业。在一些情况
下，可由第三方测试实验室(例如细胞学实验室)将样品提供给分子谱分析企业。在其他
情况下，可由受试者的初级护理医师、内分泌科医师或其他医学专业人员将样品提供给分
子谱分析企业。运输成本可向个体、医疗提供者或保险提供者收费。分子谱分析企业可以
在收到样品后立即开始分析，或者可以以本文所述的任何方式储存样品。储存方法可以与
样品被分子谱分析企业接收之前所选择的方法一样或不一样。

[0084] 样品可以在任何介质或赋形剂中运输，包括本文提供的适于储存样品的任何介质或赋形剂，例如低温贮藏介质或基于液体的细胞学制剂。在一些情况下，可以冷冻或冷藏运
输样品，例如在本文所述的任何适当的样品储存温度下运输。

[0085] 在分子谱分析企业、企业代表或被许可方、医学专业人员、研究人员或第三方实验室或测试中心(例如细胞学实验室)收到样品时，可使用本领域已知的多种常规分析，例如
细胞学分析和基因组分析，对样品进行测定。这种测定可以指示癌症、癌症类型、任何其他
疾病或病状、疾病标志物的存在、或者癌症、疾病、病状或疾病标志物的不存在。所述测定可以采取细胞学检查形式，包括如下所述的显微镜检查。所述测定可以包括使用一种或多种
细胞学染色。可以在进行该测定前通过本领域已知的任何用于生物样品制备的适当方法处
理或制备生物材料以用于测定。所进行的具体测定可由分子谱分析公司、订购该测定的医
师或第三方例如医学专业咨询人员、细胞学实验室、样品所来源的受试者或保险提供者来
决定。可以基于获得明确诊断的可能性、测定成本、测定速度、测定对于所提供的材料类型
的适用性来选择具体的测定。

[0086] V.充足性测试

[0087] 获取样品之后或获取期间，包括在储存样品的步骤之前或之后，可以收集并评估所述生物材料的充足性，例如，评估样品用于本发明的方法和组合物的适用性。所述评估
可由获得样品的个体、分子谱分析企业、使用试剂盒的个体或第三方例如细胞学实验室、病
理学家、内分泌科医师或研究人员来进行。可以确定样品对于进一步分析而言是充足的还
是不充足的，这是由于许多因素，包括但不限于：不足的细胞、不足的遗传物质、不足的蛋白质、DNA或RNA、对于指定测试而言不合适的细胞或对于指定测试而言不合适的材料、样品
的存在时间、获得样品的方式或者样品储存或运输的方式。可使用本领域已知的多种方法
例如细胞染色方法、细胞数目或组织量的测量、总蛋白质测量、核酸测量、目视检查、显微镜检查或者温度或pH测量来确定充足性。在一个实施方案中，从进行基因表达产物水平分析
实验的结果来确定样品充足性。在另一个实施方案中，通过测定样品充足性标志物的含量
来确定样品充足性。此类标志物包括：元素，例如碘、钙、镁、磷、碳、氮、硫、铁等；蛋白质，例如但不限于甲状腺球蛋白；细胞团；和细胞组分，例如蛋白质、核酸、脂质或碳水化合物。

[0088] 在一些情况下，可通过例如通过引用全部并入本文的美国专利号3645691描述的化学方法或通过本领域已知的其他用于测定碘含量的化学方法来测量碘。用于碘测量的化
学方法包括但不限于基于Sandell和Kolthoff反应的方法。所述反应按照以下反应式进
行：

[0089] 2Ce 4++As3+→2Ce3++As5+I。

[0090] 碘对该反应过程具有催化作用，即，待分析制剂中存在的碘越多，反应进行得越快。反应速度与碘浓度成正比。在一些情况下，所述分析方法可以以下方式进行：

[0091] 将预定量的三氧化二砷As2O3在浓硫酸或硝酸中的溶液添加至生物样品中，并将混合物温度调节至反应温度，即，通常20℃到60℃的温度。再向其中加入预定量的硫酸铈
(IV)在硫酸或硝酸中的溶液。随即，使混合物在预定温度下反应确定的一段时间。根据待
测定碘量的数量级以及根据相应的选定反应温度来选择所述反应时间。反应时间通常为大
约1分钟到大约40分钟。此后，通过光度计法测定测试溶液的钸(IV)离子含量。光度计
法测定的铈(IV)离子浓度越低，反应速度越快，且因此催化剂(即碘)的量越大。以这种
方式可以直接和定量地测定样品中的碘。

[0092] 在其他情况下，可通过检测碘的特定同位素例如123I、124I、125I和131I来测定甲状腺组织样品的碘含量。在叉一些情况下，所述标志物可以是另一种放射性同位素，例如碳、氮、硫、氧、铁、磷或氢的同位素。在有些情况下，可以在样品收集之前给予放射性同位素。适于充足性测试的给予放射性同位素的方法是本领域熟知的，包括向静脉或动脉内注射，或通过摄取。为了实现一部分同位素被吸收到甲状腺组织内，在给予同位素和获取甲状腺结节
样品之间的合适的时间段可以包括约一分钟到几天或约一周之间的任何时间段，包括约1
分钟、2分钟、5分钟、10分钟、15分钟、半小时、1小时、8小时、12小时、24小时、48小时、72小时，或约一周、一周半或两周，且可以由本领域技术人员容易地确定。或者，可以测定样品的同位素的天然水平，例如碘、钙、镁、碳、氮、硫、氧、铁、磷或氢的放射性同位素。

[0093] (i)细胞和/或组织含量充足性测试

[0094] 用于测定组织量的方法包括但不限于称重样品或测量样品体积。用于测定细胞量的方法包括但不限于计数细胞，其有时可以在利用例如酶如胰蛋白酶或胶原酶或通过物理
手段例如使用组织匀浆器解聚之后进行。用于测定回收的细胞量的替代方法包括但不限于
定量与细胞材料结合的染料，或测量离心后获得的细胞团的体积。用于确定是否存在充足
数目的特定类型的细胞的方法包括PCR、Q-PCR、RT-PCR、免疫组织化学分析、细胞学分析、显微镜和/或目视分析。

[0095] (ii)核酸含量充足性测试

[0096] 可通过使用本领域已知的多种方法测定从生物样品提取后的核酸含量来分析样品。在一些情况下，从其他核酸中提取核酸，如RNA或mRNA，然后进行核酸含量分析。可提
取、纯化并使用分光光度计通过紫外线吸收(包括但不限于在260纳米处的吸收)来测定
核酸含量。在其他情况下，可在样品与染料接触后通过荧光计测定核酸含量或充足性。在
又一些情况下，可在电泳后，或者例如使用诸如agilent生物分析仪等仪器来测定核酸含
量或充足性。应理解本发明的方法不限于测定核酸含量和/或完整性的具体方法。

[0097] 在一些实施方案中，在纯化后立刻使用NanoDrop分光光度计在纳克到微克范围内测定来自给定样品的RNA量或产量。在一些实施方案中，使用Agilent 2100Bioanalyzer
仪器测定RNA质量，并根据计算得到的RNA完整性指数(RIN，1-10)进行表征。NanoDrop是
无比色杯的分光光度计。它使用1微升来测定5ng/μl到3,000ng/μl样品。NanoDrop的
关键特征包括低样品体积和没有比色杯；5ng/μl到3,000ng/μl的大动态范围；以及它允
TM
许DNA、RNA和蛋白质的定量。NanoDrop 2000c允许分析0.5μl-2.0μl的样品，而不需
要比色杯或毛细管。

[0098] 可以根据计算得到的RNA完整性指数(RIN)来测定RNA质量。RNA完整性指数(RIN)是用于将完整性值赋予RNA测量的算法。RNA的完整性是基因表达研究所主要关心
的问题，且常规地使用28S∶18SrRNA比(一种已被证明不一致的方法)进行评价。RIN
算法应用于电泳RNA测量并且基于贡献有关RNA完整性的信息的不同特征的组合，以提供
更加稳定的通用量度。在一些实施方案中，使用Agilent2100Bioanalyzer仪器测定RNA质
量。用于测定RNA质量的方案是已知的且可在例如Agilent网站上商购获得。简言之，第
一步，研究人员将总RNA样品置于RNA Nano LabChip中。第二步，将LabChip插入Agilent
生物分析仪中并进行分析，从而生成数字电泳图。第三步，新的RIN算法随后分析RNA样品
的整个电泳痕迹(包括降解产物的存在或不存在)以确定样品的完整性。然后，该算法赋
予1到10的RIN得分，其中水平10的RNA是完全完整的。因为电泳图的解释是自动的且
不经过个体解释，因此能够实现通用且无偏倚的样品比较，并改善实验再现性。使用神经网
络和适应性学习结合主要从人、大鼠和小鼠组织获得的真核生物总RNA样品的大型数据库
开发了RIN算法。RIN的优点包括获得RNA完整性的数字评定：直接比较RNA样品，例如在
归档之前和之后比较不同实验室之间相同组织的完整性；和确保实验的再现性，例如，如果
RIN显示给定值并适于微阵列实验，则相同值的RIN可以一直用于类似实验，只要使用相同
的生物体/组织/提取方法(Schroeder A等，BMC Molecular Biology 2006，7：3(2006))。

[0099] 在一些实施方案中，按RIN 1到10的尺度测定RNA质量，10是最高质量。一方面，本发明提供由RNA RIN值等于或者小于6.0的样品分析基因表达的方法。在一些实施方案
中，使用本发明的方法和算法分析含有RIN值为1.0、2.0、3.0、4.0、5.0或6.0的RNA的样
品的微阵列基因表达。在一些实施方案中，样品是甲状腺组织的细针抽吸物。样品可以降
解到RIN低至2.0。

[0100] 给定样品中的基因表达的测定是复杂的、动态的和昂贵的过程。RIN≤5.0的RNA样品通常不用于多基因微阵列分析，而是仅可用于单基因RT-PCR和/或TaqMan分析。因
此RNA的有用性按照质量的这种分歧大大限制了样品的可用性并妨碍了研究工作。本发明
提供了可以使低质量的RNA可用于从包含低浓度RNA的样品(例如甲状腺FNA样品)中获
得有意义的多基因表达结果的方法。

[0101] 此外，可使用本发明的方法和算法测定并分析具有低RNA浓度和/或检测不到的RNA浓度的样品，根据NanoDrop，这种浓度通常视为不足以进行多基因表达谱分析。可用于
测量核酸产量的灵敏的仪器是NanoDrop分光光度计。与这种类型的许多定量仪器类似，
NanoDrop测量的精确度在极低RNA浓度时明显降低。输入微阵列实验所必需的最低RNA量
也限制了给定样品的可用性。在本发明中，可以使用NanoDrop和Bioanalyzer两种仪器的
测量组合来评估包含极低量核酸的样品，从而为多基因表达测定和分析优化样品。

[0102] (iii)蛋白质含量充足性测试

[0103] 在一些情况下，可使用本领域已知的多种方法测定生物样品中的蛋白质含量，包括但不限于：280纳米处的紫外线吸收，本文所述的细胞染色，或使用例如考马斯蓝或二辛
可宁酸(bichichonic acid)的蛋白质染色。在一些情况下，在样品测量之前从生物样品中
提取蛋白质。在一些情况下，样品充足性的多项测试可以并列地进行或一次进行一项。在
一些情况下，样品可分成等分样品，用于在评估充足性之前、期间或之后进行多项诊断性测
试。在一些情况下，用可能适合或可能不适合进一步的诊断性测试的少量样品进行充足性
测试。在其他情况下，评估整个样品的充足性。在任何情况下，可以就充足性测试向受试者、医疗提供者、保险提供者或政府机构收费。

[0104] 在本发明的一些实施方案中，可在收集后不久或立即测试样品的充足性。在一些情况下，当样品充足性测试未能显示足够量的样品或足够质量的样品时，可以采集额外的
样品。

[0105] VI.样品的分析

[0106] 一方面，本发明提供利用少量和低质量的多核苷酸如DNA或RNA进行微阵列基因表达分析的方法。在一些实施方案中，本公开内容描述了通过利用少量和/或低质量的RNA
来分析基因表达以诊断、表征和/或监测癌症的方法。在一些实施方案中，所述癌症为甲状
腺癌。可从细针抽吸物(FNA)获得甲状腺RNA。在一些实施方案中，从RNA RIN值约为或小
于约9.0、8.0、7.0、6.0、5.0、4.0、3.0、2.0、1.0或更小的降解的样品获得基因表达谱。在特定实施方案中，从RIN等于或小于6(即6.0、5.0、4.0、3.0、2.0、1.0或更小)的样品获得基
因表达谱。本发明提供了可以使低质量的RNA可用于从包含低浓度核酸的样品例如甲状腺
FNA样品获得有意义的基因表达结果的方法。

[0107] 样品可用性的另一项评估是RNA产量，其在基因表达分析中通常测得为纳克到微克的量。可用于在实验室中测定核酸产量的仪器是NanoDrop分光光度计。与这种类型的
许多定量仪器类似，NanoDrop测量的精确度在极低RNA浓度时明显降低。输入微阵列实验
所需的RNA最低量也限制了给定样品的可用性。在一些方面，本发明通过使用NanoDrop和
Bioanalyzer两种仪器的测量组合来评估样品输入，从而解决了低RNA浓度的问题。由于从
基因表达研究获得的数据质量依赖于RNA量，可由通过NanoDrop测量具有低RNA浓度或检
测不到的RNA浓度的样品产生有意义的基因表达数据。

[0108] 所述方法和算法使得：1)包含少量和/或低质量的核酸的样品能够用于基因表达分析；2)假阳性和假阴性明显减少，3)能够确定导致所产生的病理学的基础遗传学、代谢
或信号传导途径，4)将统计学概率赋予遗传病的诊断精确性的能力，5)解析不明确的结果
的能力，和6)区分癌症亚型的能力。

[0109] 细胞学分析

[0110] 可以通过生物样品中的细胞染色与显微镜检查相结合来分析样品。细胞染色或细胞学检查可通过本领域已知的许多方法和合适的试剂进行，包括但不限于：EA染料、苏木
精染料、细胞染料、巴氏染料、曙红、尼斯尔染料(nissl stain)、甲苯胺蓝、银染料、偶氮胭脂红染料、中性红或詹纳斯绿。在一些情况下，在染色过程之前或期间用例如甲醇、乙醇、戊二醛或甲醛将细胞固定和/或通透化。在一些情况下，细胞不进行固定。在一些情况下，组
合使用超过一种染料。在其他情况下根本不使用染料。在一些情况下，使用染色过程，例如
用溴化乙锭、苏木精、尼斯尔染料或本领域已知的任何核酸染料进行核酸含量的测定。

[0111] 在本发明的一些实施方案中，可以通过本发明熟知的用于细胞学检查的标准方法将细胞涂抹在载玻片上。在其他情况下，可以使用基于液体的细胞学(LBC)方法。在一些
情况下，LBC方法提供改善的细胞学载玻片制备手段、更均匀的样品、提高的灵敏性和特异
性，以及改善的样品处理效率。在基于液体的细胞学方法中，将生物样品从受试者转移到含
有液体细胞学制剂溶液例如Cytyc ThinPrep、SurePath或Monoprep或本领域已知的任何
其他基于液体的细胞学制剂溶液的容器或小瓶中。另外，可以用液体细胞学制剂溶液将样
品从收集装置冲洗到容器或小瓶中，以确保基本上定量地转移样品。然后可以将在基于液
体的细胞学制剂溶液中含有生物样品的溶液储存和/或由机器或本领域技术人员处理，从
而在载玻片上产生一层细胞。还可以用与常规细胞学制备相同的方法将样品染色并在显微
镜下检查。

[0112] 在本发明的一些实施方案中，可以通过免疫组织化学染色来分析样品。免疫组织化学染色通过抗体分析生物样品(例如细胞或组织)中的特定分子或抗原的存在、位置和
分布。抗原可以是小分子、蛋白质、肽、核酸或能够被抗体特异性识别的任何其他分子。可
以在有或者没有预先固定和/或透化步骤的情况下通过免疫组织化学方法对样品进行分
析。在一些情况下，可通过使样品与抗原特异性抗体接触来检测目标抗原，然后可以通过一
次或多次洗涤除去非特异性结合。然后可以通过抗体检测试剂例如标记的第二抗体或标记
的抗生物素蛋白/链霉抗生物素蛋白来检测特异性结合的抗体。在一些情况下，可以直接
标记抗原特异性抗体。用于免疫组织化学的合适的标记包括但不限于：荧光团，如荧光素
32 125
和若丹明；酶，如碱性磷酸酶和辣根过氧化物酶；和放射性核素，如 P和 I。可通过免疫
组织化学染色检测的基因产物标志物包括但不限于Her2/Neu、Ras、Rho、EGFR、VEGFR、UbcH
10、RET/PTC 1、细胞角蛋白20、降钙素、GAL-3、甲状腺过氧化酶和甲状腺球蛋白。

[0113] VII.测定结果

[0114] 常规细胞学或其他测定的结果可以指示样品为阴性的(无癌症、疾病或病状)、不明确的或疑似的(提示癌症、疾病或病状的存在)、诊断性的(癌症、疾病或病状的阳性诊
断)或非诊断性的(提供的关于癌症、疾病或病状的存在或不存在的信息不充分)。诊断结
果可以进一步分类为恶性或良性。诊断结果也可以例如通过p值、相关p值或统计置信度
指示器来提供指示例如癌症的严重性或等级或精确诊断可能性的得分。在一些情况下，诊
断结果可以指示特定类型的癌症、疾病或病状，例如滤泡性腺瘤(FA)、结节增生(NHP)、淋
巴细胞性甲状腺炎(LCT)、Hurthle细胞腺瘤(HA)、滤泡性癌(FC)、乳头状甲状腺癌(PTC)、
乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、Hurthle细胞癌(HC)、甲状腺未分化癌
(ATC)、肾癌(RCC)、乳腺癌(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)、甲状旁腺(PTA)、增生、乳头状癌或本文提供的任何疾病或病状。在一些情况下，诊断结果可以指示癌症、疾病
或病状的特定阶段。诊断结果可以为所诊断的病状(例如，特定癌症疾病或病状的类型或
阶段)提示特定治疗或治疗性干预。在一些实施方案中，可以将所进行的测定的结果输入
数据库。分子谱分析公司可以就以下一项或多项服务向个体、保险提供者、医疗提供者或政
府机构收费：所进行的测定、咨询服务、结果报告、数据库访问或数据分析。在一些情况下，除了分子谱分析之外的所有或一些步骤由细胞学实验室或医学专业人员进行。

[0115] VIII.分子谱分析

[0116] 细胞学分析对于许多类型的疑似肿瘤(包括例如甲状腺瘤或结节)而言标志着当前的诊断标准。在本发明的一些实施方案中，测定为阴性、不确定、诊断性或非诊断性的
样品可以进行后续的分析以获得更多信息。在本发明中，这些后续的分析包括基因组DNA、
RNA、mRNA表达产物水平、miRNA水平、基因表达产物水平或基因表达产物可变剪接的分子
谱分析步骤。在本发明的一些实施方案中，分子谱分析是指对生物样品中基因组DNA的数
目(例如拷贝数)和/或类型的测定。在一些情况下，所述数目和/或类型可以进一步与
对照样品或被认为正常的样品进行比较。在一些实施方案中，可以分析基因组DNA的拷贝
数变化，例如拷贝数的增加(扩增)或减少，或变体，例如插入、缺失、截短等。可以对相同
样品、相同样品的一部分或可使用本文所述的任何方法获得的新样品进行分子谱分析。分
子谱分析公司可以通过直接联系个体或通过中间方例如医师、第三方测试中心或实验室或
者医学专业人员来要求额外的样品。在一些情况下，使用本发明的方法和组合物与一些或
所有细胞学染色或其他诊断方法结合来分析样品。在其他情况下，不需要预先使用常规细
胞学染色或其他诊断方法，而使用本发明的方法和组合物直接分析样品。在一些情况下，单
独的分子谱分析结果或分子谱分析与细胞学或其他分析相结合的结果可以使本领域技术
人员能够表征组织样品、诊断受试者或为受试者建议治疗。在一些情况下，分子谱分析可以
单独使用或与细胞学方法结合使用，来监测肿瘤或疑似肿瘤随着时间的恶变。

[0117] 本发明的分子谱分析方法用于从来自受试者的一种或多种生物样品中提取并分析蛋白质或核酸(RNA或DNA)。在一些情况下，从获得的整个样品中提取核酸。在其他情况
下，从获得的样品的一部分中提取核酸。在一些情况下，未进行核酸提取的样品部分可以通
过细胞学检查或免疫组织化学进行分析。从生物样品提取RNA或DNA的方法是本领域公知
的，包括例如使用商业试剂盒，例如Qiagen DNeasyBlood和Tissue Kit或Qiagen EZ 1RNA
Universal Tissue Kit。

[0118] (i)组织类型指纹分析

[0119] 在许多情况下，生物样品，例如通过本发明方法提供的生物样品，可以包含若干细胞类型或组织，包括但不限于甲状腺滤泡细胞、甲状腺髓细胞、血细胞(RBC、WBC、血小板)、平滑肌细胞、管、管细胞、基底膜、腔、小叶、脂肪组织、皮肤细胞、上皮细胞及浸润巨噬细胞和淋巴细胞。在甲状腺样品的情况下，生物样品的诊断分类可以包括例如初级滤泡细胞
(对于来源于滤泡细胞的癌症，例如乳头状癌、滤泡癌和甲状腺未分化癌)和髓细胞(对于
髓样癌)。在一些情况下，来自甲状腺活组织检查的不确定生物样品的诊断涉及滤泡性腺瘤
与滤泡癌的区分。因此，例如滤泡细胞的分子谱信号可能被稀释并可能被存在于样品中的
其他细胞类型所混淆。类似地，来自其他组织或器官的生物样品的诊断通常包括诊断可能
存在于样品中的许多细胞类型中的一种或多种细胞类型。

[0120] 在一些实施方案中，本发明的方法提供用于确定特定生物样品的细胞构成的先期方法，这样所得的分子谱特征可以针对由于存在其他细胞和/或组织类型而导致的稀释效
应进行校准。一方面，该先期方法是一种使用已知细胞和/或组织特异性基因表达模式的
组合作为样品各组分的先期迷你分类器的算法。该算法利用该分子指纹来根据样品的组成
对样品进行预分类，然后应用校正/标准化因子。在一些情况下，随后可以将该数据输入到
最终分类算法中，该算法将整合该信息以帮助最终诊断。

[0121] (ii)基因组分析

[0122] 在一些实施方案中，可以对样品进行基因组序列分析或基因分型。该基因分型可采取突变分析的形式，例如单核苷酸多态性(SNP)分析、插入缺失多态性(InDel)分
析、可变数目串联重复(VNT)分析、拷贝数变异(CNV)分析或者部分或全基因组测序。进
行基因组分析的方法是本领域已知的并可以包括高通量测序，例如但不限于在美国专利
号 7,335,762、7,323,305、7,264,929、7,244,559、7,211,390、7,361,488、7,300,788 和
7,280,922中描述的那些方法。进行基因组分析的方法也可以包括如以下所述的微阵列方
法。在一些情况下，基因组分析可与本文中的其他方法中的任一种结合进行。例如，可以获
得样品，测试充足性，并分成等分样品。然后一个或多个等分样品可用于进行本发明的细胞
学分析，一个或多个等分样品可用于进行本发明的RNA表达谱分析方法，而一个或多个等
分样品可用于进行基因组分析。进一步应当理解，本发明预期本领域技术人员可希望对生
物样品进行本文中没有明确记载的其他分析。

[0123] (iii)表达产物谱分析

[0124] 基因表达谱分析通常包括一次测定多个基因(例如，至少10个、50个、100个、200个、300个、400个、500个、600个、700个、800个、1000个、2000个、3000个、4000个、5000个、10000个、15000个、20000个或更多个基因)的活性(或表达)，以产生细胞功能的全局
状况。基因表达谱例如可用于区分活跃分裂的细胞或用于显示细胞如何对特定治疗作出反
应。这种类型的许多实验同时测定整个基因组，即，存在于特定细胞中的每个基因。微阵列
技术可用于测定以前鉴定的靶基因和其他表达序列的相对活性。基于序列的技术，如基因
表达的系列分析(SAGE、SuperSAGE)，也用于基因表达谱分析。SuperSAGE是特别精确的，并
且可以测定任何活性基因，而不仅仅是预先确定的组。在RNA、mRNA或基因表达谱分析微阵
列中，可以同时监测数千个基因的表达水平以研究特定治疗、疾病和发育阶段对基因表达
的影响。例如，基于微阵列的基因表达谱分析可以用于表征本文公开的遗传病或不同癌症
类型、癌症亚型和/或癌症阶段的基因特征。

[0125] 可通过以下一项或多项测定RNA (包括mRNA、miRNA、siRNA和cRNA)：微阵列、SAGE、印迹法、RT-PCR、定量PCR、测序、RNA测序、DNA测序(例如，从RNA获得的cDNA的测
序)；下一代(Next-Gen)测序、纳米孔测序、焦磷酸测序或Nanostring测序。

[0126] 表达谱分析实验通常包括测定在两种或更多种实验条件下表达的基因表达产物例如mRNA的相对量。这是因为基因表达产物的特定序列水平的改变可能提示对由基因表
达产物编码的蛋白质的需要改变，也许指示内环境稳定性反应或病理状态。例如，如果乳腺
癌细胞比正常细胞表达更高水平的与特定跨膜受体相关的mRNA，则可能该受体在乳腺癌中
发挥作用。本发明的一个方面包括基因表达谱分析作为组织样品的鉴定或表征过程，比如
对遗传病和癌症特别是甲状腺癌的诊断测试的一部分。

[0127] 在一些实施方案中，RIN≤5.0的RNA样品通常不用于多基因微阵列分析，而是仅可用于单基因RT-PCR和/或TaqMan分析。微阵列、RT-PCR和TaqMan分析是相关领域中
公知的标准分子技术。基于TaqMan探针的分析广泛用于实时PCR中，包括基因表达分析、
DNA定量和SNP基因分型。

[0128] 在一个实施方案中，对本领域已知与癌症相关的基因表达产物进行谱分析。此类基因表达产物已有描述，包括但不限于在美国专利号7,358,061、7,319,011、
5,965,360、6,436,642和美国专利申请 2003/0186248、2005/0042222、2003/0190602、
2005/0048533、2005/0266443、2006/0035244、2006/083744、2006/0088851、2006/0105360、
2006/0127907、2007/0020657、2007/0037186、2007/0065833、2007/0161004、2007/0238119和2008/0044824中详细描述的基因表达产物。

[0129] 进一步预期，与癌症相关的其他基因表达产物可能变为已知，而且本文描述的方法和组合物可以包括这类新发现的基因表达产物。

[0130] 在本发明的一些实施方案中，替代地或额外地分析基因表达产物除表达水平之外的特征。例如，可以分析基因产物的可变剪接。可变剪接，也称为选择性外显子使用，是其
中初级基因转录物(pre-mRNA)的外显子分离并且重新连接(即剪接)从而由相同基因产
生选择性的mRNA分子的RNA剪接变异机制。在一些情况下，这些线性组合然后经历翻译
过程，在该翻译过程中，特定和独特的氨基酸序列由来自相同基因的各选择性mRNA分子确
定，从而产生蛋白质同种型。可变剪接可以包括并入不同的外显子或不同组的外显子、保持
特定内含子或利用可变剪接供体和受体位点。

[0131] 在一些情况下，可以鉴定显示可诊断良性、恶性或正常样品的可变剪接的标志物或标志物集。另外，可变剪接标志物还可以提供针对甲状腺癌的特定类型(例如乳头状、滤
泡性、髓样和未分化癌)的标识符。本领域已知的可诊断恶性肿瘤的可变剪接标志物包括
美国专利号6,436,642中所列的那些。

[0132] 在一些情况下，可通过本发明方法测定不编码蛋白质的基因表达产物例如miRNA和siRNA的表达。这些基因表达产物的差异表达可以指示良性、恶性或正常样品。这些基
因表达产物的差异表达可以进一步指示良性样品的亚型(例如FA、NHP、LCT、BN、CN、HA)或
恶性样品的亚型(例如FC、PTC、FVPTC、ATC、MTC)。在一些情况下，可通过本发明的方法测
定miRNA、siRNA、可变剪接RNA同种型、mRNA或其任何组合的差异表达。

[0133] (1)测定表达产物水平的体外方法

[0134] 用于测定基因表达产物水平的一般方法是本领域已知的，且可以包括但不限于以下一种或多种：其他的细胞学分析、对特定蛋白质或酶活性的分析、对包括蛋白质或RNA或
特定RNA剪接变体在内的特定表达产物的分析、原位杂交、全基因组或部分基因组表达分
析、微阵列杂交分析、SAGE、酶联免疫吸附测定、质谱法、免疫组织化学、印迹法、测序、RNA测序、DNA测序(例如，从RNA获得的cDNA的测序)；下一代测序、纳米孔测序、焦磷酸测序或
Nanostring测序。基因表达产物水平可以相对于内标(例如总mRNA)或特定基因(包括但
不限于甘油醛-3-磷酸脱氢酶或微管蛋白)的表达水平进行标准化。

[0135] 在一些实施方案中，本方法的基因表达产物是蛋白质，并且使用来源于从样品群组获得的蛋白质数据的分类器来分析特定生物样品中的蛋白质的量。可通过以下一种或多
种方法测定蛋白质的量：ELISA、质谱法、印迹法或免疫组织化学。

[0136] 在本发明的一些实施方案中，可通过使用例如Affymetrix阵列、cDNA微阵列、寡核苷酸微阵列、点样微阵列或来自Biorad、Agilent或Eppendorf的其他微阵列产品的微
阵列分析来确定基因表达产物标志物和可变剪接标志物。微阵列提供特别的优点，因为它
们可以包含可以在单个实验中测定的大量基因或可变剪接变体。在一些情况下，微阵列装
置可以包含允许综合评价基因表达模式、基因组序列或可变剪接的整个人基因组或转录组
或其大部分。可使用如Sambrook，Molecular Cloning a Laboratory Manual 2001以及
Baldi，P.和Hattield，W.G.，DNA Microarrays and Gene Expression 2002描述的标准分
子生物学和微阵列分析技术发现标志物。

[0137] 微阵列分析通常开始于使用本领域已知的方法从生物样品(例如活组织检查标本或细针抽吸物)提取和纯化核酸。对于表达和可变剪接分析，可以有利地从DNA提取和
/或纯化RNA。此外可能有利的是从其他形式的RNA例如tRNA和rRNA中提取和/或纯化
mRNA。

[0138] 例如，可以通过逆转录、PCR、连接、化学反应或其他技术，用荧光标记、放射性核素或化学标记例如生物素、地高辛配基或地高辛来进一步标记纯化的核酸。标记可以是直接或间接的，其可能进一步需要偶联阶段。偶联阶段可以发生在杂交之前，例如，使用氨基烯
丙基-UTP和NHS氨基反应性染料(如花青染料)，或在杂交之后，例如，使用生物素和标
记的链霉抗生物素蛋白。在一个实例中，以低于正常核苷酸的速率酶促添加修饰的核苷酸
(例如以1aaUTP∶4TTP的比例)，从而通常导致每60个碱基中有1个修饰的核苷酸(用
分光光度计测量)。然后，可用例如柱或渗滤装置纯化aaDNA。氨基烯丙基是连接到与反应
性标签(例如荧光染料)反应的核碱基上的长接头上的胺基。

[0139] 然后标记的样品可与杂交溶液混合，所述杂交溶液可以包含SDS、SSC、硫酸葡聚糖、封闭剂(例如COT 1DNA、鲑精DNA、小牛胸腺DNA、PolyA或PolyT)、Denhardt溶液、甲酰
胺(formamine)或其组合。

[0140] DNA杂交探针是各种长度的DNA或RNA片段，其用于检测DNA或RNA样品中与探针序列互补的核苷酸序列(DNA靶标)的存在。因此所述探针与单链核酸(DNA或RNA)杂交，
所述单链核酸的碱基序列由于探针和靶标间的互补性而允许探针-靶碱基配对。标记的探
针首先(通过加热或在碱性条件下)变性成单DNA链，然后与靶DNA杂交。

[0141] 为检测探针与其靶序列的杂交，用分子标记物标示(或标记)所述探针；常用的标32
记物是 P或地高辛配基，后者是非放射性的基于抗体的标记物。然后通过经由放射自显影
或其他成像技术使杂交的探针可视化来检测与探针具有中等至高度序列互补性(例如，至
少70％、80％、90％、95％、96％、97％、98％、99％或更高的互补性)的DNA序列或RNA转录物。具有中等或高度互补性的序列的检测取决于应用的杂交条件的严格性-高严格性，例
如高杂交温度和杂交缓冲液中的低盐，仅允许高度相似的核酸序列之间的杂交，而低严格
性，例如较低温度和高盐，允许序列相似度较低时的杂交。DNA微阵列中使用的杂交探针是
指与惰性表面例如包被的载玻片或基因芯片共价连接且移动的cDNA靶标与之杂交的DNA。

[0142] 然后可通过热或化学方法使包含与阵列上的探针杂交的靶核酸的混合物变性，并将其添加到微阵列中的口中。然后可以密封孔口，并且微阵列例如在杂交烘箱中杂交，其
中通过旋转或在混合器中混合微阵列。杂交过夜后，可洗去非特异性结合(例如用SDS和
SSC)。然后可以干燥微阵列，并在包含激发染料的激光和测量染料发射的检测器的机器中
进行扫描。可用模板栅格覆盖图像，并可定量特征(例如，包含几个像素的特征)的强度。

[0143] 各种试剂盒可用于所述方法的核酸扩增和探针产生。可在本发明中使用的试剂盒的例子包括但不限于Nugen WT-Ovation FFPE试剂盒、带有Nugen外显子模块和Frag/
TM
Label模块的cDNA扩增试剂盒。NuGEN WT-Ovation FFPE System V2是全转录组扩增
系统，使得能够对来源于FFPE样品的小的和降解的RNA的大量存档进行全面基因表达分
析。该系统由扩增少至50ng总FFPE RNA所需的试剂和方案组成。所述方案可用于qPCR、
TM
样品存档、片段化和标记。可以使用NuGEN的FL-Ovation cDNA生物素模块V2将扩增
的cDNA在不到两小时内片段化并标记，以用于 3’表达阵列分析。对于使用
Affymetrix Exon和Gene ST阵列的分析，扩增的cDNA可以和WT-Ovation
外显子模块一起使用，然后使用FL-OvationTM cDNA生物素模块V2片段化并标记。对于
Agilent阵列上的分析，可使用NuGEN的FL-OvationTM cDNA荧光模块使扩增的cDNA片段化
并标记。关于Nugen WT-Ovation FFPE试剂盒的更多信息可在www.nugeninc.com/nugen/
index.cfm/products/amplification-systems/wt-ovation-ffpe/上获得。

[0144] 在一些实施方案中，可使用Ambion WT-表达试剂盒。AmbionWT-表达试剂盒允许直接扩增总RNA，而无需单独的核糖体RNA(rRNA)消耗步骤。用 WT-表达试剂
盒，可在人、小鼠和大鼠外显子和基因1.0ST阵列上分析少
至50ng总RNA的样品。除较低的输入RNA要求及方法和实时
PCR数据之间的高度一致性之外， WT表达试剂盒还提供灵敏度的明显提高。例
如，由于信噪比增加，用 WT表达试剂盒可以在外显子水平上获得检测的高于背
景的更大量的探针集。Ambion WT-表达试剂盒可以和其他Affymetrix标记试剂盒组合使
用。

[0145] 在一些实施方案中，AmpTec Trinucleotide Nano mRNA扩增试剂盒(6299-A15)可以在本方法中使用。 TRinucleotidemRNA扩增Nano试剂盒适用于从1ng
到700ng的大范围的输入总RNA。根据输入总RNA的量和所需的aRNA的产量，其可以用于
1轮(输入量＞300ng总RNA)或2轮(最小输入量1ng总RNA)，其中RNA产量在＞10μg
的范围内。mpTec的专有TRinucleotide引发技术结合选择性抑制rRNA，优先扩增mRNA(与
通用的真核3′-聚(A)-序列无关)。关于AmpTec Trinucleotide Nano mRNA扩增试剂
盒的更多信息可在www.amp-tec.com/products.htm上获得。该试剂盒可以和cDNA转化试
剂盒和Affymetrix标记试剂盒结合使用。

[0146] 然后可以例如通过减去背景强度，随后再以使得各通道上的特征总强度相等方式对强度或参考基因的强度进行除法处理，对原始数据进行标准化，且之后可以计算所有强
度的t值。更复杂的方法包括z比、局部加权最小二乘(loess)和局部加权(lowess)回归
以及例如用于Affymetrix芯片的RMA(强化多芯片分析)。

[0147] (2)测定基因表达产物水平的体内方法

[0148] 还预期本发明的方法和组合物可用于测定个体的基因表达产物水平而无需首先获得样品。例如，可在体内，即在个体体内测定基因表达产物水平。用于体内测定基因表达
产物水平的方法是本领域已知的，并包括成像技术，例如CAT、MRI、NMR、PET，和使用抗体或分子信标的蛋白质或RNA水平的光学、荧光或生物光子成像。此类方法在通过引用并入本
文的US 2008/0044824、US 2008/0131892中描述。预期用于体内分子谱分析的其他方法也
在本发明的范围内。

[0149] 在本发明的一些实施方案中，分子谱分析包括使样品或样品的一部分与本发明一种或多种探针结合的步骤。合适的探针与待测样品的组分例如基因产物结合，包括但不限
于抗体或抗体片段、适体、核酸和寡核苷酸。样品与本发明探针的结合代表物质从样品转化
为与一种或多种探针结合的样品。在一个实施方案中，基于分子谱分析而鉴定、表征或诊断
癌症的方法还包括以下步骤：检测样品的基因表达产物(即mRNA或蛋白质)和水平；和通
过将一种或多种差异基因表达产物水平输入本发明的训练算法中来对测试样品进行分类；
使用本发明的选择和分类算法确认样品分类；和确定样品对于遗传病或癌症的类型为阳性
的。

[0150] (i)样品与正常品的比较

[0151] 对来自受试者的样品(测试样品)进行的分子谱分析的结果可以与已知或怀疑为正常的生物样品进行比较。在一些实施方案中，正常样品是不包含或期望不包含一种或多
种所评价的癌症、疾病或病状的样品，或者是在分子谱分析中对于一种或多种所评价的癌
症、疾病或病状测试阴性的样品。在一些实施方案中，正常样品是没有或期望没有任何癌
症、疾病或病状的样品，或在分子谱分析中对于任何癌症、疾病或病状均测试阴性的样品。
正常样品可以来自与正测试的受试者不同的受试者，或来自同一受试者。在一些情况下，正
常样品例如是从受试者如正测试的受试者的口腔拭子获得的样品。正常样品可以与测试样
品同时分析或在不同的时间分析。

[0152] 测试样品的分析结果可与正常样品的相同分析的结果进行比较。在一些情况下，正常样品的分析结果来自于数据库或参考文献。在一些情况下，正常样品的分析结果是本
领域技术人员已知的或普遍接受的值或值的范围。在一些情况下，这种比较是定性的。在
另一些情况下，这种比较是定量的。在一些情况下，定性或定量比较可以包括但不限于以
下一种或多种：比较荧光值、斑点强度、吸光度值、化学发光信号、柱状图、临界阈值、统计显著性值、基因产物表达水平、基因产物表达水平变化、替代外显子使用(alternative exon
usage)、替代外显子使用的变化、蛋白质水平、DNA多态性、拷贝数变化、一种或多种DNA标
志物或区域的存在或不存在的指示，或者核酸序列。

[0153] (ii)结果评估

[0154] 在一些实施方案中，使用本领域已知的将基因产物表达水平或外显子的使用与特定表型相关联的方法来评估分子谱分析结果，所述表型例如是恶性肿瘤、恶性肿瘤的类型
(例如滤泡癌)、良性或正常(例如无疾病或病状)。在一些情况下，可以确定规定的统计
学置信水平以提供诊断置信水平。例如，可以确定大于90％的置信水平是恶性肿瘤、恶性
肿瘤类型或良性的可用预测器。在其他实施方案中，可以选择更严格或更不严格的置信水
平。例如，可以选择大约或至少约50％、60％、70％、75％、80％、85％、90％、95％、97.5％、
99％、99.5％或99.9％的置信水平作为可用的表型预测器。在一些情况下，所提供的置信
水平可与样品质量、数据质量、分析质量、所用的具体方法和/或所分析的基因表达产物的
数目有关。用于提供诊断的规定置信水平可基于假阳性或假阴性和/或成本的期望值来选
择。为了达到规定的置信水平而选择参数或鉴定具有诊断能力的标志物的方法包括但不限
于，受试者工作特征(ROC)曲线分析、双正态ROC、主成分分析、部分最小二乘法分析、奇异
值分解、最小绝对收缩和选择算子分析、最小角回归和阈值梯度定向正则化方法。

[0155] (iii)数据分析

[0156] 在一些情况下，可通过使用为标准化和/或提高数据可靠性而设计的算法来改进原始基因表达水平和可变剪接数据。在本发明的一些实施方案中，由于需处理大量单个数
据点，数据分析需要计算机或其他装置、机器或仪器以应用本文所述的多种算法。“机器学
习算法”是指用于表征基因表达谱的基于计算的预测方法，本领域技术人员也称其为“分类
器”。通常用所述算法处理通过例如基于微阵列的杂交分析获得的对应于某些表达水平的
信号，从而对表达谱进行分类。监督的学习通常包括“训练”分类器以识别各类别之间的区
别，然后“测试”分类器对独立测试集的准确性。对于新的未知样品，分类器可用于预测样
品所属的类别。

[0157] 在一些情况下，强化多阵列平均(RMA)法可用于将原始数据标准化。RMA法开始于计算多个微阵列上各匹配细胞的背景校正强度。背景校正的值被限制为正值，如Irizarry
等，Biostatistics 2003April 4(2)：249-64所述。背景校正后，获得各背景校正的匹配细
胞强度的以2为底的对数。然后使用分位数标准化方法将各微阵列上的背景校正的、对数
转化的匹配强度标准化，在该方法中，对于各输入阵列和各探针表达值，用所有阵列百分点
的平均值替换阵列百分位探针值，该方法由Bolstad等，Bioinformatics 2003更充分地描
述。分位数标准化后，标准化的数据可以拟合线性模型以获得各微阵列上的各探针的表达
量值。然后可利用Tukey中位数平滑算法(Tukey，J.W.，ExploratoryData Analysis.1977)
确定标准化的探针集数据的对数级表达水平。

[0158] 可以进一步过滤数据以去除可能认为是可疑的数据。在一些实施方案中，得自具有少于约4、5、6、7或8个鸟苷+胞嘧啶核苷酸的微阵列探针的数据由于其异常杂交倾向或
二级结构问题而可能被认为是不可靠的。类似地，得自具有超过约12、13、14、15、16、17、18、
19、20、21或22个鸟苷+胞嘧啶核苷酸的微阵列探针的数据由于其异常杂交倾向或二级结
构问题而可能被认为是不可靠的。

[0159] 在一些情况下，相对于一系列参考数据集可以对探针集可靠性进行排序，从而选择不可靠的探针集以从数据分析中排除。例如，RefSeq或Ensembl(EMBL)被认为是质量非
常高的参考数据集。在一些情况下，来自与RefSeq或Ensembl序列匹配的探针集的数据由
于其预期的高可靠性而可以特别地包括在微阵列分析实验中。类似地，来自匹配可靠性较
低的参考数据集的探针集的数据可从进一步的分析中排除，或视情况而定包括在进一步的
分析中。在一些情况下，可单独地或共同地使用Ensembl高通量cDNA(HTC)和/或mRNA参
考数据集来确定探针集可靠性。在其他情况下，可以对探针集的可靠性进行排序。例如，可
将与所有参考数据集如RefSeq、HTC和mRNA完全匹配的探针和/或探针集排序为最可靠的
(1)。此外，可将与三分之二参考数据集匹配的探针和/或探针集排序为次最可靠的(2)，可
将与三分之一参考数据集匹配的探针和/或探针集排序为下一级(3)，并可将不与参考数
据集匹配的探针和/或探针集排序为最后(4)。然后可以根据其排序从分析中包括或排除
探针和/或探针集。例如，可以选择包括来自1、2、3和4类探针集，1、2和3类探针集，1和
2类探针集，或1类探针集的数据用于进一步分析。在另一个实例中，可根据与参考数据集
项错配的碱基对数目对探针集进行排序。应理解存在许多本领域已知的、用于评估给定探
针和/或探针集在分子谱分析中的可靠性的方法，且本发明的方法包括这些方法中的任一
种及其组合。

[0160] 在本发明的一些实施方案中，如果来自探针集的数据不表达或以检测不到的水平(不高于背景)表达，则可从分析中将其排除。如果任何组满足以下情况，则探针集被判断
为高于背景表达：

[0161] 标准正态分布的T0到无穷大的积分＜显著性(0.01)其中：
T0＝Sqr(Group Size)(T-P)/Sqr(Pvar)，
GroupSize＝组中的CEL文件数，
T＝探针集中探针得分的平均值，
P＝GC含量的背景探针平均的平均值，以及
Pvar＝背景探针变异的和/(探针集中的探针数)2。

[0162] 这允许包括这样的探针集：其中组中探针集的平均值高于作为探针集背景中心的背景探针的平均表达，该背景探针的GC含量与探针集类似，并且能够从背景探针集变异中
导出探针集离差。

[0163] 在本发明的一些实施方案中，不显示变异或显示低变异的探针集可从进一步的分析中排除。低变异探针集经由卡方(Chi-Square)检验从分析中排除。如果探针集的转化
变异在具有(N-1)自由度的卡方分布的99％置信区间的左侧，则认为它是低变异的。
(N-1)*探针集变异/(基因探针集变异)～卡方(N-1)
其中N是输入CEL文件数，(N-1)是卡方分布的自由度，“基因探针集变异”是基因间的
探针集变异的平均值。

[0164] 在本发明的一些实施方案中，如果给定基因或转录物簇的探针集包含的通过了之前描述的针对GC含量、可靠性、变异等的过滤器步骤的探针少于最小数目，则它们可从进
一步的分析中排除。例如在一些实施方案中，如果给定基因或转录物簇的探针集包含少于
1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或少于约20个探针，则它们可从进一步的分析中排除。

[0165] 基因表达水平或可变剪接的数据分析方法还可以包括使用本文提供的特征选择算法。在本发明的一些实施方案中，通过利用LIMMA 软件包(Smyth，G.K.(2005).Limma：
linear models for microarray data.In：Bioinformatics and Computational Biology
Solutions using R andBioconductor，R.Gentleman，V.Carey，S.Dudoit，R.Irizarry，
W.Huber(eds.)，Springer，New York，397-420页)提供特征选择。

[0166] 基因表达水平和/或可变剪接的数据分析方法还可以包括使用预分类器算法。例如，算法可利用细胞特异性分子指纹根据其组成对样品进行预分类，然后应用校正/标准
化因子。然后可将该数据/信息输入最终分类算法中，该算法将整合该信息以帮助最终诊
断。

[0167] 基因表达水平和或可变剪接的数据分析方法还可以包括使用本文提供的分类器算法。在本发明的一些实施方案中，提供对角线线性判别分析、k-最近邻算法、支持向量机
(SVM)算法、线性支持向量机、随机森林算法或基于概率模型的方法或其组合用于微阵列数
据的分类。在一些实施方案中，基于目标类别之间表达水平差异的统计显著性选择能够区
分样品(例如良性对恶性，正常对恶性)或区分亚型(例如PTC对FVPTC)的经鉴定的标志
物。在一些情况下，通过将BenjaminiHochberg或另一种校正应用于错误发现率(FDR)来
调整统计显著性。

[0168] 在一些情况下，分类器算法可以补充荟萃分析法，例如由Fishel和Kaufman等，2007Bioinformatics 23(13)：1599-606描述的方法。在一些情况下，分类器算法可以补充
荟萃分析法，例如再现性分析。在一些情况下，所述再现性分析选择出现在至少一个预测表
达产物标志物集中的标志物。

[0169] 用于导出后验概率并将后验概率应用于微阵列数据分析的方法是本领域已知的，并且已在例如Smyth，G.K.2004Stat.Appl.Genet.Mol.Biol.3：Article 3中描述。在一些
情况下，后验概率可用于对由分类器算法提供的标志物进行排序。在一些情况下，可以根据
其后验概率对标志物进行排序，并且可以选择通过了所选阈值的那些标志物作为其差异表
达指示或诊断例如良性、恶性、正常、ATC、PTC、MTC、FC、FN、FA、FVPTC、RCC、BCA、MMN、BCL、PTA、CN、HA、HC、LCT或NHP的样品的标志物。示例性的阈值包括0.7、0.75、0.8、0.85、0.9、
0.925、0.95、0.975、0.98、0.985、0.99、0.995或更高的先验概率。

[0170] 分子谱分析结果的统计学评估可以提供指示以下一种或多种可能性的一个或多个定量值：诊断准确性的可能性；癌症、疾病或病状的可能性；特定癌症、疾病或病状的可
能性(例如，组织类型或癌症亚型)；以及特定治疗性干预成功的可能性。因此，可能没有
经过遗传学或分子生物学培训的医师不需要了解原始数据。相反，所述数据以指导患者医
护的最有用的形式直接提供给医师。分子谱分析的结果可使用本领域已知的许多方法进行
统计学评估，包括但不限于：students T检验、双侧T检验、皮尔森秩和分析、隐马尔可夫模型分析、q-q图分析、主成分分析、单向ANOVA、双向ANOVA、LIMMA等。

[0171] 在本发明的一些实施方案中，单独使用分子谱分析或者与细胞学分析结合使用分子谱分析可以提供约85％的准确性到约99％或约100％的准确性的分类、表征或诊断。在
一些情况下，分子谱分析方法和/或细胞学分析提供准确性为大约或至少约85％、86％、
87％、88％、90％、91％、92％、93％、94％、95％、96％、97％、97.5％、98％、98.5％、99％、
99.5％、99.75％、99.8％、99.85％或99.9％的恶性、良性或正常的分类、鉴定或诊断。在一些实施方案中，分子谱分析方法和/或细胞学分析提供准确性为大约或至少约85％、86％、
87％、88％、90％、91％、92％、93％、94％、95％、96％、97％、97.5％、98％、98.5％、99％、
99.5％、99.75％、99.8％、99.85％或99.9％的特定组织类型(例如，NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和/或PTA)的存在的分类、鉴定或诊断。

[0172] 在一些情况下，可通过随着时间的推移随访受试者来确定初始诊断的准确性，从而确定其准确性。在其他情况下，可通过确定性的方式或者使用统计学方法确定准确性。例
如，可利用受试者工作特征(ROC)分析确定最优分析参数，从而实现特定水平的准确性、特
异性、阳性预测值、阴性预测值和/或错误发现率。在癌症诊断中使用ROC分析的方法是本
领域已知的，并且已在例如美国专利申请No.2006/019615中描述，其通过引用全部并入本
文。

[0173] 在本发明的一些实施方案中，可以选择如下所述的基因表达产物和编码此类产物的核苷酸组合物用作本发明的分子谱分析试剂，所述基因表达产物和编码此类产物的核苷
酸组合物经测定在良性和正常、良性和恶性、或恶性和正常之间表现出表达水平的最大差
异或可变剪接的最大差异。这样的基因表达产物由于提供比本领域已知或使用的其他方法
更宽的动态范围、更大的信噪比、改善的诊断能力、更低的假阳性或假阴性可能性或更高的
统计学置信水平而可能特别地有用。

[0174] 在本发明的其他实施方案中，与使用本领域已知的标准细胞学技术相比，单独使用分子谱分析或者与细胞学分析结合使用分子谱分析可以使评定为非诊断性样品的数目
减少约或至少约100％、99％、95％、90％、80％、75％、70％、65％或约60％。在一些情况下，与本领域使用的标准细胞学方法相比，本发明的方法可以使评定为中间或疑似的样品的数
目减少约或至少约100％、99％、98％、97％、95％、90％、85％、80％、75％、70％、65％或约
60％。

[0175] 在一些情况下，将分子谱分析的结果输入数据库中以供分子谱分析企业、个体、医疗提供者或保险提供者的代表或代理人访问。在一些情况下，分析结果包括企业的代表、代
理人或顾问如医学专业人员的样品分类、鉴定或诊断。在其他情况下，自动提供数据的计算
机或算法分析。在一些情况下，分子谱分析企业可以就以下一项或多项服务向个体、保险提
供者、医疗提供者、研究人员或政府机构收费：所进行的分子谱分析、咨询服务、数据分析、结果报告或数据库访问。

[0176] 在本发明的一些实施方案中，分子谱分析结果作为计算机屏幕上的报告或作为纸件报告提供。在一些情况下，所述报告可以包括但不限于以下一种或多种信息：差异表达的
基因数、原始样品的适合性、显示差异可变剪接的基因数、诊断、诊断的统计学置信度、癌症或恶性肿瘤的可能性和指定的疗法。

[0177] (iv)基于分子谱分析结果的样品分类

[0178] 分子谱分析结果可分类为以下之一：良性的(无恶性癌症、疾病或病状)、恶性的(癌症、疾病或病状的阳性诊断)或非诊断的(提供的关于癌症、疾病或病状的存在或不存
在的信息不充分)。在一些情况下，分子谱分析结果可分类为良性的对疑似的(怀疑为癌
症、疾病或病状阳性的)类别。在一些情况下，诊断结果可以进一步分类癌症、疾病或病状
的类型，比如通过鉴定一种或多种组织类型的存在或不存在，包括但不限于NML、FA、NHP、
LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA。在其他情况下，诊断结果可以指示与癌症疾病或病状有关的特定分子途径，或特定癌症疾病或病状的特定等级或阶
段。在另外其他情况下，诊断结果可以告知适当的治疗性干预，例如特定的药物方案(如激
酶抑制剂，例如Gleevec或本领域已知的任何药物)或外科手术介入(如甲状腺切除术或
偏侧甲状腺切除术)。

[0179] 在本发明的一些实施方案中，使用训练算法对结果进行分类。本发明的经训练的算法包括使用已知的恶性、良性和正常样品(包括但不限于图2所列的具有一种或多种组
织病理学的样品)的参考集开发的算法。在一些实施方案中，使用图3中的一个或多个分
类组以任意组合进一步训练算法。在一些实施方案中，训练包括第一组一种或多种组织类
型中的基因表达产物水平与第二组一种或多种组织类型中的基因表达产物水平的比较，其
中第一组组织类型包含至少一种第二组所不包含的组织类型。在一些实施方案中，可使用
分类组中的生物标志物组的表达水平与本算法所使用的所有其他生物标志物组(或所有
其他生物标志物特征)进行比较来训练整个算法或部分算法。第一组组织类型和/或第一
组组织类型可包括任意组合的1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、
12个、13个、14个、或15个类型，所述类型选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA，以及来自包括外科手术和/或FNA样品在内的任何来
源。

[0180] 适于样品分类的算法包括但不限于k-最近邻算法、支持向量算法、朴素贝叶斯算法、神经网络算法、隐马尔可夫模型算法、遗传算法或其任何组合。

[0181] 在一些情况下，本发明的经训练的算法可以整合除了基因表达数据或可变剪接数据以外的数据，例如但不限于DNA多态性数据、测序数据、本发明的细胞学家或病理学家的
评分或诊断、由本发明的预分类器算法提供的信息或本发明受试者的医疗史信息。

[0182] 当为了癌症诊断而对生物样品进行分类时，二元分类器通常出现两种可能的结果。当二元分类器与实际真值(例如，来自生物样品的值)相比时，通常存在四种可能的结
果。如果预测结果为p(其中“p”是阳性分类器输出，比如恶性，或存在本文所述的特定病
变组织)，并且实际值也为p，那么它被称为真阳性(TP)；然而如果实际值为n，那么它被称
为假阳性(FP)。相反，当预测结果和实际值二者都为n时(其中“n”是阴性分类器输出，比
如良性，或不存在本文所述的特定病变组织)出现真阴性(例如，明确的良性)，而当预测结
果为n而实际值为p时则出现假阴性。在一个实施方案中，考虑试图确定人是否患有某种
疾病的诊断性测试。当该人测试为阳性，但实际上未患该疾病的情况时，出现假阳性。另一
方面，当该人测试为阴性(提示他们是健康的)，但他们实际上确实患有该疾病时，出现假
阴性。在一些实施方案中，可通过以相应比例对可用样品上获得的误差进行重采样而产生
假设亚型的真实世界流行度的受试者工作特征(ROC)曲线。

[0183] 疾病的阳性预测值(PPV)，或准确率，或验后概率，是正确诊断的具有阳性测试结果的患者的比例。它是诊断方法的最重要的判断标准，因为它反映了阳性测试反映出所测
试的基础病状的可能性。然而，其值确实依赖于可以发生变化的疾病流行度。在一个实施
方案中，FP(假阳性)；TN(真阴性)；TP(真阳性)；FN(假阴性)。

[0184] 假阳性率(α)＝FP/(FP+TN)-特异性

[0185] 假阴性率(β)＝FN/(TP+FN)-灵敏度

[0186] 能力＝灵敏度＝1-β

[0187] 似然比阳性＝灵敏度/(1-特异性)

[0188] 似然比阴性＝(1-灵敏度)/特异性

[0189] 阴性预测值是正确诊断的具有阴性测试结果的患者的比例。PPV和NPV量度可使用适当的疾病亚型流行度估计值获得。合并的恶性疾病流行度的估计值可由通过外科手术
大致分类为B与M的不确定结果的合并库来计算。在一些实施方案中，对于亚型特异性估
计值，疾病流行度有时可能是无法计算的，因为没有任何可用的样品。在这些情况下，亚型
疾病流行度可以用合并的疾病流行度估计值来代替。

[0190] 在一些实施方案中，表达产物或替代外显子使用的水平指示以下之一种：NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA。在一些实施方案中，表达产物或替代外显子使用的水平指示以下之一种：滤泡性细胞癌、未分化癌、髓样癌或乳头状癌。在一些实施方案中，基因表达产物或替代外显子使用的水平指示Hurthle细胞癌
或Hurthle细胞腺瘤。在一些实施方案中，使用本发明方法选择的一个或多个用于诊断癌
症的基因包含与指示癌症的一组代谢途径或信号传导途径相对应的代表性序列。

[0191] 在一些实施方案中，本方法的表达分析结果提供了给定诊断为正确的统计置信水平。在一些实施方案中，此统计置信水平为至少约或大于约85％、90％、91％、92％、93％、
94％、95％、96％、97％、98％、99％、99.5％或更高。

[0192] 在另一方面，本发明提供用于诊断癌症的组合物，其包括包含一个或多个图4所列基因的一部分或其互补序列的寡核苷酸和该寡核苷酸所共价连接的基质。本发明的组合
物适用于在特定置信水平内使用经训练的算法来诊断癌症。在一个实例中，本发明的组合
物用于诊断甲状腺癌。

[0193] 例如，在甲状腺癌的特定情况下，本发明的分子谱分析可以进一步提供关于甲状腺癌的具体类型(例如，乳头状、滤泡性、髓样或未分化)或选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA的其他组织类型的诊断。在一些实施方案中，本发明方法提供对Hurthle细胞癌或Hurthle细胞腺瘤的存在或不存在的诊断。分
子谱分析的结果还可以使本领域技术人员例如科学家或医学专业人员能够提出或指定特
定治疗性干预。生物样品的分子谱分析也可用于监测初始诊断后特定治疗的效果。此外，
应理解在一些情况下，分子谱分析可代替已确立的癌症诊断方法使用，而不是作为其附加
方法使用。

[0194] (v)经由分子谱分析监测受试者或进行治疗性干预

[0195] 在一些实施方案中，可使用本发明的方法和组合物监测受试者。例如，受试者可被诊断为患有癌症或遗传病。该初始诊断可以包括或不包括使用分子谱分析。可以为受试者
指定治疗性干预，例如，对疑似具有甲状腺癌的受试者进行甲状腺切除术。可以通过分子谱
分析来检测治疗性干预的效果，从而持续地监测治疗性干预的结果。在另一个实例中，受试
者可能被诊断为患有良性肿瘤或癌前病变或结节，并且可以通过分子谱分析来检测肿瘤或
病变状态的任何变化，从而持续地监测所述肿瘤、结节或病变。

[0196] 分子谱分析也可以用于在对受试者施用特定治疗性干预之前确定该特定治疗性干预的潜在效果。例如，受试者可能被诊断为患有癌症。分子谱分析可指示已知与癌症恶
性有关的基因表达产物(例如RAS癌基因)的上调。可以使用本领域已知的方法获得肿瘤
样品并在体外培养。然后可以测试应用异常活化的或失调的途径的各种抑制剂或已知抑制
该途径活性的药物对肿瘤细胞系的生长抑制。分子谱分析也可以用于监测这些抑制剂对于
例如有关途径的下游靶标的作用。

[0197] (vi)分子谱分析作为研究工具

[0198] 在一些实施方案中，分子谱分析可用作研究工具，以鉴定用于诊断疑似肿瘤的新标志物；监测药物或候选药物对于生物样品例如肿瘤细胞、细胞系、组织或生物体的作用；
或揭示肿瘤发生和/或肿瘤抑制的新途径。

[0199] (vii)基于分子谱分析的生物标志物分组

[0200] 在一些实施方案中，本发明提供了可用于表征、划归、排除、鉴定和/或诊断甲状腺中的病理学的生物标志物的分组或组。此类生物标志物组是通过基因(或生物标志物)
表达水平的模式与样品的特定类型(例如，恶性亚型、良性亚型、正常组织或具有外来组织
的样品)之间的关联而获得的。生物标志物组也可用于表征、划归、排除、鉴定和/或诊断
甲状腺的良性病状。在一些情况下，生物标志物的组数为多于1个、2个、3个、4个、5个、6
个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、
25个、30个、40个、50个、60个、70个、80个、90个或100个生物标志物组。在优选的实施
方案中，生物标志物的组数为多于12组(例如，16组生物标志物)。16组生物标志物的例
子包括但不限于以下(它们也提供在图2中)：
1、正常甲状腺(NML)
2、淋巴细胞性自身免疫性甲状腺炎(LCT)
3、结节性增生(NHP)
4、滤泡性甲状腺腺瘤(FA)
5、Hurthle细胞甲状腺腺瘤(HC)
6、甲状旁腺(非甲状腺组织)
7、甲状腺未分化癌(ATC)
8、滤泡性甲状腺癌(FC)
9、Hurthle细胞甲状腺癌(HC)
10、乳头状甲状腺癌(PTC)
11、乳头状癌的滤泡变型(FVPTC)
12、甲状腺髓样癌(MTC)
13、肾癌甲状腺转移(RCC)
14、黑色素瘤甲状腺转移(MMN)
15、B细胞淋巴瘤甲状腺转移(BCL)
16、乳腺癌甲状腺转移(BCA)

[0201] 每组包括可用于表征、划归、排除和/或诊断甲状腺中的给定病理学(或其缺乏)的一组生物标志物(例如与特定细胞类型有关的基因表达产物或可变剪接外显子)。生物
标志物可以与超过一种细胞类型有关。第1-6组描述良性病理学，而第7-16组描述恶性病
理学。所述多个组可以组合起来(各自以不同的比例)，以产生可用于两类分类系统(例
如良性对恶性)的优化的组。或者，生物标志物组可以单独使用或以任意组合使用，作为分
类、鉴定或诊断甲状腺组织样品是否包含选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA的一种或多种组织的参考或分类器。生物标志物组的组
合可包含至少约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、
14个、15个、16个或更多个生物标志物组。在分类、鉴定或诊断中使用两个或多个组的一
些实施方案中，比较是连续的。连续比较可包括1个、2个、3个、4个、5个、6个、7个、8个、
9个、10个或更多个集，所述集包含2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个生物标志物组，作为连续比较中的一个步骤，所述生物标志物组同时进行比较，且与该顺
序中的其他步骤中相比，每个集包含至少一个不同的生物标志物组(并且可任选地为完全
不重叠的)。

[0202] 甲状腺的生物性质以及在其内发现的每种病理学提示：一组中的多种生物标志物与另一组中的多种生物标志物之间可能存在一定的冗余。在一些实施方案中，对于每种
病理学亚型，每个诊断组是异质的并且相对于另一组中的生物标志物是半冗余的或非冗余
的。一般而言，异质性和冗余反映了给定甲状腺样品(例如，外科手术样品或FNA样品)中
的组织样品生物学以及可将每个病理学亚型彼此进行区分的基因表达差异。

[0203] 一方面，本发明的诊断价值在于比较i)一个组中的一种或多种标志物，相对于ii)各附加组中的一种或多种标志物。

[0204] 特定生物标志物组所展示的基因表达模式反映了每组的“特征”。例如，淋巴细胞性自身免疫性甲状腺炎(LCT)组可具有某些表现出特定模式或特征的生物标志物集。在
此类特征中，特定生物标志物可能上调，另外一些可能没有差异性表达，而还有一些可能下
调。为了诊断或以其他方式表征甲状腺病状，特定生物标志物组的特征本身可进行分组；这
样的分组可被称为“分类组”。每个“分类组”可包含至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个或多于20个生物标志物组。

[0205] 分类组可包含指定的生物标志物(TCID)，并且使用在算法训练过程中保存的信息来划归或排除给定样品为“良性的”、“疑似的”或包含或不包含一种或多种组织类型(例如，NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA)。每个分类组可使用简单的判定规则来过滤引入的样品，如果满足判定规则(例如，针对样品中所包
含的一种或多种组织样品的身份或状态对样品进行表征)，则从后续评估中有效地移除任
何标记样品。本文提供的生物标志物组和分类组尤其可用于分类、表征、鉴定和/或诊断甲
状腺癌或其他甲状腺病状(包括诊断甲状腺为正常的)。然而，可使用类似的方法获得与
这些组类似的生物标志物组和分类组，并且这些生物标志物和分类组可用于其他疾病或病
症，比如本文所述的其他疾病或病症。

[0206] 图3提供了可用于诊断甲状腺病状的一组分类组的实例。例如，如图3所示，一个分类组可包含一个生物标志物组，比如MTC生物标志物组(例如，1号分类组)；另一个分类
组可包含一个生物标志物组，比如RCC生物标志物组(例如，2号分类组)；又一个分类组可
包含一个生物标志物组，比如PTA生物标志物组(例如，3号分类组)；再一个分类组可包含
一个生物标志物组，比如BCA生物标志物组(例如，4号分类组)；再一个分类组可包含一个
生物标志物组，比如MMN生物标志物组(例如，5号分类组)；再一个分类组可包含两个生物
标志物组，比如HA和HC生物标志物组(例如，6号分类组)；再一个分类组可包含FA、FC、
NHP、PTC、FVPTC、HA、HC和LCT组的组合(例如，7号分类组，它也是“主”分类器的实例)。
一个或多个这样的分类器可同时或依次使用，并且以任意组合使用，以分类、表征、鉴定或
诊断甲状腺样品。在一些实施方案中，样品被鉴定为包含或不包含具有HA或HC组织类型
的组织。

[0207] 可用于表征、鉴定和/或诊断甲状腺癌的其他潜在的分类组可包括：1)从非甲状腺器官转移到甲状腺的生物标志物(例如，以下一种，或两种或更多种的任意组合：RCC、
MTC、MMN、BCL和BCA组)；2)与来源于非甲状腺器官的甲状腺组织相关的生物标志物(例
如，以下任一种，或两种或更多种的任意组合：RCC、MTC、MMN、BCL、BCA和PTA组)；3)可变基因剪接具有显著改变的生物标志物；4)KEGG途径；5)基因本体；6)与甲状腺癌相关的生
物标志物组(例如，以下组中的一种，或两种或更多种的组合：FC、PTC、FVPTC、MTC、HC和
ATC)；7)与良性甲状腺病状相关的生物标志物组(例如，以下的一种，或两种或更多种的组
合：FA、NHP、LCT或HA)；8)与良性甲状腺病状或正常甲状腺组织相关的生物标志物组(例
如，以下的一种，或两种或更多种的组合：FA、NHP、LCT、HA或NML)；9)与信号传导途径有关的生物标志物，比如粘着途径、焦点粘着途径和紧密连接途径，或于2009年11月17日提交
的国际申请号PCT/US2009/006162中所述的其他途径。此外，在本方法和组合物中可使用
指示从非甲状腺器官到甲状腺的转移的生物标志物。可用于诊断甲状腺病状的分类器的、
转移到甲状腺的转移性癌症包括但不限于：转移性甲状旁腺癌、转移性黑色素瘤、转移性肾
癌、转移性乳腺癌和转移性B细胞淋巴瘤。

[0208] 在一些情况下，本方法提供了可用于诊断生物样品或以其他方式表征生物样品的许多或一定数量范围的生物标志物(包括基因表达产物)。如本文所述，可使用本文所提
供的方法，尤其是将基因表达特征与特定组织类型例如图2所列的类型相关联的方法来鉴
定此类生物标志物。可使用本发明描述的方法来获得图4所示的生物标志物集。所述生物
标志物也可转而用于对组织进行分类。在一些情况下，使用图4中的所有生物标志物来诊
断或以其他方式表征甲状腺组织。在一些情况下，使用图4中的生物标志物的子集来诊断
或以其他方式表征甲状腺组织。在一些情况下，使用图4中的所有生物标志物或其子集与
其他生物标志物一起来诊断或以其他方式表征甲状腺组织。在一些实施方案中，总共使用
至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、
100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或 300种生物标志物来诊断或以其他方式表征甲状腺组织。在其他实施方案中，总共使用至多2、
3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、53、58、63、65、68、100、120、
140、142、145、147、150、152、157、160、162、167、175、180、185、190、195、200或300种生物标志物来诊断或以其他方式表征甲状腺组织。在另外其他实施方案中，使用图4中所确定的
生物标志物中的至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、33、35、38、40、43、45、48、50、
53、58、63、65、68、100、120、140、142、145、147、150、152、157、160、162、167、175、180、185、
190种或更多种来诊断或以其他方式表征甲状腺组织。

[0209] 图4列出了示例性生物标志物和它们相关的分类组(和/或生物标志物组)的实例。本文所提供的方法和组合物可使用图4所列的任何或全部生物标志物。在一些实施方
案中，图4所列的生物标志物被用作图4所示的相应分类组的一部分。在其他情况下，图4
中的生物标志物可用于与图4所示的分类组不同的分类组。

[0210] 可为优化的分类组分配每个分类组特定数目的生物标志物。例如，可为优化的分类组分配至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45或50、100、120、140、142、
145、160、180种或超过200种生物标志物。例如，如图3所示，分类组可包含5种、33种或
142种生物标志物。本发明的方法和组合物可使用选自1、2、3、4、5、6、7、8、9、10、11、12、13、
14、15或16个或更多个生物标志物组的生物标志物，并且这些生物标志物组中的每一个
可具有任意组合的多于1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50种或更多种生物标志物。在一些实施方案中，组合的标志物集给出了高于60％、70％、75％、80％、85％、
86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或99.5％的特异性或灵敏度，或至少90％、95％、95.5％、96％、96.5％、97％、97.5％、98％、98.5％、
99％、99.5％或更高的阳性预测值或阴性预测值。

[0211] 基因表达水平的分析可包括将本文所述的不同分类器连续应用于基因表达数据。这样的连续分析可包括应用从病变甲状腺组织群组的基因表达分析获得的分类器，接着应
用从不同甲状腺组织样品的混合物的分析获得的分类器，其中一些样品包含病变甲状腺组
织而其他样品包含良性甲状腺组织。在优选的实施方案中，病变组织是恶性或癌性组织
(包括从非甲状腺器官转移的组织)。在更优选的实施方案中，病变组织是甲状腺癌或已转
移到甲状腺的非甲状腺癌。在一些实施方案中，所述分类器是从良性组织、正常组织和/或
非甲状腺组织(例如，甲状旁腺组织)中的基因表达模式的分析获得的。在一些实施方案
中，病变组织是HA和/或HC组织。

[0212] 在一些实施方案中，当每个分类组接收来自患者样品的生物标志物表达水平(例如，汇总的微阵列强度值、qPCR或测序数据)作为输入时，开始分类过程。然后评估分类组
中指定的生物标志物和表达水平。如果来自给定样品的数据与分类组中指定的规则匹配
(或以其他方式与分类组的特征相关)，则它的数据输出标记该样品并且阻止主(下游)分
类器对其进行进一步的评估和评分。当分类组标记样品时，系统针对该样品自动返回“疑
似”判定(call)。当分类组不标记样品时，评估继续往下游推进到达下一个分类组，并且可
被下一个分类组标记或不标记。在一些情况下，按特定顺序应用分类组；在其他情况下，应
用顺序可以是任意顺序。在一些实施方案中，以任何特定顺序执行来自图3且处于甲状腺
基因特征组的优化列表中的分类组1-5，不过接下来是分类组6，分类组6先于主分类器的
应用(例如，分类组7)。

[0213] 图1A提供了根据本发明方法的分类过程的例证。该过程起始于例如通过基因表达分析测定来自受试者的样品(例如，甲状腺组织样品)的一种或多种基因表达产物的表
达水平。可单独分析一组或多组参考样品或训练样品，以确定至少两组不同生物标志物的
基因表达数据，每组生物标志物的基因表达数据包含与一种或多种组织类型的存在相关
的一个或多个基因表达水平。第一组生物标志物的基因表达数据可用于训练第一分类器；
第二组的基因表达数据可用于训练第二分类器：对于2、3、4、5、6、7、8、9、10、11、12、13、14、
15、16组或更多组生物标志物和任选地对应的分类器，以此类推。在每组生物标志物的分析
中使用的参考样品集或训练样品集可以是重叠的或非重叠的。在一些实施方案中，参考或
训练样品包含HA和/或HC组织。在样品分类过程的下一个步骤中，在样品的基因表达水
平和第一组生物标志物或第一分类器之间进行第一比较。如果该第一比较的结果匹配，则
分类过程以例如指出该样品为疑似的、癌性的或包含特定组织类型(例如，HA或HC)的结
果结束。如果比较的结果不匹配，则该样品的基因表达水平在第二轮比较中与第二组生物
标志物或第二分类器进行比较。如果该第二比较的结果匹配，则分类过程以例如指出该样
品为疑似的、癌性的或包含特定组织类型(例如，HA或HC)的结果结束。如果比较的结果
不匹配，则该过程以类似的逐步比较过程继续，直到发现匹配，或直到分类过程中包含的所
有组的生物标志物或分类器都用作比较的基础。如果在样品的基因表达水平与分类过程中
所使用的任何生物标志物或分类器集之间未发现匹配，则可指定样品为“良性的”。在一些
实施方案中，如本文所述，分类过程中的最后比较是样品的基因表达水平与主分类器之间
的比较。

[0214] 图1B图示了根据本发明方法的分类过程的另一个实例。通过微阵列杂交进行基因表达分析。对微阵列103的扫描生成了以CEL文件(数据)和校验和文件(用于数据完
整性的验证)形式的基因表达数据104。单独地分析用于训练样品的基因表达数据，以生
成分类器和参数文件108，分类器和参数文件108包含与一种或多种类型的存在相关的基
因表达数据。将分类器盒编译成有序执行列表107。使用分类器盒对样品数据的分析起始
于使用命令行接口101输入命令，执行哪个命令由管理程序102来协调。这个示例性过程
中的分类分析在105和107处进一步详述。对基因表达数据104进行标准化和汇总，随后
用每个分类器盒依照执行列表105中盒的顺序对基因表达数据104进行分析。在这个实例
中，用包含与甲状腺髓样癌(MTC)相关的生物标志物表达数据的分类盒对基因表达数据进
行分类，随后按顺序使用用于肾癌甲状腺转移(RCC)、甲状旁腺(PTA)、乳腺癌甲状腺转移
(BCA)、黑色素瘤甲状腺转移(MMN)、Hurthle细胞癌和/或Hurthle细胞腺瘤(HC)的分类
器盒进行比较，并以使用主分类器将良性组织样品与疑似组织样品区别开来(BS)而结束。
然后以结果文件和任何其他报告信息或输出106的形式报告利用每个分类器盒连续分析
基因表达数据所得的结果。

[0215] 在一些实施方案中，分类过程使用主分类器(例如，分类器组7)来指定样品为“良性的”或“疑似的”，或为包含或不包含一种或多种特定类型(例如，HA或HC)的组织。在一
些实施方案中，从样品获得的基因表达数据经历一系列“过滤”步骤，其中所述数据连续通
过不同的分类组或生物标志物组。例如，可用MMN生物标志物组分析样品，随后用MTC生物
标志物组分析样品。在一些情况下，分类组的次序为以任何顺序排列的分类组1-5，接着是
分类组6，再接着是主分类器(如图3所示)。在一些情况下，使用一个分类组，接着使用主
分类器。在一些情况下，使用1个、2个、3个、4个、5个、6个、7个、8个、9个或10个分类器组，接着使用主分类器。在一些情况下，在主分类器前直接使用分类器6(组合的HA和HC)。
在一些情况下，以任意组合或次序应用分类器1-5中的一个或多个，接着应用分类器7。在
一些情况下，以任意组合或次序应用分类器1-5中的一个或多个，接着应用分类器6，再接
着应用分类器7。在一些情况下，以任何组合或次序应用分类器1-6中的一个或多个，接着
应用分类器7(或其他主分类器)。

[0216] 在一些实施方案中，各组内的生物标志物是可互换的(模块化的)。所有组中的多种生物标志物可以替代、增加、减少或改善以适应新的病理亚型的定义(例如从其他器官
转移到甲状腺的新病例报告)。本发明描述了定义在甲状腺中发现的16种异质、半冗余和
独特的病理学中的每一种的多种生物标志物。此类生物标志物可允许区分所述16种异质
甲状腺病理学的恶性代表和良性代表。在一些情况下，要求所有16组都得到准确诊断，且
任一给定组单独不具备足以做出正确表征、分类、鉴定或诊断检测的能力。在其他情况下，
仅要求所述组的子集得到准确的表征、分类、鉴定或诊断检测，比如少于2个、3个、4个、5
个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或16个生物标志物组。在一些实施方案中，各组中的生物标志物与合适的生物标志物组合互换，使得在检验定义所有
其他病理学亚型的多种生物标志物的背景下，各组中的多种生物标志物仍然定义给定的病
理学亚型。

[0217] 连续分析的早期所使用的分类器可用于划归或排除样品为良性的或疑似的，或包含或不包含特定亚型(例如，HA或HC)的一种或多种组织的。在一些实施方案中，此连续
分析结束于将“主”分类器应用于来自未被前面分类器排除的样品数据，其中主分类器是从
多个组织类型中的基因表达水平的数据分析中获得的，并且其中主分类器能够指定样品为
良性的或疑似的(或恶性的)，或为包含或不包含特定类型(例如，HA或HC)的一种或多种
组织的。

[0218] 本文提供了16个甲状腺生物标志物组。在一些实施方案中，与选自NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA组织类型的组织类型相关的两个或多个生物标志物组用于区分i)良性FNA甲状腺样品与恶性(或疑似)FNA甲状腺
样品，ii)样品中NML、FA、NHP、LCT、HA、FC、PTC、FVPTC、MTC、HC、ATC、RCC、BCA、MMN、BCL和PTA组织类型之一种或多种的存在与不存在，和/或iii)样品中HA和/或HC组织的存在
与不存在。在检查和分析在所有其他亚型的背景下定义每种病理学亚型的差异基因表达之
后，良性与恶性的表征可以更准确。在一个实施方案中，本发明描述了在甲状腺FNA的准确
分类中有用的多种标志物。

[0219] 对图2所述的初始16个生物标志物组的分类优化和同时和/或连续检查可用于选择一组2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个(例如，图3中的7个分
类组)，所述优化可包括使用此类分类组进行指定顺序的连续比较。本领域技术人员可研究
甲状腺手术组织和/或FNA样品的群组，并且使用本文所述的新方法来生成与本文所述的
生物标志物组完全或部分不同的类似生物标志物组。因此，亚型组本身具有实用性，而不一
定是在其中发现的实际基因。本领域技术人员也可使用本文所述的方法来为每个亚型设计
多个互相排斥的组(例如，图6)，其中组中的每个基因被具有与图3中的那些类似的表达趋
势的基因所替代。类似地，本领域技术人员可为每个亚型设计多个新组(也是独特的模块
化系列，例如，图7)，其中组中的每个基因具有与图5所示的基因不同的基因表达特征。亚
型组的每个模块化系列可以是互相排斥的，且足以达到准确的甲状腺FNA分类。

[0220] 图4显示了具有用于评估甲状腺RNA的诊断应用的生物标志物的实例。不同于差异基因表达分析(例如，恶性对良性)，在所述良性与恶性的比较中可能不需要使生物标志
物达到统计显著性，其目的是用于组的准确分类。在一些实施方案中，所述良性对恶性(或
良性对疑似)比较不具有统计显著性。在一些实施方案中，所述良性对恶性(或良性对疑
似)比较具有统计显著性。在一些实施方案中，特定亚型的比较或关联不具有统计显著性。
在一些实施方案中，特定亚型的比较或关联具有统计显著性。

[0221] 图2所描述的16个组代表在甲状腺中发现的不同病理学(无论是否起源于甲状腺)。然而，给定群体中的亚型普及率未必是一致的。例如，NHP和PTC远比罕见亚型如FC
或ATC更常见。在一些实施方案中，随后调整每个亚型组中的生物标志物的相对频率，以便
给予分子测试足够的灵敏度和特异性。

[0222] 本文所提供的生物标志物分组是可用于甲状腺病状的生物标志物分组的实例。然而，生物标志物分组也可用于其他疾病或病症，例如本文所述的任何疾病或病症。

[0223] (viii)分类错误率

[0224] 在一些实施方案中，将排名前列的甲状腺生物标志物细分为箱元(bin)(每个箱元50种TCID)，以证明达到小于4％的总体分类错误率所需基因的最小数目。用于分类的
原始TCID对应于AffymetrixHuman Exon 1.0ST微阵列芯片，并且每一个可映射到超过一
个基因或根本不映射到基因(Affymetrix annotation file：HuEx-10-st-v2.na29.hg18.
transcript.csv)。当没有基因映射TCID时，生物标志物被标示为TCID-######。

[0225] IX.组合物

[0226] (i)本发明的基因表达产物和剪接变体

[0227] 分子谱分析也可包括但不限于本公开内容的测定，包括对以下一种或多种的测定：蛋白质、蛋白质表达产物、DNA、DNA多态性、RNA、RNA表达产物、RNA表达产物水平、或图
4所提供的基因或标志物的RNA表达产物剪接变体。在一些情况下，本发明的方法提供通过
至少约1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、15种、20种、25种、30种、35种、40种、45种、50种、60种、70种、80种、90种、100种、120种、140种、160种、180种、200种、240种、280种、300种、350种、400种、450种、500种、600种、700种、800种、1000种、1500种、2000种、2500种、3000种、3500种、4000种、5000种或更多种DNA多态性、表达产物标志物和/或可变剪接变体标志物的分子谱分析来改善癌症诊断。

[0228] 在一个实施方案中，分子谱分析包括微阵列杂交，通过进行微阵列杂交可确定选自图4的一个或多个基因的基因表达产物水平。在一些情况下，来自一个组的一个或多个
基因的基因表达产物水平与另一个组或多个组中的一个或多个基因的基因表达产物水平
进行比较。仅作为一个例子且非限制性地，基因TPO的表达水平可与基因GAPDH的表达水平
进行比较。在另一个实施方案中，针对与以下一个或多个代谢途径或信号传导途径有关的
一个或多个基因测定其基因表达水平：甲状腺激素产生和/或释放、蛋白质激酶信号传导
途径、脂质激酶信号传导途径和细胞周期蛋白。在一些情况下，本发明的方法提供对1种、2
种、3种、4种、5种、6种、7种、9种、10种、11种、12种、13种、14种或15种或更多种不同代谢途径或信号传导途径的至少一个基因的基因表达产物水平和/或替代外显子使用的分
析。

[0229] (ii)本发明的组合物

[0230] 也提供本发明的组合物，所述组合物包含以下一种或多种：对应于图4所提供的基因或基因的一部分的核苷酸(例如，DNA或RNA)，和对应于图4所提供的基因的互补序列
或基因的互补序列的一部分的核苷酸(例如，DNA或RNA)。在一些实施方案中，本公开内容
提供收集探针，例如能够与图4中确定的生物标志物中的至少1种、2种、3种、4种、5种、6
种、7种、8种、9种、10种、15种、20种、25种、30种、35种、40种、45种或50种、100种、120种、140种或160种结合的探针集。

[0231] 本发明的核苷酸(包括探针)的长度可以是至少约10个、15个、20个、25个、30个、35个、40 个、45个、50个、55 个、60个、65 个、70个、75个、100 个、150个、200 个、
250个、300个、350个或约400个或500个核苷酸。在本发明的一些实施方案中，所述核苷
酸可以是核糖核酸或脱氧核糖核酸的天然或人工衍生物，包括但不限于肽核酸、吡喃糖基
RNA(pyranosyl RNA)、核苷、甲基化核酸、聚乙二醇化核酸、环核苷酸和化学修饰的核苷酸。
在本发明的一些组合物中，本发明的核苷酸已经过化学修饰从而包括可检测标记。在本发
明的一些实施方案中，生物样品已经过化学修饰从而包括标记。

[0232] 本发明的其他组合物包含用于检测(即测定)图4中提供的基因的表达产物的寡核苷酸和/或其互补序列。本发明的其他组合物包含用于检测(即测定)图5至图8中提
供的基因的多态性等位基因表达产物的寡核苷酸和其互补序列。这样的多态性等位基因包
括但不限于剪接位点变体、单核苷酸多态性、可变数目重复序列多态性、插入、缺失和同源
物。在一些情况下，变异等位基因与图4中所列的基因约99.9％到约70％相同，包括大约、
低于约或大于约99.75％、99.5％、99.25％、99％、97.5％、95％、92.5％、90％、85％、80％、
75％和约70％相同。在一些情况下，变异等位基因与图4提供的基因相差约1个核苷酸到
约500个核苷酸，包括大约、少于约或多于约1个、2个、3个、5个、7个、10个、15个、20个、
25个、30个、35个、50个、75个、100个、150个、200个、250个、300个和约400个核苷酸。

[0233] 在一些实施方案中，本发明的组合物可特别地选自：介于良性样品和恶性样品之间(或一种或多种特定组织类型如HA和/或HC的存在与不存在之间)的排名前列的差异
表达基因产物，或介于良性样品和恶性样品之间(或一种或多种特定组织类型如HA和/或
HC的存在与不存在之间)的排名前列的差异剪接基因产物，或介于正常样品与良性或恶性
样品之间(或一种或多种特定组织类型如HA和/或HC的存在与不存在之间)的排名前列
的差异表达基因产物，或介于正常样品与良性或恶性样品之间(或一种或多种特定组织类
型如HA和/或HC的存在与不存在之间)的排名前列的差异剪接基因产物。在一些情况下，
所述排名前列的差异表达基因产物可选择图4。

[0234] 疾病和病状

[0235] 在一些实施方案中，本发明的方法和算法用于诊断、表征、检测、排除和/或监测甲状腺癌。甲状腺癌包括任何类型的甲状腺癌，包括但不限于任何甲状腺恶性肿瘤，例如乳
头状甲状腺癌、滤泡性甲状腺癌、甲状腺髓样癌和/或甲状腺未分化癌。在一些情况下，甲
状腺癌是分化的。在一些情况下，甲状腺癌是未分化的。在一些情况下，本方法用于诊断、
表征、检测、排除和/或监测一种或多种以下类型的甲状腺癌：乳头状甲状腺癌(PTC)、乳
头状甲状腺癌的滤泡变型(FVPTC)、滤泡性癌(FC)、Hurthle细胞癌(HC)或甲状腺髓样癌
(MTC)。

[0236] 可使用本发明的算法和方法来诊断、表征和/或检测的其他类型的癌症包括但不限于：肾上腺皮质癌、肛门癌、再生障碍性贫血、胆管癌、膀胱癌、骨癌、骨转移、中枢神经系统(CNS)癌、周围神经系统(PNS)癌、乳腺癌、Castleman病、宫颈癌、儿童非霍奇金淋巴瘤、淋巴瘤、结肠直肠癌、子宫内膜癌、食道癌、尤因肿瘤家族(例如尤因肉瘤)、眼癌、胆囊癌、胃肠道类癌瘤、胃肠道间质肿瘤、妊娠滋养细胞疾病、毛细胞白血病、霍奇金病、卡波西肉
瘤、肾癌、喉癌和下咽癌、急性淋巴细胞性自血病、急性髓样白血病、儿童白血病、慢性淋巴细胞性白血病、慢性髓样白血病、肝癌、肺癌、肺类癌瘤、非何杰金淋巴瘤、男性乳腺癌、恶性间皮瘤、多发性骨髓瘤、脊髓增生异常综合征、骨髓增生性疾病、鼻腔和鼻旁癌、鼻咽癌、神经母细胞瘤、口腔和口咽癌、骨肉瘤、卵巢癌、胰腺癌、阴茎癌、垂体瘤、前列腺癌、视网膜母细胞瘤、横纹肌肉瘤、唾液腺癌、肉瘤(成人软组织癌)、黑色素瘤皮肤癌、非黑色素瘤皮肤
癌、胃癌、睾丸癌、胸腺癌、子宫癌(例如子宫肉瘤)、阴道癌、外阴癌和瓦尔登斯特伦巨球蛋白血症。

[0237] 使用生物标志物组的表达谱分析可用于将甲状腺组织表征为良性、疑似和/或恶性的。所述组可来源于对包含良性(非癌性)甲状腺亚型和恶性亚型的群组的基因表达
水平的分析，所述良性甲状腺亚型包括滤泡性腺瘤(FA)、结节增生(NHP)、淋巴细胞性甲状
腺炎(LCT)和Hurthle细胞腺瘤(HA)；所述恶性亚型包括滤泡性癌(FC)、乳头状甲状腺
癌(PTC)、乳头状癌的滤泡变型(FVPTC)、甲状腺髓样癌(MTC)、Hürthle细胞癌(HC)和甲
状腺未分化癌(ATC)。此类组也可来源于非甲状腺亚型，所述亚型包括肾癌(RCC)、乳腺癌
(BCA)、黑色素瘤(MMN)、B细胞淋巴瘤(BCL)和甲状旁腺(PTA)。与正常甲状腺组织(NML)
相关的生物标志物组也可在本文提供的方法和组合物中使用。图2提供了示例性的生物标
志物组，本文将对其进行进一步描述。注意，图2列出的每个组涉及与特定病理学或描述的
样品相关的生物标志物表达(例如，基因表达)的特征或模式。

[0238] 本发明还提供了通过迭代过程(例如，鉴别诊断)来鉴定异常细胞增殖的类型的新方法和组合物，所述异常细胞增殖例如是癌，包括滤泡性癌(FC)、乳头状甲状腺癌的滤泡
变型(FVPTC)、Hurthle细胞癌(HC)、Hurthle细胞腺瘤(HA)；乳头状甲状腺癌(PTC)、甲状
腺髓样癌(MTC)和未分化癌(ATC)；腺瘤，包括滤泡性腺瘤(FA)；结节增生(NHP)；胶质结
节(CN)；良性结节(BN)；滤泡性瘤(FN)；淋巴细胞性甲状腺炎(LCT)，包括淋巴细胞性自身
免疫性甲状腺炎；甲状旁腺组织；肾癌甲状腺转移；黑色素瘤甲状腺转移；B细胞淋巴瘤甲
状腺转移；乳腺癌甲状腺转移；良性(B)肿瘤、恶性(M)肿瘤和正常(N)组织。本发明还提
供了在细胞增殖的表征、诊断和/或治疗中有用的新基因表达标志物和新基因和标志物组
群。此外，本发明还提供用于提供细胞增殖的强化诊断、鉴别诊断、监测和治疗的商业方法。

[0239] 在一些实施方案中，通过本发明的方法分类、表征或诊断的疾病或病状包括良性和恶性过增生性病症，包括但不限于癌症、增生或肿瘤。在一些情况下，通过本发明的方法
分类、表征或诊断的过增生性病症包括但不限于：乳腺癌，比如乳腺导管组织中的导管癌、
髓样癌、胶质癌、小管癌和炎性乳腺癌；卵巢癌，包括上皮性卵巢肿瘤，比如卵巢中的腺癌和从卵巢转移到腹腔的腺癌；子宫癌；宫颈癌，比如宫颈上皮中的腺癌，包括鳞状细胞癌和腺
癌；前列腺癌，比如选自以下的前列腺癌：腺癌或转移到骨的腺癌；胰腺癌，比如胰管组织
中的上皮样癌和胰腺管中的腺癌；膀胱癌，比如膀胱中的移行细胞癌、尿路上皮癌(移行
细胞癌)、内衬于膀胱的尿路上皮细胞中的肿瘤、鳞状细胞癌、腺癌和小细胞癌；白血病，比如急性髓样白血病(AML)、急性淋巴细胞白血病、慢性淋巴细胞白血病、慢性髓样白血病、
毛细胞白血病、脊髓发育不良、骨髓增生性疾病、急性髓性白血病(AML)、慢性髓性白血病
(CML)、肥大细胞增多症、慢性淋巴细胞白血病(CLL)、多发性骨髓瘤(MM)和骨髓增生异常
综合征(MDS)；骨癌；肺癌，如非小细胞肺癌(NSCLC)，其分为鳞状细胞癌、腺癌和大细胞未
分化癌，以及小细胞肺癌；皮肤癌，如基底细胞癌、黑色素瘤、鳞状细胞癌和光化性角化病，这是一种皮肤病，有时发展成鳞状细胞癌；眼睛视网膜母细胞瘤；皮肤或眼内(眼睛)黑色
素瘤；原发性肝癌(起始于肝脏的癌症)；肾癌；艾滋病相关淋巴瘤，如弥漫性大B细胞淋巴
瘤、B细胞免疫母细胞性淋巴瘤和小无裂细胞淋巴瘤；卡波西肉瘤；病毒诱发性癌症，包括
乙型肝炎病毒(HBV)、丙型肝炎病毒(CBV)和肝细胞癌；1型人嗜淋巴细胞病毒(HTLV-1)和
成人T细胞白血病/淋巴瘤；以及人乳头状瘤病毒(HPV)和宫颈癌；中枢神经系统癌(CNS)，
如原发性脑肿瘤，其包括神经胶质瘤(星形细胞瘤、间变性星形细胞瘤或多形性胶质母细
胞瘤)、少突神经胶质瘤、室管膜瘤、脑膜瘤、淋巴瘤、神经鞘瘤和髓母细胞瘤；周围神经细胞(PNS)癌，如听神经瘤和恶性周围神经鞘瘤(MPNST)，包括神经纤维瘤和神经鞘瘤、恶性
纤维细胞瘤、恶性纤维组织细胞瘤、恶性脑膜瘤、恶性间皮瘤和恶性混合Müllerian瘤；口
腔癌和口咽癌，如下咽癌、喉癌、鼻咽癌和口咽癌；胃癌，如淋巴瘤、胃基质瘤和类癌瘤；睾丸癌，如生殖细胞肿瘤(GCT)(其包括精原细胞瘤和非精原细胞瘤)和性腺基质细胞瘤(其
包括莱迪希细胞瘤和塞尔托利细胞瘤)；胸腺癌，如胸腺瘤、胸腺癌和霍奇金病，非霍奇金
淋巴瘤类癌瘤或类癌瘤；直肠癌；以及结肠癌。在一些情况下，通过本发明方法分类、表征
或诊断的疾病或病状包括但不限于甲状腺病，比如良性甲状腺病，包括但不限于滤泡性腺
瘤、Hurthle细胞腺瘤、淋巴细胞性甲状腺炎和甲状腺增生。在一些情况下，通过本发明方法分类、表征或诊断的疾病或病状包括但不限于恶性甲状腺病，例如滤泡性癌、乳头状甲状腺
癌的滤泡变型、髓样癌和乳头状癌。在一些情况下，本发明方法提供将组织分类、表征或诊
断为病变或正常的。在其他情况下，本发明方法提供正常、良性或恶性的分类、表征或诊断。
在一些情况下，本发明方法提供良性/正常或恶性的分类、表征或诊断。在一些情况下，本
发明方法提供本文所提供的一种或多种特定疾病或病状的分类、表征或诊断。

[0240] 一方面，本发明提供了可用于分类、表征或诊断和监测遗传病的算法和方法。遗传病是由基因或染色体异常引起的疾病。而一些疾病，例如癌症，部分归因于遗传病，它们也
可由环境因素引起。在一些实施方案中，本文公开的算法和方法用于癌症如甲状腺癌的分
类、表征或诊断和监测。

[0241] 遗传病通常可以分为两类：单基因病及多因子和多基因(复杂)病。单基因病是单个突变基因的结果。据估计有超过4000种人类疾病由单基因缺陷引起。单基因病可以
以几种方式遗传给后代。单基因病的遗传有几种类型，包括但不限于常染色体显性、常染色
体隐性、X连锁显性、X连锁隐性、Y连锁和线粒体遗传。仅基因的一个突变拷贝就可使人
患上常染色体显性病症。常染色体显性类型的病症的例子包括但不限于亨延顿氏病、神经
纤维瘤病1型、马方综合征、遗传性非息肉性结肠直肠癌和遗传性多发性外生骨疣。在常染
色体隐性病症中，必须有基因的两个拷贝突变才能使人患上常染色体隐性病症。这一类型
的病症的例子包括但不限于囊性纤维化、镰状细胞病(以及部分镰状细胞病)、泰-萨克斯
(Tay-Sachs)病、Niemann-Pick病、脊髓性肌萎缩和干耳垢。X连锁显性病症由X染色体上
的基因突变引起。只有少数病症具有这种遗传模式，其主要的例子是X连锁低血磷性佝偻
症。男性和女性都受这些病症的影响，通常男性所受影响比女性更严重。一些X连锁显性
病状例如Rett综合征、2型色素失调症和艾卡迪(Aicardi)综合征对于男性而言通常在子
宫内或出生后不久是致死性的，因此主要在女性中观察到。X连锁隐性病症也由X染色体上
的基因突变所引起。这一类型的病症的例子包括但不限于血友病A、迪谢内(Duchenne)肌
营养不良、红绿色盲、肌营养不良和雄激素性脱发。Y连锁病症由Y染色体上的突变引起。
其例子包括但不限于男性不育症和耳廓多毛症(hypertrichosis pinnae)。线粒体遗传，叉
称为母体遗传，适用于线粒体DNA中的基因。这一类型的病症的例子是Leber遗传性视神
经病变。

[0242] 遗传病症也可以是复杂的、多因子的或者多基因的。多基因遗传病可能与多基因的效应结合生活方式和环境因素有关。虽然复杂病症经常在家族中集中出现，但他们没有
明确的遗传模式。这使得难以确定人遗传获得这些病症或将这些病症遗传给后代的风险。
复杂病症也是难以研究和治疗的，因为引起大部分这些病症的具体因素还没有被确认。可
以用本发明的算法和方法诊断、表征和/或监测的多因子或多基因病症包括但不限于心脏
病、糖尿病、哮喘、孤独症、自身免疫性疾病如多发性硬化、癌症、纤毛疾病(ciliopathies)、腭裂、高血压、炎性肠病、精神发育迟滞和肥胖。

[0243] 可以用本发明的算法和方法诊断、表征和/或监测的其他遗传病包括但不限于1p36缺失综合征、21-羟化酶缺乏症、22q 11.2缺失综合征、47，XYY综合征、48，XXXX、49，XXXXX、无铜蓝蛋白血症(aceruloplasminemia)、II型软骨成长不全、软骨发育不全、急性
间歇性卟啉症、腺苷酸琥珀酸裂解酶缺陷、肾上腺脑白质营养不良、ALA缺陷性卟啉症、ALA
脱水酶缺陷、亚历山大病(Alexander disease)、黑尿酸尿症、α-1抗胰蛋白酶缺陷、阿耳
斯特雷姆(Alstrom)综合征、阿尔茨海默病(1、2、3和4型)、釉质形成不全、肌萎缩侧索
硬化、2型肌萎缩侧索硬化、4型肌萎缩侧索硬化、4型肌萎缩侧索硬化、雄激素不敏感综合
征、贫血、Angelman综合征、阿佩尔(Apert)综合征、共济失调毛细血管扩张、比尔-史蒂文
生皮肤回旋综合征(Beare-Stevenson cutis gyrata syndrome)、本杰明综合征、β地中
海贫血、生物素酶缺陷、Birt-Hogg-Dubé综合征、膀胱癌、布卢姆(Bloom)综合征、骨疾病、乳腺癌、CADASIL、屈肢骨发育不全(Camptomelicdysplasia)、卡纳万(Canavan)病、癌症、
乳糜泻、CGD慢性肉芽肿病、夏科-马里-图斯(Charcot-Marie-Tooth)病、1型夏科-马
里-图斯病、4型夏科-马里-图斯病、2型夏科-马里-图斯病、4型夏科-马里-图斯
病、科凯恩(Cockayne)综合征、科-勒二氏(Coffin-Lowry)综合征、II型和XI型胶原病
(collagenopathy)、结肠直肠癌、先天性输精管缺如、先天性双侧输精管缺如、先天性糖尿
病、先天性红细胞生成性卟啉症、先天性心脏病、先天性甲状腺功能减退、结缔组织病、考登(CoWden)综合征、猫叫样哭泣(Cri du chat)、克罗恩病、纤维性狭窄病(fibrostenosing)、克鲁宗(Crouzon)综合征、Crouzonodermoskeletal综合征、囊性纤维化、德格罗契(De
Grouchy)综合征、退行性神经病、登特(Dent)病、发育障碍、迪格奥尔格(DiGeorge)综合
征、V型远端脊髓性肌萎缩、唐氏综合征、侏儒症、埃勒斯-丹洛斯(Ehlers-Danlos)综合征、关节松弛型埃勒斯-丹洛斯(Ehlers-Danlos)综合征、经典型埃勒斯-丹洛斯综合征、皮肤
脆裂型埃勒斯-丹洛斯综合征、脊柱后凸侧弯型脉管型埃勒斯-丹洛斯综合征、红细胞生成
性原卟啉症、法布瑞氏(Fabry)病、面部损伤和病症、因子V Leiden血栓形成倾向、家族性
腺瘤性息肉病、家族性自主神经异常、范科尼(fanconi)贫血、FG综合征、脆性X染色体综
合征、弗里德赖希共济失调(Friedreich ataxia)、弗里德赖希氏共济失调、G6PD缺陷、半乳糖血症、戈谢(Gaucher)病(1、2和3型)、遗传性脑病、甘氨酸脑病、2型血色素沉着症、4型
血色素沉着症、丑角样鱼鳞病(Harlequin Ichthyosis)、头脑畸形、听力障碍和耳聋、儿童
听力问题、血色沉着病(新生儿、2型和3型)、血友病、肝红细胞生成性卟啉症、遗传性粪卟
啉症、遗传性多发性外生骨疣、遗传性压迫易感性神经病、遗传性非息肉性结肠直肠癌、高
胱氨酸尿症、亨延顿病、早年衰老综合征(Hutchinson-Gilford Progeria syndrome)、原发
性高草酸尿症、高苯丙氨酸血症、软骨形成不足、软骨发育不良、idic 15、色素失调症、婴儿型戈谢病、婴儿-发作上升型遗传性痉挛性瘫痪(infantile-onset ascending hereditary
spastic paralysis)、不百症、Jackson-Weiss综合征、朱伯特(Joubert)综合征、青少年原
发性侧索硬化、肯尼迪(Kennedy)病、Klinefelter综合征、Kniest发育不全、Krabbe病、
学习障碍(Learning disability)、Lesch-Nyhan综合征、脑白质营养不良、Li-Fraumeni
综合征、家族性脂蛋白脂酶缺陷、男性生殖器障碍、马方综合征、McCune-Albright综合征、McLeod综合征、家族性地中海热、MEDNIK、Menkes病、Menkes综合征、代谢障碍、β-球蛋
白型高铁血红蛋白血症、先天性高铁血红蛋白血症、甲基丙二酸血症、Micro综合征、小头
畸形、运动障碍、Mowat-Wilson综合征、粘多糖贮积病(MPS I)、Muenke综合征、肌营养不
良、Duchenne和Becker型肌营养不良症、Duchenne和Becker型肌萎缩症、肌强直性营养
不良、1型和2型肌强直性营养不良、新生儿血色病、神经纤维瘤病、神经纤维瘤病1、神经
纤维瘤病2、I型神经纤维瘤病、II型神经纤维瘤病、神经病、神经肌肉障碍、Niemann-Pick
病、非酮性高甘氨酸血症、非综合征型耳聋、常染色体隐性非综合征型耳聋、Noonan综
合征、成骨不全(I型和III型)、耳脊椎骨骺发育不良(otospondylomegaepiphyseal
dysplasia)、泛酸激酶-相关神经退行性变、Patau综合征(13染色体三体)、Pendred综
合征、Peutz-Jeghers综合征、Pfeiffer综合征、苯丙酮尿症、卟啉症、迟发性皮肤卟啉症、Prader-Willi综合征、原发性肺动脉高压、朊病毒病、早衰、丙酸血症、蛋白C缺陷、蛋白S
缺陷、假性戈谢病(pseudo-Gaucher disease)、弹性假黄瘤、视网膜病、视网膜母细胞瘤、视网膜母细胞瘤FA-弗里德赖希共济失调、Rett综合征、Rubinstein-Taybi综合征、SADDAN、
Sandhoff病、感觉和自主神经病III型、镰状细胞性贫血、骨骼肌再生、皮肤色素沉着异常、Smith Lemli Opitz综合征、语言和交流障碍、脊髓性肌萎缩、脊髓延髓肌萎缩、脊髓小脑共济失调、Strudwick型脊椎干骺端发育不良、先天性脊椎干骺端发育不良、Stickler综合
征、Stickler综合征COL2A1、Tay-Sachs病、四氢生物蝶呤缺陷、致死性发育不良、硫胺反
应性巨幼细胞性贫血伴糖尿病和感觉神经性耳聋、甲状腺病、Tourette综合征、Treacher
Collins综合征、X染色体三体综合征、结节性硬化、Turner综合征、Usher综合征、多样性
卟啉病、vonHippel-Lindau病、Waardenburg综合征、Weissenbacher-Zweymüller综合征、
Wilson病、Wolf-Hirschhorn综合征、着色性干皮病、X-连锁重度联合免疫缺陷、X-连锁铁
粒幼细胞性贫血和X-连锁脊髓延髓肌萎缩。

[0244] IX.商业方法

[0245] 如本文所述，术语客户或潜在客户是指可能使用分子谱分析企业(例如，实施本发明方法的企业)的方法或服务的个体或机构。本文描述的分子谱分析方法和服务的潜在
客户包括，例如患者、受试者、医师、细胞学实验室、健康护理提供者、研究人员、保险公司、政府机构例如医疗补助机构(Medicaid)、雇主或对实现用于诊断、监测和治疗癌症的更经
济或有效的系统感兴趣的任何其他机构。

[0246] 例如，所述各方可以利用分子谱分析结果来选择性地为可能从昂贵的药物或治疗性干预中获得最大益处的患者指定所述药物或治疗性干预，或鉴别不会从不必要地使用药
物或其他治疗性干预中受益或甚至可能受害的个体。

[0247] (i)销售方法

[0248] 本发明的分子谱分析企业的服务可以例如作为增强诊断和医护的方法销售给关心其健康的个体、医师或其他医学专业人员；例如作为为客户提供增强诊断的服务销售给
细胞学实验室；例如作为通过消除不当的治疗性干预而降低成本的方法销售给健康护理提
供者、保险公司和政府机构。销售给潜在客户的方法还包括将数据库访问权销售给试图找
到基因表达产物与疾病或病状之间的新相关性的研究人员和医师。

[0249] 销售方法可以包括面向潜在客户使用基于印刷品、广播、电视或因特网的广告。可通过特定媒介向潜在客户推销，例如，可通过在包括但不限于以下的商业杂
志和医学期刊中投放广告来向内分泌科医师推销：The Journal of the American
Medical Association、Physicians Practice、American Medical News、Consultant、
MedicalEconomics、Physician’s Money Digest、American Family Physician、Monthly
Prescribing Reference、Physicians’Travel and Meeting Guide、Patient Care、
Cortlandt Forum、Internal Medicine News、HospitalPhysician、Family Practice
Management、Internal Medicine WorldReport、Women’s Health in Primary Care、Family Practice News、Physician’s Weekly、Health Monitor、The Endocrinologist、Journal ofEndocrinology、The Open Endocrinology Journal 以及The Journal ofMolecular
Endocrinology。销售也可以采取与医学专业人员合作的形式，从而使用本发明的方法和服
务进行实验，并在一些情况下公开结果或寻求进一步的研究资助。在一些情况下，销售方
法可包括使用医师或医学专业人员数据库，例如，美国医学会(AMA)数据库，来确定联系信
息。

[0250] 在一个实施方案中，销售方法包括与细胞学测试实验室合作，从而向不能使用常规方法明确诊断其样品的客户提供分子谱分析服务。

[0251] (ii)使用计算机的方法

[0252] 分子谱分析企业可以在本发明方法中使用一台或多台计算机，例如图16中所示的计算机800。计算机800可用于管理客户和样品信息(例如样品或客户追踪)、数据库管
理、用于分析分子谱数据、用于分析细胞学数据、储存数据、发帐单、销售、报告结果或储存结果。该计算机可以包括监视器807或用于显示数据、结果、帐单信息、销售信息(例如人
口统计数据)、客户信息或样品信息的其他图形界面。该计算机也可以包括用于数据或信息
输入的装置815、816。该计算机可以包括处理单元801和固定介质803或可移动介质811
或其组合。可由用户以物理邻近计算机的方式例如经由键盘和/或鼠标访问该计算机，或
由不一定接触该物理计算机的用户822通过通信媒介805例如调制解调器、因特网连接、电
话连接或者有线或无线通信信号载波访问该计算机。在一些情况下，该计算机可以连接到
服务器809或其他通信装置，从而将信息从用户传递到计算机或从计算机传递到用户。在
一些情况下，用户可以通过通信媒介805将从计算机获得的数据或信息储存在介质例如可
移动介质812上。可以预见与本发明有关的数据可在这样的网络或连接上传输，从而被一
方接收和/或阅览。接收方可以是但不限于个体、医疗保健提供者或医疗保健管理者。在
一个实施方案中，计算机可读介质包括适合传输生物样品的分析结果(比如，基因表达谱
或其他生物特征)的介质。所述介质可包含关于受试者的基因表达谱或其他生物特征的结
果，其中使用本文所述的方法导出此结果。

[0253] 图1C提供了用于根据本发明方法进行分析的系统的示例构架。该系统包括许多用于处理、生成、存储和输出各种文件和信息的组件。在这个示例中，该过程使用命令行接
口208起始，命令行接口208的命令经由调用接口205传输到管理程序204。管理程序204
协调该系统的功能以执行该过程的分析和比较步骤。模块1201所示的分析的第一步包括
通过比较甲状腺组织样品的基因表达数据文件(“CEL”文件)和相应的校验和文件而对待
分析数据进行质量控制检查。如果数据完整性得到确认，则模块1201根据本领域已知的方
法，比如通过利用Affymetrix Power Tools(APT)程序套件，对基因表达数据进行标准化和
汇总。该系统还可包括APT处理所需的文件(例如，.pgf文件、.clf文件和其他文件)。模
块1201也可应用于训练样品集所用的基因表达数据(“训练CEL文件”)，所述样品集可进
行分组以生成包含生物标志物集的分类器，其中对于每个生物标志物集的基因表达数据包
含与一种或多种组织类型的存在相关的一个或多个参考基因表达水平。来自模块1201的
基因表达数据接下来由模块2202处理，模块2202使用统计软件环境“R”来比较分类器和
甲状腺组织样品的基因表达数据。每个分类器用于建立用于评估样品基因表达数据为匹配
或不匹配的规则。用于比较的分类器集中的每个分类器相继应用于基因表达数据。由模块
2202进行的比较的结果由模块3203处理，从而通过生成“测试结果文件”来报告结果，所述
“测试结果文件”可包含针对每个CEL分析文件的CEL文件名、测试结果(例如，良性、疑似
或特定组织类型)和/或注释(例如，使用的分类器、发现的匹配、遇到的错误或有关比较
过程的其他详细信息)。在一些实施方案中，如果样品被评估为在一系列比较的任一点与任
一分类器匹配，则报告“疑似”结果。在一些实施方案中，如果在样品基因表达数据和任何
分类器之间未发现匹配，则报告“良性”结果。模块3203也分别生成将数据处理和分析的
每一步所发生的事件编入目录的系统日志、运行日志和存储库文件，来自分析的所有阶段
的输出(例如，数据完整性检查和任何错误信息)，以及每一步的结果的表格。所述日志和
存储库文件可用于判断比较过程中的错误，比如，如果数据分析过程无法运行到完成和生
成结果。模块3203可参考包含错误信息列表的系统信息文件。这个示例构架的系统也可
包含用于避免同时对相同CEL文件进行多重分析的目录锁定组件205，以及包含关于文件
位置的信息(例如，可执行文件和CEL文件)的config(配置)文件处理程序207，从而帮
助管理系统进程的工作流程的执行。

[0254] 分子谱分析企业可出于以下一种或多种目的将样品信息输入数据库中：库存追踪、分析结果追踪、订单跟踪、客户管理、客户服务、记帐和销售。样品信息可以包括但不限于：客户名、唯一的客户标识、客户相关的医学专业人员、指示的一种或多种分析、分析结
果、充足性状态、指示的充足性测试、个体医疗史、初步诊断、疑似诊断、样品史、保险提供者、医疗提供者、第三方测试中心或适于在数据库中储存的任何信息。样品史可以包括但不
限于：样品存在时间、样品类型、获得方法、储存方法或运输方法。

[0255] 客户、医学专业人员、保险提供者、第三方或分子谱分析企业授权访问的任何个体或机构可使用数据库。数据库访问可以采取电子通讯例如计算机或电话的形式。可通过中
介例如客户服务代表、商业代表、顾问、独立测试中心或医学专业人员访问数据库。数据库
访问或样品信息例如分析结果的可利用性或级别可根据提供或待提供的产品和服务的费
用支付而改变。数据库访问或样品信息的级别可以限制为遵从患者或用户保密性的普遍接
受的或合法的要求。分子谱分析公司可以就一种或多种以下服务向个体、保险提供者、医学
提供者或政府机构收费：样品接收、样品储存、样品制备、细胞学测试、分子谱分析、将样品信息输入数据库和更新或数据库访问。

[0256] (iii)商业流程

[0257] 在一些实施方案中，可由内分泌科医师可能通过细针抽吸来获得例如甲状腺细胞的样品。样品进行常规细胞学染色过程。所述常规细胞学染色提供四种不同的可能的初步
诊断：非诊断性的、良性的、不明确或疑似的或恶性的。然后分子谱分析企业可以分析如本
文所述的基因表达产物水平。所述基因表达产物水平的分析，分子谱分析，可以导致恶性或
良性的明确诊断。在一些情况下，仅样品的子集通过分子谱分析进行分析，例如在常规细胞
学检查期间提供不明确的和非诊断性结果的那些样品。

[0258] 在一些情况下，分子谱分析结果证实常规细胞学测试结果。在其他情况下，分子谱分析结果不同。在结果不同的这些情况下，可以进一步测试样品、再检查数据或可将分子谱
分析结果或细胞学分析结果作为正确的分类、表征或诊断。分类、表征或诊断为良性也可以
包括尽管不是恶性癌症但可能指示进一步的监测或治疗的疾病或病状(例如，HA)。类似
地，分类、表征或诊断为恶性也可以包括对癌症的具体类型(例如，HC)或与疾病或病状有
关的特定代谢或信号传导途径的分类、表征或诊断。分类、表征或诊断可以指示治疗或治疗
性干预，例如放射性碘消融术、外科手术、甲状腺切除术、施用一种或多种治疗剂，或进一步监测。

[0259] 在一些实施方案中，施用一种或多种治疗剂包括施用一种或多种化疗剂。一般而言，“化疗剂”指用于肿瘤治疗的任何药剂。“化疗”的意思是通过各种方法(包括静脉
内、经口、肌肉内、腹膜内、膀胱内、皮下、经皮、含服或者吸入或以栓剂形式)向癌症患者施用一种或多种化疗药物和/或其他药剂。在一些实施方案中，所述化疗剂选自有丝分
裂抑制剂、烷化剂、抗代谢物、嵌入抗生素、生长因子抑制剂、细胞周期抑制剂、酶、拓扑异构酶抑制剂、生物反应调节剂、抗激素、血管生成抑制剂和抗雄激素。非限制性实例是化
疗剂、细胞毒性药物和非肽类小分子，如Gleevec(甲磺酸伊马替尼)、Velcade(硼替佐
米)、Casodex(比卡鲁胺)、Iressa(吉非替尼)和阿霉素(Adriamycin)以及许多化疗
TM
剂。化疗剂的非限制性实例包括：烷化剂，例如噻替派和环磷酰胺(CYTOXAN )；烷基磺
酸酯，例如白消安、英丙舒凡、哌泊舒凡；氮丙啶类，例如，苯并多巴(benzodopa)、卡波醌、meturedopa和uredopa；乙烯亚胺和甲基蜜胺，包括六甲蜜胺、三乙撑蜜胺、三乙撑磷酸胺、三亚乙基硫代磷酰胺和三羟甲基蜜胺；氮芥，例如，苯丁酸氮芥、chlomaphazine、氯代磷酰胺、雌莫司汀、异环磷酰胺、氮芥、盐酸氧化氮芥、美法仑、新氮芥、胆甾醇对苯乙酸氮芥、泼尼莫司汀、曲磷胺、乌拉莫司汀；亚硝基脲，例如，卡莫司汀、氯脲菌素、福莫司汀、洛莫司汀、尼莫司汀、雷莫司汀；抗生素，例如，阿克拉霉素、放线菌素、authramycin、重氮丝氨酸、博TM
来霉素、放线菌素C、卡奇霉素、carabicin、洋红霉素、嗜癌菌素、Casodex 、色霉素、放线菌素D、柔红霉素、地托比星、6-重氮-5-氧代-L-正亮氨酸、多柔比星、表柔比星、依索比
星、伊达比星、麻西罗霉素、丝裂霉素、霉酚酸、诺拉霉素、橄榄霉素、培洛霉素、甲基丝裂霉素、嘌呤霉素、三铁阿霉素、罗多比星、链黑菌素、链脲菌素、杀结核菌素、乌苯美司、净司他丁、佐柔比星；抗代谢物，例如，甲氨蝶呤和5-氟尿嘧啶(5-FU)；叶酸类似物，例如，二甲
叶酸、甲氨蝶呤、蝶罗呤、三甲曲沙；嘌呤类似物，例如，氟达拉滨、6-巯基嘌呤、硫咪嘌呤、硫鸟嘌呤；嘧啶类似物，例如，安西他宾、阿扎胞苷、6-氮杂尿苷、卡莫氟、阿糖胞苷、二脱氧尿苷、去氧氟尿苷、依诺他滨、氟尿苷；雄激素，例如，卡芦睾酮、丙酸屈他雄酮、环硫雄醇、美雄烷、睾内酯；抗肾上腺素，例如，氨鲁米特、米托坦、曲洛司坦；叶酸补充物，例如，亚叶酸(frolinic acid)；醋葡醛内酯；醛磷酰胺糖苷；氨基酮戊酸；安吖啶；bestrabucil；比
生群；依打曲沙；defofamine；地美可辛；地吖醌；elfomithine；依利醋铵；依托格鲁；硝酸镓；羟基脲；香菇多糖；氯尼达明；米托胍腙；米托蒽醌；莫哌达醇；尼曲吖啶；喷司他丁；蛋TM
氨氮芥；吡柔比星；鬼臼酸2-乙基酰肼；丙卡巴肼；PSK.R ；雷佐生；西佐喃；螺旋锗；替
奴佐酸；三亚胺醌；2，2′，2″-三氯三乙胺；乌拉坦；长春地辛；达卡巴嗪；甘露莫司汀；
二溴甘露醇；二溴卫矛醇；哌泊溴烷；gacytosine；阿拉伯糖苷(“Ara-C”)；环磷酰胺；塞TM
替派；紫杉醇类，例如，紫杉醇(TAXOL ，Bristol-Myers Squibb Oncology，Princeton，
TM
N.J.)和多烯紫杉醇(TAXOTERE ，Rhone-Poulenc Rorer，Antony，France)；视黄酸；埃
斯波霉素；卡培他滨；以及任何以上药物的药学上可接受的盐、酸或衍生物。也包括作为
合适的化疗细胞调节物的抗激素药剂，其用于调节或抑制激素对肿瘤的作用，比如抗雌激
TM
素，例如，包括他莫昔芬(Nolvadex )、雷洛昔芬、抑制4(5)-咪唑的芳香酶、4-羟基他莫
昔芬、曲沃昔芬、凯奥昔芬、LY 117018、奥那司酮和托瑞米芬(法乐通(Fareston))；以及
抗雄激素类，例如，氟他胺、尼鲁米特、比卡鲁胺、亮丙瑞林和戈舍瑞林；苯丁酸氮芥；吉西他滨；6-硫鸟嘌呤；疏嘌呤；甲氨蝶呤；铂类似物，例如顺铂和卡铂；长春碱；铂；依托泊苷(VP-16)；异环磷酰胺；丝裂霉素C；米托蒽醌；长春新碱；长春瑞滨；诺维本；诺消灵；替尼泊苷；道诺霉素；氨基蝶呤；希罗达；伊班膦酸盐；喜树碱-11(CPT-11)；拓扑异构酶抑制剂RFS 2000；二氟甲基鸟氨酸(DMFO)。如果需要，本发明的组合物或药物组合物可与常开的
抗癌药物(例如，
和 )联合使用。

[0260] X1.试剂盒

[0261] 分子谱分析企业可以提供用于获得合适的样品的试剂盒。在一些实施方案中，所述试剂盒包括容器、用于获得样品的装置、用于储存样品的试剂以及指导使用所述试剂盒
的说明书。图19描绘了试剂盒203的一个实施方案，其包括容器202、用于获得样品的装置
200、用于储存样品的试剂205以及指导使用所述试剂盒的说明书201。在另一个实施方案
中，所述试剂盒还包含用于进行分子谱分析的试剂和材料。在一些情况下，所述试剂和材料
包括用于分析由分子谱分析方法所产生的数据的计算机程序。在又一些情况中，所述试剂
盒包含储存生物样品并将其运送到测试设施例如分子谱分析企业或第三方测试中心的装
置。

[0262] 分子谱分析企业也可以提供用于进行分子谱分析的试剂盒。所述试剂盒可以包含用于提取蛋白质或核酸的材料，包括任何或所有必要的缓冲剂和试剂；以及用于分析蛋白
质或核酸的水平的材料，包括对照和试剂。所述试剂盒还可以包含软件或获得并使用软件
以分析使用本发明方法和组合物提供的数据的许可。
实施例
实施例1：来自临床甲状腺样品分析的分类组

[0263] 用Affymetrix Human Exon 1.0ST微阵列检查前瞻性临床甲状腺FNA样品(n＝248)和术后甲状腺组织(n＝220)，目的是鉴定在良性样品和恶性样品之间mRNA表达显著
不同的基因。

[0264] 使用Affymetrix软件提取、标准化和汇总来自大致650万个探针的强度数据。随后在特征选择和分类中使用大约280,000个核心探针集。所用模型包括LIMMA(用于特征
选择)和SVM (用于分类)(Smyth 2004)。在几个单独分析中使用LIMMA和算法的组合来
鉴定每个分类组中使用的排名前列的基因。

[0265] 虽然基因到转录物簇标识符(TCID)的注释和映射是不断演化的，但是组成TCID的探针和探针集中的核苷酸序列不会改变。而且，多个重要的TCID不会映射任何已知基
因，但它们是甲状腺恶性肿瘤的分类中同等重要的生物标志物。利用目前映射到每一个的
TCID和基因来描述结果(Affymetrix注释文件：HuEx-1_0-st-v2.na30.hg19.transcript.
csv)。

[0266] 用于训练分类器的样品群组：1

[0267] OM-表示“其他恶性肿瘤”，并且由分到同一组的甲状腺来源的非常罕见的亚型(例如，转移到淋巴结的组织)组成。

[0268] 仅使用来自术后甲状腺组织群组的样品获得MTC、BCA、MMN、PTA和RCC的分类组。每个亚型与所有其他组合亚型进行比较，例如23种样品与群组中所剩下的197种样品进行
比较。

[0269] 通过组合来自组织和FNA群组的这两种亚型的样品获得HA/HC分类组。HA/HC组合样品然后与所有其他组合亚型进行比较。通过组合几个比较“良性”和“恶性”样品子集
的子分析，获得“良性/疑似”分类组。每个分类组中的基因(图3、图4)可用于准确分类
临床甲状腺FNA，比如通过本领域已知的方法。
实施例2：甲状腺结节的分子谱分析

[0270] 个体注意到其甲状腺上的肿块。所述个体咨询他的家庭医生。家庭医生决定从所述肿块获得样品并对它进行分子谱分析。所述医生使用试剂盒通过细针抽吸获得样品，进
行充足性测试，将样品储存在基于液体的细胞学溶液中，并将它送至分子谱分析企业。任选
地，医生可让另一方或实验室进行细胞学检查。如果细胞学检查得出不肯定的诊断，则将样
品的剩余部分送至分子谱分析企业或第三方。分子谱分析企业将样品分开，一部分用于细
胞学分析，剩余样品则用于从样品中提取mRNA，分析所提取的mRNA样品的质量和适用性，
并分析图4所列基因的子集的表达水平和替代外显子使用。任选地，与分子谱分析企业没
有关系的第三方可提取mRNA并且/或者测定特定生物标志物的表达水平。特定基因表达
产物谱取决于样品类型、医生的初步诊断以及分子谱分析公司。

[0271] 分子谱分析企业使用通过实施例1描述的方法获得的分类系统来分析数据，并向个体的医生提供得到的诊断。所述结果提供1)进行谱分析的基因表达产物的列表，2)谱分
析的结果(例如相对于内标标准化的表达水平，比如总mRNA或很好地表征的基因产物(例
如微管蛋白)的表达)，3)匹配类型的正常组织所期望的基因产物表达水平，以及4)基于
基因产物表达水平针对个体的诊断和推荐治疗。分子谱分析企业就所提供的产品和服务向
个体的保险提供者收费。
实施例3：甲状腺组织中的Hurthle细胞腺瘤和Hurthle细胞癌的鉴定

[0272] 使用Affymetrix Human Exon 1.0ST微阵列检查术后甲状腺组织样品和临床甲状腺FNA活组织检查样品，目的是鉴定在良性和恶性样品之间mRNA表达显著不同的生物标志
物。这些生物标志物然后用于使用相同术后组织样品群组来训练分子分类器。在使用组织
样品训练算法期间所学习的信息(包括但不限于针对每个甲状腺亚型的生物标志物选择)
与使用临床FNA样品训练算法的下一步骤相结合，使得可保持FNA中的生物标志物表达的
高维度性质并用其训练优化的或下一代分子分类器。通过结合从组织和临床FNA学习的信
息，证明所述分子分类器是Hurthle细胞腺瘤和Hurthle细胞癌的准确分子诊断工具。用
于训练组织分类器的样品群组不包含任何Hurthle细胞腺瘤样品，而用于训练FNA分类器
的样品群组不包含任何Hurthle细胞癌样品。因此，每个分子分类器训练集在如何分类一
种亚型或其他亚型方面有所不足(并且不能学习)，但是使用两个集训练的分类器能够克
服组织和FNA训练样品集的个体局限性，从而正确分类这两者。使用HA(n＝2)和HC(n＝
2)的小群组对优化的FNA分类器进行的独立验证获得了100％的分类准确度。这表明：当
类别中的一员未在用于训练分类器的样品集中表示时，分类器经训练可准确分类甲状腺组
织样品。

[0273] 使用Affymetrix软件提取、标准化和汇总来自位于AffymetrixHuman Exon1.0ST微阵列上的大约650万个探针的强度数据。随后在特征选择和分类中使用大
约280,000个核心探针集。使用LIMMA模型进行特征/生物标志物选择，而随机森林
和SVM则用于分类(例如，见Smyth 2004，Statistical applications in genetics
and molecularbiology 3：Article 3；和Diaz-Uriarte and Alvarez de Andres 2006，
BMCBioinformatics，7(3))。使用数据的随机子集进行训练、分类和交叉验证的反复循环。
排名前列的特征在使用本实施例所描述的分类方案进行的至少三个独立分析中得到鉴定。
本实施例中的特征/生物标志物用转录物簇标识符(TCID)以及用可获得的基因名来指代。
一些TCID可能不对应于已知基因，这部分取决于基因定位和鉴定的进程。图8中的表格列
出了本实施例中所鉴定的生物标志物。
实施例4：使用高维度基因组数据的分子分类

[0274] 本实施例描述了对包含多种亚型的363种甲状腺结节中的多于247,186种转录物的mRNA表达分析。从来自切除的甲状腺结节的外科手术组织开始，鉴定能区分良性和恶性
结节的差异表达转录物。在178种组织样品上训练的分类器用于测试一组独立的细针抽吸
物(FNA)。在一组137种预先收集的甲状腺FNA上再训练算法会导致性能增强，使用30倍
的交叉验证以及在50％包含不确定细胞病理学的一组独立FNA上的测试来进行评估。FNA
训练的算法能够分类已经发生大量RNA降解的RNA，并且在血液存在的情况下也能分类。
该测试的初步性能特征显示96％(95％C.I.82-99％)的阴性预测值(NPV)和84％(95％
C.I.82-99％)的特异性。大多数恶性FNA容许稀释到20％。

[0275] 标本和RNA分离、扩增和微阵列杂交

[0276] 在本实施例中使用的前瞻性FNA样品是1)在门诊临床地点体内抽吸的，2)在施用全身麻醉之后，但在外科手术切除之前术前抽吸的，或者3)在手术切除之后立即离体抽吸
的，然后直接置于保护RNA的防腐剂溶液(Qiagen)中并在-80℃下冷冻保存。通过目测采
用4分制标准对预先收集的FNA的血污进行打分。这个标准是基于对防腐剂溶液与指定参
考样品相比的红/棕显色和透明度的评估而开发的。0分表示无显色且完全透明；3分表示
深红/棕色且不透明。术后甲状腺组织在切除后立即快速冷冻，并保存在-80℃下。从收集
点获得细胞学和术后组织病理学数据(当可获得时)。为了验证术后病理学结果，由病理学
专家再次检查切片(slide)，病理学专家然后判定用于分类训练的黄金标准亚型标签。组织
训练集中的标本包括比例为1∶1的良性和恶性样品，其由23例结节性增生(NHP)、40例
淋巴细胞性甲状腺炎(桥本氏甲状腺炎)(LCT)、26例滤泡性腺瘤(FA)、23例Hurthle细胞
癌(HC)、19例滤泡性癌(FC)、21例乳头状甲状腺癌的滤泡变型(FVPTC)和26例乳头状甲状
腺癌(PTC)组成。FNA训练集中的标本包括96例(70％)良性和41例(30％)恶性结节，
由67例NHP、18例LCT、9例FA、2例HA、3例FC、4例FVPTC和34例PTC组成。继训练集之
后，提前收集独立FNA测试集(n＝48)，并且其包含如通过FNA细胞病理学确定的50％比
例的不确定样品。

[0277] 使用AllPrep小型试剂盒(Qiagen)从临床FNA提取RNA。使用标准的苯酚-氯仿抽提和乙醇沉淀法纯化来自外科手术甲状腺组织的RNA。使用Nanodrop ND-8000分光光度计
(Thermo Scientific)、Bioanalyzer Picochip系统(Agilent Technologies)和Quant-IT
RNA试剂盒(Invitrogen)测定RNA的量和完整性。然后依照生产商的方案(Affymetrix)，
使用NuGEN WT Ovation扩增系统扩增50或25纳克的总RNA，并与Affymetrix Human Exon
1.0ST阵列杂交，接着洗涤、染色和扫描。

[0278] 使用1.10.2版APT(Affymetrix Power Tool)处理、标准化和汇总.CEL文件。杂交后质量控制包括高于背景的检测百分比(DABG)和对照探针集的外显子-内含子信号分
离(AUC)。使用来源于训练集的分位数标准化略图(quantile normalization sketch)和
RMA特征效果用APT逐个标准化来自所述独立测试集的每个.CEL文件。

[0279] 训练模型、分类和生物标志物选择

[0280] 使用来自外显子阵列的转录物簇强度汇总作为模型中的特征来将样品分类为良性和恶性类别。使用LIMMA线性模型方法(例如，参见Smyth 2004)作为30倍交叉验证过程
的内环(例如，参见Smyth2004；以及Varma和Simon 2006，BMC Bioinformatics 7(91))来
实现对区分良性和恶性类别的标志物的选择。给定一组提供信息的标志物，训练线性支持
向量机(SVM)模型以使用R包e 1071进行二元分类(例如，参见Dimitriadou等人.2009，
Misc Functions of the Deparment ofStatistics(e1071)；以及Cortes和Vapnik 2005，
Machine Learning20：273-297)。为了估计该模型的性能，对标志物选择和模型估计进行交
叉验证以避免误差估计中的偏差。为了选择模型中的特征的最佳数目，根据模型中的标志
物数目估计分类性能。给定5％的固定假阴性错误率，将性能定义为假阳性率。甲状腺髓样
癌(MTC)的生物标志物是单独开发的。在分析开始时所应用的简单线性算法触发了对MTC
样品的分类，从而回避了上述分子分类器。除了使用从使用组织和FNA样品进行的三个前
述独立分析中选择的生物标志物的重叠以外，严格地在如上所述的FNA样品上建立FNA训
练模型。当训练分类器时，使用S形转换评估SVM得分向概率空间的映射。

[0281] 为了确定分类预测截止值，对交叉验证的预测得分重新取样以表示在预先FNA收集中可见的亚型的分布。目标分布包含大约30％的恶性样品，与细胞病理学观察到的不确
定FNA的报告频率一致(3-8，23)。重新取样的数据集的组成包含以下亚型：27.6％NHP、
29.0％FA、9.5％LCT、5.4％HA、1.8％FC、9％FVPTC、3.2％HC、0.5％MTC和14％PTC。因
为在FNA训练集中没有获得HC亚型，所以在HC亚型上发生的错误从FC库取样。这代表对
我们区分HC的能力的保守估计，因为之前基于甲状腺组织的分析已显示在FC和HC亚型之
间具有可比较的错误率。在重新取样步骤之后，以0.01的增量从0.1到0.2检查截止值的
定位。在每个阈值处生成灵敏度、特异性、PPV和NPV。选择取得93％以上的灵敏度、95％
以上的NPV和至少70％的特异性的阈值；当前FNA预测截止值为0.15。因此，指定得分小
于0.15的样品为“良性的”，而指定得分大于或等于0.15的样品为“疑似的”。

[0282] 细胞异质性和混合物建模

[0283] 滤泡含量(FOL)的标志物来源于文献并且如下：DIO1、DIO2、EGFR、KRT19、KRT7、MUC1、TG和TPO(24)。淋巴细胞标志物用于估计淋巴细胞含量(LCT)，它们为CD4、FOXP3、
IFNG、IGK@、IGL@、IL10、IL2、IL2RA、IL4和KLRB 1(例如，参见Paul 2008，Fundamental Immunology，xviii：1603)。测定每个样品中的每种标志物的强度，然后在每个标志物集中
对其进行平均，并且将平均滤泡信号(FOL)对平均淋巴细胞信号(LCT)作图，以生成显示在
训练中所用的所有组织样品和所有FNA样品内的这两种组分之间的权衡(trade-off)的曲
线。

[0284] 通过使用以下PTC∶NHP比例-100∶0、40∶60、20∶80、0∶100-组合总RNA，生成术前收集的PTC和NHP FNA(各来自一名患者)的体外混合物。所有稀释比例一式三
份进行处理并进行至结束，包括如上所述的微阵列杂交。来自两种来源的计算机建模基于
来自个体样品的信号在初始强度空间中的线性加法混合。简而言之，对于由标准化的和对
数转换的强度向量YA和YB代表的任意两种样品A和B，混合物样品中的预期信号Yc建模
为：
，，Y-c.＝log-2.，α*，2-，Y-A..+，1-α.*，2-，Y-B...，
Yc＝log2(\alpha*2^YA+(1-\alpha)*^YB)
其中α和(1-α)分别代表样品A和B在混合物中的比例。为了验证所述模拟，利用
来自体外混合实验的纯NHP和PTC样品的观测信号，以从0至1以0.01的增量变化的PTC
比例生成预测谱。

[0285] 应用计算机模拟来估计分类器对LCT和NHP背景的影响的容限(tolerance)。利用上述方程式，我们模拟了包含39个PTC样品之一和59个良性样品(7个LCT和52个NHP
样品)之一的混合物的强度谱。在对于如上所述的淋巴细胞标志物具有高平均强度的样品
中选择LCT样品。相反，在对于这些标志物具有低平均强度的样品中选择NHP样品。执行
该过滤步骤以确保这两个库中的每一个中的LCT和NHP信号均具有良好代表性。对于每对
良性和恶性样品，以从0到1以0.01增量变化的PTC比例完成计算机混合，从而导致每对
有100个模拟混合物谱。然后用分类器对所述计算机混合物评分，以便可针对所有混合水
平而记录“疑似”或“良性”的预测判定。为达到此目的，在排除混合的纯样品对的基础上
建立所述分类器，以估计对稀释的真正的“样品外”容限。考虑到对每个混合对100种估计
混合物的分类器预测，估计所述分类器判定从“疑似”转换到“良性”时的PTC信号的混合
比例，从而有效地表征了所述分类器对稀释的容限。

[0286] 基因富集分析

[0287] 通过FDR p-值(≤0.05)和绝对效应量(≥0.5)过滤由良性与恶性FNA的LIMMA比较而产生的排名前列的差异表达基因子集(n＝980)，然后使用GeneTrail软件(例如，
见Backes等人.2007，Nucleic AcidsResearch 35：W186-192)对其进行过度/不足代表分
析(ORA)。路径分析包括在KEGG数据库中具有可以获得的注释的测试集(n＝306)和参考
集(n＝5,048)(例如，见Kanehisa等人.2010，Nucleic Acids Research38：D355-360)。
基因本体分析使用更大的测试集(n＝671)和参考集(n＝11,218)，并且局限于GO数据库
中的人工生成的注释(例如，见Ashburner等人.2000，Nature Genetics 25：25-29)。在
Benjamini和Hochberg(FDR)校正后，使用阈值为p＜0.05的Fisher精确检验来检查显著
性。

[0288] 利用FNA样品对组织模型的性能评估

[0289] 首先使用Affymetrix Human Exon 1.0ST阵列从一组178个外科手术甲状腺组织样品生成微阵列数据，该阵列在基因和外显子水平上测定所有已知的和预测的人类转录
物，从而提供所述样品的综合转录谱。所述样品集包括最常见的良性甲状腺结节亚型：结节
性增生(NHP)、淋巴细胞性甲状腺炎(LCT)、滤泡性腺癌(FA)，以及恶性亚型，如乳头状甲状
腺癌(PTC)、乳头状甲状腺癌的滤泡变型(FVPTC)、滤泡性癌(FC)和Hurthle细胞癌(HC)。
也开发出了用于准确鉴定甲状腺髓样癌(MTC)的标志物，所述鉴定由以下步骤组成：在开
始分析时应用使用较小标志物集的简单线性算法，与用于区分更为常见的甲状腺FNA亚型
的算法分开。

[0290] 在组织样品上实现机器学习方法以训练分子分类器，并且在对几种分析方法进行评价之后，选择用于分类的支持向量机(SVM)方法(例如，见Cortes和Vapnik 2005)。使
用30倍交叉验证来估计假阳性和假阴性错误率。作为假阳性率函数的真阳性率(1-假阴
性率)生成了曲线下面积(AUC)为0.9的受试者工作特征(ROC)曲线(图9A中的黑线)。
为了代表不确定组中的恶性样品的真正普及度，进行重新取样以获得包含大约30％的恶性
样品的目标亚型分布。重新取样的ROC曲线的AUC为0.89(图9A中的灰线)。然后用这
些参数和模型测试一组独立的FNA以确定这种性能是否适用于看不见的数据集。具有不确
定的细胞病理学和已知外科病理学诊断的24种FNA的测试集与通过细胞病理学和已知的
外科病理学诊断而诊断为良性或恶性的另外24种FNA合并，组成48个样品的独立测试集。
图11的表中描述了所述样品集的组成。所述组织训练的分类器的性能在独立FNA上测试时
有所降低，对于48种FNA的较大集来说，具有92％(95％C.I.68-99％)的灵敏度和58％
(95％C.I.41-73％)的特异性(图10)。对于24种FNA的仅不确定的子集的性能与交叉
验证的性能相似(图10)。不希望束缚于理论，组织训练的分类器对于FNA的较低性能可能
是由以下几个原因引起的：算法过度拟合、用于独立测试的样本容量小、或组织样品和FNA
的生物学或技术性质有根本差异。首先通过确保我们的分析中所用的两种样品类型之间不
存在RNA质量差异，其次通过检查作为变量的细胞异质性，我们解决了第三种可能性。前两
种可能性在本实施例的后面解决出。

[0291] 图9示出了在术后甲状腺组织或FNA上训练的分类器的性能。在图9A中，ROC曲线使用30倍交叉验证测量了作为特异性(1-假阳性率)函数的组织分类器的灵敏度(真
阳性率)。生成了两个曲线，一个显示在没有调节亚型普及度的情况下在训练集上的性能
(黑色)，而第二个(灰色)调节了亚型错误率用以反映发表的亚型普及频率。曲线下面积
(AUC)为0.9(黑色曲线)或0.89(灰色曲线)。在图9B中，示出了在FNA上训练的分类器
的性能。上文和图11的表中描述了这两个训练集。这两个曲线的AUC为0.96。

[0292] 图10示出了组织训练的分子分类器和FNA训练的分子分类器的比较，以及它们在两个独立测试集上的性能。提供了组织训练的分类器和FNA训练的分类器在两个独立数据
集上的灵敏度(图10A)和特异性(图10B)。“不确定”表示具有不确定的细胞病理学的一
组24个FNA样品，而“B/M/不确定”包括具有良性、恶性或不确定的细胞病理学的一组48
个FNA样品。以95％的Wilson置信区间显示点估计。
图10C提供了两个独立数据集的亚型分布和针对每个样品的分类器预测(良性或疑
似)。外科病理学标签的缩写如下：NHP，结节性增生；LCT，淋巴细胞性甲状腺炎；FA，滤泡性腺癌；BLN，良性淋巴结；PTC，乳头状甲状腺癌；FVPTC，乳头状甲状腺癌的滤泡变型；HC，Hurthle细胞癌；以及MLN，恶性淋巴结。

[0293] 图11提供了一个表格，显示通过专家术后组织病理学检查所定义的，按照亚型排列的，训练和测试算法的过程中使用的样品的组成。样品的子集不具有通过表中值的上标
而指示的术后组织病理学标签，所述标签如下：(a)68/96、(b)6/34和(c)4/41。外科病理学
标签在表中的缩写如下：FA，滤泡性腺癌；FC，滤泡性癌；FVPTC，乳头状甲状腺癌的滤泡变型；HA，Hurthle细胞腺瘤；LCT，淋巴细胞性甲状腺炎；NHP，结节性增生；PTC，乳头状甲状腺癌；BLN，良性淋巴结；MLN，恶性淋巴结。

[0294] 为了评估组织和FNA间的细胞异质性，测量了已知存在于甲状腺滤泡细胞和淋巴细胞中的基因，并且基于作为平均淋巴细胞含量标志物函数的所有滤泡含量标志物的平均
信号，利用该测量生成每个样品的复合量度。选择在良性与恶性结节中未差异表达的标志
物。这种复合量度在FNA样品(图12B)中比在外科手术组织样品(图12A)中具有明显
更高的可变性。所述数据突出了解释生物标志物发现中的细胞异质性的值。图12尤其提
供了外科手术组织(图12A；n＝178)和FNA(图12B；n＝137)中滤泡(FOL)和淋巴细胞
(LCT)综合得分的比较。滤泡细胞标志物的平均信号强度随淋巴细胞标志物的平均信号强
度增强而降低。在FNA中的滤泡细胞含量和淋巴细胞背景之间的这种权衡大幅高于在组织
中的这种权衡。

[0295] 在FNA样品上运行FNA模型

[0296] 从美国20多个诊所预先收集的临床甲状腺FNA群组(n＝960)，其中的137例所对应的外科病理学可以在包含普遍的和罕见的甲状腺亚型的FNA上获得。图11显示了这
个训练集的组成。来自接受手术切除的所有患者的组织病理切片首先由外科病理学家审
查，如果有的话，接下来则由两个专家组成的小组进行二次审查，目的是裁定黄金标准分类
和亚型训练标签。来自这个群组的全基因组表达数据用于开发第二代分类器，并在FNA上
训练，以达到期望的临床性能。首先，我们用30倍交叉验证(类似于用于组织分类器的方
法，见图9A)估计了分类器性能。交叉验证ROC曲线(作为假阳性率的函数的分类器灵敏
度)对于“原样”的训练数据具有0.96的AUC，而当重新取样以解释不确定群体中的亚型普
及度时具有0.97的AUC。当灵敏度固定在95％时，特异性仍然很高，为75％(图9B)，并且
不受FNA中血液量变化的影响。然后在预先收集的用于测试组织训练分类器的临床FNA的
相同独立测试集上测试该分类器(图10A和图10B)。图10所示的数据表明，使用FNA训练
的分类器，对于n＝24和n＝48这两个独立FNA测试集的灵敏度和特异性显著提高。虽
然这些测试集规模较小，但他们的性能与交叉验证训练集的性能相似，这提示该算法没有
过度拟合，并且FNA训练的分类器适用于不可见的数据集。所述测试集的组成为大约30％
的恶性亚型，与临床FNA样品描述的组成相似。在40多个美国学术地点和基于社区的地点
进行的多中心前瞻性临床试验可用于验证该分子测试对于一大组未确定的FNA的性能。

[0297] 样品混合物的体外和计算机建模

[0298] 为了确定分类器对于比例降低的恶性细胞究竟有多灵敏，提出了用于计算机模拟混合物信号的模型，用体外混合实验验证该模型，并且使用计算模拟来分析该分类器对稀
释效果的容限。一般而言，如果来自实际观测信号的模拟混合物谱的偏差处于通常由于技
术重复而观测到的噪声内，则计算机模型可合理地近似于该混合过程。在本实施例中，所述
标志物集的计算机预测和体外观测到的信号之间的强度差异的四分位数范围的分布与针
对多对技术重复所观测到的结果相似。

[0299] 图13A显示了混合物中的PTC信号的不同比例(x轴)对分类得分(y轴)的影响，并且显示分类器性能可高度容许样品稀释和异质性。体外数据几乎与对具有相似PTC含量
的混合物做出的计算机预测重叠。在这种特定PTC样品的情况中，分类器容许PTC信号稀
释到初始水平的不到20％，并且对所述“混合”样品报告“疑似”判定。然而，不同的临床样品可包含更小比例的恶性细胞，并且其特征可能是对稀释的更小容限。考虑到计算机模拟
和体外模拟之间达成的一致性，我们接下来使用计算模拟来研究对更大一组FNA的稀释效
果。

[0300] 在计算机中混合39个PTC FNA样品中的每一个与LCT或NHP样品中的一个。单个FNA样品不代表可能的细胞类型的任何单个组分的纯表达。然而，存在于许多LCT和NHP
样品中的多种信号代表可能使临床活组织检查样品中的恶性细胞信号变得模糊的可能的
复合背景信号谱。为了单独研究LCT和NHP背景的效果，我们将LCT样品库限制于七种FNA
样品，所述样品具有来源于该数据集的LCT标志物的最高平均强度。类似地，将NHP样品限
制于具有最低估计LCT含量的52种样品。执行这个过滤步骤以确保这两组中的每一组中
的LCT和NHP信号均具有良好代表性。对于每对良性和恶性样品，以从0到1以0.01增量
变化的PTC比例进行混合，从而导致每对有100个模拟混合物谱。然后用分类器对所述计
算机混合物样品评分，以便可针对所有混合水平记录“疑似”或“良性”判定。为达到此目
的，在排除所混合的纯样品对的基础上建立所述分类器，目的是估计对稀释的真正的“样品
外”容限。考虑到分类器预测，我们估计了分类器判定从“疑似”转换到“良性”时的PTC信号的混合比例，从而有效地表征了所述分类器对稀释的容限。

[0301] 图13汇总了这个模拟的结果，显示了导致分类器作出“疑似”判定的PTC信号的最小比例。图13B显示了与LCT背景混合的预测得分容限结果，而图13C显示了与NHP背
景混合的预测得分容限结果。每个PTC样品用箱形图表示，对应于与良性亚型的所有可能
的代表的混合物。PTC样品以对于初始PTC样品递增的分类得分的顺序排列在x轴上。y
轴上的值是仍然由分类器报告为“疑似”的PTC的最小比例。较小的值对应于对稀释的较
高容限。对于具有LCT信号的稀释，容限更高。这个数据集中的所有PTC样品中的80％以
上可稀释到具有LCT背景的初始信号的10％以下的水平，并且仍然可由所述分类器正确判
定。可达50％的样品可稀释到低于初始样品的6％。PTC样品对具有NHP信号的稀释表现
得更敏感，得分最高的样品平均容许稀释到原始信号的12％，并且大约80％的PTC样品容
许稀释至初始信号的20％。我们也观察到任何给定PTC样品的容限方差大于对于LCT背景
所观察到的容限方差。

[0302] 基因富集分析

[0303] 分类器训练过程鉴定了许多公知与甲状腺恶性肿瘤有关的基因，以及之前未与这种疾病相关联的基因。为了表征与这些基因相关的生物学特征，我们使用具有高统计支持
的差异表达基因进行过度代表分析(ORA)。所述分析测试所观察的一组基因(即途径中的
基因)共有指向潜在生物学的非随机连接的可能性。第一分析关注KEGG途径数据库并且
揭示细胞膜介导的途径的富集(图14)。细胞外膜(ECM)受体相互作用、细胞粘附、紧密连
接和焦点粘着途径突出了整合素在甲状腺恶性肿瘤中的其他膜结合介质中的作用。其他排
名前列的途径指向TNF-、Rho-和长期以来因其涉及到癌发生而为人所知的趋化因子基因
家族。使用基因本体(GO)数据库通过ORA补充这些结果。此外，内皮、ECM和细胞膜的特
征代表前10个结果中的5个。在GO ORA中检测到的另一种排名前列的生物特征指向伤口
愈合。这个基因表达特征已与乳腺癌患者的存活率降低相关联。

[0304] 图14汇总了排名前列的差异表达基因(n＝980)的ORA，其中657个基因上调而323个基因下调。用常规字体表示的数字代表被排名前列的差异表达基因过度代表的途径，
而用粗体表示的数字代表不足代表的途径。

[0305] 样品生物标志物

[0306] 纤连蛋白基因FN1处在基因选择过程中鉴定的已知基因之间。其他已知的感兴趣的基因包括：甲状腺过氧化物酶(TPO)、半乳糖凝集素-3(LGALS3)、降钙素(CALCA)、金属蛋
白酶的组织抑制剂(TIMP)、血管生成素2(ANGPT2)和端粒酶逆转录酶(TERT)，以及已显示
为与甲状腺癌有关的所有基因。在本实施例中，分类器使用来自大约100-200个基因的信
号以获得高准确度。因此，本实施例中描述的分子测试可使用高密度基因组信息来从具有
挑战性的样品中提取出有意义的信号，并补充或任选地代替对甲状腺结节的常规细胞病理
学评估和临床评估，从而能够将结节更准确地分类为良性的。

[0307] 尽管本文已经显示并描述了本发明的优选实施方案，但对于本领域技术人员而言显而易见的是这些实施方案仅以举例方式提供。在不脱离本发明的情况下，本领域技术人
员将会想到许多变化、改变和替代。应理解，本文描述的本发明实施方案的各种替代方案可
用于实施本发明。以下权利要求意在限定本发明的范围，且因此覆盖这些权利要求范围内
的方法和结构及其等同物。

标题	发布/更新时间	阅读量
消融导管	2020-05-13	825
网格叠加消融和成像设备	2020-05-11	876
消融导管	2020-05-15	588
具有可展开注入管的低温消融装置	2020-05-12	773
识别和评估低温消融损伤的电抗变化	2020-05-13	856
可调节肺静脉消融导管	2020-05-11	55
用于消融和电穿孔组织细胞的设备	2020-05-12	231
消融导管	2020-05-14	981
可变输出射频消融电源	2020-05-11	543
安全消融	2020-05-15	956

用于诊断病状的方法和组合物

用于诊断病状的方法和组合物

背景技术

该功能需要专业版企业版VIP权限，您可以：