首页 / 专利库 / 畜牧业 / 乳用动物 / 产生复数候选探针和鉴定哺乳动物中细胞类型的方法

产生复数候选探针和鉴定哺乳动物中细胞类型的方法

阅读:201发布:2020-05-11

专利汇可以提供产生复数候选探针和鉴定哺乳动物中细胞类型的方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种产生复数候选探针的方法和其使用方法。具体而言,候选探针可以与特定基因结合,并且进一步鉴定组织中细胞的类型。简而言之,上述方法包含以下步骤:(a)使用芯片侦测具有已知器官来源的正常样本中的基因表现;(b)使用处理模 块 比较正常样本中的基因表现;以及(c)依据前述步骤的比较结果产生候选探针。而使用方法为鉴定 哺乳动物 中细胞类型的方法,其包含以下步骤:(a’)使用前述候选探针以侦测具有未知细胞类型的测试样本中相对应的基因表现;(b’)使用处理模块分析测试样本以产生代表测试样本分数;以及(c’)进一步预测测试样本的细胞类型。此外,本揭露还提供一个系统用以执行前述的方法,并且该系统包含一个具有候选探针的矩阵的侦测芯片和一个处理模块。,下面是产生复数候选探针和鉴定哺乳动物中细胞类型的方法专利的具体信息内容。

1.一种产生复数候选探针的方法,用于辨识哺乳动物中细胞类型的方法,其特征在于,其包含:
步骤(a)通过侦测芯片从所述哺乳动物的标准样本中产生复数基因表现;
步骤(b)通过处理模比较所述复数基因表现以产生比较结果;以及
步骤(c)根据所述比较结果转化出包含所述复数候选探针的矩阵,其中所述复数候选探针可以结合至任一复数多核苷酸序列选自SEQ ID No:1~652或SEQ ID No:1~652的任一片段
其中,所述侦测芯片与所述处理模块彼此电讯连接。
2.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述复数候选探针的数量为200个。
3.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述复数候选探针的数量为100个。
4.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述复数候选探针的数量为50~60个。
5.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述复数候选探针的数量为25~35个。
6.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述复数探针的长度为至少15个核苷酸。
7.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述标准样本是一个被诊断为不患有特定疾病、失调、基因症状或上述任意的组合。
8.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述标准样本是一个被诊断为患有特定疾病、失调、基因症状或上述任意的组合。
9.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述标准样本包含血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。
10.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述步骤(b)不包含将所述标准样本中的所述复数基因表现与一个被诊断为患有特定疾病、失调、基因症状或上述任意的组合的受试者异常样本中的复数基因表现进行比较。
11.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,在所述步骤(c)中产生所述矩阵的方法包含:皮尔生相关系数、斯皮尔曼等级相关系数、肯德尔等级相关系数、K平均、哈兰距离、汉明距离、莱文斯坦距离、欧几里得距离或上述任意的组合。
12.如权利要求1所述的产生复数候选探针的方法,其特征在于:其中,所述步骤(c)还包含:
步骤(c1)分析所述复数候选探针的特定序列与所述任一复数多核苷酸序列选自SEQ ID No:1~652或SEQ ID No:1~652的任一片段的表现量之间的相关性因子。
13.如权利要求12所述的产生复数候选探针的方法,其特征在于:其中,所述相关性因子包含结合亲和
14.一种鉴定哺乳动物中细胞类型的方法,其特征在于,其包含:
步骤(a')通过一个包含如权利要求1~5的任意一项中所述复数候选探针的侦测芯片侦测患有特定疾病、失调或基因病变的哺乳动物测试样本中矩阵的表现,其中所述复数候选探针可以与如权利要求1~5的任意一项中任一复数多核苷酸序列选自SEQ ID NO:1~
652或SEQ ID NO:1~652的任一片段结合;
步骤(b')通过处理模块并且依据侦测的所述表现分析所述测试样本以产生测试样本分数;以及
步骤(c')通过所述处理模块且依据所述测试样本分数预测所述测试样本的细胞类型。
15.如权利要求14所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,计算所述测试样本分数是根据相似性程度(similarity degree)或相异性程度(dissimilarity degree)来进行的。
16.如权利要求15所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,当所述相似性程度>80%时,所述测试样本的所述细胞类型被鉴定为正常/良性肿瘤细胞。
17.如权利要求15所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,当所述相似性程度介于30%~80%时,所述测试样本的所述细胞类型被鉴定为原发性肿瘤细胞。
18.如权利要求15所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,当所述相似性程度<30%时,所述测试样本的所述细胞类型被鉴定为转移性肿瘤细胞。
19.如权利要求15所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,当所述相异性程度<20%时,所述测试样本的所述细胞类型被鉴定为正常/良性肿瘤细胞。
20.如权利要求15所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,当所述相异性程度介于20%~70%时,所述测试样本的所述细胞类型被鉴定为原发性肿瘤细胞。
21.如权利要求15所述的鉴定哺乳动物中细胞类型的方法,其特征在于;其中,当所述相异性程度为>70%时,所述测试样本的所述细胞类型被鉴定为转移性肿瘤细胞。
22.如权利要求14所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,所述特定疾病、失调或基因症状包含血液科恶性肿瘤或实质固体瘤。
23.如权利要求14所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,在所述步骤(b')中产生所述测试样本分数的方法包含:皮尔生相关系数、斯皮尔曼等级相关系数、肯德尔等级相关系数、K平均、马哈兰距离、汉明距离、莱文斯坦距离、欧几里得距离或上述任意的组合。
24.如权利要求14所述的鉴定哺乳动物中细胞类型的方法,其特征在于:其中,所述侦测芯片包含:微数组芯片、次世代定序仪、定量聚合酶连反应、磁珠系统。

说明书全文

产生复数候选探针和鉴定哺乳动物中细胞类型的方法

技术领域

[0001] 本发明涉及一种产生复数候选探针的方法和鉴定哺乳动物中细胞类型的方法。更具体地说,一种用来鉴定细胞类型是属于正常/良性瘤细胞、原位癌细胞或是转移癌细胞的方法。

背景技术

[0002] 癌症逐渐已成为全球主要的死亡原因,并且在过去的数十年间平均每年夺走数了百万人的生命。(Ferlay J et al 2015)。癌症的治疗过程通常是昂贵、漫长和痛苦的。当癌症药物开发仍受到许多国家政府的严格监管的状态下,许多新的治疗方法正在积极的被推广,例如:标靶治疗和免疫疗法。病理解剖诊断是一项主观且传统的过程,其涉及利用显微镜检查活检切片。病理学家对活组织检查的形态学的解释是基于其对于特定类型癌症的知识和经验。(ConnollyJL et al,2003)而此过程被认为是癌症诊断的黄金标准,因为自从大约一个世纪前首次被引入后,没有任何其他更佳的技术被使用。
[0003] 由于上述过程具有主观的性质,在某些情况下不同病理学家检验活组织而产生差异结果的状况并不令人惊讶。通过解剖病理学对癌症诊断的准确性的系统研究揭示了全世界各种医学机构中存在显著的差异/错误率。(Nguyen et al 2004,Raab et al 2005,Elmore JG et al 2015,Singh H et al,2007,Khazai L et al 2015,MehradM et al.2015)举例来说,Raab等人在回顾了1984年至2005年发表的十多篇研究论文后,揭示了解剖病理学在癌症诊断中的错误频率为1%至43%。(Raab et al 2005)此外,整理115名病理学家对60例乳腺癌活检切片的检验结果,Elmore等人揭示所数检验结果与先前的对照诊断仅具有75.3%的一致性(即具有25%的差异性)。(Elmore JG et al 2015)Nguyen等人发现44%的前列腺腺癌患者在泌尿生殖肿瘤学家对其病理结果进行复阅后,其Gleanson评分(Gleanson score)至少改变1分。这些诊断的改变有一些会导致后续治疗方法的变化。(Nguyen et al 2004)。
[0004] 为了减少错误,包括美国临床病理学家协会在内的许多医学机构所推荐的最佳解决方案是让不止一位病理学家对活组织检查片进行审阅。(John E.et al 2000,Nakhleh RE et al 2016,Middleton LP et al 2014,Leong AS et al 2006)此外,解剖病理学程序的改进也有助于减少诊断错误。(Nakhleh RE 2008,Nakhleh et al 2016)选用标记蛋白在活检标本上进行免疫组织化学染色有助于在癌症诊断中鉴定特定的癌症亚型。尽管已极尽可能地使用各种方式降低在外科病理学中所可能引起的错误率,提高癌症诊断准确性的最极致解决方法应是开发一种客观的,而且是从形态学以外的面向来分析样本的诊断系统。
[0005] 因此我们期望开发一种方法和系统,以有效且准确地诊断细胞是正常细胞/良性肿瘤细胞、原发性肿瘤细胞还是转移性肿瘤细胞。

发明内容

[0006] 本发明揭露了一种以基因为基础(gene-based)的预测方法,其因通过使用组织特异性基因表达谱(tissue-specific gene expression profile)而使其在癌症诊断中具有潜在应用价值。而且,本发明揭露了来自三十个不同解剖部位的正常人组织中均表现如表1所揭露候选基因的特定表达谱。而其结果则通过利用接近800个数组(来自61个不同研究组别)进行大规模统合分析(large scale meta-analysis)验证其结果,而其验证的准确性达到了99.2%。此外,上述结果揭示正常组织特异性表达谱在已经转化为恶性肿瘤的细胞中会消失。因此,候选基因间的相对表现平的数学关系(mathematical relationship)即计量比(stoichiometry)在正常组织中必须被妥善地维持以确保此正常组织应有的功能和型态发育(morphology),然而当组织转变成癌症时基因的相对关系则会丧失。
[0007] 通过统合分析(meta-data)和分析来自肝脏的临床样本,本发明揭露标记基因的表现水平产生计量偏差可能是癌症中存在的普遍现象。通过评估临床数据和计算分数,本发明揭露正常表现谱中的偏差程度(deviation)与癌症的恶性程度有关(即相似程度与癌症恶性肿瘤的程度成反比)。此外,本发明揭露癌症可以通过使用多个基因特征来界定,而多个基因特征则如表1所揭示的一个或多个基因。
[0008] 本揭露还提供一种产生复数候选探针用以辨识哺乳动物中细胞类型的方法。该方法包含以下步骤:步骤(a)为通过侦测芯片从患有或不患有特定疾病、失调或基因症状的哺乳动物标准样本中产生复数基因表现,且标准样本被诊断为属于已知组织中的正常细胞;步骤(b)为通过处理模比较复数基因表现以产生比较结果;以及步骤(c)为根据比较结果转化出包含复数候选探针的矩阵,其中复数候选探针可以结合至任一复数多核苷酸序列选自SEQ ID No:1~652或SEQ ID No:1~652的任一片段。另外,侦测芯片与处理模块彼此是连接的(例如:电讯连接(electrically)或通讯连接(wirelessly))。
[0009] 在本发明一实施例中,复数候选探针的数量为大约200个。在本发明另一较佳实施例中,复数候选探针的数量为大约100个。在本发明另一更佳实施例中,复数候选探针的数量为大约50~60个。在本发明另一最佳实施例中,复数候选探针的数量为大约25~35个。
[0010] 在本发明一实施例中,标准样本包含血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。
[0011] 在本发明一实施例中,特定疾病、失调或基因症状包含血液科恶性肿瘤(hematologic malignancies)或实质固体瘤(solidtumors)。
[0012] 在本发明一实施例中,复数探针的长度为至少15个核苷酸。
[0013] 在本发明一实施例中,步骤(b)不包含将标准样本中的复数基因表现与一个被诊断为患有特定疾病、失调、基因症状或上述任意的组合的受试者异常样本中的复数基因表现进行比较。
[0014] 在本发明一实施例中,于产生复数候选探针用以辨识哺乳动物中细胞类型的方法中的步骤(c)其产生矩阵的方法包含:皮尔生相关系数(Pearson correlation)、斯皮尔曼等级相关系数(Spearman rank correlation)、肯德尔等级相关系数(Kendall)、K平均(k-means)、哈兰距离(Mahalanobis distance)、汉明距离(Hamming distance)、莱文斯坦距离(Levenshtein distance)、欧几里得距离(Euclidean distances)或上述任意的组合。
[0015] 在本发明一实施例中,在产生复数候选探针用以辨识哺乳动物中细胞类型的方法中的步骤(c)还包含:步骤(c1)分析复数候选探针的特定序列与任一复数多核苷酸序列选自SEQ ID No:1~652或SEQ ID No:1~652的任一片段的表现量之间的相关性因子。在本发明另一实施例中,相关性因子包含结合亲和(binding affinity)。
[0016] 本揭露还提供一种用以鉴定哺乳动物中细胞类型的方法。鉴定方法包含以下步骤:步骤(a')为通过一个如前述包含复数候选探针的侦测芯片侦测患有或不患有特定疾病、失调或基因病变的受试者测试样本中矩阵的表现,并且复数候选探针可以与任一复数多核苷酸序列选自SEQ ID NO:1*652或SEQ ID NO:1~652的任一片段结合;步骤(b')通过处理模块并且依据侦测的表现分析测试样本以产生代表测试样本分数(例如:CM score);以及步骤(c')通过处理模块并且依据测试样本分数(例如:CM score)预测测试样本的细胞类型。
[0017] 在本发明一实施例中,计算测试样本分数是根据相似性程度(similarity degree)或相异性程度(dissimilarity degree)来进行的。
[0018] 在本发明一实施例中,当测试样本的CM score>大约0.8时,测试样本的细胞类型被鉴定为正常/良性肿瘤细胞。
[0019] 在本发明一实施例中,当测试样本的CM score介于大约0.3~0.8时,测试样本的细胞类型被鉴定为原发性肿瘤细胞。
[0020] 在本发明一实施例中,当测试样本的CM score<大约0.3时,测试样本的细胞类型被鉴定为转移性肿瘤细胞。
[0021] 在本发明一实施例中,当相似性程度>大约80%时,测试样本的细胞类型被鉴定为正常/良性肿瘤细胞。当相似性程度介于大约30%~80%时,测试样本的细胞类型被鉴定为原发性肿瘤细胞。当相似性程度<大约30%时,测试样本的细胞类型被鉴定为转移性肿瘤细胞。其中值得注意的是,当相似性程度是100%时,两个相比较的样本个体是被鉴定为相同的。
[0022] 在本发明一实施例中,当相异性程度<大约20%时,测试样本的细胞类型被鉴定为正常/良性肿瘤细胞。当相异性程度介于大约20~70%时,测试样本的细胞类型被鉴定为原发性肿瘤细胞。当相异性程度为>大约70%时,测试样本的细胞类型被鉴定为转移性肿瘤细胞。其中值得注意的是,当相异性程度是0%时,两个相比较的样本个体是被鉴定为相同的。
[0023] 在本发明一实施例中,测试样本包含血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。
[0024] 在本发明一实施例中,于步骤(b')中产生测试样本分数的方法包含:皮尔生相关系数(Pearson correlation)、斯皮尔曼等级相关系数(Spearman rank correlation)、肯德尔等级相关系数(Kendall)、K平均(k-means)、马哈兰距离(Mahalanobis distance)、汉明距离(Hamming distance)、莱文斯坦距离(Levenshtein distance)、欧几里得距离(Euclidean distances)或上述任意的组合。
[0025] 更进一步地,本揭露还提供一种用以鉴定哺乳动物中细胞类型的系统,并且系统包含:处理模块以及侦测芯片。处理模块以及侦测芯片彼此电讯链接。侦测芯片包含复数候选探针,且复数候选探针可以结合至任一复数多核苷酸序列选自SEQ ID No:1~652或SEQ ID No:1~652的任一片段。除此之外,侦测芯片还可侦测患有特定疾病、失调或基因病变的哺乳动物测试样本中矩阵的表现,并且处理模块可依据侦测的表现分析测试样本以产生代表测试样本的CM score而依据测试样本的CM score预测测试样本的细胞类型。
[0026] 在本发明一实施例中,系统中的复数候选探针的数量为大约200个。在本发明另一较佳实施例中,系统中的复数候选探针的数量为大约100个。在本发明另一更佳实施例中,系统中的复数候选探针的数量为大约50~60个。在本发明另一最佳实施例中,系统中的复数候选探针的数量为大约25~35个。
[0027] 在本发明一实施例中,系统中的测试样本包含血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。
[0028] 在本发明一实施例中,系统中的复数探针的长度为至少15个核苷酸。
[0029] 以上本专利申请所揭露的相关内容和其他相关可透过以下较佳实施例的描述和附图作进一步阐明。虽然可能会有变化或修改,但是其并不背离本专利申请所揭示的新颖性构想的精神和范围。

附图说明

[0030] 附图图片中透过示例而非局限性方法展示出了一个或多个实施例,其中具有相同对照数字标识的组件始终表示类似组件。应该理解的是,本揭露不限于所揭示的较佳实施例。图标和实施例中所揭示的数据则以平均±标准偏差(SD)标示且由配对t检定验证。显著差异表示如下:*:P<0.05;**:P<0.01。
[0031] 图1主要揭示了一个透过微数组基因表达数据集所获得的具有不同原发部位的转移性癌症的关联阶层式分群结果。图1主要揭示了一个使用标准双向层次聚类分析(standard two-way hierarchical clustering analysis)产生的完整组织分类的示例性候选基因。行代表样品的组织来源;列代表基因标志。基因微数组热图上方所显示的树形图代表30个组织的聚集。
[0032] 图2主要揭示了本发明的候选基因,其可在多个数据集中区分癌症与正常样本。每个数据集中x轴所标示的正常或肿瘤样本的平均癌症恶性肿瘤评分(下文称为“CM scores”)分别被计算出。数据集的组织来源则显示于GEO登录号(GEO accession number)下方。空心方块(右上标记为N)代表正常样本,而封闭圆(表示为T)代表肿瘤样本。平均值和误差则是以灰线表示。
[0033] 图3主要揭示了来自所选数据集的个体中正常或癌症样品的CM scores分布。数据集的GEO登录号则标记于相应图标之顶部。每个图示中之y轴代表CM scores;x轴则代表正常(空心方块)或肿瘤(封闭圆)的样品类型。每组数据中的灰线旁所显示的单独数值代表该组的CM scores的平均值。P值则使用单尾t检定验证计算出,并显示为星号(例如****:P<0.0001)。
[0034] 图4A和图4B主要揭示了良性肿瘤或近良性瘤的CM scores分析结果。图4A中所分析的样本来自于GSE33630数据集,其样本主要由正常甲状腺、乳头状甲状腺癌(即PTC)和间变性甲状腺癌(即ATC)组成。图4B中所分析的样本来自于GSE13319数据集,其样本包含子宫肌层(代表子宫的正常组织,以星号代表)和平滑肌瘤(代表来自子宫的良性肿瘤,以空心钻石形代表)的样品。
[0035] 附图仅为示意图,并且无任何限制。本揭露中的所有参考标记不得解释为对本专利申请中权利要求范围的限制。举例来说,在各个附图中相同的附图标记表示相同的组件。

具体实施方式

[0036] 除非另有定义,否则本文使用的所有术语(包括科技术语)的意义与本专利申请说明所属领域的普通技术人员通常所理解的含义相同。应当进一步理解,常用词典中定义的术语的含义应当与相关领域和本专利申请说明的上下文中的含义一致,且不会解释地过于理想化或过于正式,除非本文中明确定义。
[0037] 本专利申请说明中,「一项实施例」或「某一实施例」的引用是指关于该实施例所描述的某一特定特征、结构、或特性包括于至少一项实施例中。因此,本专利申请说明中不同位置出现的短语「在一项实施例中」或「在某一实施例中」不一定均指同一实施例。此外,上述特定特征、结构或特性可通过任何适宜方式在一项或多项实施例中进行组合。
[0038] 定义说明
[0039] 应当理解,除非上下文另有明确指示,否则单数形式「一」、「某」、「该」、「所述」也包括复数形式。因此,举例来说,当使用术语「一个组件」时,其包括多个组件以及其在所属领域中习知的同等物。
[0040] 当本文在叙述一个可测量的数值时(例如:数量或周期等等),本文所使用的「大约」是指数值±20%或是±10%,其较佳范围为±5%,而更佳范围为±1%。并且进一步更佳范围为一个特定数值的±0.1%,因为这些数值范围适合实施本发明所揭露的内容。
[0041] 本文中所使用的「疾病」是用以形容动物的健康状态呈现无法维持体内平衡(homeostasis),并且其中如果疾病没有改善,则该动物的健康将继续恶化。相对地,「失调」是用以形容动物的健康状态是呈现可维持体内平衡,但是动物现阶段的健康状态不如没有失调(disorder)时的状态。然而,若继续不治疗则不一定会进一步导致动物的健康状况下降。
[0042] 本文中所使用的「癌症(cancer)」和「肿瘤(tumor)」是用以定义一种疾病,其特征在于此异常细胞的快速且不受控制的生长。所以「癌症」和「肿瘤」在此是可以互换的名词。癌症细胞可以在局部扩散或通过血液和淋巴系统扩散到身体的其他部位。癌症举例来说(但不限制)包括:乳癌、前列腺癌、卵巢癌、子宫颈癌、皮肤癌、胰腺癌、结肠直肠癌、肾癌、肝癌、脑癌、淋巴癌、白血病、癌等等。
[0043] 本揭示的以下内文中的缩写为此领域的通常知识者用以代表特定核苷酸的缩写,其中「A」指的是腺嘌呤核苷酸、「C」指的是胞嘧啶核苷酸、「G」指的是嘌呤核苷酸、「T」指的是胸腺嘧啶核苷酸、「U」指的是尿嘧啶核苷酸。
[0044] 本文中的「多核苷酸(polynucleotide)」指的为前后相连如链状的核苷酸。此外核酸(nucleic acids)为核苷酸的多聚体。因此,据上述本文中的多核苷酸与核酸为可互相替换的用词。而此领域的通常知识者也可以理解核酸与多核苷酸为相等的用词,且可以被水解成核苷酸。而本文所使用的多核苷酸指的是(但非限定)所属领域通过各种方式所获得的核酸序列,其包含(但非限定):基因重组手段(recombinantmeans),举例来说为从一个重组基因库(recombinant library)或一个细胞的基因体(genome)利用习知的克隆技术(cloningtechnology)或是聚合酶连反应技术(PCR)克隆出核酸序列,或是利用合成技术而合成出核酸序列。
[0045] 本文中所使用的术语如「候选探针」和「选择的探针」的定义均为依本揭露所产生且能够结合表1中的基因的人工探针。因此,「候选探针」和「选择的探针」是可以互换。
[0046] 表1「用于作为鉴定探针设计的基因」
[0047]
[0048]
[0049]
[0050]
[0051]
[0052]
[0053]
[0054]
[0055]
[0056]
[0057]
[0058]
[0059]
[0060]
[0061]
[0062]
[0063]
[0064]
[0065]
[0066]
[0067]
[0068]
[0069]
[0070]
[0071] 表1中所揭露的候选基因探针在以下文中简称为「CM探针」(CM probes)或「652个基因转录谱」(652-gene transcription profiles)。在下文中,所有统计计算通过处理模块进行,处理模块是中央处理单元(CPU)。具体地,下面详细描述本公开的过程:
[0072] 步骤1:建构非癌症组织的对照基因谱(reference gene profile)
[0073] 首先,步骤1(a)是从正常人体组织的基因转录数据(transcriptomic data)中获取所选基因的RNA表达(RNA expression level)。将来自许多人的每个器官的基因表达值进行平均,以消除由单个人所引起的偏差。因此,首先从GSE1133、GSE2361、GSE7307数据集中选择出来自39个不同组织来源的254个样本以构建训练数据集。对于此训练数据集,首先从GEO中获取CEL文件,然后再由AffyQualityReport进行质量评估,以删除质量量较差的数组。通过质量评估的数据则进一步通过Robust Multichip Average(RMA;Irizarry R等人,Biostatistics 2003,4(2):249-264)程序处理以进行数据标准化(data normalization)。其中,AffyQualityReport和RMA均从Rpackage中的Bioconductor package获得。遵循标准预处理程序,基因转录数据则进一步进行统计学和生物信息学分析。
[0074] 再来,步骤1(b)是将测试中所有器官的基因表达值结合,并且构建一个如下表所揭示的基因-器官矩阵(gene-by-organmatrix)。在所有器官中具有高变异系数(high coefficient ofvariance)的基因被选择出来且进一步分析。
[0075]
[0076]
[0077] 步骤1(c)是利用阶层式分群法(hierarchical clustering analysis)对基因-器官矩阵进行分析,以评估其对组织分类的影响(如图1所揭示)。在阶层式分群法分析之后,每群中的一个代表性基因被选择出来且将其他具有高度相似表现的基因除去。上述程序将可产生如表1所揭示的CM探针或652个基因转录谱。
[0078] 阶层式分群法的计算方程式:
[0079]
[0080] 步骤1(d)是通过使用独立的数据集来进一步验证组织预测的效率,以确保所选基因表现谱可充分代表正常状态下的特定器官。简而言之,从验证测试中的每个样本提取所选基因的表现值,以构建样本的表现谱。然后通过自建软件(in-house program)计算样本与非癌症对照样本表现谱之间的皮尔生相关系数。更明确地,是指样本的表现谱与非癌症对照表线谱并入以最近邻居分类法为基础(即KNN)的组织预测程序。我们将选择具有最高相关系数(k=1)的组织用于预测程序中。
[0081] k最近邻居分类法(k-nearest neighbor method):
[0082]
[0083] 步骤1(e)是在对照列表中进行重复基因替换以改善组织分类直至满足结果。标记(marker)的组成基因的任何改变都将导致新的对照谱被构建出来。在完成所有上述步骤后,即产生代表非癌状态器官的652个基因转录谱。
[0084] 再次声明,其中值得注意的是步骤1(a)至1(e)中所使用的组织是具有已知器官但没有任何异常/疾病组织的正常组织。此外,在一些实施例中,具有已知器官的正常组织可以从患有或不患有癌症的受试者(例如:人)中提取或分离出来。
[0085] 步骤2:侦测肿瘤样本中「652个基因转录谱」的表达:
[0086] 步骤2(a)是从患者中取出肿瘤活检测试样本,并且通过目前获取的分子生物学技术进一步萃取其总RNA。
[0087] 步骤2(b)与步骤1相似,其主要是通过目前可获取的分子生物学技术(例如:DNA微数组中的探针杂交、磁珠系统(magnetic beads)上的杂交,逆转录聚合酶链式反应(rtPCR)或直接定序)从步骤2(a)中的测试样品侦测652个基因转录谱的RNA表达。选择性地,通过使用转换程序(例如:数据处理、数据提取和数据重新格式化)和使用处理模块(例如:中央处理单元(CPU)),则可以将测试样本的表达进一步转换为代表所选基因表达的数值期望值列表。
[0088] 步骤3:评估肿瘤样本的病理状态以确定其是正常/良性或恶性肿瘤,还是原发性或转移性的肿瘤。
[0089] 样本组织和正常对照样本之间的所选基因的表达上的相似性(similarity)或不相似性(dissimilarity)(不相似性可以使用数学上从相似性转换而来)被进一步测量如步骤1中所揭示。在一个实施例中,我们使用相似性分数(例如:CM score)。此外,因为CM score的值介于0和1之间,所以可以透过以下公式计算相似度分数(similarity score)或相异度分数(dissimilarity score):(a)相似度=(CMscore/1)*100;而(b)相异度=1─相似度。值得注意的是,当相似度为100%时,则代表两个受试者相同;当相异度为0%时,则代表两个受试者相同。但是,以下两点值得注意。
[0090] (1)被记录下来的基因表达值进一步进行计算器处理程序,透过计算样本基因谱和对照基因谱之间的相似性以产生样本的CM score。此处的CM score主要是通过皮尔生相关系数分析(Pearson’s correlation coefficient)所产生,其公式如下所示:
[0091]
[0092] (附注:n代表用以作标记的基因数量;x代表来自测试样本的基因表达值;y代表来自对照表达谱的基因表达值。)
[0093] 然而,用于以计算来自样本的表达谱和来自对照的表达谱之间的相似性或距离的计算方法(即CM方程式(CM algorithm))并不仅限于皮尔生相关系数分析。在一些其他实施例中,用于计算相似性或距离的方法包括但不限于斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)、肯德尔等级相关系数(Kendall)、马哈兰距离(Mahalanobis distance)、欧几里德距离(Euclidean distances)、K平均(k-means)、汉明距离(Hamming distance)、莱文斯坦距离(Levenshtein distance)等等。
[0094] (2)CM score与决断分数(Cut-OffScore)的比较和相应的预测则如下表2所揭示。
[0095] 表2
[0096]CMscore 相似性 不相似性 预测
>0.8 >80% <20% 正常/良性瘤细胞
0.3~0.8 30~80% 20~70% 原发性癌细胞
<0.3 <30% >70% 转移性癌细胞
[0097] 此外,CM score是从相似性基础模式(Similarity-Based Mode)和/或距离基础模式(Distance-BasedMode)的比较过程中所产生的。更明确来说,在相似性基础模式中,其得分越高则代表样本表达与「对照表达谱」越相似,因而推断样本具有较高的机率是良性或正常组织。在距离基础模式中,其得分越高则代表样本表达与「对照表达谱」的相似性越低,从而推断样本具有较高的机率为恶性肿瘤的可能性。
[0098] 此外,为了进一步分辨组织样本是属于恶性的(malignant)还是癌性的(cancerous),将上述分数以实验、统计(例如:接收者操作特征曲线(receiver operating characteristic curve;ROC))或同时使用上述两者的方法与经过确认的决断分数(cut-offscore)进行比较。
[0099] 针对相似性基础模式的评分系统,决断分数A和B则进一步被设立。此外,分数A高于分数B。分数A可在区分原发性癌症与正常组织时提供显著的敏感性和特异性,而分数B可在区分原发性癌症与转移性癌症时提供显著的敏感性和特异性。在实际操作中,如果样本分数低于A分数但高于B分数,则样本被预测为原发性癌症;如果样本分数高于A分数,则样本被预测为正常或良性肿瘤;如果样本分数低于B分数,则样本被预测为转移性癌症。
[0100] 针对距离基础模式的评分系统,决断分数C和D则进一步被设立。此外,分数C低于分数D。如果样本分数低于D但高于C,则样本被预测为原发性癌症;如果样本分数低于C,则样本被预测为正常或良性肿瘤;如果样本分数高于D,则样本被预测为转移性癌症。
[0101] 因此,本揭露中的「辨识细胞类型方法」包括三个步骤(即步骤1至3)。首先,步骤1是产生表1中所揭露的候选基因(即CM探针或652个基因转录谱)。接下来,步骤2是测定测试样本中候选基因的表达。最后,评估测试样本的CM score,然后预测测试样本的细胞类型是正常细胞/良性肿瘤细胞、原发性肿瘤细胞还是转移癌细胞。如上,本揭露的整个过程/方法可以概括为包括以下步骤:(1)从正常样本中选择具有高方差系数(coefficient of variance;CV)的候选基因而不与疾病样品比较,以及数量所选基因的范围为20至652;(2)通过层次聚类和组织预测验证候选基因的表达;(3)选择代表性核苷酸片段(例如,对于cDNA微数组,针对每个选择的基因设计约19至100个基对长的基因特异性片段,并且为实时PCR的引物设计约15个碱基长的寡核苷酸)。根据RNA定量方法的要求进一步产生CM探针的候选基因;(4)利用目前可用的分子生物学技术,利用CM探针确定测试样品的候选基因表达水平;(5)基于CM算法(algorithm)计算测试样本的CM score;(6)基于CM score预测测试样品的细胞类型。
[0102] 在一个实施例中,本揭露还提供了用于开发多种候选探针以鉴定哺乳动物受试者中细胞类型的系统。更明确地,系统包括:侦测芯片和处理模块,且两者彼此电讯连接。侦测芯片含有多个选定的探针,并且其探针可以结合选自SEQ ID No.1至652中的任一个或来自SEQ ID No.1至652的任何片段的多个多核苷酸序列,并检测从哺乳动物受试者获得的测试样本数组中的表现水平,而哺乳动物受试者其可能患有或不患有选定的疾病、病症、遗传病症。处理模块分析测试样本数组的表现水平并进一步产生测试样本分数。此外,处理模块可以基于测试样本分数来预测测试样本的细胞类型。
[0103] 在一个实施例中,用于鉴定癌症主要部位组织(primary site)的侦测芯片是微数组芯片或磁珠系统。在另一个实施例中,用于比较多个基因表现或开发包含候选探针的数组的处理模块是中央处理单元(CPU)。
[0104] 在一个实施例中,用于开发上述选择探针的标准样本包括:血液、血浆、血清、尿液、组织、细胞、器官、体液或上述任意的组合。在另一个实施例中,所选择的疾病、病症或遗传病包括:血液科恶性肿瘤或实质固体瘤。
[0105] 示例1(Example 1)
[0106] 在以下内文中,所有统计都是通过处理模块进行计算的,且处理模块是中央处理单元(CPU)。实施例1中所使用的候选基因探针(即CM探针)数量减少至由表1中选出的50或56个基因。
[0107] 材料与方法
[0108] 组织与病人
[0109] 本示例中的样本是在中国台湾花莲慈济医院医院的同意下进行收集。从13名进行肝脏手术切除疑似恶性肿瘤的患者中收集了共13个样本。切除后立即将组织样本浸入液氮中,然后进行RNAlater处理以便随后进行RNA萃取。亚洲男性成年人的正常肝脏的总RNA(total RNA)则购自BioChain。
[0110] 微数组芯片杂交(Microarray hybridization)
[0111] 简单来说,主要利用Quiagen RNAeasy从肿瘤样本中依照制造商所提供的标准方案萃取总RNA后再与Affymetrix HG-U133 plus2.0基因芯片进行杂交。
[0112] Affymetrix HG-U133 plus2.0包含54,675个探针组,其代表大约38,572个独特的UniGene聚集(cluters)。
[0113] 数据集和标准化(Datasets andnormalization)
[0114] 为了使用六个GEO系列再次确认56个基因(即CM探针)在鉴定、辨别正常人体器官/组织方面的能力,我们使用GEO数据库进行关键词搜索以产生一组微数组数据集。而微数组数据集衍生自Affymetrix GeneChip HG-U133 plus2.0并且由正常的和癌症的组织样本所组成(即结果段落中所揭露五个标准中的前两个)。然后,这些候选GEO系列的摘要(abstract)以随机顺序逐一阅读(read)以挑选出符合本文中所描述的那些其他三个标准。当找到第六个符合可用于再次确认的GEO系列时则搜索停止。
[0115] 表3中所使用的测试数据集是通过汇集上述六个新检索的GEO系列和来自先前用于大规模统合分析(large-scale validation analysis)的数据集的癌症研究的特定子集所构建的。后者包含所有可检索的微数组数据系列(在GEO数据库中以预固定GSE指定),其是在Affymetrix GeneChips HG133A或HG133plus2.0上进行并且包含24个可分析器官/组织的正常人样本。而上述24种正常组织包括:肾、皮肤、肝、肺、气管、骨骼肌、心脏、骨髓、胸腺、胰腺、脑下垂体、唾液腺、胎盘、子宫、卵巢、前列腺、皮肤、睾丸、杏仁核、丘脑、小脑、脊髓、胎儿肝脏、胎儿脑和甲状腺。
[0116] 本示例中所使用的GSE系列中可用CEL文件均从GEO网站下载,并且在Bioconductor包中使用RMA进行预处理。
[0117] 检验试剂组和信号检测(Assaykit and signal detection)
[0118] QuantiGene检测试剂盒由Affymetrix Inc.依据Mao-Ying Inc.的需求进行定制。每个样本以一式两份进行测定而进一步确认,并按照标准方案进行处理。在每次检测结束时,用 100/200TM检测杂交信号。
[0119] 数据分析/组织预测(Data Analysis/Tissue Prediction)
[0120] 24个正常器官/组织中每一个指定基因组(标记)的表达谱以如前述的方式被建构出来。简而言之,在指定器官中正常人组织上进行的全基因组微数组数据分析,并且从其中提取每个标志(marker)基因的表现水平。为了观察组织样本与其正常对应组的相似程度,我们还进一步从测试样本中取得标记的表达水平且进行测试。然后在这两个基因表现值列表之间计算皮尔生相关系数(cf,即相当于本揭露中的CM score)。皮尔生相关系数是利用的计算器程序搭配R语言进行而实现的。
[0121] 统计分析
[0122] 统计分析包括使用excel软件计算标准偏差、学生t检验的P值。表4中学生t检验的P值是使用单尾(one tail)和第3型(type 3)作为参数设置而计算的。
[0123] 结果
[0124] 1.正常器官/组织的一致转录谱
[0125] 数个新获得的数据集重复地利用组织预测检验以重新确认Hwang等人先前揭露的内容。表3中所揭示的六个数据集则选自公共数据库Gene Expression Omnibus(GEO,http://www.ncbi.nlm.nih.gov/geo/),其标准如下:(1)具有来自正常组织和癌症组织的样本。(2)数据来自利用Affymetrix GeneChips进行的实验。(3)来自24种可用CM算法检测的器官/组织样本。
[0126] 表3:通过56个基因谱预测正常人体器官/组织
[0127]
[0128] 上述六个被使用的微数组实验数据集包括来自人皮肤、肺、甲状腺和肝脏的组织样本。此外,如表3所揭示,本发明正确地预测、鉴别了六个数据集中来自正常器官/组织的所有153个样本。上述结果与先前发现一致,代表所选基因的表达谱形成了未患病的人体器官/组织的稳定分子特征。
[0129] 2.CM谱(CM profile)可将癌组织与正常组织区分开来
[0130] 评分(CM score)系统则是被设计来代表「癌症恶性评分」,其反映测试样本与相应正常组织对照谱(reference profile)之间的表现谱(expression profile)的相似性/不相似度。在本揭露中,CM score等于皮尔生相关系数。本揭露同时也测试了使用斯皮尔曼等级相关系数,并且其测试结果显示可产生相同的结果(未揭示)。
[0131] 在过去,与正常组织相比之下,组织预测测试通常对于癌组织只能有较低的准确性。因此,一个试数据集首先依据上述方法和材料被建构出。测试数据集主由27个独立GEO系列中的转录组数据组成(来自927个癌症和340个正常样本),其中样本涵盖肾、肝、肺、卵巢、前列腺、皮肤、睾丸和甲状腺。根据前述的程序计算试验数据集每个数组的CM score。CM score的得分越高,测试样本越类似于其基因表达模式的正常对照。
[0132] 为了检查是否癌症与正常中的50或56个基因谱上有不同,首先对于每个GSE数据集中的癌症组别或正常组别样本取得CM score的平均值。如表4所揭示,所有试验GEO数据集中正常组织的平均CM score显著高于癌症组织的,其代表癌组织与正常组织的标志基因的总表现谱具有显著偏离。来自正常组织的平均CM score大多在0.80以上,其标准偏差很少超过0.05,因此代表正常组织中56个基因的表现模式具有较佳的维持性。此种基因体阶级的表现模式是组织特异性的,并且也可以由基因的子集表现,例如24个器官/组织中的56个基因。这种器官或组织特异性基因模式是以基因之间的数值公式表示,而不是以相对于对照基因的过度表现(overexpression)或低表现(underexpression)的倍数变化做为表示。
[0133] 相比之下,癌症组织的平均CM score分布在更广泛的范围内,并且它们的标准偏差值高于正常组别。该现象代表癌组织中的整体基因表现模式与正常对照不相似。恶性肿瘤中的广泛的CM score代表多种基因表达模式,其也可以反映出肿瘤中的异质癌细胞,这也是癌细胞中存在多种突变的预期结果。
[0134] 3.应用于个体样本的正常和癌症之间的差异
[0135] 虽然整组癌症样本显示比正常对照组具有更显著低的CM score(如图2和表4所揭示),但是不清楚差异是由一小部分试验样本还是由大多数样本所贡献。因此,我们从表4中采样了一些数据集以仔细检查每个样本的CM score。而以此为目的所选择的数据集包含:GSE10072(具有49个正常样本和58个肺癌样本),GSE15641(23个正常样本和69个肾癌样本),GSE19804(60个正常样本和60个癌症样本),GSE6008(4个正常样本和99个卵巢癌),GSE62232(10个正常样本和81个肝癌样本),和GSE65144(13种正常样本和12种癌症样本)。
[0136] 表4
[0137]
[0138]
[0139] 如图3所揭示,来自六个分析数据集中的每一个的CM score基于CM score分布形成两个主要族群:一个是较高族群是来自位于较高CM score区域中的正常样本,另一个较低族群则是位于较低CM score区域的癌症样本。而由结果显示所有测试数据集中的两个族群均是清晰可分辨的,以至于一个可以用于区分两类型组织的分割点数值被鉴定出。
[0140] 4.CM score与不同基因组合的标记配合良好
[0141] 为了证明CM score可以区分癌症与非癌症,对从GEO所获得的4个全基因体表现数据集(whole-genome gene expression datasets)(例如:Gene Expression Omnibus,其为一个基因表现的公共数据库)进行统合分析。选择用于试验的数据集的标准包括:首先,数据集应代表不同的器官;其次,数据集应包含来自正常组织和癌症组织的样本。而依据上述条件所选择的数据集则如表5所揭示,其包括:GSE10072(其包含49个正常样本和58个肺癌样本)、GSE11151(其包含5个正常样本和62个肾癌样本)、GSE6008(其包含4个正常样本和95个卵巢癌症)、GSE65144(其包含有13个正常样本和12个甲状腺癌样本)。每个数据集均标有以GSE(prefixGSE)起始的GEO登录号。根据数据集的登录号,在括号中表示对肿瘤进行取样的器官。使用三种基因组合被使用作为进行癌症/非癌症鉴别的标志。除基因内容之外,三种标记中的每一种都由不同的基因数量组成(如表5所揭示)。
[0142] 如图3所揭示,针对四个数据集中的每一个数据集其决断分数均选择以0.8最为区分癌症与非癌组织。非癌症(或正常)组织之CM score将高于0.8(即相似性高于80%或相异性低于20%),而癌症组织之CM score将低于0.8(即相似性低于80%,或相异度高于20%)。而四个数据集的敏感度(灵敏度=真阳性/(真阳性+假阴性))和特异性(特异性=真阴性/(真阴性+假阳性))被进一步运算,其对应结果如表5所揭示:所有四个数据集的精准度、敏感性和特异性都很高。
[0143] 根据图3和表5的结果可以得出以下结论:(1)在大规模统合分析中所观察到的CM score差异(如表4所揭示)是由分析中大多数个体样本所造成而非部份具有「显著」值的样本所造成;(2)恶性肿瘤与其起源器官的整体基因表现谱确实存在显著差异;(3)特征可具有很大的潜力,且于大多数个案中发展成客观的癌症诊断方法以促进癌症的诊断。
[0144] 如表5中所揭示,以大约0.8的决断分数(即大约80%的相似性或大约20%的相似性)可以有效地分离除了甲状腺以外的各种器官中的癌症组织和正常组织。
[0145] 关于正常组织和癌症组织CM score分布之间的部分重迭,其可能原因可归于假阳性(false positives)和假阴性(false negatives)。举例来说,重迭区域的正常样本(即假阳性)可能被相邻的癌细胞污染,或者癌症样本中的肿瘤含量太低而无法在显微镜下观察到,但其却足以通过分子杂交而被侦测到。假阴性的其中一种可能性是,它可能超出CM score的检测范围以区分某些癌症亚型与其起源的正常组织。
[0146] 5.CM探针在临床样本中的应用
[0147] 为了了解CM score与癌症状态之间的可能关系,透过与中国台湾花莲慈济医院肿瘤外科合作而将CM分析直接应用于临床标本。恶性肿瘤的组织样本是在已经被诊断患有癌症且在慈济医院接受切除的患者的同意下所获得的。为了扩大正常组的组织样本数,从BioChain Inc.购买的「正常」肝脏的RNA样本也被纳入而共产生了27个样本,其包括:16个肝脏肿瘤样本、7个正常肝脏样本、2个胰腺肿瘤样本、1个甲状腺肿瘤样本和1个正常甲状腺样本。每个样本中的总RNA(total RNA)则依照标准方案的指示被萃取出,并且在使用RNA质量管控程序丢弃不合适的样本后,通过质量管控的RNA将进一步与Affymetrix HU133 plus2.0基因芯片的数组杂交。
[0148] 表5:当将CM score设定为0.8且使用不同基因组合作为癌症标志时,区分正常/癌症的敏感性和特异性
[0149]
[0150] 首先,计算每个样本的CM score。从医院的病历文件中检索每个患者的相应病理数据,且整合CM score以产生如表6中所揭示的结果。大多数正常样本显示CM score为0.79或更高,然而几乎所有肿瘤均显示其CM score低于0.81。CM score显著高于0.81的唯一肿瘤样本是样本#100T,其捐赠者仅表现出非常轻微的肝癌症状。此外,患者#100T其肝癌被归类为BCLC-A,其属于早期肝细胞癌。另一方面,正常样本#87显示其CM score为0.68是所有测试的正常样本中最低的。其匹配对应的肿瘤样本#88T恰好包括在本揭露中,并且在13个原发性肝细胞癌(HCC)样本中也显示出具有最低的CM score为0.55。与其他HCC标本相比,样本#88T的病理报告揭示其属于相对严重的恶性肿瘤。总之,这些结果均揭示CM score与肿瘤的恶性之间存在正相关。值得注意的是,此处的「正常」样本与来自非患有疾病的捐赠者的正常对照不同,此处的「正常」样本是患有癌症的器官的外围组织。因此,正常样本的CM score没有表现出与健康个体一样高的CM score并不值得意外。
[0151] 在27个样本中,4个肿瘤样本的CM score特别地低,其中3个被诊断为胆管癌(样本#8T、样本#16T和样本#386T)、1个(样本#206T)为胰腺癌的实性假乳突状瘤。上述可以在参照前述的652个基因转录谱对照代表正常组织的基因表现状态并且低CM score代表其与正常对照不相似之后得到合理的解释。因此,虽然肝脏中存在胆管癌,但由于它们起源于胆管,所以其与肝脏组织高度不同,且也因此其与正常肝脏的652基因转录谱相比之下其CM score非常低。胰腺癌中的实性假乳突状瘤是胰腺癌中的一种罕见形式,其主要是坏死诱导细胞死亡的结果。因此,这种肿瘤的形态和功能可能仅与正常胰腺组织的形态和功能些微相似,从而其与正常胰腺相比之下而导致低CM score的结果。
[0152] 因此,上述结果支持了本揭露的假设。
[0153] 6.CM score可能与肿瘤的恶性程度有关
[0154] 本揭露还发现CM score可能与肿瘤的恶性程度有关。举例来说,如表4中所揭露的四个皮肤癌数据集。其中三个(即GSE15605、GSE4587、GSE7553)含有来自黑色素瘤的样本(这是一种高度侵袭性且致命的皮肤癌类型),而另一个来自鳞状皮肤癌的是GSE2503,其与黑色素瘤相比较轻微。GSE2503中皮肤癌的CM score高于其他三个数据集中黑色素瘤的CM score。在来自肺癌的七个数据集中,最低的CM score出现在小细胞肺癌的数据集,其为一种快速扩散和高度侵袭性的肺癌亚型。同样地,在来自甲状腺癌的六个GEO系列中,其中五个来自乳突状甲状腺癌的CM score几乎与其正常对照组相同。乳突状甲状腺癌是最常见的甲状腺癌类型,并且已知的是其分化良好、生长缓慢且预后良好。而来自未分化甲状腺癌的癌症样本GSE 65144具有低CM score(0.37±0.12)。甲状腺未分化癌是一种非常具有攻击性但很少发现的甲状腺癌亚型。它的预后很差且对大多数治疗具有抵抗力。总之,通过上述我们可以了解这些临床样本的CM score均与癌症发展进程有关。
[0155] 7.以临床样本验证磁珠系统上的CM score与基因标志
[0156] 表6:用以微数组分析的花莲慈济医医院的临床样本的癌症特征
[0157]
[0158]
[0159]
[0160] 依据表5和表6所揭示,由结果显示决断分数(CM score)大约0.8可区分出癌症与非癌症,并且如果使用Affymetrix微数组进行mRNA定量的话则可以使用决断分数(CMscore)大约0.2以辨别原发性癌症与转移性癌症。令我们好奇的是,是否相同的决断分数也可适用于不同的技术平台,例如:磁珠系统。为了进一步验证,我们使用由Affymetrix Inc.所提供的Quantigene plex 2.0测试磁珠系统上的临床标本。首先,我们从32名在不同器官(包括:乳房、大肠、肝脏和胰脏)中患有癌症的患者获得肿瘤样本(如表7所揭示)。进一步地,样本的总RNA(total RNA)与预先键结到磁珠上的50或56基因标志探针进行杂交。计算来自个体样本的每个标志基因所产生的表现水平,且依照前述的常规计算程序得出CM score。由结果中我们发现所有原发性癌症的决断分数低于0.8(即低于相似性80%,或高于相异性20%)。当使用CM score为0.2(即,相似性20%或相异性80%)作为区分原发性和转移性癌症的决断分数时,分别获得100%、95%、97%的敏感性、特异性和准确性(如表8所揭示)。更进一步地,结果与表6中的分析一致。结果显示,当使用磁珠系统进行RNA定量时,分数约0.2至0.3(即相似性为20%~30%或相异性为70%~80%)可以有效地作为区分原发性癌症与转移性癌症的决断分数。
[0161] 表7:磁珠实验中使用的临床样本摘要
[0162]
[0163] 表8:在磁珠系统上进行mRNA定量时,当CM score阈值为0.2时可以有效地分辨原发性癌症与转移性癌症
[0164]
[0165] 8.良性肿瘤具有较高CM score
[0166] 乳突状甲状腺癌(即PTC)是甲状腺癌常见的亚型,其通常表现出相当良性的特征:分化良好、生长缓慢、不易侵入血管、治疗评分后预后良好等。如图4A所揭示,PTC样本的CM score似乎与正常样本非常接近,其反映了良性特征。虽然甲状腺未分化癌(即ATC,其为侵袭性的亚型甲状腺癌)的分数显著低于正常或PTC,但是值得注意的是,在国际、多学科学的和回顾性研究后,甲状腺包膜内泸泡型乳头状癌(EFVPTC)最近被重新分类并更名为「非入侵性滤泡甲状腺肿瘤乳头状核」(NIFTP),以更好地反映其生物学和临床特征并避免过度治疗患者。(Yuri E.Nikiforov,MD,PhD;RajaR.Seethala,MD;Giovanni Tallini,MD et al.JAMA Oncol.2016;2(8):1023-1029.doi:10.1001/jamaoncol.2016.0386)
[0167] 而在其他癌症中我们也观察到类似的结果。当将本发明所揭露的方法应用于包含良性肿瘤(平滑肌瘤)和子宫的子宫肌层正常组织的数据集(例如:GSE13319)时,这两个类别的CM score基本上彼此重迭如图4B所揭示,其代表良性肿瘤的非癌性之本质。GSE13319含有来自50个子宫肌瘤样本、子宫良性肿瘤样本的数据,以及27个子宫肌层样本(即子宫中间层组织)。在分析表现谱之后,平滑肌瘤的CM score分布几乎与子宫肌层的CM score分布重迭。平滑肌瘤的平均CM score(0.71±0.04)和子宫肌层的平均CM score(0.73±0.03)相当接近。
[0168] 总结来说,本发明内容揭示使用一个以基因为基础的新颖程序用于癌症诊断中,且更明确来说是在两个不同的实验系统(即使用高密度基因表达微数组和磁珠辅助的多基因表现系统)上利用五种基因组合。程序透过比较测试样本的所选基因(标志)表现谱与正常对照组的表现谱来产生一个分数,例如:CM score。在本揭示中的分数是皮尔生相关系数。更进一步地,有两个阈值:较高的阈值在大约0.8左右(即较高的相似性阈值在80%左右或较低的相异度阈值在20%),较低的值在0.2到0.3左右(即较低的相似性阈值在20%~30%,或更高的相异性阀值在70%~80%左右)。而CM score高于较高阈值的组织很可能是正常组织或良性肿瘤;低于第一个阈值但高于第二个阈值可能是原发性癌症;低于第二阈值可能是转移性癌症。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈