用于预测局部晚期胃癌预后的系统

申请号 CN201480024658.4 申请日 2014-04-07 公开(公告)号 CN105431737B 公开(公告)日 2017-11-24
申请人 诺瓦米克斯有限公司; 发明人 许镛敏; 卢圣勳; 郑载镐; 徐振锡; 朴恩成;
摘要 本 发明 涉及可预测局部晚期胃癌的 预后 的新型预后预测系统,更具体地,本发明可以通过对基因集的表达进行比较分析来预测经过胃癌 切除 术后的临床结果。
权利要求

1.一种计算机可读的记录媒体,该记录媒体中记录有用于运行无淋巴结转移的N0期胃癌的预后预测的程序,所述程序使得计算机运行如下步骤的程序:从患者采集的核酸样本中确定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达平并且将RNA的表达水平输入所述程序中;执行所述程序并且接着基于上述步骤中所确定的RNA的表达水平,通过以下公式1和2计算险分数(RS)和RS百分比(RS(%)),并从胃癌手术切除术后总生存(OS)的度上,当所述RS(%)的设定值范围为50%或以上时分类为高风险组,当所述RS(%)的设定值范围为25%或以上、且小于50%时分类为中度风险组,且当所述RS(%)的设定值范围小于25%时分类为低风险组:
【公式1】
RS=HR1*normLogTransValue1+HR2*normLogTransValue2+...+HRn*
normLogTransValuen;
【公式2】
RS(%)=100×(生物学样本的RS-总群组的RS最小值)/(总群组的RS最大值-总群组的RS最小值);
在上述公式中,HRn表示第n个RNA转录本的风险比,且当所述HRn小于1时,将HRn转换成-
1/HRn来使用,
normLogTransValuen指与第n个RNA转录本的表达相关的值,该值为相对于对应基因的总值以其中位数为中心进行大小变化的值,
所述总群组指,一定数量的具有TNM分期中无淋巴结转移的T1N0期、T2N0期、T3N0期或T4N0期局部晚期胃癌的群组,且一定数量是指能够计算RS最大值和最小值的任一整数。
2.根据权利要求1所述的记录媒体,其特征在于,所述记录媒体对TNM分期中无淋巴结转移的T1N0期、T2N0期、T3N0期或T4N0期局部晚期胃癌经过切除术后的临床结果进行预测。

说明书全文

用于预测局部晚期胃癌预后的系统

技术领域

[0001] 本发明涉及通过基因表达的对比分析法可预测局部晚期胃癌的预后的新型预测预后系统。

背景技术

[0002] 在2000年造成700,349名死亡的原因中,胃腺癌(Gastric adeno-carcinoma)是第二大死因,是世界上最常诊断出来的第四大癌症。胃腺癌被视为具有几种流行病学和组织病理学特征的单一的异质性疾病。胃癌的治疗主要依据临床参数如TNM(肿瘤、淋巴结、转移)分期,TNM分期用于决定能否仅通过手术或通过手术和化疗法来进行治疗。与乳腺癌和大肠癌不同,胃癌会根据TNM分期系统的I期至IV期具有明显差异。亦即,I期的五年生存率为90%或以上,而IV期的五年生存率小于20%,可见差异巨大。由此可知,TNM分期系统具有优异的预后预测能(参考文献、7th edition of the AJCC cancer staging Manual:stomach.Ann Surg Oncol2010;17:3077-3079)。基于TNM分期系统,胃癌通常被分为早期胃癌(Early Gastric Cancer)、局部晚期胃癌(Locally Advanced Gastric Cancer)、局部晚期浸润性胃癌(Locally Advanced Invasive Gastric Cancer)和转移性胃癌(Metastatic Gastric Cancer)等。
[0003] 尽管手术是可实施的胃癌的主要治疗方法,然而晚期胃癌的复发率比较高。为了预防复发并提高胃癌患者的预后,导入了包括化疗和化放疗的综合治疗方法。然而,这种治疗方法虽能改善患者的常规临床结果,然而肿瘤的临床病理学的异质性和处于相同分期内患者的不同结果对预测辅助性化疗的任务上能力有限,从而不能足以最佳地接近个别患者。
[0004] 肿瘤浸润和淋巴结转移的深度是胃癌中的两个主要预后因素。50%或以上的胃癌患者在诊断时伴有淋巴结转移,且出现了五年生存率小于30%的不良预后。因此,从胃癌患者中准确分类淋巴结转移是继胃癌根治术之后进行的治疗决定上起重要作用。然而,仅根据淋巴结的状态无法说明预后结果的异质性和化疗法药剂的任务。甚至于包括相同淋巴结分期的相同分期的患者都没有展示相同的预后结果。因此,原因在于内在临床异质性的肿瘤之间存在的鲜明的生物学差异是在研发治疗胃癌的新策略中的首要阶段。
[0005] 由于胃癌是在流行病学和组织病理学上存在差异的异质性疾病,想要理解那些影响胃癌患者的预后结果的生物学特征是比较困难的。胃癌的预后结果中虽有包括扩散型和肠型胃癌等胃癌亚类在内的很多不同的预后因素,然而主要还是受分期的影响。然而,虽处于相同分期,但具有异质性的预后结果,且无法完整地说明大部分的异质性。在相同分期内,对预后结果的差异中存在原因的遗传性特征的鉴定在选择患者的治疗方案中起极为重要的作用。然而,已研发的大部分遗传性特征不太可能得以再现,且在选择治疗方案时可使用的信息也不足,从而无法应用在临床上。阻碍遗传性特征的预后导入的其他重要因素在于,这些预后中的任一种预后在定义胃癌患者的预后结果时都不能控制分期。因此,有必要向处于相同分期内的患者导入预后预测因素。

发明内容

[0006] 技术问题
[0007] 本发明的目的在于提供一种新型的预后预测系统,该系统可以基于基因表达的险分数(Rsk Score,RS),并查明对局部晚期胃癌,尤其在N0期(N0区域淋巴结转移)对胃癌患者的临床结果产生影响的重要生物学特征。
[0008] 技术方案
[0009] 为了实现所述目的,本发明提供用于预测被诊断为胃癌的患者的预后的方法、该方法包括如下步骤:在包括从受试者采集的癌细胞的生物学样本中测定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI 1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本(transcript)的表达平;及基于所述步骤中所确定的RNA转录本的表达水平,计算所述生物学样本的风险分数(RS)和RS百分比(RS(%)),然后根据所述RS(%)判断预后。
[0010] 本发明提供用于预测被诊断为胃癌的患者的预后的方法、该方法包括如下步骤:在包括从受试者采集的癌细胞的生物学样本中测定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI 1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及将所述转录本表达的增加判断为积极临床结果的可能性的增加。
[0011] 所述预后的预测方法可以为,对TNM分期中T1NO期、T2N0期、T3N0期或T4N0期的局部晚期胃癌经过切除术后的临床结果进行预测。
[0012] 此外,本发明提供一种计算机可读的记录媒体,该记录媒体中记录有用计算机运行如下步骤的程序:从患者采集的核酸样本中确定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI 1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及基于上述步骤中所确定的RNA的表达水平,计算风险分数(RS)和RS百分比(RS(%)),并从总生存(Overall Survival,OS)的度上,当所述RS(%)的设定值范围为50%或以上时将患者分类为高风险组患者,当所述RS(%)的设定值范围为25%或以上且小于50%时将患者分类为中度风险组患者,且当所述RS(%)的设定值范围小于25%时将患者分类为低风险组患者。
[0013] 所述记录媒体可以预测对TNM分期中的T1NO期、T2N0期、T3N0期或T4N0期的局部晚期胃癌进行切除术后的临床结果。
[0014] 通过以下公式1和2,可以计算所述RS和RS(%):
[0015] 【公式1】
[0016] RS=HR1*normLogTransValue1+HR2*normLogTransValue2+...+HRn*normLogTransValuen
[0017] 【公式2】
[0018] RS(%)=100×(生物学样本的RS-总群组的RS最小值)/(总群组的RS最大值-总群组的RS最小值)。
[0019] 其中,HRn表示第n次RNA转录本的风险比(hazard ratio),当所述HRn小于1时,转换成-1/HRn来使用。
[0020] normLogTransValuen指与RNA转录本的表达相关的值,该值为相对于对应基因的总值以其中位数为中心进行大小变化的值。
[0021] 所述总群组指,一定数量的具有TNM分期中无淋巴结转移的T1NO期、T2N0期、T3N0期或T4N0期局部晚期胃癌的群组,其中一定数量是指能够计算RS最大值和最小值的任一整数。
[0022] 有益效果
[0023] 本发明可以从TNM分期中N0期胃癌患者组的总生存率的角度上制作预测模型,然后确定具有统计显著性且影响生存的RNA转录本的表达水平,从而建立风险评分系统来计算预后指标值,进而可以预测胃癌切除术后的临床结果。
[0024] 此外,本发明可以通过使用根据基因的生物学功能的基因集合系统来分析根据胃癌固有的生物学功能的基因组的分析。附图说明
[0025] 图1a-d展示了经过分散过滤后通过使用探针的无监督分层聚类分析(unsupervised hierarchical clustering analysis)来实现的两个主要的群集的预后结果。a)为经过分散过滤后在无监督分层聚类分析中使用的探针的数量和聚类分析中产生的两个主要分类在log rank检验分析中的预后p值。各群集会基于过滤标准来命名。M过后,第一个数字表示相对于各探针的平均值的倍数(fold)差异,第二个数字表示与第一个数字的倍数差异相比时显示高或低表达的探针的数量。例如,M2_3为选取具有至少3个样本的探针并经过分散过滤后利用该探针形成的群集,其中所述样本展示了平均值的2倍或以上的高或低的表达。b)为经过分散过滤后的2个主要群集的患者样本的分布。在log rank检验中,对良好预后组和不良预后组进行注释后,对两个主要分类的样本进行的聚类分析。c)展示了M2_5群集患者的Kaplan Meier Plot。P值是进行log rank检验后获得。d)展示了M3_3群集患者的Kaplan Meier Plot。P值是进行log rank检验后获得。
[0026] 图2展示了经过分散过滤后根据无监督分层聚类分析形成的两个主要代表群集。对M2_5进行的聚类分析为,对具有那些显示出比平均值增加或减少2倍或以上的至少5个样本的探针进行过滤后制成经过滤的1556个探针。对M3_3进行的聚类分析为,对具有那些显示出比平均值增加或减少3倍或以上的至少3个样本的探针进行过滤后制成经过滤的706个探针。
[0027] 图3展示了经过无监督聚类分析后对2个主要分类进行比较时显示出显著差异的基因及生物学特征,A)展示了通过使用根据M2_5的聚类分析形成的2个主要分类的比较中显示统计显著性(p<0.001和2倍差异,554个探针)的探针的附条件聚类的热图(heat map)。B)展示了通过使用根据M3_3的聚类分析形成的2种主要分类的比较中显示统计显著性(p<
0.001和2倍差异,453个探针)的探针的附条件聚类的热图。
[0028] 图4a-b展示了在Biocarta通路数据库中M2_5的两个主要分类组的GSEA分析结果(A)和M3_3的两个主要分类组的GSEA分析结果(B)。
[0029] 图5a-f展示了在GSEA结果(p<0.001)中显著增加的基因的表达,热图展示了M2_5的各分类组的平均表达水平。
[0030] 图6a-f展示了在GSEA结果(p<0.001)中显著增加的基因的表达,热图展示了M3_3的各分类组的平均表达水平。
[0031] 图7a-i展示了根据M3_3的分类组的NO胃癌患者的预后预测。根据M3_3聚类所定义的2个分类的比较中探针具有显著差异(p<0.001)。为了进行该分析,使用3个不同的预测算法(CCP、LDA和NC)。为了估计各模型的预测误差,使用留一法交叉验证(leave-one-out cross validation)。预后差异是通过log rank检验来进行估计。图7a-i中记载的A-C)展示了训练数据(YUSH数据)的预测结果的Kaplan Meier Plot。D-F)展示了验证数据(MDACC数据)的预测结果的Kaplan Meier Plot。G-I)展示了总样本数据(YUSH数据和MDACC数据)的预测结果的Kaplan Meier Plot。
[0032] 图8a-i展示了根据M2_5的分类组的NO胃癌患者的预后预测。根据M2_5聚类所定义的2个分类的比较中探针具有显著差异(p<0.001)。为了进行该分析,使用3个不同的预测算法(CCP、LDA和NC)。为估算各模型的预测误差,使用留一法交叉验证。预后误差是通过log rank检验来进行估计的。图8a-i中记载的A-C)展示了训练数据(YUSH数据)的预测结果的Kaplan Meier Plot。D-F)展示了验证数据(MDACC数据)的预测结果的Kaplan Meier Plot。G-I)展示了总样本数据(YUSH数据和MDACC数据)的预测结果的Kaplan Meier Plot。
[0033] 图9a-b展示了NO胃癌患者的预后结果中根据CGAP已定的功能基因分类的影响,图9a-b中记载的A)为YUSH、MDACC和总数据集中根据CGAP得到功能分类的基因的预后结果。无监督分层聚类分析是通过利用CGAP的功能基因分类中的基因来进行的。主要群集的预后差异是通过log rank检验进行比较。将log rank检验的p值转换为p值的对数,并用柱形图表表示。B)为显示各功能基因分类中的主要群集的差异的生物学特征。进行GSEA分析,将GSEA的统计显著性用p值的对数来表示。
[0034] 图10a-c展示了风险评分系统的百分比的生成。图10a-c中记载的A)展示了根据预测模型和CGAP的功能基因分类所定义的死亡率的热图。对总样本用根据分类组或群集定义的各分类组的死亡率进行注释,为了检查在预后结果中患者分布和功能生物学的各分类的影响,进行无监督聚类分析。B)为总样本数据集中的各患者的风险分数的百分比。C)为YUSH样本数据集中的各患者的风险分数的百分比。D)为MDACC样本数据集中的各患者的风险分数的百分比。E-G)展示了3个不同的数据集(YUSH、MDACC和总样本数据集)中以%风险分数定义的3个不同的风险组(高、中度和低风险组)的Kaplan Meier Plot。将3个不同的风险组之间的预后差异的显著性通过log rank检验来定义。

具体实施方式

[0035] 下面,将详细地说明本发明的结构。
[0036] 为了在无淋巴结转移的相对早的分期内定义胃癌患者的预后差异中存在原因的主要生物学特征,本发明的发明人是从无淋巴结转移的患者中制作全基因组的基因表达谱。为此,在改变过滤标准的同时进行连续分散过滤,然后使用无监督分层聚类分析(unsupervised hierarchical clustering analysis)方法。根据聚类分析所定义的2个主要分类组进行log rank检验,来对预后结果进行推测。由于可通过使用能够显示每名癌患者的全部生物学特征的基因进行自动分析,那些显示互不相同的预后组的生物学特征为预后差异中存在原因的主要生物学特征,且可被用作研发治疗方案中的潜在靶。
[0037] 分析结果表明,NO期胃癌患者的预后差异中存在原因的2个不同的生物学特征(细胞增殖和免疫应答)得到了鉴定,所述2个生物学特征,与基于分散过滤的分类组或CGAP的功能基因分类无关,通常会存有较多。在独立的数据集中验证能够展示细胞增殖和免疫激活的生物学特征的分类组,并在log rank检验中展示出与训练数据集相似的预后结果。通过留一法交叉验证法测试校准预后比,结果可知,根据分类组的类型和预后预测算法,显示的范围为85~96%。与正常细胞相比时,大多数癌细胞具有更高的增殖率,因此良好预后组中与细胞增殖相关的基因表达有增加的结果是预料不到的。然而,早期胃癌的细胞增殖比晚期胃癌的细胞增殖要强得多,因此可推测细胞特征为干细胞特征的获得和转移潜力的变化。用于说明具有较高细胞增殖的患者的良好预后结果的另一要素在于,化疗法药剂所起的作用。在接受过化疗法药剂治疗的患者中,具有高表现的细胞增殖特征的患者展示出如预想的良好反应。然而,没有接受化疗药剂治疗的患者只有在与那些接受化疗法药剂治疗的患者相似具有高表现的细胞增殖特征时才能展示良好的预后结果,从而MDACC验证数据集的预后结果无法得到这种想法的支持。因此,具有高表现的增殖特征的良好预后结果的原因在于,除了化疗法药剂的敏感性外,还在于反映细胞增殖生物学的生理上的巨大差异。
[0038] 经发现,免疫活化特征能够影响无淋巴结浸润的胃癌患者的良好预后,这证明了免疫活化,尤其在癌患者的治疗中CTL的活化状态能起重要作用。免疫应答的有意作用已在与胃癌的下游非前哨淋巴结转移相关的前哨淋巴结中能够提供高的Foxp3阳性调节T-细胞密度的胃癌中做过报道。在几篇论文中报道过,肿瘤进展调节中免疫活化的重要作用,且通常作为不同治疗方法而被很多种类的癌所接受。根据照射致死量的放射线和处理疫苗的活化免疫治疗、为了分泌GMCSF而制成的自体肿瘤细胞和细胞毒性T淋巴细胞相关抗原-4(CTLA-4)的抗体封闭,是通过靶向肿瘤血管生成来破坏肿瘤血管结构的。据我们所知,作为免疫耐受,尤其作为对肿瘤抗原特异的T细胞的主要机制的肿瘤捕获(co-opt)特异免疫检查点的通路。通过T细胞受体的抗原识别,开启T细胞反应的极限扩大和质量,并通过共同刺激和平衡控制信号来调节。共同调节受体的激动剂和抑制信号的拮抗剂均能增强抗原特异性T细胞的反应,免疫检查点的封闭在治疗人类癌症时显示出抗肿瘤免疫应答的潜力。尤其,CTLA-4作为重要的免疫检查点受体能够下调T细胞活化强度。CTLA-4抗体作为免疫治疗剂已获得美国FDA的承认,且利用了拮抗性CTLA-4抗体的临床研究证实了在晚期黑人患者中的存活优势。因此,在胃癌患者的治疗中导入拮抗性CTLA-4抗体的方法是,治疗那些在早期NO患者中得到不良预后结果的患者的另一种方法。本发明中阐明的基因特征可以在治疗方法中对适宜患者的选择起指导性作用。
[0039] 本发明的发明人证明了,主要由细胞增殖相关特征和免疫应答相关特征组成的两个不同的生物学特征就是在NO期胃癌患者的预后结果中存在原因的主要生物学特征。根据他们的发现,本发明的发明人建议向胃癌患者导入免疫治疗和选择患者时为了最大程度发挥免疫治疗的优势应基于基因特征来进行治疗。
[0040] 因此,本发明提供一种预测获得胃癌诊断的受试者的预后的方法,该方法包括如下步骤:在包括从受试者采集的癌细胞的生物学样本中测定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI 1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及
[0041] 基于上述步骤中所确定的RNA转录本的表达水平,计算所述生物学样本的风险分数(RS)和RS百分比(RS(%)),并根据所述RS(%)判断预后。
[0042] 本发明的预后预测的方法的特征在于,作为决定胃癌患者的临床结果的2个主要生物学特征的免疫活化和细胞增殖相关的基因中,在CGAP(癌肿基因组解剖学计划)中所发现的经过功能分类的基因组(functional categorized gene group)中,将通过COX回归分析而具有统计显著性(p<0.001)的基因选为预后相关的靶基因,且将所述基因的风险比(hazard ratio)与基因的表达值相乘,并根据以下公式1和2计算风险分数和RS百分比(RS(%)),然后从总生存(OS)的角度上,当所述RS(%)为50%或以上时将所述样本分类为高风险组,当所述RS(%)25%或以上且小于50%时将所述样本分类为中度风险组,且当所述RS(%)小于25%时将所述样本分类为低风险组,从而预测获得胃癌诊断的受试者的预后。
[0043] 根据以下公式1和2,计算所述RS和RS(%):
[0044] 【公式1】
[0045] RS=HR1*normLogTransValue1+HR2*normLogTransValue2+...+HRn*normLogTransValuen
[0046] 【公式2】
[0047] RS(%)=100×(生物学样本的RS-总群组的RS最小值)/(总群组的RS最大值-总群组的RS最小值)
[0048] 在上述公式中,HRn表示第n次RNA转录本的风险比(hazard ratio),当所述HRn小于1时,通过转换成-1/HRn来使用。
[0049] normLogTransValuen指RNA转录本的表达相关值,该值为相对于对应基因的总值以其中位数为中心进行大小变化的值。
[0050] 所述总群组是指,一定数量的具有TNM分期中无淋巴结转移的T1NO期、T2N0期、T3N0期或T4N0期局部晚期胃癌的群组,其中一定数量是指能够计算RS最大值和最小值的任一整数。
[0051] 所述总群组的数量不受特别限制,在一个具体实施例中,将TNM分期中无淋巴结转移的T1NO期、T2N0期、T3N0期或T4N0期局部晚期胃癌的158个组织用作总群组。
[0052] 在所述公式中,术语“风险比(Hazard Ratio:HR)”是指,反映对癌症的进展、复发或疗法反应的贡献程度的系数。风险比可通过各种统计方法导出。所述风险比,即HR值可在各种统计学模型得到确定,例如,可在多变量COX比例风险回归分析中得到确定。在一个具体实施例中,将HR值导入RS公式中,当HR值等于或大于1时可直接使用原来的HR值,而当HR值小于1时可以使用-1/HR值。
[0053] 此外,在所述公式中,RNA转录本的表达值是指,与单独的基因,即与RNA转录本的表达相关的值。所述值可通过各种公知的统计方法进行确定。例如,表达数据可以使用,根据COX回归分析中测得的p值在通过进行以2为底的对数变换和分位数归一化(quantile normalization)后获得的值。所述公式1中所用的表达值使用相对于对应基因的总值以其中位数为中心进行大小变化的值。
[0054] 根据一个具体实施例,可以将RS确定为如下:
[0055] RS=-GART×3.584+PTN×3.631-PCNA×2.7027+GLI3×4.073+SMARCD3×2.266-SULT1A3×3.278+ILK×2.251-FUCA1×2.80899+PKD1×2.827-TOP2A×1.7668+ABL1×
2.784-CKS2×1.9685+FZD1×4.302-TIAL1×4.2553+SGCD×2.494-PIGF×2.6525-CCNB1×
2.4272-CSK×3.2573+CRYAB×1.524+TPM1×2.975-RFC4×2.817+GUCY1B3×2.801-TYMS×
2.0617-FEN1×2.3148+GNAI 1×2.758+CSRP1×1.642-UNG×2.695+AXL×2.018+MAP1×
B1.705+VCL×2.478+ITGA5×1.642-LIG1×2.841-HPRT1×2.95-GRB2×3.636-HMMR×
1.98-MCM4×2.02+SRF×2.287+DMPK×1.925-ACP5×2.551-CD38×2.16-PRIM1×3.003-
CCNF×2.024+GLRB×2.138-IFNAR2×3.717+HSPA2×1.734-CLN3×2.445-BUB1×1.74+
CALM1×2.839-CDC2×1.562+ATF4×5.677-RRM1×3.717
[0056] 根据上述公式1计算的RS可根据所述公式2表示为RS(%)。
[0057] 将在上述确定的值转换成总群组中的相应顺序,并从总生存(OS)的角度上,将RS(%)为50%或以上的样本分类为高风险组,将RS(%)等于或大于25%且小于50%的样本分类为中度风险组,且将RS(%)小于25%的样本分类为低风险组。可判读,高风险组为不良预后,而低风险组为良好预后。亦即,RS(%)为50%或以上的高风险组意味着在3年或以上、6年或以上、10年或以上的期间内的总生存(OS)低,而RS(%)小于25%的的低风险组意味着在3年或以上、6年或以上、10年或以上期限内的总生存高。所述术语“良好预后”表示临床结果的积极临床结果可能性的增加,而“不良预后”表示临床结果的积极临床结果可能性的降低。
[0058] 所述方法可以有助于预测TNM分期中的NO期胃癌患者组,如T1NO期、T2N0期、T3N0期或T4N0期局部晚期胃癌在切除术后的临床结果。
[0059] 本发明的预后预测方法中所用的所述基因可被分成参与免疫应答和细胞增殖的基因集,在良好预后组中的表达有统计显著的增加。
[0060] 参与免疫应答的基因集:GART、PTN、SULT1A3、FUCA1、PKD1、ABL1、TIAL1、SGCD、PIGF、CSK、CRYAB、TPM1、GUCY1B3、GNAI 1、CSRP1、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、CD38、GLRB、IFNAR2、HSPA2、CLN3、BUB1、ATF4和RRM1
[0061] 参与细胞增殖/DNA修复的基因集:PCNA、GLI3、SMARCD3、ILK、TOP2A、CKS2、FZD1、CCNB1、RFC4、TYMS、FEN1、UNG、MCM4、SRF、DMPK、ACP5、PRIM1、CCNF、CALM1和CDC2[0062] 所述参与免疫应答的基因集主要与抗原处理与递呈(MHC通路)和IFN-r信号传导通路相关,除此之外,还与Th1/Th2分化(TH1TH2通路)、相对于靶细胞的CTL介导的免疫应答(CTL通路)、NK细胞中NO2依赖的IL12通路(NO2IL12通路)、T细胞活化中Tob的作用(TOB1通路)、Th1发育时的IL12和Stat4依赖性信号传导通路(IL12通路)及细胞毒性T细胞膜表面分子(T细胞毒性通路)相关。
[0063] 所述参与细胞增殖/DNA修复的基因集会与癌敏感性(ATR BRCA通路)中BRCA1、BRCA2和ATR的作用、对DNA损伤(cdc25通路)的应答中cdc25和chk1调节通路,细胞周期蛋白和细胞周期调节(细胞周期通路)、细胞周期蛋白E破坏通路(FBW7通路)、细胞周期:G1/S检查点(G1通路)、细胞周期:G2/M检查点(G2通路)、CDK调节(MCM通路)、细胞周期进展中p27磷酸化调节(P27通路)、用于调节细胞周期的Sonic Hedgehog(SHH)受体Ptc1(PTC1通路)、对DNA损伤的应答中RB肿瘤抑制因子/检查点信号传导(RB通路)及E2F1破坏通路(SKP2E2F通路)相关。
[0064] 本发明还提供一种预测获得胃癌诊断的受试者的预后的方法,该方法包括如下步骤:在包含从受试者采集的癌细胞的生物学样本中检测GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI 1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及
[0065] 将所述转录本表达的增加判断为获得积极临床结果的可能性的增加。
[0066] 所述方法可以为阵列基片法。
[0067] 所述表达水平可以通过与一个或多个RNA转录本的表达水平比较而进行归一化。
[0068] 所述临床结果可以在总生存(OS)的角度上进行表示。
[0069] 所述方法可通过测定RNA转录本的全部表达水平并分析表达的增加来判断积极临床结果的可能性的增加或降低而预测预后。
[0070] 所述方法可有助于预测TNM分其中无淋巴结转移的T1NO期、T2N0期、T3N0期或T4N0期的局部晚期胃癌经过手术切除后的临床结果。
[0071] 本发明还提供一种计算机可读记录媒体,该记录媒体中记录有用计算机运行如下步骤的程序:从患者获得的核酸样本中确定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI 1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;及
[0072] 根据上述步骤中所确定的RNA的表达水平,计算风险分数(RS)和RS百分比(RS(%)),并从总生存(OS)的角度上,当所述RS(%)的设定值的范围为50%或以上时将患者分类为高危险群患者,当所述RS(%)的设定值的范围为25%或以上且小于50%时将患者分类为中间危险群患者,且当所述RS(%)的设定值范围小于25%时将患者分类为低危险群患者。
[0073] 所述记录媒体提供有助于预测TNM分其中无淋巴结转移的T1NO期、T2N0期、T3N0期或T4N0期的局部晚期胃癌在经过切除术后的临床结果的媒体。
[0074] 所述RS和RS(%)可根据所述公式1和2来计算。
[0075] 所述记录媒体在总生存(Overall Survival,OS)上将RS(%)为50%或以上的样本分类为高风险组,将RS(%)等于或大于25%且小于50%的样本分类为中度风险组,且将RS(%)小于25%的样本分类为低风险组。亦即,可判断,RS(%)为50%或以上的高风险组意味着在3年或以上、6年或以上、10年或以上的期间内的总生存(OS)要低,而RS(%)小于25%的的低风险组意味着在3年或以上、6年或以上、10年或以上期限内的总生存要高。所述术语“良好预后”表示临床结果的积极临床结果可能性的增加,而“不良预后”表示临床结果的积极临床结果可能性的降低。
[0076] 如没有其他定义,本文中使用的技术和科学术语与本领域的技术人员的通常理解具有相同的意义。本发明不会受任何方式的说明方法和材料的限制。为了本发明的目的,在下面定义以下术语。
[0077] 术语“微阵列”是指,在基质上可杂交的阵列组成要素,优选为多核苷酸探针的有规律的排列。
[0078] 术语“多核苷酸”通常指任一的多核糖核苷酸(polyribonucleotide)或多聚脱核糖核苷酸(polydeoxyribonucleotide),例如,可指修饰的或非修饰的RNA或DNA。在本发明中,“多核苷酸”具体包括cDNA。
[0079] 术语“寡核苷酸”是指,不受限制地包括单链脱氧核糖核苷酸、单链或双链核糖核苷酸、RNA:DNA杂交及双链DNA的较短的多核苷酸。寡核苷酸,例如,单链DNA寡核苷酸探针通常如通过使用可购买的寡核苷酸自动合成仪的化学方法来合成。然而,寡核苷酸可以通过包括试管中DNA介导的重组技术在内的各种不同方法及细胞与有机体内的DNA表达来制成。
[0080] 术语“差异表达基因”或“差异基因表达”是指,与正常或对照用受试者的表达相比,在患有胃癌等癌的患者体内得到更高或更低水平的活化的基因。此外,“差异表达基因”或“差异基因表达”包括相同疾病的不同分期内得到更高或更低水平的活化的基因。差异表达基因还可以在核酸或蛋白质水平上被活化或受抑制,或经过其他剪接而生成不同的多肽产物。这种差异可通过如多肽的mRNA水平、表面显示、分泌或其他分配上的变化而得以证明。从本发明的目的出发,将“差异基因表达”视为从正常的或患有疾病的受试者中,或从患有疾病的受试者的各分期中的取得的基因的表达之间存在1.5倍或以上、约4倍或以上、约6倍或以上、约10倍或以上的差异时存在的现象。
[0081] 与基因转录本或基因表达的产物相关的术语“归一化”是指与标准基因集的转录本/产物的平均水平相比时的转录本或基因表达产物的水平,其中内参基因是通过患者、组织或治疗并基于这些基因的最低变化来进行选择(“管家基因(housekeeping gene)”),或内参基因是指被测试的整体基因。当指后者时,通常被称为“整体归一化(global normalization)”,关键点在于所测基因的总数要较大,优选为超过50。具体地,与RNA转录本相关的术语“归一化”是指与标准基因集的平均转录水平相比时的转录水平。
[0082] 术语“表达阈值”可与“被定义的表达阈值”相混用,此时,“表达阈值”可指将基因或基因产物用作对患者反应的预测标记时的相应基因或基因产物的水平。阈值是一般在临床研究中通过实验方式进行定义。表达阈值可被选作最大敏感性、或最大选择性(如,仅选择对一种药物有反应的对象)、或最小误差。
[0083] 术语“基因扩增”是指,在特定细胞或细胞株中形成基因或基因片段的多个拷贝的过程。复制区域(扩增的DNA长度)常被称为“扩增子”。通常,生成的mRNA的量,即基因表达水平还与特异基因的拷贝数成比例增加。
[0084] 在本发明中,“预后”用来预测本发明的因癌死亡或如胃癌等肿瘤性疾病的进展(包括复发、转移性扩散及耐药性)的可能性。术语“预后”用来说明本发明的患者在经过主要肿瘤的切除术后无癌症复发下生存特定期间的可能性。这种预测是通过对任一特定患者选择最适宜的疗法而在临床上可用来确定治疗。这种预测可在患者对治疗养生,例如对能否易于对手术做出积极反应,或患者在手术结束后能否长期存活的判断成为宝贵的工具。术语“预后指标”可与“风险分数”相混用。
[0085] 如没有其他说明,可使用现有的分子生物学(包括重组技术)、微生物学、细胞生物学及生物化学的技术来实施本发明。
[0086] 1.基因表达谱的制作(Profiling)
[0087] 基因表达谱的制作方法可包括基于多核苷酸的杂交分析的方法、基于多核苷酸序列的方法及基于蛋白组学的方法。例如,mRNA表达的定量方法包括:northern blotting和原位杂交;RNAse保护检测试验;和基于PCR的方法,如逆转录-聚合酶链反应(RT-PCR)等。又或,可以使用用来识别包括DNA双链、RNA双链和DNA-RNA杂交双链或DNA-蛋白质双链在内的特异双链的抗体。基于序列的基因表达分析中具代表性的方法包括,基因表达系列分析(SAGE)和根据大规模平行信号测序(MPSS)的基因表达分析。
[0088] 2.微阵列
[0089] 从新鲜的或石蜡包埋的肿瘤组织中测定癌相关基因的表达谱。在该方法中,将受关注的序列(包括cDNA和寡核苷酸)平铺或排列于微芯片的基片上。然后,将排列的序列与受关注的细胞或组织中的特异DNA探针进行杂交。与RT-PCR法相同,mRNA的典型来源为从人的肿瘤或肿瘤细胞株、和相应的正常组织或细胞株中提取出来的总RNA。因此,RNA可以从各种主要肿瘤或肿瘤细胞中进行提取。微阵列技术能将cNDA克隆的PCR扩增的插入物以密集阵列形式提供在基片上。优选地,在基片上添加10,000或以上的核苷酸序列。在严格条件下,将10,000个元件适于分别地与在微芯片上进行固定并微排列的基因进行杂交。作荧光标记的cDNA探针是根据从受关注的组织中提取的RNA的反转录而通过掺入荧光素核苷酸来形成的。添加于芯片中的标记cDNA探针与阵列上的DNA各点进行特异性杂交。为了去除非特异性结合的探针,进行严格清洗,并通过激光共聚焦显微镜或其他检测方法如CCD相机对芯片进行扫描。通过对排列的每个元件的杂交进行定量化,可以评估相应mRNA的过量表达。当所述荧光为双色荧光时,从两个RNA来源生成并经过分别标记的cDNA探针在阵列上进行成对杂交。因此,能同时确定与所明示的基因分别对应的两个来源中的转录本的相对过量的表达。通过小规模杂交即可对为数众多的基因的表达模式进行方便且迅速的评价。这种方法具有所需的敏感性,从而能检测稀有转录本(其以细胞为单位表达成少量拷贝数),以及在表达水平上具有至少约2倍的差异而能够实施可再现的检测。微阵列分析可利用可购买的仪器并根据制造商的规定,如通过使用Affymetrix GenChip技术或Incyte's微阵列技术来实施。
[0090] 3.关于mRNA提取、纯化及扩增的一般说明
[0091] 下面,说明通过使用石蜡包埋的组织的基因表达谱的制作技术。通过分析最终获得的数据,基于所观察到的肿瘤样品中所能确认的特异基因的表达模式,辨别出可用于患者的最佳治疗选择项目。
[0092] 本发明的关键在于,通过利用癌组织的特异基因的特异表达来提供预后信息。为此,必须对经过校准测试的RNA的量、所用的RNA质量的变化及其他因素,如仪器和操作人的差距上的差异,进行校准处理(归一化)。因此,校准测试通常是测定标准RNA的使用并进行掺入,该标准RNA包含从公知管家基因如GAPD和ACTB转录的产物。对基因表达值进行归一化的正确方法在文献【"User Bulletin#2"for the ABI PRISM 7700Sequence Detection System(Applied Biosystems;1997)】中提供。相区别的是,归一化是将经过校准测试的基因或它们的众多子集总体的平均值或中间信号(Ct)设定为标准值(全归一化接近法)。在下面的实施例所说明的研究中使用了被称为中心归一化的策略,为了进行归一化处理,该策略使用基于与临床成果的相关性的缺乏来选取的经过筛选的基因子集。
[0093] 术语“训练集”是指,用于提取对预后具有统计显著性的RNA转录本的靶样本。
[0094] 术语“验证集”或“测试集”是指,所述提取的变量实际上测试预后的良好与否的准确度的判断集合。使用此方法的原因在于,不仅是特定样本组具有有效判断预后的能力,而且为了判断对独立样本同样有效。
[0095] 4.对于复发的风险分数及其应用
[0096] 用于区分关于胃癌复发的可能性的癌预后方法的运算方法,其特征包括:1)用来测定复发可能性的独特试验mRNA集(或相应基因的表达产物);2)用于将表达数据带入公式的特定加权值;和3)用于将患者划分为风险程度不同的组如低、中和高风险组的阈值。通过该运算方法可以计算风险分数(RS)和RS(%)的数值。
[0097] 试验需要进行用来测定明示的mRNA或这些mRNA的表达产物的水平的实验室校准测试,然而可以使用少量的新鲜组织或冷冻组织、或者必然从患者中采集并保存下来且经固定后被石蜡包埋的肿瘤活检测试物。因此,试验可以为非浸润性测试。例如,与通过核心活检或细针穿刺来收集的肿瘤组织的几种不同方法具有兼容性。根据该方法,通过以下步骤确定癌风险分数(RS):
[0098] (a)用生物学样本制作基因或蛋白质表达谱,所述生物学样本包括从所述患者采集的癌细胞;
[0099] (b)通过对多个单独的基因的表达水平,即对mRNA水平进行定量,从而确定对每个基因的表达值;
[0100] (c)生成基因表达值的子集,该子基因表达值的子集包括分别通过癌相关的生物学函数和(或)共表达进行连接的基因的表达值;
[0101] (d)在一个子集合内每个基因的表达水平与反映对于所述子集的癌复发反应的相对贡献程度的系数相乘,然后对所得值求和,从而计算所述子集的值;
[0102] (e)与每个子集相对应的值与反映对于所述子集的癌复发反应的相对贡献程度的系数相乘;
[0103] (f)对通过每个子集分别与所述系数相乘而获得的值进行相加,从而获得风险分数(RS)和RS(%),
[0104] 其中,与癌的复发没有呈现线性相关关系的各子集的贡献程度仅包括一定阈值或以上的值,所明示的基因的所增加的表达能够降低癌复发风险的子集被赋予负值,所明示的基因的表达能够增加癌复发风险的子集被赋予正值。
[0105] 在具体实施例中,RS和RS(%)为:
[0106] (a)测定GART、PTN、PCNA、GLI3、SMARCD3、SULT1A3、ILK、FUCA1、PKD1、TOP2A、ABL1、CKS2、FZD1、TIAL1、SGCD、PIGF、CCNB1、CSK、CRYAB、TPM1、RFC4、GUCY1B3、TYMS、FEN1、GNAI 1、CSRP1、UNG、AXL、MAP1B、VCL、ITGA5、LIG1、HPRT1、GRB2、HMMR、MCM4、SRF、DMPK、ACP5、CD38、PRIM1、CCNF、GLRB、IFNAR2、HSPA2、CLN3、BUB1、CALM1、CDC2、ATF4和RRM1的RNA转录本的表达水平;
[0107] (b)根据下面公式1和2,计算并确定风险分数(RS)和RS(%):
[0108] 【公式1】
[0109] RS=HR1*normLogTransValue1+HR2*normLogTransValue2+...+HRn*normLogTransValuen
[0110] 【公式2】
[0111] RS(%)=100×(生物学样本的RS-总群组的RS最小值)/(总群组的RS最大值-总群组的RS最小值)
[0112] 其中,HRn表示第n次RNA转录本的风险比(hazard ratio),当所述HRn小于1时,将其转换成-1/HRn来使用,
[0113] normLogTransValuen指与RNA转录本的表达相关的值,该值为相对于对应基因的总值以其中位数为中心进行大小变化的值。
[0114] 所述总群组指具有一定数量的具有TNM分期中无淋巴结转移的T1NO期、T2N0期、T3N0期或T4N0期局部晚期胃癌的群体,其中一定数量指能够计算RS最大值和最小值的任一整数。
[0115] 其中,当RS(%)值为50%或以上时,判断为不良预后,而当RS(%)值小于25%时,判断为良好预后。
[0116] 实施例
[0117] 下面,根据本发明的实施例进行具体说明。然而,以下实施例仅为本发明的示例,本发明的内容不限于以下实施例。
[0118] 【制备实施例】预后预测的靶的选择及实验设计
[0119] 为了选择预后预测的靶,收集了1999年至2006年为止在延世大学校SEVERANCE医院作为一线治疗接受过胃切除术的胃腺癌患者(YUSH,n=78)的肿瘤标本和临床数据。所有样本都是让患者签署记载有详细内容的同意书之后采集的,且该项研究也通过了延世大学校SEVERANCE医院的调查伦理委员会的承认。临床数据是追溯以前的数据来获得的。总存活期限被定义为从手术至死亡的期限,数据则视为在与患者进行最后接触时患者在活着的情况下接受了检查。YUSH数据用来查明主要在预后结果中存在原因的生物学特征,且作训练数据集来使用,从而用来开发预后预测模型。
[0120] 为了验证预后预测模型和风险评分系统,在本发明中使用了MD安德森癌症中心所制作的基因表达谱。肿瘤标本和临床数据来源于1999年至2006年为止在延世大学校SEVERANCE医院、高丽大学校九老医院和高神大学校医科大学中作为一线治疗接受过胃切除术的胃腺癌患者。所有样本都是让患者签署记载有详细内容的同意书之后采集的,且该项研究通过了MD安德森癌症中心的调查伦理委员会的承认。
[0121] (基因表达数据)
[0122] 对YUSH数据集的78个样品的实验及分析是在延世大学校SEVERANCE医院完成的。基因表达谱是通过将包含有48803个基因特征的Illumina人类株阵列(Illumina human bead arrays,HumanHT-12,v3.0,Illumina,San Diego,CA)与经过标记的cRNAs进行杂交来制作。总RNA是通过使用mirVanaTM RNA分离标记试剂盒(Ambion公司)从新鲜的冷冻组织中提取。根据制造企业(Illumina)的说明书,为了标记和杂交而使用500ng的总RNA。所述株芯片可用Illumina BeadArray扫描仪进行扫描,然后在R语言环境(Bolstad BM,2003)中的用于微阵列数据(LIMMA)包的线性模型中,根据分位数归一化法对微阵列数据进行归一化处理。在NCBI基因表达GEO公开数据库(microarray platform GEO0000,microarray data GEO0000)中可使用第一次微阵列数据。对MDACC数据集的80个样本进行的实验和分析与YUSH数据集相同,是在MD安德森癌症中心的系统生物学院实施的。在NCBI基因表达GEO公开数据库(microarray platform GEO0000,microarray data GEO0000)中可使用MDACC数据集的第一次微阵列数据。
[0123] (微阵列数据分析)
[0124] 聚类分析是用群集和TreeView(http://rana.lbl.gov/EigenSoftware.htm)来实施的。为了进行聚类分析,经过以2为底的对数变换的数据记录了各基因表达值的中位数。为了制作患者之间具有不同表达水平的基因,改变过滤标准并连续进行基因过滤。在实施连续分散过滤后进行无监督聚类分析,由两个主要群集组成的2个类(class)的预后差异可通过log rank检验和Kaplan Meier Plot进行测试。
[0125] 为了微阵列数据集的分析,使用了BRB ArrayTools Version 4.1(http://linus.nic.nih.gov./BRB-ArrayTools.html)。在进行主要数据的分析前和在分位数归一化后,对数据集进行以2为底的对数转换。为了鉴定经比较的两个级别中表达有显著差异的的基因,对两个样本进行t检测。为了查明主要的生物学功能和基因通路的特征,在Biocarta数据库中对所罗列的281个通路进行GSEA分析(基因集富集分析)。
[0126] 为了制作预后预测模型,将YUSH数据用作训练集,且将MDACC数据集用作验证集。为了预测独立患者的数据集的分类,使用基于已研发的3个不同的预测算法的预测模式(线性判别分析(Linear Discriminant Analysis,LDA)、混合共变预测法(Compound Covariate Predictor,CCP)和最近质心法(Nearest Centroid,NC))。如同根据两个样本测试进行评估时一样,使所述模型在0.001显著水平上与基因之间的差异表达相结合。为了估计各模型的预测误差,可使用留一法交叉验证法(LOOCV)。为了用留一法交叉验证训练集,可反复进行包括基因筛选在内的整体模型构建过程。此外,还评估了以下项目,即能否在任一预测中预期交叉验证错误率估值显著小于1的结果。为了评估预测模型的预后能力,使用用来制作预测模型的验证数据集,并通过使用Kaplan Meier Plot和log rank检验评估其结果。
[0127] 为了评估分类的患者组的预后差异,使用Kaplan Meier Plot和log rank检验。
[0128] 为了评价作为共变量的与独立预后因子相关的生存、基因特征、肿瘤分期和病理学特征,可使用多变量COX比例风险回归分析。
[0129] (预后风险评分系统的开发)
[0130] 为了构建基于肿瘤的发生和转移中存在原因的基因的风险评分系统,实施从CGAP中带有注释的基因中按功能进行分类的基因的预后影响。风险评分系统是通过使用CGAP中带有注释的基因来建立的,且在COX回归分析(p<0.001)中具有有意义的预后值。风险评分是通过表达值中的中位数乘于风险系数(HR)并对所得值求和来获得的。HR值小于1时,将其转换成-1/HR。根据以下公式计算风险分数的百分比。
[0131] RS(%)=100×(生物学样本的RS-总群组RS的最小值)/(总群组RS的最大值-总群组RS的最小值)
[0132] 将RS(%)为50%或以上的样本分类成高风险组,且将RS(%)为25%或以上且小于50%的样本分类成中度风险组。最后,将RS(%)小于25%的样本分类成低风险组。
[0133] 【实施例1】NO胃癌患者的基因表达谱的调查
[0134] 通过改变过滤标准来连续进行分散过滤,生成由独特的两种主要群集组成的15个群集。经过分散过滤后,多数基因具有701~5612个探针,是多种多样的,且在log rank检验中基于分散过滤标准的p值具有各种值,其中最大值为0.291(M2_1:通过对具有至少一个与中位数相比时显示2倍或以上的增加或减少的探针的基因进行选择并经过分散过滤后具有5612个探针的群集),而最小值为0.0181(M3_3:对具有至少3个与中位数相比时显示3倍或以上的增加或减少的探针的基因进行选择并经过分散过滤后具有706个探针的群集)。在15个群集中,其中11个群集在无监督分层聚类分析中生成在log rank检验中展示统计显著性的预后差异的2种主要分类(图1a和表1)。
[0135] 【表1】
[0136] 分散过滤后的探针的数量和在分散过滤后根据无监督分层聚类分析制作的两个主要群集的log rank检验中的p值
[0137]
[0138] 通过使用在预后结果中显示统计显著性的11个群集来分析患者样本模式的结果,根据无监督聚类分析生成的2个类的组成与过滤标准无关地显示出相当近似的模式,并展示样本组成的2种不同模式,甚至各群集中的一个或两个群集显示出根据过滤标准的分类上的差异(图1b)。因此,对显示出样本组成的2种不同模式的两个群集进行选取(图2)。
[0139] M2_5(通过对具有至少5个与中位数相比时显示2倍或以上的增加或减少的探针的基因进行选择并经过分散过滤后具有1556个探针的群集)的良好预后组中只有1名患者死亡(4%的死亡率),不良预后组中有15名患者死亡(28%的死亡率)(log rank检验p=0.0279,图1c)。M3_3的良好预后中只有2名患者死亡(6%死亡率),不良预后中有14名患者死亡(29.8%的死亡率)(log rank检验p=0.0181,图1d)。
[0140] 【实施例2】两个主要群集的生物学特征
[0141] 为了定义在预后结果中显示这种差异的两种分类的主要基因特性,对2个样本进行t测试。通过在无监督聚类分析后显示M2_5的两个主要群集的2种分类之间进行比较,而生成2886个显著不同的探针(p<0.001)。
[0142] 图3A展示了使用在M2_5的2种分类之间进行比较时具有统计显著性(p<0.001)并显示2倍或以上差异的探针的附条件聚类分析的热图。与免疫应答相关的很多基因(IFNG、GZMA、GZMB、CD8A、STAT1、JAK2、HLADPA1)在良好反应组中的表达有大幅增加。
[0143] 在Biocarta通路数据库中对上述2种分类进行GSEA分析时,最为显著提高的通路为具有统计显著性(p=0.00001)的抗原处理及递呈(Antigen Processing and presentation)(MHC通路)、和IFN-r信号传导通路。除了它们的两种主要信号传导通路外,Th1/Th2分化(TH1TH2通路)、对靶细胞的CTL介导的免疫应答(CTL通路)、NK细胞中NO2依赖性IL12通路(NO2IL12通路)、T细胞活化中Tob的作用(TOB1通路)、Th1发育时的IL12和Stat4依赖性信号传导通路(IL12通路)及细胞毒性T细胞膜表面分子(T细胞毒性通路)为与免疫应答相关的信号传导通路,且在Biocarta通路数据库的GSEA分析中得到显著提高(图4A)。
有显著提高的各通路中的基因成分在良好预后组中展示出与免疫活化相关的基因的单向活化(图5a-f)。
[0144] 通过无监督聚类分析后显示M3_3的两个主要群集的2种分类之间进行比较,而生成2680个显著不同的探针(p<0.001)。
[0145] 图3B展示了使用在M3_3的2种主要分类之间进行比较时具有统计显著性(p<0.001并显示3倍或以上差异的探针的附条件聚类分析的热图。与细胞增殖(CCNE1、CCNA2、CDCA5、AURKA、E2F7、CDC25A)相关的基因和与DNA修复相关的基因(TOP2A)在良好反应组中的表达有显著增加。
[0146] 当在Biocarta通路数据库中对上述2种分类进行GSEA分析时,最为显著提高的通路是癌敏感性(ATR BRCA通路)中BRCA1、BRCA2和ATR的作用、对DNA损伤(cdc25通路)的应答中的cdc25和chk1调节通路、细胞周期蛋白和细胞周期调节(细胞周期通路)、细胞周期蛋白E破坏通路(FBW7通路)、细胞周期:G1/S检查点(G1通路)、细胞周期:G2/M检查点(G2通路)、CDK调节(MCM通路)、细胞周期发展中的p27磷酸化调节(P27通路)、用于调节细胞周期的Sonic Hedgehog(SHH)受体Ptc1(PTC1通路)、对DNA损伤的应答中的RB肿瘤抑制因子/检查点信号传导(RB通路)及E2F1破坏通路(SKP2E2F通路)(图4B,p=0.00001)。
[0147] 有显著提高的各通路的基因成分在良好预后组中显示出与细胞增殖相关的基因的单向活化(图6a-f)。
[0148] 【实施例3】预后预测模型的形成
[0149] 为了形成预后预测模型,可使用3种不同的预后预测算法,即混合共变预测法(CCP)、线性判别分析(LDA)、最近质心法(NC)。为了对分类组进行预测,在0.001的显著水平上对两种分类使用显著不同的基因,且通过使用留一法交叉验证,计算校准预测比。
[0150] 相对于M3_3分类组的训练集(YUSH数据集)中的两个得到预测的组之间的预后差异具有统计显著性(log rank检验,CCP:p=0.00933,LDA:p=0.0137和NC:p=0.00217),且用于M3_3分类组的校准预测比在85%~92%的范围内(CCP:86%,LDA:85%和NC:92%)(图7A-C)。
[0151] MDACC数据集用来检验分类组。MDACC测试数据集的患者(80名)的预测结果在预后结果中展示与训练YUSH数据集相似的模式。预后差异具有统计显著性(log rank检验,CCP:p=0.00645,LDA:p=0.00372和NC:p=0.0247),被分类成良好预后的组展示良好的预后结果,即CCP显示3.3%的死亡率(30名患者中仅有1名患者死亡),LDA显示3.2%的死亡率(31名患者中仅有2名患者死亡),且NC显示6.45%的死亡率(31名患者中仅有2名患者死亡)。此外,被分成不良预后的组展示不良的预后结果,即CCP显示30%的死亡率(50名患者中有15名患者死亡),LDA显示30.6%的死亡率(49名患者中有15名患者死亡),且NC显示28.6%的死亡率(49名患者中有14名患者死亡)(图7D-F)。
[0152] 总样本的预测结果为,log rank检验p值在CCP和LDA中具有0.000111,在NC中具有0.000012,相对于三种不同算法均展示出两种主要分类之间相当强的预后差异(图7G-I)。
[0153] 虽然校准分类比与M3_3分类组(CCP 92%、LDA 90%和NC 95%)相比高得多,然而相对于M2_5的测试数据集中所预测的结果没有统计显著性(log rank检验,CCP:p=0.0948,LDA:p=0.056和NC:p=0.06)(图8A-C)。
[0154] MDACC测试数据集的患者的预测结果在具有较强的统计显著性的预后结果中展示出与训练YUSH数据集相似的模式。预后差异具有统计显著性(log rank检验,CCP:p=0.0155,LDA:p=0.0155和NC:p=0.0214),被分类成良好预后的组展示良好的预后结果,即CCP、LDA和NC均显示3.8%的死亡率(26名患者中仅有1名患者死亡)。此外,被分类成不良预后的组展示不良的预后结果,即CCP、LDA和NC均显示27.8%的死亡率(54名患者中仅有15名患者死亡)(图8D-F)。总样本的预测结果为,log rank检验的p值在CCP中具有0.00377,LDA中具有0.00203,且在NC中具有0.00284,并相对于三种其他算法中均展示出较强的预后差异(图8G-I)。
[0155] 【实施例4】对NO胃癌患者的预后产生影响的CGAP中的功能基因的分类
[0156] 在NIH中,CGAP中的基因注释的特征在于主要对肿瘤生成、肿瘤发育和癌转移产生影响的功能基因进行分类。因此,基于CGAP功能基因分类的预后特性的查明是,在CGAP接近法展示出那些成为癌的某一分期的预后的主要原因的主要生物学特征时相当有利。因此,本发明的发明人对YUSH(n=78)、MDACC(n=80)及相合并的所有患者的数据集(n=158)中测试其中两个数据集中每个基因分类的影响。
[0157] 在两个不同数据集中,通过按功能基因分类实施的无监督分层聚类分析所生成的主要群集的预后结果会有多种多样。在YUSH数据中血管生成成为CGAP中显示统计显著性(log rank检验p=0.0215)的唯一功能分类,与此相反,MDACC数据集在血管生成(p=0.0337)、DNA损伤(p=0.0188)、DNA复制(p=0.0402)、转移(p=0.0235)、信号传导(p=
0.0176)和转录因子(p=0.0000706)上展示统计显著性。相合并患者的数据集在除了细胞凋亡和生成之外的大部分功能基因分类中展示出显著性(图9A)。
[0158] 通过使用总样本的功能基因分类的探针,对根据无监督分层聚类分析所定义的两个分类进行Biocarta通路数据库的GSEA分析,结果发现功能基因分类显示出明显不同的基因集分类的两种不同模式。大部分与细胞增殖相关的基因集(DNA复制的CNK调节、E2F1破坏通路、细胞周期:G1/S检查点、细胞周期:G2/M检查点、对DNA损伤的应答中的CDC25和chk1调节通路)在根据DNA复制、DNA损伤、基因调节、代谢和转录因子的功能基因分类的探针所形成的两种分类的比较中得到显著提高。转移、免疫、血管生成、细胞信号传导、信号传导和细胞周期的功能基因分类在免疫应答(T细胞活化中的Tob的作用、TCR活化、T细胞受体与CD3复合物的启动中的Lck和Fyn酪酸激酶、辅助性T细胞表面分子、NK细胞与B细胞受体的复合物中的NO2依赖性IL12通路)中,尤其在与T细胞相关免疫应答有关的基因集中展示出最显著的差异。这提示了,2种主要生物学特征是,对通过使用M2_5和M3_3群集所形成的2种分类的预后差异产生影响的生物学特征的原因所在(图9B)。
[0159] 【实施例5】预后风险评分系统的建立
[0160] 通过根据在无监督聚类分析后的各类中制作的死亡率和两个分类组M3_3和M2_5的预测结果,对患者进行排列,发现有些患者会根据分类组和功能基因分类中所定义的群集类型被分类成不同的分类。因此,对根据特征或分类组的特定类型的分类和预后预测来说,虽然所定义的分类在log rank检验的预后比较中显示出统计显著性,然而并非完整地显示预后结果(图10A)。主要的原因在于胃癌患者具有复杂生物学特征,这暗示了要考虑对胃癌患者的预后结果产生影响的生物学或生理学特性的所有方面是重要的。
[0161] 因此,接下来为了反映对各功能基因分类的预后结果的差异产生影响的主要生物学特征,调差对功能基因分类中的预后差异产生影响的基因。在Cox回归分析中,筛选具有统计显著性(p<0.001)的51个基因,将这些基因用于生成预后风险评分系统的百分比(表2)。根据Cox回归分析(p<0.001),从CGAP中带有注释的探针中选取预后探针。
[0162] 【表2】
[0163] 风险评分系统的百分比生成中所用的探针列表
[0164]
[0165] 基于展示50%或以上风险分数的风险评分系统的百分比,总患者(n=158)中有21名患者被指定为高风险组。高风险组的患者的死亡率为总样本的61.9%,死亡率极高,两个数据集的患者展示出相当相似的临床结果(YUSH:54.5%死亡率,MDACC:70%死亡率)。
[0166] 将70名患者指定为中度风险组(风险分数为25%或以上、且小于50%),中度风险组的死亡率为20%。YUSH数据集的临床结果与相对于YUSH患者显示25%死亡率的MDACC数据患者相比稍差,与此相反,相对于MDACC数据患者则显示16%死亡率。将总数为67名的患者指定为低危险组,并在总样本数据中显示7.45%的死亡率。YUSH数据患者与具有9%死亡率的MDACC数据患者相比展示出稍好的预后,死亡率为5.7%(图10B-D)。
[0167] 预后差异明显的3个不同的风险组在总数据集在log rank检验中的p值为1.36e-07,显示了极强的统计显著性。YUSH数据集在log rank检验中的p值显示为0.00254,而MDACC数据集在log rank检验中的p值显示为1.11e-05(图10E-F)。
[0168] 工业应用性
[0169] 本发明可用作胃癌复发的预后预测领域中的诊断试剂盒
QQ群二维码
意见反馈