用于癌症的分子诊断试验专利检索-电离辐射辐射物理专利检索查询-专利查询网

用于癌症的分子诊断试验

阅读：103发布：2021-07-11

专利汇可以提供用于癌症的分子诊断试验专利检索，专利查询，专利分析的服务。并且提供了用来鉴定用于癌症的分子诊断试验的方法和组合物。该试验定义了新型的DNA损伤修复缺陷分子亚型且能够将该亚型内的患者分类。本发明可用于在施用任何化学疗法之前确定患有癌症的患者对治疗方案是临床上应答的或非应答的。该试验可用于不同的癌症类型且可和直接或间接对DNA损伤或修复起作用的不同药物，例如目前使用中的许多标准细胞毒性化学治疗药物一起使用。特别地，本发明涉及预测标志物的某些组合的使用，其中预测标志物的表达与对治疗方案的应答性或非应答性相关联。，下面是用于癌症的分子诊断试验专利的具体信息内容。

权利要求

1.用于测量一种或多种基因转录物水平的一种或多种试剂在制备用于预测个体对于DNA损伤治疗剂的应答性的试剂盒中的用途，所述基因至少包括CXCL10，其中使用所述一种或多种试剂测量所述转录物水平，从该测量的转录物水平获得试验得分，阈值得分被提供，所述阈值得分包括将所述试验得分和应答性相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时预测有应答性。
2.至少CXCL10核酸在制备用于预测个体对于DNA损伤治疗剂的应答性的试剂盒中的用途，其中所述至少CXCL10的转录物水平被测量，所述转录物水平通过记录的试验得分获得，阈值得分被提供，所述阈值得分包括将所述试验得分和应答性相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时预测有应答性。
3.如权利要求1或2所述的用途，其还包括测量来自表2B第一组生物标志物的一种或多种生物标志物的转录物水平，所述表2B第一组生物标志物由IDO1、CD2、GBP5、PRAME、ITGAL、LRP4和APOL3组成，还包括测量来自第二组生物标志物的一种或多种生物标志物的转录物水平，所述第二组生物标志物由CDR1、FYB、TSPAN7、RAC2、KLHDC7B、GRB14、AC138128.1、KIF26A、CD274、CD109、ETV7、MFAP5、OLFM4、PI15、FOSB、FAM19A5、NLRC5、PRICKLE1、EGR1、CLDN10、ADAMTS4、SP140L、ANXA1、RSAD2、ESR1、IKZF3、OR2l1P、EGFR、NAT1、LATS2、CYP2B6、PTPRC、PPP1R1A、AL137218.1、MX1和IF144L组成。
4.如权利要求1或2所述的用途，其中所述DNA损伤治疗剂包括一种或多种选自由以下组成的组的物质：DNA损伤剂、DNA修复靶向治疗、DNA损伤信号转导的抑制剂、DNA损伤诱导的细胞周期停滞的抑制剂、组蛋白脱乙酰基酶抑制剂和热休克蛋白抑制剂。
5.如权利要求3所述的用途，其中所述DNA损伤治疗剂包括一种或多种选自由以下组成的组的物质：DNA损伤剂、DNA修复靶向治疗、DNA损伤信号转导的抑制剂、DNA损伤诱导的细胞周期停滞的抑制剂、组蛋白脱乙酰基酶抑制剂和热休克蛋白抑制剂。
6.如权利要求4所述的用途，其中所述DNA损伤治疗剂包括以下中的一种或多种：蒽环类、顺铂、卡铂、环磷酰胺、奥沙利铂、白消安、依立替康、托泊替康、依托泊苷、阿霉素、表柔比星和电离辐射。
7.如权利要求4所述的用途，其中所述DNA损伤治疗剂包括以下中的一种或多种：DNA-PK抑制剂、Nu7441、Nu7026、同源重组的抑制剂、核苷酸切除修复的抑制剂、PARP抑制剂、AG014699、AZD2281、ABT-888、MK4827、BSI-201、INO-1001、TRC-102、APEX 1抑制剂、APEX 2抑制剂、连接酶III抑制剂、范可尼贫血通路的抑制剂。
8.如权利要求1或2所述的用途，其中所述个体被怀疑患有癌症或已被诊断为患有癌症。
9.如权利要求8所述的用途，其中所述癌症选自由黑色素瘤、结肠癌、乳腺癌和卵巢癌组成的组。
10.如权利要求9所述的用途，其中所述癌症是乳腺癌，所述DNA损伤治疗剂包括5-氟尿嘧啶、蒽环类和环磷酰胺的组合。
11.如权利要求10所述的用途，其中所述蒽环类是表柔比星。
12.如权利要求10所述的用途，其中所述蒽环类是阿霉素。
13.如权利要求10所述的用途，其中紫杉烷与所述DNA损伤治疗剂共施用。
14.如权利要求9所述的用途，其中所述癌症是卵巢癌，所述DNA损伤治疗剂包括含铂试剂。
15.如权利要求14所述的用途，其中所述DNA损伤剂与紫杉烷共施用。
16.如权利要求9-15中任一项所述的用途，其中所述癌症与范可尼贫血/BRCA通路中的一种或多种突变相关联。
17.如权利要求1或2所述的用途，其中测量至少表2B中全部44个生物标志物的转录物水平。
18.如权利要求9-15中任一项所述的用途，其中测量至少表2B中全部44个生物标志物的转录物水平。
19.用于测量一种或多种基因转录物水平的一种或多种试剂在制备用于诊断个体患有与DNA损伤应答缺陷(DDRD)有关的癌症或易于发展与DNA损伤应答缺陷(DDRD)有关的癌症的试剂盒中的用途，所述基因至少包括CXCL10，其中使用所述一种或多种试剂测量所述转录物水平，从该测量的转录物水平获得试验得分，阈值得分被提供，所述阈值得分包括将所述试验得分和所述癌症的诊断相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时所述个体被诊断为患有所述癌症或易于发展所述癌症。
20.至少CXCL10核酸在制备用于诊断个体患有与DNA损伤应答缺陷(DDRD)有关的癌症或易于发展与DNA损伤应答缺陷(DDRD)有关的癌症的试剂盒中的用途，其中所述至少CXCL10的转录物水平被测量，所述转录物水平通过记录的试验得分获得，阈值得分被提供，所述阈值得分包括将所述试验得分和所述癌症的诊断相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时所述个体被诊断为患有所述癌症或易于发展所述癌症。
21.如权利要求19或20所述的用途，其还包括测量来自表2B第一组生物标志物的一种或多种生物标志物的转录物水平，所述表2B第一组生物标志物由IDO1、CD2、GBP5、PRAME、ITGAL、LRP4和APOL3组成，还包括测量来自第二组生物标志物的一种或多种生物标志物的转录物水平，所述第二组生物标志物由CDR1、FYB、TSPAN7、RAC2、KLHDC7B、GRB14、AC138128.1、KIF26A、CD274、CD109、ETV7、MFAP5、OLFM4、PI15、FOSB、FAM19A5、NLRC5、PRICKLE1、EGR1、CLDN10、ADAMTS4、SP140L、ANXA1、RSAD2、ESR1、IKZF3、OR2l1P、EGFR、NAT1、LATS2、CYP2B6、PTPRC、PPP1R1A、AL137218.1、MX1和IF144L组成。
22.如权利要求19或20所述的用途，其中当所述试验得分超过在用表2B的权重确定的值处的阈值得分时所述个体被诊断为患有所述癌症或易于发展所述癌症。
23.如权利要求21所述的用途，其中当所述试验得分超过在用表2B的权重确定的值处的阈值得分时所述个体被诊断为患有所述癌症或易于发展所述癌症。
24.如权利要求22所述的用途，其中所述癌症选自黑色素瘤、结肠癌、乳腺癌和卵巢癌。
25.如权利要求24所述的用途，其中所述癌症与范可尼贫血/BRCA通路中的一种或多种突变相关。
26.如权利要求19或20中任何一项所述的用途，其中测量至少表2B中全部44个生物标志物的转录物水平。
27.如权利要求26所述的用途，其中所述试验得分记录了仅表2B中44个生物标志物的转录物水平，且其中当所述试验得分超过在0.3681的值处的阈值得分时所述个体被诊断为患有所述癌症或易于发展所述癌症。
28.如权利要求24所述的用途，其中测量至少表2B中全部44个生物标志物的转录物水平。
29.如权利要求28所述的用途，其中所述试验得分记录了仅表2B中44个生物标志物的转录物水平，且其中当所述试验得分超过在0.3681的值处的阈值得分时所述个体被诊断为患有所述癌症或易于发展所述癌症。
30.用于测量一种或多种基因转录物水平的一种或多种试剂在制备用于通过诊断个体是否患有与DNA损伤应答缺陷(DDRD)有关的癌症或易于发展与DNA损伤应答缺陷(DDRD)有关的癌症而预测个体对于DNA损伤治疗剂的应答性的试剂盒中的用途，所述基因至少包括CXCL10，其中使用所述一种或多种试剂测量所述转录物水平，从该测量的转录物水平获得试验得分，阈值得分被提供，所述阈值得分包括将所述试验得分和应答性相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时预测有应答性。
31.至少CXCL10核酸在制备用于通过诊断个体是否患有与DNA损伤应答缺陷(DDRD)有关的癌症或易于发展与DNA损伤应答缺陷(DDRD)有关的癌症而预测个体对于DNA损伤治疗剂的应答性的试剂盒中的用途，其中所述至少CXCL10的转录物水平被测量，所述转录物水平通过记录的试验得分获得，阈值得分被提供，所述阈值得分包括将所述试验得分和应答性相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时预测有应答性。
32.用于测量一种或多种基因转录物水平的一种或多种试剂在制备用于预测个体对于DNA损伤治疗剂的应答性的试剂盒中的用途，所述基因至少包括CXCL10和表2B的一个其他生物标志物，其中使用所述一种或多种试剂测量所述转录物水平，从该测量的转录物水平获得试验得分，阈值得分被提供，所述阈值得分包括将所述试验得分和应答性相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时预测有应答性。
33.至少CXCL10和表2B的一个其他生物标志物核酸在制备用于预测个体对于DNA损伤治疗剂的应答性的试剂盒中的用途，其中所述至少CXCL10和表2B的一个其他生物标志物的转录物水平被测量，所述转录物水平通过记录的试验得分获得，阈值得分被提供，所述阈值得分包括将所述试验得分和应答性相关联的信息；并且所述试验得分被与所述阈值得分相比较；其中当所述试验得分高于所述阈值得分时预测有应答性。

说明书全文

用于癌症的分子诊断试验

[0001] 相关申请的交叉引用

[0002] 本发明要求于2010年9月15日提交的美国临时专利申请61/383,201和于2011年5月25日提交的美国临时专利申请61/490,039的优先权利益。
发明领域

[0003] 本发明涉及用于诊断来自不同解剖位点的癌症的分子诊断试验，包括常见DNA损伤修复缺陷亚型的使用。本发明包括用于鉴定该DNA损伤修复缺陷分子亚型的44-基因分类
模型的使用。一个应用是对包括DNA损伤诱导剂和DNA修复靶向治疗的乳腺癌治疗药物类别
的应答进行分层并选择患者。另一个应用是将卵巢癌患者分层为对DNA损伤诱导剂应答的
和对DNA损伤诱导剂非应答的。本发明提供了试验，所述试验可指导常规治疗选择以及可在
新型治疗的临床试验评价中指导选择用于富集策略的患者群。DNA修复缺陷亚型可从新鲜/
冷冻(FF)的患者样品或福尔马林固定石蜡包埋(FFPE)的患者样品来鉴定。

[0004] 背景

[0005] 制药业一直在追求比目前施用的药物更有效的、更特异的或具有较少不良副作用的新型药物治疗。由于人类种群中的遗传变异性导致多种药物的有效性的实质性改变，药
物治疗替代方案正在不断地开发中。因此，虽然多种药物治疗替代方案目前可用，但是在患
者不应答事件中仍一直需要更多治疗。

[0006] 传统地，医生所用的治疗范例为开出产生对于治疗疾病可能为最高成功率的第一线药物治疗。若第一治疗无效，则开出替代的药物治疗。该范例显然并非某些疾病的最佳治
疗方法。例如，在诸如癌症的疾病中，第一治疗通常是最重要的并提供成功治疗的最佳时
机，因此对于选择将针对特定的患者疾病最有效的初始药物存在着增高的需求。

[0007] 预期今年在美国将有207,090例新增女性乳腺癌诊断，和39,840例女性乳腺癌相关死亡(American Cancer Society：Cancer Facts and Figures2010)。标准化学治疗通常
包括直接DNA损伤剂例如蒽环类和烷化剂以及抗代谢物和抗微管剂。

[0008] 在西方国家，卵巢癌是所有妇科癌症中的首要死亡原因。该高死亡率归因于大多数患者诊断于晚期。上皮性卵巢癌(EOC)占卵巢恶性肿瘤的90%，且被分为不同的组织学分
类，包括浆液性亚型、粘液性亚型、子宫内膜样亚型、透明细胞亚型、过渡型亚型、混合型亚型和未分化型亚型。越来越多的证据表示这些不同的组织学源自不同的病因学。对于卵巢
癌，目前的标准治疗是减瘤术(debulking surgery)和标准的基于铂紫杉烷的细胞毒性化
学治疗。然而，并非所有患者都对其应答，且在对其应答的患者中约70%将会复发。基于组织学或分子学分类对卵巢癌特异性的靶治疗还未进入市场。相似地，对于其他类型的癌症，也
仍无选择适当的细胞毒性化学治疗剂的准确途径。

[0009] 微阵列和分子基因组学的出现具有显著影响疾病的诊断能力和预后分类的潜力，其可能有助于预测个体患者对确定的治疗方案的应答。微阵列提供了对于大量遗传信息的
分析，从而提供了个体的基因指纹。满载热情地是，该技术将最终为定制药物治疗方案提供
必要工具。

[0010] 目前，医疗保健专业人员用来协助其鉴定将从化学治疗剂受益的癌症患者的机理还较少。因为没有方法来准确预测哪种药物治疗将对特定的癌症生理学最为有效，鉴定最
佳的第一线药物是困难的。该缺陷导致了相对较差的单一剂应答率和增高的癌症发病率和
死亡。并且，患者常经历不必要的无效的毒性药物治疗。

[0011] 已使用了分子标志物来选择适当的治疗，例如在乳腺癌中。不表达雌激素和孕酮激素受体以及HER2生长因子受体的乳腺肿瘤，称作“三阴性”，其表现出对PARP-1抑制剂治
疗应答(Linn,S.C.,和Van't Veer,L.,J.Eur J Cancer45增刊1,11-26(2009);O'
Shaughnessy,J.,等人.N Engl J Med364,205-214(2011))。最近研究表明乳腺肿瘤的三阴
性状况可能指示对包括PARP-1抑制剂的联合治疗的应答性，但可能不足以指示对单独
PARP-1抑制剂的应答性。(O'Shaughnessy等人,2011)。

[0012] 此外，还有其他研究已尝试鉴定与分子亚型相关联的基因分类器以指示化学治疗剂的应答性(Farmer等人.Nat Med15,68-74(2009);Konstantinopoulos,P.A.,等人,J
Clin Oncol28,3555-3561(2010))。然而，目前为止还不存在一种诊断试验，其应用于所有
癌症疾病而准确地确定表现DNA损伤修复缺陷的分子亚型，还可应用于所有疾病而预测对
于直接或间接靶向DNA损伤修复的任何药物的敏感性。

[0013] 因此需要一种试验，该试验足够准确地鉴定DNA修复缺陷肿瘤以将患者分层为可能对损伤DNA的化学治疗剂应答的和应该接受替代治疗的。

[0014] 还需要的是应用于所有不同癌症类型的足够准确地预测治疗应答性的分子亚型分类器。

[0015] 发明概述

[0016] 本发明涉及使用在癌症中表达的一系列基因产物标志物的方法，从而当转录物中的一些或全部过表达或低表达时，其鉴定具有DNA损伤修复缺陷的癌症的亚型。可认为对该
亚型的指定是诊断试验，因为其与任何特异性药物无关，而是以具有用于筛查和选择适当
的癌症治疗的用途的方式描述癌症的生物学。本发明还提供了指示对于DNA损伤治疗剂的
应答性或抗性的方法。在不同的方面，该基因或基因产物列表可成为单参数或多参数预测
试验的基础，所述试验可通过利用本领域中已知的方法例如微阵列、Q-PCR、免疫组织化学、ELISA或能够定量mRNA或蛋白表达的其他技术来实现。

[0017] 此外，本文中所描述的生物途径是癌症自身的特征，与等级和阶段相似，且从而不限于单一癌症疾病类型。因此，一系列的基因或基因产物可在跨越不同组织中的不同癌症
类型用于预测癌症治疗的应答性。在本发明的一个实施方案中，这些基因或基因产物用于
评价乳腺癌肿瘤和卵巢癌肿瘤。

[0018] 本文所描述的本发明不限于任何一种药物；其可用于鉴定对于直接或间接影响DNA损伤和/或DNA损伤修复的一系列药物中的任何的应答者和非应答者，所述药物例如，新
辅助治疗基于5-氟尿嘧啶、蒽环类和环磷酰胺的新辅助治疗方案，例如FEC(5-氟尿嘧啶/表
柔比星/环磷酰胺)和FAC(5-氟尿嘧啶/阿霉素/环磷酰胺)。在特定的方面，本发明对于评估
乳腺癌中的紫杉醇、氟尿嘧啶、多柔比星(阿霉素)和环磷酰胺(T/FAC)新辅助治疗是有用
的。在其他方面，本发明对于评估卵巢癌中的铂或铂加紫杉醇治疗是有用的。

[0019] 本发明涉及利用不同分类的应答例如总存活期、无进展存活期、放射性应答、如RECIST所定义的应答、完全应答、部分应答、稳定病情和血清学标志物例如但不限于，PSA、CEA、CA125、CA15-3和CA19-9。在特定的实施方案中，本发明可用于评估单独地利用FEC或
FAC或利用标准治疗环境中的FEC或FAC治疗的乳腺癌中的病理完全应答，或评估卵巢癌中
的RECIST和血清CA125水平。

[0020] 在另一方面，本发明涉及对乳腺癌和卵巢癌中的DNA损伤应答缺陷(DDRD)分子亚型的鉴定。该分子亚型可通过使用一个长度为40个基因和一个长度为44个基因的两个不同
的基因分类器来检测。DDRD分类器首次在Almac乳腺疾病特异性阵列(Almac Breast
Disease Specific Array(DSATM))上通过由53个探针集组成的分类器而确定。为验证该分
类器在其预测对包含DNA损伤的化学治疗方案的应答的能力的情况下的功能相关性，需要
在基因水平上重新确定该分类器。利用来自在微阵列平台而非Almac Breast DSATM上总结
的独立的数据组的微阵列数据，这将协助DDRD分类器的评价。为协助在基因水平上确定分
类器，需要确定Almac Breast DSATM探针集所映射的基因。这包括对公众可获得的基因组浏
览器数据库例如Ensembl和NCBI Reference Sequence的利用。仅提供了针对44-基因DDRD
分类器模型的结果，因为该模型取代了40-基因DDRD分类器模型的结果。这些结果表明分类
器模型是对含DNA损伤治疗的化学治疗方案的应答的有效且重要的预测器。

[0021] 通过40-基因分类器模型和44-基因分类器模型两者对亚型的鉴定可用来预测对包括DNA损伤诱导剂和DNA修复靶向治疗的标准乳腺癌和卵巢癌治疗药物种类的应答，并选
择适于其的患者。

[0022] 在另一方面，本发明涉及用于以上所列的例如qPCR、微阵列和免疫测定例如免疫组织化学、ELISA、蛋白质印迹等常规诊断应用的试剂盒。所述试剂盒包括测定基因或基因
产物的表达和定量mRNA或蛋白表达的的适当的试剂和说明书。

[0023] 本发明还提供了用于鉴定DNA损伤应答缺陷的(DDRD)人类肿瘤的方法。很可能地是本发明可用于鉴定对直接损伤DNA、间接损伤DNA或抑制正常DNA损伤信号转导和/或修复
过程的药物敏感和应答的或抵抗和不应答的患者。

[0024] 本发明还涉及指导患者的常规治疗。本发明还涉及选择适于临床试验的患者，所述临床试验中新型药物为直接或间接影响DNA损伤和/或DNA损伤修复的种类。

[0025] 本发明和方法使所保存的福尔马林固定石蜡包埋(FFPE)活检物质以及新鲜/冷冻(FF)组织适用于本发明中对所有转录物的测定，且因此与最普遍地可获得的活检组织物质
的类型是相容的。表达水平可利用获自FFPE组织、新鲜冷冻组织或贮存于诸如
的溶液中的新鲜组织的RNA来确定。

[0026] 附图简述

[0027] 图1提供了代表ER-阴性(A)和ER-阳性(B)BRCA1/2突变体和散发性野生型对照乳腺样品的层级分析的图。每幅图的右侧标注了探针集聚类组，左侧标注了每个探针集聚类
组的通路分析。每幅图的图例指示了样品的突变状况，且每个样品分配了标签组以用于分
类器生成。

[0028] 图2提供了在对于(A)组合样品集，(B)ER-阴性样品集和(C)ER-阳性样品集的5倍交叉验证的10次重复下比较每个分类模型的AUC性能的箱形图的图。(D)交叉验证预测的敏
感性加特异性曲线图用来选择阈值。最大敏感性加特异性是1.682，同时相应的标签得分为
～0.37。

[0029] 图3提供了利用44-基因分类器模型，通过交叉验证所评估的，关于预测BRCA状况的分类性能的ROC曲线的图。应用分类器模型后AUC为～0.68。已由自助法(bootstrap)以
1000次迭代评估了95%置信界限。

[0030] 图4提供了在三个独立的数据集FEC、FAC1和FAC2(Bonnefoi等人,2007;Iwamoto等人,J Natl Cancer Inst103,264-272(2011)；Lee,J.K.,等人Clin Cancer Res16,711-718
(2010))的组合分析中44-基因分类器模型关于预测对基于蒽环类的化学治疗的应答的分
类性能的ROC曲线的图。应用分类器模型后AUC为～0.78。已由自助法以1000次迭代评估了
95%置信界限。

[0031] 图5提供了在三个独立的数据集(Hess等人,J Clin Oncol24,4236-4244(2006)；Lee等人,2010；Tabchy,A.,等人Clin Cancer Res16,5351-5361(2010))的组合分析中44-
基因分类器模型在T/FAC处理的样品中的应答中的分类性能的ROC曲线的图。各自应用分类
器模型后AUC为～0.61。已由自助法以1000次迭代确定了95%置信界限。

[0032] 图6提供了259个浆液卵巢癌样品中44-基因分类器模型在来自内部Almac诊断卵巢数据集的铂和紫杉醇处理的样品中的应答中的分类性能的ROC曲线的图。应用分类器模
型后AUC为～0.68。已由自助法以1000次迭代评估了95%置信界限。

[0033] 图7提供了在取自健康供者和具有范可尼贫血(Fanconi Anaemia)突变的患者的骨髓样品中44-基因DDRD分类器得分的直方图。应用分类器模型后AUC为0.90。已由自助法
以1000次迭代评估了95%置信界限。

[0034] 图8提供了将44-基因分类器模型与BRCA1突变体细胞系和野生型细胞系中的治疗应答相关联的图。(A)蛋白质印迹分析确定与HCC1937-EV细胞相比较HCC1937-BR细胞中的
BRCA1的表达增高。(B)仅转染对照载体的HCC1937(HCC1937-EV)细胞系和具有恢复的BRCA1
的外源性表达的HCC1937(HCC1937-BR)细胞系中的平均44-基因模型(DDRD)分类器得分(±
SEM)。持续暴露于一系列浓度的PARP抑制剂KU0058948(C)和顺铂(D)下的HCC1937亲代细胞
和HCC1937-BR细胞的细胞存活力的直方图。

[0035] 发明详述

[0036] 除非另外定义，本文所用的技术和科学术语具有本发明所述领域普通技术人员所通常理解的相同含义。虽然与本文所描述的相似或等同的任何方法、装置和物质可用于本
发明的实践或试验中，本文描述了优选的方法、装置和物质。

[0037] 本申请中所引用的所有出版物、公布的专利文献和专利申请显示了本申请所属领域技术人员的水平。本文所引用的所有出版物、公布的专利文献或专利申请在此通过引用
并入，如同特定地和单独地标明了每个单独的出版物、公布的专利文献或专利申请通过引
用并入。

[0038] 本文所用的冠词“一个(a)”和“一种(an)”指一个或一个以上(即，至少一个)语法上的冠词的宾语。例如，除非明确地指明相反的，“一个要素”意为一个要素或一个以上要
素。

[0039] 目前癌症研究的主要目标是通过将分子参数结合到临床治疗决策中而提高患者手术期间系统治疗的效力。药物遗传学/基因组学是对参与个体对外来化合物或药物的应
答的遗传因子/基因组因子的研究。可将对本发明的标志物的表达具有刺激作用或抑制作
用的试剂或调节剂施用于个体以在患者中(预防性或治疗性)治疗癌症。理想地是还将个体
的药物基因组学与所述治疗联合考虑。治疗的代谢的差异通过改变药理活性药物的剂量和
血液浓度之间的关系可能导致严重的毒性或治疗失败。因此，了解个体的药物基因组学允
许选择对于预防性治疗或治疗性治疗有效的试剂(例如，药物)。所述药物基因组学还可用
来确定适当的剂量和治疗方案。因此，可在个体中确定本发明的标志物的表达水平，从而选
择适于个体的治疗性治疗或预防性治疗的试剂。

[0040] 本发明涉及在癌症组织中表达的基因或基因产物标志物(本文以下称作“生物标志物”)的独特的集合。在不同的方面，生物标志物列表可形成单参数预测试验或多参数预
测试验的基础，所述试验可利用本领域中已知的方法例如微阵列、Q-PCR、免疫组织化学、
ELISA或其他可定量mRNA或蛋白表达的技术来实现。

[0041] 本发明还涉及用于细胞毒性化学治疗后的预后或选择癌症的特定治疗的试剂盒和方法。提供该方法从而当转录物的一些或全部过表达或低表达时，表达谱指示了对DNA损
伤治疗剂的应答性或抗性。这些试剂盒和方法使用了在患有癌症的患者的肿瘤中差异表达
的基因或基因产物标志物。在本发明的一个实施方案中，在统计学方法或关联模型下，将所
保存的组织样品中的这些生物标志物的表达谱与临床结果(应答或存活)相关联以产生将
表达谱与对一种或多种DNA损伤治疗剂的应答性相关联的数据库或模型。然后可将预测模
型用于在其对DNA损伤治疗剂的应答性未知的患者中预测应答性。在许多其他的实施方案
中，可基于患者的临床结果、预后或对DNA损伤治疗剂的应答性将患者群分为至少两类，且
生物标志物与患者的这些种类之间的种类差异大体上相关联。本文所描述的生物途径是癌
症疾病所共有的，与等级和阶段相似，且因此分类器和方法不限于单一癌症疾病类型。

[0042] 预测性标志物套组/表达分类器

[0043] 提供了用于确定对用于治疗癌症的治疗剂例如DNA损伤治疗剂的应答性或抗性的在癌症组织中作为遗传分类器表达的生物标志物的独特的集合。所述集合可称为“标志物
套组”、“表达分类器”或“分类器”。

[0044] 表1中鉴定出在本方法中有用的生物标志物。这些标志物被鉴定为对确定患者对于治疗剂应答或无应答具有预测价值。其表达与对试剂的应答相关联，且更具体地为DNA损
伤治疗剂。通过检查已鉴定的生物标志物的集合在肿瘤中的表达，可能地是确定哪种治疗
剂或试剂的组合将最可能地降低癌症(并且在一些实施方案中为乳腺癌细胞或卵巢癌细
胞)的生长速率。通过检查已鉴定的转录物基因或基因产物标志物的集合，还可能地是确定
哪种治疗剂或试剂的组合将最少可能地降低癌症的生长速率。通过检查生物标志物的集合
的表达，从而可能去除无效的或不适当的治疗剂。重要地是，在某些实施方案中，这些决策
可根据不同的患者为基础或根据不同的试剂为基础来制定。因此，可确定特定的治疗方案
是否可能使特定的患者或患者类型受益，和/或特定的方案是否应该继续。

[0045] 表1A

[0046]

[0047]

[0048]

[0049]

[0050]

[0051] 表1B

[0052]

[0053] 表1中所列的生物标志物的全部或部分可用于预测生物标志物套组。例如，选自表1中的生物标志物的生物标志物套组可利用本文中所提供的方法来生成，且可包括表1中所
列出的生物标志物之一至所有生物标志物，包括一切组合(例如，4个选择的生物标志物、16
个选择的生物标志物、74个选择的生物标志物等)。在一些实施方案中，预测生物标志物集
包括至少5个、10个、20个、40个、60个、100个、150个、200个或300个或更多个生物标志物。在其他的实施方案中，预测标志物集包括不超过5个、10个、20个、40个、60个、100个、150个、
200个、300个、400个、500个、600个或700个生物标志物。在一些实施方案中，预测生物标志物集包括表1中所列的多个生物标志物。在一些实施方案中，预测生物标志物集包括表1中
所列的生物标志物的至少约1%、约5%、约10%、约20%、约30%、约40%、约50%、约60%、约70%、约
80%、约90%、约95%、约96%、约97%、约98%或约99%。选择的预测生物标志物集可利用本文所描述的方法和本领域中已知的类似的方法由所提供的预测生物标志物而汇集。在一个实施方
案中，生物标志物套组包含表1中的全部203个生物标志物。在另一个实施方案中，生物标志
物套组包含表1或2中的40或44个生物标志物。

[0054] 预测生物标志物集可与不同量值的实际标度的相应标量权重结合来确定，通过线性或非线性的、代数的、三角学的或相关的方法经由代数算法、统计学习算法、贝叶斯算法、回归算法或相似的算法将其进一步结合为单一标量值，连同标量值的数学推导的决策函数
一起提供了预测模型，来自样品的表达谱通过所述预测模型可被解析为对于特定的药物或
药物种类应答者或非应答者、抵抗或非抵抗的分离的种类。包括生物标志物成员的所述预
测模型，来自具有已知药物应答和/或抵抗的既往患者样品的一组代表性表达谱，在交叉验
证、自助法或相似的取样技术下，通过学习权重和决策阈值而开发，对敏感性、特异性、阴性和阳性预测值、危害比或其任何组合进行优化。

[0055] 在一个实施方案中，生物标志物用于形成其信号的加权和，其中单独的权重可以是正的或负的。将所得的和(“决策函数”)与预定的参考点或值相比较。与参考点或值的比
较可用于诊断或预测临床病症或结果。

[0056] 如以上所描述的，本领域普通技术人员将理解，表1中所提供的包括于分类器中的标志物在对治疗剂的应答性或抗性的分类器中将具有不等权重。因此，虽然可仅用一个序
列来诊断或预测结果例如对于治疗剂的应答性，利用更多序列可增高特异性和敏感性或诊
断或预测准确度。

[0057] 如本文所用的，术语“权重”指统计计算中项目的相对重要性。每种生物标志物在基因表达分类器中的权重可利用本领域中已知的分析方法根据患者样品的数据集来确定。

[0058] 在一个实施方案中，生物标志物套组涉及表2A中详列的40个生物标志物，相应的排序和权重详列于表中，或可选的排序和加权取决于，例如，疾病情况。在另一个实施方案
中，生物标志物套组涉及表2B中详列的44个生物标志物，相应的排序和权重详列于表中，或
可选的排序和加权取决于，例如，疾病情况。表2A和2B将生物标志物按在分类器中降低的权
重而排序，确定为在交叉验证下测量的综合决策得分函数中的平均权重的排序。表2C呈现
了代表表2A和2B中的基因的根据其序列ID编号的探针集。表2D代表阵列上呈现的关于标签
中的基因的反义探针序列。

[0059] 表2A

[0060] 40-基因DDRD分类器模型的具有相关排序和加权的Gene编号和EntrezGene编号

[0061]

[0062]

[0063] 表2B

[0064] 44-基因DDRD分类器模型的具有相关排序和加权的Gene编号和EntrezGene编号

[0065]

[0066]

[0067]

[0068] 表2C

[0069] 40-基因标签和44-基因标签中所含的基因的探针集编号和SEQ编号

[0070]

[0071]

[0072]

[0073]

[0074] 表2D

[0075] 40-基因标签中的反义探针集的Almac编号和Almac基因符号和SEQ ID编号

[0076]

[0077]

[0078]

[0079] 在不同的实施方案中，表2A和表2B中所列的生物标志物的子集可用于本文所描述的方法中。这些子集包括但不限于在表2A或表2B中排序为1-2、1-3、1-4、1-5、1-10、1-20、1-
30、1-40、1-44、6-10、11-15、16-20、21-25、26-30、31-35、36-40、36-44、11-20、21-30、31-40和31-44的生物标志物。在一方面，在个体中预测治疗应答性通过以下来进行：在来自个体
的生物样品上进行测定，并检测生物标志物值，每个生物标志物值对应于生物标志物GBP5、
CXCL10、IDO1和MX1中的至少一种，且至少N种另外的生物标志物选自表2B中的生物标志物
的列表，其中N等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、
25、26、27、28、29、30、31、32、33、34、35或36。如本文所用的，术语“生物标志物”可指基因、mRNA、cDNA、反义转录物、miRNA、多肽、蛋白、蛋白片段或指示基因表达水平或蛋白产生水平的任何其他核酸序列或多肽序列。在一些实施方案中，当提到生物标志物CXCL10、IDO1、
CD2、GBP5、PRAME、ITGAL、LRP4、APOL3、CDR1、FYB、TSPAN7、RAC2、KLHDC7B、GRB14、
AC138128.1、KIF26A、CD274、ETV7、MFAP5、OLFM4、PI15、FOSB、FAM19A5、NLRC5、PRICKLE1、EGR1、CLDN10、ADAMTS4、SP140L、ANXA1、RSAD2、ESR1、IKZF3、OR2I1P、EGFR、NAT1、LATS2、CYP2B6、PTPRC、PPP1R1A或AL137218.1时，所述生物标志物分别地包括CXCL10、IDO1、CD2、GBP5、PRAME、ITGAL、LRP4、APOL3、CDR1、FYB、TSPAN7、RAC2、KLHDC7B、GRB14、AC138128.1、KIF26A、CD274、ETV7、MFAP5、OLFM4、PI15、FOSB、FAM19A5、NLRC5、PRICKLE1、EGR1、CLDN10、ADAMTS4、SP140L、ANXA1、RSAD2、ESR1、IKZF3、OR2I1P、EGFR、NAT1、LATS2、CYP2B6、PTPRC、PPP1R1A或AL137218.1的mRNA。在另外的或其他的实施方案中，当提到生物标志物MX1、
GBP5、IFI44L、BIRC3、IGJ、IQGAP3、LOC100294459、SIX1、SLC9A3R1、STAT1、TOB1、UBD、C1QC、C2orf14、EPSTI、GALNT6、HIST1H4H、HIST2H4B、KIAA1244、LOC100287927、LOC100291682或LOC100293679时，所述生物标志物分别地包括MX1、IFI44L、GBP5、BIRC3、IGJ、IQGAP3、
LOC100294459、SIX1、SLC9A3R1、STAT1、TOB1、UBD、C1QC、C2orf14、EPSTI、GALNT6、HIST1H4H、HIST2H4B、KIAA1244、LOC100287927、LOC100291682或LOC100293679的反义转录物。

[0080] 在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定并检测生物标志物值，每个生物标志物值对应于生物标志物
GBP5、CXCL10、IDO1和MX1，和选自表2B中的生物标志物的列表的至少N种另外的生物标志物
其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、
24、25、26、27、28、29、30、31、32、33、34、35或36。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定并检测生物标志物值，每
个生物标志物值对应于生物标志物GBP5和选自表2B中的生物标志物的列表的至少N种另外
的生物标志物其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、29、
20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38或39。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定
并检测生物标志物值，每个生物标志物值对应于生物标志物CXCL10和选自表2B中的生物标
志物的列表的至少N种另外的生物标志物其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、
12、13、14、15、16、17、18、29、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、
37、38或39。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来
自个体的生物样品上进行测定并检测生物标志物值，每个生物标志物值对应于生物标志物
IDO1和选自表2B中的生物标志物的列表的至少N种另外的生物标志物其中之一，其中N等于
2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、29、20、21、22、23、24、25、26、27、28、29、
30、31、32、33、34、35、36、37、38或39。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定并检测生物标志物值，每个生物标
志物值对应于生物标志物MX-1和选自表2B中的生物标志物的列表的至少N种另外的生物标
志物其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、29、20、21、22、
23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38或39。

[0081] 在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定并检测生物标志物值，每个生物标志物值对应于生物标志物
CXCL10、MX1、IDO1和IFI44L中的至少两种和选自表2B中的生物标志物的列表的至少N种另
外的生物标志物其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、
19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上
进行测定并检测生物标志物值，每个生物标志物值对应于生物标志物CXCL10、MX1、IDO1和
IFI44L和选自表2B中的生物标志物的列表的至少N种另外的生物标志物其中之一，其中N等
于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、
29、30、31、32、33、34、35、36、37、38、39或40。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定并检测生物标志物值，每个
生物标志物值对应于生物标志物CXCL10和选自表2B中的生物标志物的列表的至少N种另外
的生物标志物其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、29、
20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42或43。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样
品上进行测定并检测生物标志物值，每个生物标志物值对应于生物标志物MX1和选自表2B
中的生物标志物的列表的至少N种另外的生物标志物其中之一，其中N等于2、3、4、5、6、7、8、
9、10、11、12、13、14、15、16、17、18、29、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、
35、36、37、38、39、40、41、42或43。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定并检测生物标志物值，每个生物标志物
值对应于生物标志物IDO1和选自表2B中的生物标志物的列表的至少N种另外的生物标志物
其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、29、20、21、22、23、
24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42或43。在另一方面，在个体中预测治疗应答性或指示癌症诊断通过以下来进行：在来自个体的生物样品上进行测定
并检测生物标志物值，每个生物标志物值对应于生物标志物IFI44L和选自表2B中的生物标
志物的列表的至少N种另外的生物标志物其中之一，其中N等于2、3、4、5、6、7、8、9、10、11、
12、13、14、15、16、17、18、29、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、
37、38、39、40、41、42或43。

[0082] 在其他的实施方案中，表2C中所列的探针(SED ID NO:83-202)或其子集，可用于本文所描述的方法中。这些子集包括但不限于对应于GBP5、CXCL10、IDO1、MX1、IF144l、CD2、PRAME、ITGAL、LRP4和APOL3中的一个或多个的SEQ ID NO的子集。在其他的实施方案中，探
针对应于生物标志物CXCL10、MX1、IDO1、IF144L、CD2、GBP5、PRAME、ITGAL、LRP4、APOL3、CDR1、FYB、TSPAN7、RAC2、KLHDC7B、GRB14、AC138128.1、KIF26A、CD274、CD109、ETV7、MFAP5、OLFM4、PI15、FOSB、FAM19A5、NLRC5、PRICKLE1、EGR1、CLDN10、ADAMTS4、SP140L、ANXA1、RSAD2、ESR1、IKZF3、OR2l1P、EGFR、NAT1、LATS2、CYP2B6、PTPRC、PPP1R1A和AL137218.1的全部。应理解的是每个子集可包括针对相同生物标志物的多个探针。例如，SEQ ID NO:135、
140、142和195所代表的探针均针对GBP5。因此，包含针对或对应GBP5的探针的子集包括SEQ ID NO:135、140、142和195中的一个或多个。包含针对或对应CXCL10的探针的子集包括SEQ
ID NO:131和160中的一个或多个。

[0083] 利用分类器模型测量基因表达

[0084] 已使用多种方法试图鉴定生物标志物和诊断疾病。对于基于蛋白的标志物，这些方法包括双向电泳、质谱测定法和免疫测定方法。对于核酸标志物，这些方法包括mRNA表达
谱、微小RNA谱、FISH、基因表达系列分析(SAGE)、甲基化谱和大型基因表达阵列。

[0085] 当生物标志物在个体中指示异常进程、疾病或其他病症或作为异常进程、疾病或其他病症的标志时，该生物标志物与在个体中指示正常进程、无疾病或其他病症或作为正
常进程、无疾病或其他病症的标志的生物标志物的表达水平或值相比较，通常被描述为过
表达的或低表达的。“上调”、“上调的”、“过表达”、“过表达的”和其任何变化形式互换地用来指大于在健康或正常个体中通常检测到的生物标志物的值或水平(或值或水平的范围)
的生物样品中的生物标志物的值或水平。该术语还可指大于在特定疾病的不同阶段可检测
到的生物标志物的值或水平(或值或水平的范围)的生物样品中的生物标志物的值或水平。

[0086] “下调”、“下调的”、“低表达”、“低表达的”和其任何变化形式互换地用来指小于在健康或正常个体中通常检测到的生物标志物的值或水平(或值或水平的范围)的生物样品中的生物标志物的值或水平。该术语还可指小于在特定疾病的不同阶段可检测到的生物标
志物的值或水平(或值或水平的范围)的生物样品中的生物标志物的值或水平。

[0087] 此外，与在个体中指示正常进程或无疾病或其他病症或作为正常进程或无疾病或其他病症的标记的生物标志物的“正常”表达水平或值相比较，过表达的或低表达的生物标
志物还可称作“差异表达的”或称作具有“差异水平”或“差异值”。因此，生物标志物的“差异表达”还可称作生物标志物的“正常”表达水平的变化形式。

[0088] 术语“差异生物标志物表达”和“差异表达”互换地用来指相对于其在正常对象中的表达，或相对于其在对特定治疗不同地应答的或具有不同的预后的患者中的表达，其表
达在患有特定疾病的对象中被激活为较高或较低水平的生物标志物。该术语还包括其表达
在相同的疾病的不同的阶段被激活为较高或较低水平的生物标志物。还要理解的是差异表
达生物标志物可在核酸水平或蛋白水平上被激活或被抑制，或可经受选择性剪接以产生不
同的多肽产物。这种差异可通过包括mRNA水平、微小RNA水平、反义转录物水平或蛋白表面
表达、分泌或多肽的其他划分的多种改变来证实。差异生物标志物表达可包括两个或更多
个基因之间或其基因产物之间的表达的比较；或两个或更多个基因之间或其基因产物之间
的表达的比率的比较；或甚至相同基因的两个不同加工的产物的比较，其在正常对象和患
病对象之间是不同的；或在相同疾病的不同阶段是不同的。差异表达包括例如在正常细胞
和病态细胞之间或在经历不同的疾病事件或疾病阶段的细胞之间，在生物标志物中瞬时表
达模式或细胞表达模式中的定量和定性的差异。

[0089] 在某些实施方案中，所获得的表达谱是基因组或核酸表达谱，其中样品中的一种或多种核酸的量或水平是确定的。在这些实施方案中，对其进行测定以生成诊断或预后方
法中所用的表达谱的样品是核酸样品。核酸样品包括含待分析的细胞或组织的表型决定生
物标志物的表达信息的核酸的群体。在一些实施方案中，核酸可包括RNA或DNA核酸，例如，
mRNA、cRNA、cDNA等，条件是样品保留了获得其的宿主细胞或组织的表达信息。样品可以本
领域中已知的多种不同的方法来制备，例如，通过从细胞分离mRNA，如差异基因表达领域所
已知的，其中分离的mRNA作为分离的、扩增的来使用，或用来制备cDNA、cRNA等。因此，确定样品中的mRNA的水平包括从mRNA制备cDNA或cRNA，且然后测量cDNA或cRNA。通常利用标准
方案从由需要治疗的对象中收获的细胞或组织来制备样品，其中可由其产生所述核酸的细
胞类型或组织包括其中待确定的表型的表达类型存在的任何组织，包括但不限于，病态的
细胞或组织、体液等。

[0090] 可利用任何常规方案从初始核酸样品中生成表达谱。虽然生成表达谱的多种不同的方式是已知的，例如在差异基因表达/生物标志物分析领域中所使用的那些，生成表达谱
的一个代表性的和方便的类型的方案是基于阵列的基因表达谱生成方案。该应用是杂交测
定，其中使用了关于在待生成的谱中待测定/谱分析的每个基因表现为“探针”核酸的核酸。
在这些测定中，首先从待测定的初始核酸样品中制备靶核酸的样品，其中制备可包括用标
记物标记靶核酸，所述标记物例如，信号产生系统的成员。制备靶核酸样品后，在杂交条件
下将样品与阵列相接触，从而在与附着于阵列表面的探针序列互补的靶核酸之间形成复合
物。然后定性地或定量地检测杂交复合物的存在。可实践以生成主题方法中所使用的表达
谱的特定的杂交技术包括以下中所描述的技术：美国专利第5,143,854号、第5,288,644号、
第5,324,633号、第5,432,049号、第5,470,710号、第5,492,806号、第5,503,980号、第5,
510,270号、第5,525,464号、第5,547,839号、第5,580,732号、第5,661,028号、第5,800,992号；其公开内容在此通过引用并入；以及WO95/21265、WO96/31622、WO97/10365、WO97/
27317、EP373203和EP785280。在这些方法中，将包括针对其表达待测定的每个生物标志物
的探针的“探针”核酸的阵列与以上所描述的靶核酸相接触。接触在杂交条件下进行，例如，以上所描述的严格杂交条件，然后除去未结合的核酸。所得的杂交核酸的类型提供了关于
已被探针杂交的每个生物标志物的表达的信息，其中表达信息以基因是否被表达的方式来
呈现，且通常地以在何种水平被表达来呈现，其中表达数据，即，表达谱可以是定性的和定
量的。

[0091] 构建生物标志物表达分类器

[0092] 在一个实施方案中，测量癌症组织中的生物标志物的相对表达水平以生成基因表达谱。将来自患者组织样品的一组生物标志物的基因表达谱以综合决策得分的形式进行总
结并与从患者数据的训练集中数学推导的得分阈值相比较。得分阈值根据不同的特征将患
者组分开，所述特征例如但不限于，对治疗的应答性/非应答性。患者训练集数据优选地来
源于已由预后、复发可能性、长期存活、临床结果、治疗应答、诊断、癌症分类或个体化的基因组谱表征的癌症组织样品。可将来自患者样品的表达谱和相应的决策得分与位于数学推
导的得分决策阈值的同侧的训练集中的患者样品的特征相关联。优化线性分类器标量输出
的阈值以使如在训练数据集中所观察到的交叉验证下敏感性与特异性的和最大化。

[0093] 利用本领域技术人员已知的方法对给定样品的整体表达数据进行标准化以校正起始物质的不同的量、提取和扩增反应的不同的效率等。利用基于标准化数据的线性分类
器来有效地生成诊断或预后响应(例如，对于治疗剂的应答性或抗性)意为通过分离超平面
的方式将数据空间，即，分类器中全部基因的表达值的所有可能的组合，分割为分开的两
半。该分割基于一大组训练实例凭经验来获得，所述训练实例例如来自对治疗剂表现出应
答性或抗性的患者。不失一般性地，对于除一个生物标志物以外的全部生物标志物可假定
某个固定组的值，其将自动地确定关于该剩余生物标志物的阈值，其中决策将变为，例如，
对治疗剂的应答性或抗性。然后高于该动态阈值的表达值将指示抗性(对于具有负权的生
物标志物)或应答性(对于具有正权的生物标志物)。该阈值的精确值取决于分类器中的所
有其他生物标志物的实际测量的表达谱，但某些生物标志物的通用指示仍然是固定的，即，
高的值或“相对过表达”常有助于应答性(具有正权的基因)或抗性(具有负权的基因)。因
此，在整体基因表达分类器的情况下，相对表达可指示某生物标志物的上调或下调是否代
表对治疗剂的应答性或抗性。

[0094] 在一个实施方案中，通过线性分类器评价患者组织样品的生物标志物表达谱。如本文所用的，线性分类器指单独的生物标志物强度加权总和为综合决策得分(“决策函
数”)。然后将该决策得分与预定的截断得分阈值相比较，该阈值对应于按敏感性和特异性
方式的某设定点，该设定点指示是否样品高于得分阈值(决策函数为正)或低于得分阈值
(决策函数为负)。

[0095] 事实上，这意味着数据空间，即，生物标志物表达值的所有可能的组合的集合，被分割为对应于不同的临床种类或预测的互斥的两半，例如，一个对应于对治疗剂的应答性
和另一个对应于抗性。在整体分类器的情况下，某些生物标志物的相对过表达可增高决策
得分(正权)或降低决策得分(负权)，且因此有助于整体决策，例如，对治疗剂的应答性或抗
性。

[0096] 术语“曲线下面积”或“AUC”指受试者工作特征(ROC)曲线的曲线下面积，二者是领域中熟知的。AUC测量对于跨全部数据范围比较分类器的准确度是有用的。具有较高AUC的分类器具有在两个目标组(例如，卵巢癌样品和正常样品或对照样品)之间进行正确分类未
知的更高的能力。ROC曲线对于在两个群体(例如，对治疗剂应答和非应答的个体)之间进行
区别时描绘特定特征(例如，本文所描述的任何生物标志物和/或另外的生物医学信息的任
何条目)的性能是有用的。通常，以单个特征的值为基础以升序顺序跨越整个群体(例如，病
例和对照)选出特征数据。然后，对于该特征的每个值，计算数据的真阳性和假阳性率。真阳性率通过计数高于该特征的值的病例的数目并除以病例总数而确定。假阳性率通过计数高
于该特征的值的对照的数目并除以对照总数而确定。虽然该定义指与对照相比较在病例中
特征是增高的情况，该定义还应用于与对照相比较在病例中特征较低的情况(在该情况中，
将计数低于该特征的值的样品)。ROC曲线可关于单独特征来生成，且可关于其他单独输出
来生成，例如，两个或更多个特征的组合可用数学方法结合(例如，相加、相减、相乘等)以提供单独的总和值，且该单独的总和值可绘制于ROC曲线中。另外，其中的组合源自单独的输
出值的多个特征的任意组合可绘制于ROC曲线中。特征的这些组合可包括试验。ROC曲线是
试验的真阳性率(敏感性)针对试验的假阳性率(1-特异性)的图。

[0097] 对于该量，即，对治疗剂的截断阈值应答性或抗性，其解释在发展期(“训练”)源自一组具有已知结果的患者。决策得分的相应加权和应答性/抗性截断阈值是固定的，通过本领域技术人员已知的方法来自训练数据的先验。在本方法的一个优选的实施方案中，使用
偏最小二乘法判别分析(PLS-DA)来确定加权。(L. S.Wold,J.Chemom.1(1987)185-
196；D.V.Nguyen,D.M.Rocke,Bioinformatics18(2002)39-50)。当应用于癌症分类器的转
录物时，本领域技术人员已知的用于进行分类的其他方法也可与本文所描述的方法联合。

[0098] 可使用不同的方法将在这些生物标志物基础上测量的定量的数据转化为预后或其他预测用途。这些方法包括，但不限于来自模式识别的领域的方法(Duda等人Pattern
Classification,第二版,John Wiley,New York2001)，机器学习( 等人
Learning with Kernels,MIT Press,Cambridge2002,Bishop,Neural Networks for
Pattern Recognition,Clarendon Press,Oxford1995)，统计学(Hastie等人The Elements
of Statistical Learning,Springer,New York2001)，生物信息学(Dudoit等人,2002,
J.Am.Statist.Assoc.97:77-87,Tibshirani等人,2002,Proc.Natl.Acad.Sci.USA99:
6567-6572)或化学计量学(Vandeginste,等人,Handbook of Chemometrics and
Qualimetrics,B部分,Elsevier,Amsterdam1998)。

[0099] 在训练步骤中，关于应答性/抗性病例两者测量了一组患者样品，并利用来自该训练数据的固有信息优化了预测方法，以最佳地预测训练集或未来的样品集。在该训练步骤
中，训练了所用的方法或使所用方法参数化以由特定强度类型到特定预测响应进行预测。
在对其进行预后方法或算法之前可利用测量的数据进行适宜的转化或预处理步骤。

[0100] 在本发明的优选的实施方案中，对于每个转录物形成了预处理的强度值的加权总和，并将其与基于训练集优化的阈值相比较(Duda等人Pattern Classification,2nd ed.,
John Wiley,New York2001)。加权可通过多种线性分类方法获得，包括但不限于偏最小二
乘法(PLS，(Nguyen等人,2002,Bioinformatics18(2002)39-50))或支持向量机(SVM，(
等人Learning with Kernels,MIT Press,Cambridge2002))。

[0101] 在本发明的另一个实施方案中，在应用于如以上所描述的加权总和之前将数据转化为非线性的。该非线性转化可包括增加数据的维数。该非线性转化和加权总和可以隐式
地进行，例如通过使用核函数( 等人Learning with Kernels,MIT Press,
Cambridge2002)。

[0102] 在本发明的另一个实施方案中，将新型数据样品与作为真实测量的训练样品或人工产生的原型的两种或更多种原型相比较。该比较利用适宜的相似方式来进行，例如，但不
限于，欧几里德距离(Duda等人Pattern Classification,2nd ed.,John Wiley,New
York2001)，相关系数(Van’t Veer,等人2002,Nature415:530)等。然后将新型样品分配到
具有最接近的原型或在附近具有最高数目原型的预后组。

[0103] 在本发明的另一个实施方案中，使用决策树(Hastie等人,The Elements of Statistical Learning,Springer,New York2001)或随机森林(Breiman,Random Forests,
Machine Learning45:52001)从关于转录物集或其产物的测量强度数据生成预后响应。

[0104] 在本发明的另一个实施方案中，使用神经网络(Bishop,Neural Networks for Pattern Recognition,Clarendon Press,Oxford1995)从关于转录物集或其产物的测量强
度数据生成预后响应。

[0105] 在本发明的另一个实施方案中，使用判别分析(Duda等人,Pattern nd
Classification,2 ed.,John Wiley,New York2001)包括但不限于线性分析、对角线性分
析、二次判别分析和逻辑判别分析从关于转录物集或其产物的测量强度数据生成预后响
应。

[0106] 在本发明的另一个实施方案中，使用微阵列预测分析(PAM,(Tibshirani等人,2002,Proc.Natl.Acad.Sci.USA99:6567-6572))从关于转录物集或其产物的测量强度数据
生成预后响应。

[0107] 在本发明的另一个实施方案中，使用软独立建模分类法(SIMCA,(Wold,1976,Pattern Recogn.8:127-139))从关于转录物集或其产物的测量强度数据生成预后响应。

[0108] 治疗剂

[0109] 如以上所描述的，本文描述的方法允许将患者分类为对靶向具有异常DNA修复的肿瘤的治疗剂(下文称作“DNA损伤治疗剂”)应答的或非应答的种类。如本文所用的，“DNA损伤治疗剂”包括已知直接损伤DNA的试剂，阻止DNA损伤修复的试剂，抑制DNA损伤信号转导
的试剂，抑制DNA损伤诱导的细胞周期停滞的试剂和抑制间接导致DNA损伤的过程的试剂。
目前一些用来治疗癌症的所述治疗包括，但不限于，以下的DNA损伤治疗剂。

[0110] 1)DNA损伤剂：

[0111] a.烷化剂(含铂的试剂，例如顺铂、卡铂和奥沙利铂；环磷酰胺；白消安)。

[0112] b.拓扑异构酶I抑制剂(依立替康；托泊替康)

[0113] c.拓扑异构酶II抑制剂(依托泊苷；蒽环类例如阿霉素和表柔比星)

[0114] d.电离辐射

[0115] 2)DNA修复靶向治疗

[0116] a.非同源末端连接的抑制剂(DNA-PK抑制剂、Nu7441、NU7026)

[0117] b.同源重组的抑制剂

[0118] c.核苷酸切除修复的抑制剂

[0119] d.碱基切除修复的抑制剂(PARP抑制剂、AG014699、AZD2281、ABT-888、MK4827、BSI-201、INO-1001、TRC-102、APEX1抑制剂、APEX2抑制剂、连接酶III抑制剂。

[0120] e.范可尼贫血通路的抑制剂

[0121] 3)DNA损伤信号通路的抑制剂

[0122] a.ATM抑制剂(CP466722、KU-55933)

[0123] b.CHK1抑制剂(XL-844、UCN-01、AZD7762、PF00477736)

[0124] c.CHK2抑制剂(XL-844、AZD7762、PF00477736)

[0125] 4)DNA损伤诱导的细胞周期停滞的抑制物

[0126] a.Wee1激酶抑制剂

[0127] b.CDC25a、b或c抑制剂

[0128] 5)对直接导致DNA损伤的过程的抑制

[0129] a.组蛋白脱乙酰基酶抑制剂

[0130] b.热休克蛋白抑制剂(格尔德霉素、AUY922)

[0131] 疾病和组织来源

[0132] 本文所描述的预测分类器对于确定用于治疗癌症的治疗剂的应答性或抗性是有用的。本文所描述的生物途径是癌症自身的特征，与等级和阶段相似，且从而不限于单一癌
症疾病类型。因此，基因或基因产物的集合可跨不同组织中的不同癌症类型用于预测癌症
治疗的应答性。在一个实施方案中，基因或基因产物的集合对于评估乳腺癌肿瘤和卵巢癌
肿瘤是有用的。

[0133] 如本文所用的，癌症包括但不限于，白血病、脑癌、前列腺癌、肝癌、卵巢癌、胃癌、结肠直肠癌、咽喉癌、乳癌、皮肤癌、黑色素瘤、肺癌、肉瘤、宫颈癌、睾丸癌、膀胱癌、内分泌系统癌、子宫内膜癌、食管癌、神经胶质瘤、淋巴瘤、神经母细胞瘤、骨肉瘤、胰腺癌、垂体肿瘤、肾癌等。

[0134] 在一个实施方案中，本文所描述的方法指用下列种类的化学治疗剂治疗的癌症：DNA损伤剂、DNA修复靶治疗、DNA损伤信号转导的抑制剂、DNA损伤诱导的细胞周期停滞的抑
制剂和间接地导致DNA损伤的过程的抑制，但不限于这些种类。这些化学治疗剂中的每一种
被认为是如本文所用的术语“DNA损伤治疗剂”。

[0135] “生物样品”、“样品”和“试验样品”在本文互换地使用以指从个体获得或用其他方式取得的任何物质、生物流体、组织或细胞。其包括血液(包括全血、白血球、外周血单核细胞、血沉棕黄层、血浆和血清)、痰液、泪液、粘液、鼻洗液、鼻抽吸物、呼吸样、尿液、精液、唾液、脑膜液、羊水、腺液、淋巴液、乳头抽吸物、支气管抽吸物、滑膜液、关节抽吸物、腹水、细胞、细胞提取物和脑脊液。其还包括上述全部的实验分离级分。例如，血液样品可分级为血清或含特定类型的血细胞的级分，例如红细胞或白细胞(白血球)。若需要，样品可以是来自
个体的样品的组合，例如组织和流体样品的组合。术语“生物样品”还包括含均质固体物质
的物质，例如来自粪便样品、组织样品或活检组织的物质。术语“生物样品”还包括来源于组织培养或细胞培养的物质。可利用用于获得生物样品的任何适宜的方法；示例性的方法包
括，例如，静脉切开术、擦拭(例如，口腔擦拭)，和细针穿刺活检过程。还可通过例如显微解剖(例如，激光捕获显微切割(LCM)或激光显微切割(LMD))、膀胱冲洗、涂片(例如，PAP涂片)或导管灌洗来收集样品。从个体获得或来源于个体的“生物样品”包括在从个体获得之后已
以任何适宜的方式处理的任何这样的样品。

[0136] 在这样的情况下，靶细胞可以是肿瘤细胞，例如，结肠癌细胞或胃癌细胞。靶细胞来源于任何组织来源，包括人类和动物组织，例如但不限于，新获得样品、冷冻的样品、活检样品、体液样品、血样、保存的组织例如石蜡包埋固定的组织样品(即，组织块)或细胞培养。

[0137] 方法和试剂盒

[0138] 用于基因表达分析的试剂盒

[0139] 用于进行本文所描述的方法的试剂、工具和/或说明书可于试剂盒中提供。例如，试剂盒可包含用于确定关于癌症患者的适当治疗的试剂、工具和说明书。所述试剂盒可包
括用于从患者收集组织样品的试剂，例如通过活检来收集，和用于处理该组织的试剂。试剂
盒还可包括用于进行生物标志物表达分析的一种或多种试剂，例如用于进行RT-PCR、qPCR、
RNA印迹、蛋白质组分析或免疫组织化学以确定患者的样品中的生物标志物的表达水平的
试剂。例如，所述试剂盒中可包括用于进行RT-PCR的引物，用于进行RNA印迹分析的探针，
和/或用于进行蛋白质组分析例如蛋白质印迹、免疫组织化学和ELISA分析的抗体。还可包
括用于测定的适当的缓冲液。还可包括这些测定中的任何一种所需的检测试剂。以下详细
描述了适当的试剂和方法。

[0140] 本文所表征的试剂盒还可包括描述如何进行用于测量生物标志物表达的测定的说明卡。说明卡还可包括如何确定参考组群的说明，包括如何确定参考组群中生物标志物
的表达水平和如何集合表达数据以建立用于与试验患者相比较的参考。说明卡还可包括用
于测定试验患者中的生物标志物表达和用于将该表达水平与参考组群中的表达相比较从
而确定用于试验患者的适当的化学治疗的说明。以上描述了用于确定适当的化学治疗的方
法，且该方法可于说明卡中详细描述。

[0141] 试剂盒中包括的信息材料可以是与本文所描述的方法和/或用于本文所描述的方法的试剂的用途相关的描述的、指导的、销售的或其他的材料。例如，试剂盒的信息材料可
包含联系信息，例如，物理地址、电子邮件地址、网站或电话号码，其中试剂盒的使用者可获得有关进行基因表达分析和解析结果的大量信息，尤其当应用于可能对特定治疗剂具有阳
性应答的人类时。

[0142] 本文所表征的试剂盒还可包含从生物标志物表达推断可能对特定的治疗剂具有阳性应答的患者所必需的软件。

[0143] a)基因表达谱分析方法

[0144] 在生物样品中测量mRNA可用作检测生物样品中的相应蛋白水平的替代。因此，本文所描述的任何生物标志物或生物标志物套组还可通过检测适当的RNA来检测。基因表达
谱分析的方法包括，但不限于，微阵列、RT-PCT、qPCR、RNA印迹、SAGE、质谱测定法。

[0145] mRNA表达水平通过反转录定量聚合酶链式反应(RT-PCR，随后为qPCR)来测量。RT-PCR被用来从mRNA产生cDNA。cDNA可用于qPCR测定以随DNA扩增过程进行而产生荧光。通过
与标准曲线比较，qPCR可产生绝对测量，例如每个细胞的mRNA拷贝数。与毛细管电泳结合的
RNA印迹、微阵列、侵入测定和RT-PCR均已用于测量样品中的mRNA的表达水平。参见Gene
Expression Profiling:Methods and Protocols,Richard A.Shimkets编,Humana Press,
2004。

[0146] 微小RNA分子是非编码但可调节基因表达的小RNA。适合测量mRNA表达水平的任何方法也可用于相应的微小RNA。最近许多实验室已研究了微小RNA作为疾病的生物标志物的
用途。许多疾病涉及广泛的转录调节，微小RNA可能作为生物标志物具有一定作用不是出人
意料的。微小RNA浓度和疾病之间的关联常常不如蛋白水平和疾病之间的关联那么清楚，然
而微小RNA生物标志物的值可能是显著的。当然，与疾病过程中差异表达的任何RNA一样，开
发体外诊断产品面临的问题将包括以下必要条件：微小RNA存活于病态细胞中且易于提取
以进行分析，或微小RNA被释放到血液或其他基质中，在那里微小RNA必须存活得足够久以
被测量。蛋白生物标志物具有相似的必要条件，虽然许多潜在的蛋白生物标志物有意地在
病理位点分泌并在疾病过程中以旁分泌的方式行使功能。许多潜在的蛋白生物标志物被设
计为在合成那些蛋白的细胞外行使功能。

[0147] 基因表达还可利用质谱测定法来评估。多种配置的质谱仪可用于检测生物标志物值。若干类型的质谱仪是可用的或可利用不同的配置来产生。通常，质谱仪具有以下主要组
件：进样口、离子源、质量分析器、检测器、真空系统和仪器控制系统和数据系统。进样口、离子源和质量分析器的差异通常限定了仪器的类型及其性能。例如，入口可以是毛细管柱液
相色谱来源，或可以是直接进样探头或平台，例如基质辅助激光解析中所用的。常见的离子
源为，例如，电喷射，包括纳升喷射和微喷射或基质辅助激光解析。常见的质谱仪包括四极
滤质器、离子阱质量分析器和渡越时间质量分析器。另外的质谱测定法是本领域中熟知的
(参见Burlingame等人,Anal.Chem.70:647R-716R(1998)；Kinter和Sherman,New York
(2000))。

[0148] 蛋白生物标志物和生物标志物值可通过任何以下方法来检测和测量：电喷射电离质谱法(ESI-MS)、ESI-MS/MS、ESI-MS/(MS)n、基质辅助激光解析离子化渡越时间质谱测定
法(MALDI-TOF-MS)、表面增强激光解析/电离渡越时间质谱测定法(SELDI-TOF-MS)、硅表面
的激光解吸/离子化质谱(DIOS)、次级离子质谱法(SIMS)、四极杆渡越时间(Q-TOF)、串联渡
越时间(TOF/TOF)技术，称作ultraflex III TOF/TOF，大气压化学电离质谱法(APCI-MS)、
APCI-MS/MS、APCI-(MS).sup.N、大气压光离子质谱法(APPI-MS)、APPI-MS/MS和APPI-(MS)
.sup.N、四极杆质谱测定法、傅立叶变换质谱测定法(FTMS)、定量质谱测定法和离子阱质谱
测定法。

[0149] 在对蛋白生物标志物进行质谱表征和确定生物标志物值之前使用样品制备策略来标记和富集样品。标记方法包括但不限于用于相对定量和绝对定量的等量异位标签
(iTRAQ)和细胞培养中用氨基酸标记的稳定同位素(SILAC)。在质谱分析之前用来关于候选
生物标志物蛋白选择性地富集样品的捕捉试剂包括但不限于适体、抗体、核酸探针、嵌合
体、小分子、F(ab')2片段、单链抗体片段、Fv片段、单链Fv片段、核酸、凝集素、配体结合受体、亲和体(affybody)、纳米抗体、锚蛋白、域抗体、可选的抗体支架(例如，双特异抗体等)印迹的聚合物、avimer、多肽模拟物、类肽、肽核酸、苏糖核酸、激素受体、细胞因子受体和合成的受体和这些的修饰形式和片段。

[0150] 上述测定能够进行用于预测癌症治疗剂的应答性的方法中的生物标志物值的检测，其中所述方法包括在来自个体的生物样品中检测至少N个生物标志物值，其中每个生物
标志物值对应于选自由表1或2中提供的生物标志物组成的组，如以下所详细描述的，其中
利用生物标志物值的分类指示了个体是否将对治疗剂是应答性的。虽然所描述的预测性生
物标志物中的某些仅对于预测对治疗剂的应答性是有用的，本文还描述了用于生物标志物
的多个子集的分组的方法，所述每个子集作为一组两种或更多种生物标志物是有用的。因
此，本申请的各个实施方案提供了包括N种生物标志物的组合，其中N为至少3种生物标志
物。将被理解的是N可以被选择为以上所描述的范围，以及相似的但高阶范围中的任何范围
中的任何数目。根据本文所描述的任何方法，可检测生物标志物值并单独地对其分类，或可
对其进行检测并集体分类，例如以多重测定形式进行分类。

[0151] b)微阵列方法

[0152] 在一个实施方案中，本发明利用了“寡核苷酸阵列”(本文也称作“微阵列”)。微阵列可用来分析细胞中生物标志物的表达，且尤其用来测量癌症组织的生物标志物的表达。

[0153] 在一个实施方案中，生物标志物阵列通过将代表细胞中存在的mRNA转录物的可检测标记的多核苷酸(例如，从总细胞mRNA或标记的cRNA合成的荧光标记的cDNA)与微阵列杂
交而产生。微阵列是具有细胞或生物体的基因组中的许多基因的产物的结合(例如，杂交)
位点的有序的阵列的表面，所述许多基因优选地为大多数的基因或几乎全部的基因。微阵
列可以本领域中已知的多种方法来生成。无论是怎样产生的，微阵列共有某些特征。阵列是
可再现的，这使得产生了给定阵列的多个拷贝并使其易于相互比较。优选地，微阵列是小
的，通常小于5cm2，且其由在结合(例如，核酸杂交)条件下稳定的材料制成。微阵列中给定
的结合位点或结合位点的独特的集合将特异性地结合细胞中的单基因的产物。在特定的实
施方案中，使用在每个位置处包含已知序列的附着核酸的位置可寻址阵列。

[0154] 将理解的是，当生成与细胞的RNA互补的cDNA并在适宜的杂交条件下将其与微阵列杂交时，与阵列中对应于任何特定基因的位点的杂交水平将反映出在由该基因/生物标
志物转录的mRNA的细胞中的广泛性。例如，当与总细胞mRNA互补的可检测标记(例如，利用
荧光素)的cDNA或cRNA与微阵列杂交时，阵列上对应于未在细胞中转录的基因(即，能够特
异性地结合基因的产物)的位点将具有很少信号或无信号(例如，荧光信号)，且所编码的
mRNA分布广泛的基因将具有相对强的信号。选择核酸杂交和洗涤条件以便探针与特定的阵
列位点“特异性地结合”或“特异性地杂交”，即，探针与具有互补核酸序列的序列阵列位点杂交、形成双链体或结合，而不与具有非互补核酸序列的位点杂交。如本文所用的，当多核
苷酸的较短部分少于或等于25个碱基时，利用碱基配对法则无错配，或若多核苷酸的较短
部分长于25个碱基，不存在5%以上的错配时，则认为一个多核苷酸序列与另一个互补。优选
地，多核苷酸完全地互补(无错配)。可表明的是，利用常规实验通过进行包括阴性对照的杂
交测定的特定杂交条件导致特异性杂交。

[0155] 最佳杂交条件将取决于标记的探针和固定的多核苷酸或寡核苷酸的长度(例如，寡聚体对比大于200个碱基的多核苷酸)和类型(例如，RNA、DNA、PNA)。用于核酸的特定(即，严格)杂交条件的通用参数描述于Sambrook等人，同上，和于Ausubel等人,“Current
Protocols in Molecular Biology”，Greene Publishing and Wiley-interscience,NY
(1987)，其以整体并入以用于所有目的。当使用cDNA微阵列时，典型杂交条件是在65C时，在
5xSSC加0.2%SDS中杂交，持续4小时，然后在25℃时在低严格洗涤缓冲液(1xSSC加0.2%SDS)
中洗涤，然后在25℃时在高严格洗涤缓冲液(0.1SSC加0.2%SDS)中洗涤10分钟(参见Shena
等人,Proc.Natl.Acad.Sci.USA,Vol.93,p.10614(1996))。例如，Tijessen,Hybridization
With Nucleic Acid Probes”，Elsevier Science Publishers B.V.(1993)和Kricka,"
Nonisotopic DNA Probe Techniques",Academic Press,San Diego,Calif.(1992)中也提
供了有用的杂交条件。

[0156] c)免疫测定方法

[0157] 免疫测定方法基于抗体与其相应靶标或分析物的反应，且可根据特定的测定形式在样品中检测分析物。为提高基于免疫反应性的测定方法的特异性和敏感性，单克隆抗体
由于其特异性表位识别而经常被使用。在许多免疫测定中也已成功地使用了多克隆抗体，
原因是它们与单克隆抗体相比对于靶标的亲和力增高。已设计了用于宽泛的范围的生物样
品基质的免疫测定。已设计了提供定性、半定量和定量的结果的免疫测定形式。

[0158] 定量结果可通过利用待检测的特定分析物的已知浓度产生的标准曲线的应用来生成。基于标准曲线绘制来自未知样品的应答或信号的图，且建立对应于未知样品中的靶
标的量或值。

[0159] 已设计了多种免疫测定形式。ELISA或EIA可以定量地检测分析物/生物标志物。该方法基于标记与分析物或抗体的连接，且标记组分直接地或间接地包括酶。可设计ELISA试
验的格式以对分析物进行直接、间接、竞争性或三明治检测。其他基于标记的方法例如，放
射性同位素(I125)或荧光。另外的技术包括，例如，凝集法、浊度法、比浊法、蛋白质印迹、免疫沉淀、免疫细胞化学、免疫组织化学、流式细胞术、Luminex测定和其他技术(参见
ImmunoAssay:A Practical Guide,Brian Law编,Taylor&Francis,Ltd.出版,2005版)。

[0160] 示例性的测定形式包括酶联免疫测定(ELISA)、放射免疫测定、荧光测定、化学发光测定和荧光共振能量转移(FRET)或时间分辨-FRET(TR-FRET)免疫测定。用于检测生物标
志物的程序的实例包括生物标志物免疫沉淀，然后进行允许区分大小和肽水平的定量方
法，例如凝胶电泳、毛细管电泳、平面电色谱等。

[0161] 检测和/或定量可检测的标记或信号生成物质的方法取决于标记的性质。由适当的酶催化的反应的产物(其中可检测的标记是酶；参见以上)可以是，但不限于，荧光产物、
发光产物或放射活性产物，或其可吸收可见光或紫外线。适用于检测所述可检测的标记的
检测物的实例包括，但不限于，x-射线薄膜、放射性计数器、闪烁计数器、分光光度计、比色计、荧光光度计、光度计和光密度计。

[0162] 任何用于检测的方法可以允许进行任何适宜的反应的制备、处理和分析的任何形式来进行。这可以是，例如，在多孔测定板(例如，96孔或384孔)中进行或利用任何适宜的阵列或微阵列进行。用于不同的试剂的贮存液可以手动地或机器地配制，且所有随后的吸取、
稀释、混合、分配、洗涤、孵育、样品读数、数据采集和分析可利用能够检测可检测的标记的商业上可获得的分析软件、机器和检测设备在机器上进行。

[0163] 临床应用

[0164] 在一些实施方案中，提供了用于鉴定和/或选择对于治疗方案应答性的癌症患者的方法。特别地，所述方法涉及鉴定或选择对于治疗方案应答性的癌症患者，所述治疗方案
包括施用直接或间接损伤DNA的试剂。还提供了用于鉴定对于治疗方案非应答性的患者的
方法。这些方法通常包括确定患者肿瘤(原发性肿瘤、转移性肿瘤或来自肿瘤的其他衍生
物，例如，但不限于，血液或血液中的组分、尿液、唾液和其他体液)(例如，患者的癌细胞)中一系列预测标志物的表达水平，将表达水平与参考表达水平相比较，并鉴定样品中的表达
是否包括对应于所选择的对治疗剂的应答或非应答的预测标志物或标志物集的表达的类
型或谱。

[0165] 在一些实施方案中，预测个体对DNA损伤治疗剂的应答性的方法包括以下步骤：从个体中获得试验样品；测量试验样品中的一种或多种生物标志物的表达水平，其中一种或
多种生物标志物选自由CXCL10、MX1、IDO1、IF144L、CD2、GBP5、PRAME、ITGAL、LRP4和APOL3组成的组；获得记录表达水平的试验得分；提供包括与试验得分和应答性有关的信息的阈值
得分；以及将试验得分与阈值得分相比较；其中当试验得分超过阈值得分时预测有应答性。
本领域普通技术人员利用本文提供的教导(包括实施例1中的教导)可确定适当的阈值得
分，和适当的生物标志物加权。

[0166] 在其他的实施方案中，预测个体对于DNA损伤治疗剂的应答性的方法包括测量试验样品中的一种或多种标志物的表达水平，其中一种或多种生物标志物选自由CXCL10、
MX1、IDO1、IF144L、CD2、GBP5、PRAME、ITGAL、LRP4、APOL3、CDR1、FYB、TSPAN7、RAC2、KLHDC7B、GRB14、AC138128.1、KIF26A、CD274、CD109、ETV7、MFAP5、OLFM4、PI15、FOSB、FAM19A5、NLRC5、PRICKLE1、EGR1、CLDN10、ADAMTS4、SP140L、ANXA1、RSAD2、ESR1、IKZF3、OR2l1P、EGFR、NAT1、LATS2、CYP2B6、PTPRC、PPP1R1A和AL137218.1组成的组。表2A和2B提供了示例性的基因标签(或基因分类器)，其中生物标志物分别由其中所列的40或44个基因产物组成，且其中阈值
得分来源于其中所列的个体基因产物加权。在这些实施方案中的一个中，其中生物标志物
由表2B所列出的44个基因产物组成，且生物标志物与表2B中所提供的加权相关联，超出阈
值得分0.3681的试验得分指示了个体将对于DNA损伤治疗剂为应答性的可能性。

[0167] 若与不接触治疗剂的生长相比较，作为与治疗剂接触的结果癌症的生长速率被抑制时，则癌症对于治疗剂是“应答性的”。癌症的生长可以多种方法来测量，例如，可测量肿瘤的大小或适用于该肿瘤类型的肿瘤标志物的表达。

[0168] 若与其不接触治疗剂的生长相比较时，作为与治疗剂接触的结果癌症的生长速率没有被抑制，或被抑制的程度非常低，则癌症对于治疗剂是“非应答性的”。如上所述，癌症的生长可用多种方法来测量，例如，可测量肿瘤的体积或适用于该肿瘤类型的肿瘤标志物
的表达。对治疗剂非应答性的性质是高度可变的，不同的癌症对于给定的治疗剂表现出不
同水平的“非应答性”。更进一步地，利用除肿瘤的生长大小之外的另外的标准可评估非应
答性的测量，所述标准包括患者的生活质量、转移的程度等。

[0169] 该试验的应用将预测终点，包括但不限于，总存活期、无进展存活期、放射性应答、如RECIST所定义的应答、完全应答、部分应答、稳定病情和血清学标志物，例如但不限于，PSA、CEA、CA125、CA15-3和CA19-9。

[0170] 可选地，可使用在一种或多种核酸或其生物学衍生物例如编码的蛋白的样品中用于检测、定量和定性RNA、DNA或蛋白的基于非阵列的方法，包括定量PCR(QPCR)、酶联免疫吸附测定(ELISA)或免疫组织化学(IHC)等。

[0171] 从被测定的样品中获得表达谱之后，将表达谱与参考或对照谱相比较以产生关于细胞或组织的治疗应答性表型的诊断，且因此产生关于获得样品的宿主的治疗应答性表型
的诊断。如本文所用的关于表达谱的术语“参考”和“对照”意为待用于解释给定患者的表达分类器并归于预后或预测种类的基因的标准化类型或基因产物表达或某些生物标志物的
表达水平。参考表达谱或对照表达谱可以是获自已知具有需要的表型的样品的谱，所述表
型例如，应答性表型，且因此可以是阳性参考或对照谱。此外，参考谱可以来自已知不具有
需要的表型的样品，且因此是阴性参考谱。

[0172] 如果使用定量PCR作为定量一种或多种核酸的水平的方法，该方法通过测量由双重标记的荧光探针(即，探针)释放的荧光来定量PCR产物积累。

[0173] 在某些实施方案中，将获得的表达谱与单一参考谱相比较以获得关于被测定的样品的表型的信息。在又其他的实施方案中，将获得的表达谱与两种或更多种不同的参考谱
相比较以获得关于测定的样品的表型的更深入的信息。例如，可将获得的表达谱与阳性和
阴性参考谱相比较以获得关于样品是否具有目标表型的确定的信息。

[0174] 获得的表达谱与一种或多种参考谱的比较可利用任何方便的方法来进行，其中多种方法是阵列领域的技术人员所已知的，例如，通过比较表达谱的数字图像、通过比较表达
数据的数据库等来进行。描述比较表达谱的方法的专利包括，但不限于，美国专利第6,308,
170号和第6,228,575号，其公开内容在此通过引用并入。以上还描述了比较表达谱的方法。

[0175] 比较步骤产生了关于所获得的表达谱与一种或多种参考谱的相似或相异程度的信息，该相似信息用来确定被测定的样品的表型。例如，与阳性对照的相似性指示了测定的
样品具有与应答性参考样品相似的应答性表型。相似地，与阴性对照的相似性指示了测定
的样品具有与非应答性参考样品相似的非应答性表型。

[0176] 可进一步将生物标志物的表达水平与不同的参考表达水平相比较。例如，参考表达水平可以是预定的标准表达参考水平，以评估生物标志物或生物标志物集的表达是否是
有信息含量的并关于确定患者是否为应答性或非应答性作出评价。此外，确定生物标志物
的表达水平可以与同生物标志物同时测量的表达的内部参考标志物水平相比较以关于确
定患者是否为应答性或非应答性作出评价。例如，并非由本发明的生物标志物组成但已知
表现恒定表达水平的不同的标志物套组的表达可作为内部参考标志物水平来评价，且当与
参考相比较时生物标志物的表达水平是确定的。在一个可选的实例中，可将非肿瘤样品的
组织样品中选择的生物标志物的表达评价作为内部参考标志物水平。在某些方面生物标志
物的表达水平可被确定为具有增高的表达。在另外的方面生物标志物的表达水平可被确定
为具有降低的表达。表达水平可被确定为与参考水平相比较表达上无信息含量的改变。在
另外的方面，表达水平针对本文所提供的方法确定的预定的标准表达水平来确定。

[0177] 本发明还与指导患者的常规治疗有关。诊断试验显示其为对于术语直接或间接影响DNA损伤和/或DNA损伤修复的种类的药物的应答者的患者，可被施用该治疗，且该患者和
肿瘤学家可有信心认为患者将是受益的。由诊断试验指定为非应答者的患者可被鉴定应用
更可能使其受益的可选的治疗。

[0178] 本发明还涉及选择用于临床试验的患者，其中新型药物属于直接或间接影响DNA损伤和/或DNA损伤修复的种类。具有潜在应答者的试验群体的富集将利于在相关标准下对
药物更彻底的评估。

[0179] 本发明还将涉及诊断患者为患有与DNA损伤应答缺陷(DDRD)有关的癌症或易发展与DNA损伤应答缺陷(DDRD)有关的癌症的方法。DDRD在本文被定义为其中患者的一种或多
种细胞具有降低的修复DNA损伤的能力的任何病症，其降低的能力是肿瘤的发展或生长中
的诱发因素。DDRD诊断可与范可尼贫血/BRCA通路中的突变相关联。DDRD诊断还可与乳腺癌
或卵巢癌相关联。这些诊断方法包括以下步骤：从个体中获得试验样品；测量试验样品中的
一种或多种生物标志物的表达水平，其中一种或多种生物标志物选自由CXCL10、MX1、IDO1、IF144L、CD2、GBP5、PRAME、ITGAL、LRP4和APOL3组成的组；取得记录表达水平的试验得分；提供包括与试验得分和癌症的诊断有关的信息的阈值得分；以及将试验得分与阈值得分相比
较；当试验得分超过阈值得分时，其中个体被确定为患有所述癌症或易于发展所述癌症。利
用本文所提供的教导(包括实施例1的教导)，本领域普通技术人员可确定适当的阈值得分
和适当的生物标志物加权。

[0180] 在其他的实施方案中，诊断患者为患有DDRD相关的癌症或易于发展与DDRD相关的癌症的方法包括测量试验样品中一种或多种生物标志物的表达水平，其中一种或多种生物
标志物选自由CXCL10、MX1、IDO1、IF144L、CD2、GBP5、PRAME、ITGAL、LRP4、APOL3、CDR1、FYB、TSPAN7、RAC2、KLHDC7B、GRB14、AC138128.1、KIF26A、CD274、CD109、ETV7、MFAP5、OLFM4、PI15、FOSB、FAM19A5、NLRC5、PRICKLE1、EGR1、CLDN10、ADAMTS4、SP140L、ANXA1、RSAD2、ESR1、IKZF3、OR2l1P、EGFR、NAT1、LATS2、CYP2B6、PTPRC、PPP1R1A和AL137218.1。表2A和2B提供了示例性的基因标签(或基因分类器)，其中生物标志物分别由其中所列的40个基因产物或44
个基因产物所组成，且其中阈值得分来源于其中所列的单独的基因产物加权。在这些实施
方案中的一个中，其中生物标志物由表2B所列的44个基因产物所组成，且生物标志物与表
2B中提供的加权相关联，超过0.3681的阈值得分的试验得分指示了癌症的诊断或易于发生
癌症的诊断。

[0181] 以说明而非限制的方式提供了以下的实施例。实施例

[0182] 实施例1

[0183] 组织处理、层次聚类、亚型鉴定和分类器发生

[0184] 肿瘤材料

[0185] 确定为在本方法中有用的基因(表2)从来源于罗切斯特市梅奥诊所(Mayo Clinic Rochester)的107个巨切的乳腺肿瘤FFPE组织样品组群的基因表达分析中被鉴定。该研究
的伦理由机构审查委员会(Institutional Review Board)和北爱尔兰伦理研究办公室
(Office of Research Ethics Northern Ireland)批准。

[0186] 该样品的组群可被进一步描述为如下：

[0187] ○47个样品是BRCA1和BRCA2的野生型，即，表达了生物学功能性的BRCA1和BRCA2蛋白。这些样品此后将被称作散发性对照。

[0188] ○31个样品是BRCA1突变体，即，不表达生物学功能性的BRCA1蛋白。

[0189] ○29个样品是BRCA2突变体，即，不表达生物学功能性的BRCA2蛋白。

[0190] 基因表达谱分析

[0191] 利用Roche高纯度RNA石蜡试剂盒(Roche Diagnostics GmbH,Mannheim,Germany)从巨切的FFPE肿瘤样品中提取总RNA。利用NuGEN WT-OvationTM FFPE系统(NuGEN
Technologies Inc.,SanCarlos,CA,USA)扩增总RNA。然后使扩增的单链cDNA片段化并利用
TM
FL-Ovation cDNA Biotin Module V2(NuGEN Technologies Inc.)进行生物素标记。然后
将其与Almac Breast Cancer DSATM杂交。对Almac’s Breast Cancer DSATM研究工具进行
优化用于分析FFPE组织样品，使有价值的贮存的组织库的使用成为可能。Almac Breast
Cancer DSATM研究工具是创新的微阵列平台，代表正常乳腺组织和癌症乳腺组织中的转录
组。因此，Breast Cancer DSATM提供了乳腺疾病和组织背景中转录组的全面代表，利用普通微阵列平台是不可用的。利用Affymentrix Scanner7G(Affymetrix Inc.,
Santa Clara,CA)扫描阵列。

[0192] 数据准备

[0193] 利用MAS5预处理算法对被谱分析的样品进行质量控制(QC)。强调了不同的技术方面：平均噪声和背景均质性、当前响应的百分比(阵列质量)、信号质量、RNA质量和杂交质
量。分析相应参数的分布和中位数绝对偏差并用来鉴定可能的逸出值。

[0194] Almac’s Ovarian Cancer DSATM包含首先靶向自多核苷酸的3’端的300个核苷酸内的区域。因此修改标准Affymetrix RNA质量量度以适于3’端探针集的管家基因强度以及
除通常的3’/5’比率之外使用了3’端探针集强度与平均背景强度的比率。检查杂交对照以
确保其强度和当前响应符合Affymetrix所指定的必要条件。

[0195] 基于ESR1(雌激素受体1)的转录水平将来自BRCA1/2突变体和散发性对照训练集的肿瘤样品分成2个数据集。通过所有ESR1探针集(BRAD.15436_s_at、BRAD.19080_s_at、
BREM.1048_at、BRIH.10647C1n2_at、BRIH.5650C1n2_at、BRPD.10690C1n5_at、BRRS.81_at
和BRRS.81-22_at)的平均表达确定了每个样品的mRNA表达水平E.avg。对于所有样品计算
mRNA中位数表达(E.med.all)。当E.avg-E.med.all>0.5时认为样品是ER阳性的，和当E.avg-E.med.all<
0.5时认为样品是ER阴性的。

[0196] 在具有稳健多阵列分析(RMA)的表达控制台v1.1中进行预处理(Irizarry等人,2003)，得到分别由56个样品和51个样品组成的ER阳性样品和ER阴性样品的2个数据矩阵。
进行另外的转化以去除如Alter所描述的(Alter等人,2000)与阵列质量相关的差异。

[0197] 特征选择

[0198] 将组合的背景&差异过滤器应用于每个数据矩阵以鉴定最可变的探针集。背景过滤器基于探针集的选择，表达E和表达差异varE高于由背景标准偏差σBg(来自表达平台软
件)定义的阈值且若：

[0199] E>log2((zaσBg))；.log2((varE)>2[log2(σBg)-E-log2(log(2))]

[0200] 则标准正常分布zα在特定的显著性a探针集的分位点保持不变。其中显著性阈值为a=6.3.10-5，关于选择的探针集列表及其基因注释参见表1。

[0201] 层次聚类分析

[0202] 利用卵巢癌DSATM(疾病特异性阵列)平台将层次聚类技术应用于来自所分析的199个上皮浆液性卵巢癌肿瘤的微阵列数据(图1)。利用标准稳健多芯片算法(RMA)程序对粗表
达数据进行预处理。鉴定并去除数据集中的非生物学系统差异。鉴定表达水平在肿瘤之间
显著差异的那些探针集。这些探针集形成了内在列表。

[0203] 进行2-D聚类信息(肿瘤，探针集)以建立基于内在列表的肿瘤关系。应用层次凝聚聚类(皮尔逊相关系数和Ward关联)。利用GAP指数选择最佳分区数(Tibshirani等人,2002,
J.R.Stat.Soc.,63:411-423)。将亚聚类中可获得的所有探针集映射至基因名称。

[0204] 基因聚类的功能分析

[0205] 为建立探针集聚类的功能显著性，将探针集映射至基因(Entrez基因编号)并基于超几何函数(应用错误发现率(Benjamini和Hochberg,1995,J.R.Stat.Soc.57:289:300))
进行富集分析。利用来自的MetacoreTM单一试验分析工作流程对于通过关于ER阳
性和ER阴性样品的层次聚类生成的每个基因组分析生物过程和通路的过表达。从分析中排
除反义探针集。对于每个富集的功能实体种类评估超几何p-值。选择具有最高p-值的功能
实体种类作为组的代表，并根据代表的显著性(即，p-值)将代表这些功能实体的一般功能
种类分配到基因聚类。

[0206] 将富集IFN/DD一般功能条件的聚类中的基因分组到DNA损伤应答缺陷(DDRD)样品组中并用于分类器生成。选择来自IFN/DD一般功能条件所代表的ER阳性和ER阴性数据集的
样品聚类以用于分类并标记为DDRD。不被这些功能条件所代表的那些被标记为非DDRD。

[0207] 探针集水平上的分类器发生

[0208] 在鉴定形成DDRD亚群的一类肿瘤之后，根据功能性DDRD基因列表(表1)进行这些肿瘤对比肿瘤组群中所有其他肿瘤(非DDRD)的计算机分类，以鉴定将DDRD亚群分类的精细
的基因分类模型。利用以下选择(总18个)的所有组合对其评估：

[0209] ●三个样品集

[0210] ○ER阴性样品和ER阳性样品的组合样品集(组合样品集)

[0211] ○单独的ER阴性样品

[0212] ○单独的ER阳性样品

[0213] ●两个特征集

[0214] ○具有75%变异/强度的完全特征列表过滤和DDRD列表的强迫列入。此处基于二者的平均等级去除具有最低组合差异和强度的探针集的75%。当使用时，术语“VarInt”指该选择。

[0215] ○仅DDRD列表。当使用时，术语“仅列表”指该选择。

[0216] ●三种分类算法

[0217] ○PLS(偏最小二乘法)(de Jong,1993)

[0218] ○SDA(收缩判别分析)(Ahdesmaki和Strimmer,2010)

[0219] ○DSDA(对角SDA)(Ahdesmaki和Strimmer,2010)

[0220] 使用AUC来评估不同模型的性能。在每个模型的发生中执行迭代特征消除(IFE)，其中最大AUC是在交叉验证期间选择最佳特征数目的主要标准。在跨越特征无可见的AUC差
异的情况下，选择最小的特征长度。

[0221] 基因水平的分类器发生

[0222] 为协助跨多阵列平台对分类器的验证，将所选择的探针集分类器在基因水平上重新生成。探针集分类器在基因水平上的重新发生需要两个分别的步骤：

[0223] 1.除反义探针集外，从映射每个基因的探针集的中值估计探针集分类器中单独的基因的表达强度。

[0224] 2.对用于分类的分类器参数进行重新估计

[0225] 在所有交叉验证预测期间根据最大敏感性和特异性选择阈值。

[0226] 相似地，通过在训练数据集中的交叉验证中重新评估分类参数，基因水平限定的前10个基因(或当前44个基因标签中存在的任何特征数目)的表达强度可用于重新开发基
于仅此10个基因(或当前44个基因标签中存在的任何特征数目)的分类器以及用于通过评
估和最大化获自所有交叉验证预测的敏感性和特异性重新建立阈值。该方法将与当从较大
的特征集(以上所描述的)进行操作时所用的方法相似，除非将不包括特征选择：特征将保
持不变但被分配新的权重。

[0227] 计算验证数据集的分类器得分

[0228] 公开的数据集

[0229] 用于该分析的数据集为：即FAC1[GEO登录号GSE20271,(Tabchy等人,2010)]、FAC2[GEO登录号GSE22093,(Iwamoto等人,2011)]、FEC[GEO登录号GSE6861,(Bonnefoi等人,
2007)]、T/FAC1[http://bioinformatics.mdanderson.org/pubdata.html,(Hess等人,
2006)]、T/FAC2[GEO登录号GSE16716,(Lee等人,2010)]和T/FAC3[GEO登录号GSE20271,
(Tabchy等人,2010)]。必须注意的是在31个样品中在FAC1和FAC2数据集之间存在重叠。这
些样品从FAC2数据集中除去且从而仅在FAC1、FAC2和FEC数据集的组合分析中包括一次。此
外，样品GSM508092从FAC1中去除，因为其是转移性的淋巴结样品。

[0230] 利用RMA对所有数据集进行预处理(Irizarry等人,2003)。对每个验证集，确定映射分类器基因的探针集，反义探针集(若可应用)除外。对于Affymetrix X3P和U133A阵列的
注解从Affymetrix网站上是可获得的。计算跨映射分类器中的每个基因的所有探针集的中
值强度，产生基因强度矩阵。然后将分类器应用于该数据矩阵以产生关于每个样品的分类
器得分/预测。

[0231] 计算性能矩阵

[0232] 为计算NPV和PPV，利用对应的数据集中的每个种类的比例评估每个端点(BRCA状态/应答)的广泛性。

[0233] 单变量和多变量分析

[0234] 进行单变量和多变量分析以分别评估DDRD分类器和应答之间的关联，并确定关联(若有的话)是否独立于已知临床预测器。利用MATLAB中的逻辑回归计算表4中呈现的用于
单变量分析的p-值。对于多变量分析，我们使用了步进式逻辑回归(Dupont，2009)，其中p-
值代表变量的对数可能性。对数可能性是变量适合于模型的重要性的量度，因此强调了其
作为预测器相对于其他预测器的独立性。在单变量分析和多变量分析中，使用p-值<0.05作
为显著性的标准。并且，在该评估中排除具有未知临床因素的样品。

[0235] 结果

[0236] 选择用于分类器生成的样品

[0237] 本研究的目的是在转录组水平上表征可能能够确定病理细胞对DNA损伤治疗剂的应答性或抗性的一组基因。基于此，将选择Almac乳腺癌数据集中最佳表现该生物学的那些
样品并且关于分类器生成将其与其余样品相比较(参见下一章节)。确定的是ER-ve样品集
中来自样品聚类二的样品是该选择最相关的样品，因为这些样品表现出最高比例的BRCA突
变体样品(64%)且其表现出最显著的生物学(IFN/免疫应答)。从ER+ve样品集中，选择来自
样品聚类二和三的样品，因为这些样品聚类分别具有73%和67%的BRCA突变体肿瘤。此外，这
些聚类中的最显著的生物学与细胞周期、DNA损伤应答和IFN/免疫应答相关。已报道免疫信
号转导和细胞周期通路在对DNA-损伤的应答中受调节(Jackson,S.P.,和Bartek,J.,
Nature461,1071-1078(2009)；Rodier,F.,等人,Nat Cell Biol11,973-979(2009)；Xu,Y.,
Nat Rev Immunol6,261-270(2006)，且这些亚群被组合以形成推定的DDRD亚群。ER-ve样品
集的聚类二中的那些样品(以下所描述的)和ER+ve样品集的聚类二和三中的那些样品(以
下所描述的)是被标记DDRD(DNA损伤应答缺陷)的种类(参见图1A)，同时ER-ve样品集的样
品聚类一和三中的样品和ER+ve样品集的样品聚类一、四、五和六中的样品是被标记为非
DDRD的种类(参见图1B)。

[0238] ER-ve样品集：在ER-ve样品集中，层次聚类分析确定了样品聚类和6个探针集聚类组。探针集聚类三被鉴定为ER-ve样品集中最显著的生物学且针对干扰素和免疫应答信号
转导进行富集。

[0239] ER+ve样品集：在ER+ve样品集中，层次分析确定了6个样品组和6个探针集聚类组。探针集聚类五被鉴定为ER+ve样品集中最显著的生物学，且针对胞外基质重塑进行富集。ER
+ve样品集中第二个最显著的探针集聚类是探针集聚类六，且仍针对干扰素和免疫应答信
号转导进行富集。

[0240] DDRD分类器模型的发生和验证

[0241] 在鉴定形成DDRD亚群的肿瘤种类之后，进行这些肿瘤对比肿瘤组群中所有其他肿瘤关于功能性DDRD(IFN/DNA损伤)基因列表的计算机分类以鉴定精细的基因分类模型，其
将DDRD亚群进行分类。

[0242] 利用组合的ER-ve和ER+ve乳腺癌样品的集使用分类管线来获得模型。分类管线按照公认的良好实践来开发[MAQC Consortium,Nat Biotechnol2010]。该过程将并行地均在
交叉验证下：1)从经验数据获得基因分类模型；和2)评估模型的分类性能。分类器生成的性
能和成功取决于可变的大量参数，例如，分类方法或探针集过滤的选择。考虑到此，评估了
两个特征集(i)具有75%差异/强度过滤的完全特征列表(DDRD(IFN/DNA损伤)列表的强迫列
入，表1)和(ii)仅DDRD(IFN/DNA损伤)列表；且评估了三种分类算法，即PLS(偏最小二乘)；
SDA(收缩判别分析)和DSDA(对角SDA)。在每个模型的开发中使用迭代特征消除(IFE)，其为
在每次迭代中去除最差排序的特征部分的迭代程序；当仅最小数目的特征存在时即停止。
接受者工作特征曲线下面积(AUC-ROC)，代表AUC，用于评估分类性能，因为该测量独立于数
据的组和广泛率之间的截断。其也是用于分类性能的选择的可识别的量度之一。因此，基于
交叉验证下的平均AUC选择每个模型的最佳数目的特征。

[0243] 模型的交叉比较通过以下来生成：首先基于最高平均AUC对每个模型选择最佳数目的特征，然后利用箱形图来显现每个模型的性能。这表现在图2中。从左到右，前三个图分别代表PLS、SDA和DSDA分类器，其利用探针集的初始过滤而开发，以除去最低平均差异和强
度的75%(强迫基因列表的列入)。接下来的三个图分别代表着仅利用DDRD(IFN/DNA损伤)开
发的PLS、SDA和DSDA分类器。

[0244] 从图2中，清楚的是，包括53个探针集的‘PLS VarInt’分类器模型是最高执行模型，具有比其他5个模型的大多数显著高的AUC。然后该模型进行到下一阶段以基于独立的
外部数据集进行验证，以评估DDRD分类得分的能力而关于应答和预后将患者分层。

[0245] 由于验证数据集其中公开数据或内部数据利用不同的阵列平台的事实，采取了验证分类模型的非正统方法。通常所用的方法并未设计为针对可选的阵列平台可用的，且从
而用于分类模型开发和独立验证的分阶段方法如下：

[0246] 1.阶段I–探针集水平的模型生成，在用于将DDRD亚群分类的交叉验证下选择最佳模型(先前所描述的)

[0247] 2.阶段II–探针集水平分类模型到基因水平分类模型的转化

[0248] 3.阶段III–利用外部数据集对再开发的基因分类模型的验证

[0249] 使选择的候选模型发展为验证阶段，需要在基因水平上重建该模型(阶段II)。这包括将分类模型中的探针集映射到基因水平，并重新计算每个基因的权重。当注解管线的
准确度通过进一步分析而提高时，将所选择的模型中的53个探针集映射到表2A中所列的40
个基因，且随后映射到表2B中所列的44个基因。

[0250] 在基因分类模型的重新开发中，为确保使用与基因有关的所有信息，将与每个基因(表2C)有关的所有探针集的中值强度用作基因表达值。关于所有样品对其进行计算，得
到基因表达数据矩阵，与用于模型开发和选择的阶段I中使用的探针集表达数据矩阵形成
对照。为稳定跨不同批次的强度，将每个样品的全部探针集的中值从该样品的相应的每个
基因的强度中减去。

[0251] 利用PLS回归计算每个基因的新权重，得到最终基因分类器模型(40-基因和44-基因分类器模型)，其可用于在来自不同的阵列平台的外部数据集基础上进行验证(阶段
III)。

[0252] 在阶段III中，利用可能来自其他阵列平台的数据集对分类器进行验证，采用以下的步骤：

[0253] 1.确定映射于分类器中的基因的探针集，排除反义探针集(若可用的话)

[0254] 2.计算关于分类器中的每个基因的所有探针集的中值强度，得到简化基因强度矩阵

[0255] a.若关于特定阵列平台上的基因不存在探针集时，从训练数据中观察到的平均值将用作替代。

[0256] 3.关于每个样品计算所有探针集的中值，并从简化的基因强度矩阵中减去。

[0257] 4.将每个基因的值乘以标签中该基因的“权重”。

[0258] 5.将在第4点获得的关于标签中的每个基因的值加在一起以产生该样品的标签得分。

[0259] 6.分类器产生了关于每个样品的得分，然后可将其用于从所谓的较可能应答的患者到较不可能应答的患者进行分层。

[0260] 实施例2

[0261] 44-基因DDRD分类器模型的计算机模拟验证

[0262] 通过原始Almac乳腺数据集和三个独立的数据集中的ROC(受试者工作特征)曲线下的面积(AUC)对44-基因DDRD分类器模型的性能进行验证。AUC是在所观察到的疾病规模
上计算的统计数值，并且是利用分类器模型的表型的预测效率的量度(Wray等人,PLoS
Genetics第6卷,1-9)。0.5的AUC是随机分类器的典型，且1.0的AUC将代表种类的理想分离。
因此，为确定44-基因DDRD分类器模型是否能够预测对于标准乳腺癌和卵巢癌治疗药物种
类的应答，并能够选择用于标准乳腺癌和卵巢癌治疗药物种类的患者，所述药物种类包括
DNA损伤诱导剂和DNA修复靶向治疗，前提为这些数据集内的应用之后的AUC应大于0.5，且
最低置信区间也大于0.5。

[0263] 44-基因分类器模型从散发性肿瘤分离BRCA突变体的能力的评价

[0264] 预测DDRD状态的分类器得分用于评价模型从散发性样品中分离BRCA突变体样品的能力。进行该分析以评价分类器模型和BRCA突变状态之间的关系。由于因为缺少功能性
BRCA1/2导致的DNA损伤应答的缺陷，BRCA突变体肿瘤表现出高度的基因组不稳定性。从而，
前提为DDRD分类器模型应该能够将BRCA突变体样品与BRCA野生型散发性样品分离。

[0265] 图3显示了44-基因分类器模型将BRCA突变体与散发性样品分离，AUC为～0.68，其中对于两种模型而言较低的置信区间为～0.56(表3A)；显示性能显著优于随机分类器。从
而，该分析确定了44-基因DDRD分类器模型能够鉴定由于不能修复DNA损伤导致的高基因组
不稳定性的样品。

[0266] 分类器模型应用于独立的微阵列临床数据集

[0267] 独立的乳腺微阵列临床数据集

[0268] (1)44-基因DDRD分类器模型对于DNA损伤化学治疗的预测能力的评估

[0269] 为评估44-基因DDRD分类器模型预测对于DNA损伤化学治疗的应答的能力，将其应用于由三个公众可获得的数据集组合的数据。在每个研究中，用基于新辅助治疗5-氟尿嘧
啶、蒽环类和环磷酰胺的方案，直接损伤DNA的药物治疗乳腺癌患者。在利用氟尿嘧啶、阿霉素和环磷酰胺(FAC)的新辅助治疗后，第一(Tabchy等人,2010)和第二(Iwamoto等人,2011)
数据集分别具有87个ER阳性原发乳腺肿瘤样品和50个ER阴性原发乳腺肿瘤样品的应答数
据。在新辅助治疗5-氟尿嘧啶、表柔比星和环磷酰胺(FEC)治疗后，第三数据集(Bonnefoi等
人,Lancet Oncol8,1071-1078(2007))具有66个ER阴性原发乳腺肿瘤样品的应答数据。每
个研究使用病理完全应答(pCR)或病变残存(RD)作为终点。由于每个数据集相对小，将数据
组合以提高分析的能力。

[0270] 分析显示44-基因DDRD分类器模型与对于基于蒽环类的化学治疗的应答显著相关(相对风险(RR)=4.13，CI=1.94-9.87；AUC=0.78，CI=0.70-0.85，P=0.001；表3B，图4)。分类器的阴性预测值(NPV)显著地高于阳性预测值(PPV)(0.90对比0.44，表3B)，表明DDRD-阴性
肿瘤不可能对DNA损伤化学治疗应答。

[0271] 使用逐步逻辑回归来确定44-基因DDRD分类器模型预测当调整用于临床变量时的组合数据集中的应答的能力(表4)。44-基因DDRD分类器模型被确定为单变量分析中最有意
义的临床变量。多变量分析确定了44-基因DDRD分类器模型的预测值独立于阶段、等级且尤
其是ER状态。

[0272] 已提议将对于雌激素、孕酮和HER2受体阴性作为异常DDR的生物标志物且因此作为对DNA损伤和DNA修复靶治疗的应答的生物标志物(Foulkes等人,2010)。然而，该方法排
除了被报道为ER阳性的20%的BRCA1突变体肿瘤和40%的BRCA2突变体肿瘤(Foulkes等人,
2004；Tung等人,2010)。相比之下，根据我们采用的分析方法，44-基因DDRD分类器在ER阳性和ER阴性肿瘤两者中检测了DDRD亚群，这通过FEC和FAC数据集的组合分析中的44-基因
DDRD分类器的预测值的多变量分析来验证，证明了其对于ER状态的独立性。临床上，这是
DDRD分类器的变换应用的重要方面，因为认为其可应用于所有乳腺癌患者来确定其对于
DNA损伤治疗的预测的应答性，而无论ER状态如何。

[0273] (2)44-基因DDRD分类器模型对于含紫杉烷的化学治疗方案的预测能力的评估

[0274] 评估了44-基因DDRD分类器模型预测对于含非DNA损伤剂(例如紫杉烷)的化学治疗方案的应答的能力。在利用紫杉醇和FAC(T/FAC)对321例原发乳腺癌患者进行新辅助治
疗后，从应答数据的3个数据集中组合数据，其中应答被定义为pCR(Hess等人,2006；Lee等
人,2010；Tabchy等人,2010)。虽然44-基因DDRD分类器模型与应答相关联(AUC=0.61，CI=～
0.52-0.69，表3B，图5)，该性能与仅用FAC/FEC处理的样品中的相比显著降低。此外，多变量分析显示DDRD分类器在其预测对于T/FAC的应答的能力(表4)中并非与其他临床参数无关
(P=0.21)。这表明由DDRD分类器检测的亚群对于单独的DNA损伤方案比还包含抗微管剂的
方案更灵敏。

[0275] 独立的卵巢癌微阵列临床数据集

[0276] 决定在另一个疾病区域中探查44-基因DDRD分类器模型的性能。从而，在一组具有浆液性癌病史的259个FFPE原发卵巢癌样品中评估了分类器模型的性能。这些样品来自接
受辅助铂治疗或辅助铂和紫杉烷治疗的患者，且在卵巢癌DSATM上被谱分析。应答数据通过
RESIST和/或血清标志物CA125水平来确定。将44-基因DDRD分类器模型应用于这些样品以
证明应答者与非应答者显著分离，AUC为～0.68和较低的置信限度为约0.59(图6)。44-基因
DDRD分类器模型检测了范可尼贫血/BRCA通路的功能障碍。

[0277] 包括BRCA1和BRCA2的范可尼贫血/BRCA(FA/BRCA)通路在DNA修复中起不可或缺的作用，且在乳腺癌中由于突变或表观遗传沉默可能是丧失的(Kennedy和D'Andrea,2006)。
因此确定44-基因DDRD分类器模型是否能够检测该通路除BRCA1和BRCA2之外的成员的缺
失。利用从携带FA/BRCA通路中的一系列突变的21个FA患者和具有功能性的FA/BRCA通路的
11个健康对照的骨髓中生成的微阵列数据鉴定公开的数据集(Vanderwerf,S.M.,等人,
Blood114,5290-5298(2009))。44-基因DDRD分类器模型在FA/BRCA突变体和正常样品之间
显著地不同，AUC为0.90(CI=0.76-1.00，P<0.001，图7)，证明DDRD分类器和FA/BRCA通路的
功能障碍通过多重机制的强相关。

[0278] 44-基因DDRD分类器模型的计算机模拟验证的总结

[0279] 44-基因DDRD分类器模型的计算机模拟验证表明了以下：

[0280] (a)44-基因DDRD分类器模型能够显著地将BRCA突变体乳腺肿瘤样品与野生型BRCA(散发性)乳腺肿瘤样品相分离。这暗示了DDRD分类器模型能够检测与具有高水平的基
因组不稳定性相关的肿瘤例如BRCA突变体肿瘤的生物学。这些肿瘤通常对于DNA损伤化学
治疗方案较好地应答。

[0281] (b)在利用FAC和FEC(Bonnefoi等人,2007;Iwamoto等人,2011;Tabchy等人,2010)以及T/FAC(Hess等人,2006;Lee等人,2010;Tabchy等人,2010)进行新辅助治疗后，44-基因
DDRD分类器模型能够在3个独立的乳腺数据集的组合中将确定的应答者(表现pCR的那些)
与非应答者(不表现pCR的那些)显著地分离。44-基因DDRD分类器模型被发现独立于其他临
床因子并且在FAC/FEC组合分析中是最显著的独立的预测器。这些研究的进行利用了新鲜
冷冻(FF)的样品并利用了两种不同的微阵列平台，即，Affymetrix X3P微阵列和
Affymetrix U133A微阵列。这些结果在独立的乳腺数据集中验证了44-基因DDRD分类器模
型的性能，所述乳腺数据集利用不同的样品材料(FF而非FFPE)以及利用来自两个不同的微
阵列平台的微阵列数据。

[0282] (c)44-基因DDRD分类器模型能够在利用基于铂或铂/紫杉烷治疗的辅助治疗后的独立的Almac卵巢数据集中将应答者与非应答者显著地分离。该数据利用在Almac Ovarian
TM
DSA 上谱分析的FFPE样品而生成。

[0283] (d)利用骨髓组织样品，44-基因DDRD分类器模型能够在FA/BRCA突变体和正常样品之间显著地区分，表明了DDRD分类器和FA/BRCA通路的功能障碍通过多重机制而强相关。

[0284] 总之，DDRD分类器模型在跨越3个不同的疾病区域(乳腺、卵巢和FA)时在性能上具有独立验证和证明的稳健性，表现出了利用来自4个不同的微阵列平台(Almac Breast
DSATM和Almac Ovarian DSATM，Affymetrix X3P微阵列和Affymetrix U133A微阵列)的数据
将两个不同的样品类型(FFPE和FF)中对于4种不同的化学治疗方案(FAC、FEC、T/FAC和铂/
紫杉烷)的应答者与非应答者相分离的能力。已证明DDRD是对于DNA损伤治疗剂的应答的独
立预测器且可预测FA/BRCA通路中的突变。这种性能的可塑性和可重复性暗示了经由44-基
因分类器模型鉴定的DDRD亚群中鉴定的生物学与预测对DNA损伤诱导剂的应答显著地和稳
健地相关，且从而支持了本发明的权利要求，其为了鉴定可用于预测对标准乳腺癌和卵巢
癌治疗药物种类应答并选择用于所述药物种类的患者，所述药物种类包括直接损伤DNA、间
接损伤DNA或抑制正常DNA损伤信号转导和/或修复过程的药物。

[0285] 表3：

[0286] 乳腺数据集中44-基因DDRD分类器模型的性能指标和独立性评价

[0287] 括号内的数字表示来自交叉验证(A)或来自具有1000次迭代的自助法(B)的+/-2SD的95%置信限度。AUC=接受者工作特征曲线下面积；ACC=准确度；SENS=敏感性；SPEC=特
异性；PPV=阳性预测值；NPV=阴性预测值；RR=相对风险，pCR=病理完全应答，RD=病变残存。

[0288]

[0289] 表4

[0290] 44-基因DDRD分类器模型的单变量和多变量分析

[0291] 44-基因DDRD分类器模型与独立验证集中的标准病理参数的比较。利用具有来自对数可能性试验的p-值的逻辑回归模型在单变量和多变量分析中评估DDRD分类器模型的
预测值和显著的临床参数。

[0292]

[0293]

[0294] 实施例3

[0295] 44-基因DDRD分类器模型的体外验证

[0296] 为评价44-基因分类器模型中所包含的基因潜在的生物学，利用一组乳腺细胞系在体外进行了大量的研究。

[0297] 方法

[0298] 细胞系的维持

[0299] HCC1937亲代、HCC1937-EV和HCC1937-BR细胞系由贝尔法斯特女王大学(Queen’s University College Belfast，QUB)的Paul Harkin教授所惠赠。细胞系通常维持在RPMI-
1640培养基中，补充有50U青霉素/ml，50μg 链霉素/ml，2mM谷氨酰胺，1mM丙酮酸钠和20%(v/v)胎牛血清(FBS)。HCC1937-EV和HCC937-BR细胞系还需要0.2ml/mg遗传霉素。在37℃下在
5%CO2的湿润空气中培养细胞系。

[0300] 克隆源性测定-PARP-1抑制剂敏感性的确定

[0301] 为测量PARP-1抑制剂的敏感性(KU0058948)，将指数生长中的细胞接种到6孔板中。接种后24小时，细胞与含增加剂量的药物的培养基相接触。每4-5天补充细胞培养基。
12-14天之后，在甲醇中固定细胞，用结晶紫染色并计数。计算关于给定剂量的对照的存活
百分比，将关于该剂量的接种效率除以运载体处理的细胞的接种效率。利用GraphPad
Prism计算存活曲线和半数最大抑制浓度(IC50)值。

[0302] 细胞存活率测定-顺铂敏感性的确定

[0303] 为测量对于顺铂的敏感性，将指数生长的细胞接种到96孔板中。接种后24小时将细胞与含增加剂量的顺铂的培养基相接触。在药物存在下将细胞孵育96小时，然后利用
Promega CellTitre-Glo发光细胞存活率测定评价细胞的生活力。计算细胞的敏感性作为
运载体(DMSO)对照的百分比。利用GraphPad Prism计算存活曲线和半数最大抑制浓度
(IC50)值。

[0304] 结果

[0305] 可在乳腺癌细胞系模型中鉴定DDRD亚群

[0306] 使用临床前模型系统来确定44-基因DDRD分类器是异常DDR的量度。由于BRCA1突变HCC1937乳腺癌细胞系是DDRD(Tomlinson等人,1998)。44-基因分类器被应用于HCC1937
空载体对照细胞(HCC1937-EV)和HCC1937细胞，其中BRCA1功能性被校正(HCC1937-BR)(图
7A)。发现DDRD44-基因分类器得分在HCC1937-EV中相对于HCC1937-BR细胞要高，平均得分
分别为0.5111和0.1516(图7B)。与DDRD44-基因分类器得分相一致，HCC1937BRCA1突变体细
胞系相对于BRCA1校正的细胞系对于PARP-1抑制剂KU0058948(图7C)和顺铂(图7D)更敏感。
这些临床前数据表明DDRD44-基因分类器测量DDRD阳性肿瘤细胞中的免疫信号转导并与对
DNA损伤剂(顺铂)和DNA修复靶向剂(PARP-1抑制剂)的应答相关联。

[0307] DDRD44-基因分类器检测范可尼贫血/BRCA通路的功能障碍

[0308] 包括BRCA1和BRCA2的范可尼贫血/BRCA(FA/BRCA)通路在DNA修复中具有不可或缺的作用，且由于突变或表观遗传沉默在乳腺癌中可能是丧失的(Kennedy,R.D.,和D'
Andrea,A.D.,J Clin Oncol24,3799-3808(2006))。确定DDRD44-基因分类器是否能够检测
该通路除BRCA1和BRCA2之外的成员的缺失。利用从携带FA/BRCA通路中的一系列突变的21
个FA患者和具有功能性的FA/BRCA通路的11个健康对照的骨髓中生成的微阵列数据鉴定公
开的数据集(Vanderwerf等人，2009)。DDRD44-基因分类器模型在FA/BRCA突变体和正常样
品之间显著地不同，AUC为0.90(CI=0.76-1.00，P<0.001)，证明DDRD分类器和FA/BRCA通路
的功能障碍通过多重机制的强相关。

[0309] 结论

[0310] DDRD44-基因分类器得分在BRCA1突变体HCC1937乳腺癌细胞系中相对于等基因BRCA1校正的细胞系中显著较高，且因此DDRD亦如此。因为44-基因分类器得分在这些细胞
中与DDR功能障碍相关联，证明了由DDRD分类器检测的免疫信号转导是细胞固有的而非淋
巴细胞性浸润的功能。BRCA1和BRCA2代表FA/BRCADDR网络的部分，其包含被报道在约33%的
乳腺癌中突变的或低表达的大量其他蛋白(Kennedy,R.D.,和D'Andrea,A.D.,J Clin
Oncol24,3799-3808(2006))。如先前所描述的，DDRD44-基因分类器将来自患有FA突变的患
者的骨髓样品与正常对照显著地分离。这表明DDRD分类器能够检测通路中的任何异常而非
特异性地检测BRCA1或BRCA2功能障碍。可能是DDRD44基因分类器可鉴定由于其他机制例如
PTEN缺失，细胞周期检验点功能障碍或代谢紊乱导致的增多的活性氧物质导致的DDR缺陷
的肿瘤。由于组成型的DNA损伤，这些肿瘤可能对于DNA修复靶向治疗例如PARP-1或CHK1/2
抑制剂是应答的。

标题	发布/更新时间	阅读量
防电离辐射墙板及屏蔽室	2020-05-13	90
电离辐射处理秸秆纤维素的生产工艺	2020-05-14	303
基于遥控飞行器的电离辐射检测装置	2020-05-15	662
电离辐射固化性组合物及固化物	2020-05-15	804
电离辐射剂量计	2020-05-11	657
一种环保型电离辐射防护无缝砌筑砖	2020-05-14	718
一种电离辐射防护服	2020-05-12	537
测量电离辐射的水模型	2020-05-12	621
防电离辐射的防护屏	2020-05-12	429
防电离辐射门扇	2020-05-13	531

用于癌症的分子诊断试验

用于癌症的分子诊断试验

该功能需要专业版企业版VIP权限，您可以：