基于基因拷贝数改变的模式的结肠直肠癌的基因组分类专利检索-结直肠癌病理专利检索查询-专利查询网

基于基因拷贝数改变的模式的结肠直肠癌的基因组分类

阅读：1032发布：2020-06-04

专利汇可以提供基于基因拷贝数改变的模式的结肠直肠癌的基因组分类专利检索，专利查询，专利分析的服务。并且本发明涉及允许按照基因组概况分类结肠直肠癌细胞的方法和试剂盒，以及诊断、预测临床结果和使患者群体分层以使用所述方法进行临床试验和治疗的方法。，下面是基于基因拷贝数改变的模式的结肠直肠癌的基因组分类专利的具体信息内容。

权利要求

1.用于获得结肠直肠癌基因组亚组的数据库的方法，所述方法包括步骤：
(a)获得多个，m个，包含至少一个CRC细胞的样品，其中所述样品包含细胞系或肿瘤；
(b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集；
(c)鉴定数据集中被正常细胞污染的样品并且从数据集消除所述被污染的样品，其中鉴定和消除包括：
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；
(3)从数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；
(d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r；
(e)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：
(1)利用公式(11)计算每100步乘性更新后算法的散度：
其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1
运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数目；
(2)如果步骤(e)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；
(3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：
其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(d)的亚组的数目；
(4)计算获自步骤(e)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；
(5)通过使用1减步骤(e)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将样品分配至r个亚组中；
(f)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个肿瘤或细胞系样品的基因组亚组；和
(g)任选地使用10倍稳定性检验评价步骤(f)中选择的簇的终数目的稳定性。
2.分类CRC肿瘤或细胞系的方法，包括：
(a)提供通过方法开发的数据库，所述方法包括：
(i)获得多个，m个，包含至少一个CRC肿瘤或细胞系的样品；
(ii)获得第一数据集，所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息；
(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；
(3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；
(iv)通过对数据集应用使用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r；
(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：
(1)利用公式(11)计算每100步乘性更新后算法的散度：
其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1
运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数目；
(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；
(3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：
其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；
(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；
(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；
(vi)应用同表象相关、贝叶斯信息准则或其组合来提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和
(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性；
(b)提供怀疑含有CRC细胞的样品，
(c)获得第二数据集V样品，其包括来自相同的步骤(ii)的至少一个基因座的拷贝数改变信息；以及
(d)通过将V样品与步骤(i)-(vii)中确定的簇相比较，分类来自V样品的样品。
3.权利要求1或2的方法，其中所述无监督聚类算法是等级聚类。
4.权利要求1或2的方法，其中将同表象相关用于提供来自数据集的簇的终数目。
5.权利要求1或2的方法，其中将贝叶斯信息准则用于提供来自数据集的簇的终数目。
6.权利要求1或2的方法，其中将同表象相关和贝叶斯信息准则用于提供来自数据集的簇的终数目。
7.权利要求1或2的方法，其中多个样品，m，包含第一、第二和第三细胞系，其中所述第一细胞系选自HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170和LS180；
所述第二细胞系选自Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678和SW-480；以及
所述第三细胞系选自Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo
205和Colo-206F。
8.权利要求1或2的方法，其中多个样品，m，由HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170、LS180、Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678、SW-480、Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205和Colo-206F细胞系组成。
9.分类用于抑制或杀伤结肠直肠癌(CRC)细胞的治疗性干预的方法，其包括：
(a)从一小组按照基因组亚组分类的CRC细胞，从每一个亚组选择至少一个CRC细胞系，其中根据下述方法装配小组，所述方法包括：
(i)获得多个，m个，包含至少一个CRC肿瘤或细胞系的样品；
(ii)获得第一数据集，所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息；
(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；
(3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；
(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r；
(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：
(1)利用公式(11)计算每100步乘性更新后算法的散度：
其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1
运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数目；
(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；
(3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：
其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；
(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；
(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；
(vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和
(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性
(viii)从步骤(vi)中选择的每一个簇选择至少一个CRC细胞并且装配至按照基因组亚组限定的小组中；
(b)将来自每一个亚组的至少一个CRC细胞与治疗性干预接触；
(c)测定治疗性干预抑制或杀伤来自每一个亚组的至少一个CRC细胞的效力；
(d)按照测定的治疗性干预抑制或杀伤来自每一个亚组的至少一个CRC细胞的效力分类所述治疗性干预，
其中抑制或杀伤来自一个亚组而非另一个亚组的至少一个CRC细胞指示着治疗性干预抑制或杀伤那个亚组的CRC细胞的特异性。
10.权利要求9的方法，其中所述无监督聚类算法是等级聚类。
11.权利要求9的方法，其中同表象相关用于提供来自数据集的簇的终数目。
12.权利要求9的方法，其中贝叶斯信息准则用于提供来自数据集的簇的终数目。
13.权利要求9的方法，其中同表象相关和贝叶斯信息准则用于提供来自数据集的簇的终数目。
14.权利要求9的方法，其中所述CRC细胞来自细胞系。
15.权利要求9的方法，其中多个样品，m，包含第一、第二和第三细胞系，其中所述第一细胞系选自HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170和LS180；
所述第二细胞系选自Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678和SW-480；以及
所述第三细胞系选自Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo
205、和Colo-206F。
16.权利要求9的方法，其中多个样品，m，由HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170、LS180、Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678、SW-480、Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205和Colo-206F细胞系组成。
17.权利要求9的方法，其中治疗性干预包括选自放射疗法和化学疗法的至少一种。
18.权利要求17的方法，其中所述治疗性干预是化学疗法，并且所述化学疗法包括施用至少一种药物组合物，其包含选自氟尿嘧啶、卡培他滨、甲酰四氢叶酸和奥沙利铂的活性剂。
19.权利要求18的方法，其中所述化学疗法包括施用两种或更多种活性剂。
20.装配用于分类来自样品的CRC细胞的探针小组的方法，包括：
(a)装配数据库，包括：
(i)获得多个，m个，包括至少一个CRC肿瘤或细胞系的样品；
(ii)获得包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的第一数据集；
(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；
(3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；
(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中的亚组的数目r；
(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：
(1)利用公式(11)计算每100步乘性更新后算法的散度：
其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1
运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数目；
(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；
(3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：
其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；
(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；
(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；
(vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和
(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性
(viii)从步骤(vi)中选择的每一个簇选择至少一个样品并且装配至按照基因组亚组限定的小组中；
(b)分析步骤(a)的数据库以确定每一个亚组的特有拷贝数异常；
(c)基于每一个亚组的确定的特有拷贝数异常设计多个探针并且将每一种探针分配至基因组亚组中。
21.包括权利要求20的探针小组的试剂盒。
22.权利要求21的试剂盒，其中每一个探针是FISH探针。
23.用于分类CRC肿瘤样品或细胞系的试剂盒，其包括
(a)装配数据库的说明书，其包括用于如下方面的说明书：
(i)获得多个，m个，包含至少一个CRC肿瘤或细胞系的样品；
(ii)获得第一数据集，所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息；
(iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：
(1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；
(2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；
(3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；
(iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r；
(v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：
(1)利用公式(11)计算每100步乘性更新后算法的散度：
其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1
运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数目；
(2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新计算的散度相比较时减小不超过约0.001％，那么终止算法；
(3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：
其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；
(4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；
(5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；
(vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和
(vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性；和(b)任选地，第一、第二和第三细胞系或其分离的基因组DNA，其中
所述第一细胞系选自HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170和LS180；
所述第二细胞系选自Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678和SW-480；以及
所述第三细胞系选自Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo
205和Colo-206F。

说明书全文

基于基因拷贝数改变的模式的结肠直肠癌的基因组分类

[0001] 交叉参考相关申请

[0002] 本申请要求对2008年10月31日提交的美国申请No.61/110,296的优先权，所述申请的内容在此引入作为参考。

[0003] 本申请也将名称为METHODS FOR ASSEMBLING PANELS OF CANCER CELL LINES FOR USE IN TESTING THE EFFICACY OF ONE OR MORE PHARMACEUTICAL COMPOSITIONS的申请(Dimitri Semizarov，Xin Lu，Ke Zhang，和Rick Lesniewski，发明人；2009年10月28日提交的，其要求对2008年10月31日提交的美国申请No.61/110,281的优先权)引入作为
参考。

[0004] 关于联邦政府资助的研究或开发的声明

[0005] 不适用。

[0006] 参考光盘上的材料

[0007] 不适用。

[0008] 序列表

[0009] 本申请包括已通过EFS-Web提交并且因此整体引入作为参考的序列表。2009年10月27日生成的所述ASCII拷贝命名为9673WOO1.txt，且大小为1,100字节。

[0010] 发明背景发明领域

[0011] 本发明涉及用于限定与结肠直肠癌(CRC)相关的肿瘤、癌细胞系和受试者样品的基因组亚组的方法。本发明还涉及按照基因组亚组装配(assembling)成小组(panels)的
肿瘤、癌细胞系和受试者样品以用于测试一种或多种用于给受试者施用的治疗性干预的功
效的方法。

[0012] 相关领域的描述

[0013] 癌症是特征在于临床过程、结果和治疗反应性的相当大变异性的基因组的疾病。该变异性背后的主要因素是癌症所固有的遗传异质性。相同组织病理学亚型的个别肿瘤在
细胞DNA中具有不同的畸变。

[0014] 结肠直肠癌(CRC)是欧洲和美国的第三最常见癌症和癌症死亡的第二主要原因，每年有300,000个新病例和200,000例死亡(Midgley和Kerr，1999)。已确定形成侵入性
癌的结肠直肠上皮的致癌转化由肿瘤特异性遗传畸变和染色体非整倍性的连续获得驱动
(Fearon和Vogelstein，1990；Ried等人，1996)。通常，相同组织病理学组内的肿瘤遵循非常不同的临床过程并且对治疗的反应不同。因此目前CRC的分期不足以预测疾病的临床过
程或治疗结果。

[0015] 癌症分类的改进对于抗癌药物的发现是至关重要的。目前，基于其可用性(availability)、对小鼠中肿瘤形成的适应性以及培养中的生长和其他参数选择临床前模
型，但它们不代表亲本肿瘤的遗传异质性。这导致临床试验中对在临床前模型中已显示卓
越反应的试剂的差的反应。

[0016] 结肠直肠肿瘤的表型多样性伴随相应的基因拷贝数反常模式的多样性。染色体畸变是与许多发育疾病和癌症关联的有害事件。体细胞中发生的染色体区域的扩增和缺失被
认为是导致癌症的主要因素之一。因此结肠直肠癌中基因拷贝数模式的系统性检查可能
用作结肠直肠癌的基于基因组学的分子分类学的基础。可通过经典细胞遗传学分析或荧
光原位杂交(FISH)个别地检测具有预后意义的反复染色体畸变(Recurrent chromosomal
aberration)(Levsky和Singer，2003)。然而，FISH分析不能检测整个遗传学异常谱，因为其只查询有限组的由应用的探针小组限定的染色体基因座。更有利的诊断工具将基于疾病
的精确分类。其将使得能够进行合理的患者选择以进行可确定受试者的CRC的遗传状态的
治疗。

[0017] 发明概述

[0018] 在第一方面，本发明涉及用于获得结肠直肠癌基因组亚组的数据库的方法，所述方法包括步骤：

[0019] (a)获得多个，m个，包含至少一个CRC细胞的样品，其中所述样品包含细胞系或肿瘤；

[0020] (b)获得包括步骤(a)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的数据集；

[0021] (c)鉴定数据集中被正常细胞污染的样品并且从数据集消除所述被污染的样品，其中鉴定和消除包括：

[0022] (1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法(machine learning algorithm)；

[0023] (2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；

[0024] (3)从数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；

[0025] (d)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法(unsupervised clustering algorithm)估计数据集中亚组的数目r；

[0026] (e)利用改进的基因组非负矩阵因子分解(modified genomic Non-negativeMatrix Factorization)(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所
述改进的gNMF算法包括：

[0027] (1)利用公式(11)计算每100步乘性更新(multiplicative updating)后算法的散度：

[0028]

[0029] 其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数
目；

[0030] (2)如果步骤(e)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；

[0031] (3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：

[0032]

[0033] 其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(d)的亚组的数目；

[0034] (4)计算获自步骤(e)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；

[0035] (5)通过使用1减步骤(e)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将样品分配至r个亚组中；

[0036] (f)应用同表象相关(Cophenetic correlation)、贝叶斯信息准则(Bayesianinformation criterion)或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇
限定了每一个肿瘤或细胞系样品的基因组亚组；和

[0037] (g)任选地使用10倍稳定性检验(ten-fold stability test)评价步骤(f)中选择的簇的终数目的稳定性。

[0038] 在第二方面，本发明涉及分类CRC肿瘤或细胞系的方法，包括：

[0039] (a)提供通过方法开发的数据库，所述方法包括：

[0040] (i)获得多个，m个，包含至少一个CRC肿瘤或细胞系的样品；

[0041] (ii)获得第一数据集，所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息；

[0042] (iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：

[0043] (1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；

[0044] (2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；

[0045] (3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；

[0046] (iv)通过对数据集应用使用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r；

[0047] (v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：

[0048] (1)利用公式(11)计算每100步乘性更新后算法的散度：

[0049]

[0050] 其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数
目；

[0051] (2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；

[0052] (3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：

[0053]

[0054] 其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；

[0055] (4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；

[0056] (5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；

[0057] (vi)应用同表象相关、贝叶斯信息准则或其组合来提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和

[0058] (vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性；

[0059] (b)提供怀疑含有CRC细胞的样品，

[0060] (c)获得第二数据集V样品，其包括来自相同的步骤(ii)的至少一个基因座的拷贝数改变信息；以及

[0061] (d)通过将V样品与步骤(i)-(vii)中确定的簇相比较，分类来自V样品的样品。

[0062] 在第三方面，本发明涉及分类用于抑制或杀伤结肠直肠癌(CRC)细胞的治疗性干预的方法，其包括：

[0063] (a)从一小组(a panel of)按照基因组亚组分类的CRC细胞，从每一个亚组选择至少一个CRC细胞系，其中根据下述方法装配小组，所述方法包括：

[0064] (i)获得多个，m个，包含至少一个CRC肿瘤或细胞系的样品；

[0065] (ii)获得第一数据集，所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息；

[0066] (iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：

[0067] (1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；

[0068] (2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；

[0069] (3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；

[0070] (iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r；

[0071] (v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：

[0072] (1)利用公式(11)计算每100步乘性更新后算法的散度：

[0073]

[0074] 其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数
目；

[0075] (2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；

[0076] (3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：

[0077]

[0078] 其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；

[0079] (4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；

[0080] (5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；

[0081] (vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和

[0082] (vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性

[0083] (viii)从步骤(vi)中选择的每一个簇选择至少一个CRC细胞并且装配至按照基因组亚组限定的小组中。

[0084] (b)将来自每一个亚组的至少一个CRC细胞与治疗性干预接触；

[0085] (c)测定治疗性干预抑制或杀伤来自每一个亚组的至少一个CRC细胞的效力；

[0086] (d)按照测定的治疗性干预抑制或杀伤来自每一个亚组的至少一个CRC细胞的效力分类所述治疗性干预，其中抑制或杀伤来自一个亚组而非另一个亚组的至少一个CRC细
胞指示着治疗性干预抑制或杀伤那个亚组的CRC细胞的特异性。治疗性干预可以是放射
疗法和化学疗法。如果治疗性干预是化学疗法，那么所述化学疗法可包括施用至少一种药
物组合物，其包含选自力比泰(alimta)、埃罗替尼(erlotinib)、吉非替尼(gefitinib)、顺铂、吉西他滨、紫杉醇、长春烯碱、表柔比星、长春地辛、氯尼达明、异环磷酰胺、卡铂以及多西他赛和异环磷酰胺的活性剂。化学疗法可包括施用两种或更多种活性剂。

[0087] 在第四方面，本发明涉及装配用于分类来自样品的CRC细胞的探针小组的方法，包括：

[0088] (a)装配数据库，包括：

[0089] (i)获得多个，m个，包括至少一个CRC肿瘤或细胞系的样品；

[0090] (ii)获得包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息的第一数据集；

[0091] (iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：

[0092] (1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；

[0093] (2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；

[0094] (3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；

[0095] (iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中的亚组的数目r；

[0096] (v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：

[0097] (1)利用公式(11)计算每100步乘性更新后算法的散度：

[0098]

[0099] 其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数
目；

[0100] (2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新所计算的散度相比较时减小不超过约0.001％，那么终止算法；

[0101] (3)随机重复算法，进行选择的运行数，并且使用公式(12)计算每一次运行算法的H的Pearson相关系数矩阵：

[0102]

[0103] 其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；

[0104] (4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；

[0105] (5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；

[0106] (vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和

[0107] (vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性

[0108] (viii)从步骤(vi)中选择的每一个簇选择至少一个样品并且装配至按照基因组亚组限定的小组中；

[0109] (b)分析步骤(a)的数据库以确定每一个亚组的特有拷贝数异常；

[0110] (c)基于每一个亚组的确定的特有拷贝数异常设计多个探针并且将每一种探针分配至基因组亚组中。

[0111] 在第五方面，本发明涉及包括用于分类CRC肿瘤样品的探针小组的试剂盒。探针小组中的探针可以是例如FISH探针。

[0112] 在第六方面，本发明涉及用于分类CRC肿瘤样品的试剂盒，其包括：

[0113] (a)装配数据库的说明书，其包括用于如下方面的说明书：

[0114] (i)获得多个，m个，包含至少一个CRC肿瘤或细胞系的样品；

[0115] (ii)获得第一数据集，所述数据集包括步骤(i)中获得的每一个样品的每一条染色体的至少一个基因座的拷贝数改变信息；

[0116] (iii)鉴定第一数据集中被正常细胞污染的样品并且从第一数据集消除所述被污染的样品，其中鉴定和消除包括：

[0117] (1)对数据应用与代表肿瘤和正常样品之间的差异的参数一致的机器学习算法；

[0118] (2)赋予每一个样品如通过机器学习算法测定的正常细胞污染的概率分数；

[0119] (3)从第一数据集中消除每一个得分50％或更大的含正常细胞的概率的样品的数据；

[0120] (iv)通过对数据集应用利用Pearson线性相异性算法的无监督聚类算法估计数据集中亚组的数目r；

[0121] (v)利用改进的基因组非负矩阵因子分解(gNMF)算法将数据集中的每一个样品分配至至少一个簇，其中所述改进的gNMF算法包括：

[0122] (1)利用公式(11)计算每100步乘性更新后算法的散度：

[0123]

[0124] 其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数
目；

[0125] (2)如果步骤(v)(1)中计算的散度当与对于之前100步所述算法的乘性更新计算的散度相比较时减小不超过约0.001％，那么终止算法；

[0126] (3)随机重复算法，进行选择的运行数，并且使用下述公式计算每一次运行算法的H的Pearson相关系数矩阵：

[0127]

[0128] 其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中的样品数目，k从1运行至r，且r是来自步骤(iv)的亚组的数目；

[0129] (4)计算获自步骤(v)(3)的每一次运行算法的Pearson相关系数矩阵的平均值以获得平均相关矩阵；

[0130] (5)通过使用1减步骤(v)(4)中确定的平均相关矩阵应用无监督聚类算法并且将树形图分割至r个簇，将数据集中的肿瘤和细胞系分配至r个亚组中；

[0131] (vi)应用同表象相关、贝叶斯信息准则或其组合以提供来自数据集的簇的终数目，其中每一个最终的簇限定了每一个样品的基因组亚组；和

[0132] (vii)任选地使用10倍稳定性检验评价步骤(vi)中选择的簇的终数目的稳定性；和

[0133] (b)任选地，第一、第二和第三细胞系或其分离的基因组DNA，其中，

[0134] 所述第一细胞系选自HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170和LS180；

[0135] 所述第二细胞系选自Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678和SW-480；以及

[0136] 所述第三细胞系选自Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205和Colo-206F。

[0137] 在本发明的所有方面，无监督聚类算法可以是等级聚类，可独立地或一起使用同表象相关或贝叶斯信息准则来提供来自数据集的簇的终数目。

[0138] 在本发明的所有方面，样品的多元性(plurality)，m，可包括第一、第二和第三细胞系，其中

[0139] 所述第一细胞系选自HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170和LS180；

[0140] 所述第二细胞系选自Caco-2、LS 1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678和SW-480；以及

[0141] 所述第三细胞系选自Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205和Colo-206F。

[0142] 几个附图视图的概述

[0143] 图1显示基于基因组的肿瘤分类程序的工作流程。

[0144] 图2显示CRC数据集的树形图以得到通过使用等级聚类产生的簇的可能数目。

[0145] 图3显示分类至5个簇中的CRC肿瘤和细胞系CGH数据的热图(heatmap)。每一行表示样品，且每一列表示SNPs基因座；红色、白色和蓝色分别表示高、正常和低拷贝数；
水平黑线分隔不同的簇；垂直间隙分隔染色体1至22；细胞系用绿色圆圈突出显示。

[0146] 发明详述

[0147] 本发明提供评价、分类和分层(stratifying)CRC肿瘤以及评价治疗性干预对CRC肿瘤的功效。本发明利用基于微阵列的比较基因组杂交技术以在全基因组规模上检测基因
拷贝数异常，从而提供伴随DNA拷贝数的变化的染色体畸变的全基因组观察。与先前基于
组织病理学的分类方案(classification scheme)不同，本发明的方法确定CRC细胞的遗
传异质性，观察到的临床干预中的变异性背后的主要因素。

[0148] 本发明的方法允许进行CRC的基因组亚组划分(sub-grouping)以促进发现和开发针对CRC的靶向疗法以及限定个别的患者群体，所述患者具有对这些疗法易感的CRCs。
患者组的该分层在临床试验设计中也是格外有用的。

[0149] 通过本发明的聚类程序限定的亚组具有独特的基因组畸变模式，意味着不同的来源和肿瘤发生机制。该观察提示不同的亚组将表现每一个亚组特有的不同的临床行为和
不同的对治疗性干预的敏感性。之前对于其他拷贝数反常已观察到这样的现象，例如乳腺
癌中的的HER2扩增、肺癌中的EGFR扩增、神经母细胞瘤(neuroblastoma)中的MYCN扩增。
(参见例如(Anand等人，2003；Hirsch等人，2006；Seeger等人，1985；Vogel等人，2002))。

[0150] 由新颖的计算算法(computational algorithm)使得成为可能的本发明的方法基于拷贝数改变的复杂全基因组模式的分析。本发明的方法提供了CRC的基因组亚型的完整
表征并且产生更精确的临床行为与治疗性干预的关联。

[0151] 提出的基因组分类学对于CRC受试者的整个群体是有效的，这是因为(i)样本集足够大(约150个样品)和(ii)样品获自多种来源，从而消除偏倚的可能性。

[0152] 因此，在一个方面，本发明提供了使用高分辨率比较基因组杂交(CGH)对CRC样品进行概况分析的方法和使用定制的统计学算法对拷贝数概况进行分类的方法。可将所得的
CRCs的分类用于预测患者对药物的反应和选择临床前模型。

[0153] 本发明的方法允许进行基于基因组异常的模式的CRC分类，从而确定疾病的分子亚组。

[0154] 在另一个方面，本发明开发可用于限定或分类CRC细胞的基因组亚组的独特计算算法。通常，计算算法包括下列步骤：

[0155] 1.应用机器学习算法(例如随机森林(Random Forests))鉴定和消除具有正常细胞导致的显著污染的样品；

[0156] 2.在将数据与基因组非负矩阵因子分解(gNMF)模型拟合之前使用无监督聚类(例如等级聚类)估计簇的可能数目；

[0157] 3.使用gNMF的多个随机开始，然后应用由gNMF产生的H距阵的相关作为距离矩阵来分类样品；

[0158] 4.使用gNMF算法将肿瘤和癌细胞系分类至几个可能数目的簇中，然后使用同表象相关系数和贝叶斯信息准则(BIC)选择最佳模型和确定簇的最终数目；和

[0159] 5.任选地，应用10倍稳定性检验以评价簇的稳定性。

[0160] 在一个实施方案中，本发明分类CRC细胞，包括步骤：(1)从CRC细胞样品提取基因组DNA(gDNA)；(2)将gDNA与微阵列杂交，然后分析微阵列以获得针对用于微阵列分析的
每一个探针的原始信号；(3)确定每一个基因座的拷贝数和检测拷贝数改变区域；(4)进行
数据质量控制；(5)使用分段算法(segmentation algorithm)修正(smoothing)拷贝数数
据并且降低维数；(6)使用gNMF，利用通过等级聚类估计的簇的估计数目分类修正的数据；
(7)使用同表象相关和/或贝叶斯信息准则选择最佳分类模型；和(8)任选地，检验gNMF分
类的稳定性。

[0161] 本发明的方法通过在临床前试验模型小组中提供亲本肿瘤的更完整代表来促进临床前试验模型的合理选择和提高临床前试验的可预测性。尽管不希望受任何理论束缚，
本发明的基本原理如下。已显示拷贝数改变(CNAs)的模式决定人肿瘤的表型。因此，如果
通过CNAs的模式限定肿瘤群体的亚组，且然后选择至少一个细胞系以匹配每一个亚组，那
么可开发比目前可获得的成组模型更能充分代表CRC细胞群体的多样性的一小组细胞系。
这些细胞系的小组可用于测试治疗性干预。此外，这些数据库允许患者CRC肿瘤被更精细
地分类，从而允许精准地开具具有更高的有效地治疗癌症的概率的治疗性干预的处方。

[0162] 本发明的方法有助于治疗性干预和临床前试验模型的合理选择。定义

[0163] 全基因组拷贝数概况(genome-wide copy number profile)或“拷贝数”是超过一个遗传基因座的DNA拷贝数的测量。拷贝数概况可估计细胞基本上是其中每一个遗传基
因座以两个拷贝存在(由于二倍性的缘故，除性染色体外)的野生型还是异常于野生型，即
包含遗传基因座的扩增和缺失。扩增和缺失可影响元件的一部分和完整的元件或同时影响
许多元件。拷贝数概况不必定确定扩增或缺失的准确数目，但鉴定含有遗传异常的那些区
域，和确定异常是缺失还是扩增。

[0164] 在一些实施方案中，“野生型”基因组，当用于样品的基因型确定的背景中时，不必定表示野生型样品是严格二倍体。在本发明的背景中，“野生型”基因组是获自不表达或不将表达特定疾病状态例如CRC的细胞的基因组。例如，野生型基因组可由受试者从健康正常细胞提供，并且可将其与相同受试者的CRC细胞相比较。

[0165] “贝叶斯信息准则”或“BIC”是指用作用于模型选择的统计学准则的参数方法。BIC由(Schwarz，1978)进行了描述。BIC利用公式(1)来限定：

[0166] BIC＝-2*ln L+k ln(n) (1)

[0167] 其中L是测量模型怎样好地接近数据的似然性，k是模型中使用的参数的数目，且n是样品的数目。第二项k*ln(n)用作对模型中使用的参数的数目的罚分以避免过度拟合
(over-fitting)。

[0168] 可互换使用的“同表象相关系数”或“同表象相关”是指用于测量用于得出终聚类结果的树形图怎样忠实地保持初始未建模数据点之间的逐对距离的算法。为了用于本发明，如果假定已通过树形图Ti对原始数据Xi建模，那么利用公式(2)限定距离测量：

[0169] x(i，j)＝|Xi-Xj| (2)

[0170] 第i个与第j个样品之间的距离，且t(i，j)＝模型点Ti与Tj之间的树形图(dendrogrammatic)距离，其中所述距离是这两个点首次连接在一起所处的节点的高度。

[0171] 然后，如果x是x(i，j)的平均值，并且t是t(i，j)的平均值，那么同表象相关系数c由公式(3)限定：

[0172]

[0173] 随着r增加，同表象相关将在某个点急剧减少，从而对应于簇的最佳数目(Carrasco等人，2006；Maher等人，2006)。

[0174] “聚簇分析”，也称为“数据分段(data segmentation)”是指将对象(也称为观察、个体、案例(cases)或数据行(data rows))的集合分组或分段成亚群(subset)、亚组或“簇”，以便每一个簇内的那些对象彼此之间比分配至不同簇的对象之间关系更密切。聚簇分析的所有目的中核心的是待聚类的个别对象之间的相似性(或相异性)程度的概念。聚
类的种类的实例是等级聚类和K-平均值聚类。

[0175] “等级聚类”是指簇的等级的建立(团聚的)或解散(分裂的)。该等级的传统表示是树形图，其中个别要素在一端并且含有每一个要素的单个簇在另一端。团聚的算法始
于树的叶，然而分裂的算法始于根。用于进行等级聚类的方法在本领域内是公知的。

[0176] 等级聚类方法已在生物医学研究中广泛地用于基于其基因表达模式聚簇生物学样品和得出样品群体中的亚组结构(Bhattacharjee等人，2001；Hedenfalk等人，2003；
Sotiriou等人，2003；Wilhelm等人，2002)。例如，等级聚类已被用于将64个人肿瘤细胞系基于1161个选择的基因的表达模式分组成几个簇，且得出不同簇的分子特征(Ross等人，
2000)。

[0177] “机器学习”是指涉及使得计算机能够“学习”的算法和技术的设计和开发的人工智能的学科分支。一般而言，存在两种类型的学习：归纳的和演绎的。归纳的机器学习法从数据集提取出规则和模式。机器学习研究的主要焦点是通过计算和统计学方法自动地从数据提取信息。基于需要的算法结果，被组织至分类学中的许多机器学习算法对于本领域技
术人员来说是已知的。这些包括(1)监督学习(例如，随机森林)；(2)无监督学习(例如，
主要组分分析、向量量化等)；(3)半监督学习(semi-supervised learning)；(4)强化学习(reinforcement learning)；(5)转导(transduction)；和(6)学会学习。

[0178] “非负矩阵因子分解”(NMF)是指用于发现非负数据的基于部分的线性代表的算法。非负矩阵因子分解最初被开发为用于图象分析的数学工具(Lee和Seung，1999；Lee和
Seung，2001)。NMF在基因组学中被采用来分析基因表达数据(Brunet等人，2004)。具体
地，NMF适用于在基因拷贝数数据的分析中使用，用于基因拷贝数分析的方法的变形称为基因组非负矩阵因子分解(gNMF)(Carrasco等人，2006；Maher等人，2006)。已知一组样品的修正的拷贝数数据的nxm矩阵V，其中n是区段的数目，且m是样品的数目，gNMF算法将矩
阵V因子分解成如公式(4)中显示的nxr矩阵W和rxm矩阵H：

[0179] V＝W*H+e (4)

[0180] 其中W可被视为每一个亚组的标准模型；H被视为属于每一个亚组的每一个样品的相对权重；e表示模型拟合残数(model fitting residue)，且r为待聚类的(clustered)
亚组的数目(其通常比m小得多)。已知r和V为输入，gNMF算法首先随机设置W和H的
初始值，然后根据公式(5)和(6)利用乘性更新规则(multiplicative update rule)迭代
更新W和H：

[0181]

[0182]

[0183] 其中α从1运行至r，μ从1运行至m，以及i从1运行至n。

[0184] “Pearson线性相异性(Pearson linear dissimilarity)”是指公式(7)：

[0185]

[0186] 其中和是两个具有长度n的向量，是具有公式(8)的Pearson线性相关：

[0187]

[0188] 其中样本标准差sx和sy具有公式(9)：

[0189]

[0190] 并且其中样本平均值具有公式(10)：

[0191]

[0192] “随机森林”是指监督学习算法，其使用树预测值(tree predictor)的组合以便每一棵树依赖于独立取样的随机向量的值并且森林中所有树具有相同的分布(Breiman，
2001)。

[0193] 随机森林生长许多分类树。为了分类来自输入向量(input vector)的新对象，将输入向量置于森林中每一棵树下方。每一棵树给出分类，且认为树“投票”赞成该类。森林选择具有最多投票(在森林中全部树的范围内)的分类。如下生长每一棵树：

[0194] 1.如果训练集(training set)中案例的数目是n，那么从原始数据随机获取n个案例的样本-但具有替换。该样本将是用于生长树的训练集。

[0195] 2.如果存在m个输入变量，指定数目m＜＜M以便在每一个节点，从M中随机选出m个变量并且将对这m个变量的最佳分裂用于分裂节点。在森林生长过程中m的值保持恒
定。

[0196] 3.使每一棵树生长至最大可能程度。不存在剪枝。

[0197] 森林差错率(forest error rate)取决于两个因素：

[0198] 1.森林中任何两棵树之间的相关。增加相关则增加森林差错率。

[0199] 2.森林中每一棵个别树的强度。具有低差错率的树是强分类器(classifier)。增加个别树的强度则减小森林差错率。

[0200] “寡核苷酸”或“多核苷酸”是在长度上范围为至少2，优选至少8和更优选至少20个核苷酸的核酸或与多核苷酸特异性杂交的化合物。多核苷酸包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。多核苷酸的另一个实例是肽核酸(PNA)。

[0201] “探针”是可被特定靶识别的表面固定化分子。

[0202] “固体支持物”、“支持物”和“基质”可互换使用并且是指具有一个或多个刚性或半刚性表面的材料或材料的组。

[0203] “杂交”是指足够互补以通过Watson-Crick碱基配对或非规范碱基配对形成复合物的核酸序列之间的复合物的形成。例如，当引物与靶序列(模板)“杂交”时，此种复合
物(或杂交体(hybrid))足够稳定以发挥例如DNA聚合酶起始DNA合成所需的引发功能。
杂交序列不必具有完全的互补性来提供稳定的杂交体。在许多情况下，当少于约10％的碱
基错配时，稳定的杂交体形成。如本文中所使用的，术语“互补”是指在测定条件下与其互补体形成稳定双链体的寡核苷酸，通常其中存在约80％、约81％、约82％、约83％、约84％、约85％、约86％、约87％、约88％、约89％、约90％、约91％、约92％、约93％、约94％、
95％、约96％、约97％、约98％或约99％的更大的同源性。本领域技术人员知道如何估计
和调整杂交条件的严格性以便具有至少所需的互补性水平的序列稳定地杂交，同时具有更
低互补性的那些序列不杂交。杂交条件和参数的实例是公知的(Ausubel，1987；Sambrook
和Russell，2001)。

[0204] 核酸阵列(“阵列”)包括附着至固体支持物的核酸探针。阵列一般包含多个在不同的已知位置中与基质的表面偶联的不同核酸探针。这些阵列也被描述为微阵列，“芯片”已广泛地描述于本领域中，例如美国专利Nos.5,143,854、5,445,934、5,744,305、5,677,195、6,040,193、5,424,186和(Fodor等人，1991)中。这些阵列通常可使用机械合成法或整合
光刻法和固相合成法的组合的光指导的合成法(light directed synthesis method)来
生产。用于使用机械合成来合成阵列的技术描述于例如美国专利No.5,384,261中。虽然
平面阵列表面是优选的，但也可在事实上任何形状的表面或甚至多种表面上制作阵列。阵
列可以是珠、凝胶、聚合物表面、纤维例如光导纤维(fiber optics)、玻璃或任何其他适当的基质上的核酸；例如，如美国专利Nos.5,770,358、5,789,162、5,708,153、6,040,193和
5,800,992中所描述的。可以以这样的方式包装阵列以允许其用于诊断或所有包括的设备
的其他操作，参见例如，美国专利Nos.5,856,174和5,922,591。

[0205] 可使用单核苷酸多态性(SNPs)设计阵列以覆盖完整基因组。例如，阵列可以以23.6kb SNP基因座的平均标记间距离(mean inter-marker distance)以23.6kb基因座的
平均标记间距离覆盖人基因组中的116,204个单核苷酸多态性(SNP)基因座。

[0206] “标记的”和“用可检测标记(或试剂或部分)标记的”可互换使用并且具体说明可以例如在与另一种实体(例如，扩增产物)结合后使实体(例如，DNA的片段、引物或探
针)显现。可选择可检测标记以便所述标记产生可被测量并且强度与结合的实体的量相关
(例如，成比例)的信号。用于标记和/或检测核酸分子例如引物和探针的多种系统是公
知的。可通过掺入或缀合可利用分光镜方法、光化学方法、生物化学方法、免疫化学方法、电学方法、光学方法、化学方法或其他方法直接或间接检测的标记来制备标记的核酸。适当的可检测试剂包括放射性核素、荧光团、化学发光试剂、微粒、酶、比色标记、磁性标记、半抗原等。

[0207] “探针”是指经设计用于与CGH微阵列、SNPs微阵列或本领域内已知的任何其他微阵列结合使用的寡核苷酸，其能够在适当的条件下与靶序列的至少一部分选择性杂交。一般说来，探针序列被鉴定为“互补的”(即，与编码或有义链(+)互补)或“反向互补的”(即，与反义链(-)互补)。探针可具有约10至100个核苷酸，优选约15至75个核苷酸，最优选
约15至50个核苷酸的长度。

[0208] 可互换使用的“药物组合物”或“药物”是指可用于治疗患有至少一种类型的癌症的受试者或患者的任何试剂，无论是小分子(例如，含有活性剂的药物，一般非肽)
还是生物试剂(例如，基于肽、蛋白质或抗体的药物，包括具有修饰例如加入聚乙二醇
(PEGylation)的任何药物)。

[0209] “细胞”可来自肿瘤、细胞系或受试者。

[0210] “治法”或“治疗方案”是指企图减小或消除疾病的影响或症状或阻止疾病从一种状态进展至第二更有害的状态的治疗过程。治疗方案可包括处方药、外科手术或放射治疗。受试者的肿瘤的拷贝数概况还可影响选择的疗法的副作用和功效。在本发明中，可将受试
者的肿瘤的拷贝数概况用于确定可能是最有效的疗法或治疗方案。

[0211] “受试者”或“患者”包括哺乳动物和非哺乳动物。哺乳动物的实例包括：人、其他灵长类动物例如黑猩猩和其他猿类和猴物种；农畜(farmanimal)例如牛、马、绵羊、山羊、猪；家畜例如兔、狗、和猫；实验室动物包括啮齿类动物例如大鼠、小鼠和豚鼠。非哺乳动物的实例包括鸟和鱼。

[0212] “治疗”意指减轻、消除或改善疾病或状况症状，预防另外的症状，改善或预防症状背后的代谢原因，抑制疾病或状况，例如抑制疾病或状况的发展，减轻疾病或状况，使疾病或状况消退，减轻由疾病或状况引起的状态或者预防性和/或治疗性终止疾病或状况的症状。

[0213] 实践本发明

[0214] 在本发明的方法中，生成拷贝数概况的参考数据库，其中确定多个(m)包含CRC细胞的样品中的基因组拷贝数(其中m是从1至5,000,000的整数。例如，多个样品可为二
(2)、五(5)、十(10)、十五(15)、二十(20)、二十五(25)、五十(50)、一百(100)、二百(200)、五百(500)、一千(1,000)、一万(10,000)、五万(50,000)、十万个样品(100,000)、二十五万个样品(250,000)、五十万(500,000)、一百万(1,000,000)个样品等)。然后按照拷贝数的
模式，拷贝数概况，将CRC细胞分类至基因组亚组。这些亚组中的每一个亚组不仅代表了基于基因型的分类，而且还预期对各种治疗性干预显示特有的反应性。例如，一个亚组可以对辐射更易感，而另一个亚组对药物干预例如化学疗法更易感。

[0215] 在可从患有CRC或处于患CRC的风险中的受试者获得的CRC细胞中检测到拷贝数改变。可使用常规常规技术获得此种细胞。例如，可通过外科手术从患有或怀疑患有癌症
的受试者解剖肿瘤，然后立即将其例如在-80℃冷冻。

[0216] 为了开发允许受试者的分类的不同亚组的数据库，可商购获得或从公共来源获得CRC肿瘤和癌细胞系。一组有用的细胞系示于表1中。表1还显示用于实施例中的肿瘤和
肿瘤来源(参见下文)。在表中，ATTC，美国典型培养物保藏中心(Manassus，VA)；DSMZ，
Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH(Braunschweig，德
国)；CLS，Cell Line Service(Eppelheim，德国)；和ECACC，European Collection of Cell Cultures(Salisbury，UK)。

[0217] 可从许多商购可得或可公共获得的来源获得CRC细胞和癌细胞系的其他拷贝数和拷贝数改变信息，例如从Gene Expression Omnibus(GEO)，其可从美国国家生物技术信
息中心(NCBI)获得，Broad Institute/Dana Farber Cancer Institute internet Portal，从Dana FarberCancer Institute网站在线获得等。

[0218] 表1

[0219] 细胞系和来源

[0220]

[0221]

[0222]

[0223]

[0224]

[0225]

[0226] 一旦获得肿瘤和癌细胞系，就使用常规技术例如酚-氯仿提取、盐析、无消化提取(digestion-free extraction)或通过使用商购可得的试剂盒例如DNEasy 或QIAAMP试剂盒(Qiagen，Valencia，CA)从每一个肿瘤或细胞系提取基因组DNA(gDNA)。然后可修
饰或改变获自每一个肿瘤或细胞系的gDNA以促进分析。例如，可使用常规技术将引物或衔
接头序列连接至gDNA。例如，可首先用限制性内切核酸酶例如HindIII或XbaI消化gDNA。
一旦消化，就可将一个或多个引物或适应序列(adapted sequence)连接至消化的gDNA。优
选，衔接头是识别粘性4碱基对突出端的那些。

[0227] 使用常规方法扩增分离的DNA。有用的核酸扩增方法包括聚合酶链反应(PCR)。PCR在许多参考文献(Innis，1990；Innis等人，1995；McPherson等人，1991；Saiki等人，
1986；Sninsky等人，1999)；和美国专利Nos.4,683,195、4,683,202和4,889,818(其每一
个在此引入作为参考)中进行了描述。PCR的变形包括基于TAQMAN -的测定(Holland
等人，1991)和逆转录酶聚合酶链反应(RT-PCR；描述于例如美国专利Nos.5,322,770和
5,310,652中，其每一个都引入作为参考)。

[0228] 通常，向分离的gDNA中加入一对引物以与靶核酸的互补链杂交。如果消化获自肿瘤或癌细胞系的gDNA，并将其与引物或衔接头序列连接，那么优选用于扩增方法中的引物
之一识别所述衔接头序列。也优选用于扩增方法中的引物扩增250至2000个碱基对大小
范围内的片段。

[0229] 在完成扩增后，使用常规技术例如MINELUTE 96 UF PCR纯化系统(Qiagen)纯化所得到的扩增的DNA。在纯化后，然后使用常规技术例如超声处理或酶促消化例如DNA酶
I片段化扩增的DNA。在片段化后，用可检测标记对DNA进行标记。用于标记DNA和DNA的
片段的方法是公知的。

[0230] 可使用多种多样的可检测标记中的任何一种。适当的可检测标记包括但不限于32 35 3 14 125 131
各种配体、放射性核素(例如，P、S、H、C、I、 I等)；荧光染料；化学发光试剂(例
如，吖啶 (acridinium)酯、稳定的二氧杂环丁烷(stabilized dioxetane)等)；光谱
可分辨的无机荧光半导体纳米晶体(spectrally resolvable inorganic fluorescent
semiconductor nanocrystal)(例如，量子点)、金属纳米颗粒(nanoparticles)(例如，金、银、铜和铂)或纳米簇(nanocluster)；酶(例如，辣根过氧化物酶、β-半乳糖苷酶、萤光素酶、碱性磷酸酶)；比色标记(colorimetric label)(例如，染料、胶体金等)；磁性标记(例TM
如，DYNABEADS )；和生物素、洋地黄毒苷(dioxigenin)或其他半抗原和蛋白质。

[0231] 一旦扩增，就用可检测标记对片段化的DNA进行标记，使用常规技术将其与微阵列杂交。微阵列可包含寡核苷酸、基因或基因组克隆，其可用于比较基因组杂交(CGH)以
寻找基因组获得和丧失。可选地，微阵列可包含检测突变或多态性例如单核苷酸多态性
(SNPs)的寡核苷酸或基因组克隆。可使用本领域内已知的常规技术制造微阵列。可选地，
可使用商购可得的微阵列。可使用的微阵列的实例是AFFYMETRIX GENECHIP Mapping
100K Set SNP阵列(Matsuzaki等人，2004)(Affymetrix，Inc.，Santa Clara，CA)、Agilent Human Genome aCGH Microarray 44B(Agilent Technologies，Inc.，Santa Clara，CA)、Illumina微阵列(Illumina，Inc.，San Diego，CA)、Nimblegen aCGH微阵列(Nimblegen，Inc.，Madison，WI)等。

[0232] 在杂交后，使用常规技术洗涤微阵列以除去未杂交的核酸。在洗涤后，在读数器或扫描仪中分析微阵列。读数器和扫描仪的实例包括GENECHIP Scanner 3000
G7(Affymetrix，Inc.)、Agilent DNA微阵列扫描仪(Agilent Technologies，Inc.)、
GENEPIX 4000B(MolecularDevices，Sunnyvale，CA)等。可使用商购可得的软件例如由
Affymetrix或Agilent Technologies提供的那些软件分析从微阵列中包含的探针采集
的信号。例如，如果使用来自Affymetrix的GENECHIP Scanner 3000 G7，那么可使用
AFFYMETRIX GENECHIP Operating软件。AFFYMETRIX GENECHIP Operating软件
从检测来自所有探针的信号的AFFYMETRIX GENECHIP 扫描仪收集和提取原始或特征
数据(信号)。可以以任何适当的文件格式之一电子地存储原始或特征数据，例如CEL文
件(CEL文件的格式是与Windows INI格式相似的ASCII文本文件)、CHP文件、CNT文件、
metaprobeset文件或纯文本文件。

[0233] 处理从微阵列收集和提取的数据以确定每一条染色体上每一个基因座的拷贝数和限定拷贝数改变的区域。可使用已知的算法例如二元环状分段(Binary Circular
segmentation)(Olshen等人，2004)、DNA的获得和丧失分析(Gain and Loss Analysis of DNA)(GLAD)(Hupe等人，2004)、基于隐蔽马尔可夫模型的方法(Fridlyand等人，2004；Zhao等人，2004)或聚类方法(Wang等人，2005)等进行这样的处理。可选地，可使用商购可得的TM
软件，例如PARTEK GENOMIC SUITE 软件，例如6.08.0103版(可从Partek，St.Louis，
MO获得)，GenePattern(可在线获得；(Reich等人，2006))和dChip(可在线获得；(Li和
Hung Wong，2001；Li和Wong，2001)。

[0234] 例如，如果使用PARTEK GENOMIC SUITETM软件例如6.08.0103版，那么可将包括利用扫描仪检测的来自微阵列中所有探针的信号的CEL文件加载至软件中。通过在针对预
置基线(用于确立预置基线的数目不是关键的并且为整数(n)，其中n是1至100。例如，
预置基线可以为2)进行校正后，将从微阵列测定的肿瘤或癌细胞系样品的信号强度与在
参考或对照中的信号强度相比较来计算拷贝数。所使用的参考或对照可以是利用相同微阵
列平台测量的一组正常组织样品或来自与肿瘤样品相同的患者的配对正常组织。参考或对
照可包括至少5个样品、至少10个样品、至少15个样品、至少20个样品、至少25个样品、
至少30个样品、至少35个样品、至少40个样品、至少45个样品、至少50个样品、至少75
个样品、至少100个样品、至少150个样品、至少200个样品等。

[0235] 然后对所得的拷贝数数据进行分段，且在每一个样品中检测拷贝数改变区域。可使用下列控制参数获得拷贝数改变区域的分段和检测：

[0236] (i)拷贝数区域必须包含至少100个探针；

[0237] (ii)比较拷贝数区域对邻近拷贝数区域的平均拷贝数的p值必须小于0.00001；和

[0238] (iii)转换的信/噪比必须大于0.1。

[0239] 当这些区域中的平均拷贝数在统计学上小于1.65(缺失)或大于2.65(获得)，P值小于0.01时，可检测到拷贝数改变区域。

[0240] 因为肿瘤样品可包含相当大百分比的正常细胞，所述正常细胞可稀释拷贝数改变的信号，所以机器学习算法可用于捕获肿瘤和癌细胞系样品的拷贝数模式与正常样品的拷
贝数模式之间的差异。这样的算法可用于鉴定被正常细胞污染的肿瘤样品并且将其从进一
步分析中消除。因此，该算法用作数据质量控制并且称为“数据质量控制算法”。

[0241] 数据质量控制算法包括从本文中之前描述的肿瘤和癌细胞系样品选择具有最多数目的拷贝数改变区域的样品亚组(在下文中称为“第一样本集”)。也选择正常组的
样品(在下文中称为“第二样本集”)。将这些第一和第二样本集用作训练组来开发机器
学习算法，以通过将算法的参数调整至最能代表第一和第二样本集之间的差异来将样品
分类为“正常”或“肿瘤”样品。将训练的分类器应用于剩余肿瘤或癌细胞系样品以将分
数赋予每一个样品。该分数代表每一个样品被正常细胞污染的概率。从随后的聚类分
析中排除具有超过50％的污染概率的样品。可用于该目的的机器学习算法包括随机森
林(RF)(Breiman，2001)、支持向量机(Support Vector Machine)(SVM)(Vapnik，1995)、
Recursive-SVM(Zhang等人，2006)、最小角度回归 (Least-angleregression)(LARS)
(Efron等人，2004)等。

[0242] 因为从微阵列获得的拷贝数数据倾向于为高度密集和有噪声的，所以可修正拷贝数数据以降低噪声水平，和降低维数(也称为“降维”)和数据复杂性。可通过首先使用常
规技术检测每一个样品中显著获得的或缺失的拷贝数区域来进行数据修正。一旦鉴定了此
种区域，那么如果邻近区域具有相似的拷贝数改变以及如果这些区域之间的距离小于500
千碱基，则可合并所述邻近区域。接着可使用数据集中来自所有样品的断点的联合对完整
基因组进行分段，并且可通过计算每一个区段内的SNPs探针的拷贝数平均值来计算每一
个区段的拷贝数(Carrasco等人，2006)。数据修正可给出每一个样品的拷贝数获得和缺失
的更好的分辨率。

[0243] 在数据修正和降维后，将数据集经历无监督聚类方法来获得每一个肿瘤与癌细胞系样品之间的相对相似性的概观和获得迄今存在于数据中的亚组的数目(其在本文中也
称为r亚组)的估计(例如，粗略估计)。在数据修正和降维后，将使用Pearson线性相异性
算法的无监督聚类方法应用于修正的肿瘤和细胞系拷贝数数据集，所述数据集也称为“数
据集(Data Set)”或V。可将聚类模式作图和进行目视检查以获得数据集中亚组的可能数
目r的范围(数据集中亚组的可能数目的范围将是1至100的整数(n))。可使用的无监督
聚类方法的实例包括但不限于等级聚类、主要组分分析(PCA)(Pearson，1901)或多维标度
法(Multidimensional Scaling)(MDS)(Borg和Groenen，2005)。然后将亚组的数目(其各
自被称为“r值”，其中各r值是1至100的整数)在使用基因组“gNMF”的聚类分析中用作
输入。

[0244] 在之前gNMF对簇CGH数据的应用(Carrasco等人，2006；Maher等人，2006)中，当肿瘤或癌细胞系样品的亚组分配在进行预先规定的数目的步骤(例如，100)后不改变时，
终止算法。基于使用模拟数据以及实际CGH数据的测试，认为该准则过早地终止(例如，结
束)gNMF算法。因此，可改进gNMF算法以使在乘性更新进行选择的数目的步骤(其中步骤
的选择的数目不是关键的并且是1至1000的整数(n)，例如5步、10步、25步、50步、100
步、200步等)后，使用公式(11)计算来自数据集的算法的散度：

[0245]

[0246] 其中Vij是矩阵V的第i行和第j列，(WH)ij是矩阵(W*H)的第i行和第j列，i从1运行至n，且n是数据集中区段的数目，并且j从1运行至m，且m是数据集中样品的数
目；并且m是数据集中样品的数目。

[0247] 通过使用上述公式，如果当与算法的乘性更新进行先前或预先选择的数目的步骤(例如，100)所计算的散度相比较时，上文中计算的散度减小不超过约0.001％，则终止迭
代算法(在本文中也称为“终止准则”)。已发现对gNMF算法的该改进显著地提高了聚类
的准确度。

[0248] 因为gNMF是随机程序，所以当始于不同的初始值时算法可产生不同的结果。为了进一步改进聚类算法的性能，开发了新颖的多起始策略(multiple initiation
strategy)。对于每一个数据集，所述策略包括使用上述终止准则和随机起始或重复gNMF
算法，进行选择的运行数(可随机起始或重复算法的选择的运行数是从1至1000的整数
(n)，例如 1、5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、125、
150、175、200、225、250、275、300、350等)。一旦算法已完成其随机选择的运行数，就使用公式(12)计算这些运行的每一次的H的Pearson相关系数矩阵：

[0249]

[0250] 其中C是相关矩阵，Ci，j是矩阵C中的第i行和第j列，H，i和H，j是矩阵H中的第i和第j列的向量，ρ(H，i，H，j)是H，i与H，j之间的Pearson相关系数，i和j从1运行至m，且m是数据集中样品的数目，k从1运行至r，且r是亚组的数目(之前在本文中测定的)。
一旦确定每一次运行的H的Pearson相关系数矩阵，就计算相关矩阵的平均值。通过使用1
减平均相关矩阵作为距离矩阵运行无监督聚类方法(例如，例如等级聚类算法)并且将树
形图分割至r个亚组，来获得最终的聚类结果。

[0251] 例如，如果gNMF算法随机运行200次，则在200次运行后，使用上述公式计算来自200次随机gNMF运行的每一次的输出的H的Pearson相关系数矩阵。然后计算200次运行
的相关矩阵的平均值。可通过使用1减平均相关矩阵作为距离矩阵运行等级聚类算法并且
将树形图分割至r个亚组，来获得最终的聚类结果。

[0252] 一旦获得最终的聚类结果，就可将同表象相关系数、贝叶斯信息准则(BIC)或同表象相关和BIC的组合用于选择最好地反映这些肿瘤和细胞系样品的遗传模式的分布的
最佳模型(即，簇的最佳数目和每一个样品至簇之一的最佳分配)。可将对数正态分布用于
该分析，因为其被广泛用于拟合DNA拷贝数(Hodgson等人，2001)。为了计算似然性，可假
定每一个簇中的样品来自相同的多对数正态分布(multi-lognormal distribution)，其中
每一个区段的平均拷贝数遵循对数正态分布。如果区段之间的相关性弱，那么可在计算中
假定区段之间独立。在该情况下，所得的对数似然公式(13)是：

[0253]

[0254] 其中r是簇的数目，ni是簇i中样品的数目，m是区段的数目，yijt是第i簇中第j样品的第t区段的对数变换的拷贝数，μit是第i簇中第t区段的对数变换的拷贝数的平
均值，且σit是第i簇中第t区段的对数变换的拷贝数的标准差。因此特定模型中参数的
数目k将是2×r×m。

[0255] 许多次，当使用同表象相关系数和BIC作为在无监督聚类中选择最佳模型的准则时，这两个算法将经常选择相同的模型。

[0256] 可使用10倍稳定性检验程序评估聚类结果的稳定性。可如下进行10倍稳定性检验。在对数据集运行gNMF并且将样品分配至簇后，省去(leave out)至少约10％的肿瘤和
癌细胞系样品，且对剩余的90％的肿瘤和癌细胞系样品第二次运行上述改进的gNMF算法
(如果至少约15％的肿瘤和癌细胞系样品被省去，那么对剩余的85％的肿瘤和癌细胞系样
品第二次运行上述gNMF算法，等等)。然后计算作为该排列的结果被分配至不同簇的样品
数目。重复检验进行选择的次数(检验可重复1至1000次。例如，检验可重复1次、20次、
25次、50次、100次、200次、500次、750次、1000次等)以使用本领域已知的常规技术获得差错率。该差错率代表就肿瘤和癌细胞系样品的排列而言的聚类结果的稳定性。可对使用
相同数据集(肿瘤和癌细胞系样品)的无监督聚类方法(例如，等级聚类)使用该10倍稳
定性检验。

[0257] 使用这些方法，可将具有CRC细胞和CRC细胞系的肿瘤分类至基因组亚组。首先，使用上述方法将足够数目的CRC肿瘤和CRC细胞系聚类至不同亚组。从这些亚组的每一
个，选择来自每一个亚组的至少一个细胞系并且将其加入至小组(panel)，每一个小组因而包含基因组亚组。从而所得的小组充分地代表CRC的全部基因组亚型(genomic subtype)。
该小组可用作CRC的药物组合物或药物测试的临床前模型，从而提供了处于考虑中的肿瘤
类型的基因组多样性的全面覆盖。

[0258] 应用

[0259] 装配诊断小组(diagnostic panel)使得能够增加对CRC诊断的灵敏度。现在不仅可就CRC诊断受试者，而且还可就基于受试者的CRC基因型在分类小组中的分类的CRC
的“基因组类型”诊断受试者。这样，可施用靶向治疗性干预，其增加治疗的成功和改善受试者的生活质量。

[0260] 在本发明的诊断方法中，获得怀疑包含至少一个CRC细胞的样品。然后使用用于确立原始诊断小组的相同探针和参数，或可检测拷贝数改变的任何其他组的探针和参数，
使样品中的细胞经历微阵列分析，且处理来自微阵列分析的数据集以确定受试者的CRC基
因型类似于哪个亚组。然后将受试者的CRC基因型分配至该亚组。

[0261] 根据亚组信息，可设计治疗性干预和试验。例如，当关于治疗成功(如与CRC基因型相关的)的数据变得可获得时，可基于受试者CRC基因型和亚组分类对受试者施用具有
最高的治疗CRC的概率的那些治疗。这样，极大地减少了试错(trail-and-error)治疗，也
极大地减少了对最具侵入性的治疗(外科手术)的依赖，并且受试者在治疗过程中具有更
好的减轻和更高生活质量的机会。受试者的生活质量提高，这是因为治疗时间段和治疗性
干预的次数减少。

[0262] 如果未确立治疗，那么可通过使用细胞小组数据确定治疗性干预。例如，如果细胞系C、O、L、O和N落入单个亚组，那么可就潜在功效使它们经历各种治疗选择的体外测试。有效地对簇中大多数细胞系具有不利作用的那些治疗性干预代表了最可能有效地治疗受
试者的那些干预。

[0263] CRC的治疗性干预包括侵入性外科手术(包括关于局限性疾病(localizeddisease)的原发性和局部淋巴结切除)、辅助放射疗法(adjuvant radiation therapy)和
辅助化学疗法。化学疗法干预包括施用氟尿嘧啶、卡培他滨、甲酰四氢叶酸和奥沙利铂。可使用这些药物的组合，尤其奥沙利铂与氟尿嘧啶和甲酰四氢叶酸的组合。

[0264] 可使代表性细胞系和肿瘤样品经历体外测试，测定治疗性干预治疗CRC的能力。例如，可就其对各种化学治疗剂(单独地和组合地)的易感性测定细胞系。当多个细胞
系对一个或多个干预作出相似的反应时，则选择那些干预给受试者施用。因此，可通过体
外，和最终真实世界治疗数据增加细胞小组，从而提供基于CRC拷贝数概况的治疗矩阵
(therapeutic matrix)。

[0265] 在另一个实施方案中，本发明的方法涉及装配用于分类CRC细胞的探针小组。就每一个亚组的最具特征性的拷贝数异常分析基因组亚组的数据库，并且设计探针用以检测
那些区域。探针可以是用于原始微阵列分析程序的或就特定特征设计和最优化的探针的亚
群。在一个实施方案中，此种探针是FISH探针。在另一个实施方案中，在试剂盒中提供了
此种探针小组。

[0266] 在其他方案中，提供了用以分类CRC细胞的试剂盒，其包括例如用于装配通过基因组亚组分类CRC细胞的数据库的说明书和至少第一、第二和第三细胞系或其分离的基因
组DNA，其中每一个细胞系或gDNA代表基因组亚组。例如，所述第一细胞系或gDNA可以是
HCT-8、LS 174T、SK-CO-1、SW48、DLD-1、HCT-15、HCT116、LoVo、CL-34、CL-40、C170或LS180；
所述第二细胞系可以是Caco-2、LS1034、LS411N、LS513、NCI-H498、NCI-H747、SW1116、SW1417、SW837、HT-29、SW620、CL-11、CL-14、Colo-678或SW-480；以及所述第三细胞系可以是Colo 320DM、NCI-H508、NCI-H716、SW1463、SW403、SW948、Colo 205或Colo-206F。

[0267] 试剂盒可包括探针小组以及为正常或非CRC细胞的对照细胞系或gDNA。实施例

[0268] 下列实施例仅用于举例说明目的并且不应当被解释为对所请求保护的发明的限制。存在对于本领域技术人员来说是可获得的多种多样的备选技术和程序，所述技术和程
序类似地允许人们成功地进行期望的发明。

[0269] 涉及CRC分类的本发明的方法概述于图1中。

[0270] 实施例1：细胞系和组织样品

[0271] 我们使用35个细胞系和144个肿瘤样品以确立我们的CRC分类模型。用于本研究的细胞系的来源列于表1中。

[0272] 实施例2：步骤1：DNA提取和与SNPs阵列的杂交

[0273] AFFYMETRIX GENECHIP Mapping 100K Set SNP 阵列 (Matsuzaki 等人，2004)(Affymetrix，Inc.，Santa Clara，CA)以23.6kb的平均标记间距离覆盖人基因组
中116,204个单核苷酸多态性(SNP)基因座。阵列组包括两个芯片Xba240和Hind240。
可按照制造商的说明书进行测定。简而言之，使用QIAGEN DNEASY 试剂盒(Qiagen，
Valencia，CA)从来自每一个肿瘤的30mg组织或来自每一个细胞系的5x106细胞提取高
分子量基因组DNA。用HindIII或XbaI消化250纳克基因组DNA。然后将衔接头(XbaI，
5’tctagagatc aggcgtctgt cgtgctcata a 3’；SEQ ID NO：2；HindIII，5’acgtagatca ggcgtctgtc gtgctcataa 3’；SEQ ID NO：3)与识别粘性4碱基对(bp)突出端的消化的片
段连接。在GENEAMP PCR System 9700(Applied Biosystems，Foster City，CA)中，利用
经最优化以优先扩增250至2,000bp大小范围内的片段的PCR条件，使用识别衔接头序列
的通用引物(5’attatgagca cgacagacgc ctgatct 3’SEQ ID NO：1)扩增衔接头连接的DNA片段。在利用MINELUTE 96 UF PCR纯化系统(Qiagen)纯化后，片段化PCR产物，用生物
素进行标记，然后将其与GENECHIP Mapping 100K Set杂交，进行16小时。使用Fluidics
Station F-450(Affymetrix)洗涤阵列，且使用GENECHIP Scanner 3000 G7(Affymetrix)
进行扫描。GENECHIP 操作软件(GCOS)从GENECHIP 扫描仪收集和提取特征数据。

[0274] 还可使用其他SNPs或CGH微阵列平台例如AFFYMETRIX SNPs微阵列的其他版本、Agilent aCGH微阵列(Agilent，Inc.，Santa Clara，CA)、ILLUMINA 微阵列
(Illumina，Inc.，San Diego，CA)和NIMBLEGEN aCGH微阵列(Nimblegen，Inc.，Madison，WI)获得拷贝数数据。

[0275] 实施例3：步骤2：拷贝数测定和拷贝数改变的检测

[0276] 将Genomic Suite软件(6.08.0103版)(Partek；St.Louis，MO)用于数据的低水平处理以测定每一个基因座的拷贝数和限定拷贝数改变的区域。将包括对于全部SNPs探
针的信号的CEL文件加载至软件中，且通过将肿瘤或细胞系样品的信号强度与48个正常女
性组织样品的参考组的信号强度(针对2的基线校正的)相比较来计算拷贝数。参考组还
可由其他组的正常样品或来自肿瘤样品的相同患者的配对正常组织组成，其利用相同微阵
列平台来进行测量。

[0277] 对所得的探针水平拷贝数数据进行分段，且检测每一个样品中的拷贝数改变区域。具体地，使用下列控制参数将探针水平拷贝数分段至区域中：(i)区域必须包含至
少100个探针，(ii)比较所述区域对邻近区域的平均拷贝数的p值必须小于0.00001，和
(iii)转换的信/噪比必须大于0.1。当这些区域中的平均拷贝数小于1.65(缺失)或大
于2.65(获得)，P值小于0.01时，检测到拷贝数改变区域。

[0278] 拷贝数的分段和拷贝数改变的检测还可通过其他算法实现，例如二元环状分段(Olshen等人，2004)、DNA的获得和丧失分析(GLAD)(Hupe等人，2004)、基于隐蔽马尔可夫模型的方法(Fridlyand等人，2004)(Zhao等人，2004)或聚类方法(Wang等人，2005)等。
这些方法已在几种软件包例如GenePattern(Reich等人，2006)和dChip(Li和Hung Wong，
2001；Li和Wong，2001)中得到实现。

[0279] 实施例4：步骤3：数据质量控制

[0280] 肿瘤样品可包含相当大百分比的正常细胞，所述正常细胞稀释存在于肿瘤细胞中的拷贝数改变的信号。开发了捕获肿瘤与正常样品的拷贝数模式之间的差异的机器学习算
法，然后将其用于鉴定正常污染的样品并且从进一步分析中消除该样品。首先，选择具有最多数目的拷贝数改变区域的样品亚群和正常样品组。将这两组样品用于训练机器学习算法
(随机森林：RF(Breiman，2001))以通过将参数调整至最佳地代表肿瘤与正常样品之间的
差异来分类正常和肿瘤样品。第二，将训练的分类器算法应用于剩余的样品；分类器给每一个样品赋予分数，其中所述分数代表样品被正常细胞污染的概率。将具有高于50％正常细
胞污染的概率分数的样品从聚类分析中排除。

[0281] 实施例5：步骤4：数据修正和降维

[0282] 利用SNPs微阵列获得的拷贝数数据的密度高并且存在相当大量噪声。因此，对拷贝数数据进行修正以降低聚类分析的噪声、维数和复杂性。在检测每一个样品中相当大
地获得的或缺失的区域后，如果邻近区域具有相似的拷贝数改变并且它们之间的距离小于
500kb，那么合并所述邻近区域。通过使用来自数据集中全部样品的断点的联合来形成DNA
区段。将每一个区段中的探针的平均拷贝数用于进一步分析。该步骤允许在高通量分析中
更清楚地分辨DNA获得和缺失。

[0283] 实施例6：步骤5：使用等级聚类测定亚组的可能数目的试点聚类(Pilotclustering)分析

[0284] 对于每一个数据集，本发明人使用Pearson相异性(定义为(1-r)/2，其中r是Pearson相关)等级聚类肿瘤和细胞系CGH数据。将等级聚类模式作图并且和进行目视检
查以获得数据集中亚组的可能数目范围。然后使用gNMF将这些数目在聚类分析中用作输
入。

[0285] 实施例7：步骤6：肿瘤和细胞系CGH数据的gNMF聚类

[0286] 使用步骤5中测定的簇数目范围，将gNMF算法用于分类肿瘤和细胞系CGH数据。对于每一个簇数目，使用我们开发的终止准则运行200次gNMF算法。然后通过根据1减H
的相关矩阵的平均值进行等级聚类来获得分类模型。

[0287] 实施例8：步骤7：使用同表象相关和贝叶斯信息准则(BIC)进行的模型选择

[0288] 利用初始等级聚类分析中选择的几个可能的r值(亚组的数目)运行上述gNMF程序，且建立具有不同数目的亚组的几个模型。然后将同表象相关系数和贝叶斯信息准则
(BIC)用于选择最佳模型(亚组的数目和每一个样品至亚组之一的分配)，所述模型最好地
反映了肿瘤和细胞系样品的遗传模式的分布。

[0289] 将同表象相关系数和BIC用作准则来选择最好地反映肿瘤和细胞系样品的遗传模式在无监督聚类中的分布的模型。发现这两个标准经常指向相同的模型。在选择最佳模
型后，将每一个CRC肿瘤样品和细胞系分配至基于选择的模型的基因组亚组之一。还可把
将来要进行概况分析的其他CRC肿瘤样品分配至基于它们的基因组模式的亚组之一。

[0290] 实施例9：步骤8：聚类稳定性的10倍稳定性检验

[0291] 开发10倍稳定性检验程序用以评估分类结果的稳定性。在对数据集运行gNMF并且将肿瘤和细胞系样品分配至亚组后，随机省去10％的样品，且对剩余的90％的样品应用
相同的程序。计算按照该排列分配至不同亚组的样品的数目。重复该省去检验200次以获
得差错率，其代表就样品的排列而言的聚类结果的稳定性。还评估对相同的数据集使用相
同程序的等级聚类的稳定性，且发现其总是远高于gNMF聚类的稳定性。

[0292] 实施例10：结果

[0293] 步骤1-2。制备并且分析179个CRC肿瘤和细胞系样品，且如实施例2和3中所述处理数据。检测到总共5240个具有显著改变的拷贝数的区段。

[0294] 步骤3。将数据质量控制程序应用于CRC CGH数据。发现总共43个肿瘤样品被正常细胞显著污染。将未被污染的101个肿瘤样品和35个细胞系用于进一步分析。

[0295] 步骤4。将CGH数据的维数降至3575。

[0296] 步骤5。将等级聚类用作对CRC数据集的初始分析以估计簇的数目。聚类的树形图示于图2中。树形图的目视检查提示数据中存在3-6个主要的簇。

[0297] 步骤6。使用范围在3至6内的簇数目，将gNMF算法用于分类肿瘤和细胞系CGH数据。对于每一个簇数目，使用我们开发的终止准则运行gNMF算法200次。然后通过根据
1减H的相关矩阵的平均值进行等级聚类来获得分类模型。

[0298] 步骤7。关于步骤6中拟合的gNMF模型的同表象相关和BIC。结果列于表2中，其中r表示每一个模型中的簇的数目。根据表2，本发明人发现具有5个簇的模型具有最小
的BIC，而在簇数目4与5之间，同表象相关显示最大的减小。因此，5个簇是该数据集的最
佳选择。具有5个簇的gNMF输出的热图示于图3中。

[0299] 表2

[0300] 使用不同簇数目的模型的同表象相关和BIC

[0301]

[0302] 将101个CRC肿瘤样品分类至基于它们的拷贝数改变的模式的5个亚组，且将细胞系分配至适当的亚组。每一个簇的肿瘤样品数目和细胞系的特性列于表3中。

[0303] 表3.CRC的每一个亚组中CRC肿瘤的数目和细胞系的特性

[0304] 表3

[0305] CRC的每一个亚组中CRC肿瘤的数目和细胞系的特性

[0306]

[0307] 步骤8。将10倍稳定性检验用于具有5个簇的gNMF模型。差错率为16.78％。作为比较，我们还将使用步骤5中修正的拷贝数数据获得的等级聚类树形图分割至3至6个
簇，且使用相同10倍检验测试簇的稳定性。差错率为14.51％至18.98％。

[0308] 由聚类程序限定的5个组具有不同的基因组畸变模式，这意味着不同的来源、肿瘤发生机制并且提示它们将表现每一个亚组特有的不同的临床行为和对治疗性干预的敏
感性。

[0309] 参考文献

[0310] Anand，S.，S.Penrhyn-Lowe，and A.R.Venkitaraman.2003.AURORA-Aamplification overrides the mitotic spindle assembly checkpoint，inducing
resistance to Taxol.Cancer Cell.3：51-62.

[0311] Ausubel，F.M.1987.Current protocols in molecular biology.GreenePublishing Associates；J.Wiley，order fulfillment，Brooklyn，N.Y.Media，Pa.2
v.(loose-leaf).

[0312] Bhattacharjee，A.，W.G.Richards，J.Staunton，C.Li，S.Monti，P.Vasa，C.Ladd，J.Beheshti，R.Bueno，M.Gillette，M.Loda，G.Weber，E.J.Mark，E.S.Lander，W.Wong，B.E.Johnson，T.R.Golub，D.J.Sugarbaker，and M.Meyerson.2001.Classificationof human lung carcinomas by mRNA expression profiling reveals distinct
adenocarcinoma subclasses.Proc Natl Acad Sci USA.98：13790-5.

[0313] Borg，I.，and P.Groenen.2005.Modern Multidimensional Scaling：theory and applications.Springer，New York.

[0314] Breiman，L.2001.Random Forests.Machine Learning.45：5-32.

[0315] Brunet，J.P.，P.Tamayo，T.R.Golub，and J.P.Mesirov.2004.Metagenes andmolecular pattern discovery using matrix factorization.Proc Natl Acad Sci
USA.101：4164-9.

[0316] Carrasco，D.R.，G.Tonon，Y.Huang，Y.Zhang，R.Sinha，B.Feng，J.P.Stewart，F.Zhan，D.Khatry，M.Protopopova，A.Protopopov，K.Sukhdeo，I.Hanamura，O.Stephens，B.Barlogie，K.C.Anderson，L.Chin，J.D.Shaughnessy，Jr.，C.Brennan，and R.A.Depinho.2006.High-resolution genomic profiles define distinct
clinico-pathogenetic subgroups of multiple myeloma patients.Cancer Cell.9：
313-25.

[0317] Efron，B.，T.Hastie，I.Johnstone，and R.Tibshirani.2004.Least angleregression.Annals of Statistics.32：407-499.

[0318] Fearon，E.R.，and B.Vogelstein.1990.A genetic model for colorectaltumorigenesis.Cell.61：759-67.

[0319] Fodor，S.P.，J.L.Read，M.C.Pirrung，L.Stryer，A.T.Lu，and D.Solas.1991.Light-directed，spatially addressable parallel chemical synthesis.Science.251：767-73.

[0320] Fridlyand，J.，A.M.Snijders，D.Pinkel，D.G.Albertson，and A.N.Jain.2004.Hidden Markov models approach to the analysis of array CGH data.Journal ofMultivariate Analysis.90：132-153.

[0321] Hedenfalk，I.，M.Ringner，A.Ben-Dor，Z.Yakhini，Y.Chen，G.Chebil，R.Ach，N.Loman，H.Olsson，P.Meltzer，A.Borg，and J.Trent.2003.Molecular classification of familial non-BRCA1/BRCA2 breast cancer.Proc Natl Acad Sci USA.100：2532-7.

[0322] Hirsch，F.R.，M.Varella-Garcia，P.A.Bunn，Jr.，W.A.Franklin，R.Dziadziuszko，N.Thatcher，A.Chang，P.Parikh，J.R.Pereira，T.Ciuleanu，J.von
Pawel，C.Watkins，A.Flannery，G.Ellison，E.Donald，L.Knight，D.Parums，N.Botwood，and B.Holloway.2006.Molecular predictors of outcome with gefitinib in a phase
III placebo-controlled study in advanced non-small-cell lung cancer.J Clin
Oncol.24：5034-42.

[0323] Hodgson，G.，J.H.Hager，S.Volik，S.Hariono，M.Wernick，D.Moore，N.Nowak，D.G.Albertson，D.Pinkel，C.Collins，D.Hanahan，and J.W.Gray.2001.Genome scanning with array CGH delineates regional alterations in mouse islet carcinomas.NatGenet.29：459-64.

[0324] Holland，P.M.，R.D.Abramson，R.Watson，and D.H.Gelfand.1991.Detection of specific polymerase chain reaction product by utilizing the
5′----3′exonuclease activity of Thermus aquaticus DNA polymerase.Proc Natl
Acad Sci USA.88：7276-80.

[0325] Hupe，P.，N.Stransky，J.P.Thiery，F.Radvanyi，and E.Barillot.2004.Analysis of array CGH data：from signal ratio to gain and loss of DNA regions.
Bioinformatics.20：3413-22.

[0326] Innis，M.A.1990.PCR protocols：a guide to methods and applications.Academic Press，San Diego.xviii，482 p.pp.

[0327] Innis，M.A.，D.H.Gelfand，and J.J.Sninsky.1995.PCR strategies.Academic Press，San Diego.xv，373 p.pp.

[0328] Lee，D.D.，and H.S.Seung.1999.Learing the parts of objects bynon-negative matrix factorization.Nature.401：788-91.

[0329] Lee，D.D.，and H.S.Seung.2001.Algorithms for Non-negative MatrixFactorization.Advances In Neural Information Processing Systems.14：556-562.

[0330] Levsky，J.M.，and R.H.Singer.2003.Fluorescence in situ hybridization：past，present and future.J Cell Sci.116：2833-8.

[0331] Li，C.，and W.Hung Wong.2001.Model-based analysis of oligonucleotidearrays：model validation，design issues and standard error application Genome
Biol.2：RESEARCH0032.

[0332] Li，C.，and W.H.Wong.2001.Model-based analysis of oligonucleotidearrays：expression index computation and outlier detection.Proc Natl Acad Sci
USA.98：31-6.

[0333] Maher，E.A.，C.Brennan，P.Y.Wen，L.Durso，K.L.Ligon，A.Richardson，D.Khatry，B.Feng，R.Sinha，D.N.Louis，J.Quackenbush，P.M.Black，L.Chin，and R.A.DePinho.2006.Marked genomic differences characterize primary and secondary glioblastomasubtypes and identify two distinct molecular and clinical secondary
glioblastoma entities.Cancer Res.66：11502-13.

[0334] Matsuzaki，H.，S.Dong，H.Loi，X.Di，G.Liu，E.Hubbell，J.Law，T.Berntsen，M.Chadha，H.Hui，G.Yang，G.C.Kennedy，T.A.Webster，S.Cawley，P.S.Walsh，K.W.Jones，S.P.Fodor，and R.Mei.2004.Genotyping over 100,000 SNPs on a pair of oligonucleotide arrays.Nat Methode.1：109-11.

[0335] McPherson，M.J.，G.R.Taylor，and P.Quirke.1991.PCR，a practical approach.IRL Press at Oxford University Press，Oxford；New York.xxi，253 p.pp.

[0336] Midgley，R.，and D.Kerr.1999.Colorectal cancer.Lancet.353：391-9.

[0337] Olshen，A.B.，E.S.Venkatraman，R.Lucito，and M.Wigler.2004.Circularbinary segmentation for the analysis of array-based DNA copy number data.
Biostatistics.5：557-72.

[0338] Pearson，K.1901.On Lines and Planes of Closest Fit to Systems of Points in Space.Philosophical Magazine.2：559-572.

[0339] Reich，M.，T.Liefeld，J.Gould，J.Lerner，P.Tamayo，and J.P.Mesirov.2006.GenePattern 2.0.Nat Genet.38：500-1.

[0340] Ried，T.，R.Knutzen，R.Steinbeck，H.Blegen，E.Schrock，K.Heselmeyer，S.du Manoir，and G.Auer.1996.Comparative genomic hybridization reveals a specificpattern of chromosomal gains and losses during the genesis of colorectal
tumors.Genes Chromosomes Cancer.15：234-45.

[0341] Ross，D.T.，U.Scherf，M.B.Eisen，C.M.Perou，C.Rees，P.Spellman，V.Iyer，S.S.Jeffrey，M.Van de Rijn，M.Waltham，A.Pergamenschikov，J.C.Lee，D.Lashkari，D.Shalon，T.G.Myers，J.N.Weinstein，D.Botstein，and P.O.Brown.2000.Systematicvariation in gene expression patterns in human cancer cell lines.Nat Genet.24：
227-35.

[0342] Saiki，R.K.，T.L.Bugawan，G.T.Horn，K.B.Mullis，and H.A.Erlich.1986.Analysis of enzymatically amplified beta-globin and HLA-DQ alpha DNA with
allele-specific oligonucleotide probes.Nature.324：163-6.

[0343] Sambrook，J.，and D.W.Russell.2001.Molecular cloning：a laboratorymanual.Cold Spring Harbor Laboratory Press，Cold Spring Harbor，N.Y.

[0344] Schwarz，G.1978.Estimating the dimension of a model.Annals ofStatistics.6：461-464.

[0345] Seeger，R.C.，G.M.Brodeur，H.Sather，A.Dalton，S.E.Siegel，K.Y.Wong，and D.Hammond.1985.Association of multiple copies of the N-myc oncogene with rapid progression of neuroblastomas.N Engl J Med.313：1111-6.

[0346] Sninsky，J.J.，M.A.Innis，and D.H.Gelfand.1999.PCR applications：protocols for functional genomics.Academic Press，San Diego.xviii，566 p.，[3]
p.of plates pp.

[0347] Sotiriou，C.，S.Y.Neo，L.M.McShane，E.L.Korn，P.M.Long，A.Jazaeri，P.Martiat，S.B.Fox，A.L.Harris，and E.T.Liu.2003.Breast cancer classification and prognosis based on gene expression profiles from a population-based study.Proc Natl Acad Sci USA.100：10393-8.

[0348] Vapnik，V.1995.The nature of statistical learning theory.Springer-Verlag，New York.

[0349] Vogel，C.L，M.A.Cobleigh，D.Tripathy，J.C.Gutheil，L.N.Harris，L.Fehrenbacher，D.J.Slamon，M.Murphy，W.F.Novotny，M.Burchmore，S.Shak，
S.J.Stewart，and M.Press.2002.Efficacy and safety of trastuzumab as a single
agent in first-line treatment of HER2-overexpressing metastatic breast cancer.
J Clin Oncol.20：719-26.

[0350] Wang，P.，Y.Kim，J.Pollack，B.Narasimhan，and R.Tibshirani.2005.A method for calling gains and losses in array CGH data.Biostatistics.6：45-58.

[0351] Wilhelm，M.，J.A.Veltman，A.B.Olshen，A.N.Jain，D.H.Moore，J.C.Presti，Jr.，G.Kovacs，and F.M.Waldman.2002.Array-based comparative genomic hybridizationfor the differential diagnosis of renal cell cancer.Caner Res.62：957-60.

[0352] Zhang，X.，X.Lu，Q.Shi，X.Q.Xu，H.C.Leung，L.N.Harris，J.D.Iglehart，A.Miron，J.S.Liu，and W.H.Wong.2006.Recursive SVM feature selection and sample classification for mass-spectrometry and microarray data.BMC Bioinformatics.7：
197.

[0353] Zhao，X.，C.Li，J.G.Paez，K.Chin，P.A.Janne，T.H.Chen，L.Girard，J.Minna，D.Christiani，C.Leo，J.W.Gray，W.R.Sellers，and M.Meyerson.2004.An integratedview of copy number and allelic alterations in the cancer genome using single
nucleotide polymorphism arrays.Cancer Res.64：3060-71.

标题	发布/更新时间	阅读量
结直肠癌术后复发危险分层检测方法	2020-05-12	922
一种结直肠癌实体瘤组织样本保存液	2020-05-13	358
一种结直肠癌微生物标志物及其应用	2020-05-13	213
结直肠癌的模型	2020-05-11	395
结直肠癌的预后	2020-05-11	86
治疗结直肠癌和转移性结直肠癌的方法	2020-05-12	433
评估结肠直肠癌	2020-05-11	851
结直肠癌标志物及其应用	2020-05-13	377
结肠直肠癌的预后预测	2020-05-11	463
结肠直肠癌的预后预测	2020-05-12	987

基于基因拷贝数改变的模式的结肠直肠癌的基因组分类

基于基因拷贝数改变的模式的结肠直肠癌的基因组分类

该功能需要专业版企业版VIP权限，您可以：