首页 / 专利库 / 专利权 / 形式要求 / 缺陷 / 评估遗传病缺陷的方法

评估遗传病缺陷的方法

阅读:770发布:2020-06-03

专利汇可以提供评估遗传病缺陷的方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及使用拷贝数变异或多肽性的遗传分析与评估。本方法利用阵列比较基因组杂交和PCR检测来识别人类或非人类动物对象或对象组中的拷贝数变异的显著性。,下面是评估遗传病缺陷的方法专利的具体信息内容。

1.一种确定动物受试者中拷贝数变异的相关性的方法,包括:
(a)将来自受试者基因组的一个或多个拷贝数变异的信息与包含 至少100个个体中拷贝数变异频率的数据编译作比较;以及
(b)从步骤(a)的所述比较中确定所述一个或多个拷贝数变异 的相关性。
2.根据权利要求1所述的方法,其中所述编译包括来自至少1,000 个个体、5,000个个体或10,000个个体中的数据。
3.根据权利要求1所述的方法,其中所述数据是全基因组。
4.根据权利要求1所述的方法,进一步包括筛选所述对象的基因 组来采集所述一个或多个拷贝数变异的信息。
5.根据权利要求1或4所述的方法,其中所述一个或多个拷贝数 变异的所述信息以阵列比较基因组杂交(aCGH)筛选为基础
6.根据权利要求1或4所述的方法,其中所述一个或多个拷贝数 变异的所述信息以PCR筛选为基础。
7.根据权利要求1所述的方法,进一步包括识别所述对象中所述 一个或多个拷贝数变异是否与状态或疾病有关。
8.根据权利要求1所述的方法,进一步包括基于步骤(b)的所述 比较为所述患者消除患者治疗剂。
9.根据权利要求1所述的方法,进一步包括基于步骤(b)的所述 比较识别对所述患者有效的治疗剂。
10.根据权利要求1所述的方法,其中所述数据包括用于正常拷贝 数变异的频率信息。
11.根据权利要求1所述的方法,其中所述数据包括拷贝数断裂点 图谱。
12.根据权利要求1所述的方法,其中所述动物是人类。
13.根据权利要求1所述的方法,其中所述动物是非人类。
14.根据权利要求1所述的方法,进一步包括编译来自对照样品的 拷贝数数据。
15.根据权利要求14所述的方法,其中所述对照样品包括所述对 象的亲代的基因组DNA。
16.根据权利要求14所述的方法,其中所述对照样品包括来自每 一个亲代几乎相等数量的DNA。
17.根据权利要求14所述的方法,其中所述对照样品包括来自与 所述对象相比较性别不同的个体的DNA。
18.根据权利要求14所述的方法,进一步包括将来自aCGH筛选 的信息归一化以便解释所述对照样品与所述对象之间的性别错配。
19.一种评估对象的拷贝数变异的方法,包括:
(a)从所述对象获取包括基因组拷贝数的信息;
(b)访问一组数据,该数据表示来自至少100个个体的一个或多 个拷贝数变异的发生频率;
(c)将来自所述对象的所述信息与所述组的数据作比较;以及
(d)基于步骤(c)的所述比较,评估所述对象的拷贝数变异。
20.根据权利要求19所述的方法,其中所述步骤(b)的访问和所 述步骤(c)的比较是由计算机执行的。
21.根据权利要求19所述的方法,其中来自所述对象的所述信息 通过aCGH分析而获得。
22.根据权利要求19所述的方法,其中来自所述对象的所述信息 使用PCR分析而获得。
23.根据权利要求19所述的方法,进一步包括识别具有与拷贝数 变异相关的状态的所述对象的概率。
24.根据权利要求19所述的方法,其中所述组的数据包括用于正 常拷贝数变异的频率信息。
25.根据权利要求19所述的方法,其中所述组的数据包括拷贝数 断裂点图谱。
26.根据权利要求19、24或25所述的方法,其中所述组的数据是 全基因组。
27.根据权利要求19、24或25所述的方法,其中所述动物是人类。
28.根据权利要求19、24或25所述的方法,其中所述动物是非人 类。
29.一种计算机程序产品,包括具有记录在其上的计算机程序逻辑 的计算机可读媒体,用于使处理器能够确定对象基因组中一个或多个拷 贝数变异的相关性,所述计算机程序逻辑包括:
(a)接收程序,其使所述处理器能够接收一组信息,该信息包括 用于来自至少100个对象基因组的拷贝数变异的频率数据;
(b)比较程序,将来自所述对象的基因组的输入数据与所述组的 信息作比较;以及
(c)输出程序,提供所述比较的评估。
30.根据权利要求29所述的计算机程序产品,其中所述组的信息 来自至少1,000个个体的基因组。
31.根据权利要求29所述的计算机程序产品,其中所述组的信息 来自至少10,000个个体的基因组。
32.根据权利要求29所述的计算机程序产品,其中所述组的信息 包括用于正常拷贝数变异的频率信息。
33.根据权利要求29所述的计算机程序产品,其中所述组的数据 包括拷贝数断裂点图谱。
34.根据权利要求29所述的计算机程序产品,其中所述对象是人 类。
35.根据权利要求29所述的计算机程序产品,其中所述对象是非 人类。
36.根据权利要求29所述的计算机程序产品,其中所述组的数据 是全基因组。
37.一种计算机可读媒体,包括使计算机执行下述步骤的一组指 令:将包括来自对象基因组的拷贝数信息的输入数据与包括用于来自至 少100个个体所述基因组的拷贝数变异的频率数据的一组数据作比较; 以及产生包括所述对象的拷贝数变异评估的输出。
38.根据权利要求37所述的计算机可读媒体,其中所述组的数据 包括来自至少1,000个个体、5,000个个体或10,000个个体的数据。
39.根据权利要求37所述的计算机可读媒体,其中所述组的数据 包括用于正常拷贝数变异的频率信息。
40.根据权利要求37所述的计算机可读媒体,其中所述组的数据 包括拷贝数断裂点图谱。
41.根据权利要求37所述的计算机可读媒体,其中所述对象是人 类。
42.根据权利要求37所述的计算机可读媒体,其中所述动物是非 人类。
43.根据权利要求37所述的计算机可读媒体,所述组的数据是全 基因组。
44.一种用于确定对象中拷贝数变异的相关性的计算机系统,包 括:
(a)输入系统,用于接收包括下述的一组信息:用于来自至少100 个个体的基因组的拷贝数变异的频率数据和来自所述对象基因组的拷 贝数信息;
(b)比较系统,用于将来自对象基因组的拷贝数信息与所述组的 信息作比较;以及
(c)输出系统,用于提供所述比较的评价。
45.根据权利要求44所述的计算机系统,其中所述输入系统适合 于接收从使用aCGH的所述对象的基因组的分析所产生的数字结果。
46.根据权利要求44所述的计算机系统,其中所述输入系统适合 于接收从使用PCR的所述对象的基因组的分析所产生的数字结果。
47.根据权利要求44所述的计算机系统,其中所述组的信息包括 用于至少1,000个个体、5,000个个体或10,000个个体的频率数据。
48.根据权利要求44所述的计算机系统,其中所述组的信息包括 用于正常拷贝数变异的频率数据。
49.根据权利要求46所述的计算机系统,其中所述组的信息包括 拷贝数断裂点图谱。
50.根据权利要求46所述的计算机系统,其中所述对象是人类。
51.根据权利要求46所述的计算机系统,其中所述对象是非人类。
52.一种识别用于治疗状态的治疗剂是否有用的方法,包括:从对 象的同类者的基因组获得信息,所述对象参与用于所述状态的治疗剂的 临床试验;识别一个或多个拷贝数变异的存在;将来自所述同类者的所 述一个或多个变异体与表示至少100个个体中拷贝数变异频率的数据作 比较,以便确定所述一个或多个变异体的相关性;使所述治疗剂的成功 率与所述同类者中所述拷贝数变异的存在和相关性相互关联,从而识别 所述治疗剂是有用的。
53.根据权利要求52所述的方法,进一步包括识别来自所述同类 者中的一个或多个亚种群,在该同类者中成功率允许来自所述临床试验 的治疗剂的挽救。
54.根据权利要求52所述的方法,其中所述数据来自至少1,000 个个体、5,000个个体或10,000个个体。
55.根据权利要求52所述的方法,其中所述数据包括用于正常拷 贝数的频率数据。
56.根据权利要求52所述的方法,其中所述数据包括拷贝数断裂 点图谱。
57.根据权利要求52或53所述的方法,所述数据是全基因组。
58.根据权利要求52所述的方法,进一步包括筛选所述同类者的 基因组以便获得所述信息。
59.根据权利要求52或58所述的方法,其中所述信息包括来自 aCGH的信息。
60.根据权利要求52所述的方法,其中所述信息包括来自PCR的 数据。
61.一种检查用于经批准治疗状态的治疗剂功效的方法,包括:使 用针对所述状态的所述治疗剂从对象的同类者基因组中获得信息,所述 信息识别一个或多个拷贝数变异的存在;将来自所述同类者中所述一个 或多个变异体与表示至少100个个体中的拷贝数变异频率的数据作比 较,以便确定所述一个或多个变异体的相关性;以及使所述治疗剂的良 好的和/或不良的反应与所述同类者中所述拷贝数变异的存在和相关性 相互关联。
62.根据权利要求61所述的方法,进一步包括筛选所述同类者的 基因组以便获得所述信息。
63.根据权利要求61所述的方法,进一步包括识别来自所述同类 者的一个或多个亚种群,所述亚种群与成功或有害效应的程度有关。
64.根据权利要求61所述的方法,其中所述数据来自至少1,000 个个体、5,000个个体或10,000个个体。
65.根据权利要求61所述的方法,其中所述信息包括来自aCGH 筛选的数据。
66.根据权利要求61所述的方法,其中所述信息包括来自PCR筛 选的数据。
67.一种识别一个或多个授权的对象中拷贝数变异相关性的方法, 包括:将由筛选所述一个或多个对象的基因组以便识别一个或多个拷贝 数变异的存在所产生的信息与包括至少100个个体中拷贝数变异频率的 一组数据作比较;以及提供阐明所述比较结果的报告。
68.根据权利要求67所述的方法,其中所述组的数据来自至少 1,000个个体、5,000个个体或10,000个个体。
69.根据权利要求67所述的方法,其中所述组的数据包括用于正 常拷贝数的频率数据。
70.根据权利要求67所述的方法,其中所述组的数据包括拷贝数 断裂点图谱。
71.根据权利要求67所述的方法,进一步包括从一个或多个授权 的对象中筛选基因组。
72.根据权利要求67所述的方法,其中所述筛选包括通过aCGH 筛选。
73.根据权利要求67所述的方法,其中所述筛选包括通过PCR筛 选。
74.根据权利要求67、72或73所述的方法,其中所述筛选在CLIA 实验室执行。
75.根据权利要求67所述的方法,进一步包括与所述CLIA实验 室订约来执行所述筛选。
76.根据权利要求67所述的方法,进一步包括提供关于一个或多 个对象的遗传咨询。
77.根据权利要求67所述的方法,其中所述报告被提供给所述对 象、保健提供者、制药公司或保险公司。
78.根据权利要求67所述的方法,其中所述报告提供关于治疗剂 功效或不良作用的信息。
79.根据权利要求67所述的方法,其中所述一个或多个对象参与 针对所述治疗剂的临床试验或正在使用批准后的所述治疗剂。
80.根据权利要求67所述的方法,其中所述对象是人类。
81.根据权利要求67所述的方法,其中所述对象是非人类。
82.一种提供一个或多个对象中拷贝数变异的评估的方法,包括授 权许可包括计算机可读媒体的计算机程序产品,所述计算机可读媒体具 有记录在其上的计算机程序逻辑,用于使处理器能够确定对象的基因组 中一个或多个拷贝数变异体的相关性,所述计算机程序逻辑包括:
(a)接收程序,其使所述处理器能够接收一组信息,该信息包括 用于来自至少100个个体的基因组的拷贝数变异的频率数据;
(b)比较程序,将来自所述对象的基因组的输入数据与所述组的 信息作比较;以及
(c)输出程序,提供所述比较的评价。
83.根据权利要求82所述的方法,其中所述组的信息来自至少 5,000个个体的基因组。
84.根据权利要求82所述的方法,其中所述组的信息来自至少 10,000个个体的基因组。
85.根据权利要求82所述的方法,其中所述组的信息包括用于正 常拷贝数的频率数据。
86.根据权利要求82所述的方法,其中所述组的信息包括拷贝数 断裂点图谱。
87.根据权利要求82所述的方法,进一步包括提供试剂盒的授权, 该试剂盒包括对使用aCGH筛选基因组所必需的材料和试剂。
88.根据权利要求82所述的方法,进一步包括提供试剂盒的授权, 该试剂盒包括对使用PCR筛选基因组所必需的试剂和材料。
89.根据权利要求82所述的方法,进一步包括使用计算机程序撤 销所获得的数据的许可。
90.一种用于人类对象中自闭症的筛选方法,包括:
(a)将来自疑似患有自闭症的人类对象的基因组的一个或多个拷 贝数变异上的信息与包括非疑似患有自闭症的至少100个人类个体中拷 贝数变异频率的数据的编译作比较;以及
(b)确定来自步骤(a)的所述比较的所述一个或多个拷贝数变 异的相关性。
91.根据权利要求90所述的方法,其中所述编译包括来自至少 1,000至10,000个诊断未患有自闭症的人类个体的数据人类。
92.根据权利要求90所述的方法,其中所述数据是全基因组。
93.根据权利要求90所述的方法,进一步包括筛选所述人类对象 的基因组以便采集所述一个或多个拷贝数变异的信息。
94.根据权利要求90或93所述的方法,其中所述一个或多个拷贝 数变异的所述信息以阵列比较基因组杂交(aCGH)筛选为基础。
95.根据权利要求90所述的方法,进一步包括通过将所述人类对 象的基因组与先前诊断患有自闭症的人类对象的基因组作比较来确定 所述人类对象中所述一个或多个拷贝数变异是否与自闭症有关。
96.根据权利要求90所述的方法,其中所述数据包括用于正常拷 贝数变异的频率信息。
97.一种基于位于3号染色体上的接触蛋白4基因内异常的存在来 诊断人类对象中自闭症的方法,包括:测试来自人类对象的DNA是否 存在所述接触蛋白4基因内异常。
98.一种评估诊断患有自闭症的人类对象的拷贝数变异的方法,包 括:
(a)从所述人类对象中获得包括基因组拷贝数的信息;
(b)访问一组数据,该数据表示来自至少100个未诊断患有自闭 症的个体的一个或多个拷贝数变异的发生频率;
(c)将来自所述人类对象的所述信息与所述组的数据作比较;以 及
(d)基于步骤(c)的所述比较,评估所述人类对象的拷贝数变 异。
99.根据权利要求98所述的方法,其中来自所述人类对象的所述 信息通过aCGH分析而获得。
100.根据权利要求98所述的方法,其中所述组的数据包括用于正 常拷贝数变异的频率信息。
根据权利要求98或100所述的方法,其中所述组的数据是全 基因组。
一种识别用于治疗自闭症的治疗剂是否有用的方法,包括:
从人类对象的同类者的基因组中获得信息,所述对象参与用于所述自闭 症的治疗剂的临床试验;
识别一个或多个拷贝数变异的存在;
将来自所述同类者的所述一个或多个变异体与表示至少100个诊断未患 有自闭症的人类个体中拷贝数变异频率的数据作比较,以便确定所述一 个或多个变异体的相关性;
使所述治疗剂的成功率与所述同类者中所述拷贝数变异的存在和相关 性相互关联;
从而识别所述治疗剂是有用的。
根据权利要求102所述的方法,其中所述数据来自至少1,000 至10,000个诊断未患有自闭症的人类个体。
根据权利要求102所述的方法,其中所述数据包括用于正常 拷贝数的频率数据。
根据权利要求102所述的方法,其中所述信息包括来自aCGH 的数据。
一种用于全基因组拷贝数图谱的方法,包括:筛选第一对象 和对照样品的基因组以编译数据,其中所述对照样品包括来自与第一对 象相比性别不同的一个或多个第二对象的DNA,从而在所述第一对象 和所述对照对象之间提供性别错配;相对于所述第一对象和所述第二对 象之间的所述性别错配的任何一个将所述数据归一化,从而获得全基因 组拷贝数图谱。
根据权利要求106所述的方法,其中所述对照样品包括所述 对象亲代的基因组DNA。
根据权利要求106所述的方法,其中所述对照样品包括来自 每一个亲代几乎相等的量的DNA。

说明书全文

技术领域

[02]本发明涉及遗传、诊断和治疗。具体地说,本发明涉及遗传异常的 发现和识别。此外,本发明包括数据库的生成和应用,即知识管理工具, 来筛选和识别用于个体或特定群体适合的药物治疗。本发明所具体实施的 组合物和方法特别用于识别微观和亚微观基因组变异,包括缺失、复制和 大范围的多态性,以便计量与正常和疾病状态相关变异的基因组。

背景技术

[04]改变DNA拷贝数是基因表达和功能改变的多种方法之一。在正常个 体中发现一些变异,其它的出现在一些物种的常态过程中,还有其它的一 些参与引起多种疾病状态。例如,在人和动物发育中的许多缺陷是由于染 色体和染色片段的获得或损失,其发生在受精前或之后不久,然而发生 在体细胞中DNA剂量改变常常导致癌症。因此,这种变体(aberration) 的检测和在更宽知识的范围内编译,有利于包括在生物进程和疾病中关键 性基因和途径的识别,以及提供临床上相关信息如识别有效的药物体系。
[05]在医学遗传学中一个障碍已证明是“测量偏倚”,其指的是由于收集 这些数据的方法,数据的固有偏离。测量偏倚的几种实例是已知的。当然, 在相关技术中描述的许多‘典型(classical)’患者实际上代表了该谱系更严 重的一端,因为这些患者很可能寻找医疗的关注并因此被观察。例如,患 有克莱里菲尔特(Klinefelter)综合症(47,XXY)的患者标准的说明书描 述了患有男子女性型乳房(乳房发育)和不育的智发育迟缓的男子。然 而,事实上,公正的人口调查显示了1:1,000人类具有该综合症,并且他 们的80%并不具有显著的智力发育迟缓和男子女性型乳房(尽管都是不育 的)。类似地,原来已确定患有特纳(Turner)氏综合症(45,XO)的大 多数女性智力发育迟缓。然而,该确定也被证明是错误的,例如在本领域 那些仅仅识别了最严重影响的患者。实际上,由于测量偏倚,细胞遗传学 家对未经选择的新生儿进行大规模的研究,因此可以更精确地研究染色体 异常的真实速率。当然这种研究需要大量劳动和定期深入细致的细胞遗传 学分析,但是研究人员认识到必须从相对大量个体获得这些数据以提供对 照人口。
[06]现在分子细胞遗传学中概念和技术发展将常规染色体分析技术的分 辨率提高至空前的平。在过去的几年中阵列比较基因组杂交(array CGH)已表明其用于分析DNA拷贝数变异(copy number variation)的 价值。阵列CGH(比较基因组杂交)是一种新技术,其具有以比标准细胞遗 传学方法更高分辨率来检验染色体的能力。显然阵列CGH技术将在21世 纪中作为主要的工具涌现:对于每个细胞遗传学和诊断学对照实验室以及 对于集中在学术界、生物工学和制药工业中遗传学研究的研究人员来说是 一项基本要求。
[07]在医学遗传学中拷贝数变异存在着重要的机遇。直到今天,包含 DNA大片段的正常拷贝数变异还未被重视。尽管阵列CGH已确定人和动 物基因组中拷贝数多态性的存在,该正常变异的图象是不完全的。在至今 所报告的结果中,测量噪音限制了包含许多千基(kilobase)或更大的基 因组片段多态性的检测,基因组覆盖度(genome coverage)远非广泛,而 且没有足够抽样人口。
[08]这些正常变异的广泛了解与内在的生物相关,并且对阵列CGH数 据的适合解释和其与表型的关系是重要的。此外,对于通过特定阵列CGH 技术可检测的拷贝数多态性的理解是重要的,因此正常变异并非错误地与 疾病相关,并且反之用以确定一些所谓正常变异是否强调表型特性如疾病 易感性(susceptibility)。
[09]因而,阵列CGH技术的广泛应用推动了在整个人和动物种群中正 常变异理解的实质需要。本发明提供了用于满足正常变异理解的未能解决 的需要,因此有利于个体化遗传学基础的评估和治疗。然而,拷贝数异常 或变异目前代表在前瞻性人格化药品领域中巨大的未利用的机遇。这些拷 贝数变异,也被称为拷贝数多态性(copy number polymorphism),出现 在个体种群中存在部分改变的正常情形,同时出现在疾病情况中。能够区 别正常的拷贝变异和与疾病相联系的拷贝变异将允许基于遗传分析上更 确切的诊断。
[10]人们普遍相信拷贝数异常是关键的遗传学环节,其将被用于诊断疾 病以及辨别在个体中药物效果和不良反应的药物。由于许多病症,至少在 一些案例中可与非常罕见的变异相关,有必要使这种遗传分析使用的数据 库的规模变大。使用较小的数据库可能提供完全不准确的结果,导致错误 的诊断和治疗。
[11]例如,在患有罕见的儿科综合症歌舞伎面谱(Kabuki Make-Up)综 合症的患者中首次检测到染色体8q24.3的微缺失。研究者当时还没有理解 为什么这些变体经常出现。歌舞伎面谱综合症(KMS)是一种多发性畸形/ 智力迟钝综合症,其最初在日本描述,但是现在已知在许多其他种族中出 现。然而,直接的试验推断该变异体与所研究的病症相联系。此外研究显 示微缺失在小百分比的白种人中存在,他们当中没有人将患有歌舞伎综合 症。已知有13个染色体异常与已知的KMS基因(Matsumoto等人2003) 相关。尽管KMS的临床表现是非常确定的,其用于遗传学评估和报导的 自然史留作研究。
[12]由于存在于遗传物质的变异数和存在于正常的拷贝数异常的大小, 要求精密分析工具解释任何遗传学评估的结果。因此需要方法和工具如本 发明的变异知识管理工具允许亚微观染色体变异体进行确诊。

发明内容

[13]通过正常变异知识管理工具的机器来实施本发明的许多实施方式。 尽管它依赖于正常变异知识管理工具(KMT),但是它们互相排斥。这些实 施方式包括但不局限于∶1.诊断性试验和诊断确实性服务;2.研究和研究性 服务;3.转化医学;4.前瞻性和个性化医疗;以及5.生命科学工具。
[14]本发明提供用于产生和应用正常变异KMT、综合性相关的数据库和 来源于阵列CGH技术内部方法论的软件工具的组合物和方法,因此充分 地制作用于该领域通用的工具。本发明的一个实施方式提供了基本上消除 解释染色体改变的主观性,因此在研究和诊断环境(“工作台至床边”)中作 为整体,该技术领域可以依赖阵列CGH衍生数据。通过提供从数千的个 体获得的拷贝数变异的信息,KMT除去阵列CGH数据的主观解释,并提 供了在指定社区内医生之中一种确保生物标记医学上相关意见一致的方 法。换句话说,KMT能够使临床医生事实上确定患者(例如需要治疗的患 者或用于诊断目的的受试者)中发现拷贝数变异的意义。在一个实施方式中 受试者是人。在另一个实施方式中受试者是动物。
[15]KMT通过提供拷贝数变化的种群频率和一些拷贝数变化和一些表 型和疾病状态如孤独症之间的联合数据、根据基因含量和已知疾病的基因 组注释进行这种功能。考虑到的各自动物人或非人,至少有两种KMT产 生正常拷贝数变异数据库和拷贝数断裂点地图,被提供作为对于比较来源 于针对患者基因组信息的软件和/或计算机系统,以确定存在的任意拷贝数 多态性的意义。
[16]除了CGH之外,使用PCR测定在分子水平上研究拷贝数变异以及 分析大量变异。本发明的一个实施方式也提供了在此描述的一种或多种方 法中使用的几种产品。这些产品包括涉及计算机可读媒介的软件,其给计 算机编程以进行比较从针对KMT的患者中获得的试验数据,用于做这些 比较的计算机系统,用于执行或者基因组分析的CGH阵列,以及分析组 分的试剂和下游区,如要求进行与应用本发明KMT识别的疾病或症状相 关的具有重大意义生物标记的分析。
[17]本发明的一个方面包括应用药物基因组学、毒性基因组学和遗传学 评估和通过联合识别相关拷贝数多态性和治疗效果或副作用的报导。通过 结合个体基因组至药物更成功的给药,这种相关性和联合产生个性化医 疗。基于基因组变异与本发明KMT的比较,通过识别有益治疗的个体亚 种群,这种结合也允许临床试验的药物援救。
[18]在一个实施方式中,编辑正常拷贝数变异的数据库,其相应于包含 数百或数千或至少10,000名患者的大量患者基因组范围分析。在另一个实 施方式中,分别编辑多重群组患者正常拷贝数变异的数据库,其中各个群 组表示一个种族,由此各自数据库提供了包含数百或数千或至少10,000名 患者的大量组群全基因组范围分析。在此使用的“种族”包括任何已知的人 类种族,包括想要的亚族,这里种族是成员相互认同的人类种群,通常基 于假定共同的家谱或祖先(Smith 1986)。种族普遍也通过共同的文化、行为、 语言或宗教上的习惯联合。在这种意义上讲,种族也是一个文化社区。
[19]从客观的立场来看,种族同时是同族通婚的种群,即一个种族的成 员主要与他们种族的其它成员生育,根据特有的平均遗传学频率一些东西 是可测的。然而,由于种族内遗传学差异大于任意两个种群之间的差异, 这些差异通常不接近人种差异的数值。通过亲近、文化熟悉以及社会压力 (在极个别情况下通过法律的命令)加固同族婚姻的特征,用以在种族内繁 育。种族的实例包括白人、黑人、拉丁美洲人、亚洲人、中东人、犹太人 或Shia穆斯林人。另外的例子可以基于人种或教义,或在集团内的亚群如 国家(例如岛人),或如宗教团体内的教派(例如,哈西德派犹太教徒)。
[20]在此外的实施方式中,分别编辑多重群组患者正常拷贝数变异的数 据库,其中各个群组表示动物患者的一个种类、亚物种或菌株,由此各自 数据库提供了包含数百或数千或至少10,000名患者的大量组群全基因组范 围分析。
[21]在一个实施方式中,提供一种方法以测定患者中拷贝数变异体的关 联性,其包含从一个患者的基因组到至少100个患者拷贝数变异频率的数 据编辑中获得的一个或多个拷贝数变异的比较信息,并测定从在前步骤中 比较所述一个或多个拷贝数变异的关联性。在另一个实施方式中,该编辑 包含从至少100、1000、5000、10,000、25,000或50,000个患者获得的数 据。在一个优选的实施方式中,该数据表示全基因组范围分析。在另一个 实施方式中,该数据提供在从至少100、1000、5000、10,000、25,000或 50,000个患者获得的所述编辑中一个或多个拷贝数变异的出现频率。
[22]在一个方面,本发明的KMT允许在与症状或疾病相关的患者、试 验对象或患者中一个或多个拷贝数变异的测定。在另一个方面,基于患者 中一个或多个拷贝数变异提供的信息,本发明的KMT允许根除或应用在 患者中特定治疗的测定。
[23]在一个实施方式中,使用阵列比较基因组杂交可得到各个患者中一 个或多个拷贝数变异的信息。
[24]在一个方面,在一个或多个数据库中的数据编辑提供了包含患者的 断裂点地图信息的信息。在一个实施方式中,使用PCR筛选得到约一个 或多个拷贝数变异的信息。
[25]本发明一个方面涉及如在至少100、1000、5000、10,000、25,000或 50,000个患者中表示一个或多个拷贝数变异频率数据的存取。在一个实施 方式中,该存取包含计算机可执行逻辑、计算机外围设备和计算机硬件
[26]本发明的另一个方面提供了计算机可执行逻辑,其包含使处理器能 够测定患者基因组中一个或多个拷贝数变异关联性的计算机可读媒介。计 算机可执行逻辑包含该处理器,其接受从至少100、1000、5000、10,000、 25,000或50,000个患者基因组中一个或多个拷贝数变异频率数据的一组数 据。在另一个实施方式中,一个或多个数据组的比较包含一个或多个群组, 其中各个群组表示一个种族,并且其中一个或多个拷贝数变异的频率包括 在一个或多个群组的数据组内。
[27]在一个实施方式中,本发明的一个或多个数据组包括一个或多个群 组的频率数据,其中各个群组表示一个种族,并且其中各个数据组是从至 少100、1000、5000、10,000、25,000或50,000个患者中获得的数据编辑。 计算机可执行逻辑此外控制处理器患者、试验对象或患者的拷贝数变异与 在前的一个或多个数据组的比较。此外,计算机可执行逻辑进一步控制处 理器以提供电子或纸件形式的输出结果,其确定了存在于所述相对于与疾 病、症状或病症相关表型的患者、试验对象或患者中的一个或多个拷贝数 变异的意义。在另一个实施方式中,在设计对于所述患者、试验对象或患 者的治疗方案中,无论特定治疗的确定应该被根除、开始或与另一种治疗 并用。
[28]在一个实施方式中,该数据包含一个或多个群组或患者、试验对象 或患者的拷贝数变异,其通过比较全基因组比较杂交分析或断裂点作图分 析获得。在一个实施方式中,通过阵列比较基因组杂交获得该数据,在另 一个实施方式中,通过PCR进行断裂点作图分析。
[29]在本发明的另一个方面,涉及可用于治疗症状的疗法的一种方法, 其包含从经受所述症状临床试验的患者群组的基因组获得的信息,其中该 方法包含识别在所述群组中一个或多个拷贝数变异,对所述一个或多个变 异与在相当于至少100、1000、5000、10,000、25,000或50,000个患者中 拷贝数变异的频率的数据编辑作比较,以确定在所述群组中所述一个或多 个拷贝数异常是否存在于所述100、1000、5000、10,000、25,000或50,000 个患者中,因此与在所述群组中所述一个或多个拷贝数异常关联性与所述 症状相关,并且识别所述治疗是否有益于治疗所述症状。
[30]在一个实施方式中,通过患者中拷贝数变体与特定群组数据组的比 较,该方法涉及所述群组的一个或多个亚种群的识别,其中所述疗法用于 治疗,这里如果优点大于任何副作用,该疗法确定为有效的,或者如果副 作用大于任何优点,该疗法则确定为无效。在一个优选的实施方式中,将 一个群组或亚群的拷贝数变异数据合并入与患者的拷贝数变异相比的群 组的KMT提供了拷贝数变异频率,其允许对所述群组的亚群中一个或多 个拷贝数变异的确定,所述群组用于应当开处方的所述药物(即在治疗中有 用)或者不应当开处方的所述药物(即药物副作用大于任何优点)的识别。
[31]本发明的另一个实施方式包括KMT商业化和许可的商业方法,创 建对于进行基因组筛选或使用KMT识别的重要生物标记测定的CLIA实 验室,并与其它机构或团队形成专利使用权转让协定用于研究和用于 KMT的内容和扩充而采集补充的基因组信息。这种实施方式与由人类和/ 或动物基因组信息组成的KMT相关。
[32]本发明的另一个方面涉及一种商业方法,这里患者或亚群或群组的 拷贝数变异识别评估可提供给个人或集体,这里该方法包含提供计算机可 执行逻辑控制处理器确定所述拷贝数变异的关联性,这里所述变异通过自 动或键盘方法输入数据,由此处理器接受所述输入数据,这里所述处理器 对所述输入数据与表示存在于至少100、1000、5000、10,000、25,000或 50,000个患者的拷贝数变异频率作比较,以确定输入数据相对于与症状、 疾病或病症相关表型的意义。
附图说明
[33]附图1描述了借助于本发明KMT提供的正常变异进行芯片阵列分 析的图表,产生三个医学上相关生物标记的识别;更具体地说,两个标记 存在于1.6(Y轴)附近,一个标记存在于0.6(Y轴)附近。
[34]附图2描述了连接片段PCR测定的示意图,a)正常等位基因:P2 和P3扩增420bp PCR产品;P1和P4侧面~182,400bp区域没有生成; b)Deleted allele:P1和P4扩增300bp PCR产品;N/N:420bp/420bp; N/Δ:420bp/300bp;Δ/Δ:300bp.Deleted region(182,088bp长度); Δ:缺失;N:非缺失;P:引物
[35]附图3阐明了一些共同的遗传变化:A.突变。在DNA中一个核苷酸 碱基被另一个核苷酸碱基取代导致异常蛋白质的编码。B.易位。通过特异 基因经断裂染色体交换片段和染色体断端的复合。因此该基因断裂编码异 常蛋白。C.缺失。由于染色体断裂和染色体断端的再接合导致染色体片段 (或基因)的损失。基因的损失废除了它的功能。D.异倍体。整个染色体的 额外拷贝导致染色体上许多基因的增加表达,其打破了基因表达的正常平 衡。E.扩增。基因的扩增导致蛋白编码的极大表达。
[36]附图4阐明了本文描述的商业方法中引用的基于计算机的KMT数 据管理的效果图。
[37]附图5阐明了指示患者和六个体细胞杂交的PCR分析的结果,其使 用在三核苷酸重复(这个序列位于BAC 5RP11-400G5上,并已被命名为 400G5-1(SEQ ID NO:3))两侧的引物。两个细胞株仅仅包含一个同源物, 而另一个细胞株包含另一个同回复突变体源物。三个细胞株没有给出产品 -这些可能是回复突变体。随后的分析显示了具有较大谱带的同源物是隐藏 缺失通道的一个:1-100bp梯状(ladder);2-水对照;3-患者(全DNA);4- 体细胞杂种克隆;10-100bp梯状。
[38]附图6阐明了用一组跨越大约1Mb的STS进行PCR分析的结果。 面板A-从删去患者中得到全DNA。注意400G5-1(左侧的径迹8)的杂交性。 面板B-从体细胞杂种得到仅仅包含8同源物的染色体的DNA,其包含较 小两个400G5-1等位基因。由于没有涂去STS,所以这表明了在其它染色 体8的缺失。面板C-“金色径迹”的输出结果,位于http://genome.ucsc.edu, 其具有在PCR分析中使用的相关标记。
[39]附图7阐明了用区域STS的PCR分析结果,其使用仅仅包含消去 染色体8面板A的体细胞杂种-用在体细胞杂种上区域的有限制STS的 PCR,该区域仅仅包含较大的两个400G5-1等位基因。与前述发现一致, 对于起源于BAC RPCI11-17M8的大量标记显示出删除了染色体8。面板 B-"金色径迹"的输出结果,位于http://genome.ucsc.edu,其具有在PCR 分析中使用的一套标记。该次序显示与面板A中相同。
[40]附图8:a)使用从NimbeGen购买的NimbleScan软件,使用分段算 法segMNT生成多图表pdf。该图表表明在我们指示病例中染色体3上的 断裂点。从chrX、chrY得到X和Y的图表,其较少放置在如内部控制(进 行性别-错配杂交)的阵列上。b)阐明了使用"金色径迹"产生的图象,位于 http://genome.ucsc.edu,其显示了3p26微除去(微缺失)的两端和与CNTN4 基因的关系。
[41]附图9阐明了在与孤独个体相关家族成员的PCR结果。表明扩增产 品的存表明了在各自家族成员中3p26微除去的存在。
[42]附图10阐明从整个数据库中染色体3上BAC RP11-33的归一化比 值。很清楚从图标中BAC记录了数据库中大多数个体的比值接近于1,但 少数为偏离的比值。原来所有的具有偏离比值的个体都属于ASD类型(即 具有孤独症)。注意斑点的数量小于数据库个体的总数(800,由于有时低质 量斑点的衰减)。
[43]附图11阐明了从区域:染色体3,位置2296199-2675624的一组5 个连续BAC的比值。这些5个BAC包括RP11-33J20。图表表明了有可 能从不仅仅对于给定的细胞株,而且对于一般区域的数据库中得到的数 据。这个图表表明了在数据库染色体3上小区域的行为。同样,对于这些 BAC,作为整体那些具有异常比值的个体全部来自ASD类型。
[44]附图12阐明了从性别错配杂交的染色体7获得的未归一化数据。在 图表上区域集中在点100附近可以注意与1的基准值显著地偏离。这种偏 离是人为的和性别错配的结果。染色体7的这个区域与X染色体具有显著 的同源性。归一化使用在数据库相关部分的BAC细胞株平均值,几乎完 全消除了这种偏差。
[45]附图13阐明了考虑到性别的数据分析,其中使用在数据库(即与在 相同′性别方向′获得的数据相关)相关分段各自细胞株的平均值归一化比 值。作为这种转化的结果,同时还有数据非常清楚的‘固定(tightening)’。
[46]附图14阐明了Chr8q24.3断点分析的PCR结果;将PCR引物设计 成用于在末端边界扩增新的‘连接片段’的目的。
[47]定义
[48]阵列-关于整齐的要素排列的通称,对于其中每一个已经指定了地址 和ID。在分子生物学中,术语“阵列”通常用于指DNA、RNA、蛋白、低 聚核苷酸、适体或组织的排列。
[49]阵列-基于比较基因组杂交(aCGH)-阵列用于基因组位置已知的数千 /数百万DNA序列的同时询问。在‘对照’和试验样品之间比较。aCGH不 局限于任何特定阵列平台,同时被认为与基于细菌人工染色体(BACs-BAC 阵列)用途上的基因组阵列同义。在一个非专用的意思中,aCGH不同于进 行分析的大多数阵列,即基于在不同的组织/个体中基因表达之间的比较。 在aCGH中基因组DNA的使用产生的数据具有过分简化的结构,如各个 基因组片段可能仅仅存在于拷贝的离散数(通常是0,1,2,3或4),然而基因 的表达水平区别很大,从接近于0至数百万倍。
[50]细菌人工染色体(BAC)-人类和小鼠基因组序列计划的主要依靠, BAC是允许大小约为150,000bp的基因组DNA片段分离的载体。以前的 公开的序列计划基于BAC的完全嵌入物的顺序,具有很高的重复。从BAC 获得DNA的基因地址是已知的,可以用于合成BAC阵列,其在检测拷贝 数异常的性能上是有力的。此外,在公开可用的数据库中可以查询BAC 即时报道的变异体以获得基因组位置和基因含量的信息。
[51]断裂点作图(Breakpoint Mapping)-任意易位/缺失/复制/倒位的精确 分子边界的表征。从给定损坏(例如缺失)的分子分析中获得的信息允许产 生损坏检测的简化测定。在一个非独有的实例中,分离在特定位点上共同 的微缺失的分子边界,使用的信息生成基于简单PCR测定,即能够非常 快速地询问个体的基因组。
[52]拷贝数分析-通过在单个试验全部基因组的询问检测给定基因组片 段的拷贝数。对于人类和动物的基因组,正常变异知识管理工具的产生具 有关联性,同时可查明在一些疾病状态和剂量失调之间的相关性。实例包 括在杂交缺失的情况下拷贝数从2减小到1,以及在杂交复制的情况下拷 贝数从2增加到3。
[53]剂量多态性-拷贝数多态性。通过异常拷贝数(对于大多数染色体正常 的拷贝数是2)定义基因组变异在人口中的存在。形式上,多态性包括在至 少1%人口的发生率,但是这种定义已经在人类基因组/遗传变异的情况下 松动,因此变异被认为‘良性’,但仍然以常常少于1%下存在,仍然称作多 态性。更精确的术语是‘变异’,因为这样定义并不暗示给定的最低效果。
[54]荧光原位杂交(FISH)-一种用于观察在染色体位置的范围内给定序 列的方法。简言之,用荧光染料标记DNA并从感兴趣个体杂交为一组固 定染色体。在相关的基因组位置上作为定位荧光检测各自序列。可用于检 测/验证可疑的拷贝数改变(例如在杂交缺失中,在仅仅两个染色体同源物 之一上观察到一个斑点)。
[55]单倍型-作为一个单元遗传的一组接近连接的等位基因(基因/DNA 多态性/SNP)。从基因型信息演绎为单倍型不很平常,其通常并无关于在染 色体上假定变异体的报道。例如,如果在假定位点上个体是Aa并且Bb 在另一个假定位点上,相关单倍型可以是AB/ab或者Ab/Ba。
[56]核型-在假定细胞类型中染色体的含量和结构的描述。这种分析依赖 于染色体的直射光显微镜目测,是除了遭受分辨率缺乏之外过去50年‘全 基因组’分析的主要依靠,因为在检测到变异体之前需要10-20MB的改变。 在许多水平上虽然可能被aCGH取代,核型还将为检测易位所需要,其可 以为拷贝数中性,因此不能通过aCGH检测出来。
[57]单个核苷酸多态性(SNP)-在DNA序列水平上变异体最基本的单位。 SNP包括具有单个碱基性质的变异体,例如在给定的位置上,一些个体可 能具有‘G’,而其它个体可能具有‘C’。许多这些改变被认为是中性,然而 其它的改变可能影响诱导至一些疾病状态。存在的许多SNP远小于人口的 1%。另一个意思包括单个核苷酸变异。
[58]患者-术语“患者”可以意指一个患者,通过本文描述的一种或多种方 法进行染色体组分析使得从其基因组DNA可获得拷贝数变异数据。因此, 患者可以是从至少100、1000、5000、10,000、25,000或50,000个个体中 的一名个体,利用这些个体来编译一个或多个群组的所述数据(或数据组), 其中群组表示种族、患者团体、与特定症状、疾病或病症相关的患者团体、 与治疗方案或临床试验特定响应相关的个体亚群的团体。此外,患者可意 指试验患者、患者或治疗的受试者,这里使用在此本发明的一种或多种方 法用于从所述患者、患者或受试者得到的基因组DNA的染色体组分析, 以便得到所述患者、患者或受试者的拷贝数变异数据。
[59]药物挽救(Drug Rescue)-本文使用的术语“挽救”或“药物挽救”意 指个体遗传变异的识别,其可说明在临床试验中患者对药物的响应的差 异。此外,一些药物在上市几个月后显示出意想不到的毒性。这些罕见的 不利后果,在上市前试验之前没有报道,可危及药物的成功和降低它的市 场占有率。本发明的KMT平台允许临床医生或医药专家快速检验特定患 者中的拷贝数变异,确定这种变异是否与发生在和药物途径相关基因的拷 贝数相关,并搜索与特定不利后果相关遗传变异。因此,"挽救"或"药物 挽救"包含在药物响应中拷贝数变异导致差异的识别。这些信息然后用来 定义人口的亚型,为此药物将不会指定并且发展筛选试验识别这些患者。 这种信息还可以用来重新定义先导化合物,考虑到它的潜在效果的更好理 解。因此,KMT提供了药物基因组学平台,其包含最优化和自动的数据 提炼能力、高通量基因型、统计学和生物信息学分析以及靶向验证。

具体实施方式

[60]在一个方面,本发明为细胞遗传学家提供了一种知识管理工具 (KMT)合理地解释基因组数据,包括患者中阵列CGH(aCGH)数据。除了 在总的人口中提供关于拷贝数变异的高度相关信息之外,KMT也将在宽 范围的病症和疾病中提供病因学的洞察力。在本申请中描述的全基因组拷 贝数检测是用于筛选变异的基因组最有力和有效的平台,两者都正常并与 疾病相关。在一个实施方式中,通过在细胞遗传和标准诊断实验室进行遗 传学评估,KMT的使用使得诊断患者提高精确度。这种工具允许针对来 源于数千个体遗传信息编辑的结果的比较,用来集中于分析,并且允许辨 别疾病和/或症状和忽略基因组中的正常变异。在一个实施方式中,从患者 基因组的分析产生前瞻性或个性化的医药。
[61]这种分析提供了正常和异常拷贝数变异联合靶向个体基因图的药物 和治疗结合的快照(snapshot)。特别地,一个实施方式允许识别用药物可 以有效治疗的那些患者或对特定药物具有不利的副作用的那些患者。这种 基于拷贝数变异的层化作用特别有利于在短窗口(short window)集中治疗, 其可以产生结果并降低任何弯路或损害治疗。
[62]在一个实施方式中,正常变异和KMT的相关信息用于提供医学上 相关生物标记的诊断测定和帮助额外市场的发展和研究作用。另一个实施 方式尽快提供“转化医学”来加速研究患者的发现。这包括应用基于微列阵 和基于非微列阵分析来进行拷贝数变异诊断性评估的CLIA实验室。
[63]在本发明的一个方面,数据库包含有关至少10,000个体(例如平均值 不显示靶向/识别表型的效果)的拷贝数变异频率的信息。其中个体为人类 患者。例如,在前的研究已显示频率为47,XXY为1:1,000。因此,在10,000 新生儿的群组中查明的仅仅只有10个这样的个体。因而,仅仅1,000个体 的数据库已将导致一种显著的可能性,即众所周知和重要的染色体异常将 不被检测或仅仅曾经检测出。在另一个实施方式中,数据库将提供人口(例 如在人类中的种族)的所有亚群的这种信息,这里指定的亚群可以基于种 族、地理学、人种或任何其它可识别的人口群或亚群。
[64]在另一个实施方式中,数据库提供有关从至少100、1,000、5000、 10,000、25,000或50,000个个体的拷贝数变异的信息,这里的个体为动物(例 如正常的非人类动物,其不显示靶向/识别表型的效果)。非人类动物包括 但不局限于哺乳动物类、爬行动物、两栖动物、鱼类、昆虫和软体动 物。更具体地说可设想源自于动物的一个物种或种类(即一种疾病模型), 其具有商业的价值或保留作为人类同伴。预期将会产生特定动物物种或菌 株的数据库,其中动物被用作疾病模型或作为研究工具。这些动物包括但 不局限于∶狗、猫、大鼠、猴子、黑猩猩、小鼠、兔、仓鼠、沙鼠、猪和 果蝇。也可预期将会产生动物物种或种类的数据库,其中动物具有商业的 价值,如农业价值。这些动物包括但不局限于∶、野牛、、驴子、山 羊、绵羊、猪、羊驼、美洲驼、牛、驴、鹿、麋鹿、驼鹿、鸵鸟、鸸鹋、 鸭、鹅、鸡、鹧鸪、鹌鹑、野鸡、貂、鲑鱼、鳕、鲶鱼、青鱼、鳟鱼、鲈、 河鲈、比目鱼、鲨鱼、金枪鱼、青蟹、阿拉斯加巨蟹、龙虾、小龙虾、蜗 牛、蛤、蚝和鳄鱼,进一步地预期将会产生动物物种、种类或菌株的数据 库,即人类的伙伴。这些动物包括但不局限于∶狗、猫、马、垂腹猪、 貂、蛇、仓鼠、沙鼠、蜥蜴、热带鱼、狼蛛、雀、鹦鹉、长尾鹦鹉、猎鹰、 臭鼬、蛙和蟾蜍。
[65]下列取样计算阐明了如何进行在疾病状态中拷贝数改变重要性的解 释:
[66]给定的拷贝数变异在个体与给定表型的比例为p<1。与KMT数字 的比较显示了在正常的群组中没有群组具有这种改变。下列所述是(p)的不 同数值和数据库大小的统计分析,(n):
表1


                       *=(l-p)Λn
[67]如同上述说明的非限制例子,这里在疾病群组的拷贝数改变的频率 是0.001(1/1,000),至少5,000的数据库足以识别变异是否是“正常”或与疾 病相联系。当降低数据库的大小时,不出现拷贝数改变的可能性很高(即对 于100的规模,其超过0.9等)。当然,除了一个例子,其取决于一个或多 个变异体的频率,在给定的数据库中所需个体数量变得相应更小。
[68]换言之,对于在疾病团体中出现的更高水平变异体,在较小规模的 数据库中统计学显得有意义。因此,这里在给定的病症暗示给定的基因或 基因区域,然而每个个体都受可能具有一些异常基因的疾病的影响,拷贝 数的改变仅仅存在于很小的数量。因此,对于在疾病群组中拷贝数改变的 置信水平是重要的,即使这里它们在团体中稀少。例如,在阿尔茨海默病 因学中APP基因的重要性没有争论。然而,仅仅小比例(最多为~8%)具 有拷贝数改变(最新描述的复制)。然而,如果可以表明事实上没有正常的 个体具有这种变异体,这个发现具有戏剧性的重要性。当然,超过对于患 者或患者的群组所需置信水平的大型数据库将必须满足需要较小个体数 量的数据库的置信水平要求。
[69]另一个实施方式包括用于评估拷贝数的各种产品。这些产品包括正 常的拷贝数变异KMT、拷贝数断裂点KMT、用于筛选基因组的CGH阵 列和适合询问基因组的基因组探针。副产物特定地集中于用于微缺失/微复 制的基于PCR测定试剂盒
[70]在本发明的另一个方面,使用PCR测定并提供阵列分析的可选择的 方法。特别地,在分子水平上PCR测定检测基因/染色体变异的精确边界, 其边界在不同的个体中相同。例如,在染色体8(所有的正常的个体以5% 存在)上微缺失的分子边界在100个个体中排序,显示出具有交叉断裂点的 相同序列。本发明这方面的特征为不通过阵列分析,但使用简单的PCR 测定来检测缺失。基于连接片段扩增的这种测定仅仅存在于运载这种缺失 的个体(例如附图2)。该测定通过阵列CGH转化损失的探测为通过PCR 获得的一种。
[71]不同的DNA分离和PCR技术在本领域中公知的。本发明中可使用 的实例包括但不局限于定量PCR、定量荧光PCR(QF-PCR)、多倍荧光 PCR(MF-PCR)、实时PCR(RT-PCR)、单细胞PCR、 PCR-RFLP/RT-PCR-RFLP、热启动PCR和嵌套PCR。其它合适的扩增 方法包括连接酶链式反应(LCR)、连接介导PCR(LM-PCR)、简并寡核苷 酸探针PCR(DOP-PCR)、转录扩增、自动维持序列扩增、靶向多核苷酸序 列的选择性扩增、共有序列初期聚合酶链反应(CP-PCR)、随即引物聚合酶 链反应(AP-PCR)和依赖核酸序列的扩增(NABSA)。
[72]使用本领域已知的方法和试剂可以进行PCR。例如,通过染料-终止 子序列可以直接双方向排序PCR产品。在384-孔板中进行PCR,在15ul 的体积中包含5ng基因组DNA、2mM MgCl2、0.75ul DMSO、1M三甲铵 乙内酯、0.2mM dNTPs、20pmol引物、0.2ul AmpliTaq Gold(Applied Biosystems)、DC缓冲液(由AmpliTaq Gold提供)。热循环条件如下:95 ℃中10分钟;95℃中30秒,60℃中30秒,72℃中1分钟进行30个循环; 以及72℃中10分钟。用 Magnetic Beads(Agencourt)纯化PCR 产品,并可通过在AB 13730 DNA Analyzer(Applied Biosystems)上通过毛 细管电泳任意分离。
[73]在一个实施方式中,一种基于PCR的方法为实时定量PCR(qPCR)。 用于多种区域同时询问的可选择方法包括短荧光片段(QMPSF)的定量多 重PCR法、多重可扩增探针杂交法(MAPH)和多重连接依赖式探针法 (MLPA),其中在一个试验中可记录的拷贝数差异高达40个区域。对明确 目标区域的另一种方法是已知部分复制的海港,其常常是拷贝数变异的位 点。在部分复制的两个拷贝(称为共生同源序列变异)之间通过靶向可变核 苷酸使用SNP-基因型方法来提供对于两个等位基因的独立荧光强度,有可 能检测到一个等位基因与另一个等位基因相比的强度的增加。
[74]在另一个实施方式中,扩增子束缚在使用核酸标记的排序元件的磁 珠上。在一些实施方式中,这种扩增通过PCR存在。将磁珠各自放置在 分开的小孔内,其可以是(任意可寻址的)微微升大小的孔。在一些实施方 式中,在PCR反应混合物油性乳液的微滴中收集各个磁珠,并且PCR扩 增在各个微滴中发生。磁珠上的扩增导致各个磁珠携带至少1百万、至少 5百万或至少1千万单个扩增子分子的拷贝。
[75]在实施方式中,PCR发生在油乳剂混合物中,乳状液滴破裂,变性 的DNA和携带单股核酸克隆的磁珠沉淀入孔中,优选1微微升大小的孔, 根据本文描述的方法进一步分析。这些扩增方法允许基因组DNA区域的 分析。在马古莱斯(Margulies)等人2005,Nature.15;437(7057):376-80 以及在美国出版申请第20020012930、20030068629、20030100102、 20030148344、20040248161、20050079510、20050124022和20060078909 号中描述了用于使用磁珠扩增然后用光纤检测的方法。
[76]在本发明的一些方面,使用在本领域常规的排序法(sequencing methods)排序核酸分子(例如基因组DNA)。还可以使用高通量系统完成排 序,其中有些允许排序的核苷酸检测,紧接着或在其并入增大纤维之时, 即基本上实时或实时进行序列的检测。有时,高流通量排序每小时生成至 少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、 至少50,000、至少100,000或至少500,000序列阅读;每次阅读时各自阅读 在至少50、至少60、至少70、至少80、至少90、至少100、至少120或 至少150碱基上。
[77]在一些实施方式中,高通量排序包含使用由Helicos BioSciences Corporation(Cambridge,Massachusetts)获得的技术,如通过合成的单个 分子排序(SMSS)方法。由于考虑到人类或非人类动物的全部基因组在少于 24小时的排序,因此SMSS很独特。这种快速排序方法也考虑到在基本上 实时或实时下按顺序检测SNP/核苷酸。最后,因为如MIP技术,在杂交 前SMSS不需要前置放大步骤,因此SMSS非常有效。事实上,SMSS不 需要任何扩增。在美国出版申请第20060024711;20060024678; 20060012793;20060012784和20050100932号中描述了SMSS。在一些实 施方式中,高通量排序包含通过454 Lifesciences,Inc.(Branford, Connecticut)获得的技术如PicoTiterPlate装置,其包括一个纤维光学面板, 用仪器中CCD摄像机记录通过排序反应发射的冷光信号。光纤的使用考 虑到在4.5小时内检测最少2000万碱基对。
[78]在一些实施方式中,PCR扩增单个纤维核酸杂交得到一个引物,并 用聚合酶、ATP硫酸化酶、荧光素酶、腺苷三磷酸双磷酸酶和荧光素和腺 苷5′-磷酸硫酸酯进行孵化。接下来按顺序加入碱A、C、G和T(U)相应的 脱核苷酸三磷酸盐。各自碱的加入伴随有焦磷酸酯的释放,通过硫酸化 酶转变为ATP,其推动氧荧虫素的合成并释放可见光。因为焦磷酸酯释放 与加入的碱等摩尔,发出的光与在任意步骤中加入的核苷酸数量成正比。 重复该方法直至确定全序列。在一个实施方式中,使用焦磷酸测序分析扩 增子以测定断裂点是否存在。在另一个实施方式中,焦磷酸测序也进行周 围序列标记以作为内部质量对照。
[79]焦磷酸测序分析法在本领域中是已知的。通过简并连接序列分析可 以包括四个彩色测序,其包括杂交锚定引物至四个位置中一个。然后与标 记有荧光染料的简并九聚体数目进行锚定引物的酶连接反应。在任意给定 的周期,构建使用的九聚体的数目,因此它位置中一个的同一性与附着在 九聚体的荧光基团同一性相关。达到这样的程度,用于补偿的连接酶在在 待询问位置上辩别,荧光信号提供碱基同一性的推断。在进行连接和四个 彩色成像之后,除去固定引物:九聚体复合物并开始一个新的周期。进行连 接之后描述序列信息的方法在本领域是已知的。
[80]在另一个方面,基于阵列CGH分析的全基因组可用于在单个测定 中在多重轨迹上有效询问基因组失调的人类和非人类动物基因组。直至今 天,包含DNA大片段的正常拷贝数变异的重要性还未被赏识。阵列CGH 是一种在人类和非人类动物遗传学中的临界点技术,其引起在不同领域如 癌症和IVF(体外受精)中工作的临床医生的兴趣。在临床中CGH微列阵的 使用对识别与疾病相关的基因组失调区域极具前景。从识别与特定表型相 关染色体临界区域至识别特定地剂量敏感基因的提高将引起有利于患者 的治疗机会。阵列CGH是特定、敏感和迅速的技术,其能够筛选在单个 试验中的全基因组。它将促进和加快在人类和非人类动物遗传学中的诊断 方法,并且预期在患有遗传疾病的患者筛选和评估上具有深远的影响。现 在可能识别染色体上精确位置,这里畸变已经存在并有可能将这些改变直 接作图到基因组序列上。
[81]基于阵列比较基因组杂交(array-CGH)方法提供了实现全基因组扫 描以发现新的拷贝数变异(CNV)的最有力的方法。这些方法使用从感兴趣 基因组上得到的标记片段,其竞争性地与第二区别标记基因组杂交得到具 有克隆DNA片段斑点的阵列,显示了在两个基因组之间的拷贝数差异。 基因组细胞株(例如,BAC)、cDNA、PCR产品和低聚核苷酸都可以用作 阵列目标。由于基因组广泛的覆盖度,其提供了可靠作图数据的有效性和 易于进行克隆,所以特别流行阵列CGH与BAC的使用。最后这些因素对 阵列试验本身和验证FISH试验来说是重要的。
[82]CGH使用包括长低聚核苷酸(60-100bp)的阵列可以提高检出分辨 率,实现使用BAC(理论上从50kb至几个kb起始),并在一种测定形式中 首先实现,即被称为代表性寡核苷酸微阵列分析(ROMA)。ROMA的原理 与在BAC阵列的使用类似,但是增加了信噪比,通过称为代表表示法或 全基因组进样的一种方法减小了输入DNA的‘复杂性’。这里通过限制消化 然后连接至衔接子将DNA杂交至处理的阵列,其导致在特定大小范围内 片段的基于PCR扩增。因此,扩增DNA补足了全基因组序列的一小部分, 输入DNA的表示法可显著地降低复杂性,其引起背景噪声的降低。公司 如NimbleGen和Agilent Technologies已经发展了可被使用控制(非代表性 的)CGH的其它长的低聚核苷酸阵列。最有用的低聚核苷酸阵列的分辨率 在30-50kb范围内,由于可使用更高分辨率的阵列,所以分辨率范围将增 加。
[83]在基于阵列方法的另一种变化是使用从Affymetrix SNP阵列上点布 寡聚糖获得的杂交信号强度。这里杂交强度与对照样品得到的均值比较, 因此这些平均的偏离表明了拷贝数的改变。同时提供了拷贝数的相关信 息,SNP阵列具有提供基因型信息的额外优点。例如,它们可以显示杂交 性的损失,其可以提供缺失存在的支持证据,或可能表明节段单亲的二体 性(其还可以被认为是结构变异的一种形式)。
[84]染色体显带是在常规细胞遗传学中最广泛使用的技术之一,在寻找 与例如智力迟钝和先天畸形综合症相关原因的染色体畸变是无价的。现在 分子细胞遗传学中概念和技术发展正将常规染色体分析技术的分辨率从 巨碱基提高至千碱基对的水平。介入这些研究的工具包括(a)基因组的产生 -广泛克隆资源研究作为完成人类和小鼠基因组序列的一部分,(b)高通量 微列阵平台的研发,和(c)比较基因组杂交规程和数据分析系统的最优化。 同时,这些发展在所谓的“分子核型”技术中积累,允许整个全人类和小鼠 基因组中亚微观染色体区域单拷贝数改变敏感的和特定检测。该技术同样 可用于从可获得基因组序列的任意非人类动物的亚微观染色体区域单拷 贝数改变的特定检测。目前,广泛基因组序列可获得或在四趾刺猬、西藏 黄牛、狨猴、家犬、郊狼、豚鼠、九带犰狳、小马岛猬、猫、狐猴、非洲 象、恒河猴、尤金袋鼠、短尾负鼠、棕色鼠蝠、鸭嘴兽、兔、小耳大婴 猴、黑猩猩、白脸黑猩猩、东非狒狒、猩猩、非洲兔、褐家鼠、鼩鼱、 地松鼠、欧洲野猪和马。
[85]基因组资源如BAC,可发展作为用于上述所列种属基因组测序策略 的一部分,可在标准比较基因组杂交规程中使用以识别染色体区域拷贝数 的差异。
[86]即使不相同,在基于微列阵基因组谱中的许多基本操作与下述在表 达谱和SNP分析中的基本操作类似,包括特定微列阵设备和数据分析工具 的使用。因为在最近十年中已经建立了基于微列阵基因组谱,这样可以更 好学习该领域中的技术进步。可使用在核酸分析中微列阵使用的实例,其 描述于美国专利6,300,063、美国专利5,837,832、美国专利6,969,589、美 国专利6,040,138、美国专利6,858,412、美国申请08/529,115、美国申请 10/272,384、美国申请10/045,575、美国申请10/264,571和美国申请 10/264,574。值得注意到这里同时还有显著的差异,如靶标和探针的复杂 性、RNA上DNA的稳定性、重复DNA的存在和在基因组谱中识别单拷 贝数改变。
[87]亚微观拷贝数改变不总是具有表型后果,这是因为有时在正常父母 中之一发现相同的改变。通过最近研究显示在显然正常个体中LCV(大的 拷贝数变异)的存在已经证实了这一概念。此外,一旦已经确定拷贝数改变 已在患者中发生,可能这一改变并未在以前的文献中描述,形成遗传学评 估的严重的难题。然而,在适当的时候这些异常的增加数量将持续可查, 或者在个人的病例报告或在公开使用的在线数据库中,都增进我们对这些 疾病遗传学基础的理解。本发明的KMT提供了编辑正常拷贝数变异信息 以允许有意义的那些变异的识别和分析。
[88]比较基因组杂交(CGH)的研究(Kallioniemi等,1992,Science 258:818-21)提供了在DNA拷贝数中扫描变异的全基因组的第一个有效方 法。在一般CGH测定中,全基因组DNA与测试和对照细胞群隔离、差别 标记和杂交至基因组的表征,其允许在不同的基因组位置的序列结合用于 识别。用来比较的超过两个基因组可以同时附有合适的标记。一般地,通 过在反应中未标记Cot-1DNA的内含物来抑制高度重复序列的杂交。起 初,用于基因组的表征的中期染色体和试验和对照基因组DNA之间拷贝 数变异的定位作图在染色体的物理位置上。
[89]现在包含构件的DNA微列阵大量替代了染色体,其直接作图到基因 组序列中(Pinkel等,1998.Nat.Genet.20:207-11)。测试和对照信号的相对 杂交强度在给定的区域内,然后与在测试和对照基因组中那些序列的相对 拷贝数(理论上)成比例。如果对照基因组是正常的,那么信号强度比值的 增加和减少直接表明测试细胞内DNA拷贝数变异。通常将数据归一化, 因此基因组的形式比值设定在一些标准值上,通常是线性标度的1.0或对 数标尺的0.0上。附加测量如荧光原位杂交(FISH)或流式细胞计 (Mohapatra等,Genes Chromosomes Cancer,20:311-19)可用于测定与一个 比率水平相关的实际拷贝数。
[90]使用多种技术可实施阵列CGH。起始的方法使用大的嵌入基因组克 隆如细菌人工染色体(BAC)产生的阵列。产生足够多非常纯净的BAC DNA 来制造阵列是艰苦的,因此已使用用于扩增少量原料的几种技术。这些技 术包括连接介导的聚合酶链反应(PCR)(Snijders等,Nat. Genet.29:263-64)、使用一组或几组引物的简并引物PCR和滚环扩增法。 BAC阵列提供了全基因组tiling path也可用。还可以使用从更少复杂的核 酸如cDNA、选择的PCR产品和低聚核苷酸制备的阵列。尽管大多数CGH 方法使用全基因组DNA杂交,有可能使用通过PCR技术产生基因组的简 化复杂性的表征。基因组序列的计算分析可用于设计补充至在表征中所列 的序列阵列单元。各种单个核苷酸多态性(SNP)基因型平台,其中的一些 使用简化复杂性的表征,对测定通过基因组的DNA拷贝数和等位数测定 能力是有用的。
[91]阵列CGH的不同基本途经提供了不同的测试水平,因此一些比其 它的更适合于特定应用。测定性能要求的因素包括拷贝数改变的大小、它 们的基因组延伸程度、样品的状态和组成、对于分析购买材料的价格和如 何使用分析的结果。许多应用需要小于50%的拷贝数改变的可靠的检测, 比对其它微列阵技术具有更严格的要求。注意技术细节是极端地重要的, “相同”阵列CGH方法的不同设备可能产生不同的测试水平。各种CGH 方法在本领域中是已知的,并且同样地适用于本发明的一种或多种方法。 例如,美国专利号7,034,144;7,030,231;7,011,949;7,014,997;6,977,148; 6,951,761和6,916,621公开了CGH方法,它们中的每一个公开的内容在此 全部引入作为参考。
[92]通过阵列-CGH(aCGH)提供的数据是DNA序列剂量的定量测定。阵 列CGH提供了拷贝数畸变高分辨率测定,并且可以在许多进样上有效地 进行。阵列CGH技术的出现使在基因组范围内监控DNA拷贝数改变成为 可能,已经发起了研究在特定疾病中基因组研究的许多计划。例如,染色 体畸变在癌症发展中起关键的作用,这里基因组不稳定性的认识允诺改善 癌症的诊断学和治疗。
[93]癌症发展的机理包含染色体畸变,包括致癌基因的扩增和肿瘤抑制 基因的缺失。借助于阵列CGH分析可以最好的显示这些染色体畸变。由 于阵列CGH技术有效的分辨率的提高,将导致医学上重要剂量畸变发现 率的增加。然而,由于需要更好理解在种系和肿瘤基因组中正常多态性, 解释原始数据将更加复杂。没有在大量正常个体的高质量aCGH可用数 据,剂量多态性的进一步阐明剩余试验的而不是计算上的努力。通过阵列 CGH对可测剂量多态性的理解很重要,因此正常变异与疾病没有错误联 系,反之如果一些所谓的正常变异可能构成一些疾病易感性,则需要测定 正常变异。正常变异KMT填补了这一空白。
[94]拷贝数异常目前在预防医学领域中代表了显著未开发的机遇。个性 化用药是分子诊断学市场的一个部分,其在体外诊断学市场中是快速成长 的细分部分。根据S.G.考文(Cowen)及其合作者在2004年IVD是一个 260亿美元的产业。在这一产业中,分子诊断学细分市场预期有非常强劲 的成长,从2004年的18亿美元增加到2009年的36亿美元,即表示年增 长率为15%。
[95]在本发明的一个方面,使用全基因组筛选编译数据用于全基因组拷 贝数分布。在一个实施方式中,使用基于全基因组阵列CGH筛选个体用 于开发拷贝数变异数据库(如实施例6)。在一些实施方式中,筛选个体来自 于不同背景的,包括:患有孤独症个体的群组;正常患者的群组;和患有 各种病症如先天性心脏病(CHD)、Toriello-Carey综合症和其它稀有显型个 体的群组。在不同的实施方式中,大多数个体试验来自于白种人背景,或 来自于多种种族和不同遗传背景的人。种族可以是本文描述可被选择想要 的单一或不同的种族的组合。
[96]在一个实施方式中,在相同的全基因组tiling path BAC阵列上杂交 个体的基因组DNA,包括19,000不同的BAC克隆,印刷双份(例如实施 例6)。在进一步的实施方式中,为了得到有效的统计学相关的结果,归一 化数据为内部控制。例如,从一个个体试验的基因组DNA,其CNV已经 预先进行很好的表征。在另一个实施例中,选择对所研究的个体性别不匹 配的男性或女性基因组DNA池来试验。
[97]在本发明的一个方面,获得全基因组拷贝数分布。在一个实施方式 中,使用性别匹配的个体基因组DNA进行阵列CGH。在另一个实施方式 中,使用性别不匹配的个体基因组DNA进行阵列CGH,并进行补充数据 分析步骤以减轻不匹配的影响。在一个实施方式中,使用性别特异的数据 分析归一化全基因组拷贝数分布数据。没有这种新的和有细微差别的归一 化步骤,结果可引起降低可靠性(图12)。例如,常染色体的区域行为会不 会取决于性别不匹配的样品。这不用惊奇,假如在许多常染色体区域和性 染色体(特别是X染色体)之间有着显著的同源性。实际上,一些常染色体 区域通常可以在杂交中显示微小变化,其可以依赖于使用性别不匹配阵列 CGH。
[98]因此,在一些实施方式中,在性别特异方法中通过归一化数据库可 以消除这一数据的假象(图13)。例如在数据库的附加专栏中可产生实验‘性 别取向’的详细说明。由此,如果对照是女性,测试患者是男性,那么标明 为f_m。在一个实施方式中,‘性别取向’由下列组成:
[99]m_f-男性对照,女性测试;
[100]f_m-女性对照,男性试验;
[101]m_m-男性对照,男性测试;
[102]f_f-女性对照,女性试验;
[103]p_m-双亲对照,男性测试;
[104]p_f-双亲对照,女性试验;
[105]使用相同性别取向′的说明书,根据数据库亚型中克隆的均值将各自 克隆的比值归一化。这一操作不仅除去区域特异的假比例改变,而且用于 解释性别染色体的可能改变。归一化大大简化了另外那些将是困难和耗时 的解释方法。例如,解释在男性对照和女性试验之间实验X-链接缺失是具 有挑战性的,这是因为许多X-特异的克隆不产生预期的2:1比值,当它们 存在时难以对异常作出说明。归一化方法作出解释并使它更加可靠。
[106]因此在一些实施方式中,利用患者的DNA样品和来自于与患者相比 具有不同性别的第二患者的对照DNA样品得到全基因组拷贝数分布,因 此提供了性别不匹配定量。因此,相对于上述性别不匹配结果可以归一化 编译的全基因组拷贝数分布。
[107]性别不匹配归一化
[108]在一个实施方式中,归一化规程用于消除可能使用通道2至通道 1(Ch2:Ch1)作为用于数据库内归一化和分析基值信号比的数据。该值在阵 列CGH分析期间检测通道2和通道1信号强度比值。在一个实施方式中, 通道1和通道2分别表示检测的Cy3和Cy5信号。在另一个实施方式中, 通道1和通道2分别表示检测的Cy5和Cy3信号。在一些实施方式中,通 道1是Cy5,通道2是Cy3,与标记有Cy5的对照样品和标记有Cy3的测 试样品一致。
[109]使用微阵列(microarray)分析软件(例如BlueFuse)来分析每个 试验中的各个克隆的数据,者产生的等同于所述Ch2:Ch1比例的值(比例 _ch2_ch1)。在所述软件已经完成其内标归一化和黄土校正(loess correction)后达到该值。某些特异性的克隆和/或基因组区域可以产生正 常期望值(逸出值)外的比例_ch2_ch1值。这种情况能够在以下情况下产 生:在检测的所述样品基因组DNA中已知不存在真实的拷贝数异常。这 些逸出值可以由但不限于以下的一些原因所导致:
1.在性别错配的实验中,所述偏差可以由性染色体上的顺序的常染色 体克隆/区域的同源性所引起;
2.在非性别错配实验中,可以存在由特异顺序中的Cy3、Cy5的特异 性合并所偏移;
3.未能解释的因素。
[110]为克服这些人为偏差,针对各个克隆将所述比例_ch2_ch1值进行归 一化,其是通过克隆的个别值的区分、通过在整个数据库中的克隆的平均 值。另外,可以在具有相同的性别方向的数据库的分单元(subsection)中 执行归一化。例如,按如上所述,存在确定的6个性别方向:
1. m_f—雄性对照,雌性试验;
2. f_m—雌性对照,雄性试验;
3. m_m—雄性对照,雄性试验;
4. f_f—雌性对照,雌性试验;
5. P_m—亲代对照,雄性试验*;
6. p_f—亲代对照,雌性试验*。
[111]针对各个种类,可以计算所述比例_ch2_ch1的平均值且随后在相关 分单元中用作各个特定值的除数。能够以相同的方式针对所述数据库中的 log2ratio_ch2_ch1值应用该方法。
[112]在一些实施方式中,所述对照样品包括从试验对象的所述亲代(表 2)结合的基因组原料。亲代对照样品的使用允许在任何一方亲代中不具有 病症的儿童中重新拷贝数异常的检测。在该实施方式中,将从各个亲代的 基因组材料(DNA)的大约相同的量合并,将所述合并的DNA标记(例 如Cy3)并与标记的来源于儿童的基因组DNA(其用不同的荧光标记(例 如Cy3)来标记)共同杂交对抗CGH阵列。所述方法能够成功地用于重 新检测试验对象中变化。
表2
来源于一系列来源于一个实验的连续的BAC的相关值
名称_id                                      比例_ch2_ch1 性别 独照         性别_错配    性别    比例_ch2_ch1_基准   平均^
1246816455-RP11-1022A19-chr7-15524856        0.88female       parents      yes          p_f     0.946927482          0.92932142
1247041908-RP11-1008P7-chr7-15750309         0.688female      parents      yes          p_f     0.89333071           0.77015151
1247121719-RP11-91A24-chr7-15830120          0.982female      parents      yes          p_f     0.988082885          0.9938437
1247188345-RP11-366M14-chr7-15896746         0.764female      parents      yes          p_f     0.927389097          0.82381818
1247210677-RP11-196O16-chr7-15919078         0.771female      parents      yes          p_f     0.905780075          0.851
1247299388-RP11-160E4-chr7-16007789          0.677female      parents      yes          p_f     0.870417267          0.77778787
1247362704-RP11-708D21-chr7-16071105         0.864female      parents      yes          p_f     0.938759384          0.92036362
1247469089~RP11-372J17-chr7-16177490        0.85female       parents      yes          p_f     0.944641245          0.899812
1247772424-RP11~297M20-chr7-16480825        0.806female      parents      yes          p_f     0.902901745          0.89267741
1248044963-RP11-765A14-chr7-16753364         0.839female      parents      yes          p_f     0.912187874          0.91976666
1248246653-RP11-435M6-chr7-16955054          0.821female      parents      yes          p_f     0.895962168          0.91633333
1248382930-RP11-746H13-chr7-17091331         0.888female      parents      yes          p_f     0.942250804          0.94242424
1248456139-RP11-471P5-chr7-17164540          1.05female       parents      yes          p_f     0.995839197          1.05438709
1248562431-RP11~350D14-chr7-17270832        0.848female      parents      yes          p_f     0.951416041          0.8913030
1248562431-RP11-507K12-chr7-17270832         0.712female      parents      yes          p_f     0.866806163          0.8214062
1248719977-RP11-123E5-chr7-17428378          0.99female       parents      yes          p_f     1.018105893          0.97239393
1248731615-RP11-173P9-chr7-17440016          0.936female      parents      yes          p_f     0.990312448          0.9451562
1248795053-RP11-79G17-chr7-17503454          1.024female      parents      yes          p_f     1.006523099          1.01736363
1248942361-RP11-323K15-chr7-17650762         0.73female       parents      yes          p_f     0.885629205          0.82427272
1249125555-RP11-511H23-chr7-17833956         0.807female      parents      yes          p_f     0.906703841          0.89003702
^在所述数据库的p_f部分中的平均值
[113]非人类动物拷贝数变异(Copy Number Variant)数据库
[114]阵列CGH的分析法也能够用于测量非人类动物的繁殖种群。针对 市售的重要的和配对动物(包括牛、羊、猪、马、狗和猫)的正常拷贝数 变异的数据库的生成将提供重要的用于筛选针对染色体异常的种类原料 的工具,所述异常与降低的繁殖活性、特异性的减少或其它经济上相关或 所需的特征相关。在一个实施方式中,将建立针对特异性非人类动物种类 或品种的正常拷贝数变异的数据库,并用于识别正常出现的不与数量性状 座位(quantitative trait loci)关联的多态性(polymorphism)。随后对于 拷贝数变异筛选作为数据库的同种类或品种的相关的非人类动物(其具有 显著的表型(例如经济上的益处、不利或相关疾病))。随后将所述结构与 所述数据库比较。主要在相关所述非人类动物的基因组中存在的拷贝数变 异允许识别数量性状遗传位点(QTL)和与相关的非人类动物的表型相关 的疾病位点。与QTL或特定的疾病位点关联的拷贝数变异能够用于筛选 针对所述QTL或疾病位点的其它相同种类或品种的非人类动物。
[115]从在非人类动物种类或品种中的正常拷贝数变异的数据库开发的信 息将允许进一步的存在的育种实践的提纯,其是通过从育种计划中排除不 需要的个体(例如为携带遗传性疾病或其它不需要的变型携带者个体)。 特异性的拷贝数变异或染色体异常与不需要的表型的连接,其将改进人共 授精育种计划的有效性。
[116]遗传性疾病是在动物育种群落中相关的生长。自从引入应用人工授 精的现代育种实践,与近交相关的问题已经加重。这已经引发了由流行雄 性育种动物携带的隐性遗传性疾病的增加。
[117]与拷贝数变异相关的遗传性疾病很多,其包括但不限于:上皮增殖 不全、大疱性表皮松解、成骨不全、生殖力下降、奶产量不足、体脂肪水 平提高、自身免疫性溶血性贫血、巴塞特猎犬(basset hound)血小板紊 乱、凝血(出血)病症、周期性血细胞生成、血友病、组织细胞瘤、组织 细胞增多病、变异介导的血小板减少、淋巴水肿、磷酸果糖激酶(PFK) 不足、丙酸激酶(PK)不足、罕见红细胞异常、栓球无力性栓球病 (thrombasthenic thrombopathia)、冯维勒布兰德氏病、主动脉瓣狭窄、 房中隔缺损、心肌病、二尖瓣发育异常、亲代动脉导管、血管环异常、 体分流术、动脉瓣狭窄、病态窦房结综合征、法乐氏四联症、三尖瓣发 育异常、室间隔缺损、糖尿病、生长激素敏感、肾上腺性激素皮肤病、肾 上腺皮质功能亢进(柯兴氏综合征)、肾上腺皮质功能减退(阿狄森氏综 合征)、甲状腺功能减退、甲状旁腺功能亢进、垂体性侏儒症(脑下垂体 机能减退)、白内障、柯利犬眼异常、膜营养不良、皮样囊肿、睑外翻、 睑内翻、暴露角膜病综合征-突眼、兔眼、和/或大眼睑、睫毛异常-异 位睫毛、双行睫、倒睫、青光眼、无孔泪点、干性角膜结膜炎(KCS)-“干 眼”、晶状体脱位、小眼畸形-眼发育不全、视神经发育不全和小乳头突起、 角膜翳-慢性浅层角膜炎、续存性瞳孔膜、累进性视网膜萎缩、视网膜发育 不全、第三眼睑(瞬膜)异常-“樱桃眼”、慢性肝炎、裂唇/腭、相关的 肝炎、伯灵顿梗(Bedlington terrier)铜中毒、胰腺外分泌机能不全、胃 扩张-肠扭转(胃胀气)、谷蛋白(小麦)敏感的肠病、组织细胞溃疡性结 肠炎、肠淋巴管扩张症、免疫增生的(巴塞恩金狗)肠病/淋巴细胞-浆细 胞肠病、肠淋巴管扩张症、食管扩张、胰腺炎、肛周瘘、门体分流术、蛋 白丢失性肠病、蛋白丢失性肠病和肾病(爱尔兰软毛梗(soft-coated Wheaten terrier))、幽门狭窄、小肠细菌过度生长(SIBO)、遗传性过敏 症、自身免疫性溶血性贫血、大疱性类天疱疮、补体缺陷、周期性血细胞 生成、德国牧羊犬脓皮病、免疫介导血小板减少症、红斑狼疮、天疱疮、 选择性免疫球蛋白A缺陷、重度联合免疫缺陷症、德国魏犬免疫缺陷、小 脑活力丧失(运动失调)、小脑发育不全、颈脊骨不稳(摆动综合征)、先 天性耳聋和前庭病、耳聋、变性脊髓病、球样细胞脑白质营养不良、髓鞘 形成低/不良(“震颤小狗”)、脑积水、特发性癫痫椎间盘病、喉麻痹、 脑白质营养不良(例如脱髓鞘脊髓病、遗传性共济失调心轴突病变 (axonopathy)、脊髓软化、海绵样脑白质营养不良、类血纤维蛋白脑白质 营养不良)、无脑回、溶酶体贮存病(例如蜡样脂褐质沉积症、岩藻糖苷 贮积病、葡糖脑苷脂沉积病、糖原贮积病III型、GM1神经节苷脂沉积、 GM2神经节苷脂沉积、粘多糖增多症I、神经鞘髓磷脂代谢障碍)、脑脊 膜炎、脑膜脑炎、重症肌无力、脊髓发育不良(脊柱裂病)、神经轴性营 养不良、周围神经病(例如多发性神经病、巨轴索神经病、原发性多发性 神经病、肥大性神经病、累进性轴突病变、感觉神经病、喉麻痹-多发性神 经病综合症、食管扩张)、抖抖狗症候群(shaker dog syndrome)、苏格兰 野狗痉挛(scotty cramp)、脊柱裂、脊髓性肌萎缩/运动神经元病(例如脊 髓性肌萎缩、局部脊髓性肌萎缩、遗传性进行性脊髓性肌萎缩、运动神经 元病、多系统染色质溶解神经元变性)、脊骨狭窄、短头颅综合征、气管 发育不全、喉麻痹、气管塌陷、黑棘皮症、肢端舔皮炎/肉芽肿、肢端残缺 综合征、遗传性/过敏性皮炎、大疱性类天疱疮、犬痤疮、色素稀释性脱毛、 先天性稀毛、表皮无力症(埃勒斯-当洛综合征)、皮肤粘蛋白病、大麦黄铜症候群(dalmatian bronzing syndrome)、脂螨性兽疥癣/犬蠕型螨、 皮肌炎和溃疡性皮肤病、皮样瘘、外胚层缺损、外皮发育不良、大疱性表 皮松解、毛囊发育不良(黑毛毛囊发育不良)、中隆皮炎(fold dermatitis) /脓皮病、德国牧羊犬足垫病症、德国牧羊犬脓皮病、生长激素敏感的皮肤 病、鱼鳞病、致命性肢皮炎、红斑狼疮、淋巴水肿、狼疮类皮肤病、鳞斑 霉属皮炎/耳炎、结节性皮肤纤维化(痣)和肾囊腺癌、模型斑秃、天疱疮、 肛周瘘、牛皮癣状-苔癣样皮肤病、雪纳瑞粉刺症(Schnauzer comedo syndrome)、皮脂腺炎、脂溢性皮炎、维生素A敏感的皮肤病、白斑病、 锌敏感的皮肤病、隐睾、性发育病症-性反转、家族性肾病(例如遗传性肾 炎/肾病、肾发育不良、肾淀粉样变性)、凡科尼综合征、结节性皮肤纤维 化和肾囊腺癌、尿石病(结石)、劳累性横纹肌溶解、多糖存储肌病、白 细胞粘附缺陷、遗传性锌不足、原卟啉症、扩张性心肌病、区域性皮衰弱 (regional dermal asthenia)、椭圆形红细胞性贫血、马运动神经元病(颤 动)和摇摇晃晃疾病。
[118]阵列CGH步骤。
[119]特别地,所述阵列CGH步骤包括以下步骤。第一,大克隆例如BAC 从克隆文库(clone library)供应商得到。随后,小量的克隆DNA通过简 并寡核苷酸引物(DOP)PCR或连接反应介导的PCR来扩增以便获得点 样(spotting)所需的足够的量。然后,使用安装高精密度打印针的微阵列 机器人将这些PCR产物点样入载玻片。取决于待点样的克隆的数量和微 阵列载玻片上的有效空间,克隆能够被在每个阵列中点样一次或重复点 样。如果所述点样强度被平均化,在阵列上的相同克隆的重复的点样提高 测量方法的精密度,并允许实验质量的详尽的统计分析。
[120]受试者和对照DNA经常使用随机引物法用Cy3或Cy5-dUTP来标 记并随后被杂交入在包含过量的Cotl-DNA的溶液中的微阵列以便封闭 (block)重复的序列。杂交既能够在温和摆动的垫圈中在盖玻片下手动进 行,也能够使用市售的杂交装置自动地进行。这些自动杂交装置考虑到活 性杂交方法,从而改善重复性及减少实际杂交时间,其提高处理量 (throughput)。
[121]使用标准微阵列扫描装置通过两个不同的荧光染料检测所述杂交的 DNA(通过扫描共聚焦激光或者基于读取器的电荷耦合器件(CCD)相机), 随后使用市售的或免费获得的软件包来点样识别。本发明能够使用任何常 规荧光染料。这些为已知或市售的。可检测分子的特定的实例包括放射性 同位素例如p32或H3、荧光基团例如异硫氰酸荧光素(FITC)、TRITC、 若丹明、四甲基若丹明、R-藻红蛋白、Cy-3、Cy-5、Cy-7、德克萨斯红(Texas Red)、药红(Phar-Red)、别藻蓝蛋白(APC)、抗原表位标记例如FLAG 或HA抗原表位和酶标记例如碱性磷酸酯酶、辣根过氧化物酶、F-半乳糖 苷酶、和半抗原结合物例如异羟洋地黄毒苷配基或二硝基苯基等等。其它 可检测的标记物(marker)包括化学发光的和生色分子、光或电子密度标 记物等等。所述探针也能够用半导体纳米晶体例如量子点(即Qdot)来标 记,在U.S.Pat.No.6,207,392中叙述。市售的Qdot从量子点公司(Quantum Dot Corporation)获得。
[122]用于检测的试剂的另外的实例包括但不限于放射标记的探针、荧光 基团标记的探针、量子点标记的探针、生色团标记的探针、酶标记的探针、 亲和配体标记的探针、电磁针标记的探针、重原子标记的探针、用纳米颗 粒光散射标记或纳米颗粒或球体外壳标记的探针、和用任何其它本领域技 术人员已知的信号生成的标记物所标记的探针。用于本发明的检测的标记 部分的非限定性的实例无限定地包括适合的酶,例如辣根过氧化物酶、碱 性磷酸酯酶、3-半乳糖苷酶、或乙酰胆碱酯酶;能够形成络合物结合对成 员,例如抗生蛋白链菌素/生物素、卵白素/生物素或者抗原/抗体络合物, 其包括例如兔IgG和抗兔IgG;荧光基团例如伞形酮、萤光素、异硫氰酸 荧光素、若丹明、四甲基若丹明、曙红、绿色荧光蛋白、藻红、香豆素、 甲基香豆素、芘、孔雀绿、芪、萤光黄、Cascade BlueTM、德克萨斯红、 二氯三嗪基胺萤光素、丹磺酰氯、藻红蛋白、荧光镧系元素络合物包括例 如铕和铽、Cy3、Cy5、分子指示物及其荧光衍生物,以及其它本领域已知 的物质(例如在Principles of Fluorescence Spectroscopy,Joseph R. Lakowicz(Editor),Plenum Pub Corp,2nd edition(July 1999)和the 6th Edition of the Molecular Probes Handbook by Richard P.Hoagland中所叙 述的);发光物质例如鲁米诺;光散射或细胞质基因组反响物质例如金或 颗粒或量子点;或放射性物质,包括14C、123I、124I、125I、131I、Tc99m、 35S或3H。
[123]标记物包括但不限于生色团、荧光部分、酶、抗原、重金属、磁探 针、染料、磷光基团、放射性物质、化学发光部分、散射或荧光纳米颗粒、 拉曼信号产生部分和电化学检测部分。使用微阵列的基因分型能够使用针 对阵列基因分型分析的不同的方法、设备及其变体来完成。
[124]另外,主链标记是以序列独立的方式结合核酸分子的核酸染料。实 例包括增补染料例如菲啶和吖啶(例如菲啶溴红、碘化丙啶、碘化己啶、 二氢乙啡啶、乙啡啶同二聚体-1及-2、单叠氮化乙啡啶和ACMA);一些 小沟结合物(minor grove binder)例如吲哚和咪唑(例如Hoechst 33258、 Hoechst 33342、Hoechst 34580和DAPI);以及混杂核酸(miscellaneous nucleic acid)染料,例如吖啶橙(也能够嵌入)、7-AAD、放线菌素D、 LDS751和羟芪巴脒。所有上述的核酸染料是供应商(例如分子探针公司 (Molecular Probes,Inc.))市售。核酸染料的其它实例包括来自分子探针 公司的以下染料:花青染料例如SYTOX Blue、SYTOX Green、SYTOX Orange、POPO-1、POPO-3、YOYO-I、YOYO-3、TOTO-I、TOTO-3、 JOJO-I、LOLO-I、BOBO-I、BOBO-3、PO-PRO-I、PO-PRO-3、BO-PRO-I、 BO-PRO-3、TO-PRO-I、TO-PRO-3、TO-PRO-5、JO-PRO-I、LO-PRO-I、 YO-PRO-1、YO-PRO-3、PicoGreen、OliGreen、RiboGreen、SYBR Gold、 SYBR Green I、SYBR Green II、SYBR DX、SYTO-40、-41、-42、-43、 -44、-45(蓝)、SYTO-13、-16、-24、-21、-23、-12、-11、-20、-22、-15、 -14、-25(绿)、SYTO-81、-80、-82、-83、-84、-85(橙)、SYTO-64、-17、 -59、-61、-62、-60、-63(红)。
[125]增加通过高密度阵列获得的数据需要标准化的和统计工具一样好的 存储系统,相似于微阵列所需的-基于基因表达谱(gene expression profiling)。由于产生和杂交点样微阵列(spotted microarray)的方法复杂, 在所生成的数据中确实存在一定程度的系统变异。
[126]微阵列的数据的归一化用于消除这种系统变异,因此其代表几乎所 有微阵列数据分析中的重要的预处理步骤。在数据归一化之后,基因组拷 贝数变化的检测需要自动统计操作。最后,在克隆片段上DNA的杂交图 像中的数字化强度差别能够被翻译作试验和对照基因组(reference genome)间的拷贝数差别。一旦建立和确认这种技术,其将允许高通量 DNA拷贝数筛选,其分辨率仅由所使用的克隆片段的大小限制(典型地 -100kb,使用BAC阵列)。
[127]包括在正常拷贝数变异KMT中的信息通过使用阵列CGH的常规技 术筛选大量个体的基因组来获得。用来评估核酸的来自这些个体的样品可 以包括用来获得必要基因组原料的任何常规生物样品。所述样品可以是细 胞、血液、体液、羊水、活组织检查或组织。另外,样品能够是新鲜的, 来自培养的细胞/组织或来自但编档保存的(archival)细胞/组织,例如冷 冻样品、格思里卡(Guthrie card)、脐带血或胎盘。上下文中的取样,包 括获得血液样品或细胞样品(包括口腔、鼻或咽喉拭子)的本领域中的常 规方法。另外,在本发明的一种或多种方法中,用于基因组评估的样品能 够从新生儿、儿童、青春期前的或成年人受试者获得。在另外的实施方式 中,通过羊水诊断获得样品以提供用于基因组分析的DNA样品。
[128]在本发明的一种或多种KMT中,对照数据库能够包括从雄性与雌 性对象的比例所获得的评估。在一个实施方式红,所述比例为1:1或近似 于1:1或者大约1:1。
[129]在另一个方面,从儿童获得样品,所获得样品为血液或空腔样品。 在另一个实施方式中,从新生儿获得样品,所获得样品为血液。在另一个 实施方式中,样品从混合受试者群体(subject pool)中获得,其中所述受 试者选自由以下组成的组:新生儿、婴儿、儿童、青春期前儿童、青年人、 中年人和老年人。例如正常拷贝数变体的数据库能够汇集10,000个个体, 其中所述个体包括新生儿和青年人,或任何所需同龄人的组合。
[130]受试者(其中基因组评估包括本发明的KMT)的年龄(即,以天或 年计)包括1至40天(新生儿)、婴儿(年龄:1个月至1岁)、1岁至8 岁(儿童)、8岁至12岁(青春期前儿童)、12岁至19岁(青少年)、19 岁至39岁(青年)、39岁至55岁(中年)以及55岁至100岁(老年)。
[131]另外,从受试者获得基因组DNA在本领域中是常规的。能够从一种 或多种细胞、体液或组织分离基因组DNA(gDNA)。已知的方法能够用 于获得体液,诸如血液、汗液、泪液、淋巴、尿液、唾液、精液、脑脊髓 液、粪便或羊水。相似地,已知的或组织检查能够用于获得细胞或组织, 诸如口腔试子、口腔清洗液、外科切除、活组织检查抽吸等等。基因组DNA 也能够从原始培养中的、繁殖细胞株中的、固定的编档保存的样品、法医 样品或考古学样品中的一种或多种细胞或组织获得。
[132]实例细胞类型(从中能够以本发明的方法获得gDNA)包括但不限 于血液细胞,例如B淋巴细胞、T淋巴细胞、白细胞、红细胞、巨噬细胞 或嗜中性粒细胞;肌肉细胞,例如骨骼细胞、平滑肌细胞或心肌细胞;生 殖细胞,例如精子或卵子;上皮细胞;结缔组织细胞,例如脂肪细胞、纤 维原细胞或成骨细胞;神经元;星细胞;基质细胞;肾细胞;胰脏细胞; 肝细胞;或角质化细胞。从中获得gDNA的细胞能够在特定发育水平,包 括,例如造血干细胞或起源于造血干细胞的细胞(例如红细胞、B淋巴细 胞、T淋巴细胞、天然杀伤细胞、中性粒细胞、嗜碱细胞、嗜曙红细胞、 单核细胞、巨噬细胞或血小板)。其它细胞包括骨髓基质细胞(间质肝细 胞)或由此发育而来的细胞例如骨细胞(骨母细胞)、软骨细胞(cartilage cell)(软骨细胞(chondrocyte))、脂肪细胞(脂细胞)、或其它种类的结 缔组织细胞例如中的细胞;神经干细胞或其产生的细胞包括例如神经细 胞(神经元)、星细胞或少突细胞;上皮干细胞或来源于上皮干细胞的细 胞例如吸收细胞、杯状细胞、潘氏细胞或肠内分泌细胞;皮肤干细胞;表 皮干细胞;或滤泡干细胞。一般来说,能够使用任何类型的干细胞能够, 其无限定地包括胚胎干细胞、成人干细胞或多能干细胞。
[133]用于本发明的、从其中获得gDNA的细胞能够是正常细胞或表现一 种或多种特殊疾病或状况的症状的细胞。因此,用于本发明的方法的gDNA 能够从癌细胞、赘生性细胞、坏死细胞等等中获得。本领域的技术人员将 了解或能够易于使用本领域中已知的方法确定从细胞、液体或组织中分离 gDNA的方法(例如在Sambrook et al.,Molecular Cloning:A Laboratory Manual,3rd edition,Cold Spring Harbor Laboratory,New York(2001)中 或在Ausubel et al.,Current Protocols in Molecular-Biology,John Wiley and Sons,Baltimore,Md.(1998)中叙述)。
[134]本发明的方法能够进一步包括分离特定类型的细胞或组织的步骤。 从种群中其它细胞中分离特定细胞本发明的方法中使用的实例方法包括 但不限于荧光活化的细胞分选(FACS)(例如在Shapiro,Practical Flow Cytometry,3rd edition Wiley-Liss;(1995)中所叙述)、密度梯度离心或使用 具有显微镜辅助设备的显微操纵法的手动分离。本发明所使用的示例细胞 分离设备包括但不限于贝克曼(Beckman)JE-6离心冲洗系统、贝克曼库 尔特(Beckman Coulter)EPICS ALTRA计算机控制的流动细胞计数仪- 细胞分析仪、模流动细胞计数仪(Cytomation公司)、库尔特计数仪和 通道处理器(channelyzer)系统、密度梯度装置、细胞离心法、贝克曼J-6 离心机、EPICS V二元激光细胞分选器或EPICS PROFILE流动细胞计数 器。也能够通过外科技术去除细胞的组织或种群。例如肿瘤或肿瘤细胞能 够通过外科方法从组织中去除,或相反地非瘤性细胞能够从肿瘤周围去 除。使用下文进一步叙述的方法,本发明能够用于制备不同细胞的可分类 (typable)基因座(locus),所述细胞包括从相同个体或从不同个体中癌 和非癌性细胞。
[135]gDNA能够通过溶解包含DNA的细胞为本发明的方法的使用制备。 典型地,细胞在基本上保护细胞的gDNA整体性的条件下溶解。特别地, 在本发明的方法中,将细胞暴露于碱性pH值能够用于溶解细胞同时对 gDNA造成相对小的破坏。许多种碱性化合物能够用于溶解,所述碱性化 合物包括氢氧化、氢氧化钠等等。另外,能够从酶(其降解所述细胞壁) 溶解的细胞获得相对未受损的gDNA。也能够通过暴露于渗透应力溶解天 然或由于酶去除的缺少细胞壁的细胞。其它条件能够用于溶解细胞,包括 暴露于去污剂、机械破碎、超声加热、压力差例如在弗氏压碎器或杜恩斯 匀浆器。稳定gDNA的试剂能够包括在细胞溶胞产物或分离的gDNA样品 中,包括例如核酸酶抑制剂、螯合剂、盐缓冲液等等。用于溶解细胞以获 得gDNA的方法能够在本领域已知的条件(例如在Sambrook et al.,supra (2001)或在Ausubel et al.,supra,(1998)中叙述)下操作。
[136]在本发明特定的实施方式中,包含gDNA的粗细胞溶胞产物能够不 经过gDNA的进一步分离直接扩增或检测。另外,gDNA能够在扩增或检 测前进一步从其它细胞组分中分离。因此,本发明的检测或扩增方法能够 在纯化或部分纯化的gDNA上进行。基因组DNA能够使用已知的方法分 离,包括液相萃取、沉淀、固相萃取,色谱法等等。这种方法经常涉及小 量制备(例如在Sambrook et al.,supra,(2001)或在Ausubel et al.,supra, (1998)中叙述)或商家市售,包括例如Qiagen(瓦伦西亚,加利福尼亚州) 或Promega(麦迪逊,威斯康辛州)。
[137]如本文所用的术语“基因组DNA”或“gDNA”意图指一种或多种 染色体聚合脱氧核糖核苷酸分子,其天然存在于真核细胞或原核细胞的 核、病毒、线粒体或叶绿体且包含通过所述细胞天然转录进入RNA的序 列和非天然转录进入RNA的序列。真核细胞的gDNA包含至少一个着丝 点、两个端粒、一个复制起始区和一个不通过真核细胞(包括例如内含子 或转录启动因子)转录进入RNA的序列。真核基因组DNA能够区别于原 核、病毒或细胞器基因组DNA,例如根据真核基因组DNA中的内含子的 存在以及其它的gDNA中的内含子的缺失。
[138]在某些方面,能够首先扩增所述基因组DNA。因此,术语“扩增的” 意图指核酸拷贝,其中在所述拷贝中的各个序列相对于所述拷贝中的所有 其它序列的比例基本上与所述核酸模板中的比率相同。例如,当有关基因 组片段的总体(population)使用时,该术语意图指基因组片段的总体, 其中各个基因组片段与在所述总体中的所有其它基因组片段的比例基本 上与其序列与在所述基因组中的其它基因组片段序列的比例相同。在扩增 的代表性(amplified representation)和模板基因组DNA中的序列的比例 间的基本上的相似度指在所述代表性中的至少60%的基因座不超过5倍代 表性过多(over-represented)或代表性不足(under-represented)。在这 种代表性中,例如至少70%、80%、90%、95%或99%的基因座能够不超 过5、4、3或2倍代表性过多或代表性不足。在该术语中包括的核酸能够 是DNA、RNA或其类似物。在扩增的代表性的(representative)种群中 的各个核酸序列的数量能够是所述模板的例如至少2、5、10、25、50、100、 1000、1 x 104、1 x 105、1 x 106、1 x 107、1 x 108或1 x 1010倍或更多倍。
[139]先前的扩增的优点是能够从个体获得小量的基因组DNA,并扩增以 获得基因组片段的扩增的代表性的总体,其能够以本发明的方法询问 (interrogated)。因此,该方法特定地用于将DNA基因分型,所述DNA 来源于相对小的组织样品,例如活组织检查或编档保存的样品。一般来讲, 所述方法将用于扩增相对小数的模板基因组拷贝。在特定的实施方式中, 基因组DNA样品能够从单细胞和基因型获得。
[140]本发明提供整体基因组扩增的方法,其能够用于在具有评估(在基 因组中的可分类基因座的检测)前扩增基因组DNA。本发明的整体基因组 扩增方法能够用于提高基因组DNA的数量而不损失(compromise)任何 给定序列的质量或代表性。因此,所述方法能够用于以不依赖序列的形式 扩增相对小量的基因组DNA以便提供能够进行基因分型的基因组DNA的 水平。意外地,复杂的基因组能够用低持续合成能力聚合酶来扩增以便获 得基因组片段的总体,其代表基因组、具有高复杂性及包含具有片段(其 具有针对杂交到典型核酸阵列的方便的大小)。
[141]另外,本发明所公开的基因组DNA的扩增不要求多聚酶链式反应。 特别地,能够进行扩增以便将序列在等温条件下扩增若干倍。因此,尽管 能够使用提高温度的步骤,例如以在开始时使基因组DNA模板变性,但 不需要使用温度循环。因此,温度的重复提高常规地用于使杂种变形,且 不需要反复地恢复杂交温度。
[142]为评估受试者的拷贝数,可以使用任何常规生物样品来获得基因组 DNA。可以使用阵列CGH或常规PCR技术来完成筛选受试者以识别拷贝 数的多态性。通过这些方法的任何一个而获得的有关拷贝数多态性的信息 可以于KMT进行比较以评估发现的任何变异的显著性。
[143]本发明的技术的特征为针对人或非人类动物种群的正常染色体变异 的知识管理工具的组合(portfolio)。如果不对照正态种群变异则不能完成 个体中的染色体畸变的显著性的合理的译码。依赖于阵列CGH数据的诊 断医生、研究人员和药物研发者全部遭受同样的困境——“何为正常状态” 的问题。
[144]本发明的一个对象是针对细胞遗传学家首要知识管理工具(KMT) 以合理地解码患者的阵列CGH数据。这些工具是针对正常变异的综合全 基因组分析(genome-wide analysis)工具。除在一般种群中产生有关拷贝 数的高度相关的信息外,该KMT也会理解广泛范围的病症和疾病中的根 本的病因学。CGH的20个优点是能够以其自身的能力研究个体,而不必 依赖于结合关联(linkage association)中的固有的统计方法,其中具有多 中遗传病因学的个体可能已经被集中在一起。基于阵列CGH的方法的最 终动力可能在于亲代样品的全基因组拷贝数评估,而无任何基因组区域相 关的先验知识(a priori knowledge)。
[145]以本发明的一个目的,从待分析的受试者获得DNA样品以确定全基 因组拷贝数变异,该分型通过本发明所述的一种或多种方法进行,由此将 这种分析的输出与本发明的正常拷贝数变异数据库比较,以便确定所检测 的变异是否与表型序列关联。所述受试者能够为本文所述的任何年龄、性 别和种族。
[146]本发明所叙述的全基因组拷贝数检测是筛选个体以确定哪个变异针 对不同的方面具有限制性的最有力的和有效的平台。例如,所述比较允许 与表型结果相关的变异的确定。其也在种群中允许受试者的分层以在个体 间基于其对于药物的反应而辨别,无论是有益还是有害。这易于受试者应 答其临床试验中治疗的分组的隔离,而不应答或经历不良反应,这样可以 补救所述治疗并定向于所述治疗有效的亚种群。这些KMT也能够在使用 上用于遵循批准(例如由FDA批准)的药物的使用以便在所述种群的确 定的亚种群中继续监控所述药物及其效用或不良反应。
[147]在本发明的另一个方面,本发明所述的一种或多种方法适用于基于 与低密度微阵列检测相反的检测的解决方案。例如初级产物的提纯,所述 正常变异KMT,是拷贝数变异断裂点的KMT,即所述种群中的这些损伤 的分子界面。所述KMT允许拷贝数变化的检测,其在使用基于方法的快 速PCR(多聚酶链式反应)而非基于方法的阵列的种群中是常见的,(例 如图2)。该方法考虑到针对相关拷贝数变异的存在的数十万的个体的分 析,这个数量级不适用于当前的微阵列分析。
[148]在不同基因或者不同的具有存在为发展基于病症(例如癌症)的基 因的或存在该基因的险的患者中的基因上的基因座中的特殊变异或多 数变异的存在或缺失的确定能够以多种形式来进行。这些试验能够常规和 已知的技术和遗传物质源来进行。例如,对于阵列和非阵列分析,技术人 员能够使用从以下生物样品收集来的DNA或RNA:例如组织活组织检查、 尿、粪便、痰液、血液、汗液、泪液、细胞、组织刮物、乳腺抽吸物、体 液或其它细胞材料,并能够通过多种常规方法来进行,该方法包括但不限 于PCR、使用等位基因特异性的性探针的杂交、酶突变检测、错配的化学 裂解、质谱测定法或DNA测序包括微测序(minisequencing)。在特定的 实施方式中,能够使用等位基因特异性的探针以两种形式进行杂交:(1) 等位基因特异性的寡核苷酸与和溶液中的所标记的样品固相(任何常规材 料,例如但不限于玻璃、、尼龙膜)结合,如在很多DNA芯片应用中, 或者(2)结合样品(通常克隆的DNA或PCR扩增的DNA)和溶液中的 标记的寡核苷酸(等位基因特异性的或短的以便允许通过杂交测序)。诊 断试验可以包括变异的嵌板(panel),通常在固体载体上,其能够同时测 定多于一种变异。
[149]例如,变异的测定包括通过例如多聚酶链式反应(PCR)的方法测 定所述变异位点的序列。另外,增加核酸变异的激酶的存在或缺失的确定 可以包括链终止DNA测序或为测序、寡核苷酸杂交分析法或质谱测定法。 在一个实施方式中,本发明提供在试验生物样品中筛选变异的方法,其通 过PCR或者在连接酶链反应(ligation chain reaction)(LCR)(见,例如 Landegran,et al.,1988.Science 241:1077-1080;和Nakazawa,et al.,1994. Proc.5 Natl.Acad.Sci.USA 91:360-364),其后者能够部分特定地用于检 测基因中的点模拟(point imitation)(见,Abravaya,et al.,1995.Nucl.Acids Res.23:675-682)。所述方法包括以下步骤:针对扩增靶向序列的设定简并 引物、相应一种或多种基因保守区域的引物、具有引物的扩增反应(使用 从试验生物样品获得的DNA或cDNA作为模板)和分析所述PCR产物。 试验生物样品的PCR产物与对照样品的比较显示所述试验生物样品中的 变异。该变化能够在试验生物样品中核酸变异的缺失或存在。其它可选的 扩增方法包括:自主序列复制(self sustained sequence replication)(见 Guatelli,et al.,1990.Proc.Natl.Acad.Sci.USA 87:1874-1878)、转录扩增 系统(transcriptional amplification system)(见,Kwoh,et al.,1989.Proc. Natl.Acad.Sci.USA 86:1173-1177);Qb复制酶(见,Lizardi,et al,1988. BioTechnology 6:1197),或任何其它核酸扩增方法,随后使用本领域的技 术人员已知的技术检测扩增的分子。如果这种分子以很低的数量存在,这 些检测方案特别用于检测核酸分子。
[150]可以使用很多可用的计算机程序设计PCR引物,该程序包括但不限 于Oligo AnalyzerS.O、Oligo Calculator、NetPrimer、Methprimer、 Primer3、WebPrimer、PrimerFinder、Primer9、Oligo2002、Pride或 GenomePride、Oligos和Codehop。有关这些程序的详尽信息能够从 www.molbiol.net获得。另外,可以使用本领域技术人员已知的标记物来标 记引物。这种标记包括但不限于放射性的、荧光的燃料和酶标记物。
[151]能够使用任何能够根据产物尺寸分离扩增产物方法进行扩增产物的 分析,包括自动化或手动的凝胶电泳,质谱测定法等等。另外,能够分离 所述扩增产物,其使用差数序列(sequence difference)、使用SSCP、DGGE、 TGGE、化学裂解或限制性片断多态性以及与核酸阵列杂交。核酸分离、 扩增和分析的方法对于本领域中技术人员是常规的,能够查阅到方案 (protocol)的实例(例如在the Molecular Cloning:A Laboratory Manual (3-Volume Set)Ed.Joseph Sambrook,David W.Russel,和Joe Sambrook, Cold Spring Harbor Laboratory;3rd edition(January 15,2001),ISBN: 0879695773中)。特定用于PCR扩增的方法的特别有用的方案源是PCR (Basics:From Background to Bench)(作者M.J.McPherson,S.G.MOl ler,R.Beynon,C.Howe,Springer Verlag;1st edition(October 15,2000), ISBN:0387916008)。
[152]这些正常变异知识管理工具使用一致的且有利的平台(即tiling path BAC微阵列或其它市售可得的阵列),包括来自多种种群的至少100、 1,000、2,000、5,000、7,000或10,000个正常个体的分型。使用系统的、一 致的、综合的且有力的系统来开发KMT以产生该技术的核。尽管来自不 同平台的生成的数据能够被认为是相同的,但实际上各个系统具有一些固 有的方法上缺点。然而,本发明的系统具有独特的强度,以便来自任何平 台的样品能够与正常拷贝数变异知识管理工具比较以从异常变异中辨别 正常变异。所述KMT用于评估来自亲代的基因谱以更精确地识别与特定 疾病状态相关联的变异。另外本发明的另一个方面包括以正确的形式(产 生KMT)制造和销售aCGH工具的产品。为特定疾病状态制造cCGH的 阵列且被构造以考虑到许多潜在疾病与相似症状的区别。另外,对于那些 不希望亲自进行实验人,提供服务来进行使用相同平台(用于生成KMT) 的试验。
[153]在本发明的一个方面,KMT用于识别受试者中拷贝数变体的关联性 的方法,由此进行受试者的全基因筛选以识别拷贝数变异,并随后,所述 变异与从个体的种群获得的正常拷贝数变异的数据库进行比较。所述个体 的数量为至少100、1000、2000、3000、4000、5000、6000、7000、8000、 9000、2510,000、20,000、30,000、40,000或50,000个个体。另外,在KMT 中包括的正常拷贝数变异的数量至少为100、200、300、400、500、600、 700、800、900、1000、5000、10,000、20,000、50,000、100,000、1,000,000、 10,000,000或1,000,000,000。
[154]基于KMT(知识管理工具)的阵列CGH使细胞遗传学家和诊断医 生准确地诊断亚显微的染色体异常。所述正常变异KMT具有与任何类型 的阵列CGH平台的灵活的相容性,产生细胞遗传诊断工业的金标准。
[155]最近的二十多年中在普通/复杂疾病的研究中已经投资了亿万美元。 为这种疾病(精神分裂症、糖尿病、肥胖、阿尔茨海默病等等)的基础的 主要的假说为所谓的“多基因模型”。该模型假设复等位基因的存在、各 个弱作用,其一起引起表现型。大量的基金已经特定地用于络合物病症中 研究的联系和关联,然而,功能性SNP或表达谱的解析尚未平行于下述的 承诺:人类基因组、国际人类基因组单体型图(International Hap Map) 或日本千年计划。很多单个基因/单个突变病症引起落在络合物/普通的种 类中的表现型。例如,染色体22q11的微缺失(microdeletion)在三分之 一的全部患病的成年人的引起精神病(精神分裂症)的表现。这代表在该 状态中精神分裂症的33倍增加的风险,相对于一般人群的1%的风险。一 般认为,在这些个体中的单独的或相关的基因变化为22q11的微缺失。导 致传统上被认为是多基因的病症的特定突变的另外的实施例为先天性心 脏病、阿尔茨海默病、帕金森氏症和糖尿病。
[156]先天性心脏病是一个种类的疾病,其影响1%的全部新生儿且传统 上被认为是复杂的病因学,但其易于起因于在不同个体中的独立的基因损 伤,其中的每个具有一个主要的突变,可能涉及的是22q11的微突变。
[157]仅阿尔茨海默病的少数确定的基因损伤被已知是成因的,其包括早 老素中的突变。尽管仅存在相关的小百分比的全部患者中,相似的机制将 被认为在大多数个体中发挥重要的作用。
[158]在帕金森氏症突变中的α-突触核蛋白(alpha-synuclein)已经在少 数族中发现。在这些个体中,在基因中的突变能够单独说明所述疾病的原 因。这是另一个多基因模型的证据。
[159]大多数已知的糖尿指向涉及在不同个体中很多单基因突变。
[160]针对筛选和进一步研究的一些重要的状况或疾病包括自闭症、冠状 动脉疾病、阿尔茨海默病、帕金森氏症、精神分裂症、中风、糖尿病和两 极型异常的风险。应该指出的是,上文所公开的不同的实施方式不意图限 制或排除本发明所包括的其它的组合物和方法的实施例。
[161]当以有些时候可能相关,多基因模型被认为不需要普遍调用 (invoke)。就具有差别的个体而言,表现型被认为是复杂的,然而是独特 的,变异可以全部受相同的终止表现型(end phenotype)的损害。这是由 于表现型的“空间”比基因型的“空间”小很多。换句话说,潜在存在的 基因变化的数量是巨大的,而识别的表现型的数量在数量上更为有限。该 现象的另外的实例包括智力迟钝(几十个基因对于其是易于已知单独在X 染色体上,且数百个在非性别染色体上的等待识别)和贫血,对于其上百 种原因(遗传或环境的)列在标准医学教科书中。
[162]例如在具有自闭症(ASD)谱群疾病的个体中,有证据表明ASD是 高度异形紊乱(heterogeneous disorder)。异形指的是ASD似乎起因于大 量的不同的生物/遗传异常。在80个诊断为ASD的人受试者中的拷贝数变 异(CNV)的初步分析(与300个以上正常人个体相比)揭示许多受影响 的基因组的10个区域,深入地检查具有该区域的患者,表明其与ASD高 度显著地相关。识别80(2.5%)以外(out of 80)的两个家庭,其中异常 发生在接触蛋白4基因(CNTN4)中,该基因位于3号染色体的上,在 3p26处。另外,未发现该基因在任何正常个体中显著改变,表明CNTN4 有原因地伴随于ASD某些病例。在ASD族中的识别该15个基因的缺失和 复制,在所有的病例中仅影响CNTN4。使用荧光原位杂交(FISH)确认 这些结果。所述缺失/复制完全在CNTN4基因的基因组范围内,表明未涉 及在3p上的其它基因。
[163]统计分析表明如果2.5%的自闭症的病例与CNTN4异常相关,则 97.5%无关。如果这是随机概率的结果,则将有2.5%的概率任何正常个体 将具有在相同基因中的异常,97.5%的概率其将不具有。300名个体中没有 这种异常的概率为(0.975)^300=5.10^-4,其表明CNTN4异常表现为与 ASD高度相关。
[164]所述CNTN4基因先前已经表现为在有与重新平衡易位相关的学习 困难的个体中中断(interrupt)。该患者具有“3p-综合征”的特征。所述 CNTN4基因在功能上涉及轴突生长。另外,一些具有自闭症的患者的遗 传隔离(genetic isolate)已经表明显现与3号染色体的相同区域的遗传连 (genetic linkage)。
[165]用于识别所述与ASD相关联的CNTN4基因的方法能够用于识别其 它ASD涉及的基因。可以预想,该方法能够用于连续地识别ASD涉及的 基因,因此,增加原因已知的ASD个体的百分比。到目前为止,很多遗传 病已知与自闭特征相关联(例如,FRAXA和Rett综合症)。然而,在35 个成年的病例中,这些病症以其它的名字被公知且不只与自闭症相关联。 这对于ASD的其它原因的突变可能也是真实的。ASD的亚族的进一步的 表型分析(由新生物标记所确定)将揭示至今尚未了解的显著特征(这是 由于当ASD作为异形族的研究时的稀释效应)。
[166]由CNTN4基因获得的结果的高度的关联表明其能够用于自闭症的 诊断试验的基础。该分析将涉及获得含有疑似具有自闭症的人类患者的 DNA的样品以及检测存在于接触蛋白基因4(CNTN4)(位于3号染色体) 中异常的存在。用于这种分析的适合的样品包括但不限于口腔试子、血液 样品、组织样品、排泄物样品、尿液样品和毛囊。异常包括但不限于染色 体的非整倍性、扩增、缺失、复制、插入和易位;以及亚显微染色体扩增、 缺失、复制、插入、易位。能够使用多种技术进行试验,包括直接测序法、 PCR、定量分析PCR(realtime PCR)例如TAQMAN、凝胶电泳、限制 性片段长度多态性分型、STR分型、MLPA和SNP分型(使用常规模式 和标记)。在另外的实施方式中,可以提供自闭症个体使用的分析或筛选 试剂盒。这种试剂盒将包括相关方案所需的材料(例如引物和试剂)。常 规标记,例如荧光标记物将包括在基因探针上。在一些实施方式中,试剂 盒使用引物和设计为仅产生在具有导致自闭症的异常的个体中的扩增产 物的方案。
[167]在一个实施方式中,所述试剂盒包含组分以检测在3p26的中断 CNTN4的微缺失。该试剂盒仅包含与侧面攻击3p26微缺失的基因区域杂 交的引物。在一些实施方式中,该试剂盒杂交到SEQ ID 1和SEQ ID 2的 引物。该是试剂盒包含方案和任意的PCR反应试剂(例如dNTPS、聚合 酶、缓冲液和Mg盐溶液)。该方案将列出能够与包含的PCR引物使用的 反应条件以仅与包含3p26微缺失的DNA产生扩增产物。能够使用本领域 已知技术(例如电泳或定量分析PCR)来将扩增产物可视化。扩增产品的 存在符合3p26微缺失,其表明所述对象具有自闭症。其它在CNTN4中的 缺失可发现谁的断裂点与本文所公开的断裂点不一致。因此,检测在基因 中序列的减少的剂量的方法,而不是仅检测特定端点(endpoint)的方法 可能是有用的(例如MLPA或qPCR)。然而,连接片段PCR的一个益处 是其考虑到大同类者或对象的非常快速的检查。
[168]这些结果表明,在要求的一个实施方式中,本发明能够用于针对与 自闭症相关的其它拷贝数变异来筛选疑似具有自闭症的人。所获得的结果 随后与在正常人中的拷贝数变异的数据库比较。该比较将识别与自闭症相 关的拷贝数变异并考虑到疑似具有自闭症的人中用于诊断自闭症的试验 的产物。
[169]尽管医学相关的标记物被从CGH微阵列识别并开发,并包括在 KMT中,但针对生物标记的后续的诊断试验(起因于针对识别特殊疾病 的本发明的比较)典型地不是基于微阵列。使用KMT识别而非一次性识 别与特异性疾病或状况关联的限制性的生物标记,可以使用很多常规测定 方案来检测所述生物标记。为方便起见,成本效益、生产强度 (manufacturing ease)和满足相等的灵敏度,所述检测是基于溶液的。所 述新的诊断检测是揭示疾病机理的KMT的直接结果,共有和罕见的。商 业模型包括重要检测的引入授权(in-licensing)和内部开发的检测的对外 授权(out-licensing),其通过医药相关基因座对外授权和对进行检测重要 的产品的销售。
[170]从正常变异数据库产生的是另一个列出全基因组拷贝数断裂点图谱 的KMT。对于全部拷贝数变异的诊断检测来自于在分子水平理解这些变 异的精确的边界。所述拷贝数断裂点图谱针对与受试者的基因组的PCR 检测比较来识别正常的变异。其又一次允许技术人员识别拷贝数变异的显 著性。
[171]本发明的另外的方面涉及研究和研究服务。全世界存在有数百个使 用CGH作为关联染色体数异常(但不限于确定疾病病因学的关联)的方 法的研究实验室。正常变异KMT将对于这些研究者是关键的以识别和表 征医学相关的基因座,因为识别变异基本是更不显著的——如果这种变异 不与在正常种群中的变异比较。本发明的KMT将提供给研究者以允许建 立医学相关的生物标记的“从实验室到病床(bench to bedside)”的线路, 其通过估计在疾病状态中(对比在正常状态中个体)个体中染色体异常的 重要性。尽管与这些研究者合作,但更多信息将收集、编译、添加至KMT, 并通过医学相关的基因座的引入授权程序翻译至CLIA实验室中的诊断检 测。另外,所提供的服务将允许研究者将其患者样品的收集发送到所述 CLIA实验室用于分析和评估。所述商业方法包括为那些想要处理其自己 的信息的研究者使用KMT颁发许可,退回许可以从研究者获得生物标记 的另外的发现且为服务的供应颁发许可。这些服务包括使用aCGH或PCR 和/或与KMT比较的样品的分析。
[172]如果个体以自己的因素被检测,共同表型中的基因研究可能首先产 生结果。换句话说,表型需要再分直到识别到特定个体中的特异性基因变 化。目前研究的目的在于具有(显然地)相同表型的个体的混合物的分析, 但以基因原因的观点该表型似乎基本上不同。至于贫血,该观点是固定的。 没有患者现在接受来自他或她的医生的贫血的诊断(没有进一步的病因学 上的信息——缺症(基因的/饮食的),叶酸缺乏症等等),任何基金代机 构也不将值得其贫血中的盐支持结合研究(salt countenance a linkage study),因为该表型的异形性现在广泛地被接受。贫血中的结合分析(即 具有贫血的几百个个体的研究,全部集中在一起)将可能产生不确定的结 果。
[173]和继续建立和扩大在一般种群中拷贝数变异的知识库一起,该合作 和个体研究也将识别大范围病症中的基础病因学,其取决于对于所述分析 哪个患者样品被收集或要求。阵列CGH的合并起因于通过协议的合作者, 允许另外的匿名或保密信息,因此加入到KMT的统计功效中。点的重要 性是每个个体以其自己的因素的研究,没有内含在结合/联合研究中的统计 方法,其中具有多基因病因学的个体可能已经集中在一起。应该相信的是, 全基因拷贝数检测是针对变异筛选基因组的最有力和有效的方法,正常和 潜在地与疾病相关联。
[174]包含在所述研究中的是基础研究,其包括基因组的获得或损失的基 因组的分析,其是插入和缺失,与疾病亲缘关系相比较。这些变化针对其 潜在的使用作为信息的生物标记来筛选。
[175]也包括在纵向研究中使用阵列CGH的临床研究以在所述疾病的进 展中在不同的点提供基因组“快照”。例如,这些诊断快照(在应用治疗 法的治疗后,和在复发期间)提供更好的疾病进展和与所述疾病相关的基 因组不稳定性评估的理解。例如,这特定地用于某些癌症。该检测将改善 治疗,其通过辅助识别这些亚种群和将其连接至所述治疗。另外,CLIA 实验室装备这些基础设备以运行具有所述能力的全基因阵列CGH CLIA 调整的临床研究以进行针对其它作为合约服务的数据分析。
[176]翻译药物是转化医学(Translational medicine)是本发明的另一个 方面,提供从内部正常变异生物标记发现程序和引入授权标记物(来自所 述研究服务核程序)出现的新数据,并将其转化为患者的直接的益处。该 转化医学将通过将研究发现尽快向患者陈述来加速诊断学的可用性。所述 CLIA实验室是持续研究基因组的核心设备并联合所述状态和/或疾病和用 于改进治疗法的治疗。所述CILA用于进行个体的分析来继续建立和扩大 KMT,用于筛选受试者来获得基因组信息,用于比较和进行任何诊断检测 (使用来自比较KMT所识别的生物标记)。
[177]本发明的另一个方面是预测性和个体化用药。医疗系统承认个体化 用药方法对于独特地、特异性地和最佳地治疗各个患者是最有力的。相当 于确定的疾病状态,KMT的使用对于解释染色体变化是至关重要的。包 括在病态染色体变异中的基因代表对于治疗学治疗的靶向,以及分离的患 者的种群的基因组成允许个体化治疗。在新技术和产品的发展中但也着眼 于现有医疗,个体化治疗要求IVD的更多的强调和诊断和治疗机构间的更 大合作。使用药物基因组学和毒物基因组学来针对拷贝数变异比较患者的 样品和KMT,这允许针对某些患者种群来识别最有效的药物。包括在该 评估中的是药物机理的基因基础(包括毒性)来辅助靶向治疗。证据是明 确的,其阵列CGH数据用于预测性用药。
[178]病例研究#1.预后指标——斯隆凯特林癌症研究中心(Sloan Kettering)的组已经使用该技术作为预后指标来预测具有弥撒性大B细胞 淋巴瘤(DLBCL)的患者的结果,该患者将具有良好或不好的存活率—— 不依赖于常规使用的临床特征。这些与结果相关的小基因组区域可用基因 表达研究进行跟踪,且可以在DLBCL中重要的揭示靶向基因。
[179]病例研究#1.治疗诊断学开发工具——三点位检测以预测卵巢癌中 的耐药性:加州大学伯克利分校和旧金山分校(Berkeley and UCSF)进行 全基因分析以识别畸变,该畸变最有力地与用铂/紫杉醇在卵巢癌中的治疗 的弱应答相关联。基因组拷贝数的比较基因组杂交(CGH)研究表明在3 号染色体位点上的区域中的循环扩增。加州大学伯克利分校和旧金山分校 已经开发能够用于多种检测技术的标记来检测这些扩增。它们已经识别 PVT1基因作为药物耐受性的卵巢癌肿瘤的潜在的预报器和有希望的治疗 剂。所述在8q24染色体位置SEQ ID NO:4的扩增区域的PVT1基因图是 在铂/紫杉醇治疗的患者中最有力地与减少的存活期相关联的。PVT1的转 录水平与卵巢细胞株中的DNA拷贝数变异高度相关,PVT1基因的高度扩 增和/或过量表达显著地与减少的存活时间相关联。
[180]应用PVT1抑制剂的研究强化PVT1的值作为预测性的标记物和肿 瘤的治疗靶向,其不应答基于铂/紫杉醇的治疗。在处理过量表达降低PVT1 转录的siRNA的PVT1的四个细胞株后,伯克利实验室/UCSF科学家发现 细胞增殖被抑制。不扩增或过量表达PVT1的细胞株的siRNA处理不会抑 制生长或诱导细胞死亡。这些研究表明siRNA或靶向所述基因小分子抑制 剂是有希望的针对化学抵抗性肿瘤的治疗。当与铂加紫杉醇治疗联合时这 种治疗会增强。该组已经开发48预后BAC克隆的阵列作为预测晚期血清 卵巢癌患者的低存活率的标记物。克隆含有位于13号染色体上的序列的区 域被发现将差或良好预后的特异性的标记物定级。所述预测方法规则基于 在这些48个患者结果的区域拷贝数变化的校正。
[181]已经使用来自40个患者的肿瘤样品来开发该技术并在30个具有晚 期血清卵巢癌的患者的独立组中进行试验,其中其预测的77%成功率的存 活率结果。这些现有研究以非常小的规模使用小量的个体成员来进行,且 没有与正常或异常拷贝数来对比。
[182]个体化用药在药物基因组学的领域中是尤其相关的。药物基因组学 信息在临床使用情况中非常有用,其中对比信息用于预防药物毒性。例如, 经常在基因或染色体区域中筛选患者的基因的差别,其与医学重要性(例 如,疾病状态)的表型相关。然而,所观测到的小比例的药物毒性已经通 过至今可获得的一系列药物基因组标记物来充分地解释。另外,“离群的” 个体或发生在临床试验中为预期到的效应的个体(当所施用的药物先前已 经证明安全且有效),在获得FDA药物批准中造成实质上的延缓且可以甚 至造成某些药物退出市场)——尽管这种药物对于大多数的受试者可以是 有效的。
[183]各种生物技术方法至今应用于识别靶向基因组区域,包括,例如基 本上在对照和病例样品间的基因表达中需求差别的差别基因表达;用于识 别药物受体及其直接效应器的蛋白质-蛋白质相互作用图;以及针对相似于 已知疾病相关的、药物代谢动力学或药效学的序列开发人类或非人类的序 列数据库。相比之下,具有特异性表型特征的关联且确认基因组区域的联 合研究依赖种群基因组和有力的统计因素。关联研究提供有力的工具以在 更短的时间内获得更大量的信息,因此减少研究成本和开发难度。然而, 本发明提供比在相关领域中所使用的联合研究更有力工具,因为在个体中 所识别的任何基因/基因组变异于KMT所提供的正常变异数据相关。在联 合研究中,表型与总基因组信息相关。然而,特定的表型将典型地为很多 基因型的结果。
[184]本发明的KMT允许这些基因型的差别的更好的评估,且允许拷贝 数变异连接于在更大的族中的更小的亚种群,且与特定的效果相关,例如 更好或更差的药物。因此,能够分析药物治疗的效用和毒性。拷贝数异常 的确是关键的遗传组分,药物公司将使用其以区分药物效用和个体中的不 良反应。
[185]在进一步的药物商业化的过程中,制药公司投资包括数亿美元来开 发新产品,仅由于具有不可预测的效应的临床试验的参与者而遭受巨大的 损失(例如,增加的毒性或者不足或没有对所试验的药物应答)。为克服 阴性结果、获得更快的批准和补偿损失,制药公司需要临床试验参与者的 基因谱的联合作用。能够预测种群中的哪个个体将耐受或阳性应答所试验 的药物,和/或哪个个体将经历阴性的副作用或没有药物带来的显著的改 善,这对于制药公司是非常有利的。
[186]药物研究和开发过程包括来自药物发现的靶向基因组区域的发现的 所有和最终产物。目前该方法是漫长的、昂贵的且具有风险的。平均来看 开发新产品从最初研究实验室阶段到FDA批准一般需要十四年的时间。 任何延迟潜在药物的商业化和开发过程的事件能够每年造成受影响的公 司高至十亿美元的收入的损失。相反地,任何加速潜在药物的商业化或开 发周期变化的变化能够为实现这些变化的受影响的公司带来显著的财政 利益。
[187]加速上市时间(time-to-market)不仅带来早期销售收入的益处还有 在其竞争者前第一个进入市场而扩大的市场份额。这是关键的,因为对于 在新市场治疗类别中的第一个药物的市场的独家专营权的期限比能够预 期的药短得多。结果,由于公司要维持或增加市场份额,市场消费已经快 速地增加。
[188]除了上市时间以外,成功地使其通过十四年中所有步骤的任何化合 物的优势是微小的。统计表明,在临床前开发中开始的5,000个化合物, 仅有5个进入临床试验,且仅有15个可能进入市场。长期开发周期和高风 险率的结合导致成功使FDA批准的化合物的平均成本大约为5亿美元。 因此,改进批准的效率和时机的商业系统和方法是非常有价值的。
[189]制药公司已经认识到需要在其药物开发过程中使用基因组学来改进 研究和开发效率。这样的努力对于公司配合历史收入增殖水平和适应股东 的期望是必要的。制药公司的效率驱动在研究和临床开发周期中提供了全 基因扫描技术。
[190]本商业模式和方法的应用的一个实例能够在种群细分(population segmentation)中发现。一般所公知的是大多数药物对于一些患者比其它 的更为有效。因为在患者应答中的变异性通常是理解不充分的,制药公司 可以不必要地终止进一步的药物开发,未能获得有希望的候选药物的批 准,或如果获得批准,不能有效销售批准的药物或获得第三方偿付(third party reimbursement)的批准。
[191]基因组差别已经长期被认识到作为影响患者如何应答药物。然而, 制药公司普遍没有在开发和完成临床试验间或在所批准的药物的销售中 考虑基因组的差别。通过将临床试验中的基因组变异与药物应答关联,可 能改进药物开发和市场过程。例如,制药公司会使用来自早期临床试验相 关数据以对于是否继续进行临床试验、进入试验后期或哪些患者在后期 (例如,III或IV期)登记做出更综合的决定。例如,用阳性药物应答的 遗传倾向登记患者能够改进这些患者的治疗指数且促进批准的可能性。
[192]另外,理解在基因组差异和药物应答间的关联能够通过识别种群的 细分(对于该种群特定的药物比其它药物可能更有效)使制药公司改善药 物市场,并鼓励医师优先地给这些患者开这种药物。该商业方法包括在研 究和临床试验中给制药公司颁发KMT使用来尽可能解释和最优化结果。 另外,有使制药公司形成联系或合伙的方法以从事在与开发临床试验相关 的患者种群的基因组特征的研究。作为在协议的一部分,所述商业将提供 有力的KMT且公司将在试验和分析期间提供收集的额外的信息。能够通 过继续医学教育、同行评审(peer-review)期刊、因特网、印刷广告或直 接销售电话来完成对于医师的推销。另外,通过使用本文公开的信息,公 司能够更好地销售药物,其通过从非应答者种群分离应答者种群,或通过 从未遭受副作用的种群分离遭受副作用的种群。这可以进一步地允许公司 在市场上维持药物,否则该药物将退出或再推出由于副作用而已经退出的 药物。
[193]典型地开发的药物来与基因产物的单一类型相互作用,例如,人类 或非人类动物对象的蛋白质或受体。因此,药物例如仅可以在个体中有效, 该个体具有编码特异性蛋白质或受体(药物针对其而设计)的特异性的变 异。不具有在这些区域中或在药物代谢涉及的区域中的遗传造成的变异的 个体不会应答所述药物或不可以产生副作用,例如增加的毒性。
[194]当考虑基因组变异时,由制药工业所使用来开发新药并改进当前的 药物的方法可以改变。基因组变异可在研发和药物发现的全部阶段中发挥 显著的作用。基因组变异信息也能够通过为特定患者向更好选择药物来用 于改进已经上市的药物。
[195]为了进一步说明本文解决的困难,药物能够直接和/或间接地,与多 种被不同基因组区域编码和调节的不同的蛋白质相互作用。因此,不止一 个基因组区域能够决定个体对所给药物如何响应。本文所述发明能够识别 所述的多个区域。因为遗传变异很容易理解,个体对所给药物的应答依赖 于个体独特的基因组或基因组中更特异性的变异,这一点也很清晰。所产 生的所述信息也能够被用来开发诊断试剂盒,以识别与状态、疾病或给药 结果相关联的基因组标记物。这些试验能够被用来诊断和预测最佳疗程
[196]基于特异性基因组相似性或相似CNV模式,在分组个体中发现了理 解为什么不同个体对于相同的药物应答不同的一种实用方法。这些基因组 的相似性能够在来自于不同种族和/或不同地理区域的无亲属关系的个体 之间出现。识别和联合具有通过完整基因组、完整种群或亚种群的表型状 态(例如,疾病和药物应答)的遗传变异的能力,能够使整个药物开发过 程变得容易,也能够缩短治疗法的上市时间。例如,所选的患者种群亚型 的遗传谱可以用于使制药公司能够识别药物靶向、关注潜在的更有潜力的 先导药物,并更快地进入筛选检测。此外,更好的药物靶点也能够提供更 安全、更有效的干预疗法作用点。
[197]本文所公开的方法和商业系统所拥有的市场包括但不限于,遗传变 异与药物应答的评估、识别和验证靶区的遗传变异的评估、变异和对疾病 易感性的评估、可能含有基因调节序列的保守非编码区的识别、遗传变异 和影响发育的调节区域的评估,以及与商业潜力(例如在消费型产品和农 业中)有关的其他基因型-表型的评估。关于全基因组模式信息、保守区信 息、患者生活型服务的潜在的消费者或合作者以及其他科学合作组织包 括,例如,大多数制药、生物技术公司和农业企业、以及学术中心和政府 研究机构。
[198]本发明所公开的商业方法的其它潜在的用户或合作者包括,例如医 疗保健供应商、保险公司、政府实体(例如医疗补助、医疗保险)和雇主 或任何其它相关实体(其关注于获得更经济或有效的系统来提供或偿还医 疗或人寿保险)。这种参与者能够利用关联研究来选择性地为患者(所述 患者对于基因药物的副作用敏感)批准昂贵的药物,更好地在为其提供保 险前评估个体遭受疾病(或死亡)可能性且为其选择更有效的健康和人寿 保险费用。这些参与者可以针对拷贝数变异为与KMT关联的本文的联合 研究提供资金和/或样品源来。
[199]本文所述的商业系统与方法进一步包含,例如,DNA扫描与晶片技 术的发展和通过研究合作使用那种技术的基因组扫描能力识别商业上有 价值的遗传区域,以及使用渗入本文所公开的KMT的相关性研究检验这 些结果。
[200]在另一实施方式中,使用本文所述的方法所获得的结果用于分析基 因组变异体,或诊断个体(例如,患者)的疾病状态。在进一步的实施方 式中,分析基因组变异体、使适应个体化的药物治疗或诊断疾病的方法包 括审查或分析从受试者(诸如,患者)获得的与基因组变异体相关的数据, 并将这些数据与本发明的KMT相比较,其提供正常的拷贝数变异数据。 结论常常以报告的形式提供给患者、保健提供者、或保健管理者,该结论 基于关于以下的数据的审查或分析:疾病诊断、对状态或疾病的易感性、 关于基因组发现的遗传评估和建议,或关于治疗处置的建议或繁殖手段的 改进。预想在另一实施方式中,给人类患者、保健提供者、或保健管理者 提供的结论包含通过网络传输数据使得该报告以电子格式交送。预想在进 一步的实施方式中,向以下提供关于非人类动物受试者或受试者群的报告 或结论包含通过网络传输数据使得该报告以电子格式交送:所述非人类动 物受试者或受试者群的拥有者、农民、牧场主、家畜饲养者、种畜登记处、 禽兽保健提供者、研究组织或制药公司。
[201]图4为方块图,其示出了逻辑装置的代表性实例,通过该逻辑装置 能够实现审查和分析关于本发明的数据。这样的数据可能与个体中疾病、 紊乱或情形相关。图4示出了计算机系统800,其连接至用于与所述扫描 感知系统一起使用以便例如产生结果的设备820。所述计算机系统800可 被理解为能够阅读来自媒体811和/或网络端口805的指令的逻辑设备,其 能够根据情况连接至具有固定媒体812的服务器809。该系统(图4)包含 CPU801、磁盘驱动803、可选择的输入装置(诸如键盘815和/或鼠标816 和可选择的监控器807)。数据传输能够通过指令给当地或遥远位置的服务 器809的传输媒体来实现。所述传输媒体可能包含任意传输和/接收数据的 手段。例如,所述传输媒体可能使网络连接、无线连接或因特网连接。这 样的连接能够在万维网(World Wide Web)内提供传输。预想涉及本发明 的数据能够通过这样的网络或连接来传输以用于当事人(party)822接收 和/或审查。所述当事人822可能是患者、保健提供者、或保健管理者。
[202]在一个实施方式中,计算机可读媒体包含适合用于环境或生物样品 的分析结果的传输的媒体。该媒体可能包含关于疾病情形和受试者状态的 结果,其中这样的结果使用本文所述的方法获得。
[203]在另一个实施方式中,计算机可执行逻辑提供用于执行来自受试者 关于一个或多个染色体异常(例如,拷贝数变异)的结果之间的比较。所 述计算机可执行逻辑使用来自本发明的KMT的数据,其含有关于以下中 拷贝数变异频率的信息:正常种群、统计学显著性种群、统计学相关种群, 或至少100、1000、5,000、10,000、20,000、30,000、40,000或50,000个个 体的种群。在一个优选实施方式中,所述计算机可执行逻辑使用来自KMT 的数据来确定是否在受试者或受试者的同类者中所观察的变异体与表型 效应(例如,疾病)相关,或与正常变异体相关与表型效应(例如疾病) 不相关。所述计算机可执行逻辑能够用来在受试者或受试者的组中识别特 殊治疗剂的功效,特殊治疗剂的毒性(即,根据基因组结构变异分层 (stratify)患者病史表)。
[204]用于确定这样的相关性的计算机可执行逻辑被描述为:包括可执行 编码,其中激活所述可执行编码以执行以上所述的方法,包括接收一个或 多个受试者或受试者组的数据的行为,每一个提供一组数值或数值的数据 集;计算与每个受试者或受试者组相关的每个数据集的一组数值;选择最 适合该数据的数据模式,其中最佳模型当与染色体变异相比较时将指示受 试者或受试者组中所观察的染色体变异的频率以便提供诊断。这样的诊断 决定包含这样的变异体对表型效应(包含疾病、紊乱、候选药物或实际治 疗剂的功效或毒性)的相关性。这样的决定可能由计算机可执行逻辑或终 端用户来制作,由此以电子或纸质格式将结果显示给终端用户。
[205]此外,以上所述的任何信息或决定(例如,受试者或受试者组的拷 贝速变异频率或向统计学显著性或任何相应种群提供变异体频率信息)能 够储存在能够允许计算机可执行逻辑的媒体上。在一些实施方式中,计算 机可执行逻辑被描述为:包括具有储存在其中的计算机可执行逻辑(计算 机软件程序,包括程序代码)的计算机可用媒体。所述计算机可执行逻辑, 当由处理器执行时,使所述处理器执行本文所述的功能。在其它实施例中, 一些功能主要在硬件中执行(例如,硬件状态机)。执行所述硬件状态机 从而执行本文所述的功能对相关领域技术人员将是显而易见的。
[206]所述KMT能够被提供作为具有计算机可执行逻辑(用于接收来自 一个或多个受试者的基因组的信息)的计算机可读媒体上的计算机程序, 用于将该信息与正常拷贝数变异频率的数据库或所述拷贝数断裂点图谱 (KMT)对比以及用于对所述对比的评估或结果提供输出。关于拷贝数 (KMT)信息的数据库可以包含在所述计算机程序中或与所述程序可接 近。可接近而非渗入考虑到所述数据库较方便的升级和更改。
[207]执行对比的计算机系统也被提供,其包含输入关于拷贝数变异的受 试者基因组信息的能力。理想地,该信息可以数字格式直接从所述筛选技 术、CGH或PCR向所述计算机系统供应。所述计算机系统也包含或具有 进入所述数据库(KMT)的通道,执行所述对比和提供所述对比的输出结 果。
[208]所述商业方法考虑到穿过通道许可的KMT的商业化。商业产品的 零件可以是用于输入数据、运行最有效的对比并提供输出的计算机程序, 或仅仅是用于访问KMT的计算机程序。通常,所述许可可以包含用于撤 销许可(back-licensing)任何所述计算机程序识别的显著性额外拷贝数多 态性的供应。
[209]通过与所有重点药物和生物技术公司合作,R&D实验室执行了该公 司的临床样品的全基因组拷贝数扫描(genome wide copy number scans)。 所述全基因组拷贝数扫描使用种群中正常变异的内生性引擎来解释。陈胜 的信息是与药物的功效和/或不良反应相关的拷贝数多态性,所述药物可以 精确针对患者中那种特殊种群。与多态性的识别一起的检测被设计来测试 那些拷贝数多态性存在与否,其可由制药公司使用来分层各自临床试验中 的人类或非人类动物受试者。作为选择,根据所述商业模式,由其他人执 行阵列CGH分析之后,所述CLIA实验室使用正常变异引擎执行数据分 析和解释。此外,CLIA将执行临床检测,该临床检测根据数据分析来开 方。
[210]本发明个性化用药方面的部分包含治疗性救援。所述制药工业基于 困难现实面临极高的风险。一些关于药物功效或毒性的难以置信的事实强 调较适合的药物治疗方案的重要性。第五个主要的死亡原因是不良药物反 应。所开的药物在它们被开40-50%的期间内对患者不起作用。这——每 年被消费者花费用于无效治疗,在美国每年转换为$600亿,在日本每年转 换为$200亿。制药公司的临床试验渠道中大多数潜在药物候选者将因在足 够患者中失去功效或因在太多的患者中存在不良效应而从未使其通过监 管部门批准程序。该事实驱动了用于药物发展的不断升高的成本和随之发 生的在发展费用支出中损失的十亿数。当基于传统临床设计(其中,具有 遗传差异的患者显型相似地混在一起)药物未得到监管部门批准时,有效 百分比的治疗反应者或那些未显示不良反应的人被剥夺有效药物。因为患 者监查不易执行,所以已经上市的治疗冒有伤害患者的高风险。对于已经 信赖仅经历不良作用或失去功效的药物的患者,潜在的间接医药成本(即, 住院治疗)是令人惊愕的经济数字。
[211]所有这些事实强调了KMT的价值,所述KMT允许基于它们的基 因分布更好地评估患者的遗传组成和更集中的治疗。人们广泛接受个体的 遗传组成是区分药物反应者与非药物反应者的原因。人们也清楚个体的遗 传组成是区分某人对特殊药物治疗的不良反应水平的原因。因此,利用本 发明的KMT的患者筛选提供了区别重要变异与对所述显型和疾病或药物 治疗没有反应的那些的有效评估。通过利用所有该信息,细胞遗传学家将 从KMT产生诊断性建议。KMT的优势是它们灵活和通用的结构体系, 其允许与其它用于数据分析和解释的体系兼容。
[212]该连锁(linkage)的非常重要的方面是通过使用KMT进行临床试 验的药物救援以更好地基于它们的基因组分层患者,并识别用于可能较小 的组的患者的有效治疗。该救援在上市前和上市后均可能提供有用的药 物,该药物相反地可能已经被放弃且不治疗患者。批准之后,诸如通过 FDA,当他们通过疾病进展、平稳或改善阶段时,能够评估该药物并筛选 患者以基于反应继续分隔患者。
[213]额外的产物包含CGH微阵列、试剂和下游分析工具。优化微阵列 用于与MKT结合使用,并设计其以集中于不同的疾病状态。所述微阵列 被提供作为单独产物或与许可结合以访问KMT。由于内部拷贝数多态性 发现程序,另一个产物是医药相关的生物标记物的组合(portfolio)。这些 标记物是单独医药相关的标记物,其能够用在其自己的CLIA实验室内执 行的诊断服务。这些标记物也是人造的,且可以作为充分发展的检测在U.S. 或国外被诊断基准实验室或授权服务供应者直接利用。这些检测可以基于 PCR,或者提供其它扩增和缺失方法。另一可选择是作为对外许可 (out-license)用于具有独特的技术平台的平台公司的医药相关的生物标 记物,所述独特的技术平台作为承包方法(turnkey methodologies)在诊 断社区中建立。
[214]对用于CLIA实验室的服务菜单起作用的第二主要渠道将来自内部 生物标记物发现程序。在内部生物标记物发现程序内作投资将由市场潜能 来驱动。检测有关的部分清单是:自闭症、冠心病、阿尔茨海默氏病 (Alzheimer′s Disease)、帕金森病(Parkinson′s)、精神分裂症 (Schizophrenia)、中风、糖尿病、双极紊乱。CLIA设备的服务将通过直 销方式在国内销售。战略性联盟选择,诸如与国际实验室的联合营销协议, 可以考虑为用于建立全国范围而指示医生的手段。
[215]国内发展的检测将在国际间通过由商业发展建立的关系销售给授权 服务供应者。用于建立医药相关性作为在指定的社区内的合意的模式将建 立。然而,通常,其将包含经由与专业区域内医生协会合作的事务,所述 专业区域适合诊断应用的各自的医药实践。这些将是更高水平的商业和社 团发展活动。
[216]尽管上述发明已经为清楚理解的目的通过说明和实施例进行了详细 的描述,但是根据本发明的教导本领域技术人员很容易明白,没有脱离所 附权利要求的精神和范围可对本发明作某些变化和修改
[217]实施例
[218]实施例1:断裂点分析
[219]尽管有数百拷贝数多态性和倒位的描述,但是迄今为止极少足够详 细地分析允许在分子水平确定精确的边界。
[220]其中,已经研究了给定缺失、重复、倒位、易位(其被认为是正常 人群中的良性多态性),人们已经发现在无关个体中15个分子断裂点是同 样的。例如,确定在染色体8q24.3上的普通微缺失多态性在迄今被研究的 100个无关个体中有同样的断裂点。某一染色体8q24.3连接片段如下:
tgaaggatgt gtcagtggat tttgtgaaat aagccaagaa ttaaatgcct  140953717
TCTGCTGTGG CTGAATTTTG GTATTAGGCT TCTCTTTTGA TTGGATCAAG  140953767
GGATGATGAG TATCTCTGTA GAGAACAATg aataaATCac acaccattca  140953817
ataactgcca attctatcca gatgcctcgc tttcagatat gtcagctaac  140953867
                              ~180kb
ttagttaatc aataagcaca ctttgaacag ttatatcttt atagtcttaa  141135867
gctacatgca ggagcacaaT GTGTaTTAGG GAACCATTCT CACCCTGTAT  141135917
TGAAGTCCCT CATAGTCTGA TTGTAGTTTT AGTCAGCCTT ATTATCATCA  141135967
CAGTGTATGA CTTCATGAAG ATTTTTGAGA AATCATCAAG AGCATAGTGG  141136017
CTCCACTACA CATTTTTTTA TTTCTCTTTC CAACAGAACT TTAATGCTAT  141136067
TCAGGTGTTA ATTTTTCATC ACCATAGCCC ATGTGCTtta ggatttgaat  141136117
[221]此外,对欧洲人群的普通倒位多态性的新近研究表明了无关个体中 的同一性,并且与这种变异体的单一起源一致(吉林(Gilling)等人2006)。
[222]如果变异体是良性的,那么其可能在家族中遗传。这样,以上所述 的染色体8q24.3微缺失在所有家族中以直接孟德尔方式遗传直到目前被 观测。很少或没有反对该变异体出现的选择。可以推论,与疾病密切相关 的变异体是零星的(即,没有遗传)。一个好的实例是威廉斯综合症 (Williams syndrome),其与7ql 1.23处的缺失相关——这是一种严重的 神经发展失调,几乎总是(>99%)看到其在其它正常家庭(otherwise normal family)内的个别儿童中出现。在>99%的病例中,这样的缺失起 因于原发性病变(de novo)。在正常个体中,原发性基因组变化(在缺失 /重复水平)率相对低。换句话说,人们认为当与其父母相比较时,正常儿 童在他们的基因组中将有非常少的原发性缺失/重复。
[223]同样地,每一个拷贝数变异将作为唯一的事件在某些建立者个体中 产生(如以上所引用的欧洲倒位的案例中)。此外,由此得出结论在不同 人群中给定变异体的比率将显著不同。例如,以上所提及的8q24.3缺失(其 在高加索人中出现5%)在中国人和非裔美国人中出现水平非常低。
[224]假设‘良性’拷贝数变异在不同个体中将有同样的分子边界,那么 PCR检测能够用于辨认终点。在拷贝数变异中的断裂点分析能够以多种方 式来实现。变异染色体能够通过下述方法在体细胞杂种中分离:以啮齿类 细胞系融合人亲代细胞以及然后在不存在野生型染色体(大多数变异体是 杂交的)时测试亚克隆的变异染色体的存在。一旦变异染色体被分离,在 不存在野生型染色体时,就以直接方式来操作精细定位分析。在相关领域 该‘二倍体向单倍体的转化’被认为在杂交突变的分析中是重要的。确实, 已经基于二倍体/单倍体转化(GMP遗传公司)实现了商业应用。然而, 这样的应用以体细胞杂交分析为基础,该体细胞杂交分析是稳健的,但是 是耗时的并且是劳动密集的。
[225]使用创造传统寡核苷酸阵列的现代方法(安捷伦(Agilent)、尼布尔 基因(NimbleGen)CombiMatrix),可能产生以极高的分辨率(下至1bp) 特异性询问(interrogates)变异体近似终点的阵列。尽管拷贝数调用(copy number calls)不能够根据个体寡核苷酸的行为来精确地进行,但是它们能 够通过参照平均窗口和区隔分析来进行,因此,能够设计PCR引物用来 在边界终点扩增新型‘连接片段’。(图2:引物P1-P4)。
[226]这样的引物能够利用本领域的传统方法来设计。主要的是,该步骤 要求制备若干对低聚体,该低聚体中的一个成员含有与位于断裂点(即, 损害)侧面的DNA中的序列特定杂交的引物,且第二个成员含有杂交至 位于所述断裂点的另一侧上的基因的某一部分的引物,接着通过PCR扩 增DNA(图2)。在本领域中引物设计方法是常规的,且在以下专利文件 的公开内容中提供:WO 2002/99129;US 6,423,499;US 6,146,834;US 6,251,607;US 2005/0037414;US 6,892,141。
[227]例如,设计在拷贝数变化的染色体3p附近的嵌合寡核苷酸阵列被用 来实现这样的定位(尼特勒(Nittler)等人2005;描述嵌合寡核苷酸阵列)。 这种PCR扩增连接片段的简单测序揭示变异体的精确分子边界。
[228]一旦已知变异体的分子边界,简单的PCR检测能够在不借助阵列实 验的额外步骤/成本时,以最小成本检测从测试受试者或患者获得的基因组 DNA中变异体的存在。例如,引物能够在应用生物系统公司(Foster City, Calif.)的DNA合成器(Gelmann et al,1983,Nature 306:700:Bernard et al, 1983,EMBO J 2:2375;Petrini et al,1987,J.Immunology 10 138:1940)上合 成。模板DNA能够利用本领域常规方法从受试者中分离。随后,使模板 DNA(例如,200ng)经历PCR,本质上如塞基(Saiki)等人(1988,Science 239:487)所述。以Taq(水生栖热菌)聚合酶的扩增作用可以在100μl 含有DNA的反应混合物中,所述DNA在50mM KCl、10mM Tris-HCl (室温下pH8.3)、1.5mM MgCl2、0.01%明胶(w/v)、1μM各自的引物、 200μm各自的dNTP(dATP、dCTP、TTP、dGTP)中。将所述样品加 热至95℃ 2小时,在添加2个单位的聚合酶之前冷却至室温(大约22℃-24 ℃),并使其经历25-30个周期的PCR。扩增子随后能够使用本领域常规 方法来测序。
[229]例如,使用荧光去二氧核苷酸混合物通过ABI自动荧光测序机和经 由桑格型测序反应(Sanger-style sequencing reactions)产生的荧光标记测 序梯来进行测序。使用Qiagen QuickSpin柱、Agencourt AMPure PCR纯 化系统,或从其它卖主获得的PCR产物纯化盒纯化PCR产物。纯化PCR 产物之后,使用Nanodrop 7000分光光度计确定核苷浓度和纯度,测得PCR 产物浓度为25ng/l。因为是质量控制手段,因此只有UV光吸收率 (A260/A280)大于1.8的PCR产物被于测序。测序引物的浓度为3.2 pmol/l。
[230]如本文以上所述,当与其它平台相比较时,利用连接片段PCR的一 个重要方面是PCR在许多个体中检测给定拷贝数变化中的使用方便、时 间和成本方面更快且更有效。假设‘良性’拷贝数变异在不同的个体中将 有同等的分子边界,PCR断裂点全基因组分析(PCR breakpoint genome wide analysis)提供了更快且成本更低的检测。例如,任何人能够考虑在 10,000个个体中用于确定8q24.3缺失状态的必要条件。如果以阵列为基础 的方法,而不是全基因组分析,用于相关群组中的特异变异体(8q24.3缺 失)的确定,那么保守的成本评估是10,000 x $300(每阵列,包含标记成 本(labeling costs)等—非常保守的评估)=$3,000,000,其相当高使人不 敢问津(quite prohibitive)。
[231]与之形成鲜明的对比,如果确定是通过PCR,使用设计以询问终点 的特异检测,如本文以上所述,那么成本将低多个数量级。例如,每个PCR 坟茔的成本低于约$1(即,PCR的$1对阵列的$300)。另一个重要的考虑 是断裂点分析将十分适用于第三世界情况/研究,在该处aCGH事实上在 技术上和财政上是不切实际的。然而,对于全基因组分析(global genomic analysis),可供选择的平台(诸如阵列)是必需的。
[232]实施例2:基于阵列的比较基因组杂交
[233]对本领域技术人员来说,BAC阵列仅仅是用于拷贝数变异分析的一 种方法将立刻是显而易见的。如相关技术及本文以上所述,替代平台对拷 贝数变异(例如,不同阵列形式;安捷伦(Agilent)、昂飞(Affymetrix)、 尼布尔基因(NimbleGen)等)的分析是可利用的。关键的方面是本发明 的KMT能够利用替代平台或改进的现有平台来编译正常变异数据库。
[234]基因组DNA,能够从10,000个正常的、健康个体(50%女性;50 %男性)的血淋巴细胞中分离来提供DNA-基准或正常变异DNA。如果 需要,最初获得的几个样品将用于阵列确认。另外的基因组DNA能够从 以下中分离:具有经FISH检验已知的微缺失综合症的受试者、具有病因 不明的变形症(dysmorphisms)的受试者、或没有任何显示染色体异常的 可察觉的显型的受试者。受试者可通过临床遗传学家筛选,并接受诊断性 病情检查,包含没有诊断的常规性染色体分析(e.g.,checklist devleoped by de Vries et al.(2001))。从基准或试验受试者中获得的基因组DNA能够根 据厂商的说明书使用QIAamp kit(Qiagen)分离并纯化。
[235]克隆选择-一组良好表征的、菌落经纯化的且经FISH检验的BAC 克隆能够用于阵列解释。有若干可以利用的BAC基因库(例如,RPCI)。 BAC能够从PPCI BAC基因库中获得,该PPCI BAC基因库用作用于人 类基因组(欧斯厄加瓦(Osoegawa)等人,2001)的测序和定位的主要中 间底物。该组克隆能够包含通过与其它可利用的克隆组(例如,儿童医院 奥克兰研究所,BACPAC资源中心,以及其它组)合作选择的32,000个 克隆以覆盖1-Mb分辨率的基因组(张(Cheung)等人,2001)。关键点 是BAC阵列能够从各种来源中选择并合并。此外,BAC阵列的编辑被选 择以便提供高分辨率的检测(100kb)。例如,嵌合路径BAC阵列克隆组 可能将提供这样水平的分辨率。额外的克隆能够加入所述阵列,产生基因 组区域(例如,参与在特殊异常、疾病或情形中的已知区域)的更高分辨 率的覆盖,该覆盖包含5个全部人染色体(77个克隆)(耐特(Knight) 等人2000)的亚端粒区域和与已知微缺失染色体(30个克隆)相关联的区 域。最后,相关的特殊染色体能够通过添加用在以前的研究(凡特曼 (Veltman)等人2003b;扎法染阿(Zafarana)等人2003)中的克隆以 较高密度来覆盖。
[236]阵列准备。根据厂商的说明书,基因组目标DNA能够使用Qiagen BioRobot 9600(Qiagen)上的Qiagen R.E.A.L.Prep 96 BioRobot kits从 12-ml细菌培养物中分离。简并寡核苷酸引物(DOP)PCR或连接介导PCR (LM-PCR)能够在从全部克隆分离的DNA上执行,实质上如别处所描 述的(泰莱涅斯等人1992),有微小修改的(凡特曼等人2002)。DOP-PCR 和LM-PCR在相关技术的方法学中是常规的。Taq2000(Stratagene)可 以用作耐热聚合酶。DOP-PCR产物能够以浓度为1mg/ml溶解在50%的 DMSO溶液中,并且使用OmniGrid 100型打点机(基因组有限公司 (Genomic Solutions))一式三份机械点样至经CMT-GAPS涂覆的玻璃薄 膜上。该阵列将由亚格子组成,且在所述阵列的不同的亚格子中进行重复。
[237]标记和杂交。实质上如别处所描述的能够执行标记和杂交(凡特曼 等人2002)。简言之,基因组DNA能够以Cy3-dUTP或Cy5-dUTP(安玛 西亚(Amersham Biosciences))通过随机引物来标记。样品能够与120μg Cot-1DNA(罗氏)混合、共沉淀,并重悬浮在含有50%甲酰安、10%硫酸 葡聚糖、2xSSC、4% SDS和10mg/ml酵母tRNA(英杰(Invitrogen)) 的130ml的杂交溶液中。根据厂商的说明书,探针和目标DNA变性后, 能够使用GeneTAC杂交工作站(基因组有限公司)执行杂交和杂交后洗 涤程序。简言之,执行18-h具有探针活性循环的杂交,接着于45℃在50 %甲酰安/2x SSC进行五次杂交后洗涤循环,并于20℃在磷酸盐缓冲盐水 中进行五次洗涤循环。在水中简单洗涤之后,通过离心干燥薄膜
[238]图像分析和处理。薄膜能够在市售的扫描仪(例如,Axon扫描仪) 上扫描并成像。获得的微阵列图像能够使用GenePix Pro 6.0-(Axon仪 器)进行分析,如别处所描述的(凡特曼等人2002)。为了全部的进一步 的分析,象素的强度的中值减去中间区域背景能够用于所述阵列(Cy3和 Cy5,分别计算)上的每一个点。数据标准化能够以平均荧光强度(美国 城市(Cleveland)1979)为基础,通过将滤波因子为0.1的洛斯曲线拟合 (Lowess curve fitting)用于预知经log2变换的基准以上的测试(TVR) 值,在软件包SAS版本8.0中对每一个阵列亚格子来执行。这个滤波因子 能够产生最低百分比的假阳结果,同时不增加确认实验中的假阴结果的数 量。该滤波程序的结果是关于拷贝数增加或丢失的克隆比率与在没有滤波 的标准化程序中的相比较更接近于log2比率的正常范围。
[239]质量控制。能够排除个体实验三次重复中>0.3的SD的克隆,并且 这样的分析之后克隆有比两次重复更低的残留物。本领域可利用的统计分 析能够用于确定点质量(例如,设计用于aCGH分析的BlueGnome、 BlueFuse、或任何其它软件/硬件包)。在五个正常对正常的对照实验中的 至少四个中,不显示可靠杂交结果的克隆从全部实验中排除。没有详细分 析定位至性染色体(例如,n=163)的克隆。拷贝数增加或丢失的阈值能 够通过检查对照实验和以前出版的工作的结果来确定,且分别设置 log2T/R值为0.3和-0.3。当15%的克隆在这些区域外显示强度比率时,排 除该实验。本研究执行的40个实验中,有5个实现不满足这些质量标准。 这些实验被成功地重复。最终的数据集经由本文章的在线版本作为可下载 的电子附件是可以利用的。
[240]重复试验的分析。此外,也能够对每一个病例(患者或对照)执行 燃料交换实验。对于这两个实验的统计分析,能够使用软件包SAS版本 8.0(SAS研究所)中的二维检测,其中假设这对标准化比率遵循二元正态 分布(图1B和1D),则基准区域被计算含有99.999%的数据点(P p.99999)。假设没有缺失或重复区域,预期在因而产生的椭圆之外的数据 点的数是1/100,000#阵列上克隆数—在我们的病例中,为1/100,000#3,343 p0.03。在散点图中该基准区域之外,通过数据点表现的克隆是对微重复 或缺失事件的候选。然而,由于可以对每一个病例执行燃料交换实验,所 以数据点也必须位于散点图的正确象限(即,实验1为正号[患者1对对照 1]和实验2为负号[对照1对患者1]显示潜在地重复的克隆,而在两个实验 中缺失克隆显示相反的符号)。先验阈值和拷贝数增加(log2T/R值0.3) 或缺失(log2T/R值>0.3)因而被整合入该散点图中来显示对于微缺失或 重复事件的候选克隆。
[241]FISH确认实验。FISH确认实验能够使用常规程序从患者源细胞系 中制备的中期分裂相(metaphase spreads)上来执行。探针标记、薄膜制 备和杂交实际上能够如别处(德布鲁因等人2001)所述的来执行。蔡司落 射荧光显微镜,装备有合适的滤波器,能够用于薄膜的表观检查。使用耦 合至计算机上的高性能冷却式CCD照相机捕获数字图像。图像软件(例 如,图像FISH软件包(国际电力-Intergen))能够用于FISH图像的分 析。涂有DAPI的薄膜的倒像也能够用于染色体鉴别
[242]结果。前述10,000个个体的aCGH分析中的输出数据将提供正常拷 贝数变异的数据库,其能用在本发明的KMT中以在治疗疾病或设计疗法 中对测试受试者或患者或相同的组提供基因组评估。
[243]实施例3:比较分析
[244]一旦编译基准数据库,则能够利用相似的运算法则从测试受试者产 生拷贝数数据作为从用来创建正常变异数据库的同类者(cohorts)产生拷 贝数数据。对于以上实例中所描述的数据库,这样的分析将考虑到对相同 族群的10,000个体中具有正常预期的变异的给定个体的结果的直接比较。
[245]例如,使用phpmyadmin作为前端,MySQL或相似应用能用来创 建正常变异数据库。MySQL是具有大约六百万装置的多线、多用户的SQL 数据库管理系统(DBMS)。虽然根据GNU通用公共许可证(GPL)MySQL AB使MySQL可作为免费软件利用,但是对于意图使用与GPL不兼容的 情况根据传统所有权许可模式也是双重授权的。此外,MySQL在许多不 同的平台上运行—包含AIX、BSDi、FreeBSD、HP-UX、GNU/Linux、 Mac OS X、NetBSD、Novell NetWare、OpenBSD、OS/2 Warp、QNX、 SGI IRIX、Solaris、SunOS、SCO OpenServer、SCOUnixWare,、Tru64、 Windows 95、Windows 98、Windows NT、Windows 2000、Windows XP 以及Windows最近的版本。此外,也能够利用ORACLE或其它数据库。
[246]所述数据库可以通过MySQL内的命令行或使用web浏览器上方的 前端(诸如,phpmyadmin)来访问。Web浏览器访问是友好的用户,考 虑到经由‘按钮’界面的简单查询或复杂的MySQL查询。
[247]
[248]数据库将含有编译用于受试者(例如,10,000,如以上实施例2)的 选择数的aCGH结果,其包含任何所应用软件包(BlueFuse、GenePix Pro 等)的统计输出。数据将被编译为各种MySQL表格,且将广泛索引这些 表格。此外,将创建二级表格,这将考虑到aCGH源比率的内部归一化。 例如,在执行性别错配(男性对女性)的aCGH实验中,在这样的种类中 比率将被归一化。这样,在归一化之后,因性染色体之一的相应常染色体 区域的同源性引起偏斜的任意常染色体的比率将消失。此外,性染色体的 比率将被归一化,从而调用能够在所述性染色体上进行,甚至当实验被执 行为性别错配实验时。
[249]当然,数据的真实值将来自性别匹配实验,其将更容易地帮助鉴别 (“调用”)在所述性染色体和别处上的改变。性染色体错配的使用在本领 域中已经是普遍存在的,这是因为其考虑到确认所述实验已经运行(即, 通过观察X和Y的比率)。
[250]例如,如果已经发现测试受试者拥有5格拷贝数变异,A-E,对于 每一个,将在相应的、种族匹配的同类者内的那种改变发生频率的数据库 中作搜索。根据结果,提供的统计可能是所观察的拷贝数变异在测试受试 者的疾病(参见,表1,见前)的病因中是重要的。
[251]因此,对于这样的测试受试者的示例性的报告将为:
表3

[252]这样的报告也可以根据其它临床资料来解释。如果测试受试者有罕 见的基因紊乱,则明显暗示变异体E应该是考虑的原因。然而,在罕见基 因紊乱的病例中,负责任的临床医生能够进一步收集罕见紊乱的病例,并 立即对变异体E的存在进行测试。在一般紊乱的病例中,该变异体也是重 要的,因为所述变异体除了是对病因产生引人注目的洞悉的变异体之外, 可能是糖尿病的极为罕见的原因。统计分析将在以上所述的分析中起到重 要的作用,但是没有本发明的KMT和基准数据库,识别变异体的显著性 是不可能的。
[253]总之,数据库将包括10,000个来自不同族群、使用互补但不同的平 台的正常个体的同类者。将用统计阈值来限定拷贝数变化。这些阈值将在 不同平台之间变化。在测试受试者中拷贝数变异将与数据库(种族匹配) 中那些变异体的发生直接比较。此外,输出将是和数据库中那些变异体的 频率一起的所述受试者中变异体的清单。在受试者中所述变异体的显著性 将经由统计考虑,如上所述。
[254]实施例4:8q24.3微缺失的分析。
[255]连接片段PCR被用于检测chr.8q24.3微缺失的多态性。该检测在chr. 8q24.3处微缺失的边界使用精确排序的知识而设计。该检测用于通过独特 PCR产物的产生来检测缺失的存在。这样,所述产物仅当缺失存在时出现, 当缺失不存在时则不出现。这是因为所述引物被设计侧面与chr.8q24.3缺 失相连接。因在野生型chr.8中它们的目标序列之间的距离,这些引物在 相应的PCR条件下不扩增来自野生型基因组的产物。然而,目标序列位 于足够接近含有对引物产生可视产物的chr.8q24.3微缺失的染色体中。
[256]为了精确定位缺失和克隆终点,染色体8模板——含有chr 8q24.3 微缺失,从其野生型同族体中分离的先证者中分离。
[257]对来自患有chr 8q24.3缺失患者的淋巴母细胞和中国仓鼠卵巢 (CHO)细胞系(其对甘酸是营养缺陷型的)进行融合。然后将所述融 合细胞在苷氨酸缺乏培养基中进行选择。GIyB(MIM 138480)是补充了 营养缺陷体并定位至8q22.3(对chr 8q24.3缺失约50Mb着丝粒)的人基 因。所述GIyB基因不参与8q24.3缺失。来自融合的克隆出现之后,执行 两轮亚克隆。单细胞通过稀释分离,并放置于96孔板上。选择含有单克隆 的孔作为进一步分析。用串联重复查找分析BAC序列之后,使用设计的 三核苷酸重复通过PCR分析克隆。因为序列标记位点(STS)不能在所述 缺失区域内扩增,因此识别所述缺失的chr 8同族体。一旦克隆已经被识 别为仅含有具有8q24.3微缺失的染色体8,则开始缺失的精细定位。
[258]使用含有以下的体细胞杂种的STS的分析考虑到了分子水平微缺失 的精细定位:具有来自患有chr.8q24.3微缺失的指示患者(index patient) 的8q24.3微缺失(但不是野生型8)的染色体8(图6和7)。设计引物对 渡过在10kb间隔处含有缺失(~500kb)的已知区域。在杂种DNA上执 行PCR。随后在确定接近左和右断裂点的区域中分别执行更精细的定位。 最后,设计引物对来预测产生跨越所述断裂点的产物。这样所获得的连接 片段被测序并与可利用的人基因组序列相比较。分析表明缺失长度为 182,088bp。利用连接片段PCR检测法以正常个体的百分率检测chr. 8q24.3微缺失的存在(图5)。最初,分析从400(大部分)个无关个体产 生的DNA(每一个含有来自10个个体的DNA)群体。该结果表明这种‘多 态性’在一般种群(general population)中是非常普遍的。几乎三份之一 的群体对连接片段的存在产生阳性结果。随后,在400个个体的同类者中 分析所有的阳性群体。在另外600个个体中进一步检测。
[259]所有的chr.8q24.3缺失杂交地存在于~5%的一般种群中。在某些族 群(尤其是,伊拉克犹太人,其中出现比率接近于10%)中存在增加的水 平,在另外的群(即,中国)中存在下降的比率。
[260]实施例5:在有自闭症的家庭中CNTN4缺失的精细定位。
约700kb的3p26微缺失最初使用嵌合路径BAC检测而识别。
[261]在3p26处的缺失仅影响基因CNTN4,其是跨越几乎1MB基因组 的基因,并具有24个外显子。为了描绘该缺失的确切的断裂点,产生了传 统寡核苷酸阵列(NimbleGen),其跨越极高密度(CHR3:1900000-3100000) 的3p26区域。该寡核苷酸阵列使用无掩模阵列分析技术产生。使用该阵 列在指示病例中检测微缺失,并确定该缺失的断裂点的位置(图8b示出 了使用连接片段测序的BLAT的结果-参见下文)。这些断裂点用来设计 用于PCR的引物,其在家庭内已知患有3p26微缺失的那些个体中而非那 些未知患有3p26微缺失(当通过最初BAC阵列判断时)的个体中产生连 接片段。测序该连接片段,发现端点含有A1uY序列。这表明该缺失由于 两个A1uY序列之间的不等交换(unequal crossing over)已经发生。所述 连接片段是650bp PCR产物,其在患有3p26微缺失的个体中特异扩增。 这种连接片段的测序产生了序列SEQ ID NO:1和SEQ ID NO:2。该微缺 失跨越671086bp。连接片段PCR的结果能够在图9中看到。
[262]实施例6:个体中拷贝述变异的检测。
[263]以Cy3或Cy5标记来自人测试受试者(表面正常或具有特殊显型的 患者)的未扩增的DNA,并以不同的荧光标记物(即,分别为Cy5或Cy3) 标记对照DNA。混合所标记的DNA样品,并将其共杂交至全基因组嵌合 路径BAC微阵列上,其含有19,000个不同克隆中每一个的复制指纹。该 阵列的基因组覆盖率是常染色体基因组的约93%,具有用于已知参与各种 基因紊乱(诸如,已知的微缺失或微重复综合症)的区域覆盖的额外克隆。
[264]杂交后,使用Axon 400B扫描仪和GenePix Pro 6软件扫描该阵列。 将图像储存为tiff文件。随后的分析基于BlueGnome公司的BlueFuse软 件包。该软件基于复杂的运算法则(其基于形状、周围背景等识别斑点) 自动摘录两个通道中每一个的斑点强度数据(spot intensity data)。然后, 根据以下标准,在BlueFuse包内分析该斑点强度
1.空斑点从分析中排除;
2.在除那些定位至性染色体之外的所有斑点上执行块状黄土校正(Block loess correction)(在逐块的基础上,根据Cy3、Cy5强度改进斑点比率);
3.根据BlueFuse协议平均二重斑点(duplicate spots);
4.根据质量标准过滤斑点:仅仅包含那些具有>=70%置信度的。典型地, >85%的斑点符合这个标准;
5.使用来自genome.ucsc.edu站点的数据生物信息学定位克隆;
6.拷贝数调用(Copy number calls)基于高质量的斑点,该高质量的斑点 在Cy3:Cy5的log2比率为+/-0.3范围之外。
[265]因而,使用同样的BlueFuse标准分析每一个aCGH实验。
[266]每一个实验的BlueFuse数据输出文件如下:
1.ExptID_output.xls。这个文件含有原始数据;
2.ExptID_output_post.xls。这个文件含有应用质量协议之后但融合二重体 (duplicates)来产生平均值之前的数据;
3.ExptID_output_fused.xls。二重体质量分析和融合之后,这含有的最终 数据。这是用来填入(populate)数据库的文件(参见下文);
4.ExpfJD_output_cghsummary.xls。基于BlueFuse标准,这含有数据中 可能的拷贝数变异的评估。这用作粗略指导,但是我们已经发展了我们自 己的用于CNV调用(CNV calling)的标准(参见下文)。
[267]所述ExptID_output_fused文件用来填入所述数据库。这些文件仅 含有对质量处理的数据。这些文件是文本制表符定界文件,其含有达19,000 行(排除空斑点或杂交对照的数据,如低质量斑点)。该阵列含有共40,368 个斑点,但许多是空的或含水的(empty or water),且排除进一步分析。 在该输出融合文件中理论最大行数基于全部19,000BAC(即,平均之后, 这是当所包含的斑点数被2除后所获得的数)的潜在成功。
[268]ExptID_output_fused文件因此含有最大理论总数19,000行。此外, 它们含有30栏数据,涉及克隆名、染色体、位置、比率、log2比率、质 量值等。所以,每一个这样的文件含有达570,000个数据点。
[269]产生output_fused文件之后,它们自动上载到数据库中,使用传统 手写perl代码,其分解output_fused文件,并将该数据输入数据库中相应 的文件夹。数据库是MySQL,并位于运行Red Hat Linux的专用PC上。 目前,数据库中的主表含有~14,000,000行,每一行有>30栏数据(参见 下文上载数据后对添加的新栏的解释),共~420,000,000个数据点。
[270]将来自output_fused文件的数据上载进所述数据库中后,执行计算, 其设计以进一步改进数据的质量和平稳性。这些计算产生新建栏,如下:
1.对于数据库的性别特异子集*中相应克隆的Cy3:Cy5比率的平均值;
2.在每一个实验中对每个克隆的归一化(通过实验特异比率除以那个克隆 的性别特异*平均数)
[271]最终结果为可搜索的数据库,其含有来自800多个独立实验的数据。 该数据可能从全部数据库中给定克隆的比率,全部数据库中来自给定区域 的克隆的比率,给定克隆或基因组区域的行为等来搜索。在单一MySQL 查询中,可能从全部数据库或相关的分部(subsection of interest)中获得 具体数据,此外,编码数据库内的各个体用于疾病,诸如自闭症(ASD) 和先天性心脏病(CHD)。能够查询该数据库来分析针对基因组的特异克 隆或区域所获得的结果(图10和11)。
[272]例如,能够查询数据库来找出记录患有CHD的患者中比率大于1.5 的全部克隆,其中数据库中克隆的平均数接近期望值1。具有代表性的查 询将为:
SELECT*FROM>output_fused_all_genderΛ WHERE disease="chd" and 10 Λratio_ch2_chl_norπT>1.5and"avgΛ<1.1and"avg">0.9
[273]该查询产生1,547个总行,并花费6.4142秒来完成。值得注意的是, 该搜索产生以下克隆:其比率通常与贯穿整个数据库所观察的平均值是相 等的,但是当在涉及CHD的实验集中观察时其与平均比率相比显示更高 的比率。这样,使用这些查询,可能识别用于CHD的进一步研究的区域。
交叉引用
[01]本申请要求享有分别在2006年5月3日和2006年5月4日提交的 美国临时申请第60/746,359和60/746,482号的权益,其全部在此引用作为 参考。
引用作为参考
[03]在本说明书中提及的所有的出版物和专利申请在此引用作为参考, 其相同程度如同各自出版物或专利申请具体和分别表明被引用作为参考。
相关专利内容
标题 发布/更新时间 阅读量
缺陷检测方法 2020-05-12 690
去除缺陷的方法 2020-05-12 108
缺陷字线检测 2020-05-13 25
潜在缺陷识别 2020-05-13 327
缺陷分析 2020-05-11 687
缺陷检测机 2020-05-11 906
缺陷分析法 2020-05-11 945
缺陷分析法 2020-05-11 165
缺陷检查方法 2020-05-13 508
AGSE缺陷菌株 2020-05-11 605
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈