用于遗传分析的方法和系统 |
|||||||
申请号 | CN201380074824.7 | 申请日 | 2013-12-27 | 公开(公告)号 | CN105190656A | 公开(公告)日 | 2015-12-23 |
申请人 | 佩索纳里斯公司; | 发明人 | 盖博·T·巴尔萨; 杰玛·钱德拉蒂拉克; 理查德·陈; 莎拉·加西亚; 雨果·余·科尔·莱姆; 骆淑君; 马克·R·普拉特; 约翰·韦斯特; | ||||
摘要 | 本公开内容提供了用于样品处理和数据分析的系统和方法。样品处理可以包括核酸样品处理和后续的测序。可以对核酸样品的部分或全部进行测序以提供序列信息,该序列信息可以存储或以其他方式保持在 电子 存储单元中。可以借助于计算机处理器分析该序列信息,并且经分析的序列信息可以存储于电子存储单元中,其可以包括序列信息池或集合以及由核酸样品生成的经分析的序列信息。例如,本公开内容的方法和系统可以用于核酸样品的分析,用于产生一个或多个文库,以及用于生成 生物 医学报告。本公开内容的方法和系统可帮助一种或多种 疾病 和状况的诊断、监测、 治疗 和 预防 。 | ||||||
权利要求 | 1.一种用于分析核酸样品的方法,其包括: |
||||||
说明书全文 | 用于遗传分析的方法和系统交叉引用 [0001] 本申请要求2013年1月17日提交的美国临时申请号61/753,828的优先权,其通过引用以其整体并入本文。 背景技术[0002] 目前的全基因组和/或外显子组测序方法可能是昂贵的,并且不能捕获许多在生物医学上重要的变体。例如,商购可得的外显子组富集试剂盒(例如,Illumina的TruSeq 外显子组富集和Agilent的SureSelect外显子组富集)可能不能针对在生物医学上有意 义的非外显子和外显子区域。通常,使用标准测序方法的全基因组和/或外显子组测序在 具有非常高的CG含量(>70%)的含量区域中表现很差。此外,全基因组和/或外显子组测 序也不能对基因组中的重复元件提供足够的和/或划算的测序。 [0004] 本文提供了一种用于分析核酸样品的方法,其包括(a)从核酸样品产生核酸分子的两个或更多个子集,其中(i)所述两个或更多个子集包括核酸分子的第一子集和核酸分 子的第二子集,且(ii)核酸分子的第一子集与核酸分子的第二子集在选自基因组区域、平 均GC含量、平均分子大小、子集制备方法或其组合的一个或多个特征方面不同;(b)在核 酸分子的所述两个或更多个子集中的至少两个上进行一个或多个试验,其中(i)包括第一 测序反应的第一试验在所述两个或更多个子集的第一子集上进行以产生第一结果,且(ii) 第二试验在所述两个或更多个子集的第二子集上进行以产生第二结果;以及(c)借助于计 算机处理器将第一结果与第二结果组合,从而分析所述核酸样品。 [0005] 本文还提供了一种用于分析核酸样品的方法,其包括(a)从核酸样品产生核酸分子的两个或更多个子集,其中所述两个或更多个子集在选自基因组区域、平均GC含量、平 均分子大小、子集制备方法或其组合的一个或多个特征方面不同;(b)组合核酸分子的所 述两个或更多个子集中的至少两个以产生核酸分子的第一组合池;以及(c)在核酸分子 的第一组合池上进行一个或多个试验,其中所述一个或多个试验中的至少一个包括测序反 应。 [0006] 本文公开了一种用于分析核酸样品的方法,其包括(a)从核酸样品产生两个或更多个核酸分子子集,其中产生两个或更多个核酸分子子集包括针对两个或更多个不同基因 组区域富集核酸分子的所述两个或更多个子集;(b)在核酸分子的所述两个或更多个子集 之中的核酸分子的第一子集上进行第一试验,以产生第一结果,其中第一试验包括第一测 序反应;(c)在核酸分子的所述两个或更多个子集之中的核酸分子的至少第二子集上进行 第二试验,以产生第二结果;以及(d)借助于计算机处理器,将第一结果与第二结果组合, 从而分析所述核酸样品。 [0007] 本文进一步提供了一种用于分析核酸样品的方法,其包括(a)从核酸样品至少制备核酸分子的第一子集以及核酸分子的第二子集,其中核酸分子的第一子集与核酸分子的 第二子集不同;(b)在核酸分子的第一子集上进行第一试验,并在核酸分子的第二子集上 进行第二试验,其中第一试验包括产生包含关于第一子集的核酸序列信息的第一结果的核 酸测序反应,且其中第二试验产生第二结果;(c)借助于计算机处理器,分析第一结果以提 供第一分析结果,并分析第二结果以提供第二分析结果;以及(d)借助于计算机处理器,将 第一与第二分析结果组合,从而分析所述核酸样品。 [0008] 本文提供了一种用于分析核酸的方法,其包括(a)从核酸样品产生核酸分子的一个或多个子集,其中产生核酸分子的一个或多个子集包括在一种或多种抗氧化剂的存在下 进行第一试验,以产生核酸分子的第一子集;以及(b)在核酸分子的所述一个或多个子集 上进行测序反应,从而分析所述核酸样品。 [0009] 本文还公开了一种用于分析核酸样品的方法,其包括(a)借助于计算机处理器产生一个或多个捕获探针,其中所述一个或多个捕获探针与一种或多种多态性杂交,其中所 述一种或多种多态性是基于或提取自在一个或多个样品的群体中观察到的多态性的一个 或多个数据库或其组合;(b)使核酸样品与所述一个或多个捕获探针接触以产生一个或多 个与捕获探针杂交的核酸分子;以及(c)在所述一个或多个与捕获探针杂交的核酸分子上 进行第一试验,从而分析所述核酸样品,其中第一试验包括测序反应。 [0010] 本文进一步公开了一种用于开发互补核酸文库的方法,其包括(a)从样品产生核酸分子的两个或更多个子集,其中(i)核酸分子的所述两个或更多个子集包括核酸分子的 第一子集和核酸分子的第二子集,(ii)核酸分子的第一子集包含具有第一平均大小的核酸 分子,(iii)核酸分子的第二子集包含具有第二平均大小的核酸分子,且(iv)核酸分子的 第一子集的第一平均大小比核酸分子的第二子集的第二平均大小大出约200个或更多个 残基;(b)产生两个或更多个核酸文库,其中(i)所述两个或更多个文库包括第一核酸分子 文库和第二核酸分子文库,(ii)第一核酸分子文库包含来自于核酸分子的第一子集的一个 或多个核酸分子,(iii)第二核酸分子文库包含来自于核酸分子的第二子集的一个或多个 核酸分子,且(iv)第一核酸分子文库的内含物与第二核酸分子文库的内含物至少部分互 补。 [0011] 本文提供了一种用于开发互补核酸文库的方法,其包括(a)从核酸分子的样品产生核酸分子的两个或更多个子集,其中核酸分子的所述两个或更多个子集包括核酸分子的 第一子集和核酸分子的第二子集;(b)在核酸分子的所述两个或更多个子集上进行两个或 更多个试验,其中(i)所述两个或更多个试验包括第一试验和第二试验,(ii)第一试验包 括在核酸分子的第一子集上进行第一扩增反应以产生具有第一平均GC含量的一个或多个 第一扩增核酸分子,(iii)第二试验包括在核酸分子的第二子集上进行第二扩增反应以产 生具有第二平均GC含量的一个或多个第二扩增核酸分子,且(iv)核酸分子的第一子集的 第一平均GC含量不同于核酸分子的第二子集的第二平均GC含量;以及(b)产生两个或更 多个核酸文库,其中(i)所述两个或更多个文库包括第一核酸分子文库和第二核酸分子文 库,(ii)第一核酸分子文库包含所述一个或多个第一扩增核酸分子,(iii)第二核酸分子 文库包含所述一个或多个第二扩增核酸分子,且(iv)第一核酸分子文库的内含物与第二 核酸分子文库的内含物至少部分互补。 [0012] 本文还提供了一种用于开发互补核酸文库的方法,其包括(a)从核酸分子样品产生核酸分子的两个或更多个子集,其中(i)核酸分子的所述两个或更多个子集包括核酸分 子的第一子集和核酸分子的第二子集,且(ii)核酸分子的所述两个或更多个子集在选自 基因组区域、平均GC含量、平均分子大小、子集制备方法或其组合的一个或多个特征方面 不同;以及(b)产生两个或更多个核酸文库,其中(i)所述两个或更多个文库包括第一核酸 分子文库和第二核酸分子文库,(ii)第一核酸分子文库包含来自于核酸分子的第一子集的 一个或多个核酸分子,(iii)第二核酸分子文库包含来自于核酸分子的第二子集的一个或 多个核酸分子,且(iv)第一核酸分子文库的内含物与第二核酸分子文库的内含物至少部 分互补。 [0013] 本文公开了一种测序方法,其包括(a)使核酸样品与一个或多个捕获探针文库接触以产生一个或多个与捕获探针杂交的核酸分子;以及(b)在所述一个或多个与捕获探针 杂交的核酸分子上进行一个或多个测序反应,以产生一个或多个序列读取值(reads),其中 (i)该测序反应的灵敏度与当前测序方法相比提高了至少约4%;(ii)该测序反应对包含 RefSeq的基因组区域的灵敏度至少约为85%,(iii)该测序反应对包含可解释基因组的 基因组区域的灵敏度至少约为88%,(iv)该测序反应对可解释的变体的灵敏度至少约为 90%,或(v)(i)-(iv)的组合。 [0014] 所述一个或多个捕获探针文库中的至少一个可以包含针对一个或多个基因组区域的一个或多个捕获探针。 [0015] 本文公开的方法和系统还可以包括在一个或多个无捕获探针的核酸分子上进行一个或多个测序反应。 [0016] 所述一个或多个测序反应的错误百分比可以与当前测序方法相似。所述一个或多个测序反应的百分错误率可以在当前测序方法的约0.001%、0.002%、0.003%、0.004%、 0.005%、0.006%、0.007%、0.008%、0.009%、0.01%、0.02%、0.03%、0.04%、0.05%、 0.06%、0.07%、0.08%、0.09%、1%、1.1%、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、 1.8%、1.9%或2%以内。所述一个或多个测序反应的错误百分比小于当前测序方法的错误 率。所述测序反应的错误百分比可以小于约1.5%、1%、0.75%、0.50%、0.25%、0.10%、 0.075%、0.050%、0.025%或0.001%。 [0017] 所述一个或多个测序反应的准确度可以与当前测序方法相似。所述一个或多个测序反应的准确度比当前测序方法高。 [0018] 所述核酸分子可以是DNA。所述核酸分子可以是RNA。 [0019] 所述方法和系统可以包括核酸分子的第二子集。核酸分子的第一子集和第二子集可以在选自基因组区域、平均GC含量、平均分子大小、子集制备方法或其组合的一个或多 个特征方面不同。 [0020] 所述一个或多个基因组区域可以选自高GC含量、低GC含量、低复杂度、低可定位性(mappability)、已知的单核苷酸变异(SNV)、已知的插入缺失(inDel)、已知的可选序 列、整个基因组、整个外显子组、成组基因、成组调节元件以及甲基化状态。 [0022] 已知的可选序列可以选自:一个或多个小的插入、小的缺失、结构变异连接、可变长度串联重复以及侧翼序列。 [0023] 核酸分子的子集可以在平均分子大小上不同。核酸分子的子集中的至少两个之间在平均分子大小上的差异为至少100个核苷酸。核酸分子的子集中的至少两个之间在平均 分子大小上的差异为至少200个核苷酸。核酸分子的子集中的至少两个之间在平均分子大 小上的差异为至少300个核苷酸。 [0024] 核酸分子的子集可以在平均GC含量上不同。一个或多个子集的平均GC含量可以大于或等于70%。或者,一个或多个子集的平均GC含量可以小于70%。两个或更多个子 集的平均GC含量之间的差异可以是至少约5%、10%、15%或更大。 [0025] 可以进行一个或多个附加的实验。可以进行第二试验。可以进行第三试验。可以进行第四试验。可以进行第五、第六、第七、第八、第九或第十试验。所述一个或多个试验可 以包括一个或多个测序反应、扩增反应、杂交反应、检测反应、富集反应或其组合。 [0026] 所述一个或多个试验可以产生一个或多个结果。第二试验可以包括产生第二结果的核酸测序反应,且其中第二结果可以包含关于第二子集的核酸序列信息。 [0027] 第一和第二试验可以分开进行。第一和第二试验可以顺序进行。第一和第二试验可以同时进行。 [0028] 可以组合核酸分子的子集中的至少两个以产生核酸分子的组合子集。第一和第二试验可以在核酸分子的组合子集上进行。 [0029] 第一和第二试验可以是相同的。第一和第二试验可以是不同的。 [0030] 分析核酸样品可以包括产生关于在由所述试验寻址(addressed)的每个基因座处的样品遗传状态的统一评价。 [0031] 进行一个或多个扩增反应可以包括一个或多个基于PCR的扩增、非基于PCR的扩增或其组合。一个或多个基于PCR的扩增可以包括PCR、qPCR、嵌套式PCR、线性扩增或其组 合。一个或多个非基于PCR的扩增可以包括多重置换扩增(MDA)、转录介导的扩增(TMA)、 基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、实时SDA、滚环扩增、环到环扩增或其组 合。 [0032] 测序反应可以包括毛细管测序、下一代测序、Sanger测序、合成测序、单分子纳米孔测序、连接测序、杂交测序、纳米孔电流限制测序或其组合。合成测序可以包括可逆终止 子测序、持续单分子测序、连续核苷酸流动测序或其组合。连续核苷酸流动测序可以包括焦 磷酸测序、pH介导的测序、半导体测序或其组合。进行一个或多个测序反应包括全基因组 测序或外显子测序。 [0033] 测序反应可以包括一个或多个捕获探针或捕获探针的文库。一个或多个捕获探针文库中的至少一个可以包含针对1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个基因组区域的一个或多个捕获探针。捕获探针的文库可以至少部分互补。捕获探针的文库 可以完全互补。捕获探针的文库可以至少约5%、10%、15%、20%、25%、30%、35%、40%、 45%、50%、55%、60%、70%、80%、90%、95%、97%或更高地互补。 [0034] 本文公开的方法和系统还可以包括在一个或多个无捕获探针的核酸分子上进行一个或多个测序反应。本文公开的方法和系统还可以包括在包含一个或多个无捕获探针的 核酸分子的一个或多个核酸分子子集上进行一个或多个测序反应。 [0035] 本文公开的方法和系统当与当前测序方法的灵敏度相比较时,可以提高一个或多个测序反应的灵敏度。一个或多个测序反应的灵敏度可以提高至少约1%、2%、3%、 4%、5%、5.5%、6%、6.5%、7%、7.5%、8%、8.5%、9%、9.5%、10%、10.5%、11%、12%、 13%、14%、15%、16%、17%、18%、19%、20%、25%、30%、35%、40%、45%、50%、55%、 60%、70%、80%、90%、95%、97%或更多。一个或多个测序反应的灵敏度可以提高至少约 4.5-20%、约5-15%、约7%-12%或约8%-10%。 [0036] 所述一个或多个测序反应的错误百分比可以与当前测序方法相似。所述一个或多个测序反应的百分错误率可以在当前测序方法的约0.001%、0.002%、0.003%、0.004%、 0.005%、0.006%、0.007%、0.008%、0.009%、0.01%、0.02%、0.03%、0.04%、0.05%、 0.06%、0.07%、0.08%、0.09%、1%、1.1%、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、 1.8%、1.9%或2%之内。所述一个或多个测序反应的百分错误率可以小于当前测序方 法的百分错误率。所述一个或多个测序反应的百分错误率可以比当前测序方法的百分 错误率低至少约10%、9%、8%、7%、6%、5%、4%、3%、2%、1.75%、1.5%、1.25%、1%、 0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%。所述测序反应的百分错误率可以小于约2%、1.75%、1.5%、1.25%、1%、0.75%、0.50%、0.25%、0.10%、0.075%、 0.050%、0.025%或0.001%。 [0037] 测序反应的错误可以作为Phred质量得分来确定。Phred质量得分可以分配给在自动化测序仪轨迹中的每一个碱基判定(base call),且可以用来比较不同的测序方法的 有效性。Phred质量得分(Q)可以定义为与碱基判定错误概率(P)对数相关的特性。Phred 质量得分(Q)可以按Q=-10log10P计算。所述一个或多个测序反应的Phred质量得分可 以与当前测序方法的Phred质量得分相似。所述一个或多个测序方法的Phred质量得分可 以在当前测序方法的Phred质量得分的1、2、3、4、5、6、7、8、9、10以内。所述一个或多个测序方法的Phred质量得分可以小于一个或多个测序方法的Phred质量得分。所述一个或多 个测序方法的Phred质量得分可以比一个或多个测序方法的Phred质量得分小至少约10、 9、8、7、6、5、4、3、2、1。所述一个或多个测序方法的Phred质量得分可以大于5、6、7、8、9、10、 11、12、13、14、15、16、17、18、19、20、25或30。所述一个或多个测序方法的Phred质量得分可以大于35、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59或60。所述一个或多个测序方法的Phred质量得分可以至少是35、36、37、38、39、40、41、42、43、44、 45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60或更大。 [0038] 所述一个或多个测序反应的准确度可以与当前测序方法相似。所述一个或多个测序反应的准确度可以在当前测序方法的约0.001%、0.002%、0.003%、0.004%、0.005%、 0.006%、0.007%、0.008%、0.009%、0.01%、0.02%、0.03%、0.04%、0.05%、0.06%、 0.07%、0.08%、0.09%、1%、1.1%.、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、1.8%、 1.9%、2%、2.25%、2.5%、2.75%、3%、3.25%、3.5%、3.75%或4%以内。所述一个或多个测序反应的准确度可以比当前测序方法的准确度高。所述一个或多个测序反应的准确 度可以比当前测序方法的准确度高至少约0.001%、0.002%、0.003%、0.004%、0.005%、 0.006%、0.007%、0.008%、0.009%、0.01%、0.02%、0.03%、0.04%、0.05%、0.06%、 0.07%、0.08%、0.09%、1%、1.1%.、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、1.8%、 1.9%、2%、2.25%、2.5%、2.75%、3%、3.25%、3.5%、3.75%、4%、4.5%、5%、6%、7%、 8%、9%、10%、11%、12%、15%、17%、20%、25%、30%、35%、40%、50%或60%。所述测序反应的准确度可以高于约70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、 97%、98.25%、98.5%、98.75%、99%、99.25%、99.5%或99.75%。所述测序反应的准确 度可以高于约99.1%、99.2%、99.3%、99.4%、99.5%、99.6%、99.7%、99.8%、99.9%、 99.99%或90.999%。 [0039] 进行检测反应可以包括光学感测、电感测、pH感测或其组合。光学感测可以包括光致发光光子发射、荧光光子发射、焦磷酸光子发射、化学发光光子发射或其组合的光学感 测。电感测可以包括离子浓度、离子电流调制、核苷酸电场、核苷酸隧穿电流或其组合的电 感测。 [0040] 产生核酸分子的子集可以包括进行富集反应。 [0041] 进行富集反应可以包括进行一个或多个杂交反应。进行富集反应可以包括基于一个或多个基因组区域特征的两个或更多个子集的差异扩增。 [0042] 一个或多个杂交反应可以包括一个或多个杂交阵列、杂交反应、杂交链反应、等温杂交反应、核酸杂交反应或其组合。一个或多个杂交阵列可以包括杂交阵列基因型分型、杂 交阵列比例感测、DNA杂交阵列、宏阵列、微阵列、高密度寡核苷酸阵列、基因组杂交阵列、比较杂交阵列或其组合。一个或多个杂交反应可以包括在核酸分子的第一子集上的第一杂交 反应以产生一个或多个第一杂交的核酸分子,在核酸分子的第二子集上进行第二杂交反应 以产生一个或多个第二杂交的核酸分子,或其组合。 [0043] 一个或多个杂交反应可以包括一组或多组捕获探针。一个或多个杂交反应可以包括(a)包含一个或多个与捕获探针杂交的核酸分子的核酸分子的第一子集;以及(b)包含 一个或多个无捕获探针的核酸分子的核酸分子的第二子集。 [0044] 一个或多个杂交反应可以包括一组或多组珠子。一组或多组珠子可以包括(a)包含一个或多个与珠子结合的核酸分子的核酸分子的第一子集;以及(b)包含一个或多个无 珠子的核酸分子的核酸分子的第二子集。 [0045] 本文公开的方法和系统还可包括将来自于两个或更多个试验的结果组合。本文公开的方法和系统还可包括在产生核酸分子的两个或更多个子集之后将所述核酸分子的子 集组合以产生核酸分子的一个或多个组合的子集。本文公开的方法和系统还可包括在进行 一个或多个试验之前将核酸分子的子集组合以产生核酸分子的一个或多个组合的子集。组 合所述结果可以包括:利用基因组环境和/或阵列技术中的一种或多种,借助于优先规则 来组合两个或更多个测序数据集,以解析两个或更多个测序数据集之间的不一致性。组合 所述结果可以包括利用质量和读取覆盖度量中的一种或多种,借助于统计算法来组合两个 或不同的判定集,以解析一个或多个不一致的基因型。组合所述结果可以包括利用碱基读 取质量和等位基因频率中的一种或多种,借助于统计算法来组合两个或更多个阵列读取数 据集,以计算在一个或多个适用基因座处的一致的判定。 [0046] 可以流体地分离核酸分子的子集中的至少两个。可以将核酸分子的子集中的至少两个分离到两个或更多个不同的容器内。所述两个或更多个不同的容器可以包括平板、微 板、PCR板、孔、微孔、管、Eppendorf管、小瓶、阵列、微阵列、芯片或其组合。 [0047] 本文公开的方法和系统还可以包括基于核酸样品的分析产生一个或多个输出。所述一个或多个输出可以包括一个或多个生物医学报告。所述一个或多个生物医学报告可以 包括受试者的生物医学信息。受试者的生物医学信息预测、预后或诊断选自下组的一个或 多个生物医学特征,该组包括:疾病状态、疾病的遗传风险、生殖风险、对胎儿的遗传风险、 药物不良反应的风险、药物治疗的疗效、最佳药物剂量的预测、移植耐受或其组合。 [0048] 本文公开的方法和系统还可以包括聚合来自于两个或更多个数据库的信息。本文公开的方法和系统还可以包括组合来自于两个或更多个数据库的信息。该数据库可以包括 生物医学或科学信息。该信息可以包括关于一种或多种多态性、疾病或状态、遗传疾病、基 因、外显子组、基因组或其组合的信息。 [0049] 所述一种或多种多态性可以包括一个或多个插入、缺失、结构变异连接、可变长度串联重复、单核苷酸突变或其组合。 [0050] (a)的一个或多个核酸样品的分析和/或(c)的一个或多个核酸样品的分析可以包括生成基于或来源于核酸分子的两个或更多个子集的分析的数据或结果。 [0051] 本文公开了一种系统,其包括(a)用于产生第一生物医学报告的第一计算机处理器,其中(i)第一生物医学报告从基于来自于核酸样品的核酸分子的两个或更多个子集的 分析的数据或结果生成,且(ii)核酸分子的所述两个或更多个子集在一个或多个特征方 面不同;(b)用于将第一生物医学报告传送给用户的第二计算机处理器;(c)用于产生第二 生物医学报告的第三计算机处理器,其中(i)第二生物医学报告从基于来自于核酸样品的 核酸分子的两个或更多个子集的分析的数据或结果生成,(ii)核酸分子的所述两个或更多 个子集在一个或多个特征方面不同,且(iii)第一生物医学报告与第二生物医学报告在一 个或多个生物医学特征方面不同;以及(d)用于将第二生物医学报告传送给用户的第四计 算机处理器。 [0052] 本文公开了一种系统,其包括(a)用于产生第一生物医学报告的第一计算机处理器,其中第一生物医学报告从基于一个或多个核酸样品的分析的数据或结果生成;(b) 用于将第一生物医学报告传送给用户的第二计算机处理器;(c)用于产生第二生物医学 报告的第三计算机处理器,其中(i)第二生物医学报告基于或来源于第一生物医学报告, (ii)第二生物医学报告从基于一个或多个核酸样品的分析的数据或结果生成,或(iii) (i)-(ii)的组合;以及(d)用于将第二生物医学报告传送给用户的第四计算机处理器。(a) 的一个或多个核酸样品的分析和/或(c)的一个或多个核酸样品的分析可以包括生成基于 或来源于核酸分子的两个或更多个子集的分析的数据或结果。传送第二生物医学报告是基 于第一生物医学报告的分析。 [0053] 本文进一步公开了一种系统,其包括(a)用于产生第一生物医学报告的第一计算机处理器,其中第一生物医学报告从基于一个或多个核酸样品的分析的数据或结果生成; (b)用于分析第一生物医学报告的第二计算机处理器;以及(c)用于传送第二生物医学 报告的第三计算机处理器,其中(i)第二生物医学报告基于或来源于第一生物医学报告, (ii)第二生物医学报告从基于一个或多个核酸样品的分析的数据或结果生成,或(iii) (i)-(ii)的组合。(a)的一个或多个核酸样品的分析和/或(c)的一个或多个核酸样品的 分析可以包括生成基于或来源于核酸分子的两个或更多个子集的分析的数据或结果。 [0054] 本文公开了一种用于生成生物医学报告的方法,其包括(a)从用户接收对第一生物医学报告的第一请求,其中(i)第一生物医学报告从基于来自于核酸样品的核酸分子的 两个或更多个子集的分析的数据或结果生成,且(ii)核酸分子的所述两个或更多个子集 在选自基因组区域、平均GC含量、平均分子大小、子集制备方法或其组合的一个或多个特 征方面不同;(b)将第一生物医学报告传送给用户;(c)从用户接收对第二生物医学报告的 第二请求,其中(i)第二生物医学报告从基于来自于核酸样品的核酸分子的两个或更多个 子集的分析的数据或结果生成,(ii)核酸分子的所述两个或更多个子集在一个或多个特征 方面不同,且(iii)第一生物医学报告与第二生物医学报告在一个或多个生物医学特征方 面不同;以及(c)将第二生物医学报告传送给用户。 [0055] 本文公开了一种用于生成生物医学报告的方法,其包括(a)从用户接收对第一生物医学报告的第一请求,其中(i)第一生物医学报告从基于一个或多个核酸样品的分析的 数据或结果生成;(b)将第一生物医学报告传送给用户;(c)从用户接收对不同于第一生物 医学报告的第二生物医学报告的第二请求,其中(i)第二生物医学报告基于或来源于第一 生物医学报告,(ii)第二生物医学报告从基于一个或多个核酸样品的分析的数据或结果生 成,或(iii)(i)-(ii)的组合;以及将第二生物医学报告传送给用户。(a)的一个或多个核 酸样品的分析和/或(c)的一个或多个核酸样品的分析可以包括生成基于或来源于核酸分 子的两个或更多个子集的分析的数据或结果。传送第二生物医学报告可以基于第一生物医 学报告的分析。 [0056] 本文进一步公开了一种用于生成一个或多个生物医学报告的方法,其包括(a)从用户接收对第一生物医学报告的第一请求,其中第一生物医学报告从基于一个或多个核酸 样品的分析的数据或结果生成;(b)借助于处理器,从第一生物医学报告来分析一个或多 个结果;(c)将第二生物医学报告传送给用户,其中(i)第二生物医学报告基于或来源于第 一生物医学报告,(ii)第二生物医学报告从基于一个或多个核酸样品的分析的数据或结果 生成,或(iii)(i)-(ii)的组合。(a)的一个或多个核酸样品的分析和/或(c)的一个或多 个核酸样品的分析可以包括生成基于或来源于核酸分子的两个或更多个子集的分析的数 据或结果。 [0057] (a)的数据或结果和(c)的数据或结果可以是相同的。(a)的数据或结果和(c)的数据或结果可以是相似的。(a)的数据或结果和(c)的数据或结果可以是不同的。(a) 的数据或结果和(c)的数据或结果可以来源于或基于一个或多个试验。(a)的数据或结果 和(c)的数据或结果可以来源于或基于相同的试验。(a)的数据或结果和(c)的数据或结 果可以来源于或基于相似的试验。(a)的数据或结果和(c)的数据或结果可以来源于或基 于两个或更多个不同的试验。(a)的数据或结果和(c)的数据或结果可以来自于一个或多 个组合数据或组合结果。(a)的数据或结果和(c)的数据或结果可以来自于相同的组合数 据或组合结果。(a)的数据或结果和(c)的数据或结果可以来自于相似的组合数据或组合 结果。(a)的数据或结果和(c)的数据或结果可以来自于不同的组合数据或组合结果。 [0058] 本文公开的方法和系统还可以包括一个或多个存储单元以接收来自于用户的一个或多个请求,存储来自于用户的一个或多个请求,存储生物医学报告,或其组合。 [0059] 本文公开的方法和系统还可以包括用于聚合来自于两个或更多个数据库的信息的一个或多个附加处理器。本文公开的方法和系统还可以包括用于生成一个或多个数据库 文库的一个或多个附加处理器。该数据库文库可以包含来自于核酸分子的一个或多个子集 的数据或结果。该数据库文库可以包含两个或更多个数据库的至少一部分的信息。 [0060] 通过以下的详细描述,本公开内容的其他方面和优点对于本领域技术人员来说将变得显而易见,详细描述中仅展示和描述了本公开内容的示例性实施方案。应当认识到,本 公开内容能够有其他和不同的实施方案,并且其若干细节能够在各个明显的方面修改,全 都没有背离本公开内容。因此,附图和说明书在本质上将被视为说明性的,而非限制性的。 援引并入 附图说明[0062] 在所附的权利要求中具体地陈述了本发明的新颖特征。通过参考以下对利用了本发明原理的示例性实施方案加以陈述的详细描述和附图(本文也写作“图”),将会获得对 本发明的特征和优点的更好的理解,在附图中: [0063] 图1展示了用于实施本公开内容的方法的系统。 [0064] 图2描绘了本公开内容的四个工作流程的示意图。术语“制品1”和“制品”可以指核酸分子的子集;“试验1”和“试验2”可以指试验。图2A-2C描绘了使用图2D中描述 的更复杂工作流程的要素的试验和分析工作流程。图2D描绘了包括以下部分的试验和分 析工作流程:(1)将核酸样品分离成用若干方案处理的若干子集。这些方案可以包括针对 不同基因组或非基因组区域的富集,且包括一个或多个不同的扩增步骤以制备用于试验的 核酸分子文库。这些文库中的一些可以组合(2)起来用于试验。一些试验的结果可以组合 (3)起来用于后续的分析。变体判定或序列或遗传状态的其他评估可以进一步组合(4)起 来以产生在由该试验寻址的每个基因座处的组合评价。 [0065] 图3描绘了本公开内容的工作流程的示意图。 [0066] 图4描绘了本公开内容的工作流程的示意图。 [0067] 图5展示了剪切时间对片段大小的影响。 [0068] 图6展示了珠子比率对片段大小的影响。 [0069] 图7展示了剪切时间对片段大小的影响。 [0070] 图8描绘了核酸文库构建工作流程的示意图。 [0071] 图9描绘了图2A-2C中所示的试验和分析工作流程的更加详细的实例。 [0072] 图10描绘了一种开发解决多种生物医学应用的多线程试验的方法。将变体、基因、外显子、UTR、调节区、剪接位点、可选序列及其他感兴趣的内容从若干数据文库中组合 以产生适用于多个生物医学报告的聚合一组的内容。然后基于本地或全球基因组环境、核 苷酸含量、测序表现和解释要求将此内容分类,然后将其分组成子集以用于专门方案和试 验的开发。 [0073] 图11描绘了包括针对不同基因组区域富集的DNA的多个子集的试验,这些子集在组合用于测序试验之前经受一些独立的处理步骤。来自两个或更多个子集的读取值或者a) 在测序装置中组合,或者b)随后借助于一种或多种算法组合,以产生对于由两个或更多个 子集的联合而寻址的区域的单一最佳结果,并且产生可以用于一个或多个生物医学报告的 数据池。 [0074] 图12描绘了包括针对不同基因组区域富集的DNA的多个子集的试验,这些子集在被独立地测序和针对变体进行分析之前经历一些独立的处理步骤。来自两个子集的变体借 助于一种或多种算法合并,以产生对于由两个或更多个子集的联合而寻址的区域的单一最 佳结果,并且产生可以用于一个或多个生物医学报告的数据池。 [0075] 图13描绘了包括针对不同基因组区域富集的DNA的多个子集的试验,这些子集在被独立地测序之前经历一些独立的处理步骤,并且产生可以包含序列读取值的原始数据。 来自两个或更多个试验的原始数据通过一种或多种算法组合并分析,以产生对于由两个或 更多个子集的联合而寻址的所有区域的单一最佳结果,产生可以用于一个或多个生物医学 报告的数据池。 [0076] 图14描绘了一种多线程试验,其包括通过大小选择而产生DNA的两个子集,并将其中之一进一步分成基于GC含量针对不同基因组区域富集的DNA的两个子集。使用适合 于较长分子的技术对较长分子进行测序。基于适合于子集的Tm的方案进一步制备和扩增 两个较短分子子集,然后合并以供在高通量短读测序仪HiSeq上测序。在这个实例中,借助 于一种或多种算法合并及分析来自于测序的原始数据,以产生对于由该子集寻址的所有区 域的单一最佳结果,并且产生可以用于一个或多个生物医学报告的数据池。 [0077] 图15描绘了一种多线程试验,其包括通过大小选择而产生DNA的两个子集,并将其中之一进一步分成基于GC含量针对不同基因组区域富集的DNA的两个子集。使用适合 于较长分子的技术对较长分子进行测序。基于适合于子集的Tm的方案进一步制备和扩增 两个较短分子子集,然后合并以供在高通量短读测序仪HiSeq上测序。在这个实例中,分别 分析来自于两种测序技术的原始数据的变体,然后借助于一种或多种算法将其合并,以产 生对于由该子集寻址的所有区域的单一最佳结果,并且产生可以用于一个或多个生物医学 报告的数据池。 具体实施方式[0078] 尽管本文已经展示并且描述了本公开内容的发明的各种实施方案,但是对于本领域技术人员将明显的是这些实施方案仅通过举例的方式提供。在不背离本发明的前提下, 本领域技术人员可以想到许多变化、改变和替换。应当理解,对于本文描述的本发明实施方 案的各种替代方案可以用于实施本文陈述的发明中的任一个。 [0079] 本公开内容提供了用于样品处理和数据分析的系统和方法。在某些情况下,样品处理包括核酸样品处理和后续的核酸样品测序。可以对核酸样品的部分或全部进行测序以 提供序列信息,该序列信息可以存储或以其他方式保持在电子、磁或光学存储单元中。可以 借助于计算机处理器分析序列信息,并且经分析的序列信息可以存储在电子存储单元中。 电子存储单元可以包括序列信息池或集合以及由核酸样品生成的经分析的序列信息。该核 酸样品可以从受试者,例如接受治疗的受试者中获取。 [0080] 在某些情况下,用户如医疗服务提供者可以请求第一组序列信息或来自所述池的经分析的序列信息。同时或随后,用户可以请求第二组序列信息或来自所述池的经分析的 序列信息。第一组与第二组可以不同。 [0081] 如本文使用的术语“核酸”通常是指任何长度的核苷酸的聚合形式,该核苷酸为核糖核苷酸、脱氧核糖核苷酸或肽核酸(PNA),其包含嘌呤和嘧啶碱基,或其他天然的、化学或 生物化学修饰的、非天然的或衍生的核苷酸碱基。多核苷酸的骨架可以包含糖和磷酸基团, 如通常可以在RNA或DNA中所见的,或者修饰的或取代的糖或磷酸基团。多核苷酸可以包 含修饰的核苷酸,如甲基化的核苷酸和核苷酸类似物。核苷酸的序列可以被非核苷酸组分 间断。因此,术语核苷、核苷酸、脱氧核苷和脱氧核苷酸通常包括类似物如本文描述的那些 类似物。这些类似物是这样的分子:其具有一些与天然存在的核苷或核苷酸共同的结构特 征,使得当掺入核酸或寡核苷序列中时,其允许在溶液中与天然存在的核酸序列杂交。通 常,这些类似物通过替代和/或修饰碱基、核糖或磷酸二酯部分,从天然存在的核苷和核苷 酸衍生而来。这些改变可以定制,以便根据需要稳定或去稳定杂合体形成,或增强与互补核 酸序列杂交的特异性。该核酸分子可以是DNA分子。该核酸分子可以是RNA分子。 [0082] 如本文使用的,术语“核酸分子的变体或衍生物”或“核酸分子的衍生物或变体”通常是指包含多态性的核酸分子。术语“核酸分子的变体或衍生物”或“核酸分子的衍生物或 变体”也可以指由在核酸分子上进行的一个或多个试验产生的核酸产物。例如,片段化的核 酸分子、杂交的核酸分子(例如,与捕获探针杂交的核酸分子、与珠子结合的核酸分子)、扩 增的核酸分子、分离的核酸分子、洗脱的核酸分子以及富集的核酸分子都是核酸分子的变 体或衍生物。 [0083] 如本文使用的术语“可检测标记”或“标记”通常是指附接于核苷酸、核苷酸聚合物或核酸结合因子上的任何化学部分,其中该附接可以是共价的或非共价的。优选地,标记 是可检测的且使得核苷酸或核苷酸聚合物对于本发明的实践者来说是可检测的。术语“可 检测标记”或“标记”可以互换使用。可以与本文公开的方法组合使用的可检测标记包括, 例如,荧光标记、化学发光标记、猝灭剂(quencher)、放射性标记、生物素、量子点、金或其组合。可检测标记包括发光分子、荧光染料、荧光猝灭剂、有色分子、放射性同位素或闪烁体。 可检测标记还包括任何有用的连接体分子(如生物素、抗生物素蛋白、链霉亲和素、HRP、蛋 2+ 白A、蛋白G、抗体或其片段、Grb2、多组氨酸、Ni 、FLAG标签、myc标签)、重金属、酶(实例 包括碱性磷酸酶、过氧化物酶和萤光素酶)、电子供体/接受体、吖啶酯、染料和量热基质。 还设想,质量上的改变可以被认为是可检测标记,如表面等离子体共振检测的情况。技术人 员将容易地认识到上文未提及的有用的可检测标记,其可以在本发明的操作中使用。 [0084] 术语“结合的”、“杂交的”、“偶联的”、“附接的”、“连接的”可以互换使用,并且通常是指一个物体与另一个物体的关联。两个物体彼此之间的关联可以是来自于共价的或非共价的相互作用。例如,与捕获探针杂交的核酸分子是指与核酸分子相关联的捕获探针。捕 获探针与核酸分子彼此接触。在另一个实例中,与珠子结合的核酸分子是指与核酸分子相 关联的珠子。 [0085] 本文公开了一种用于分析核酸样品的方法。本公开内容的方法可以包括(a)从包含一个或多个核酸分子的核酸样品产生核酸分子的两个或更多个子集;(b)针对基因组区 域的两个或更多个不同的子集富集核酸分子的所述两个或更多个子集;(c)在核酸分子的 所述两个子集中的每一个上进行试验,其中(i)在核酸分子的所述两个或更多个子集的第 一子集上进行包括第一测序反应的第一试验,以产生第一结果,且(ii)在所述两个或更多 个子集的第二子集上进行第二试验,以产生第二结果;以及(d)借助于计算机处理器,将第 一结果与第二结果组合,从而分析所述核酸样品。 [0086] 在本公开内容的一个方面,提供了用于核酸处理和/或分析的方法。本文公开的方法可以包括(a)从核酸样品产生核酸分子的两个或更多个子集;(b)将核酸分子的所述 两个或更多个子集中的至少两个组合以产生核酸分子的组合池;以及(c)在核酸分子的组 合池上进行一个或多个试验,其中所述一个或多个试验中的至少一个包括测序反应。 [0087] 本文提供了如下的方法,其包括(a)从核酸样品产生核酸分子的两个或更多个子集;(b)针对基因组区域的两个或更多个不同的子集富集核酸分子的所述两个或更多个 子集;(c)在核酸分子的所述两个或更多个子集之间的核酸分子的第一子集上进行第一试 验,以产生第一结果,其中第一试验包括第一测序反应;(d)在核酸分子的所述两个或更多 个子集之间的核酸分子的至少第二子集上进行第二试验,以产生第二结果;以及(e)借助 于计算机处理器,将第一结果与第二结果组合,从而分析所述核酸样品。 [0088] 本文还公开了如下的方法,其包括(a)从核酸样品制备至少核酸分子的第一子集以及核酸分子的第二子集;(b)针对基因组区域的至少两个子集富集核酸分子的所述第一 和第二子集;(c)在核酸分子的第一子集上进行第一试验,并在核酸分子的第二子集上进 行第二试验,其中第一试验包括产生第一结果的核酸测序反应,该第一结果包括关于第一 子集的核酸序列信息,且其中第二试验产生第二结果;(d)借助于计算机处理器,分析第一 结果以提供第一分析结果,并分析第二结果以提供第二分析结果;以及(e)借助于计算机 处理器,将第一与第二分析结果组合,从而分析所述核酸样品。 [0089] 本文公开了如下的方法,其包括(a)在核酸样品上进行第一试验,其中第一试验包括一种或多种抗氧化剂;以及(b)在核酸样品上进行测序反应,从而分析所述核酸样品。 [0090] 本文还提供了如下的方法,其包括(a)借助于计算机处理器,产生一个或多个捕获探针,其中所述一个或多个捕获探针与一种或多种多态性杂交;(b)使核酸样品与所述 一个或多个捕获探针接触以产生一个或多个与捕获探针杂交的核酸分子;以及(c)在所述 一个或多个与捕获探针杂交的核酸分子上进行测序反应,从而分析所述核酸样品。 [0091] 本文进一步公开了用于分析核酸分子的方法。该方法可以包括(a)使核酸样品与一个或多个捕获探针接触,其中所述一个或多个捕获探针中的至少一个与邻近或跨越整个 基因或基因的至少一部分或在其内的结构变体杂交,以产生一个或多个与捕获探针杂交的 核酸分子;以及(b)在所述一个或多个与捕获探针杂交的核酸分子上进行测序反应,从而 分析所述基因。所述一个或多个捕获探针可以另外与本文公开的一个或多个基因组区域杂 交。 [0092] 本文提供了如下的方法,其包括(a)在核酸样品上进行第一试验,其中第一试验包括使核酸样品中的一个或多个核酸分子片段化,以产生一个或多个第一片段化核酸分 子;(b)在核酸样品上进行第二试验,其中第二试验包括使所述一个或多个第一片段化核 酸分子的至少一部分与第一组珠子接触,以产生一个或多个第一与珠子结合的核酸分子; 以及(c)在核酸样品上进行第三试验,其中第三试验包括使第一片段化核酸分子的至少一 部分与第二组珠子接触,以产生一个或多个第二与珠子结合的核酸分子,从而制备核酸样 品。 [0093] 本文公开了如下的方法,其包括(a)从样品产生核酸分子的两个或更多个子集,其中(i)核酸分子的所述两个或更多个子集包括核酸分子的第一子集和核酸分子的第二 子集,(ii)核酸分子的第一子集包含具有第一平均大小的核酸分子,(iii)核酸分子的第 二子集包含具有第二平均大小的核酸分子,且(iv)核酸分子的第一子集的第一平均大小 比核酸分子的第二子集的第二平均大小大出约200个或更多个残基;以及(b)产生两个 或更多个核酸文库,其中(i)所述两个或更多个文库包括第一核酸文库和第二核酸文库, (ii)第一核酸文库包含所述一个或多个第一与珠子结合的核酸分子,(iii)第二核酸文库 包含一个或多个第二与珠子结合的核酸分子,且(iv)第一核酸文库的内含物与第二核酸 文库的内含物至少部分互补。 [0094] 本文公开了如下的方法,其包括(a)从包含一个或多个核酸分子的样品产生核酸分子的两个或更多个子集,其中核酸分子的所述两个或更多个子集包括核酸分子的第一子 集和核酸分子的第二子集;(b)在核酸分子的所述两个或更多个子集上进行两个或更多个 试验,其中(i)所述两个或更多个试验包括第一试验和第二试验,(ii)第一试验包括在核 酸分子的第一子集上进行第一扩增反应以产生具有第一平均GC含量的一个或多个第一扩 增子,(iii)第二试验包括在核酸分子的第二子集上进行第二扩增反应以产生具有第二平 均GC含量的一个或多个第二扩增子,且(iv)核酸分子的第一子集的第一平均GC含量不同 于核酸分子的第二子集的第二平均GC含量;以及产生两个或更多个核酸文库,其中(i)所 述两个或更多个文库包括第一核酸文库和第二核酸文库,(ii)第一核酸文库包含所述一个 或多个第一扩增子,(iii)第二核酸文库包含所述一个或多个第二扩增子,且(iv)第一核 酸文库的内含物与第二核酸文库的内含物至少部分互补。 [0095] 本文提供了如下的方法,其包括(a)从包含一个或多个核酸分子的样品产生核酸分子的两个或更多个子集,其中(i)核酸分子的所述两个或更多个子集包括核酸分子的第 一子集和核酸分子的第二子集,且(ii)核酸分子的所述两个或更多个子集在一个或多个 基因组区域特征方面不同;以及(b)产生两个或更多个核酸文库,其中(i)所述两个或更 多个文库包括第一核酸文库和第二核酸文库,(ii)第一核酸文库包含一个或多个第一与珠 子结合的核酸分子,(iii)第二核酸文库包含一个或多个第二与珠子结合的核酸分子,且 (iv)第一核酸文库的内含物与第二核酸文库的内含物至少部分互补。 [0096] 本文还提供了一种用于对核酸分子进行测序的方法。该方法可以包括(a)使核酸样品与两个或更多个捕获探针组接触以产生多个与捕获探针杂交的核酸分子,其中所述多 个与捕获探针杂交的核酸分子包含两个或更多个选自下组的核酸分子区域,该组包括:(i) 高GC含量;(ii)低GC含量;(iii)低复杂度;(iv)低可定位性;(v)已知的单核苷酸变异 (SNV);(vi)已知的插入缺失;(vii)已知的包含一个或多个小的插入、小的缺失、结构变异 连接、可变长度串联重复或侧翼序列的可选序列;(viii)整个基因组;(ix)整个外显子组; (x)具有已知的孟德尔性状的成组基因;(xi)成组基因;(xii)成组调节元件;(xiii)具有 已知的疾病性状的成组基因;(xiv)具有已知的药物性状的成组基因;及(xv)具有已知的 在生物医学上可解释的变体的成组基因;以及(b)在所述多个与捕获探针杂交的核酸分子 上进行测序反应。 [0097] 在本公开内容的某些方面,所述方法包括(a)使核酸样品与一个或多个捕获探针接触,其中所述一个或多个捕获探针中的至少一个与邻近或跨越感兴趣的基因或在其内的 两个或更多个不同的基因组区域杂交,以产生一个或多个与捕获探针杂交的核酸分子;以 及(b)在所述一个或多个与捕获探针杂交的核酸分子上进行测序反应,从而分析感兴趣的 基因。 [0098] 在本公开内容的某些方面,本文还公开了一种用于生成生物医学报告的方法。该方法可以包括(a)从用户接收对第一指定生物医学报告的第一请求,其中(i)第一指定健 康报告从基于来自核酸样品的核酸分子的两个或更多个子集的分析的数据或结果生成,且 (ii)核酸分子的所述两个或更多个子集在一个或多个特征方面不同;(b)将第一指定生物 医学报告传送给用户;(c)从用户接收对第二指定生物医学报告的第二请求,其中(i)第 二指定健康报告从基于来自核酸样品的核酸分子的两个或更多个子集的分析的数据或结 果生成,(ii)核酸分子的所述两个或更多个子集在一个或多个特征方面不同;且(iii)第 一指定生物医学报告与第二指定生物医学报告在一个或多个生物医学特征方面不同;以及 (c)将第二指定生物医学报告传送给用户。 [0099] 在本公开内容的某些方面,本文还提供了互补核酸文库,其中所述文库在一个或多个方面是互补的。所述一个或多个方面可以选自:GC含量、片段长度和基因组区域。本 文还公开了用于开发这些文库的方法和系统以及包含这些文库的试剂盒。 [0100] 在本公开内容的某些方面,本文提供了包含一个或多个捕获探针组的试剂盒。该试剂盒可以包括第一捕获探针组和第二捕获探针组,其中(i)第一和第二捕获探针组与一 个或多个基因组区域杂交,且(ii)被第一捕获探针组杂交的基因组区域中的一个或多个 不同于被第二捕获探针组杂交的基因组区域中的一个或多个。 [0101] 在进一步详细描述本方法之前,应当理解,本发明不限于描述的具体方法或组合物,当然,其本身可以变化。还应理解,本文使用的术语仅是为了描述特定实施方案的目的, 且并非意图限制,因为本发明的范围将仅由所附的权利要求来限制。实例的提出是为了为 本领域普通技术人员提供关于如何进行和使用本发明的完整的公开内容以及说明,且并非 意图限制发明人视为其发明的范围,也并非意图表示下面的实验是所进行的全部或仅有的 实验。已经努力确保关于使用的数字(例如,量、温度等)的准确性,但是应当会有一些实 验误差和偏差。除非另外指出,否则份数是按重量计的份数,分子量是重均分子量,温度是 摄氏度,且压力是大气压或接近大气压。 [0102] 在提供了数值范围的情况下,应当理解,在该范围的上限和下限之间的每一个中间值(精确到下限单位的十分之一,除非上下文另外明确地指出)也被具体公开。在指定 范围中的任何指定值或中间值与在该指定范围中的任何其他指定值或中间值之间的每个 较小范围包含在本发明之内。这些较小范围的上限和下限可以被独立地包括在该范围内或 从中排除,并且限值之一、没有限值或两个限值包括在较小范围内的每个范围也都包含在 本发明内,服从指定范围内的任何具体排除的限值。当指定的范围包括一个限值或两个限 值时,排除所包括的限值之一或两者的范围也包括在本发明内。 [0103] 除非另有定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同的含义。尽管与本文描述的那些相似或等同的任何方法和材 料可以在本发明的实施或测试中使用,但是现在描述一些可能的和优选的方法和材料。本 文提及的所有出版物均通过引用并入本文,以公开和描述与该出版物所引证的相关的方法 和/或材料。应当理解,在出现矛盾的情况下,本公开内容将取代所并入的出版物中的任何 公开内容。 [0104] 本领域技术人员在阅读了本公开内容之后将会明白,本文描述和说明的每个独立的实施方案均具有分立的组件和特征,该组件和特征可以容易地从任何其他若干实施方案 的特征相分离或与之组合,而不背离本发明的范围或精神。任何列举的方法均可以以列举 的事件的顺序进行,或以逻辑上可能的任何其他顺序进行。 [0105] 需注意,如本文和所附的权利要求中使用的,除非上下文另外明确指出,否则单数形式“一种”、“一个”和“该”包括复数形式的提及物。因此,例如,提到“一个细胞”包括多个这样的细胞,并且提到“该肽”包括提到一个或多个肽以及本领域技术人员熟知的其等同 物,例如多肽,等等。 [0106] 提供本文所述的出版物仅仅是为了它们在本申请的申请日之前的公开内容。在此不能被理解为承认本发明由于在先发明而无权先于这些出版物。另外,提供的出版物的日 期可能与实际出版日期不同,这可能需要独立地确认。 [0107] 本文的公开内容仅仅说明了本发明的原理。应当理解,本领域技术人员将能够设计各种布置,尽管在本文中没有明确地描述或展示,但是其体现了本发明的原理且包括在 本发明的精神和范围内。此外,本文列举的所有实例和条件性语言主要是旨在帮助读者理 解本发明的原理以及发明人为推动本领域而贡献的概念,并且应解释为不限于这些具体列 举的实例和条件。此外,列举本发明的原理、方面和实施方案及其具体实例的本文所有的表 述,都意图包括其结构等同物和功能等同物。另外,意图是这些等同物包括当前已知的等同 物和未来开发的等同物,例如,开发的执行相同功能的任何元件,而不管结构如何。因此,本 发明的范围并非意在限于本文所展示和描述的示例性实施方案。相反,本发明的范围和精 神由所附的权利要求书所具体体现。 [0108] 核酸分子的子集 [0109] 本文公开的方法可以包括核酸分子的一个或多个子集。核酸分子的子集可以来源于核酸样品。核酸分子的子集可以来源于相同的核酸样品。或者或另外,核酸分子的子集 来源于两个或更多个不同的核酸样品。核酸分子的两个或更多个子集可以在它们的核酸 含量上不同。核酸分子的一个或多个子集可以包含一个或多个核酸分子或其变体或衍生 物。例如,核酸分子的两个或更多个子集可以包含如下的核酸,该核酸包含不同的GC含量、 核酸大小、基因组区域、基因组区域特征、洗脱的核酸分子、杂交的核酸分子、非杂交的核酸 分子、扩增的核酸分子、非扩增的核酸分子、上清液来源的核酸分子、洗脱液来源的核酸分 子、标记的核酸分子、未标记的核酸分子、与捕获探针杂交的核酸分子、无捕获探针的核酸 分子、与珠子结合的核酸分子、无珠子的核酸分子,或其组合。核酸分子的两个或更多个子 集可以在如下方面不同:GC含量、核酸大小、基因组区域、捕获探针、珠子、标记或其组合。 [0110] 本文公开的方法可以包括将核酸分子的两个或更多个子集组合以产生核酸分子的组合子集。核酸分子的组合子集可以来源于核酸样品。核酸分子的组合子集可以来源 于相同的核酸样品。或者或另外,核酸分子的组合子集来源于两个或更多个不同的核酸样 品。核酸分子的两个或更多个组合子集可以在它们的核酸含量上不同。核酸分子的一个或 多个组合子集可以包含一个或多个核酸分子或其变体或衍生物。例如,核酸分子的两个或 更多个组合子集可以包含如下的核酸,该核酸包含不同的GC含量、核酸大小、基因组区域、 基因组区域特征、洗脱的核酸分子、杂交的核酸分子、非杂交的核酸分子、扩增的核酸分子、 非扩增的核酸分子、上清液来源的核酸分子、洗脱液来源的核酸分子、标记的核酸分子、未 标记的核酸分子、与捕获探针杂交的核酸分子、无捕获探针的核酸分子、与珠子结合的核酸 分子、无珠子的核酸分子,或其组合。核酸分子的两个或更多个组合子集可以在如下方面不 同:GC含量、核酸大小、基因组区域、捕获探针、珠子、标记或其组合。 [0111] 核酸分子的子集可以包含如本文所公开的一个或多个基因组区域。核酸分子的子集可以包含1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更 多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更 多个、13个或更多个、14个或更多个、15个或更多个、20个或更多个、25个或更多个、30个 或更多个、35个或更多个、40个或更多个、50个或更多个、60个或更多个、70个或更多个、 80个或更多个、90个或更多个、或100个或更多个基因组区域。所述一个或多个基因组区 域可以是相同的、相似的、不同的或其组合。 [0112] 核酸分子的子集可以包含如本文所公开的一个或多个基因组区域特征。核酸分子的子集可以包含1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个 或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个 或更多个、13个或更多个、14个或更多个、15个或更多个、20个或更多个、25个或更多个、 30个或更多个、35个或更多个、40个或更多个、50个或更多个、60个或更多个、70个或更多 个、80个或更多个、90个或更多个、或100个或更多个基因组区域特征。所述一个或多个基 因组区域特征可以是相同的、相似的、不同的或其组合。 [0113] 核酸分子的子集可以包含具有不同大小的核酸分子。核酸分子的子集中的核酸分子的长度可以被称为核酸分子的大小。核酸分子的子集中的核酸分子的平均长度可以被称 为核酸分子的平均大小。如本文使用的,术语“核酸分子的大小”、“核酸分子的平均大小”、“分子大小”和“平均分子大小”可以互换使用。核酸分子的大小可以用于区分核酸分子的两 个或更多个子集。核酸分子的子集中核酸分子的平均大小与核酸分子的另一子集中核酸分 子的平均大小的差异可以用于区分核酸分子的这两个子集。核酸分子的一个子集中的核酸 分子的平均大小可以大于核酸分子的至少一个其他子集中的核酸分子的平均大小。核酸分 子的一个子集中的核酸分子的平均大小可以小于核酸分子的至少一个其他子集中的核酸 分子的平均大小。在核酸分子的两个或更多个子集之间的平均分子大小的差异可以是至少 约 50、75、100、125、150、175、200、225、250、275、300、350、400、450、500、550、600、650、700、 750、800、850、900、950、1,000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2,000、 3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、 50,000、60,000、70,000、80,000、90,000、100,000个或更多个碱基或碱基对。在本公开内容的某些方面,在核酸分子的两个或更多个子集之间的平均分子大小的差异是至少约200个 碱基或碱基对。或者,在核酸分子的两个或更多个子集之间的平均分子大小的差异是至少 约300个碱基或碱基对。 [0114] 核酸分子的子集可以包含具有不同测序大小的核酸分子。待测序的核酸分子的子集中的核酸分子的长度可以被称为核酸分子的测序大小。核酸分子的子集中的核酸分子 的平均长度可以被称为核酸分子的平均测序大小。如本文使用的,术语“核酸分子的测序 大小”、“核酸分子的平均测序大小”、“分子测序大小”和“平均分子测序大小”可以互换使用。核酸分子的一个或多个子集的平均分子测序大小可以是至少约50、75、100、125、150、 175、200、225、250、275、300、350、400、450、500、550、600、650、700、750、800、850、900、950、 1,000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2,000、3,000、4,000、5,000、 6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、60,000、 70,000、80,000、90,000、100,000个或更多个碱基或碱基对。核酸分子的测序大小可以用于 区分核酸分子的两个或更多个子集。核酸分子的子集中核酸分子的平均测序大小与核酸分 子的另一子集中核酸分子的平均测序大小的差异可以用于区分核酸分子的这两个子集。核 酸分子的一个子集中的核酸分子的平均测序大小可以大于核酸分子的至少一个其他子集 中的核酸分子的平均测序大小。核酸分子的一个子集中的核酸分子的平均测序大小可以小 于核酸分子的至少一个其他子集中的核酸分子的平均测序大小。在核酸分子的两个或更多 个子集之间的平均分子测序大小的差异可以是至少约50、75、100、125、150、175、200、225、 250、275、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1,000、1100、 1200、1300、1400、1500、1600、1700、1800、1900、2,000、3,000、4,000、5,000、6,000、7,000、 8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、 90,000、100,000个或更多个碱基或碱基对。在本公开内容的某些方面,在核酸分子的两个 或更多个子集之间的平均分子测序大小的差异是至少约200个碱基或碱基对。或者,在核 酸分子的两个或更多个子集之间的平均分子测序大小的差异是至少约300个碱基或碱基 对。 [0115] 核酸分子的两个或更多个子集可以至少部分互补。例如,核酸分子的第一子集可以包括包含基因组的至少第一部分的核酸分子,并且核酸分子的第二子集可以包括包含基 因组的至少第二部分的核酸分子,其中基因组的第一和第二部分相差一个或多个核酸分 子。因此,第一子集和第二子集至少部分互补。核酸分子的两个或更多个子集的互补性可 以是至少约10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、 75%、80%、85%、90%、95%、97%或更高。如本文使用的,术语“核酸分子的两个或更多个子集的互补性”通常是指两个或更多个子集的基因组内含物以及两个或更多个子集涵盖一 个或多个基因组区域的内含物的程度。例如,核酸分子的第一子集包含总的高GC外显子组 的50%,而核酸分子的第二子集包括总的低GC外显子组的50%,那么关于整个外显子组, 核酸分子的这两个子集的互补性是50%。在另一个实例中,核酸分子的第一子集包含总 的与珠子结合的核酸分子的100%,而核酸分子的第二子集包含总的无珠子的核酸分子的 100%,那么关于总的核酸分子,这两个子集的互补性是100%。 [0116] 核酸分子的子集可以包含与珠子结合的核酸分子。核酸分子的两个或更多个子集可以被区分为与珠子结合的核酸分子和无珠子的核酸分子。例如,核酸分子的第一子集可 以包含一个或多个与珠子结合的核酸分子,而核酸分子的第二子集可以包含无珠子的核酸 分子。无珠子的核酸分子可以指没有结合到一个或多个珠子上的核酸分子。无珠子的核酸 分子可以指已经从一个或多个珠子上洗脱的核酸分子。例如,可以洗脱来自与珠子结合的 核酸分子的核酸分子以产生无珠子的核酸分子。 [0117] 核酸分子的子集可以包含与捕获探针杂交的核酸分子。核酸分子的两个或更多个子集可以被区分为与捕获探针杂交的核酸分子和无捕获探针的核酸分子。例如,核酸分 子的第一子集可以包含一个或多个与捕获探针杂交的核酸分子,而核酸分子的第二子集可 以包含无捕获探针的核酸分子。无捕获探针的核酸分子可以指没有与一个或多个捕获探针 杂交的核酸分子。无捕获探针的核酸分子可以指从一个或多个捕获探针上脱杂交的核酸分 子。例如,可以除去来自与捕获探针杂交的核酸分子的捕获探针以产生无捕获探针的核酸 分子。 [0118] 捕获探针可以与样品中或核酸分子的子集中的一个或多个核酸分子杂交。捕获探针可以与一个或多个基因组区域杂交。捕获探针可以与跨越一个或多个基因、外显子、内含 子、UTR或其组合或在其以内、周围或附近的一个或多个基因组区域杂交。捕获探针可以与 跨越一个或多个基因、外显子、内含子、UTR或其组合的一个或多个基因组区域杂交。捕获 探针可以与一个或多个已知的插入缺失杂交。捕获探针可以与一个或多个已知的结构变体 杂交。 [0119] 核酸分子的子集可以包含标记的核酸分子。核酸分子的两个或更多个子集可以被区分为标记的核酸分子和未标记的核酸分子。例如,核酸分子的第一子集可以包含一个或 多个标记的核酸分子,而核酸分子的第二子集可以包含未标记的核酸分子。未标记的核酸 分子可以指没有附接到一个或多个标记上的核酸分子。未标记的核酸分子可以指已经从一 个或多个标记上脱离的核酸分子。例如,可以除去来自于标记的核酸分子的标记以产生未 标记的核酸分子。 [0120] 本文公开的方法可以包括一个或多个标记。一个或多个标记可以附接至一个或多个捕获探针、核酸分子、珠子、引物或其组合。标记的实例包括但不限于可检测标记,如放射 性同位素、荧光团、化学发光团、生色团、发光团、酶、胶体颗粒,以及荧光微粒、量子点,以及抗原、抗体、半抗原、抗生物素蛋白/链霉亲和素、生物素、半抗原、酶辅因子/底物、猝灭系 统的一个或多个成员、色原体、半抗原、磁性颗粒、显示出非线性光学的材料、半导体纳米晶 体、金属纳米颗粒、酶、适体,以及结合对的一个或多个成员。 [0121] 核酸分子的一个或多个子集可以经历一个或多个试验。核酸分子的一个或多个子集可以经历一个或多个基于它们的生物化学特征的试验。核酸分子的一个或多个子集可以 经历一个或多个基于它们的基因组区域特征的试验。核酸分子的一个或多个子集可以经历 1、2、3、4、5、6、7、8、9、10个或更多个试验。核酸分子的一个或多个子集可以经历1、2、3、4、 5、6、7、8、9、10个或更多个基于它们的生物化学特征的试验。核酸分子的一个或多个子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个基于它们的基因组区域特征的试验。核酸分子的一个或多个子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个相同的试验。核酸分子的一个或多个子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个相同的基于它们的生物化学特征的试验。核酸分子的一个或多个子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个相同的基于它们的基因组区域特征的试验。核酸分子的一个或多个子集可以经历1、2、3、4、 5、6、7、8、9、10个或更多个相似的试验。核酸分子的一个或多个子集可以经历1、2、3、4、5、 6、7、8、9、10个或更多个相似的基于它们的生物化学特征的试验。核酸分子的一个或多个 子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个相似的基于它们的基因组区域特征的试验。核酸分子的一个或多个子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个不同的试验。 核酸分子的一个或多个子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个不同的基于它们的生物化学特征的试验。核酸分子的一个或多个子集可以经历1、2、3、4、5、6、7、8、9、10个或更多个不同的基于它们的基因组区域特征的试验。核酸分子的两个或更多个子集可以经 历一个或多个相同的基于它们的生物化学特征的处理步骤。核酸分子的两个或更多个子集 可以经历一个或多个相同的基于它们的基因组区域特征的处理步骤。核酸分子的两个或更 多个子集可以经历一个或多个相似的基于它们的生物化学特征的处理步骤。核酸分子的两 个或更多个子集可以经历一个或多个相似的基于它们的基因组区域特征的处理步骤。核酸 分子的两个或更多个子集可以经历一个或多个不同的基于它们的生物化学特征的处理步 骤。核酸分子的两个或更多个子集可以经历一个或多个不同的基于它们的基因组区域特征 的处理步骤。 [0122] 本文公开的方法可以包括产生核酸分子的两个或更多个子集。核酸分子的两个或更多个子集可以被流体地分离,被分离在两个或更多个容器内,被分离在两个或更多个位 置中,或其组合。例如,核酸分子的第一子集和核酸分子的第二子集被流体地分离。在另一 个实例中,核酸分子的第一子集处于第一容器中,而核酸分子的第二子集处于第二容器中。 在又一个实例中,核酸分子的第一子集和核酸分子的第二子集被分配到第一容器上的两个 或更多个位置,而核酸分子的第三子集处于第二容器中。 [0123] 基因组区域 [0124] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集。本文公开的方法可以包括包含一组或多组基因组区域的核酸样品或核酸分子的子 集。所述一个或多个基因组区域可以包含一个或多个基因组区域特征。该基因组区域特征 可以包含整个基因组或其一部分。该基因组区域特征可以包含整个外显子组或其一部分。 该基因组区域特征可以包含一组或多组基因。该基因组区域特征可以包含一个或多个基 因。该基因组区域特征可以包含一组或多组调节元件。该基因组区域特征可以包含一个或 多个调节元件。该基因组区域特征可以包含一组多态性。该基因组区域特征可以包含一种 或多种多态性。该基因组区域特征可以涉及一个或多个核酸分子的GC含量、复杂度和/或 可定位性。该基因组区域特征可以包含一个或多个简单串联重复(STR)、不稳定的扩展重 复(unstable expanding repeat)、片段复制、单一及配对读取简并定位得分(single and paired read degenerative mapping scores)、GRCh37补丁或其组合。该基因组区域特征 可以包含一个或多个来自于全基因组测序(WGS)的低平均覆盖区、来自于WGS的零平均覆 盖区、经验证的压缩(validated compression)或其组合。该基因组区域特征可以包含一 个或多个可选序列或非参考序列。该基因组区域特征可以包含一个或多个基因取相(gene phasing)和重组基因(reassembly gene)。在本公开内容的一些方面,所述一个或多个基 因组区域特征不是互斥的。例如,包含整个基因组或其一部分的基因组区域特征可以与另 外的基因组区域特征(如整个外显子组或其一部分、一个或多个基因、一个或多个调节元 件等)重叠。或者,所述一个或多个基因组区域特征是互斥的。例如,包含整个基因组的非 编码部分的基因组区域不会与诸如外显子组或其一部分或基因的编码部分的基因组区域 特征重叠。或者或另外,所述一个或多个基因组区域特征是部分排斥或部分包含的。例如, 包含整个外显子组或其一部分的基因组区域可以部分地与包含基因的外显子部分的基因 组区域重叠。然而,包含整个外显子组或其一部分的基因组区域将不与包含基因的内含子 部分的基因组区域重叠。因此,包含基因或其一部分的基因组区域特征可以部分地排斥和 /或部分地包括包含整个外显子组或其一部分的基因组区域特征。 [0125] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包括包含整个基因组或其一部分的基 因组区域特征。整个基因组或其一部分可以包含基因组的一个或多个编码部分、基因组的 一个或多个非编码部分或其组合。基因组的编码部分可以包含编码一种或多种蛋白质的基 因的一个或多个编码部分。基因组的一个或多个编码部分可以包含整个外显子组或其一部 分。或者或另外,基因组的一个或多个编码部分可以包含一个或多个外显子。基因组的一 个或多个非编码部分可以包含一个或多个非编码分子或其一部分。该非编码分子可以包含 一个或多个非编码RNA、一个或多个调节元件、一个或多个内含子、一个或多个假基因、一个 或多个重复序列、一个或多个转座子、一个或多个病毒元件、一个或多个端粒,其一部分,或 其组合。非编码RNA可以是不翻译成蛋白质的功能性RNA分子。非编码RNA的实例包括但 不限于核糖体RNA、转移RNA、piwi相互作用RNA、微RNA、siRNA、shRNA、snoRNA、sncRNA以 及lncRNA。假基因可能与已知基因相关且通常不再表达。重复序列可以包括一个或多个串 联重复、一个或多个散在重复或其组合。串联重复可以包括一个或多个卫星DNA、一个或多 个小卫星、一个或多个微卫星或其组合。散在重复可以包括一个或多个转座子。该转座子 可以是可动遗传元件。可动遗传元件通常能够改变它们在基因组内的位置。转座子可以分 类为I类可转座元件(I类TE)或II类可转座元件(II类TE)。I类TE(例如反转录转座 子)通常可在两个阶段拷贝其自身,首先通过转录从DNA到RNA,然后通过逆转录从RNA返 回DNA。然后,可以将DNA拷贝插入至基因组中的新位置。I类TE可以包括一个或多个长末 端重复(LTR)、一个或多个长散在核元件(LINE)、一个或多个短散在核元件(SINE)或其组 合。LTR的实例包括但不限于人内源性逆转录病毒(HERV)、中度重复的重复序列4(medium reiterated repeats 4)(MER4)以及反转录转座子。LINE的实例包括但不限于LINE1和 LINE2。SINE可以包括一个或多个Alu序列、一个或多个哺乳动物宽散在重复(MIR)或其 组合。II类TE(例如DNA转座子)通常不包括RNA中间体。DNA转座子通常在基因组中从 一个位点切除并插入另一位点。或者,DNA转座子被复制并插入至基因组中的新位置。DNA 转座子的实例包括但不限于MER1、MER2以及Mariners。病毒元件可以包括一个或多个内 源性逆转录病毒序列。端粒通常是在染色体末端的重复DNA区域。 [0126] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包括包含整个外显子组或其一部分的 基因组区域特征。外显子组通常是由外显子形成的基因组的一部分。外显子组可由非翻译 区(UTR)、剪接位点和/或内含子区域形成。整个外显子组或其一部分可以包含编码蛋白 质的基因的一个或多个外显子。整个外显子组或其一部分可以包含一个或多个非翻译区 (UTR)、剪切位点以及内含子。 [0127] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包括包含基因或其一部分的基因组区 域特征。通常,基因包括编码多肽或功能性RNA的核酸的序列段。基因可以包含一个或多 个外显子、一个或多个内含子、一个或多个非翻译区(UTR)或其组合。外显子通常是基因的 编码区段,转录成前体mRNA序列,且位于基因的最终成熟RNA产物内。内含子通常是基因 的非编码区段,转录成前体mRNA序列,且通过RNA剪接除去。UTR可以指在mRNA链上的编 码序列每侧上的区段。位于编码序列的5’侧的UTR可以称作5’UTR(或前导序列)。位于 编码序列的3’侧的UTR可以称作3’UTR(或尾随序列)。UTR可以包含用于控制基因表达 的一个或多个元件。元件,如调节元件,可以位于5’UTR内。调节序列,如聚腺苷酸化信号、 蛋白质的结合位点以及miRNA的结合位点,可以位于3’UTR内。位于3’UTR内的蛋白质 结合位点可以包括但不限于硒代半胱氨酸插入序列(SECIS)元件和富含AU的元件(ARE)。 SECIS元件可以指导核糖体将密码子UGA翻译为硒代半胱氨酸而非终止密码子。ARE通常 是主要由腺嘌呤和尿嘧啶核苷酸组成的序列段,其可以影响mRNA的稳定性。 [0128] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包括包含一组基因的基因组区域特 征。该组基因可以包括但不限于,Mendel DB基因、人类基因突变数据库(HGMD)基因、癌基 因普查基因(Cancer Gene Census Gene)、在线人类孟德尔遗传(OMIM)孟德尔基因、HGMD 孟德尔基因以及人类白细胞抗原(HLA)基因。该组基因可以具有一个或多个已知的孟德尔 性状、一个或多个已知的疾病性状、一个或多个已知的药物性状、一个或多个已知的在生物 医学上可解释的变体或其组合。孟德尔性状可以由单基因座控制,并且可以显示孟德尔遗 传模式。具有已知的孟德尔性状的基因组可以包括一个或多个编码孟德尔性状的基因,孟 德尔性状包括但不限于苯硫脲味觉能力(显性)、氰化氢嗅觉(类似于苦杏仁的)能力(隐 性)、白化病(隐性)、短指(手指和脚趾短)以及湿(显性)或干(隐性)耳垢。疾病性 状引起疾病或增加疾病的风险,且可以以孟德尔或复杂的模式遗传。具有已知的疾病性状 的一组基因可以包括一个或多个编码疾病性状的基因,该疾病性状包括但不限于囊性纤维 化、血友病以及林奇综合征(Lynch Syndrome)。药物性状可以改变一种或多种药物或药物 家族的代谢、最佳剂量、不良反应以及副作用。具有已知的药物性状的一组基因可以包括一 个或多个编码药物性状的基因,该药物性状包括但不限于CYP2D6、UGT1A1以及ADRB1。在 生物医学上可解释的变异可以是与疾病或指征相关的基因中的多态性。具有已知的在生 物医学上可解释的变异的一组基因可以包括一个或多个编码在生物医学上可解释的变异 的基因,该在生物医学上可解释的变异包括但不限于囊性纤维化(CF)突变、肌营养不良突 变、p53突变、Rb突变、细胞周期调节蛋白、受体和激酶。或者或另外,具有已知的在生物医 学上可解释的变异的一组基因可以包括与亨廷顿病(Huntington’s disease)、癌症、囊性 纤维化、肌营养不良(例如杜氏肌营养不良(Duchenne muscular dystrophy))相关的一个 或多个基因。 [0129] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包括包含调节元件或其一部分的基因 组区域特征。该调节元件可以是顺式调节元件或反式调节元件。顺式调节元件可以是控制 附近基因转录的序列。顺式调节元件可以位于5’或3’非翻译区(UTR)内或内含子内。反 式调节元件可以控制远处基因的转录。调节元件可以包括一个或多个启动子、一个或多个 增强子或其组合。启动子可以促进特定基因的转录,且可见于编码区的上游。增强子可以 对基因的转录水平发挥远距效应。 [0130] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包括包含多态性或其一部分的基因组 区域特征。通常,多态性是指基因型的突变。多态性可以包括一个或多个碱基改变、一个或 多个碱基的插入、重复或缺失。拷贝数变异(CNV)、颠换和其他重排也是遗传变异的形式。 多态性标记包括限制性片段长度多态性、可变数目串联重复(VNTR)、高变区、小卫星、二核 苷酸重复、三核苷酸重复、四核苷酸重复、简单序列重复以及插入元件如Alu。最频繁出现在 选定群体中的等位基因形式有时被称为野生型。二倍体生物对于等位基因形式而言可以是 纯合的或杂合的。双等位基因多态性具有两种形式。三等位基因多态性具有三种形式。单 核苷酸多态性(SNP)是多态性的一种形式。在本公开内容的一些方面,一种或多种多态性 包括一个或多个单一核苷酸变异、插入和缺失、小插入、小缺失、结构变异连接、可变长度串 联重复、侧翼序列或其组合。一种或多种多态性可以位于编码区和/或非编码区内。一种 或多种多态性可以位于基因、外显子、内含子、剪接位点、非翻译区或其组合之内、周围或附 近。一种或多种多态性可以跨越基因、外显子、内含子、非翻译区的至少一部分。 [0131] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包括包含一个或多个简单串联重复 (STR)、不稳定扩展重复、片段复制、单一及配对读取简并定位得分、GRCh37补丁或其组合的 基因组区域特征。所述一个或多个STR可以包括一个或多个均聚物、一个或多个二核苷酸 重复、一个或多个三核苷酸重复或其组合。所述一个或多个均聚物可以是约7、8、9、10、11、 12、13、14、15、16、17、18、19、20个或更多个碱基或碱基对。二核苷酸重复和/或三核苷酸重复可以是约15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多个碱基或碱基对。单一及配对读取简并定位得分可以基于或来源于100聚体被来自 ENCODE/CRG(Guigo)的GEM的可对准性、75聚体被来自ENCODE/CRG(Guigo)的GEM的可对准 性、针对信号可定位性的100碱基对箱车平均(box car average)、基因座最大值(max of locus)以及针对配对读取得分的可能的配对或其组合。基因组区域特征可以包括一个或多 个来自于全基因组测序(WGS)的低平均覆盖区、来自于WGS的零平均覆盖区、经验证的压缩 或其组合。来自于WGS的低平均覆盖区可以包括由Illumina v3化学(chemistry)产生的 区域、基于平均覆盖的泊松分布的第一百分位以下的区域或其组合。来自于WGS的零平均 覆盖区可以包含由Illumina v3化学产生的区域。经验证的压缩可以包括高定位深度的区 域、具有两个或更多个观察到的单倍型的区域、预期将在参考中丢失重复的区域或其组合。 基因组区域特征可以包含一个或多个可选序列或非参考序列。所述一个或多个可选序列 或非参考序列可以包括已知的结构变异连接、已知的插入、已知的缺失、替换单倍型或其组 合。基因组区域特征可以包括一个或多个基因取相和重组基因。取相和重组基因的实例包 括但不限于一个或多个主要组织相容性复合体、血液分型以及淀粉酶基因家族。所述一个 或多个主要组织相容性复合体可以包括一个或多个I类HLA、II类HLA或其组合。所述一 个或多个I类HLA可以包括HLA-A、HLA-B、HLA-C或其组合。所述一个或多个II类HLA可 以包括HLA-DP、HLA-DM、HLA-DOA、HLA-DOB、HLA-DQ、HLA-DR或其组合。血液分型基因可以 包括ABO、RHD、RHCE或其组合。 [0132] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包含与一个或多个核酸分子的GC含 量相关的基因组区域特征。GC含量可以指核酸分子的GC含量。或者,GC含量可以指一个 或多个核酸分子的GC含量,且可以被称为平均GC含量。如本文使用的,术语“GC含量”和 “平均GC含量”可以互换使用。基因组区域的GC含量可以是高GC含量。通常,高GC含量 是指大于或等于约65%、70%、75%、80%、85%、90%、95%、97%或更高的GC含量。在本公开内容的一些方面,高GC含量可以指大于或等于约70%的GC含量。基因组区域的GC含量 可以是低GC含量。通常,低GC含量是指小于或等于约65%、60%、55%、50%、45%、40%、 35%、30%、25%、20%、15%、10%、5%、2%或更低的GC含量。 [0133] 可以使用GC含量的差异来区分两个或更多个基因组区域或核酸分子的两个或更多个子集。GC含量的差异可以指一个核酸分子与另一个核酸分子的GC含量的差异。或者, GC含量的差异可以指基因组区域中的两个或更多个核酸分子的平均GC含量与另一个基因 组区域中的两个或更多个核酸分子的平均GC含量的差异。在本公开内容的一些方面,GC含 量的差异是指核酸分子的子集中的两个或更多个核酸分子的平均GC含量与核酸分子的另 一个子集中的两个或更多个核酸分子的平均GC含量的差异。GC含量的差异可以是约5%、 6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%或更高。在本公开内容的一些方面,GC含量的差异为至少约5%。GC含量的差异可以为至少约10%。 [0134] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包含与一个或多个核酸分子的复杂度 相关的基因组区域特征。核酸分子的复杂度可以指核苷酸序列的随机性。低复杂度可以指 序列中的一个或多个核苷酸种类的模式、重复和/或贫乏(depletion)。 [0135] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,其中所述一个或多个基因组区域中的至少一个包含与一个或多个核酸分子的可定位 性相关的基因组区域特征。核酸分子的可定位性可以指其相对于参考序列的比对的独特 性。具有低可定位性的核酸分子可以具有相对于参考序列的较差的比对。 [0136] 本文公开的方法可以包括包含一个或多个基因组区域的核酸样品或核酸分子的子集,所述一个或多个基因组区域包含一个或多个基因组区域特征。在本公开内容的一些 方面,单个基因组区域包含1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或 更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或 更多个、12个或更多个、13个或更多个、14个或更多个、或15个或更多个基因组区域特征。 两个或更多个基因组区域可以包含1个或多个、2个或更多个、3个或更多个、4个或更多个、 5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11 个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、20个或更多个、 25个或更多个、30个或更多个、35个或更多个、40个或更多个、50个或更多个、60个或更多 个、70个或更多个、80个或更多个、90个或更多个、或100个或更多个基因组区域特征。在 本公开内容的一些方面,两个或更多个基因组区域包含1个或多个、2个或更多个、3个或更 多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多 个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、或15个 或更多个基因组区域特征。一个或多个基因组区域可以包含1个或多个、2个或更多个、3 个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个 或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15 个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个或更多个、 50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多个、或100个或 更多个相同或相似的基因组区域特征。或者或另外,两个或更多个基因组区域包含1个或 多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多 个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更 多个、14个或更多个、或15个或更多个基因组区域特征。一个或多个基因组区域可以包含 1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或 更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个 或更多个、14个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、 35个或更多个、40个或更多个、50个或更多个、60个或更多个、70个或更多个、80个或更多 个、90个或更多个、或100个或更多个不同的基因组区域特征。 [0137] 本文公开的方法可以包括包含两个或更多个基因组区域的核酸样品或核酸分子的子集,其中所述两个或更多个基因组区域可通过一个或多个基因组区域特征区分。本文 公开的方法可以包括包含核酸分子的两个或更多个子集的核酸样品或核酸分子的子集,其 中核酸分子的所述两个或更多个子集可通过一个或多个基因组区域特征区分。所述两个或 更多个基因组区域和/或核酸分子的所述两个或更多个子集可以通过1个或多个、2个或更 多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多 个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更 多个、或15个或更多个基因组区域特征区分。所述一个或多个基因组区域可以包含1个或 多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多 个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更 多个、14个或更多个、15个或更多个、20个或更多个、25个或更多个、或30个或更多个基因 组区域特征。 [0138] 本文公开的方法可以包括包含一组或多组基因组区域的核酸样品或核酸分子的子集。例如,本文公开的方法可以包括包含1组或多组、2组或更多组、3组或更多组、4组或 更多组、5组或更多组、6组或更多组、7组或更多组、8组或更多组、9组或更多组、10组或更 多组、11组或更多组、12组或更多组、13组或更多组、14组或更多组、15组或更多组、20组 或更多组、25组或更多组、30组或更多组、35组或更多组、40组或更多组、50组或更多组、60 组或更多组、70组或更多组、80组或更多组、90组或更多组、或100组或更多组基因组区域 的核酸样品或核酸分子的子集。所述一组或多组基因组区域可以包含1个或多个、2个或更 多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多 个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更 多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、40个 或更多个、50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多个、 或100个或更多个不同的基因组区域。所述一组或多组基因组区域可以包含1个或多个、2 个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个 或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14 个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多个、 40个或更多个、50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多 个、或100个或更多个相同或相似的基因组区域。所述一组或多组基因组区域可以包含一 个或多个不同的基因组区域和一个或多个相同或相似的基因组区域的组合。 [0139] 捕获探针 [0140] 本文公开的方法可以包括一个或多个捕获探针,多个捕获探针,或一个或多个捕获探针组。通常,捕获探针包括核酸结合位点。捕获探针还可以包括一个或多个连接体。捕 获探针还可以包括一个或多个标记。所述一个或多个连接体可以将一个或多个标记附接到 核酸结合位点上。 [0141] 本文公开的方法可以包括1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、20 个或更多个、30个或更多个、40个或更多个、50个或更多个、60个或更多个、70个或更多个、 80个或更多个、90个或更多个、100个或更多个、125个或更多个、150个或更多个、175个或 更多个、200个或更多个、250个或更多个、300个或更多个、350个或更多个、400个或更多 个、500个或更多个、600个或更多个、700个或更多个、800个或更多个、900个或更多个、或 1000个或更多个一个或多个捕获探针或捕获探针组。所述一个或多个捕获探针或捕获探针 组可以是不同的、相似的、相同的或其组合。 [0142] 所述一个或多个捕获探针可以包含与样品中或核酸分子的子集中的一个或多个核酸分子或其变体或衍生物中的至少一部分杂交的核酸结合位点。捕获探针可以包含与一 个或多个基因组区域杂交的核酸结合位点。捕获探针可以与不同的、相似的和/或相同的 基因组区域杂交。所述一个或多个捕获探针可以与所述一个或多个核酸分子或其变体或衍 生物至少约50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、99%或更高地互补。 [0143] 捕获探针可以包含一个或多个核苷酸。捕获探针可以包含1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、 9个或更多个、10个或更多个、20个或更多个、30个或更多个、40个或更多个、50个或更多 个、60个或更多个、70个或更多个、80个或更多个、90个或更多个、100个或更多个、125个 或更多个、150个或更多个、175个或更多个、200个或更多个、250个或更多个、300个或更 多个、350个或更多个、400个或更多个、500个或更多个、600个或更多个、700个或更多个、 800个或更多个、900个或更多个、或1000个或更多个核苷酸。捕获探针可以包含约100个 核苷酸。捕获探针可以包含约10至约500个核苷酸、约20至约450个核苷酸、约30至约 400个核苷酸、约40至约350个核苷酸、约50至约300个核苷酸、约60至约250个核苷酸、 约70至约200个核苷酸、或约80至约150个核苷酸。在本公开内容的一些方面,捕获探针 包含约80个核苷酸至约100个核苷酸。 [0144] 多个捕获探针或捕获探针组可以包括两个或更多个具有相同的、相似的和/或不同的核酸结合位点序列、连接体和/或标记的捕获探针。例如,两个或更多个捕获探针包含 相同的核酸结合位点。在另一个实例中,两个或更多个捕获探针包含相似的核酸结合位点。 在又一个实例中,两个或更多个捕获探针包含不同的核酸结合位点。两个或更多个捕获探 针还可以包含一个或多个连接体。两个或更多个捕获探针还可以包含不同的连接体。两个 或更多个捕获探针还可以包含相似的连接体。两个或更多个捕获探针还可以包含相同的连 接体。两个或更多个捕获探针还可以包含一个或多个标记。两个或更多个捕获探针还可以 包含不同的标记。两个或更多个捕获探针还可以包含相似的标记。两个或更多个捕获探针 还可以包含相同的标记。 [0145] 试验和技术 [0146] 本文公开的方法可以包括从核酸样品产生核酸分子的一个或多个子集。本文公开的方法可以包括从核酸样品产生核酸分子的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或更多个子集。核酸分子的一个或多个子集可以通过使核酸样品与一个或多个珠子、捕获 探针、标记或其组合接触来产生。或者或另外,核酸分子的一个或多个子集通过将至少一个 核酸分子与另一个核酸分子分离来产生。 [0147] 本文公开的方法可以包括产生核酸的两个或更多个子集,即使核酸样品与一个或多个珠子接触,以产生包含一个或多个与珠子结合的核酸分子的核酸分子的第一子集以及 包含一个或多个无珠子的核酸分子的核酸分子的第二子集。 [0148] 或者或另外,本文公开的方法可以包括产生核酸的两个或更多个子集,即使核酸样品与一个或多个捕获探针接触,以产生包含一个或多个与捕获探针杂交的核酸分子的核 酸分子的第一子集以及包含一个或多个无捕获探针的核酸分子的核酸分子的第二子集。 [0149] 在本公开内容的一些方面,产生核酸的两个或更多个子集包括使核酸样品与一个或多个标记接触,以产生包含一个或多个标记核酸分子的核酸分子的第一子集以及包含一 个或多个非标记的核酸分子的核酸分子的第二子集。 [0150] 产生核酸的两个或更多个子集包括使核酸样品与一个或多个捕获探针接触,以产生包含一个或多个与捕获探针杂交的核酸分子的核酸分子的第一子集以及包含一个或多 个无捕获探针的核酸分子的核酸分子的第二子集。 [0151] 本文公开的方法可以包括在包含一个或多个核酸分子的样品上进行一个或多个试验。产生核酸分子的两个或更多个子集可以包括进行一个或多个试验。可以在来自样品 的核酸分子的子集上进行试验。可以在来自样品的一个或多个核酸分子上进行试验。可以 在核酸分子的子集的至少一部分上进行试验。试验可以包括用于一个或多个核酸分子的检 测、定量和/或分析的一种或多种技术、试剂、捕获探针、引物、标记和/或组分。 [0152] 本文公开的方法可以包括在核酸分子的两个或更多个子集上进行一个或多个试验。本文公开的方法还可以包括组合核酸分子的两个或更多个子集的至少一部分,以产生 核酸分子的组合子集,以及在核酸分子的组合子集上进行至少一个试验。在本公开内容的 一些方面,核酸分子的两个或更多个子集可以通过本文公开的一种或多种方法产生。 [0153] 试验可以包括但不限于一个或多个核酸分子的测序、扩增、杂交、富集、分离、洗脱、片段化、检测、定量。试验可以包括用于制备一个或多个核酸分子的方法。 [0154] 本文公开的方法可以包括在样品中的一个或多个核酸分子上进行一个或多个测序反应。本文公开的方法可以包括在样品中的一个或多个核酸分子上进行1个或多个、2个 或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或 更多个、9个或更多个、10个或更多个、15个或更多个、20个或更多个、30个或更多个、40个 或更多个、50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多个、 100个或更多个、200个或更多个、300个或更多个、400个或更多个、500个或更多个、600 个或更多个、700个或更多个、800个或更多个、900个或更多个、或1000个或更多个测序反 应。测序反应可以同时、顺序或两者组合地进行。测序反应可以包括全基因组测序或外显 子组测序。测序反应可以包括Maxim-Gilbert、链终止或高通量系统。或者或另外,测序反 TM 应可以包括Helioscope 单分子测序、纳米孔DNA测序、Lynx Therapeutics大规模平行特 征测序(Massively Parallel Signature Sequencing)(MPSS)、454焦磷酸测序、单分子实 TM 时(RNAP)测序、Illumina(Solexa)测序、SOLiD测序、Ion Torrent 、离子半导体测序、单 分子SMRT(TM)测序、聚合酶群落测序(Polony sequencing)、DNA纳米球测序、VisiGen生 物技术方法或其组合。或者或另外,测序反应可以包括一个或多个测序平台,包括但不限 TM 于,由Illumina提供的基因组分析仪IIx、HiSeq及MiSeq,单分子实时(SMRT )技术如由 Pacific Biosciences(California)提供的PacBio RS系统及Solexa测序仪,True单分子 TM TM 测序(tSMS )技术如由Helicos Inc.(Cambridge,MA)提供的HeliScope 测序仪。测序反 应还可以包括电子显微术或化学敏感场效应晶体管(chemFET)阵列。在本公开内容的一些 方面,测序反应包括毛细管测序、下一代测序、Sanger测序、合成测序、连接测序、杂交测序、单分子测序或其组合。合成测序可以包括可逆终止子测序、持续单分子测序、连续流动测序 或其组合。连续流动测序可以包括焦磷酸测序、pH介导的测序、半导体测序或其组合。 [0155] 本文公开的方法可以包括进行至少一个长读取测序反应以及至少一个短读取测序反应。可以在核酸分子的一个子集的至少一部分上进行长读取测序反应和/或短读取测 序反应。可以在核酸分子的两个或更多个子集的至少一部分上进行长读取测序反应和/或 短读取测序反应。可以在核酸分子的一个或多个子集的至少一部分上进行长读取测序反应 和短读取测序反应两者。 [0156] 一个或多个核酸分子或其子集的测序可以包括至少约5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1500、2,000、 2500、3,000、3500、4,000、4500、5,000、5500、6,000、6500、7,000、7500、8,000、8500、 9,000、10,000、25,000、50,000、75,000、100,000、250,000、500,000、750,000、10,000,000、 25,000,000、50,000,000、100,000,000、250,000,000、500,000,000、750,000,000、 1,000,000,000个或更多个测序读取值。 [0157] 测序反应可以包括对一个或多个核酸分子的至少约50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、 325、350、375、400、425、450、475、500、600、700、800、900、1,000、1500、2,000、2500、3,000、 3500、4,000、4500、5,000、5500、6,000、6500、7,000、7500、8,000、8500、9,000、10,000、 20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000个或更多个碱基或碱基对进行测序。测序反应可以包括对一个或多个核酸分子的至少约50、60、70、80、 90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、 280、290、300、325、350、375、400、425、450、475、500、600、700、800、900、1,000、1500、2,000、 2500、3,000、3500、4,000、4500、5,000、5500、6,000、6500、7,000、7500、8,000、8500、9,000、 10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000个或更多个连续的碱基或碱基对进行测序。 [0158] 优选地,在本发明的方法中使用的测序技术生成每次运行至少100个读取值、每次运行至少200个读取值、每次运行至少300个读取值、每次运行至少400个读取值、每 次运行至少500个读取值、每次运行至少600个读取值、每次运行至少700个读取值、每次 运行至少800个读取值、每次运行至少900个读取值、每次运行至少1000个读取值、每次 运行至少5,000个读取值、每次运行至少10,000个读取值、每次运行至少50,000个读取 值、每次运行至少100,000个读取值、每次运行至少500,000个读取值、或每次运行至少 1,000,000个读取值。或者,本发明的方法中使用的测序技术生成每次运行至少1,500,000 个读取值、每次运行至少2,000,000个读取值、每次运行至少2,500,000个读取值、每次运 行至少3,000,000个读取值、每次运行至少3,500,000个读取值、每次运行至少4,000,000 个读取值、每次运行至少4,500,000个读取值、或每次运行至少5,000,000个读取值。 [0159] 优选地,在本发明的方法中使用的测序技术可以生成每个读取值至少约30个碱基对、至少约40个碱基对、至少约50个碱基对、至少约60个碱基对、至少约70个碱基对、至 少约80个碱基对、至少约90个碱基对、至少约100个碱基对、至少约110个、至少约120个 碱基对,每个读取值至少约150个碱基对、至少约200个碱基对、至少约250个碱基对、至少 约300个碱基对、至少约350个碱基对、至少约400个碱基对、至少约450个碱基对、至少约 500个碱基对、至少约550个碱基对、至少约600个碱基对、至少约700个碱基对、至少约800 个碱基对、至少约900个碱基对、或至少约1,000个碱基对。或者,在本发明的方法中使用 的测序技术可以生成长测序读取值。在一些情况下,在本发明的方法中使用的测序技术可 以生成每个读取值至少约1,200个碱基对、每个读取值至少约1,500个碱基对、每个读取值 至少约1,800个碱基对、每个读取值至少约2,000个碱基对、每个读取值至少约2,500个碱 基对、每个读取值至少约3,000个碱基对、每个读取值至少约3,500个碱基对、每个读取值 至少约4,000个碱基对、每个读取值至少约4,500个碱基对、每个读取值至少约5,000个碱 基对、每个读取值至少约6,000个碱基对、每个读取值至少约7,000个碱基对、每个读取值 至少约8,000个碱基对、每个读取值至少约9,000个碱基对、每个读取值至少约10,000个 碱基对、每个读取值20,000个碱基对、每个读取值30,000个碱基对、每个读取值40,000个 碱基对、每个读取值50,000个碱基对、每个读取值60,000个碱基对、每个读取值70,000个 碱基对、每个读取值80,000个碱基对、每个读取值90,000个碱基对、或每个读取值100,000 个碱基对。 [0160] 高通量测序系统可以允许被测序的核苷酸在其掺入生长链之后立即或在其掺入至生长链时进行检测,即实时或基本实时的序列检测。在一些情况下,高通量测序每小时 生成至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少 50,000、至少100,000或至少500,000个序列读取值;且每次读取的每个读取值为至少50、 至少60、至少70、至少80、至少90、至少100、至少120、至少150、至少200、至少250、至少 300、至少350、至少400、至少450、或至少500个碱基。可以使用本文描述的核酸如基因组 DNA、来源于RNA转录物的cDNA或RNA作为模板进行测序。 [0161] 本文公开的方法可以包括对样品中的一个或多个核酸分子进行一个或多个扩增反应。术语“扩增”是指产生核酸分子的至少一个拷贝的任何过程。术语“扩增子”和“扩增 的核酸分子”指核酸分子的拷贝且可以互换使用。扩增反应可以包括基于PCR的方法、非基 于PCR的方法或其组合。非基于PCR的方法的实例包括但不限于多重置换扩增(MDA)、转录 介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、实时SDA、滚环扩增或 环到环扩增。基于PCR的方法可以包括但不限于PCR、HD-PCR、下一代PCR(Next Gen PCR)、 数字RTA或其任何组合。另外的PCR方法包括但不限于线性扩增、等位基因特异性PCR、Alu PCR、装配PCR(assembly PCR)、不对称PCR、液滴PCR、乳液PCR、解旋酶依赖性扩增HDA、热 启动PCR、反向PCR、指数后线性(linear-after-the-exponential,LATE)-PCR、长PCR、多重 PCR、嵌套式PCR、半嵌套式PCR、定量PCR、RT-PCR、实时PCR、单细胞PCR和降落式PCR。 [0162] 本文公开的方法可以包括在样品中的一个或多个核酸分子上进行一个或多个杂交反应。杂交反应可以包括一个或多个捕获探针与样品或核酸分子的子集中的一个或多个 核酸分子的杂交。杂交反应可以包括将一个或多个捕获探针组与样品或核酸分子的子集中 的一个或多个核酸分子杂交。杂交反应可以包括一个或多个杂交阵列、多重杂交反应、杂交 链反应、等温杂交反应、核酸杂交反应或其组合。所述一个或多个杂交阵列可以包括基因分 型的杂交阵列、比例感测的杂交阵列、DNA杂交阵列、宏阵列、微阵列、高密度寡核苷酸阵列、基因组杂交阵列、比较杂交阵列或其组合。杂交反应可以包括一个或多个捕获探针、一个或 多个珠子、一个或多个标记、核酸分子的一个或多个子集、一个或多个核酸样品、一种或多 种试剂、一种或多种洗涤缓冲液、一种或多种洗脱缓冲液、一种或多种杂交缓冲液、一个或 多个杂交室、一个或多个孵箱、一个或多个分离器或其组合。 [0163] 本文公开的方法可以包括对样品中的一个或多个核酸分子进行一个或多个富集反应。富集反应可以包括使样品与一个或多个珠子或珠子组接触。富集反应可以包括基于 一个或多个基因组区域特征对核酸分子的两个或更多个子集的差异扩增。例如,富集反应 包括基于GC含量对核酸分子的两个或更多个子集的差异扩增。或者或另外,富集反应包括 基于甲基化状态的核酸分子对两个或更多个子集的差异扩增。富集反应可以包括一个或 多个杂交反应。富集反应还可以包括一个或多个杂交的核酸分子、一个或多个与珠子结合 的核酸分子、一个或多个游离的核酸分子(例如,无捕获探针的核酸分子、无珠子的核酸分 子)、一个或多个标记的核酸分子、一个或多个未标记的核酸分子、一个或多个扩增子、一个 或多个未扩增的核酸分子或其组合的分离和/或纯化。或者或另外,富集反应可以包括富 集样品中的一个或多个细胞类型。所述一个或多个细胞类型可以通过流式细胞术进行富 集。 [0164] 所述一个或多个富集反应可以产生一个或多个富集的核酸分子。富集的核酸分子可以包括核酸分子或其变体或其衍生物。例如,富集的核酸分子包括一个或多个杂交的核 酸分子、一个或多个与珠子结合的核酸分子、一个或多个游离的核酸分子(例如,无捕获探 针的核酸分子、无珠子的核酸分子)、一个或多个标记的核酸分子、一个或多个未标记的核 酸分子、一个或多个扩增子、一个或多个未扩增的核酸分子或其组合。富集的核酸分子可以 通过GC含量、分子大小、基因组区域、基因组区域特征或其组合区分于未富集的核酸分子。 富集的核酸分子可以来源于一个或多个试验、上清液、洗脱液或其组合。富集的核酸分子可 以通过平均大小、平均GC含量、基因组区域或其组合区分于未富集的核酸分子。 [0165] 本文公开的方法可以包括对样品中的一个或多个核酸分子进行一个或多个分离或纯化反应。分离或纯化反应可以包括使样品与一个或多个珠子或珠子组接触。分离或纯 化反应可以包括一个或多个杂交反应、富集反应、扩增反应、测序反应或其组合。分离或纯 化反应可以包括使用一个或多个分离器。所述一个或多个分离器可以包括磁力分离器。分 离或纯化反应可以包括将与珠子结合的核酸分子和无珠子的核酸分子分离。分离或纯化反 应可以包括将与捕获探针杂交的核酸分子和无捕获探针的核酸分子分离。分离或纯化反应 可以包括将核酸分子的第一子集和核酸分子的第二子集分离,其中核酸分子的第一子集通 过平均大小、平均GC含量、基因组区域及其组合区分于核酸分子的第二子集。 [0166] 本文所公开的方法可以包括对样品中的一个或多个核酸分子进行一个或多个洗脱反应。洗脱反应可包括使样品与一个或多个珠子或珠子组接触。洗脱反应可以包括将与 珠子结合的核酸分子和无珠子的核酸分子分离。洗脱反应可以包括将与捕获探针杂交的核 酸分子和无捕获探针的核酸分子分离。洗脱反应可以包括将核酸分子的第一子集和核酸分 子的第二子集分离,其中核酸分子的第一子集通过平均大小、平均GC含量、基因组区域及 其组合区分于核酸分子的第二子集。 [0167] 本文所公开的方法可以包括一个或多个片段化反应。片段化反应可以包括将样品中的一个或多个核酸分子或核酸分子的子集片段化,以产生一个或多个片段化的核酸 分子。一个或多个核酸分子可以通过超声处理、针剪切(needle shear)、雾化、剪切(例 如,声剪切、机械剪切、点槽剪切(point-sink shearing))、通过弗氏压碎器单元(French pressure cell)或酶消化进行片段化。酶消化可以通过核酸酶消化(例如,微球菌核酸酶 消化、核酸内切酶、核酸外切酶、RNA酶H或DNA酶I)而发生。一个或多个核酸分子的片段 化可导致约100个碱基对至约2000个碱基对、约200个碱基对至约1500个碱基对、约200 个碱基对至约1000个碱基对、约200个碱基对至约500个碱基对、约500个碱基对至约1500 个碱基对、以及约500个碱基对至约1000个碱基对的片段大小。一个或多个片段化反应可 导致约50个碱基对至约1000个碱基对的片段大小。一个或多个片段化反应可导致约100 个碱基对、150个碱基对、200个碱基对、250个碱基对、300个碱基对、350个碱基对、400个 碱基对、450个碱基对、500个碱基对、550个碱基对、600个碱基对、650个碱基对、700个碱 基对、750个碱基对、800个碱基对、850个碱基对、900个碱基对、950个碱基对、1000个碱基 对或更多个碱基对的片段大小。 [0168] 将一个或多个核酸分子片段化可以包括将样品中的一个或多个核酸分子机械剪切一段时间。片段化反应可发生至少约10、15、20、25、30、35、40、45、50、55、60、65、70、75、 80、85、90、95、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、 500秒或更多秒。 [0169] 将一个或多个核酸分子片段化可以包括使核酸样品与一个或多个珠子接触。将一个或多个核酸分子片段化可以包括使核酸样品与多个珠子接触,其中所述多个珠子的体积 与核酸样品的体积的比例为约0.10、0.20、0.30、0.40、0.50、0.60、0.70、0.80、0.90、1.00、 1.10、1.20、1.30、1.40、1.50、1.60、1.70、1.80、1.90、2.00或更高。将一个或多个核酸分子片段化可以包括使核酸样品与多个珠子接触,其中所述多个珠子的体积与核酸的体积的比 例为约2.00、1.90、1.80、1.70、1.60、1.50、1.40、1.30、1.20、1.10、1.00、0.90、0.80、0.70、 0.60、0.50、0.40、0.30、0.20、0.10、0.05、0.04、0.03、0.02、0.01或更低。 [0170] 本文所公开的方法可以包括对样品中的一个或多个核酸分子进行一个或多个检测反应。检测反应可包括一个或多个测序反应。或者,进行检测反应包括光学感测、电感测 或其组合。光学感测可以包括发光光子发射(photoilluminscence photon emission)、荧 光光子发射、焦磷酸盐光子发射、化学发光光子发射的光学感测或其组合。电感测可以包括 离子浓度、离子电流调制、核苷酸电场、核苷酸隧穿电流的电感测或其组合。 [0171] 本文所公开的方法可以包括对样品中的一个或多个核酸分子进行一种或多种定量反应。定量反应可以包括测序、PCR、qPCR、数字PCR或其组合。 [0172] 本文所公开的方法可以包括一个或多个样品。本文所公开的方法可以包括1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、 95、100个或更多个样品。样品可来源于受试者。两个或更多个样品可以来源于一个受试 者。两个或更多个样品可以来源于2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、 40、45、50、55、60、65、70、75、80、85、90、95、100个或更多个不同的受试者。受试者可以是哺乳动物、爬行动物、两栖动物、禽类和鱼类。哺乳动物可以是人、猿、猩猩、猴子、黑猩猩、牛、猪、马、啮齿动物、鸟类、爬行动物、狗、猫或其他动物。爬行动物可以是蜥蜴、蛇、短吻鳄(alligator)、海龟(turtle)、鳄鱼(crocodile)和乌龟(tortoise)。两栖动物可以是蟾蜍、 青蛙、蝾螈(newt)和火蜥蜴(salamander)。禽类的实例包括但不限于:鸭、鹅、企鹅、鸵鸟 和猫头鹰。鱼的实例包括但不限于:鲶鱼、鳗鱼、鲨鱼和箭鱼。优选地,受试者是人。受试者 可能患有疾病或状况。 [0173] 所述两个或更多个样品可以在1、2、3、4、5、6、7、8、9、10、11、12、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000个时间点采集。这些时间点可以在 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、 40、45、50、55、60个或更多个小时的时间段内发生。这些时间点可以在1、2、3、4、5、6、7、8、 9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60天或更多天的时间段内发生。这些时间点可以在1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、 18、19、20、21、22、23、24、25、30、35、40、45、50、55、60周或更多周的时间段内发生。这些时间点可以在1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、 35、40、45、50、55、60个月或更多个月的时间段内发生。这些时间点可以在1、2、3、4、5、6、7、 8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60年 或更多年的时间段内发生。 [0174] 样品可以来自体液、细胞、皮肤、组织、器官或其组合。样品可以是血液、血浆、血液组分、唾液、痰、尿液、精液、阴道液、脑脊液、粪便、细胞或组织活检物。样品可以来自 肾上腺、阑尾、膀胱、脑、耳朵、食管、眼睛、胆囊、心脏、肾、大肠、肝、肺、口、肌肉、鼻、胰腺、甲状旁腺、松果体、脑垂体、皮肤、小肠、脾、胃、胸腺、甲状腺、气管、子宫、蚓突(vermiform appendix)、角膜、皮肤、心脏瓣膜、动脉或静脉。 [0175] 样品可包含一种或多种核酸分子。该核酸分子可以是DNA分子、RNA分子(例如,mRNA、cRNA或miRNA)以及DNA/RNA杂合体。DNA分子的实例包括但不限于双链DNA、单链 DNA、单链DNA发夹、cDNA、基因组DNA。核酸可以是RNA分子,如双链RNA、单链RNA、ncRNA、 RNA发夹和mRNA。ncRNA的实例包括但不限于siRNA、miRNA、snoRNA、piRNA、tiRNA、PASR、 TASR、aTASR、TSSa-RNA、snRNA、RE-RNA、uaRNA、X-ncRNA、hY RNA、usRNA、snaR和vtRNA。 [0176] 本文所公开的方法可以包括一个或多个容器。本文所公开的方法可包括1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多 个、8个或更多个、9个或更多个、10个或更多个、20个或更多个、30个或更多个、40个或更 多个、50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多个、100个 或更多个、125个或更多个、150个或更多个、175个或更多个、200个或更多个、250个或更 多个、300个或更多个、350个或更多个、400个或更多个、500个或更多个、600个或更多个、 700个或更多个、800个或更多个、900个或更多个、或1000个或更多个容器。所述一个或多 个容器可以是不同的、相似的、相同的或其组合情形。容器的实例包括但不限于平板、微板、 PCR板、孔、微孔、管、Eppendorf tube管、小瓶、阵列、微阵列和芯片。 [0177] 本文公开的方法可以包括一种或多种试剂。本文公开的方法可以包括1种或多种、2种或更多种、3种或更多种、4种或更多种、5种或更多种、6种或更多种、7种或更多种、 8种或更多种、9种或更多种、10种或更多种、20种或更多种、30种或更多种、40种或更多 种、50种或更多种、60种或更多种、70种或更多种、80种或更多种、90种或更多种、100种或 更多种、125种或更多种、150种或更多种、175种或更多种、200种或更多种、250种或更多 种、300种或更多种、350种或更多种、400种或更多种、500种或更多种、600种或更多种、700 种或更多种、800种或更多种、900种或更多种、或1000种或更多种试剂。所述一种或多种 试剂可以是不同的、相似的、相同的或其组合情形。所述试剂可以提高一个或多个试验的效 率。试剂可以提高核酸分子或其变体或衍生物的稳定性。试剂可以包括但不限于酶、蛋白 酶、核酸酶、分子、聚合酶、逆转录酶、连接酶以及化学化合物。本文公开的方法可以包括进 行包含一种或多种抗氧化剂的试验。通常,抗氧化剂是抑制其他分子氧化的分子。抗氧化剂 的实例包括但不限于抗坏血酸(例如,维生素C)、谷胱甘肽、硫辛酸、尿酸、胡萝卜素、α-生 育酚(例如,维生素E)、泛醇(例如,辅酶Q)以及维生素A。 [0178] 本文公开的方法可以包括一种或多种缓冲液或溶液。本文公开的方法可以包括1种或多种、2种或更多种、3种或更多种、4种或更多种、5种或更多种、6种或更多种、7种或 更多种、8种或更多种、9种或更多种、10种或更多种、20种或更多种、30种或更多种、40种 或更多种、50种或更多种、60种或更多种、70种或更多种、80种或更多种、90种或更多种、 100种或更多种、125种或更多种、150种或更多种、175种或更多种、200种或更多种、250种 或更多种、300种或更多种、350种或更多种、400种或更多种、500种或更多种、600种或更多 种、700种或更多种、800种或更多种、900种或更多种、或1000种或更多种缓冲液或溶液。 所述一种或多种缓冲液或溶液可以是不同的、相似的、相同的或其组合情形。所述缓冲液或 溶液可以提高一个或多个试验的效率。缓冲液或溶液可以提高核酸分子或其变体或衍生物 的稳定性。缓冲液或溶液可以包括但不限于洗涤缓冲液、洗脱缓冲液和杂交缓冲液。 [0179] 本文公开的方法可以包括一个或多个珠子、复数个珠子或一个或多个珠子组。本文公开的方法可以包括1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更 多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、20个或 更多个、30个或更多个、40个或更多个、50个或更多个、60个或更多个、70个或更多个、 80个或更多个、90个或更多个、100个或更多个、125个或更多个、150个或更多个、175个 或更多个、200个或更多个、250个或更多个、300个或更多个、350个或更多个、400个或更 多个、500个或更多个、600个或更多个、700个或更多个、800个或更多个、900个或更多 个、或1000个或更多个的一个或多个珠子或珠子组。所述一个或多个珠子或珠子组可以 是不同的、相似的、相同的或其组合情形。所述珠子可以是磁性的、抗体涂覆的、蛋白A交 联的、蛋白G交联的、链霉亲和素涂覆的、与寡核苷酸偶联的、二氧化硅涂覆的或其组合情 形。珠子的实例包括但不限于Ampure珠、AMPure XP珠、链霉亲和素珠、琼脂糖珠、磁珠、 微珠、与抗体偶联的珠子(例如,抗免疫球蛋白微珠)、与蛋 白A偶联的珠子、与蛋白G偶联的珠子、与蛋白A/G偶联的珠子、与蛋白L偶联的珠子、与 oligo-dT偶联的珠子、二氧化硅珠子、二氧化硅样珠子、抗生物素微珠、抗荧光染料微珠以 TM 及BcMag 羧基端磁珠。在本公开内容的一些方面,所述一个或多个珠子包括一个或多个 Ampure珠。或者或另外,所述一个或多个珠子包括AMPure XP珠。 [0180] 本文公开的方法可以包括一个或多个引物、复数个引物或一个或多个引物组。所述引物还可以包括一个或多个连接体。所述引物还可以包括一个或多个标记。所述引物可 以在一个或多个试验中使用。例如,所述引物在一个或多个测序反应、扩增反应或其组合中 使用。本文公开的方法可以包括1个或多个、2个或更多个、3个或更多个、4个或更多个、5 个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、20 个或更多个、30个或更多个、40个或更多个、50个或更多个、60个或更多个、70个或更多个、 80个或更多个、90个或更多个、100个或更多个、125个或更多个、150个或更多个、175个或 更多个、200个或更多个、250个或更多个、300个或更多个、350个或更多个、400个或更多 个、500个或更多个、600个或更多个、700个或更多个、800个或更多个、900个或更多个、或 1000个或更多个的一个或多个引物或引物组。所述引物可以包括约100个核苷酸。所述引 物可以包括约10至约500个核苷酸、约20至约450个核苷酸、约30至约400个核苷酸、约 40至约350个核苷酸、约50至约300个核苷酸、约60至约250个核苷酸、约70至约200个 核苷酸、或约80至约150个核苷酸。在本公开内容的一些方面,所述引物包括约80个核苷 酸至约100个核苷酸。所述一个或多个引物或引物组可以是不同的、相似的、相同的或其组 合情形。 [0181] 引物可以与样品或核酸分子的子集中的一个或多个核酸分子或其变体或衍生物的至少一部分杂交。引物可以与一个或多个基因组区域杂交。引物可以与不同的、相似的 和/或相同的基因组区域杂交。所述一个或多个引物可以与一个或多个核酸分子或其变体 或衍生物至少约50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、99%或更高地互补。 [0182] 引物可以包括一个或多个核苷酸。引物可以包括1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或 更多个、10个或更多个、20个或更多个、30个或更多个、40个或更多个、50个或更多个、60 个或更多个、70个或更多个、80个或更多个、90个或更多个、100个或更多个、125个或更多 个、150个或更多个、175个或更多个、200个或更多个、250个或更多个、300个或更多个、350 个或更多个、400个或更多个、500个或更多个、600个或更多个、700个或更多个、800个或更 多个、900个或更多个、或1000个或更多个核苷酸。引物可以包括约100个核苷酸。引物可 以包括约10至约500个核苷酸、约20至约450个核苷酸、约30至约400个核苷酸、约40 至约350个核苷酸、约50至约300个核苷酸、约60至约250个核苷酸、约70至约200个核 苷酸、或约80至约150个核苷酸。在本公开内容的一些方面,引物包括约80个核苷酸至约 100个核苷酸。 [0183] 所述多个引物或引物组可以包括两个或更多个具有相同、相似和/或不同的序列、连接体和/或标记的引物。例如,两个或更多个引物包含相同的序列。在另一个实例中, 两个或更多个引物包含相似的序列。在又一个实例中,两个或更多个引物包含不同的序列。 所述两个或更多个引物还可以包含一个或多个连接体。所述两个或更多个引物还可以包含 不同的连接体。所述两个或更多个引物还可以包含相似的连接体。所述两个或更多个引物 还可以包含相同的连接体。所述两个或更多个引物还可以包含一个或多个标记。所述两个 或更多个引物还可以包含不同的标记。所述两个或更多个引物还可以包含相似的标记。所 述两个或更多个引物还可以包含相同的标记。 [0184] 所述捕获探针、引物、标记和/或珠子可以包含一个或多个核苷酸。所述一个或多个核苷酸可以包含RNA、DNA、DNA与RNA残基或其修饰类似物如2'-OMe或2'-氟(2'-F)的 混合体、锁核酸(LNA)或碱基位点。 [0185] 本文公开的方法可以包括一个或多个标记。本文公开的方法可以包括1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、 8个或更多个、9个或更多个、10个或更多个、20个或更多个、30个或更多个、40个或更多 个、50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多个、100个或 更多个、125个或更多个、150个或更多个、175个或更多个、200个或更多个、250个或更多 个、300个或更多个、350个或更多个、400个或更多个、500个或更多个、600个或更多个、700 个或更多个、800个或更多个、900个或更多个、或1000个或更多个的一个或多个标记。所 述一个或多个标记可以是不同的、相似的、相同的或其组合情形。 [0186] 标记的实例包括但不限于本领域中熟知的化学、生物化学、生物、比色、酶、荧光和发光标记。标记包括染料、光交联剂、细胞毒性化合物、药物、亲和标记、光亲和标记、反 应性化合物、抗体或抗体片段、生物材料、纳米颗粒、自旋标记、荧光团、含金属部分、放射 性部分、新型官能团、与其他分子共价或非共价相互作用的基团、光笼形部分(photocaged moiety)、光化辐射可激发部分、配体、光可异构化部分、生物素、生物素类似物、合并重原子的部分、化学可裂解基团、光可裂解基团、氧化还原活性剂、同位素标记部分、生物物理探 针、磷光基团、化学发光基团、电子致密基团(electron dense group)、磁性基团、嵌入基 团、生色团、能量转移剂、生物活性剂、可检测标记或其组合。 [0188] 本文公开的方法、试剂盒和组合物可以包括生物标记。生物标记可以包括代谢标记,包括但不限于生物正交叠氮化修饰(bioorthogonal azide-modified)氨基酸、糖以及 其他化合物。 [0190] 本文公开的方法、试剂盒和组合物可以包括荧光标记。荧光标记可以是有机染料(例如FITC)、生物荧光团(例如,绿色荧光蛋白)或量子点。荧光标记的非限制性列表 包括异硫氰酸荧光素(FITC)、DyLight Fluors、荧光素、罗丹明(rhodamine)(四甲基异硫 氰酸罗丹明,TRITC)、香豆素、荧光黄以及BODIPY。该标记可以是荧光团。示例性的荧光 团包括但不限于吲哚羰花青(indocarbocyanine)(C3),吲哚二羰花青(C5)、Cy3、Cy3.5、 Cy5、Cy5.5、Cy7,德克萨斯红(Texas Red),太平洋蓝(Pacific Blue),俄勒冈绿(Oregon Green)488,Alexa -355,Alexa Fluor 488,Alexa Fluor 532,Alexa Fluor 546, Alexa Fluor-555,Alexa Fluor 568,Alexa Fluor 594,Alexa Fluor 647,Alexa Fluor 660,Alexa Fluor 680,JOE,丽丝胺(Lissamine),罗丹明绿,BODIPY,异硫氰酸荧光素 (FITC),羧基荧光素(FAM),藻红蛋白,罗丹明,二氯罗丹明(dRhodamine),羧基四甲基罗丹 明(TAMRA),羧基-X-罗丹明(ROXTM),LIZTM,VICTM,NEDTM,PETTM,SYBR,PicoGreen,RiboGreen等。荧光标记可以是绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、黄色荧光蛋白、藻胆蛋白 (例如,别藻蓝蛋白、藻蓝蛋白、藻红蛋白和藻蓝红蛋白)。 [0191] 本文公开的方法可以包括一个或多个连接体。本文公开的方法可以包括1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多 个、8个或更多个、9个或更多个、10个或更多个、20个或更多个、30个或更多个、40个或更 多个、50个或更多个、60个或更多个、70个或更多个、80个或更多个、90个或更多个、100个 或更多个、125个或更多个、150个或更多个、175个或更多个、200个或更多个、250个或更 多个、300个或更多个、350个或更多个、400个或更多个、500个或更多个、600个或更多个、 700个或更多个、800个或更多个、900个或更多个、或1000个或更多个的一个或多个连接 体。所述一个或多个连接体可以是不同的、相似的、相同的或其组合。 [0192] 合适的连接体包括能够附接至本文公开的标记、引物和/或捕获探针的任何化学或生物化合物。如果连接体附接至标记和引物或捕获探针两者上,则合适的连接体将能够 充分地分隔标记和引物或捕获探针。合适的连接体将不会显著地干扰引物和/或捕获探针 与核酸分子、其一部分或其变体或其衍生物杂交的能力。合适的连接体将不会显著地干扰 检测标记的能力。连接体可以是刚性的。连接体可以是柔性的。连接体可以是半刚性的。 连接体可以是蛋白水解稳定的(例如,抗蛋白水解裂解)。连接体可以是蛋白水解不稳定的 (例如,对蛋白水解裂解敏感)。连接体可以是螺旋状的。连接体可以是非螺旋状的。连接 体可以是卷曲的。连接体可以是β链的。连接体可以包括转角构象。连接体可以是单链。 连接体可以是长链。连接体可以是短链。连接体可以包含至少约5个残基、至少约10个残 基、至少约15个残基、至少约20个残基、至少约25个残基、至少约30个残基、或至少约40 个残基或更多个残基。 [0193] 连接体的实例包括但不限于腙、二硫化物、硫醚和肽连接体。连接体可以是肽连接体。肽连接体可以包括脯氨酸残基。肽连接体可以包括精氨酸、苯丙氨酸、苏氨酸、谷氨酰 胺、谷氨酸或其任何组合。连接体可以是异双功能交联剂。 [0194] 本文公开的方法可以包括对包含一个或多个核酸分子的样品进行1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个 或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14 个或更多个、15个或更多个、20个或更多个、25个或更多个、30个或更多个、35个或更多 个、40个或更多个、45个或更多个、或50个或更多个试验。所述两个或更多个试验可以是 不同的、相似的、相同的或其组合情形。例如,本文公开的方法包括进行两个或更多个测序 反应。在另一个实例中,本文公开的方法包括进行两个或更多个试验,其中所述两个或更多 个试验中的至少一个包括测序反应。在又一实例中,本文公开的方法包括进行两个或更多 个试验,其中所述两个或更多个试验中的至少两个包括测序反应和杂交反应。所述两个或 更多个试验可以按顺序、同时或两者组合地进行。例如,两个或更多个测序反应可以同时进 行。在另一实例中,本文公开的方法包括进行杂交反应,随后进行测序反应。在又一实例中, 本文公开的方法包括同时进行两个或更多个杂交反应,随后同时进行两个或更多个测序反 应。两个或更多个试验可以由一个或多个设备执行。例如,两个或更多个扩增反应可以由 PCR仪执行。在另一实例中,两个或更多个测序反应可以由两个或更多个测序仪执行。 [0195] 装置 [0196] 本文公开的方法可以包括一个或多个装置。本文公开的方法可以包括一个或多个包括一个或多个装置的试验。本文公开的方法可以包括使用一个或多个装置来进行一个或 多个步骤或试验。本文公开的方法可以包括在一个或多个步骤或试验中使用一个或多个装 置。例如,进行测序反应可以包括一个或多个测序仪。在另一个实施例中,产生核酸分子 的子集可以包括使用一个或多个磁力分离器。在又一个实例中,一个或多个处理器可以在 一个或多个核酸样品的分析中使用。示例性装置包括但不限于测序仪、热循环仪、实时PCR 仪、磁力分离器、传输装置、杂交室、电泳设备、离心机、显微镜、成像器、荧光计、光度计、读板仪、计算机、处理器以及生物分析仪。 [0197] 本文公开的方法可以包括一个或多个测序仪。所述一个或多个测序仪可以包括一个或多个HiSeq、MiSeq、HiScan、基因组分析仪IIx,SOLiD测序仪、Ion Torrent PGM、454GS Junior、Pac Bio RS或其组合。所述一个或多个测序仪可以包括一个或多个测序平台。所述 一个或多个测序平台可以包括454Life Technologies/Roche的GS FLX、Solexa/Illumina 的基因组分析仪、Applied Biosystems的SOLiD、Complete Genomics的CGA平台、Pacific Biosciences的PacBio RS,或其组合。 [0198] 本文公开的方法可以包括一个或多个热循环仪。所述一个或多个热循环仪可以用来扩增一个或多个核酸分子。本文公开的方法可以包括一个或多个实时PCR仪。所述一个 或多个实时PCR仪可以包括热循环仪和荧光计。所述一个或多个热循环仪可以用来扩增和 检测一个或多个核酸分子。 [0199] 本文公开的方法可以包括一个或多个磁力分离器。所述一个或多个磁力分离器可以用来从悬浮液中分离顺磁和铁磁颗粒。所述一个或多个磁力分离器可以包括一个 TM TM TM 或多个LifeStep 生物磁力分离器、SPHERO FlexiMag分离器、SPHERO MicroMag分离 TM TM TM 器、SPHERO HandiMag分离器、SPHERO MiniTube Mag分离器、SPHERO UltraMag分离器、 TM TM DynaMag 磁体、DynaMag -2磁体,或其组合。 [0200] 本文公开的方法可以包括一个或多个生物分析仪。通常,生物分析仪是能够分析RNA、DNA和蛋白质的基于芯片的毛细管电泳机器。所述一个或多个生物分析仪可以包括 Agilent的2100生物分析仪。 [0201] 本文公开的方法可以包括一个或多个处理器。所述一个或多个处理器可以分析、编译、存储、分选、组合、评估或以其他方式处理来自于一个或多个试验的一个或多个数据 和/或结果、基于或来源于一个或多个试验的一个或多个数据和/或结果、来自于一个或多 个试验的一个或多个输出、基于或来源于一个或多个试验的一个或多个输出、来自于一个 或多个数据和/或结果的一个或多个输出、基于或来源于一个或多个数据和/或结果的一 个或多个输出或其组合。所述一个或多个处理器可以传输来自于一个或多个试验的一个或 多个数据、结果或输出,基于或来源于一个或多个试验的一个或多个数据、结果或输出,来 自于一个或多个数据或结果的一个或多个输出,基于或来源于一个或多个数据或结果的输 出,或其组合。所述一个或多个处理器可以接收和/或存储来自用户的请求。所述一个或 多个处理器可以产生或生成一个或多个数据、结果、输出。所述一个或多个处理器可以产生 或生成一个或多个生物医学报告。所述一个或多个处理器可以传送一个或多个生物医学报 告。所述一个或多个处理器可以分析、编译、存储、分选、组合、评估或以其他方式处理来自 于一个或多个数据库的信息、一个或多个数据或结果、一个或多个输出或其组合。所述一个 或多个处理器可以分析、编译、存储、分选、组合、评估或以其他方式处理来自于1、2、3、4、5、 6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30个或更多个数据库的信息。所述一个或多个处理器可以向一个或多个用户、处理器、计算机、计算机系统、存储单元、装置、数据库 或其组合传输一个或多个请求、数据、结果、输出和/或信息。所述一个或多个处理器可以 从一个或多个用户、处理器、计算机、计算机系统、存储单元、装置、数据库或其组合接收一 个或多个请求、数据、结果、输出和/或信息。所述一个或多个处理器可以从一个或多个用 户、处理器、计算机、计算机系统、存储单元、装置、数据库或其组合取回一个或多个请求、数据、结果、输出和/或信息。 [0202] 本文公开的方法可以包括一个或多个存储单元。所述一个或多个存储单元可以存储信息、数据、结果、输出、请求或其组合。所述一个或多个存储单元可以从一个或多个用 户、处理器、计算机、计算机系统、装置或其组合接收信息、数据、结果、输出、请求或其组合。 [0203] 本文描述的方法可以借助于一个或多个计算机和/或计算机系统实现。计算机或计算机系统可以包括具有用于实现本文提供的方法的机器可执行代码的电子存储单元 (例如数据库、存储器),以及一个或多个用于执行该机器可执行代码的处理器。 [0204] 现将参考附图。应当理解,附图和其中的特征并不一定按比例绘制。 [0205] 图1显示了计算机系统(本文也称作“系统”)101,其被编程或者以其他方式配置为用于实现本公开内容的方法,如核酸处理和/或分析,和/或数据分析。系统101包括中 央处理单元(CPU,本文也称作“处理器”和“计算机处理器”)105,中央处理单元105可以是 单核或多核处理器,或用于并行处理的多个处理器。系统101还包括存储器110(例如,随 机存取存储器、只读存储器、快闪存储器)、电子存储单元115(例如硬盘)、用于与一个或多 个其他系统通信的通信接口120(例如,网络适配器)以及诸如高速缓存、其他存储器、数据 储存和/或电子显示适配器的外围设备125。存储器110、存储单元115、接口120以及外围 设备125与CPU 105通过通信总线(实线)如母板通信。存储单元115可以是用于存储数 据的数据存储单元(或数据存储库)。系统101借助于通信接口120可操作地耦合至计算 机网络(“网络”)130。网络130可以是因特网、互联网和/或外联网,或与因特网通信的 内联网和/或外联网。在某些情况下,网络130是远程通信和/或数据网络。网络130可 以包括能够实现分布式计算如云计算的一个或多个计算机服务器。在某些情况下,网络130 借助于系统101能够实现对等网络,该对等网络能使耦合到系统101的设备用作客户端或 服务器。 [0206] 系统101与处理系统135通信。处理系统135可以被配置为实现本文公开的方法。在某些实例中,处理系统135是核酸测序系统,例如下一代测序系统(例如Illumina测序 仪、Ion Torrent测序仪、Pacific Biosciences测序仪)。处理系统135可以通过网络130 或通过直接(例如有线、无线)连接与系统101通信。处理系统135可以被配置用于分析, 比如核酸序列分析。 [0207] 如本文描述的方法可以通过存储在系统101的电子存储单元(例如,存储器110或电子存储单元115)上的机器(或计算机处理器)可执行代码(或软件)来实现。在使 用期间,可以由处理器105执行该代码。在某些实例中,该代码可以从存储单元115中取回 并且存储在存储器110上,以备处理器105获取。在某些情形下,可以不包括电子存储单元 115,而机器可执行指令被存储在存储器110上。 [0208] 所述代码可以被预编译及配置以与具有适用于执行该代码的处理器的机器一起使用,或可以在运行期间被编译。该代码可以以程序语言来提供,可以选择程序语言以使该 代码能够以预编译或实时编译方式执行。 [0209] 本文提供的系统和方法的各个方面(如系统1601)可以体现在编程中。本技术的各方面可以被认为是“产品”或“制品”,其通常为机器(或处理器)可执行代码和/或相 关数据的形式,被承载或嵌入在一种类型的机器可读介质中。机器可执行代码可以存储在 电子存储单元上,比如存储在存储器(例如只读存储器、随机存取存储器、快闪存储器)或 硬盘上。“存储”型介质可以包括计算机、处理器等的有形存储器中的任何或全部或者其相 关模块,比如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以在任何时间为软件 编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他远程通信网络 来通信。例如,这些通信可以使软件从一台计算机或处理器加载到另一台,例如从管理服务 器或主计算机加载到应用服务器的计算机平台。因此,可以承载软件元件的其他类型的介 质包括光波、电波和电磁波,比如通过有线和光学陆线网络和经由各种空中链路在本地设 备之间跨物理接口而使用的。承载这些波(比如有线或无线链接、光学链接或类似物)的物 理元件,也可以被认为是承载软件的介质。如本文使用的,除非限制为非暂时性的有形“存 储”介质,否则诸如计算机或机器“可读介质”这样的术语是指参与向处理器提供指令以供 执行的任何介质。 [0210] 因此,机器可读介质,如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质例如包括光盘或磁盘,诸如在任 何计算机等中的任何存储装置,所述存储装置诸如可用于实现附图所示的数据库等。易失 性存储介质包括动态存储器,比如这样的计算机平台的主存储器。有形传输介质包括同轴 电缆、铜线和光纤,包括包含计算机系统中的总线的导线。载波传输介质可以采取电信号或 电磁信号、或声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间生成的那些。 因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存 储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储器芯片或匣、传输数据或指令 的载波、传输这样的载波的线缆或链路,或计算机可以从中读取编程代码和/或数据的任 何其他介质。这些形式的计算机可读介质中有许多可以参与将一个或多个指令的一个或多 个序列运载到处理器以供执行。 [0211] 一个或多个计算机和/或计算机系统可以分析、编译、存储、分选、组合、评估或以其他方式处理来自于一个或多个试验的一个或多个数据和/或结果、基于或来源于一个或 多个试验的一个或多个数据和/或结果、来自于一个或多个试验的一个或多个输出、基于 或来源于一个或多个试验的一个或多个输出、来自于一个或多个数据和/或结果的一个或 多个输出、基于或来源于一个或多个数据和/或结果的一个或多个输出或其组合。所述一 个或多个计算机和/或计算机系统可以传输来自于一个或多个试验的一个或多个数据、结 果或输出,基于或来源于一个或多个试验的一个或多个数据、结果或输出,来自于一个或多 个数据或结果的一个或多个输出,基于或来源于一个或多个数据或结果的一个或多个输 出,或其组合。所述一个或多个计算机和/或计算机系统可以接收和/或存储来自于用户的 请求。所述一个或多个计算机和/或计算机系统可以产生或生成一个或多个数据、结果、输 出。所述一个或多个计算机和/或计算机系统可以产生或生成一个或多个生物医学报告。 所述一个或多个计算机和/或计算机系统可以传输一个或多个生物医学报告。所述一个或 多个计算机和/或计算机系统可以分析、编译、存储、分选、组合、评估或以其他方式处理来 自于一个或多个数据库的信息、一个或多个数据或结果、一个或多个输出或其组合。所述一 个或多个计算机和/或计算机系统可以分析、编译、存储、分选、组合、评估或以其他方式处 理来自于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30个或更多个数据库的信息。所述一个或多个计算机和/或计算机系统可以将一个或多个请求、数据、结果、 输出和/或信息传送给一个或多个用户、处理器、计算机、计算机系统、存储单元、装置或其 组合。所述一个或多个计算机和/或计算机系统可以从一个或多个用户、处理器、计算机、 计算机系统、存储单元、装置或其组合接收一个或多个请求、数据、结果、输出和/或信息。 所述一个或多个计算机和/或计算机系统可以从一个或多个用户、处理器、计算机、计算机 系统、存储单元、装置或其组合取回一个或多个请求、数据、结果、输出和/或信息。 [0212] 本文公开的方法可以包括一个或多个传输装置,该传输装置包括用于传输一个或多个数据、结果、输出、信息、生物医学输出和/或生物医学报告的输出手段。该输出手段 可以采取传输数据、结果、请求和/或信息的任何形式,且可以包括显示器、打印格式、打印 机、计算机、处理器、存储单元或其组合。该传输装置可以包括一个或多个用于传输信息的 处理器、计算机和/或计算机系统。 [0213] 数据库 [0214] 本文公开的方法可以包括一个或多个数据库。本文公开的方法可以包括至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30个或更多个数据库。该数据库可以包括基因组、蛋白质组、药物基因组、生物医学和科学数据库。该数据库可以是可公 开获得的数据库。或者或另外,该数据库可以包括专有数据库。该数据库可以是可商业获 得的数据库。该数据库包括但不限于MendelDB、PharmGKB、Varimed、Regulome、curated BreakSeq junctions、在线人类孟德尔遗传(OMIM)、人类基因组突变数据库(HGMD)、NCBI dbSNP、NCBI RefSeq、GENCODE、GO(基因本体论)以及京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)。 [0215] 本文公开的方法可以包括分析一个或多个数据库。本文公开的方法可以包括分析至少约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30个或更多个数据库。 分析一个或多个数据库可以包括一个或多个算法、计算机、处理器、存储单元、装置或其组 合。 [0216] 本文公开的方法可以包括基于来自于一个或多个数据库的数据和/或信息产生一个或多个探针。本文公开的方法可以包括基于来自于一个或多个数据库的数据和/或信 息产生一个或多个探针组。本文公开的方法可以包括基于来自于至少约2个或更多个数据 库的数据和/或信息产生一个或多个探针和/或探针组。本文公开的方法可以包括基于 来自于至少约3个或更多个数据库的数据和/或信息产生一个或多个探针和/或探针组。 本文公开的方法可以包括基于来自于至少约4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、 19、20、30个或更多个数据库的数据和/或信息产生一个或多个探针和/或探针组。 [0217] 本文公开的方法可以包括基于来自于一个或多个数据库的数据和/或信息鉴别一个或多个核酸区域。本文公开的方法可以包括基于来自于一个或多个数据库的数据和/ 或信息鉴别一组或多组核酸区域。本文公开的方法可以包括基于来自于至少约2个或更多 个数据库的数据和/或信息鉴别一个或多个核酸区域和/或一组或多组核酸区域。本文公 开的方法可以包括基于来自于至少约3个或更多个数据库的数据和/或信息鉴别一个或多 个核酸区域和/或一组或多组核酸区域。本文公开的方法可以包括基于来自于至少约4、5、 6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30个或更多个数据库的数据和/或信息鉴别一个或多个核酸区域和/或一组或多组核酸区域。本文公开的方法还可以包括基于一个 或多个核酸区域和/或一组或多组核酸区域的鉴别产生一个或多个探针/或探针组。 [0218] 本文公开的方法可以包括基于来自于一个或多个数据库的数据和/或信息分析一个或多个结果。本文公开的方法可以包括基于来自于一个或多个数据库的数据和/或信 息分析一组或多组结果。本文公开的方法可以包括基于来自于一个或多个数据库的数据和 /或信息分析一个或多个组合结果。本文公开的方法可以包括基于来自于至少约2个或更 多个数据库的数据和/或信息分析一个或多个结果、成组结果和/或组合结果。本文公开 的方法可以包括基于来自于至少约3个或更多个数据库的数据和/或信息分析一个或多个 结果、成组结果和/或组合结果。本文公开的方法可以包括基于来自于至少约4、5、6、7、8、 9、10、11、12、13、14、15、16、17、18、19、20、30个或更多个数据库的数据和/或信息分析一个或多个结果、成组结果和/或组合结果。 [0219] 本文公开的方法可以包括基于来自于一个或多个数据库的数据和/或信息比较一个或多个结果。本文公开的方法可以包括基于来自于一个或多个数据库的数据和/或信 息比较一组或多组结果。本文公开的方法可以包括基于来自于一个或多个数据库的数据和 /或信息比较一个或多个组合结果。本文公开的方法可以包括基于来自于至少约2个或更 多个数据库的数据和/或信息比较一个或多个结果、成组结果和/或组合结果。本文公开 的方法可以包括基于来自于至少约3个或更多个数据库的数据和/或信息比较一个或多个 结果、成组结果和/或组合结果。本文公开的方法可以包括基于来自于至少约4、5、6、7、8、 9、10、11、12、13、14、15、16、17、18、19、20、30个或更多个数据库的数据和/或信息比较一个或多个结果、成组结果和/或组合结果。 [0220] 本文公开的方法可以包括生物医学数据库、基因组数据库、生物医学报告、疾病报告、病例对照分析以及罕见变体发现分析,其基于来自于一个或多个数据库、一个或多个试 验、一个或多个数据或结果、一个或多个基于或来源于一个或多个试验的输出、一个或多个 基于或来源于一个或多个数据或结果的输出或其组合的数据和/或信息。 [0221] 分析 [0222] 本文公开的方法可以包括一个或多个数据、一个或多个数据集、一个或多个组合数据、一个或多个组合数据集、一个或多个结果、一组或多组结果、一个或多个组合结果或 其组合。该数据和/或结果可以基于或来源于一个或多个试验、一个或多个数据库或其组 合。本文公开的方法可以包括一个或多个数据、一个或多个数据集、一个或多个组合数据、 一个或多个组合数据集、一个或多个结果、一组或多组结果、一个或多个组合结果或其组合 的分析。本文公开的方法可以包括一个或多个数据、一个或多个数据集、一个或多个组合数 据、一个或多个组合数据集、一个或多个结果、一组或多组结果、一个或多个组合结果或其 组合的处理。 [0223] 本文公开的方法可以包括一个或多个数据、一个或多个数据集、一个或多个组合数据、一个或多个组合数据集、一个或多个结果、一组或多组结果、一个或多个组合结果或 其组合的至少一种分析和至少一种处理。本文公开的方法可以包括一个或多个数据、一个 或多个数据集、一个或多个组合数据、一个或多个组合数据集、一个或多个结果、一组或多 组结果、一个或多个组合结果或其组合的一种或多种分析和一种或多种处理。本文公开的 方法可以包括一个或多个数据、一个或多个数据集、一个或多个组合数据、一个或多个组合 数据集、一个或多个结果、一组或多组结果、一个或多个组合结果或其组合的至少1、2、3、4、 5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、 1000种或更多种不同的分析。本文公开的方法可以包括一个或多个数据、一个或多个数据 集、一个或多个组合数据、一个或多个组合数据集、一个或多个结果、一组或多组结果、一个 或多个组合结果或其组合的至少1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、 100、200、300、400、500、600、700、800、900、1000种或更多种不同的处理。所述一种或多种分析和一种或多种处理可以同时地、顺序地或两者组合地发生。 [0224] 所述一种或多种分析和一种或多种处理可以在1、2、3、4、5、6、7、8、9、10、11、12、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000个时间点发生。这些时间点可以在1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、 23、24、25、30、35、40、45、50、55、60个或更多个小时的时间段内发生。这些时间点可以在1、 2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、 50、55、60天或更多天的时间段内发生。这些时间点可以在1、2、3、4、5、6、7、8、9、10、11、12、 13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60周或更多周的时间段内发生。这些时间点可以在1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、 22、23、24、25、30、35、40、45、50、55、60个月或更多个月的时间段内发生。这些时间点可以在1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、 45、50、55、60年或更多年的时间段内发生。 [0225] 本文公开的方法可以包括一个或多个数据。所述一个或多个数据可以包括一个或多个基于或来源于一个或多个试验的原始数据。所述一个或多个数据可以包括一个或多个 基于或来源于一个或多个数据库的原始数据。所述一个或多个数据可以包括基于或来源于 一个或多个原始数据的至少部分地分析的数据。所述一个或多个数据可以包括基于或来源 于一个或多个原始数据的至少部分地处理的数据。所述一个或多个数据可以包括基于或来 源于一个或多个原始数据的完全分析的数据。所述一个或多个数据可以包括基于或来源于 一个或多个原始数据的完全处理的数据。该数据可以包括测序读取数据或表达数据。该数 据可以包括生物医学、科学、药理学和/或遗传信息。 [0226] 本文公开的方法可以包括一个或多个组合数据。所述一个或多个组合数据可以包括两个或更多个数据。所述一个或多个组合数据可以包括两个或更多个数据集。所述一个 或多个组合数据可以包括一个或多个基于或来源于一个或多个试验的原始数据。所述一个 或多个组合数据可以包括一个或多个基于或来源于一个或多个数据库的原始数据。所述一 个或多个组合数据可以包括至少基于或来源于一个或多个原始数据的部分地分析的数据。 所述一个或多个组合数据可以包括基于或来源于一个或多个原始数据的至少部分地处理 的数据。所述一个或多个组合数据可以包括基于或来源于一个或多个原始数据的完全分析 的数据。所述一个或多个组合数据可以包括基于或来源于一个或多个原始数据的完全处理 的数据。一个或多个组合数据可以包括测序读取数据或表达数据。一个或多个组合数据可 以包括生物医学、科学、药理学和/或遗传信息。 [0227] 本文公开的方法可以包括一个或多个数据集。所述一个或多个数据集可以包括一个或多个数据。所述一个或多个数据集可以包括一个或多个组合数据。所述一个或多个数 据集可以包括一个或多个基于或来源于一个或多个试验的原始数据。所述一个或多个数据 集可以包括一个或多个基于或来源于一个或多个数据库的原始数据。所述一个或多个数据 集可以包括基于或来源于一个或多个原始数据的至少部分地分析的数据。所述一个或多个 数据集可以包括基于或来源于一个或多个原始数据的至少部分地处理的数据。所述一个或 多个数据集可以包括基于或来源于一个或多个原始数据的完全分析的数据。所述一个或多 个数据集可以包括基于或来源于一个或多个原始数据的完全处理的数据。该数据集可以包 括测序读取数据或表达数据。该数据集可以包括生物医学、科学、药理学和/或遗传信息。 [0228] 本文公开的方法可以包括一个或多个组合数据集。所述一个或多个组合数据集可以包括两个或更多个数据。所述一个或多个组合数据集可以包括两个或更多个组合数据。 所述一个或多个组合数据集可以包括两个或更多个数据集。所述一个或多个组合数据集可 以包括一个或多个基于或来源于一个或多个试验的原始数据。所述一个或多个组合数据集 可以包括一个或多个基于或来源于一个或多个数据库的原始数据。所述一个或多个组合数 据集可以包括基于或来源于一个或多个原始数据的至少部分地分析的数据。所述一个或多 个组合数据集可以包括基于或来源于一个或多个原始数据的至少部分地处理的数据。所述 一个或多个组合数据集可以包括基于或来源于一个或多个原始数据的完全分析的数据。所 述一个或多个组合数据集可以包括基于或来源于一个或多个原始数据的完全处理的数据。 本文公开的方法还可以包括组合数据集的进一步处理和/或分析。一个或多个组合数据集 可以包括测序读取数据或表达数据。一个或多个组合数据集可以包括生物医学、科学、药理 学和/或遗传信息。 [0229] 本文公开的方法可以包括一个或多个结果。所述一个或多个结果可以包括一个或多个数据、数据集、组合数据和/或组合数据集。所述一个或多个结果可以基于或来源于一 个或多个数据、数据集、组合数据和/或组合数据集。所述一个或多个结果可以从一个或多 个试验产生。所述一个或多个结果可以基于或来源于一个或多个试验。所述一个或多个结 果可以基于或来源于一个或多个数据库。所述一个或多个结果可以包括基于或来源于一个 或多个数据、数据集、组合数据和/或组合数据集的至少部分地分析的结果。所述一个或多 个结果可以包括基于或来源于一个或多个数据、数据集、组合数据和/或组合数据集的至 少部分地处理的结果。所述一个或多个结果可以包括基于或来源于一个或多个数据、数据 集、组合数据和/或组合数据集的完全分析的结果。所述一个或多个结果可以包括基于或 来源于一个或多个数据、数据集、组合数据和/或组合数据集的完全处理的结果。该结果可 以包括测序读取数据或表达数据。该结果可以包括生物医学、科学、药理学和/或遗传信 息。 [0230] 本文公开的方法可以包括一组或多组结果。所述一组或多组结果可以包括一个或多个数据、数据集、组合数据和/或组合数据集。所述一组或多组结果可以基于或来源于一 个或多个数据、数据集、组合数据和/或组合数据集。所述一组或多组结果可以从一个或多 个试验产生。所述一组或多组结果可以基于或来源于一个或多个试验。所述一组或多组结 果可以基于或来源于一个或多个数据库。所述一组或多组结果可以包括基于或来源于一个 或多个数据、数据集、组合数据和/或组合数据集的至少部分地分析的成组结果。所述一组 或多组结果可以包括基于或来源于一个或多个数据、数据集、组合数据和/或组合数据集 的至少部分地处理的成组结果。所述一组或多组结果可以包括基于或来源于一个或多个数 据、数据集、组合数据和/或组合数据集的完全分析的成组结果。所述一组或多组结果可以 包括基于或来源于一个或多个数据、数据集、组合数据和/或组合数据集的完全处理的成 组结果。该组结果可以包括测序读取数据或表达数据。该组结果可以包括生物医学、科学、 药理学和/或遗传信息。 [0231] 本文公开的方法可以包括一个或多个组合结果。该组合结果可以包括一个或多个结果、成组结果和/或组合的成组结果。该组合结果可以基于或来源于一个或多个结果、成 组结果和/或组合的成组结果。所述一个或多个组合结果可以包括一个或多个数据、数据 集、组合数据和/或组合数据集。所述一个或多个组合结果可以基于或来源于一个或多个 数据、数据集、组合数据和/或组合数据集。所述一个或多个组合结果可以从一个或多个试 验产生。所述一个或多个组合结果可以基于或来源于一个或多个试验。所述一个或多个组 合结果可以基于或来源于一个或多个数据库。所述一个或多个组合结果可以包括基于或来 源于一个或多个数据、数据集、组合数据和/或组合数据集的至少部分地分析的组合结果。 所述一个或多个组合结果可以包括基于或来源于一个或多个数据、数据集、组合数据和/ 或组合数据集的至少部分地处理的组合结果。所述一个或多个组合结果可以包括基于或来 源于一个或多个数据、数据集、组合数据和/或组合数据集的完全分析的组合结果。所述一 个或多个组合结果可以包括基于或来源于一个或多个数据、数据集、组合数据和/或组合 数据集的完全处理的组合结果。该组合结果可以包括测序读取数据或表达数据。该组合结 果可以包括生物医学、科学、药理学和/或遗传信息。 [0232] 本文公开的方法可以包括一个或多个组合的成组结果。该组合的成组结果可以包括一个或多个结果、成组结果和/或组合结果。该组合的成组结果可以基于或来源于一个 或多个结果、成组结果和/或组合结果。所述一个或多个组合的成组结果可以包括一个或 多个数据、数据集、组合数据和/或组合数据集。所述一个或多个组合的成组结果可以基于 或来源于一个或多个数据、数据集、组合数据和/或组合数据集。所述一个或多个组合的成 组结果可以从一个或多个试验产生。所述一个或多个组合的成组结果可以基于或来源于一 个或多个试验。所述一个或多个组合的成组结果可以基于或来源于一个或多个数据库。所 述一个或多个组合的成组结果可以包括基于或来源于一个或多个数据、数据集、组合数据 和/或组合数据集的至少部分地分析的成组结果。所述一个或多个组合的成组结果可以包 括基于或来源于一个或多个数据、数据集、组合数据和/或组合数据集的至少部分地处理 的成组结果。所述一个或多个组合的成组结果可以包括基于或来源于一个或多个数据、数 据集、组合数据和/或组合数据集的完全分析的成组结果。所述一个或多个组合的成组结 果可以包括基于或来源于一个或多个数据、数据集、组合数据和/或组合数据集的完全处 理的成组结果。该组合的成组结果可以包括测序读取数据或表达数据。该组合的成组结果 可以包括生物医学、科学、药理学和/或遗传信息。 [0233] 本文公开的方法可以包括一个或多个输出、成组输出、组合输出和/或组合的成组输出。本文的方法、文库、工具和系统可以包括产生一个或多个输出、成组输出、组合输出 和/或组合的成组输出。该组输出可以包括一个或多个输出、一个或多个组合输出或其组 合。该组合输出可以包括一个或多个输出、一组或多组输出、一个或多个组合的成组输出或 其组合。该组合的成组输出可以包括一个或多个输出、一组或多组输出、一个或多个组合的 成组输出或其组合。所述一个或多个输出、成组输出、组合输出和/或组合成组输出可以基 于或来源于一个或多个数据、一个或多个数据集、一个或多个组合数据、一个或多个组合数 据集、一个或多个结果、一组或多组结果、一个或多个组合结果或其组合。所述一个或多个 输出、成组输出、组合输出和/或组合的成组输出可以基于或来源于一个或多个数据库。所 述一个或多个输出、成组输出、组合输出和/或组合的成组输出可以包括一个或多个生物 医学报告、生物医学输出、罕见变体输出、药物遗传学输出、人口研究输出、病例对照输出、 生物医学数据库、基因组数据库、疾病数据库、净含量。 [0234] 本文公开的方法可以包括一个或多个生物医学输出、一组或多组生物医学输出、一个或多个组合的生物医学输出、组合的一组或多组生物医学输出。本文的方法、文库、工 具和系统可以包括产生一个或多个生物医学输出、一组或多组生物医学输出、一个或多个 组合的生物医学输出、组合的一组或多组生物医学输出。该组生物医学输出可以包括一个 或多个生物医学输出、一个或多个组合的生物医学输出或其组合。该组合的生物医学输出 可以包括一个或多个生物医学输出、一组或多组生物医学输出、组合的一组或多组生物医 学输出或其组合。该组合的成组生物医学输出可以包括一个或多个生物医学输出、一组或 多组生物医学输出、一个或多个组合的生物医学输出或其组合。所述一个或多个生物医学 输出、一组或多组生物医学输出、一个或多个组合的生物医学输出、组合的一组或多组生物 医学输出可以基于或来源于一个或多个数据、一个或多个数据集、一个或多个组合数据、一 个或多个组合数据集、一个或多个结果、一组或多组结果、一个或多个组合结果、一个或多 个输出、一组或多组输出、一个或多个组合输出、一组或多组组合的输出,或其组合。所述一 个或多个生物医学输出可以包括受试者的生物医学信息。受试者的生物医学信息可以预 测、诊断和/或预后一种或多种生物医学特征。所述一种或多种生物医学特征可以包括疾 病或状况的状态、疾病或状况的遗传风险、生殖风险、对胎儿的遗传风险、药物不良反应的 风险、药物治疗的疗效、最佳药物剂量的预测、移植耐受或其组合。 [0235] 本文公开的方法可以包括一个或多个生物医学报告。本文的方法、文库、工具和系统可以包括产生一个或多个生物医学报告。所述一个或多个生物医学报告可以基于或来源 于一个或多个数据、一个或多个数据集、一个或多个组合数据、一个或多个组合数据集、一 个或多个结果、一组或多组结果、一个或多个组合结果、一个或多个输出、一组或多组输出、 一个或多个组合输出、一组或多组组合输出、一个或多个生物医学输出、一组或多组生物医 学输出、组合的生物医学输出、一组或多组生物医学输出,或其组合。该生物医学报告可以 预测、诊断和/或预后一种或多种生物医学特征。所述一种或多种生物医学特征可以包括 疾病或状况的状态、疾病或状况的遗传风险、生殖风险、对胎儿的遗传风险、药物不良反应 的风险、药物治疗的疗效、最佳药物剂量的预测、移植耐受或其组合。 [0236] 本文公开的方法还可以包括一个或多个数据、信息、结果、输出、报告或其组合的传输。例如,基于或来源于一个或多个试验的数据/信息被传输至另一个装置和/或仪器。 在另一个实例中,所述数据、结果、输出、生物医学输出、生物医学报告或其组合被传输至另 一个装置和/或仪器。从算法获得的信息也可以被传输至另一个装置和/或仪器。基于一 个或多个数据库的分析的信息可以被传输至另一个装置和/或仪器。数据/信息的传输可 以包括数据/信息从第一来源至第二来源的传输。第一和第二来源可以在相同的近似位置 (例如,在同一房间、建筑、街区、校园内)。或者,第一和第二来源可以在多个位置(例如, 多个城市、州、国家、大洲等)。所述数据、结果、输出、生物医学输出、生物医学报告可以被传输给患者和/或医疗保健提供者。 [0237] 传输可以基于一个或多个数据、结果、信息、数据库、输出、报告或其组合的分析。例如,第二报告的传输基于第一报告的分析。或者,报告的传输基于一个或多个数据或结果 的分析。传输可以基于接收一个或多个请求。例如,报告的传输可以基于接收来自用户(例 如,患者、医疗保健提供者、个体)的请求。 [0238] 数据/信息的传输可以包括数字传输或模拟传输。数字传输可以包括在点对点或点对多点通信信道上的数据的物理传输(数字比特流)。这类信道的实例为铜线、光纤、无 线通信信道以及存储介质。所述数据可以被表示为电磁信号,如电压、无线电波、微波或红 外信号。 [0239] 模拟传输可以包括连续变化的模拟信号的传输。信息可以使用数字调制方法通过线路码由一系列脉冲表示(基带传输),或者由有限的一组连续变化的波形(通带传输)表 示。通带调制和对应的解调(也被称为检测)可以通过调制解调器装置完成。根据数字信 号的最常见的定义,表示比特流的基带和通带信号被视为数字传输,而备选定义只将基带 信号视为数字的,并将数字数据的通带传输视为数字到模拟转换的形式。 [0240] 本文公开的方法可以包括一个或多个样品标识符。该样品标识符可以包括标记、条码和其他能够连接到一个或多个样品和/或核酸分子的子集的指示物。本文公开的方 法可以包括一个或多个处理器、一个或多个存储单元、一个或多个计算机、一个或多个监视 器、一个或多个计算机软件、一个或多个用于将数据、结果、输出、生物医学输出和/或生物 医学报告与样品相联系的算法。 [0241] 本文公开的方法可以包括用于将一个或多个核酸分子的表达水平与疾病结果的预后相关联的处理器。本文公开的方法可以包括多种相关技术中的一种或多种,包括查找 表、算法、多变量模型以及表达模型或算法的线性或非线性组合。表达水平可以被转换为一 个或多个可能性得分,反映提供样品的患者可表现出特定的疾病结果的可能性。该模型和 /或算法可以以机器可读格式提供,并且还可以任选地为患者或一类患者指定治疗方式。 [0242] 疾病或状况 [0243] 本文公开的方法可以包括基于一个或多个生物医学输出预测、诊断和/或预后受试者中疾病或状况的状态或结果。预测、诊断和/或预后受试者中疾病的状态或结果可以 包括诊断疾病或状况、鉴别疾病或状况、确定疾病或状况的阶段、评估疾病或状况的风险、 评估疾病复发的风险、评估生殖风险、评估对胎儿的遗传风险、评估药物的疗效、评估药物 不良反应的风险、预测最佳药物剂量、预测药物耐受性或其组合。 [0244] 本文公开的样品可以来自于患有癌症的受试者。样品可以包括恶性组织、良性组织或其混合物。癌症可以是复发性和/或难治性癌症。癌症的例子包括但不限于肉瘤、癌、 淋巴瘤或白血病。 [0245] 肉瘤是骨、软骨、脂肪、肌肉、血管或其他结缔组织或支持组织的癌症。肉瘤包括但不限于骨癌、纤维肉瘤、软骨肉瘤、尤文肉瘤、恶性血管内皮瘤、恶性神经鞘瘤、双侧前庭神 经鞘瘤、骨肉瘤、软组织肉瘤(例如腺泡状软组织肉瘤、血管肉瘤、叶状囊肉瘤、皮肤纤维肉 瘤、带形纤维瘤、上皮样肉瘤、骨外骨肉瘤、纤维肉瘤、血管外皮细胞瘤、血管肉瘤、卡波西肉瘤、平滑肌肉瘤、脂肪肉瘤、淋巴管肉瘤、淋巴肉瘤、恶性纤维组织细胞瘤、神经纤维肉瘤、横纹肌肉瘤和滑膜肉瘤)。 [0246] 癌是在上皮细胞中开始的癌症,上皮细胞是覆盖身体表面、产生激素及构成腺体的细胞。作为非限制性的实例,癌包括乳腺癌、胰腺癌、肺癌、结肠癌、结直肠癌、直肠癌、肾癌、膀胱癌、胃癌、前列腺癌、肝癌、卵巢癌、脑癌、阴道癌、外阴癌、子宫癌、口腔癌、阴茎癌、睾丸癌、食道癌、皮肤癌、输卵管癌、头颈癌、胃肠间质瘤、腺癌、皮肤或眼内黑色素瘤、肛区癌、小肠癌、内分泌系统癌、甲状腺癌、甲状旁腺癌、肾上腺癌、尿道癌、肾盂癌、输尿管癌、子宫内膜癌、宫颈癌、脑垂体腺癌、中枢神经系统肿瘤(CNS)、原发性CNS淋巴瘤、脑干神经胶 质瘤以及脊柱轴肿瘤。癌症可以是皮肤癌,如基底细胞癌、鳞状细胞癌、黑色素瘤、非黑色素 瘤或光化性(日光)角化病。 [0247] 癌症可以是肺癌。肺癌可以在使气管分支以供应肺(支气管)或肺的小气囊(肺泡)的上气管开始。肺癌包括非小细胞肺癌(NSCLC)、小细胞肺癌和间皮瘤。NSCLC的例子 包括鳞状细胞癌、腺癌和大细胞癌。间皮瘤可以是肺和胸腔的内层(胸膜)或腹部内层(腹 膜)的癌性肿瘤。间皮瘤可由石棉暴露引起。癌症可以是脑癌,如胶质母细胞瘤。 [0248] 或者,癌症可以是中枢神经系统(CNS)肿瘤。CNS肿瘤可以是分类为神经胶质瘤或非神经胶质瘤。神经胶质瘤可以是恶性神经胶质瘤、高级神经胶质瘤(high grade glioma)、弥漫性内在脑桥神经胶质瘤(diffuse intrinsic pontine glioma)。神经胶质瘤 的例子包括星形细胞瘤、少突神经胶质细胞瘤(或少突神经胶质细胞瘤与星形细胞瘤元素 的混合物)和室管膜细胞瘤。星形细胞瘤包括但不限于低级星形细胞瘤、间变性星形细胞 瘤、多形性胶质母细胞瘤、纤维状细胞性星形细胞瘤、多形性黄色星形细胞瘤以及室管膜下 巨细胞星形细胞瘤。少突神经胶质细胞瘤包括低级少突神经胶质细胞瘤(或少突星形细胞 瘤)和间变性少突神经胶质细胞瘤。非神经胶质瘤包括脑膜瘤、垂体腺瘤、原发性CNS淋巴 瘤以及髓母细胞瘤。癌症可以是脑膜瘤。 [0249] 白血病可以是急性淋巴细胞白血病、急性粒细胞白血病、慢性淋巴细胞白血病或慢性粒细胞白血病。白血病的其他类型包括毛细胞白血病、慢性粒单核细胞白血病以及幼 年型粒单核细胞白血病。 [0250] 淋巴瘤是淋巴细胞的癌症且可以从B或T淋巴细胞发展。淋巴瘤的两种主要类型是先前被称为霍奇金(Hodgkin)病的霍奇金淋巴瘤,和非霍奇金淋巴瘤。霍奇金淋巴瘤以 里-施(Reed-Sternberg)细胞的存在为标志。非霍奇金淋巴瘤指不是霍奇金淋巴瘤的所 有淋巴瘤。非霍奇金淋巴瘤可以是无痛性淋巴瘤和侵袭性淋巴瘤。非霍奇金淋巴瘤包括但 不限于弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、黏膜相关淋巴组织淋巴瘤(MALT)、小细胞淋 巴细胞淋巴瘤、套细胞淋巴瘤、伯基特(Burkitt)淋巴瘤、纵隔大B细胞淋巴瘤、沃尔登斯特 伦( )巨球蛋白血症、结节边缘区B细胞淋巴瘤(NMZL)、脾边缘区淋巴瘤 (SMZL)、结节外边缘区B细胞淋巴瘤、血管内大B细胞淋巴瘤、原发性渗出性淋巴瘤以及淋 巴瘤样肉芽肿病。 [0251] 其他疾病和/或状态包括但不限于动脉粥样硬化、炎性疾病、自身免疫病、风湿性心脏病。炎性疾病的例子包括但不限于寻常痤疮、阿尔茨海默病、强直性脊柱炎、关节炎 (骨关节炎、类风湿性关节炎(RA)、银屑病关节炎)、哮喘、动脉粥样硬化、乳糜泻、慢性前列 腺炎、克罗恩(Crohn)病、结肠炎、皮炎、憩室炎、纤维肌痛、血管球性肾炎、肝炎、肠易激综合征(IBS)、系统性红斑狼疮(SLE)、肾炎、帕金森(Parkinson)症、盆腔炎性疾病、结节病、 溃疡性结肠炎和血管炎。 [0252] 自身免疫病的例子包括但不限于急性播散性脑脊髓炎(ADEM)、艾迪生氏(Addison)病、丙种球蛋白缺乏血症、斑秃、肌萎缩侧索硬化症、强直性脊柱炎、抗磷脂综合 征、抗合成酶综合征、特应性变态反应、特应性皮炎、自身免疫性再生障碍性贫血、自身免疫 性心肌病、自身免疫性肠病、自身免疫性溶血性贫血、自身免疫性肝炎、自身免疫性内耳病、 自身免疫性淋巴组织增生综合征、自身免疫性周围神经病、自身免疫性胰腺炎、自身免疫性 多内分泌腺病综合征、自身免疫性孕酮性皮炎、自身免疫性血小板减少性紫癜、自身免疫性 荨麻疹、自身免疫性葡萄膜炎、Balo病/Balo同心圆性硬化、 病、伯杰(Berger) 病、斯塔夫(Bickerstaff)脑炎、布劳(Blau)综合征、大疱性类天疱疮、Castleman's病、 乳糜泻、美洲锥虫病、慢性炎性脱髓鞘性多神经病、慢性复发性多灶性骨髓炎、慢性阻塞性 肺疾病、Churg-Strauss综合征、瘢痕性类天疱疮、Cogan综合征、冷凝集素疾病、补体成 分2缺乏、接触性皮炎、颅动脉炎、CREST综合征、克罗恩病、库欣(Cushing)综合征、皮肤 白细胞分裂性脉管炎、Dego's diseasevDercum's病、疱疹样皮炎、皮肌炎、1型糖尿病、弥 漫性皮肤系统性硬化症、德雷斯勒(Dressler)综合征、药物性狼疮、盘状红斑狼疮、湿疹、 子宫内膜异位症、肌腱末端炎相关的关节炎、嗜酸性筋膜炎、嗜酸性胃肠炎获得性大疱性 表皮松解症(eosinophilic gastroenteritisvepidermolysis bullosa acquisita)、结 节性红斑、胎儿成红细胞增多症、特发性混合性冷球蛋白血症、Evan综合征、进行性骨化性 纤维发育不良、纤维性肺泡炎(或特发性肺纤维化)、胃炎、胃肠类天疱疮、巨细胞动脉炎、 血管球性肾炎、肺出血肾炎(Goodpasture)综合征、Graves病、Guillain-Barré综合征 (GBS)、桥本脑病(Hashimoto's encephalopathy)、妊娠期桥本甲状腺炎紫癜又名妊娠性 类天疱疮(Hashimoto's thyroiditisvHenoch-Schonlein purpuravherpes gestationis aka gestational pemphigoid)、化脓性汗腺炎、休斯二氏(Hughes-Stovin)综合征、低丙 种球蛋白血症、特发性炎性脱髓鞘疾病、特发性肺纤维化、IgA肾病、包涵体肌炎、慢性炎 性脱髓鞘性多神经炎膀胱炎(chronic inflammatory demyelinating polyneuropathy vinterstitial cystitis)、幼年特发性关节炎又名幼年型类风湿关节炎、川崎(Kawasaki) 病、兰伯特-伊顿(Lambert-Eaton)肌无力综合征、白细胞分裂性血管炎、扁平苔藓、硬化 性苔藓、线状IgA病(LAD)、Lou Gehrig病(也称肌萎缩性侧索硬化症)、类狼疮样肝炎又 名自身免疫性肝炎、红斑狼疮、马吉德(Majeed)综合征、Ménière's病、显微镜下多血管炎、 混合性结缔组织病、硬斑病、Mucha-Habermann疾病、多发性硬化症、重症肌无力、肌炎、视 神经脊髓炎(也称为Devic's病)、神经性肌强直、眼瘢痕性类天疱疮、眼球斜视痉挛综合 征(opsoclonus myoclonus syndrome)、Ord's甲状腺炎、复发性风湿病、PANDAS(与链球 菌相关的小儿自身免疫性神经精神障碍)、副肿瘤性小脑变性、阵发性睡眠性血红蛋白尿 症(PNH)、Parry-Romberg综合征、Parsonage-Turner综合征、睫状体扁平部炎、寻常型天 疱疮、恶性贫血、静脉周脑脊髓炎、POEMS综合征、结节性多动脉炎、风湿性多肌痛、多发性肌炎、原发性胆汁性肝硬化、原发性硬化性胆管炎、进行性炎性病变、银屑病、银屑病关节炎、 坏疽性脓皮病、纯红细胞再生障碍性、拉斯姆森(Rasmussen)脑炎、雷诺现象、复发性多软 骨炎、Reiter综合征、下肢不宁综合征、腹膜后纤维化、类风湿性关节炎、风湿热、结节病、 APS的另一种形式施密特(Schmidt)综合征、施尼茨勒(Schnitzler)综合征、巩膜炎、硬 皮病、血清病、 综合征、脊柱关节病、僵人综合征、亚急性细菌性心内膜炎(SBE)、 Susac综合征、Sweet综合征、交感性眼炎、(Takayasu)动脉炎、颞动脉炎(也被称为“巨细 胞动脉炎”)、血小板减少症、Tolosa-Hunt综合征、横贯性脊髓炎、溃疡性结肠炎、不同于混 合性结缔组织疾病的未分化结缔组织病、未分化脊柱关节病、荨麻疹性血管炎、血管炎、白 癜风、韦格纳肉芽肿(Wegener's granulomatosis)。 [0254] 本文公开的方法可以用于与母体基因组相比,使用来源于胚胎的核酸的全基因组或部分基因组分析来监测胚胎的健康。例如,核酸可以在妊娠受试者中用于胚胎诊断,其中 使用胚胎核酸作为性别、rhesus D状态、胚胎非整倍性和性连锁病症的标志。本文公开的 方法可以鉴定胚胎突变或遗传异常。本文公开的方法可以允许检测额外的或缺失的染色 体,特别是通常与出生缺陷或流产相关联的那些。本文公开的方法可以包括常染色体三体 的诊断、预测或监测(例如,13、15、16、18、21或22三体性),可以基于外来分子的检测。三 体性可以与流产几率增加相关联(例如,15、16或22三体性)。或者,检测的三体性是活胎 产的三体性,其可以指明婴儿出生时将具有出生缺陷(例如,13三体性(Patau综合征)、18 三体性(Edwards综合征)和21三体性(唐氏综合征))。畸形也可以是性染色体(例如, XXY(Klinefelter综合征)、XYY(Jacobs综合征)或XXX(X三体性)。本文公开的方法可以 包括以下染色体上的一个或多个基因组区域:13、18、21、X或Y。例如,外来分子可以在染色 体21和/或在染色体18和/或在染色体13上。一个或多个基因组区域可以包括多个染 色体上的多个位点。 [0255] 可以基于本文的方法和系统确定的其他胚胎状态包括一个或多个染色体的单体性(X染色体单体性,也称为特纳综合征)、一个或多个染色体的三体性(13、18、21和X)、 一个或多个染色体的四体性或五体性(其在人类中最常在性染色体中观察到,例如XXXX、 XXYY、XXXY、XYYY、XXXXX、XXXXY、XXXYY、XYYYY和XXYYY)、单倍性、三倍性(每个染色体的三个,例如人类中69个染色体)、四倍性(每个染色体的四个,例如人类中92个染色体)五倍 性和多倍性。 [0256] 公开的方法可以包括检测、监测、定量或评价一个或多个病原体来源的核酸分子或由一种或更多种病原体引起的一种或更多种疾病或状况。示例性病原体包括但不 限于博德特氏菌属(Bordetella)、疏螺旋体属(Borrelia)、布鲁氏菌属(Brucella)、 弯曲杆菌属(Campylobacter)、衣原体属(Chlamydia)、衣原体属(Chlamydophila)、梭 菌属(Clostridium)、棒杆菌属(Corynebacterium)、肠球菌属(Enterococcus)、埃希 氏菌属(Escherichia)、弗朗西丝氏菌属(Francisella)、嗜血菌属(Haemophilus)、螺 杆菌属(Helicobacter)、军团菌属(Legionella)、钩端螺旋体属(Leptospira)、利斯特 氏菌属(Listeria)、分枝杆菌属(Mycobacterium)、枝原体属(Mycoplasma)、奈瑟氏球 菌属(Neisseria)、假单胞菌属(Pseudomonas)、立克次氏体属(Rickettsia)、沙门氏菌 属(Salmonella)、志贺氏菌属(Shigella)、葡萄球菌属(Staphylococcus)、链球菌属 (Streptococcus)、密螺旋体属(Treponema)、弧菌属(Vibrio)或耶尔森氏菌(Yersinia)。 另外的病原体包括但不限于结核分枝杆菌属(Mycobacterium tuberculosis)、链球菌 属(Streptococcus)、假单胞菌属(Pseudomonas)、志贺氏菌属(Shigella)、弯曲杆菌属 (Campylobacter)和沙门氏菌属(Salmonella)。 [0257] 由一种或更多种病原体引起的疾病或状况可以包括肺结核、肺炎、食物中毒、破伤风、伤寒、白喉、梅毒、麻风、细菌性阴道病、细菌性脑膜炎、细菌性肺炎、尿路感染、细菌性胃肠炎和细菌性皮肤感染。细菌性皮肤感染的例子包括但不限于可能由金黄色葡萄球菌 (Staphylococcus aureus)或酿脓链球菌(Streptococcus pyogenes)引起的脓疱病;可能 由具有淋巴扩散的深层表皮的链球菌细菌性感染引起的丹毒;以及可能由正常皮肤菌群或 由外源菌引起的蜂窝组织炎. [0258] 病原体可以是真菌,如假丝酵母属(Candida)、曲霉属(Aspergillus)、隐球酵母属(Cryptococcus)、组织孢浆菌属(Histoplasma)、肺囊虫属(Pneumocystis)和葡萄穗霉 属(Stachybotrys)。由真菌引起的疾病或状况的例子包括但不限于股癣、酵母菌感染、钱癣 和足癣。 [0259] 病原体可以是病毒。病毒的例子包括但不限于腺病毒、柯萨奇病毒、EB病毒、肝炎病毒(例如,甲型肝炎、乙型肝炎和丙型肝炎)、单纯疱疹病毒(1型和2型)、巨细胞病毒、 疱疹病毒、HIV、流感病毒、麻疹病毒、腮腺炎病毒、乳头状瘤病毒、副流感病毒、脊髓灰质炎病毒、呼吸道合胞病毒、风疹病毒以及水痘-带状疱疹病毒。由病毒引起的疾病和状况的例 子包括但不限于感冒、流感、肝炎、AIDS、水痘、风疹、腮腺炎、麻疹、疣和脊髓灰质炎。 [0260] 病原体可以是原生动物,如棘阿米巴属(Acanthamoeba)(例如,阿斯特罗尼棘阿米巴(A.astronyxis)、卡氏棘阿米巴(A.castellanii)、卡伯特森氏棘阿米巴 (A.culbertsoni)、哈氏棘阿米巴(A.hatchetti)、多食棘阿米巴(A.polyphaga)、皱棘阿米 巴(A.rhysodes)、A.healyi、A.divionensis)、短粒虫属(Brachiola)(例如,康氏短粒虫 (B connori)、小泡短粒虫(B.vesicularum))、隐孢子虫属(Cryptosporidium)(例如,小隐 孢子虫(C.parvum))、环孢子虫(Cyclospora)(例如,卡耶塔圆孢子虫(C.cayetanensis))、 脑炎微孢子虫属(Encephalitozoon)(例如,兔脑炎微孢子虫(E.cuniculi)、海伦脑炎 微孢子虫(E.hellem)、肠脑炎微孢子虫(E.intestinalis))、内阿米巴属(Entamoeba) (例如,溶组织内阿米巴(E.histolytica))、肠孢虫属(Enterocytozoon)(例如,比氏肠 孢虫(E.bieneusi))、贾第虫属(Giardia)(例如,兰伯贾第虫(G.lamblia))、等孢子球 虫属(Isospora)(例如,贝氏等孢子球虫(I.belli))、微孢子虫属(Microsporidium) (例如,非洲微孢子虫(M.africanum)、锡兰微孢子虫(M.ceylonensis))、耐格里原虫属 (Naegleria)(例如,福氏耐格里原虫(N.fowleri))、微粒子虫属(Nosema)(例如,阿尔及 尔微粒子虫(N.algerae)、眼微粒子虫(N.ocularum))、具褶孢虫属(Pleistophora)、普孢 虫属(Trachipleistophora)(例如,害人气管普孢虫(T.anthropophthera)、人气管普孢虫 (T.hominis))和条微孢子虫(Vittaforma)(例如,角膜条微孢子虫(V.corneae))。 [0261] 治疗 [0262] 本文公开的方法可以包括基于一个或多个生物医学输出来治疗和/或预防受试者的疾病或状况。所述一个或多个生物医学输出可以推荐一种或多种疗法。所述一个或多 个生物医学输出可以建议、选择、指定、推荐或以其他方式确定疾病或状况的治疗和/或预 防的进程。所述一个或多个生物医学输出可以推荐改变或继续一种或多种疗法。改变一种 或多种疗法可以包括施用、开始、减少、增加和/或终止一种或多种疗法。所述一种或多种 疗法包括抗癌、抗病毒、抗细菌、抗真菌、免疫抑制疗法或其组合。所述一种或更多种疗法可 以治疗、减轻或预防一种或多种疾病或适应症。 [0263] 抗癌疗法的例子包括但不限于手术、化疗、放射疗法、免疫疗法/生物疗法、光动力疗法。抗癌疗法可以包括化疗、单克隆抗体(例如,利妥昔单抗、曲妥珠单抗)、癌症疫苗 (例如,治疗疫苗、预防疫苗)、基因疗法或其组合。 [0264] 所述一种或更多种疗法可以包括抗微生物剂。通常,抗微生物剂是指杀灭或抑制微生物如细菌、真菌、病毒或原生动物的生长的物质。抗微生物药物或者杀灭微生物(杀微 生物)或者阻止微生物的生长(抑制微生物)。主要有两类抗抗微生物药物:天然来源获 得的(例如抗生素、蛋白拷贝合成抑制剂(如氨基糖苷类、大环内酯类、四环素类、氯霉素、 多肽))以及合成药剂(例如磺胺类、磺胺甲基异恶唑、喹诺酮类)。在某些情况下,抗微生 物药物是抗生素、抗病毒、抗真菌、抗疟疾、抗肺结核、抗麻风或抗原虫的药物。 [0265] 抗生素通常用于治疗细菌感染。抗生素可以分为两类:杀菌抗生素和抑菌抗生素。通常,杀菌可以直接杀灭细菌,而抑菌可以阻止其分裂。抗生素可以来源于生物体或可以包 括合成的抗菌剂,如磺胺类。抗生素可以包括氨基糖苷类,如阿米卡星、庆大霉素、卡那霉 素、新霉素、奈替米星、妥布霉素和巴龙霉素。或者,抗生素可以是安沙霉素类(例如,格尔 德霉素、除莠霉素)、碳头孢烯类(例如,氯碳头孢)、碳青霉烯类(例如,厄他培南、多尼培 南、亚胺培南、西司他丁、美罗培南)、糖肽类(例如,替考拉宁、万古霉素、特拉万星)、林可酰胺类(例如,克林霉素、林可霉素、达托霉素)、大环内酯类(例如,阿奇霉素、克拉霉素、地红霉素、红霉素、罗红霉素、醋竹桃霉素、泰利霉素、壮观霉素、螺旋霉素)、硝基呋喃类(例 如,呋喃唑酮、呋喃妥因)以及多肽类(例如,杆菌肽、粘菌素、多粘菌素B)。 [0266] 在某些情况下,抗生素疗法包括头孢菌素如头孢羟氨苄、头孢唑啉、头孢噻吩、头孢氨苄、头孢克洛、头孢孟多、头孢西丁、头孢丙烯、头孢呋辛、头孢克肟、头孢地尼、头孢妥仑、头孢哌酮、头孢噻肟、头孢泊肟、头孢他啶、头孢布烯、头孢唑肟、头孢曲松钠、头孢吡肟、头孢洛林和头孢吡普。 [0267] 抗生素疗法还可以包括青霉素类。青霉素类的例子包括阿莫西林、氨苄西林、阿洛西林、羧苄西林、氯唑西林、双氯西林、氟氯西林、美洛西林、甲氧西林、萘夫西林、苯唑西林、青霉素g、青霉素v、哌拉西林、替莫西林和替卡西林。 [0268] 或者,喹啉可以用于治疗细菌感染。喹啉的例子包括环丙沙星、依诺沙星、加替沙星、左氧氟沙星、洛美沙星、莫西沙星、萘啶酸、诺氟沙星、氧氟沙星、曲伐沙星、格帕沙星、司帕沙星和替马沙星。 [0269] 在某些情况下,抗生素疗法包括两种或更多种疗法的组合。例如,阿莫西林和克拉维酸、氨苄西林和舒巴坦、哌拉西林和他唑巴坦,或替卡西林和克拉维酸可以用于治疗细菌 感染。 [0270] 磺胺类也可以用于治疗细菌感染。磺胺类的例子包括但不限于磺胺米隆、磺胺柯衣定、磺胺醋酰、磺胺嘧啶、磺胺嘧啶银、磺胺甲二唑、磺胺甲恶唑、磺胺、柳氮磺胺吡啶、磺胺异恶唑、甲氧苄啶和甲氧苄啶-磺胺甲氧异恶唑(复方新诺明)(tmp-smx)。 [0271] 四环素是抗生素的另一个例子。四环素可以通过与mRNA翻译复合物中的30S核糖体亚基结合而抑制氨酰tRNA与mRNA核糖体复合物的结合。四环素包括去甲金霉素、强力 霉素、米诺环素、土霉素和四环素。可以用于治疗细菌感染的另外的抗生素包括胂凡纳明、 磷霉素、氯霉素、夫西地酸、利奈唑胺、甲硝唑、莫匹罗星、平板霉素、奎奴普丁/达福普汀、利福昔明、甲砜霉素、替加环素、替硝唑、氯法齐明、氨苯砜、卷曲霉素、环丝氨酸、乙胺丁醇、乙硫异烟胺、异烟肼、吡嗪酰胺、利福平、利福霉素、利福布汀、利福喷汀、链霉素。 [0272] 抗病毒疗法是一类特别用于治疗病毒感染的药物治疗。类似于抗生素,特定的抗病毒药物用于特定的病毒。其对宿主相对无害,且因此可以用于治疗感染。抗病毒疗法可 以抑制病毒生命周期的各个阶段。例如,抗病毒疗法可以抑制病毒向细胞受体上的附着。 这些抗病毒疗法可以包括模仿病毒相关蛋白(VAP)并且与细胞受体相结合的药剂。其他的 抗病毒疗法可以抑制病毒整体、病毒脱壳(例如金刚烷胺、金刚乙胺、普来可那立)、病毒合 成、病毒整合、病毒转录或病毒翻译(例如福米韦生)。在某些情况下,抗病毒疗法是反义吗 啉。抗病毒疗法应当与在体外主动灭活病毒颗粒的杀病毒剂区分开。 [0273] 许多有用的抗病毒药物被设计为治疗逆转录病毒(主要为HIV)的感染。抗逆转录病毒疗法可以包括蛋白酶抑制剂、逆转录酶抑制剂和整合酶抑制剂的类别。治疗HIV的 药物包括蛋白酶抑制剂(例如,因服雷、沙奎那韦、利托那韦、洛匹那韦、福沙那韦、福沙那 韦、诺韦、利托那韦、地瑞那韦、duranavir、阿扎那韦、奈非那韦)、整合酶抑制剂(例如拉 替拉韦)、转录酶抑制剂(例如,阿巴卡韦、塞进、安普那韦、氨普那韦、替拉那韦、替拉那韦、TM 茚地那韦、茚地那韦、沙奎那韦、沙奎那韦、依曲韦林 、依曲韦林、Isentress、韦瑞德)、逆转录酶抑制剂(例如,地拉韦啶、依法韦仑、拉米夫定、扎西他宾、奈韦拉平、叠氮胸苷、AZT、stuvadine、特鲁瓦达、去羟肌苷)、融合抑制剂(例如,注射用恩夫韦肽、恩夫韦肽)趋化因 子受体拮抗剂(例如马拉维若、恩曲他滨、恩曲他滨、阿巴卡韦或三协唯)。或者,抗逆转录 病毒疗法可以是联合疗法,如Atripla(例如依法韦仑、恩曲他滨和替诺福韦富马酸二酯) 和completer(恩曲他滨、利匹韦林和替诺福韦富马酸二酯)。最熟知的引起感冒溃疡和生 殖器疱疹的疱疹病毒通常用核苷酸类似物阿昔洛韦治疗。肝炎病毒(A-E)由五种不相关的 嗜肝病毒引起,且通常根据感染的类型用抗病毒药物治疗。流感A和B病毒是用于开发新 流感治疗的重要靶标,以克服现有神经氨酸酶抑制剂如奥司他韦的耐药性。 [0274] 在某些情况下,抗病毒疗法可以包括逆转录酶抑制剂。逆转录酶抑制剂可以是核苷逆转录酶抑制剂或非核苷逆转录酶抑制剂。核苷反转录酶抑制剂可以包括但不限于可比 韦、恩曲他滨、拉米夫定、阿巴卡韦、扎西他滨、叠氮胸苷、三协唯、特鲁瓦达、去羟肌苷缓释剂、去羟肌苷、韦瑞德、赛瑞特和塞进。非核苷逆转录酶抑制剂可以包括利匹韦林、依曲韦 林、地拉韦啶、依非韦伦和奈韦拉平(速释或缓释)。 [0275] 蛋白酶抑制剂是抗病毒药物的另一个例子,且可以包括但不限于安普那韦、替拉那韦、茚地那韦、沙奎那韦软凝胶剂、因服雷、利托那韦、福沙那韦、诺韦、地瑞那韦、阿扎那韦和奈非那韦。可选择地,抗病毒疗法可以包括融合抑制剂(例如恩夫韦肽)或进入抑制 剂(例如马拉韦罗)。 [0276] 抗病毒药物的其他例子包括阿巴卡韦、阿昔洛韦、阿德福韦、金刚烷胺、安瑞那韦、安普利近、阿比朵尔、阿扎那韦、依法韦仑、恩曲他滨和替诺福韦酯的复方制剂、波普瑞韦、 西多福韦、可比韦、达芦那韦、地拉韦啶、地达诺新、二十二醇、依度尿苷、依法韦仑、恩曲他滨、恩夫韦肽、恩替卡韦、泛昔洛韦、福米韦生、福沙那韦、膦甲酸、膦乙酸、融合抑制剂、更昔洛韦、伊巴他滨、异丙肌苷、碘苷、咪喹莫特、茚地那韦、肌苷、整合酶抑制剂、干扰素(例如I、II、III型干扰素)、拉米夫定、洛匹那韦、洛韦胺、马拉韦罗、吗啉胍、甲吲噻腙、奈非那韦、奈韦拉平、索拉菲尼、核苷类似物、奥司他韦、聚乙二醇干扰素α-2a、喷昔洛韦、帕拉米韦、普拉康纳利、鬼臼毒素、蛋白酶抑制剂、雷特格韦、逆转录酶抑制剂、利巴韦林、金刚乙胺、利托那韦、嘧啶、沙奎那韦、司他夫定、茶树油、替诺福韦酯、替拉那韦、三氟尿苷、三协唯、曲金刚胺、特鲁瓦达、伐昔洛韦、缬更昔洛韦、维立韦罗、阿糖腺苷、利巴韦林衍生物、扎西他滨、扎那米韦和齐多夫定。 [0277] 抗真菌药物是可以用于治疗真菌感染如脚癣、癣菌病、念珠菌症(鹅口疮)、重度全身感染如隐球菌脑膜炎等的药物治疗。抗真菌药物通过利用哺乳动物与真菌细胞之间的 差异来杀灭真菌生物体而起作用。与细菌不同,真菌和人类是真核生物。因此,真菌和人类 细胞在分子水平上是相似的,使得更难以发现用于抗真菌药物的攻击靶标,其在感染的生 物体内也不存在。 [0279] 系统、试剂盒和文库 [0280] 本公开内容的方法可以通过系统、试剂盒、文库或其组合来实现。本发明的方法可以包括一个或多个系统。本公开内容的系统可以通过试剂盒、文库或两者来实现。系统可 以包括一个或多个组件以进行本文公开的任何方法或方法的任何步骤。例如,系统可以包 含一个或多个试剂盒、装置、文库或其组合。系统可以包括一个或多个测序仪、处理器、存储 单元、计算机、计算机系统或其组合。系统可以包括传输装置。 [0281] 试剂盒可以包括用于实现本文公开的各种操作(包括样品处理和/或分析操作)的各种试剂。试剂盒可以包括用于实施本文公开的至少一些操作的说明。试剂盒可以包括 一个或多个捕获探针、一个或多个珠子、一个或多个标记、一个或多个连接体、一个或多个 装置、一种或多种试剂、一种或多种缓冲液、一个或多个样品、一个或多个数据库或其组合。 [0282] 文库可以包括一个或多个捕获探针。文库可以包括核酸分子的一个或多个子集。文库可以包括一个或多个数据库。文库可以从本文公开的方法、试剂盒或系统中的任一个 产生或生成。数据库文库可以从一个或多个数据库产生。用于产生一个或多个文库的方法 包括(a)聚合来自一个或多个数据库的信息以产生聚合的数据集;(b)分析该聚合的数据 集;以及(c)从该聚合的数据集产生一个或多个数据库文库。 实施例 [0283] 本公开内容的方法和系统可用于多种类型的样品,例如核酸样品、蛋白质样品或其他生物样品。 [0284] 虽然本文示出和描述了本发明的优选实施方案,但是对于本领域技术人员显而易见的是,这些实施方案仅以举例的方式提供。在不偏离本发明的情况下,现在本领域人员将 会想到多种变化、改变和替换。应当理解,本文描述的实施方案的多种替代方案可以用于实 施本发明。以下权利要求书旨在限定本发明的范围,并且旨在由此覆盖这些权利要求范围 内的方法和结构以及它们的等同物。 [0285] 实施例1.用于产生ESP、HGCP和LRP文库的三个独立的工作流程 [0286] 该实施例提供了三个独立的工作流程,其用于由单一核酸样品制备外显子组补充+(Exome Supplement Plus)(ESP)、高GC含量(HGCP)和特定富集下拉(pulldown)(LRP)文 库。 [0287] 将Illumina的RSB(或50mM的抗坏血酸钠)加入到含有1μg来自单一样品的基因组DNA(DNA)的三个不同的Covaris微管中,以产生每个微管中52.5μL的总体积。将各 微管指定为ESP、HGCP和LRP。使用表1中的Covaris设置剪切微管中的DNA。 表1.Covaris设置 ESP HGCP LRP 占空因数: 20% 20% 20% 循环/突发: 200 200 200 时间(秒): 80 80 25 入射功率峰值(W): 50 50 50 温度(℃): 20 20 20 [0288] 将微管离心并将50μL片段化的DNA转移到PCR板。将10μL RSB加入每个孔中。HGCP样品板在65℃下加热5分钟。ESP和LRP板未在65℃下加热。将40μL Illumina的 ERP加入到每个样品板中通过上下吸液来混合。将板密封。将板于30℃下温育30分钟。 通过将Ampure XP珠加入到各板中来纯化DNA。对于ESP和HGCP板,添加90μL的Ampure XP珠子。对于LRP板,添加50μL的Ampure50XP珠。利用17.5μL的RSB洗脱DNA。 [0289] 将12.5μL的Illumina的ATL加入到经洗脱的DNA中,并转移到一个新的板中。将具有经洗脱的DNA的板在37℃下温育30分钟。 [0290] 通过向每个孔中添加2.5μL RSB、2.5μL连接(LIG)混合物和2.5μL衔接子,使衔接子连接至DNA。充分混合样品,并将该板密封。将板在30℃下温育10分钟。将5μL的 STL(0.5M EDTA)加入到各孔中。将样品充分混合。通过向每个孔中添加42.5μL的Ampure XP珠将连接衔接子的DNA纯化。用50μL RSB洗脱连接的DNA。通过加入50μL的Ampure 珠子并用20μL RSB洗脱DNA来纯化连接的DNA。Ampure珠纯化和洗脱进行两次。 [0291] 通过向每个连接的DNA样品加入25μL的2x kappa hifi聚合酶和5μL引物,并且通过运行PCR 8个循环,扩增连接的DNA。用50μL Ampure珠纯化扩增的DNA并用30μL RSB洗脱DNA。来自三个不同的样品制品的扩增DNA用于制备ESP、HGCP和LRP文库。 [0292] 通过在DNA 1000芯片上运行每个文库并利用BR Qubit试验进行定量来验证ESP、HGCP和LRP文库。 [0293] 利用ESP、HGCP和LRP特异性捕获探针对ESP、HGCP和LRP样品进行杂交反应。3个独立的杂交反应根据表2设定。 表2. 下拉 ESP HGCP LRP DNA文库 ESP HGCP LRP 探针 ESP HGCP LRP [0294] 根据Agilent的标准SureSelect方案进行杂交反应。 [0295] 实施例2.用于产生ESP、HGCP和LRP文库的两个独立工作流程 [0296] 该实施例提供了两个独立的工作流程,其用于由单一核酸样品制备外显子组补充+(Exome Supplement Plus)(ESP)、高GC含量(HGCP)和特定富集下拉(pulldown)(LRP)文 库。 [0297] 将RSB(或50mM的乙酸钠)加入到含有1μg来自单一样品的基因组DNA(DNA)的两个不同的Covaris微管中,以产生每个微管52.5μL的总体积。将各微管指定为ESP/HGCP 和LRP。使用表3中的Covaris设置剪切微管中的gDNA。 表3.Covaris设置 ESP/HGCP LRP 占空因数: 20% 20% 循环/突发: 200 200 时间(秒): 80 25 入射功率峰值(W): 50 50 温度(℃): 20 20 [0298] 将微管离心并将50μL片段化的DNA转移到PCR板。将10μL RSB加入每个孔中。ESP/HGCP样品板在65℃下加热5分钟。或者ESP/HGCP和LRP板未在65℃下加热。将 40μL的ERP加入到每个样品板中通过上下吸液来混合。将板密封。将板于30℃下温育 30分钟。通过将Ampure XP珠加入到各板中纯化DNA。对于ESP和HGCP板,添加90μL的 Ampure XP珠。对于LRP板,添加50μL的Ampure50XP珠。利用17.5μL的RSB洗脱DNA。 [0299] 将12.5μL的ATL加入到经洗脱的DNA中。将具有经洗脱的DNA的板在37℃下温育30分钟。 [0300] 通过向每个孔添加2.5μL RSB、2.5μL连接(LIG)混合物和2.5μL衔接子,使衔接子连接至DNA。充分混合样品,并将该板密封。将板在30℃下温育10分钟。将5μL的 STL(0.5M EDTA)加入到各孔中。将样品充分混合。通过向每个孔中添加42.5μL的Ampure XP珠将连接衔接子的DNA纯化。用50μL RSB洗脱连接的DNA。通过加入50μL的Ampure 珠并用20μL RSB进行洗脱DNA来纯化连接的DNA。Ampure珠纯化和洗脱进行两次。 [0301] 通过向每个连接的DNA样品加入25μL的2x kappa hifi聚合酶和5μL引物,并且通过运行PCR 8个循环,扩增连接的DNA。用50μL Ampure珠纯化扩增的DNA并用30μL RSB洗脱DNA。来自样品制品的扩增DNA用于制备ESP、HGCP和LRP文库。 [0302] 通过在DNA高灵敏度芯片上运行每个文库并利用BR Qubit试验进行定量来验证ESP、HGCP和LRP文库。 [0303] 采用ESP、HGCP和LRP特异性捕获探针对ESP、HGCP和LRP样品进行杂交反应。3个独立的杂交杂交反应根据表4设定。 表4. 下拉 ESP HGCP LRP DNA文库 ESP/HGCP ESP/HGCP LRP 探针 ESP HGCP LRP [0304] 根据Agilent的标准SureSelect方案进行杂交反应。 [0305] 实施例3.用于产生ESP、HGCP和LRP文库的单个工作流程 [0306] 该实施例提供了单个工作流程,其用于由单一核酸样品制备外显子组补充+(Exome Supplement Plus)(ESP)、高GC含量(HGCP)和特定富集下拉(pulldown)(LRP)文 库。 [0307] 将RSB(或50mM的乙酸钠)加入到含有3μg来自单一样品的基因组DNA(DNA)的Covaris微管中,以产生52.5μL的总体积。使用表5中的Covaris设置剪切微管中的 gDNA。 表5.Covaris设置 占空因数: 20% 循环/突发: 200 时间(秒): 25 入射功率峰值(W): 50 温度(℃): 20 [0308] 将微管离心并将50μL片段化的DNA转移到单个PCR板。将10μL RSB加入每个孔中。样品板在65℃下加热5分钟,或者未在65℃下加热。将40μL ERP加入到每个样品 板中通过上下吸液来混合。将板密封。将板于30℃下温育30分钟。通过将Ampure XP珠 加入到各板中纯化DNA。将90μL的Ampure XP珠加入板中。混合物在室温下温育8分钟。 进行标准Ampure方案。使珠子在20μL解冻RSB中在室温下再水合2分钟。将17.5μL 上清液转移至Illumina的ALP板的新孔中。 [0309] 将12.5μL ATL加入到经洗脱的DNA中。将ALP板在37℃下温育30分钟。 [0310] 通过向每个孔添加2.5μL RSB、2.5μL连接(LIG)混合物和2.5μL衔接子,使衔接子连接至DNA。充分混合样品,并将该板密封。将板在30℃下温育10分钟。将5μL的 STL(0.5M EDTA)加入到各孔中。将样品彻底混合。通过向每个孔中添加42.5μL的Ampure XP珠将连接衔接子的DNA纯化。用100μL RSB洗脱连接的DNA。将50μL的Ampure XP 珠添加到100μL的连接的DNA中。将150μL上清液转移至新孔中,留下先前孔中的与 DAmpure XP珠结合的DNA。通过添加20μL RSB从Ampure XP珠洗脱DNA,经洗脱的DNA是 LRP子集。 [0311] 将20μL的Ampure珠添加至150μL上清液中。在100μL RSB中洗脱DNA。将60μL的Ampure XP珠添加至100μL DNA中。将160μL上清液转移至新孔,留下先前孔 中的与Ampure XP珠结合的DNA。通过添加20μL RSB从Ampure XP珠洗脱DNA,经洗脱的 DNA是ESP/HGCP子集。 [0312] 通过向每个连接的DNA样品添加25μL 2x kappa hifi聚合酶和5μL引物并且通过将PCR运行8个循环,扩增DNA的LRP子集以及DNA的ESP/HGCP子集。利用50μL Ampure XP珠纯化扩增的DNA并且珠子在30μL RSB中再水合。使用来自子集的扩增DNA 制备ESP、HGCP和LRP文库。 [0313] 通过在DNA高灵敏度芯片上运行每个文库并利用BR Qubit试验进行定量来验证ESP、HGCP和LRP文库。 [0314] 采用ESP、HGCP和LRP特异性捕获探针对ESP、HGCP和LRP样品进行进行杂交反应。3个独立的杂交反应根据表6设定。 表6. 下拉 ESP HGCP LRP DNA文库 ESP/HGCP ESP/HGCP LRP 探针 ESP HGCP LRP [0315] 根据Agilent的标准SureSelect方案进行杂交反应。 [0316] 实施例4.剪切时间和片段大小 [0317] 通过改变Covaris设置的剪切时间来剪切基因组DNA(gDNA)。随后分析通过不同的剪切时间产生的gDNA片段。结果示于图5和表7中。 表7.剪切时间和平均片段大小 编号 剪切时间(秒) 平均片段大小(碱基对) 1 375 150 2 175 200 3 80 200 4 40 400 5 32 500 6 25 800 [0318] 实施例5.珠子比率和片段大小 [0319] 改变珠子体积与核酸样品体积的比率,并分析这些比率对平均片段大小的影响。如图6A所示,将珠子体积与核酸样品体积的比率从0.8(线1)、0.7(线2)、0.6(线3)、 0.5(线4)和0.4(线5)改变,导致DNA片段的平均大小的位移。通常,可以看出比率越低, 则平均片段大小越大。 [0320] 实施例6.连接反应和片段大小 [0321] 对核酸样品进行两个不同剪切时间与三个不同连接反应的组合。样品1剪切25秒并且在由实施例9的步骤5制备的长插入DNA(连接-高(lig-up))上进行连接反应。样 品2剪切32秒并且在如由实施例9的步骤5制备的长插入DNA(连接-高(lig-up))上进 行连接反应。样品3剪切25秒并且在如由实施例9的步骤8制备的中插入DNA(连接-中 (lig-mid))上进行连接反应。样品4剪切32秒并且在如由实施例9的步骤8制备的中插 入DNA(连接-中(lig-mid))上进行连接反应。样品5剪切25秒并且在如由实施例9的 步骤11制备的短插入DNA(连接-中(lig-low))上进行连接反应。样品6剪切32秒并且 在由实施例9的步骤11制备的短插入DNA(连接-中(lig-low))上进行连接反应。图7 示出了六个反应的平均片段大小。 [0322] 实施例7.类球红细菌(Rhodobacter Sphaeroides) [0323] 类球红细菌ATCC 17025基因组是4.56百万个碱基对的长度,并对基因组的GC含量进行分析。分析结果示于表8中。 表8. [0324] 实施例8.类球红细菌DNA(高GC含量)的优化 [0325] 利用多种聚合酶和扩增条件扩增来自类球红细菌的DNA。随后对扩增的DNA进行测序。高GC流动池指对包含具有高GC含量的初始DNA的DNA样品进行的测序反应。混 合GC流动池指对包含具有高和低GC含量的DNA混合物的DNA样品进行的测序反应。如 表9所示,在65C下短暂加热,随后进行高GC含量DNA的ER(末端修复)改善覆盖(参见 PST-000292)。 表9. [0326] 实施例9.基因组DNA的制备 [0327] 使用以下步骤由含有基因组DNA的样品制备核酸分子的子集: [0328] 1.利用M220将含有基因组DNA的样品剪切15-35秒。 [0329] 2.在连接后用SPRI珠纯化片段化的gDNA(SPRI珠与DNA样品的体积比为1),并将DNA洗脱到100μL的洗脱缓冲液(EB)中。 [0330] 3.将50μL SPRI珠添加至100μL DNA中。 [0331] 4.将上清液转移至新管中。 [0332] 5.从剩余的与珠子结合的DNA洗脱DNA。该洗脱的DNA被称为长插入。 [0333] 6.将10μL SPRI珠添加至来自步骤4的上清液中。 [0334] 7.将来自步骤6的上清液转移至新管中。 [0335] 8.从步骤6中剩余的与珠子结合的DNA洗脱DNA。该洗脱的DNA被称为中插入。 [0336] 9.将20μL SPRI珠添加至来自步骤7的上清液中。 [0337] 10.将来自步骤9的上清液转移至新管中。 [0338] 11.从步骤9中剩余的与珠子结合的DNA洗脱DNA。该洗脱的DNA被称为短插入。 [0339] 实施例10.可解释基因组内含物的分离和独立处理 [0340] 随后为Illumina测序的Illumina TruSeq外显子组富集是靶向DNA测序的典型实例。然而,该过程并不能靶向多个生物医学感兴趣的非外显子组以及用于富集的外显子 组区域,并且也不能对其不靶向的多个区域充分地进行测序。此外,多个测序区域可能具有 不可接受的高错误率。我们发现这些差距和失败中的许多是由于特定的问题,尽管该问题 对于大量测序(bulk sequencing)是困难的,但可以通过专门的测序方案或技术得以更充 分地解决。 [0341] 我们已经编译了在医学上可解释内容的大量且独特的组(set),既包括专有数据又包括大量公众可得来源,其包括外显子组和非外显子组区域,以及非参考或可选序列。这 中的许多在标准外显子组测序中没有被充分覆盖。我们已经分析了该性能差距,并开发了 多因素方法以通过利用专门的样品制备、扩增、测序技术和/或生物信息独立地处理特定 类型的问题来更全面地覆盖该内容,以最好地恢复潜在的序列。我们已经开发了三个靶向 子集和方案来解决该性能差距。 [0342] 在被标准外显子组处理遗漏但仍处于名义上易处理的基因组区域中的内容区域中,我们已经开发了另外的引诱物(bait)以富集这些区域用于标准测序。在一些情况下, 我们可以另外靶向感兴趣的非参考序列(例如,通常正常的和/或癌症SV结,通常的插入 缺失或者在通常的序列中,在通常的序列中,参照物具有我们认为将会不利地影响大多数 群体的富集杂交性能的稀有等位基因)。这样的外显子组补充下拉(Exome Supplement Pulldown,ESP)可以与标准外显子组DNA文库合并,用于非常经济的测序。表10列出了医 学和研究感兴趣的专有和公共数据组以及采用Illumina的TruSeq外显子组试剂盒的预期 覆盖缺口。表10示出了ESP子集中的核酸分子的示例性列表。 表10.ESP子集内容的列表 [0343] 在具有极高GC含量(>70%)的内容区域中,标准测序通常较差地进行,因为这些区域的升高的Tm(解链温度)可导致较差的PCR或由于与更大量的较低Tm的序列竞争而导 致其他扩增。这些序列还由于其它问题,例如发夹和其它二级结构而富集。这些区域通常 被遗漏或在标准测序中较差地进行。我们已经开发了靶向高GC含量(HGCP)的内容区域的 富集方法并已经开发了定制的样品制备和测序方案,以通过优化温度、温育时间、缓冲液和 酶来特别地改善该文库的性能。与我们的内容交叉的这样的文库的示例性组成示于表11 中。 表11.HGCP子集中内容的示例性列表 [0344] 基因组中和外显子组之外的其他基因组区域中的重复元件可能难以进行测序、比对和/或组装,特别是采用短读取技术(例如,在Illumina HiSeq上2x100)时。利用标准 富集策略,外显子组中的这些区域中的多个区域被遗漏或较差地执行。外显子组外的基因 组区域(例如,HLA的内含子)通常不被外显子组测序所靶向。难以测序可能是由于较差的 富集效率、读取值的简并映射以及读取长度不足以横跨常规简单的串联重复或生物医学相 关的扩展重复。我们通过开发特定的富集下拉(enrichment pulldown)(LRP)和方案以初步 提取这些区域用于更昂贵的长配对读取测序(例如,在Illumina MiSeq上2x250bp)或长单 个读取测序(例如,在PacBio RS上或未来可获得的技术的5kb单分子测序)而解决了这 些问题。该长读取测序技术当前比大量测序(bulk sequencing)每个碱基昂贵10倍至数 百倍,并且对于整个内容区域目前通常不具有商业利益。此外,在一些情况(例如,PacBio RS)下,原始的错误谱对于SNV判定中的常规应用是存在问题的。然而,对于一些类型的 重要问题,要求这些技术具有精确的或临床质量结果以正确地定位简并序列或横跨重复序 列。我们已经开发了成批方案,在该方案中所有这些区域被划分成子集并进行并行测序,以 实现用于制备的但仍将测序总量限制至实际量的有用的规模经济。除了利用不同的技术对 其进行测序外,我们还定制了我们的比对和其他生物信息管线元件(pipeline element), 以最佳地利用这些较长读取值,从而提高覆盖范围、准确度和表征(例如,等位型STR和不 稳定的扩展重复区域)。通过使用该文库中提供的较长的读取和较长的分子,HLA和血液分 型基因的取相和/或单体分型更易于处理。通过使用来自这些文库的较长的分子和读取, 模糊区域的重组更易于处理。这样的文库的示例性组成列于表12中。此外,该文库与特定 类别的问题或基因组含量的交集示于最终的框中。 [0345] 表12. [0346] 我们已经开发了这些文库中的全部三个文库,并且具有合并了标准TruSeq外显子组和ESP的初始数据,从而产生了我们所称的外显子组+、延伸的外显子组或ACE(准确 度和内容增强)外显子组(表13-14)。这显著提高了RefSeq外显子(我们定制的外显子 组)的覆盖范围,以及对定制变体(因为这些中的多种处于外显子组之外)的巨大改进。 表13. 表14. [0347] 根据上文应当理解,虽然已对特定的实施方式进行了说明和描述,但可以对其进行各种修改,并在本文中预期了这些修改。本公开内容的一个方面的实施方案可以与本公 开内容的另一个方面的实施方案相组合或通过本公开内容的另一个方面的实施方案进行 改变。并不意在由说明书中提供的具体实施例来限定本发明。虽然已经结合上述说明书描 述了本发明,但本文中对本发明实施方案的描述和说明并不意在以限制意义进行解释。此 外,应当理解,本发明的所有方面并不限于本文中阐述的依赖于多种条件和变量的具体描 述、配置或相对比例。对本发明实施方案的形式和细节的多种修改对于本领域技术人员将 是显而易见的。因此应当理解的是,本发明也应涵盖任何这样的修改、变化和等同项。 |