首页 / 专利库 / 生物工程 / 扩增子 / 超深度测序中的罕见变体召集

超深度测序中的罕见变体召集

阅读:76发布:2023-02-23

专利汇可以提供超深度测序中的罕见变体召集专利检索,专利查询,专利分析的服务。并且提供用于低 频率 变体的准确变体召集方法。接收靶向超深度测序的序列读取并与参考序列比对。对于每一样品 扩增子 测定其中参考序列上存在参考等位基因的每一 位置 处相同类别的变体的读取深度和变体计数。基于读取深度和变体计数,使用方法诸如基于统计模型的方法和使用参考样品的本地化方法来计算概率值,所述概率值表示特定变体在特 定位 置处为真阳性的置信 水 平。随后将概率值与 阈值 水平比较以确定所检测的变体是否为真阳性。,下面是超深度测序中的罕见变体召集专利的具体信息内容。

1.检测第一样品目标区域中低频率变体的计算机实现的方法,所述方法包括,在计算机系统上:
接收从来自一个或多个样品的测序DNA片段获得的多个序列读取,所述一个或多个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;
将多个序列读取与参考序列的目标区域比对;
基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取,鉴定目标区域的第一位置处具有第一等位基因的第一候选变体;
基于与参考序列的第一位置比对的第一样品的序列读取,确定所述第一位置处第一等位基因的第一变体频率;
鉴定所述第一候选变体为对应于选自多个变体类别的第一变体类别,所述多个变体类别的每一变体类别对应于不同类型的变体;
鉴定具有参考等位基因的参考序列的目标区域中第二位置的组,其中在一个或多个样品中至少50%的其他位置对于所述第一等位基因展示出假阳性,且其中第二位置的组包括第一位置;
在第二位置的组的每一个处和对于一个或多个样品的每一个:
基于与参考序列的第二位置比对的样品的序列读取,确定第一等位基因的第二变体频率,所述第二变体频率形成统计分布;
比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值;和
比较第一等位基因的所述概率值与阈值作为确定所述第一候选变体在第一样品中是否为真阳性的部分,对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。
2.权利要求1的方法,其中所述参考序列对应于如从正常细胞中确定的共有序列。
3.权利要求1或2中任一项的方法,其中所述一个或多个样品来源于无细胞的DNA片段。
4.权利要求1或2中任一项的方法,其中所述一个或多个样品来源于生物样品的RNA。
5.权利要求1至4中任一项的方法,其中所述多个样品在单一测序运行中进行测序。
6.权利要求1至5中任一项的方法,其中所述统计分布的统计值包括平均值。
7.权利要求1至6中任一项的方法,其中所述概率值为z得分、修饰的z得分、累积概率、Phred质量得分、或修饰的Phred质量得分。
8.权利要求1至7中任一项的方法,其中所述统计分布为第二变体频率的对数变换的统计分布。
9.权利要求1至8中任一项的方法,其中基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定所述阈值。
10.权利要求1至9中任一项的方法,其中所述阈值是变体频率的函数。
11.检测第一样品中目标区域中第一位置处具有第一等位基因的变体的计算机实现的方法,所述方法包括,在计算机系统上:
接收从来自至少两个样品的测序DNA片段获得的多个序列读取,所述至少两个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;
将多个序列读取与参考序列的目标区域比对;
基于与参考序列的第一位置处的参考等位基因不同的第一位置处的每一样品的经比对的序列读取,鉴定所述至少两个样品的每一样品的第一位置处是否存在第一等位基因;
确定所述至少两个样品的每一样品的第一位置处的第一等位基因的变体计数和第一位置处的参考等位基因的野生型计数;
从所述至少两个样品选择至少一个样品作为参考样品;
比较所述第一样品的第一位置处的第一等位基因的第一变体计数和第一位置处的参考等位基因的第一野生型计数与所述参考样品的第一位置处的第一等位基因的第二变体计数和第一位置处的参考等位基因的第二野生型计数,以确定所述第一样品的第一位置处具有第一等位基因的变体的概率值;和
比较所述第一等位基因的概率值与阈值作为确定第一样品的第一位置处的第一等位基因是否为真阳性的部分,在第一位置处对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。
12.权利要求11的方法,其中参考样品包含两种样品,所述样品在不是第一样品的至少两种样品中在第一位置处具有第一等位基因的最低变体频率。
13.权利要求11或12中任一项的方法,其中所述概率值使用卡方累积分布函数确定。
14.权利要求11或12中任一项的方法,其中所述概率值使用Pearson比例检验确定。
15.权利要求11或12中任一项的方法,其中所述概率值是z得分、修饰的z得分、p值、卡方值、累积概率值和质量得分中的一种或多种。
16.权利要求11的方法,其中使用查找表确定质量得分。
17.权利要求11至16中任一项的方法,其中基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定所述阈值。
18.权利要求11至17中任一项的方法,其中所述阈值是变体频率的函数。
19.计算机产品,其包含存储多种指令的非瞬时计算机可读介质,所述指令当执行时,控制计算机系统来检测第一样品的目标区域中的真变体,所述指令包括:
接收从来自一个或多个样品的测序DNA片段获得的多个序列读取,所述一个或多个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;
比对多个序列读取与参考序列的目标区域;
鉴定在参考序列的目标区域中具有变体类别的变体参考等位基因的序列位置的组,其中在一个或多个样品中至少50%的序列位置展示出序列读取中变体类别中变体的假阳性,并且其中所述序列位置的组包括第一位置;
在所述序列位置的组的每一位置处且对于所述一个或多个样品的每一样品:
确定每一样品的每一位置处的读取计数;
基于与参考序列的相同位置处的参考等位基因不同的每一样品的序列读取,鉴定对于变体类别中的变体具有变体等位基因的候选,每一样品中每一位置处的候选变体的总数为每一样品的每一位置中的变体计数;
基于读取计数和变体计数确定变体类别中变体的变体频率,每一样品中每一位置的变体频率形成统计分布,其中第一样品的序列位置的组中第一位置处的变体频率为第一变体频率;
比较所述第一变体频率与统计分布的值,以确定相对于所述统计分布的值的第一变体频率的概率值;和
比较所述概率值与阈值作为确定第一样品中候选变体是否为真阳性的部分,对于变体类别中的变体所述阈值在假阳性和真阳性之间有所不同。
20.权利要求19的计算机产品,其中所述统计分布是每一样品的每一位置处的变体频率的对数变换的统计分布。

说明书全文

超深度测序中的罕见变体召集

[0001] 背景核酸测序确定了给定的DNA或RNA分子中存在的核苷酸顺序。对于更廉价且更迅速测序方法的需求已经驱动了下一代测序(NGS)方法的开发。NGS平台进行大量平行测序,在这过程中来自多种样品的数百万计的DNA片段可以一致地测序,因而提供了对于传统Sanger测序廉价得多且通量高得多的替代方法。NGS可用于全基因组测序或靶向测序。对于靶向测序,基因组中基因或确定区域的子集例如通过扩增靶区域来进行测序或主要测序。
[0002] 超深度测序是以高深度的覆盖度测序扩增子,目标为鉴定常见和罕见序列变化。对于覆盖度的足够深度,超深度测序具有完全表征罕见序列变体下至低于1%的能。超深度测序已经用于检测低频率HIV药物抗性突变,或鉴定复杂癌症样品中的罕见体细胞突变。
对于测试诸如非侵入性血液测试,生物标志物突变的频率可能低于1%。然而,NGS是易错方法,且能够具有接近于1%或更高的错误率,其取决于测序深度、样品类型和测序方案。因此,许多目前的NGS软件包仅报道具有1%或更高频率的变体,因为对于频率低于1%的变体可能出现假阳性。然而,即使对于具有例如低于1%的低频率的变体,仍然可以存在真阳性。因此,需要检测具有低频率诸如约0.0025%至约1%的低频率变体的真阳性的方法和系统。
[0003] 发明简述实施方案可以提供用于基于样品的测序读取(例如获自靶向测序)进行更精确的变体召集(calls)的方法、系统和装置。例如,一旦接收序列读取并与参考序列比较,则可以计算在一个位置处具有变体的序列读取。在样品的一个位置处测量的特定变体的第一变体频率可以与在其他位置和/或来自其他样品测量的特定变体的一个或多个第二变体频率进行比较。第二变体频率可以对应于测序运行的测序错误的预期值。
[0004] 在一些实施方案中,表示变体在一个位置处为真阳性的置信平的概率值可以基于在一个或多个样品中目标区域内多个位置处的变体计数和总读取计数来计算。随后可以将概率值与阈值水平比较以确定所检测的变体是否为真阳性。在其他实施方案中,测试样品和参考样品中相同位置处的变体计数和总读取计数中的差异(例如,假定仅在该位置处具有测序错误)可以用于确定变体在测试样品中是否为真阳性。
[0005] 根据一个实施方案,方法可以检测测试样品的目标区域中罕见变体的真阳性。对于每一样品,在其中参考序列上存在参考等位基因的位置处相同变体类别的变体的变体频率可以使用变体计数和总读取计数来计算。相同类别变体的变体频率的分布可以用于确定具有确定的变体频率的测试样品中位置处的变体的概率值。基于概率值,将测试样品中该位置处的变体归类为真阳性(突变)或假阳性。
[0006] 在其他实施方案中,方法可以通过使用与一个或多个参考样品比较来检测测试样品的目标区域中速率变体(rate variants)的真阳性。测试样品中特定位置处特定变体的变体计数和野生型计数可以从比对的序列读取中确定,并且与一个或多个参考样品中特定位置处特定变体的变体计数和野生型计数进行比较来确定概率值。基于概率值,将测试样品中该特定位置处的特定变体归类为真阳性或假阳性。
[0007] 在一个实施方案中,提供在第一样品中目标区域中检测低频率变体的计算机执行的方法。在此,所述方法包括(在计算机系统中)接收从来自一个或多个样品的测序DNA片段获得的多个序列读取,所述一个或多个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;将多个序列读取与参考序列的目标区域比对;基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取,鉴定目标区域的第一位置处具有第一等位基因的第一候选变体;基于与参考序列的第一位置比对的第一样品的序列读取,确定所述第一位置处第一等位基因的第一变体频率;鉴定所述第一候选变体为对应于选自多个变体类别的第一变体类别,所述多个变体类别的每一变体类别对应于不同类型的变体;鉴定具有参考等位基因的参考序列的目标区域中第二位置的组,其中在一个或多个样品中至少50%的其他位置对于所述第一等位基因展示出假阳性,且其中第二位置的组包括第一位置;在第二位置的组的每一个处和对于一个或多个样品的每一个:基于与参考序列的第二位置比对的样品的序列读取,确定第一等位基因的第二变体频率,所述第二变体频率形成统计分布;比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值;和比较第一等位基因的所述概率值与阈值作为确定所述第一候选变体在第一样品中是否为真阳性的部分,对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。
[0008] 在某些实施方案中,参考序列对应于如从正常细胞中确定的共有序列。在一些实施方案中,一个或多个样品来源于无细胞DNA片段。在一些实施方案中,一个或多个样品来源于生物样品的RNA。在一些实施方案中,多个样品在单一测序运行中进行测序。在其他实施方案中,统计分布的统计值包括平均值。在其他实施方案中,概率值为z得分、修饰的z得分、累积概率、Phred质量得分、或修饰的Phred质量得分。在其他实施方案中,统计分布为第二变体频率的对数变换的统计分布。在其他实施方案中,基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定阈值。在其他实施方案中在其他实施方案中,阈值是变体频率的函数。
[0009] 在另一实施方案中,提供用于检测在第一样品的目标区域中第一位置处具有第一等位基因的变体的计算机实现的方法。在此,所述方法包括(在计算机系统中):接收从来自至少两个样品的测序DNA片段获得的多个序列读取,所述至少两个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;将多个序列读取与参考序列的目标区域比对;基于与参考序列的第一位置处的参考等位基因不同的第一位置处的每一样品的经比对的序列读取,鉴定所述至少两个样品的每一样品的第一位置处是否存在第一等位基因;确定所述至少两个样品的每一样品的第一位置处的第一等位基因的变体计数和第一位置处的参考等位基因的野生型计数;从所述至少两个样品选择至少一个样品作为参考样品;比较所述第一样品的第一位置处的第一等位基因的第一变体计数和第一位置处的参考等位基因的第一野生型计数与所述参考样品的第一位置处的第一等位基因的第二变体计数和第一位置处的参考等位基因的第二野生型计数,以确定所述第一样品的第一位置处具有第一等位基因的变体的概率值;和比较所述第一等位基因的概率值与阈值作为确定第一样品的第一位置处的第一等位基因是否为真阳性的部分,在第一位置处对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。
[0010] 在某些实施方案中,参考样品包含两种样品,所述样品在不是第一样品的至少两种样品中在第一位置处具有第一等位基因的最低变体频率。在一些实施方案中,使用卡方累积分布函数确定概率值。在一些实施方案中,使用Pearson比率测试确定概率值。在一些实施方案中,概率值是z得分、修饰的z得分、p值、卡方值、累积概率值和质量得分中的一种或多种。在一些实施方案中,使用查找表确定质量得分。在一些实施方案中,基于获自一个或多个测序运行的训练数据使用支持向量机分类器确定阈值。在一些实施方案中,阈值是变体频率的函数。
[0011] 在另一实施方案中,提供包含存储多种指令的非瞬时计算机可读介质的计算机产品,所述指令当执行时,控制计算机系统来检测第一样品的目标区域中的真变体。在此,所述指令包括接收从来自一个或多个样品的测序DNA片段获得的多个序列读取,所述一个或多个样品包括第一样品,其中所述测序包括靶向DNA片段中的目标区域;比对多个序列读取与参考序列的目标区域;鉴定在参考序列的目标区域中具有变体类别的变体参考等位基因的序列位置的组,其中在一个或多个样品中至少50%的序列位置展示出序列读取中变体类别中变体的假阳性,并且其中所述序列位置的组包括第一位置;在所述序列位置的组的每一位置处且对于所述一个或多个样品的每一样品:确定每一样品的每一位置处的读取计数;基于与参考序列的相同位置处的参考等位基因不同的每一样品的序列读取,鉴定对于变体类别中的变体具有变体等位基因的候选,每一样品中每一位置处的候选变体的总数为每一样品的每一位置中的变体计数;基于读取计数和变体计数确定变体类别中变体的变体频率,每一样品中每一位置的变体频率形成统计分布,其中第一样品的序列位置的组中第一位置处的变体频率为第一变体频率;比较所述第一变体频率与统计分布的值,以确定相对于所述统计分布的值的第一变体频率的概率值;和比较所述概率值与阈值作为确定第一样品中候选变体是否为真阳性的部分,对于变体类别中的变体所述阈值在假阳性和真阳性之间有所不同。在某些实施方案中,统计分布是每一样品的每一位置处的变体频率的对数变换的统计分布。
[0012] 其他实施方案涉及与本文描述的方法相关的系统、装置和计算机可读取介质。
[0013] 本发明的性质和优点的更好理解可以参考以下定义、详述和附图来获得。
[0014] 定义如本文所用,术语“样品”或“生物样品”指任何包含或假定包含核酸的组合物。核酸可以来自动物(例如哺乳动物、人)、植物微生物等。术语样品包括纯化的或分离的细胞、组织或血液的组分,例如DNA、RNA、蛋白、无细胞部分或细胞裂解物。样品还可以指其他类型的生物样品,例如皮肤血浆、血清、全血和血液组分(血沉棕黄层)、唾液、尿、泪液、精液、阴道流体、抽吸物或灌洗液、组织活检样品和其他流体或组织,包括石蜡包埋的组织。样品还可以包括获自个体的细胞(包括细胞系)的体外培养物的成分和组分。“测试样品”指进行测试用于检测样品中的变体的样品。
[0015] “基因组区段”(也称为“基因组片段”)是完整或部分测序的核酸分子,其中所述分子来自生物体的基因组。其可以是DNA区段(也称为“DNA片段”)或RNA区段(也称为“RNA片段”)。区段可以通过将基因组的大段片段化来产生,例如通过将细胞进行声波。基因组区段可以进行测序以提供“测序读取”(也称为“序列读取”或仅称为“读取”)。测序读取可以是完整的基因组区段或仅区段的部分。
[0016] “参考样品”(也称为“对照样品”)指用作参考(通常为已知参考)用于与测试样品比较的样品。例如,测试样品可以取自怀疑具有癌症或癌症相关突变的个体,并且与来自无癌症的个体或不具有癌症相关突变的个体(阴性对照)、或来自已知具有癌症或癌症相关突变的个体(阳性对照)的参考样品进行比较。对照还可以表示从许多测试或结果收集的平均值或范围。
[0017] “目标区域”是可以具有诊断关联性的被分析的序列中的区域。作为实例,包括目标区域的片段可以使用引物和扩增方法来扩增或者可以使用探针富集。“参考序列”(也简称为“参考”)是序列读取与其比对的任何已知序列。在各种实施方案中,参考序列可以对应于生物体的基因组或转录组的全部或仅一部分。参考序列还可以包括多于一种生物体的基因组。例如,序列读取还可以针对病毒的数据库进行比较,因为此类病毒可能存在于样品中。
[0018] 变体(也称为变化或突变)指两个序列之间的差异。变体可以是例如一个基改变为一个或多个其他碱基、一个或多个碱基的插入、或一个或多个碱基的缺失。参考序列中一个位置处的一个或多个碱基可以称为参考等位基因,而测试样品上相同位置处的不同的一个或多个碱基(或插入或缺失)可以称为变体等位基因。例如,对于A>C的单碱基取代,A为参考等位基因,而C为变体等位基因。参考等位基因可以是代表自然界中存在的生物体的大多数常见基因型的野生型等位基因。序列读取和参考序列的目标区域之间的差异可以进行计数,且可以鉴定真突变(例如,如果足够的序列读取显示突变)。
[0019] 在样品的不同序列读取上的特定位置处相同变体等位基因的总数,诸如A>C变体的Cs称为变体计数。样品的特定位置的读取的总数称为读取计数。将样品的特定位置处的变体类型或类别诸如A>C的变体频率定义为在所述特定位置处变体的变体计数相对于样品在所述特定位置处的读取计数的比率。
[0020] 如本文所用,术语“位置”对应于序列中一个或多个位置(例如,在基因组的目标区域中)。任何长度的核苷酸(或碱基对)可以存在于这样的位置,例如,其中存在多碱基插入。
[0021] 除非另有定义,本文使用的技术和科学术语具有如本领域普通技术人员通常理解的相同含义。参见例如Pfaffl, Methods:The ongoing evolution of qPCR, vol. 50 (2010); van Pelt-Verkuil 等人Principles and Technical Aspects of PCR Amplification, Springer (2010); Lackie, DICTIONARY OF CELL AND MOLECULAR BIOLOGY, Elsevier  (第四版 2007); Sambrook 等人, MOLECULAR CLONING, A LABORATORY MANUAL, Cold Springs Harbor Press (1989)。
[0022] 附图简述图1为显示根据本发明的实施方案使用靶向的超深度测序的下一代测序(NGS)的基因组测序和变体召集的流程图
[0023] 图2显示与参考序列相比的目标区域的序列读取,其中根据本发明的实施方案显示在不同序列位置处相同类别和不同类别的变体。
[0024] 图3A显示根据本发明的实施方案在一个或多个样品中目标区域中多个位置的每一位置处变体类别中变体的变体频率分布的理想统计模型。
[0025] 图3B显示根据本发明的实施方案特定样品上特定位置处的变体的变体频率将具有给定的Z值的概率。
[0026] 图3C显示根据本发明的实施方案Z值取小于或等于z的值的概率的累积分布函数。
[0027] 图3D显示根据本发明的实施方案具有变体频率值或Z值的变体为假阳性和概率和进行变体召集的相关质量分数。
[0028] 图4为显示根据本发明的实施方案使用统计模型的变体召集方法的流程图。
[0029] 图5显示根据本发明的实施方案使用用于训练数据和通过支持向量机(SVM)确定的具有分隔线的外显子20的EGFR T790M的测试数据的统计模型确定的变体质量分数QAMP。
[0030] 图6显示根据本发明的实施方案使用用于训练数据和通过SVM确定的具有分隔线的外显子21的EGFR L858R的测试数据的统计模型确定的变体质量分数QAMP。
[0031] 图7显示根据本发明的实施方案的参考样品和测试样品的序列读取上特定基因组位置处的特定变体。
[0032] 图8为显示根据本发明的实施方案通过比较测试样品和参考样品的序列读取数据在特定序列位置处特定变体的变体召集的流程图。
[0033] 图9显示根据本发明的实施方案通过比较两种样品的训练数据和通过SVM确定的具有分隔线的外显子20的EGFR T790M的测试数据确定的本地化变体质量分数QLOC。
[0034] 图10显示根据本发明的实施方案通过比较两种样品的训练数据和通过SVM确定的具有分隔线的外显子21的EGFR L858R的测试数据确定的本地化变体质量分数QLOC。
[0035] 图11显示根据本发明的实施方案通过比较两种样品的训练数据和通过SVM确定的具有分隔线的外显子19的EGFR 15-碱基缺失2235_2249del15的测试数据确定的本地化变体质量分数QLOC。
[0036] 图12显示根据本发明的实施方案的有效质量分数估计值的查找表。
[0037] 图13显示根据本发明的实施方案的低频率变体召集的实例计算机系统的框图
[0038] 图14为显示测序装置和计算机系统之间关联的一般框图的实例。
[0039] 图15为显示软件和硬件资源(其可用于实现本发明的方法和系统)之间关联的一般框图的实例。
[0040] 详细描述可以使用测序来检测癌症或其他疾病的突变,且还可以开发作为体外诊断(IVD)检测。
期望开发这些测试作为非侵入性血液检测。然而,在血液样品中,生物标志物突变的频率低。例如参见Kidess  和 Jeffrey, Circulating  tumor cells versus tumor-derivedcellfree DNA: rivals or partners in cancer care in the era of single-cellanalysis Genome.Med., 5:70 (2013), Diaz和Bardelli, Liquid biopsies: genotyping circulating tumor DNA, J. Clin.Oncol., 32:579-586 (2014);和Diehl 等人, Nat Med., 14:985–990 (2008)。由于与测序方法相关的错误,许多NGS软件包仅报告具有1%或更高频率的变体,因为阈值设定在1%或低于1%时出现假阳性。
[0041] 本发明的实施方案提供检测具有低于1%的变体频率的低频率变体的真阳性的方案。准确变体召集可以基于样品(例如获自靶向测序的样品)的测序读取。例如,一旦接收序列读取并与参考序列比较,则可以计算在一个位置处具有变体的序列读取。在样品的一个位置处测量的特定变体的第一变体频率可以与在其他位置和/或来自其他样品测量的特定变体的一个或多个第二变体频率进行比较。第二变体频率可以对应于测序运行的测序错误的预期值。
[0042] 在一些实施方案中,表示变体在一个位置处为真阳性的置信水平的概率值可以基于在一个或多个样品中目标区域内多个位置处的变体计数和总读取计数来计算。随后可以将概率值与阈值水平比较以确定所检测的变体是否为真阳性。在其他实施方案中,测试样品和参考样品中相同位置处的变体计数和总读取计数中的差异(例如,假定仅在该位置处具有测序错误)可以用于确定变体在测试样品中是否为真阳性。
[0043] I. 具有靶向测序的超深度测序基因组的特定区域可以使用靶向测序有效地分析。例如,生物样品的基因组区段可以通过克隆对应于目标区域的区段(例如使用引物在扩增方法诸如聚合酶链反应(PCR)中)和/或使用探针来优先捕获对应于目标区域的区段而增加或扩增。靶增加的样品中的基因组区段可以使用大量平行下一代测序(NGS)来测序并进行分析以调查目标区域中的可能突变。
[0044] 然而,此类方法可能导致错误。例如,在具有扩增或富集的先前步骤且使用高通量下一代测序的变体检测中,可能扩增子/富集的文库(靶增加的样品)包含假阳性读取。PCR可以引入点突变和插入缺失,并且其还可以产生重组序列或嵌合体(chimeras)。此外,遗传变体的相对频率可能由于PCR过程中的选择性扩增偏差而被扰乱。另外的单碱基错误可能在乳液PCR过程中发生。测序本身也可能引入碱基取代错误和插入缺失。这些错误可能导致不正确的突变报告并可能提供疾病诊断的误导信息。假阳性可能通过各种方法降低,诸如正确设计引物和开发高保真酶。然而,假阳性仍然存在,并且在许多情况下,错误率可能是显著的,诸如接近约1%或更高。
[0045] 即使每一单独核苷酸的测序准确性可能是相对高的,但基因组中大量的核苷酸意味着如果单独的基因组仅测序一次,则将存在显著数目的测序错误。例如,对于每碱基对0.2%的错误率和400个碱基对的读取长度,具有至少一个错误的读取比例为1 -  (1-
0.002)400 = 0.551,其意味着高于55%的序列读取可能具有至少一个错误。因此,为了区分测序错误和罕见但真正的突变,期望通过测序单独的基因组许多次来增加测序准确性。例如,即使每一序列读取包含1%错误率,覆盖变体位置的八个相同读取的组合将产生具有(10-2)8或10-16的错误率的强烈支持的变体检测。
[0046] DNA测序中的深度指在测序过程中核苷酸的读取次数。深度测序表示读取的总数比研究中的序列长度大许多倍。覆盖率是代表重新构建的序列中给定核苷酸的读取的平均数目。术语“深度的”已用于宽范围的深度,诸如大于7次,且术语“超深度的”通常指甚至更高的覆盖度,诸如大于100次。测序深度的要求可以取决于变体类型、疾病模型和目标区域的大小。因此,对于具有1%或更低的变体频率的罕见变体,可能期望甚至更高的覆盖度。大量平行NGS实现了对于真变体检测的超深度测序。尽管如此,产生更短读取的更大深度并不会解决罕见变体检测的所有问题。
[0047] II. 超深度测序中的变体召集变体召集是鉴定测试样品和参考序列的序列读取之间的真正差异的方法。变体召集在样品表征和疾病诊断中是重要的。然而,变体召集本质上是困难的,因为体细胞突变经常以非常低的频率发生。变体召集的一个目标是以高置信度鉴定体细胞变体以将虚假的假阳性降到最低。
[0048] 图1表示使用靶向超深度测序的下一代测序(NGS)的基因组测序和变体召集的方法100。与其他方法一样,实施方案可以包括所述步骤的全部或一些,且一些步骤可以用计算机系统来进行。方法100的结果可以由医生在确定生物体的诊断中使用。
[0049] 在方框110中,接收待测序和诊断的包含多核苷酸的样品,其中所述多核苷酸可能包含待测序的目标区域。如上定义,术语“样品”指任何包含或假定包含核酸的组合物。样品包含来自生物体的基因组的核酸分子,所述样品获自所述生物体。例如,样品可以包含含有编码在染色体中的基因组的细胞。样品可以包含一个或多个测试样品。样品还可以包含一个或多个参考或对照样品。一些样品可以获自将对于基因组的特定区域中的突变进行测试的患者。样品可以获自将对于癌症进行测试的肿瘤活检样品。样品可以包括一些正常细胞、一些处于癌症进展早期的细胞和一些处于癌症进展晚期的细胞。样品可以来自不同的人或相同的人(例如,不同的活检样品),并且可以使用不同的实验条件。
[0050] 任选地,在方框120处,RNA或DNA在测序前分离自样品。用于从生物样品中分离核酸的方法是已知的,例如如描述于Sambrook中,且一些试剂盒是可商购的,例如DNA Isolation Kit for Cells and Tissues、DNA Isolation Kit for Mammalian Blood、High Pure FFPET DNA Isolation Kit、High Pure RNA Isolation Kit、High Pure Viral Nucleic Acid Kit和MagNA Pure LC Total Nucleic Acid Isolation Kit,均可购自Roche。在一些实施方案中,分离的核酸包括基因组DNA。在一些实施方案中,分离的核酸包括循环游离DNA片段(cfDNA)。在一些实施方案中,分离的核酸包括RNA,诸如细胞mRNA或cfRNA。
[0051] 在RNA的情况下,在方框130中,进行逆转录反应。例如,可以使用逆转录酶将RNA转变成互补DNA(cDNA)。
[0052] 任选地,在方框140,DNA区段可以进行制备用于测序。这可以包括将DNA片段化为包含目标区域的更小的DNA区段,将衔接序列连接至DNA区段的末端,和锚定特异性条形码序列,所述条形码序列鉴定DNA区段来源于其中的样品。目标区域是DNA中这样的区段,所述区段可以具有诊断关联性,例如以判断是否存在任何癌症相关的突变。作为实例,目标区域可以为约几百个碱基,例如150-250个碱基,150-400个碱基,或200-600个碱基。在另一实施方案中,探针可以用于捕获对应于目标区域的基因组区段。例如,设计与目标区域杂交的探针可以置于表面上。随后,基因组区段可以置于表面上并且目标区域的区段将优先杂交。样品的DNA可以被片段化,例如通过超声处理或其他合适的方法以获得更小的基因组区段。例如,可以获得200-500个碱基长的基因组区段。对于某些测序程序,优选约该长度的基因组区段。然而,实施方案可以使用任何长度的基因组区段。
[0053] 基因组区段可以用条形码或复用标识符(MID)序列来标记。例如,可以将10个碱基的序列添加(例如使用连接酶)至基因组区段的末端。在该方式中,来自不同样品的区段可以在单一测序运行过程中平行测序。MID可以作为序列读取的部分进行读取,并且具有相同MID的序列读取可以归于同一样品且一同分析。MID可以用于解复用或区分来自不同样品的序列读取。
[0054] 在方框150,将DNA区段任选通过扩增方法诸如PCR、SDA或其变化来扩增或增加,以产生DNA区段(即扩增产物)用于测序。DNA聚合酶诸如Taq或另一热稳定的聚合酶可以用于通过PCR扩增。对于扩增方法的综述,参见例如Fakruddin 等人, J Pharm Bioallied Sci.5:245 (2013)。这些扩增产物基于用于扩增的引物来限定。引物对于核酸上的目标区域是特异性的。测序引物通常基于选择扩增引物来涉及,从而使得测序引物对于扩增产物内的序列是特异性的(与其特异性杂交)。在一些实施方案中,目标区域可以通过靶富集方法来富集。扩增和富集方法均可以进行。可以使用正向和反向引物来扩增目标区域。这些正向和反向引物可以是不同长度,例如约15-30个碱基长。
[0055] 在一些实施方案中,添加样品特异性MID可以在不同点发生。例如,MID可以在扩增/富集之后添加,随后将样品混合在一起。以这种方式,不同样品可以对不同的目标区域进行扩增或富集。
[0056] 在方框160,来自一个或多个样品的DNA区段在单一测序运行中以大量平行方式来测序。在测序方法中,扩增方法中产生的相同区段的克隆可以对其序列分开确定(并随后计数)。在一些实施方案中,单一测序运行可以产生超过1兆碱基的数据。在一些实施方案中,可以获得每样品超过约3,000个读取。读取的数目可以取决于样品的大小,随目标的部分增加进行多少扩增,和测序方法的带宽(即,装置设置有多少测序,例如,使用多少珠粒(beads))。在一个实施方案中,读取为约150-250碱基长。
[0057] 测序方法可以通过不同NGS平台诸如Roche 454、Illumina GA和ABI SOLiD上的不同技术来进行。在一个实施方案中,DNA区段可以进行扩增作为测序的部分。在其中将扩增方法用于产生靶增加的样品的实施方案中,该扩增将为第二扩增步骤。第二扩增可以提供比如果不进行第二扩增时更强的信号(例如,对应于具体碱基:A、C、G或T的荧光信号)。
[0058] 在测序方法的一个实例中,来自方框150的经扩增的区段(例如,其中扩增在溶液中发生)可以各自连接至珠粒。所连接的区段可以随后在珠粒上扩增,并且一个序列读取可以获自每一珠粒。对于使用表面的实施方案,可以将区段连接至表面上并且随后扩增以产生表面上的单一簇。可以获得每一簇的单一序列读取。序列读取可以为基因组区段的完整长度或区段的部分。
[0059] 在方框170,序列读取可以任选进行过滤以去除低质量读取和短读取,并将剩余的序列读取与参考序列的目标区域进行比对。在一些实施方案中,将具有相同碱基的读取组合从而将它们认为是单一序列读取。因此,可以记录仅唯一读取的读取计数。平均碱基得分可以在每一碱基位置对每一唯一读取进行计算。碱基评分可以测量在序列读取上碱基召集的准确程度。使用碱基评分,可以去除低质量读取。在一些实施方案中,还去除比最低值短的读取。
[0060] 通过比对,方法可以比较序列读取与参考序列的目标区域以确定序列读取与参考序列之间的变化数目。由于比对可以对于仅一个或多个目标区域是特异性的,因此比对可以是快速的,因为不需要搜索完整基因组。而且,由于对应于目标区域的区段百分比增加,因此读取的实质数目将有利地与目标区域匹配(例如,相对少的改变)。
[0061] 在一个实施方案中,如果使用多个目标区域,则序列读取可以与全部所述多个目标区域进行比较,并且可以鉴定提供最佳比对的目标区域。不同的目标区域可以具有不同的基因或基因的不同外显子。因此,可以鉴定具有最佳比对的外显子。
[0062] 如果使用条形码或MID,则可以在比对前将其去除。MID可以用于将所有特定样品的读取编组入一个组中。以这种方式,来自不同样品的突变将不会影响特定样品的分析。将该分组称为解复用。由于不同样品可能具有不同的目标区域,因此MID可以用于确定参考序列的哪一个目标区域应进行比较用于比对。
[0063] 在方框180,将来自目标区域的经比对的序列读取用于鉴定目标区域中的突变。作为该步骤的部分,可以确定变体等位基因的数目(或变体计数)、参考等位基因的数目(或野生型计数)和因此每一样品的序列位置处的每一变体的频率。例如,对于目标区域中的特定位置,可以计数G突变出现取代正常的A的次数。看到G突变的次数的百分比可以从与该位置比对的总读取中确定。在一些实施方案中,可以鉴定一同发生的变化,并且可以分类为相同突变的一部分。对于每一样品,目标区域的测序深度可以从通过该样品的任何过滤程序(filters)的读取的数目中确定。
[0064] 在方框190,基于变体计数、野生型计数和/或变体频率进行变体召集。在一个实施方案中,特定变体的变体频率可能需要大于阈值(丰度过滤程序)以被考虑为实际突变。表1显示基于Illumina MSR体细胞变体召集器报道的具有缺省设定的Poisson模型计算的最低变体计数和变体频率。表1.报道各种深度的最低变体计数和最低变体频率。
[0065] 在一些实施方案中,提供表示变体实际存在于样品中的置信水平的质量得分,并将其用于进行变体召集。在一些实施方案中,可以将质量得分与变体计数、野生型计数和/或变体频率的一者或多者组合使用来进行变体召集。医生可以使用经鉴定的突变来诊断对于癌症的易感性或鉴定肿瘤为具有癌症。
[0066] 图2说明相比于参考序列210的测试样品中目标区域215的序列读取的实例,其中显示了不同序列位置处相同类别和不同类别的变体。图2显示其中参考序列具有碱基A的参考等位基因的目标区域中的四个实例位置。明确地显示了五个序列读取以便于图示,但实际上使用多得多的读取。显示参考序列210在位置205、231、255和281处具有A。
[0067] 对于位置205,在一些序列读取中,检测到A,但在一些序列读取中,检测到C。检测到C表明潜在的A>C变体。变体A>C是特定的变体类别。其他碱基可能在未显示的序列读取中检测到。其他等位基因的存在可能表明其他变体类别的其他类型的变体。
[0068] 对于位置231,在一些序列读取中,检测到A;在一些序列读取中,检测到C;在仍一些其他读取中,在位置231没有检测到任何碱基(“0”)。检测到C表明单碱基取代A>C的潜在变体。检测到“0”表明缺失的潜在变体。
[0069] 对于位置255的碱基A,在一些序列读取中,检测到A;在一些序列读取中,检测到C;但在一些其他读取中,检测到T。检测到C表明单碱基取代A>C的潜在变体。检测到T表明不同的单碱基取代A>T的潜在变体。
[0070] 对于位置281的碱基A,在一些序列读取中,检测到A;在一些序列读取中,以不同频率检测到C。以不同频率检测到C表明具有不同变体频率的单碱基取代A>C的潜在变体。
[0071] 基于测试样品的序列读取,对于每一位置,可以计数野生型碱基A的数目、单碱基取代A>C的数目、单碱基取代A>T的数目和A缺失的数目。变体类型显示于图2中仅用于说明目的。在本公开中存在各种类型的如下文所述的变体和突变。
[0072] III.基于统计学分布模型的变体召集在本公开的一些实施方案中,在NGS实验中观察到的所有变体可以被报道。由于大部分观察到的低频率变体可能是假阳性,为了区分低频率真阳性与假阳性,可以使用假阳性变体的分布来建立变体召集质量得分以确定变体是真阳性的可能性。
[0073] A. 基于统计模型的变体召集的数学理论图3A-3D提供根据本发明的一些实施方案基于统计学模型的变体召集的根本数学理论。由于变体召集的假阳性率取决于序列上下文和位置,因此在所有样品中不同位置处的相同类别或类型诸如A>C的变体可以一同比较来进行基于统计分布的变体召集。
[0074] 在一些实施方案中,不同序列位置处在测序运行中的简单变体可以分为20个类别。在每一类别中,变体的大部分是假阳性。每一变体类别的统计分布的参数可以进行计算。变体类别可以如下定义:(1) 12种单碱基取代,包括A>C, A>G, A>T, C>A, C>G, C>T, G>A, G>C, G>T, T>A, T>C和T>G;
(2) 多碱基取代,诸如AC>GA;
(3) 1-2碱基缺失,诸如AGT>AT或GCAT>GT;
(4) 3碱基缺失,诸如ATCGA> AA;
(5) 4-5碱基缺失,诸如GACCTA>GA或TGCGCGA>TA;
(6) 6或更多碱基缺失,诸如ATCCTCAG>AG;
(7) 1-2碱基插入,诸如AT>AAT或GC>GTAC;
(8) 3或更多碱基插入,诸如GC>GTAAC或AC>AGATGC; 和
(9) 其他简单突变,诸如单碱基取代A>C随后立即为1碱基缺失,例如,原始参考序列为AT且突变体碱基为C,即AT>C。此类突变AT>C也可以解释为缺失A随后为单碱基取代T>C。
[0075] 如本文所用,简单突变是由两个匹配的碱基对所围绕(bounded)的突变,其中没有任何匹配的碱基对。例如,在aATg和aCg中,简单突变AT>C被匹配对a-a和匹配对g-g所围绕,其中小写字母用于表示匹配对。但在aAcGg和aCcTg中,AcG>CcT不是简单突变,因为存在其中存在匹配对c-c。因此,AcG>CcT是由两个简单突变A>C和G>T组成的复杂突变。
[0076] 在一些实施方案中,一个或多个样品的目标区域(其中参考序列中存在参考等位基因(例如,碱基A对于变体类型A>C))中不同位置的相同类别的变体诸如A>C的变体频率可以用于形成变体类别的统计分布。例如,如图2中所示,在目标区域(其中样品的参考序列中存在A)中的位置205、位置231、位置255、位置281和其他位置的每一处的单碱基取代A>C的变体频率可以是变体类别A>C的统计分布的数据点。在目标区域(其中作为测试样品在相同测序运行中测序的其他样品的每一个的参考序列中存在A)中的位置205、位置231、位置255、位置281和其他位置的每一处的单碱基取代A>C的变体频率也可以是变体类别A>C的统计分布的数据点。另一方面,在目标区域(其中作为测试样品在相同测序运行中测序的每一样品的参考序列中存在A)中的位置205、位置231、位置255、位置281和其他位置的每一处的不同变体类别诸如单碱基取代A>T或单碱基缺失A>0的变体频率不能用于变体类别A>C的统计分布。
[0077] 在一些实施方案中,至少30个数据点包括在统计分布中。所述至少30个数据点可以来自单一测序运行中的两个或多个样品。对于少于30个的数据点,数据点可能无法代表真实分布。
[0078] 图3A表明相同类别的变体的变体频率的理想统计分布(正态分布)。图3A仅用于说明目的。变体类别的变体频率的实际统计分布可以取决于样品并且可以是其他形式的分布,诸如双峰分布。在一些实施方案中,变体频率的一些形式的变换,诸如平方、平方根或对数变换可以形成更接近正态分布的分布。
[0079] 在图3A中,x轴代表变体类别的变体频率值,且y轴代表具有特定变体频率值f的数据点的数目。如图3A中的理想正态分布中所示,平均值m和标准偏差s可以基于分布确定。
[0080] 图3B显示特定样品上特定位置处变体的变体频率将具有给定的Z值的概率,其中所述概率和所述Z值可以衍生于图3A中所示的统计分布。在一些实施方案中,图3B可以是基于平均值和标准偏差的图3A的归一化分布。在一些实施方案中,可以使用更复杂的变换或转变,诸如对数变换。图3A中的阴影面积表明等于或大于z的所有Z值的累积概率。
[0081] 图3C显示Z值取小于或等于z的值的概率的累积分布函数F。
[0082] 图3D在左边的主坐标轴上显示具有特定变体频率值的变体或Z值为假阳性的的碱基召集错误概率(p值),在右边的第二坐标轴上显示进行变体召集的相关质量得分Q。在一些实施方案中,p值可以通过1-F计算。在一些实施方案中,质量得分Q可以为通过Q= -10log10p给出的Phred质量得分或Phred质量得分的任何变化。
[0083] B. 基于统计模型的变体召集的方法图4显示使用统计模型的变体召集方法400。与其他方法一样,实施方案可以包括所述程序的全部或一些,且一些程序可以包括另外的程序或子程序。
[0084] 在方框410,接收在单一测序运行中靶向一个或多个样品中目标区域的序列读取。序列读取数据可以接收并以可以由计算机读取并分析的任何形式存储。在一些实施方案中,序列读取的预处理可以进行以去除低质量读取或衔接序列。在一些实施方案中,可以去除条形码或MID,并且来自相同样品的序列读取可以进行标记或分组。
[0085] 在方框420,将序列读取与参考序列的目标区域比对,例如,如方法100的方框170中所述。
[0086] 在方框430,测试样品的经比对序列读取上特定序列位置处的相同变体类别的变体等位基因可以进行鉴定并计数以确定变体计数。也可以确定测试样品的经比对的序列读取上特定序列位置的读取计数。例如,如图2中所示,测试样品的序列读取中位置205处的总数为位置205处变体类别A>C的变体计数,且测试序列的序列读取中位置205处读取的总数为位置205处变体类别A>C的读取计数。在一些实施方案中,测试样品的特定位置的读取计数可以在单独的程序中确定。
[0087] 在方框440,确定特定位置处相同类别的变体的变体频率。在一个实施方案中,变体频率可以通过将变体计数除以测试样品中特定位置处的读取计数来确定。在另一个实施方案中,变体频率可以通过将变体计数除以测试样品中特定位置处的非变体计数(例如读取计数减去变体计数)来确定。本领域技术人员将理解可以使用的变体频率的各种类型的形式。
[0088] 在方框450,对于相同测序运行中作为测试样品测序的每一样品,鉴定相同类型的变体诸如A>C并且在多个位置(其中变体类别的参考等位基因例如A存在于目标区域中的参考序列上)的每一位置处计数。类似地,对于相同测序运行中的每一样品,可以确定多个位置(其中在参考序列上发现变体类别的参考等位基因)的每一个的读取计数。
[0089] 在方框460,对于在相同测序运行中作为测试样品测序的每一样品,可以通过将每一位置的变体计数除以该位置的读取计数来确定多个位置的每一位置处相同变体类别的变体诸如A>C的变体频率。因此,例如,如果3个样品在测序运行中一同测序,且目标区域中参考序列上30个位置具有变体类别的参考等位基因,则可以计算高至90个变体频率,一个对应于每一样品上的每一位置。这些变体频率可以用于确定相同测序运行中相同类型的变体的变体频率的统计分布。注意:其他变体类别的变体频率不包括在内用于确定统计分布。此外,获自其他测序运行的数据点可以不包括在内用于确定统计分布,以降低可能影响分布模型的准确性的测序运行之间的变化的影响。
[0090] 在方框470,对应于测试样品中特定位置处相同类别的变体的变体频率的概率值通过将变体频率与方框460中形成的统计分布的参考比较来确定。在一些实施方案中,概率值可以是实际概率、累积分布或质量得分。在相同的实施方案中,统计分布的参数可以是平均值和标准偏差的一者或多者。
[0091] 在方框480,基于概率值和阈值进行变体召集以确定测试样品上特定位置处的变体类别的变体是否为真阳性。在一些实施方案中,阈值可以是单一值。在一些实施方案中,阈值可以是例如变体频率的函数。在一些实施方案中,阈值可以使用机器学习算法诸如支持向量机(SVM)基于训练数据集来确定。在一些实施方案中,阈值可以基于获自不同测序运行的训练数据来确定。
[0092] 上述方法可以在以下实施例的教导下更好地理解。
[0093] C. 实施例下文给出的实施例表明本部分中上述的方法。在实施例中,使用基于变体类别的对数变体频率的统计分布,因为变体频率不在正态分布中,而对数变体频率的分布接近如下文解释的正态。
[0094] 表2显示正态性检验诸如Lilliefors检验和Shapiro-Wilk检验对于具有外显子20取代T790M (C>T于2369)和外显子21取代L858R (T>G于2573)的假阳性的野生型数据的结果,所述正态性检验应用于原始变体频率f及其对数变换x两者。结果显示当使用正态分布假定时x具有获得观察到的样品结果更大概率(P-值) (>0.08),其表明实际分布和正态分布之间的较小差异,且f具有更小的P值(<0.016)。因此,x比f更接近正态分布。表2.f和x的正态性检验的P值。
[0095] 因此,为了使用正态近似以进行统计分析,首先进行变体频率的对数变换,因为经变换的变体频率比大多数噪声的原始变体频率更接近正态分布。在一些实施方案中,为了避免当f = 0时的负无穷值,使用以下对数变换x = log10(f +e),
其中e为避免负无穷值的调整常数。调整常数e可以设定为任何合适的值。例如,在一些实施方案中,e可以设定至10-6,因此最小x值为-6。
[0096] 对数变换后,可以计算正态分布近似的平均值m和标准偏差s。正态分布近似可以随后用于计算序列位置处经检测的变体的概率值。例如,对于具有f1的变体频率和x1 = log10(f1 + e)的对数变体频率及足够深度(总读取计数)位置处变体类别中观察到的变体,可以使用以下计算统计概率值z-得分z = (x1 – m) / (s / sqrt(n)),
其中n为用于估计s和m的参考数据点的数目。计算结果表示z得分对于大的n而言是大的,这可以产生非常小的碱基召集错误概率(p值),和因此非常大的质量得分。因此,在一些实施方案中,z得分被z样得分所替代,所述z样得分通过在以上方程中用min(n, N)替代n来计算。N可以设定至任何合适的值,在一些实施方案中,N设定至36。在一些实施方案中,下界s2也可以在其中s太小的情况下设定为s / sqrt(min(n, N))。s2可以设定至任何合适的值,诸如例如0.01的缺省值。因此,在一些实施方案中,z样得分可以表示为
z’ = (x1 – m) / max(s2, s / sqrt(min(n, N)))。
[0097] 使用z得分或z样得分z',碱基召集错误概率p值可以通过p = 1 – F(z)或p = 1-F(z’)确定,其中F为标准正态分布的累积分布函数。变体召集质量得分QAMP可以随后使用Phred得分确定。在一些实施方案中,QAMP可以定义为Phred样得分:QAMP = -10 log10(max(p, minP)),
其中minP = 10–maxQ/10。maxQ可以设定至任何合适的值。例如,在一些实施方案中,maxQ可以设定至80或130。
[0098] 在一些实施方案中,中心位的抗差估计和数据的变化(代替样品平均值和样品标准偏差)可以用于计算质量得分。
[0099] 在一些实施方案中,分类方法诸如具有线性核的支持向量机(SVM)可以用于将真阳性与假阳性分开,所述方法使用具有已知真阳性和假阳性的训练数据集。在一些实施方案中,阈值可以通过将数据可视化来设定。
[0100] 图5和6显示应用于来自真实样品的序列读取数据的以上方法的实施例结果。图5显示训练数据和具有由SVM确定的分隔线的外显子20的EGFR T790M (C>T于2369)的测试数据的具有maxN=4的变体召集质量得分QAMP。图5显示变体和野生型数据没有良好分开,并且因此可能难于区分具有0.1%或更低的变体频率的真突变和假阳性。然而,对于具有0.5%或更多的变体频率的所有测试数据和具有至少0.2%的变体频率的大部分测试数据,可以正确的区分真阳性和假阳性。
[0101] 图6显示不同训练数据和具有由SVM确定的分隔线的外显子21的EGFR L858R (T>G于2573)的测试数据的具有maxN=4的变体召集质量得分QAMP。图6显示所有测试数据包括具有0.1%变体频率的那些可以正确地分类。
[0102] IV.使用与一个或多个参考样品比较的特定位置处特定变体的变体召集在本发明的一些实施方案中,不同样品中相同位置处变体的变体和野生型计数可以进行比较以进行变体召集。如果野生型(通常为普通的)样品可在测序运行中作为负对照获得,则该方法尤其有用。
[0103] A. 用于检测特定位置处特定变体的比较测试样品与参考样品的方法该方法可以用于比较不同样品的特定位置处的特定变体,且可以应用于至少两个数据点。
[0104] 图7显示参考样品和测试样品的序列读取上特定位置112处的特定变体C>T。如图7中所示,参考序列的位置112处的参考等位基因为C,且参考样品的位置112处的序列读取大部分为Cs,但可能具有由于测序错误引起的C>T变体。对于测试样品,位置112处的序列读取也可以是Cs(由于低变体频率)、一些Ts(由于真突变)和一些Ts(由于测序错误)。
[0105] 参考样品理论上没有真突变,但测序错误可以引起如图7中所示的小变体计数。对于特定位置的特定变体的参考样品和测试样品的变体计数和参考样品和测试样品的野生型计数可以基于序列读取来确定,并且输入如下文表3中所示的表中。测试样品和参考样品的计数数据可以用于确定测试样品的变体频率是否显著地大于相同位置处的参考样品的变体频率。
[0106] 在表3中,a1为参考样品中特定位置处特定变体的计数,n1为参考样品的序列读取的深度,且w1 = n1 – a1表示参考用样品中特定位置处的野生型计数。a2、n2和w2是测试样品对应的变体计数、深度和野生型计数。表3还列出了行总和a = a1 + a2、w = w1 + w2和总计数n = n1 + n2。表3.参考样品和测试样品的计数表。
[0107] 存在许多方法来测试(a1, w1)和(a2, w2)比例上是否显著不同。在一些实施方案中,由于n1和n2可以在超深度测序中非常大,因此优选使用单侧卡方检验。在单侧卡方检验中,首先计算比例f1 = a1 / n1和f2 = a2 / n2。如果f2 <= f1,即,测试样品的比例不高于参考样品的比例(其已知为假阳性),则可以设定非常小的质量得分诸如2(其对应于错误率p = 0.63),且不需要进一步的分析。然而,如果f2 > f1,则卡方统计值可以计算为2  2
χ = n × (a1 × w2 – a2 × w1) / (n1 × n2 × a × w)。
[0108] 单侧变体召集错误概率p值可以计算为p = 0.5 × (1 – pchisq(χ 2, d)),其中pchisq为具有自由度d的卡方累积分布函数。在一些实施方案中,自由度d为1。
[0109] 测试(a1, w1)和(a2, w2)是否比例上显著不同的另一方法是用于大样品的Pearson比例检验。在Pearson比例检验中,首先计算两个比例p1_hat = a1 / n1和p2_hat = a2 / n2。Z得分可以随后通过以下计算Z = (p2_hat – p1_hat) / sqrt(V),
其中V可以用至少以下两个公式之一来计算:
V = p1_hat × (1 – p1_hat) / n1 + p2_hat × (1 – p2_hat) / n2,和
V = p_hat × (1 – p_hat) × ((1 / n1) + (1 / n2)),
其中p_hat = (a1 + a2) / (n1 + n2)。单侧p值可以随后计算为1 – pnorm(Z),其中pnorm 为累积概率分布函数。
[0110] 在一些实施方案中,可以使用Fisher氏精确检验来确定(a1, w1)和(a2, w2)是否比率上显著不同。Fisher氏精确检验使用超几何分布。Fisher氏精确检验的计算可能是更复杂的且对于大样品可以引起溢出。
[0111] 计算p值后,相应的质量得分可以定义为QLOC = -10 × log10(p)。注意:在单侧卡方检验中,p在(0, 0.5)的范围内。在一些实施方案中,为了避免当p接近0时数值计算困难,–13使用QLOC = -10 × log10(max(p, minP)),其中minP可以设定至任何合适的值,诸如10 ,其等同于设定最大质量得分为130。
[0112] B. 用于检测特定位置处特定变体的选择参考样品的方法各种方法可以用于设定在多个样品的测序运行中特定位置处的特定变体的参考计数。
一种方法是使用相同测序运行中两个样品的变体计数的总数和深度的总和,所述相同测序运行具有特定位置处特定变体的最低变体频率并具有不低于最小值minD的深度。在一些实施方案中,minD可以设定至3000。在一些实施方案中,为了避免所有样品对于在特定位置处特定变体具有高变体频率的罕见可能性,当参考比例大于f0(其可以设定至例如0.01或
1%)时,a1设定至f0 × n1。因此,a1值使用实际a1值或者f0 × n1其中较小者。关于该方法,如果野生型样品污染有变体,则具有变体污染的野生型样品将显示高变体频率,且因此将不会被选作特定变体的参考样品;因此,其他样品的质量得分QLOC通常不受影响。一些复杂突变由多个简单突变组成。在此类情形中,QLOC可以定义为复杂突变的所有简单突变组分的质量得分QLOC的平均值。
[0113] 已知的野生型样品也可以用作参考样品。然而,如果野生型样品污染有变体,则其他样品的质量得分QLOC可能是低的。
[0114] C. 通过比较测试样品与参考样品以检测特定位置处的特定变体的数据分析图8表示通过比较测试样品与一个或多个参考样品以分类特定位置处的特定变体的变体召集方法800。与其他方法一样,实施方案可以包括所述程序的全部或一些,且一些程序可以包括另外的程序或子程序。
[0115] 在方框810,接收在单一测序运行中靶向来自一个或多个样品的DNA区段中目标区域的序列读取。序列读取数据可以接收并以可以由计算机读取并分析的任何形式存储。在一些实施方案中,序列读取的预处理可以进行以去除低质量读取或衔接序列。在一些实施方案中,可以去除条形码或MID,并且来自相同样品的序列读取可以进行标记或分组。
[0116] 在方框820,将序列读取与参考序列的目标区域比对,如方法100的方框170中所述。
[0117] 在方框830,经比对的序列读取上特定序列位置处的特定变体的变体等位基因可以通过将所述经比对的序列读取针对参考序列进行比较而对所有样品鉴定。可以使用任何合适的比对技术,如本领域技术人员将知晓的。
[0118] 在方框840,可以确定所有样品的特定序列位置处特定变体的变体计数和读取计数。变体计数是在样品的不同序列读取上的特定位置处相同变体等位基因(诸如Cs对于A>C变体)的总数。读取计数是样品的特定位置的读取总数。
[0119] 在方框850,至少一个样品被选作参考样品。如上所述,在一些实施方案中,可以将已知的野生型样品用作参考样品。在一些实施方案中,序列运行中具有最低变体频率的两个样品可以用作参考样品。在此类实施方案中,具有最低变体频率的两个样品的变体计数的总和和读取计数的总和可以用作计算中对于参考样品的变体计数a1和读取计数n1。
[0120] 在方框860,使用方法诸如部分IV(A)中上述的方法将测试样品和参考样品的特定序列位置处特定变体的变体计数和读取计数进行比较以确定概率值。概率值可以是卡方值、累积概率分布值、p值、Z值和质量得分中的一者或多者。
[0121] 在方框870,基于概率值和阈值进行变体召集以确定测试样品上特定位置处的特定变体是否为真阳性。在一些实施方案中,阈值可以是单一值。在一些实施方案中,阈值可以是例如变体频率的函数。在一些实施方案中,阈值可以使用机器学习算法诸如支持向量机(SVM)基于训练数据集来确定。在一些实施方案中,阈值可以基于获自不同测序运行的训练数据来确定。
[0122] D. 实施例以下实施例显示通过比较测试样品与参考样品以检测特定位置处的特定变体的变体召集的结果。
[0123] 图9显示训练数据和具有由SVM确定的分隔线的外显子20的EGFR T790M的测试数据的本地化变体召集质量得分QLOC。从图9可见不存在野生型测试数据的误分类,即使由SVM确定的分隔器(separator)降低至召集T790M的0.1%作为真阳性。此外,例如f >= 0.1%或QLOC>= 18的单一阈值可以是T790M变体的良好决定点。
[0124] 图10显示训练数据和具有由SVM确定的分隔线的外显子21的EGFR L858R的测试数据的本地化变体召集质量得分QLOC。可见所有测试数据包括具有0.1%变体频率的那些可以正确地分类。此外,例如QLOC >= 18的单一阈值可以是L858R变体的良好决定点。
[0125] 图11显示训练数据和具有由SVM确定的分隔线的外显子19的EGFR 15-碱基缺失2235_2249del15的测试数据的本地化变体召集质量得分QLOC。可见所有测试数据包括具有
0.1%变体频率的那些可以正确地分类。例如QLOC >= 18或20的单一阈值可以不使用SVM来设定以将假阳性和真阳性分开。
[0126] 图9-11还显示本地化变体召集得分QLOC在真阳性和假阳性之间比基于模型的变体召集得分QAMP具有更宽的边界。
[0127] V. 简化的质量得分估计在一些应用中,直接计算每个变体的p值和质量得分可能是耗时的。由于质量分数仅需要作为整数报道,因此在一些实施方案中,QLOC和QAMP的值可以离散化。例如,当f2 <= f1时,质量得分可以设定至2;当f2 > f1时,质量得分可以设定至3、4、...、或maxQ,其可以在一些实施方案中例如设定至130。
[0128] 在一些实施方案中,质量得分可以例如使用χ 2值qchisq或正态分位数qnorm和如图12中所示的查找表来确定。在图12中,χ 2 值和Q = 3.5、4.5、…、129.5的qnorm值可以计算并提供在查找表中。因此,搜索算法诸如二进制搜索算法可以用于确定基于χ 2 值或qnorm值的以3、4、...、130的最佳近似整数值。
[0129] VI. 避免零事件所需的样品量血液测试的一个实际问题是确定足以检测变体从而使得可以检测低频率突变的gDNA的量。在本发明的一些实施方案中,零事件检测的概率可以用于估计所需的样品量。
[0130] 基于6.022 × 1023 / mol的阿伏伽德罗常数、650道尔顿(g/mol)/碱基对的平均分子量和3.096 × 109碱基对/人基因组,可以计算1纳克(ng)的人gDNA包含6.022 × 1023 / (650 × 3.096 × 109 × 109) = 300个分子。
[0131] 检测突变所需要的gDNA的量取决于突变频率,并且可以通过解决避免零事件的统计学问题而得到确定。参见例如Lachin, Biostatistical Methods:The Assessment of Relative Risks, p.19, Wiley (2000)。假定血液样品中突变体拷贝的数目为B,且DNA拷贝的总数为N,则突变体概率为p = B / N。根据二项分布,在一次随机试验中不获得突变体N拷贝的概率是(1 – p),且在N次随机试验中不获得突变体拷贝的概率值是(1 – p)。因此,可以设定以下不等式
(1 – p)N <= α,
其中α为不会检测到突变的最大允许的概率(最大允许的失败率),且1-α为置信上限。
因此,样品大小N可以通过求解不等式为以下而进行估计:
N >= ln(α) / ln(1 – p)。
[0132] 对于其中p <<1的罕见突变,使用以下Taylor展开式将估计简化:ln(1 – p) ≈ –p,
且样品大小估计变为
N >= – ln(a) / p。
[0133] 由于–ln(0.05) = 2.9957且–ln(0.005) = 5.2983,因此3/p或5.3/p可以用于估计分别具有0.95和0.995的置信上限的罕见突变的样品大小N。
[0134] 表4列出包括至少一个具有0.05和0.005的最大允许的错误率α的突变体拷贝所需的gDNA分子的估计数。例如,为了检测具有获得样品中至少一个突变体拷贝的95%置信水平上限(α = 0.05)的0.1%(p=0.001)突变,需要2995个gDNA拷贝,其等同于约10 ng的gDNA分子。表4.用于罕见突变检测的gDNA分子的拷贝数和重量的估计。
[0135] VII. 应用和验证部分III和IV中上述的方法可以帮助确定用作决定标准的变体频率的阈值。方法可以用足够输入DNA量成功地检测具有0.1-0.3%频率的取代。由于假阳性率取决于突变上下文和位置,对于某些位置处的某些取代,具有低至0.03%的变体频率的变体可以正确地检测。
[0136] 对于中度的大小插入、缺失和复杂突变,诸如15碱基缺失,难以在测序中随机生成这些类型的突变,并且错误的主要来源是来自其他样品的遗留污染。因此,采用运行间良好建立的洗涤程序,具有低至0.0025%的变体频率的这些类型的变体可以正确的检测。
[0137] Illumina MiSeq Reporter (MSR)可以以非标准方式使用通过本公开中所述的方法来验证低频率变体。MSR使用具有内置的Poisson模型的体细胞变体召集器来报道低频率变体。MSR报道的最低频率是取决于深度的。基于Poisson模型,MSR体细胞变体召集器报道的最低的变体计数和频率可以进行计算并设定为表1中所示的缺省设定。例如,当深度为100时,最低报道的频率为5%;当深度为5000时,最低报道的频率为1.36%;当深度甚至更高时,最低报道的频率变得接近但高于1%。
[0138] 在一些实施方案中,使用包含已知变体的样品作为参考样品的MSR可以运行,从而使得MSR将报道野生型等位基因作为参考样品的“变体等位基因”,并且报道实际变体等位基因为“野生型等位基因”。以这种方式,使用本公开中所述的方法的变体召集可以进行验证。MSR的该非标准用法可能具有若干缺点。首先,它可能仅用于验证已知变体。其次,MSR报道的变体召集质量得分用于野生型而非实际变体。第三,当存在多个重叠的已知变体时,使用该方法变得冗长或困难。然而,在考虑上述缺点后,MSR可以用作已知变体的验证工具。对于当使用完整基因组作为参考序列时MSR定位/比对软件可能报道为未定位的读取的中等大小的插入缺失而言,这是尤其有用的。
[0139] VIII. 计算机系统和测序系统本文提及的任何计算机系统可以利用任何合适数目的子系统。 此类子系统的实例显示于图13的计算机装置1300中。在一些实施方案中,计算机系统包括单一计算机装置,其中子系统可以是计算机装置的部件。在其他实施方案中,计算机系统可以在内部部件中包括多个计算机装置,其各自为子系统。计算机系统可以包括台式计算机和便携式计算机、平板电脑移动电话和其他移动设备。
[0140] 图13中显示的子系统经系统总线1305相互连接。显示了另外的子系统诸如打印机1340、键盘1370、存储设备1380、监视器1352(其连接至显示适配器1350)及其他。外周和输入/输出(I/O)装置(其连接至I/O控制器1310)可以通过任何数目的本领域已知的任何装置诸如串行端口1360连接至计算机系统。例如,串行端口1360或外部界面1390(例如以太网、Wi-Fi等)可以用于将计算机系统1300连接至广域网诸如互联网、鼠标输入装置或扫描仪
经系统总线1305的互连允许中央处理器1330与每一子系统通信并且控制来自系统存储器
1320或存储装置1380(例如硬盘)的指令的执行,以及在子系统之间交换信息。系统存储器
1320和/或存储装置1380可以体现计算机可读介质。任何本文提及的值可以从一个部件输出至另一部件且可以输出给用户。
[0141] 计算机系统可以包括多个相同的部件或子系统,例如通过外部界面1390或通过内部界面连接在一起。在一些实施方案中,计算机系统、子系统或装置可以经网络通信。在此类情况下,一台计算机可以认为是客户端且另一计算机为服务器,其中每一个可以是相同计算机系统的部分。客户端和服务器可以各自包括多个系统、子系统或部件。
[0142] 应该理解本发明的任何实施方案可以以控制逻辑的形式使用硬件(例如应用特异性集成电路或现场可编程阵列)和/或使用计算机软件用通常可编程处理器以模或集成方式来实现。如本文所用,处理器包括同一集成芯片上的单核处理器、多核处理器或、或单一电路板或网络上的多处理单元。基于本文提供的公开和教导,本领域普通技术人员将知晓和理解使用硬件和硬件和软件的组合实现本发明的实施方案的其他方式和/或方法。
[0143] 本申请中所述的任何软件构件或函数可以作为软件代码由处理器使用任何合适的计算机语言诸如例如Java、C、C++、C#、Objective-C、Swift或脚本语言Perl或Python使用例如常规或面向对象的技术来实现。软件代码可以作为一系列指令或命令存储在计算机可读介质上用于存储和/或传输。合适的非瞬时计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、磁性介质诸如硬盘驱动器软盘、或光学介质诸如光盘(CD)或DVD(数字多用盘)、闪存等等。计算机可读介质可以是此类存储或传输装置的任何组合。
[0144] 此类程序还可以使用适配于经有线、光学和/或无限网络传输复合多种协议包括互联网的载波信号来编码和传输。因此,根据本发明的实施方案的计算机可读介质可以使用用此类程序编码的数据信号来产生。用程序代码编码的计算机可读介质可以用兼容设备包装或者与其他装置分开提供(例如经互联网下载)。任何此类计算机可读介质可以存在于单一计算机产品(例如硬盘驱动器、CD或整个计算机系统)上或之内,并且可以呈现在系统或网络内不同计算机产品上或之内。计算机系统可以包括用于给用户提供本文提及的任何结果的监视器、打印机或其他合适的显示器。
[0145] 本文所述的任何方法可以总体地或部分地用包括一个或多个处理器的计算机系统来进行,所述处理器可以配置以执行步骤。因此,实施方案可以涉及配置用于执行本文所述的任何方法的步骤的计算机系统(潜在地具有执行各个步骤或步骤的各个组的不同组件)。尽管作为经编号的步骤呈现,但本文方法的步骤可以同时或者以不同次序来进行。另外,这些步骤的部分可以与来自其他方法的其他步骤的部分一起使用。而且,步骤的全部或部分可以是任选的。另外,任何方法的任何步骤可以用模块、电路或用于进行这些步骤的其他装置来进行。
[0146] 在某些方面,本发明还提供测序系统。示例性的测序系统展示于图14中。图14中所示的系统包括可以位于测序装置内的测序分析模块和作为计算机系统的部分的智能模块。将数据集(测序数据集)经网络连接或直接连接从分析模块转移至智能模块,或反之亦然。
数据集例如可以根据如图4或8中所示的流程图来处理。流程图中提供的步骤可以方便地通过例如根据图15A和15B中所示的流程图存储在计算机系统的硬件上的软件来实现。参考图
15A,计算机系统(100)可以包括:用于接收从多个测序读取获得的数据的接受装置(1110)、用于将多个序列读取与参考序列的目标区域比对的比对装置(1120)、用于基于第一样品与参考序列的第一位置处的参考等位基因不同的序列读取鉴定目标区域的第一位置处具有第一等位基因的第一候选变体的鉴定装置(1130)、用于基于与参考序列的第一位置比对的第一样品的序列读取确定所述第一位置处第一等位基因的第一变体频率的确定装置(1140)、用于鉴定第一候选变体为对应于选自多个变体类别的第一变体类别的鉴定装置(1150),所述多个变体类别的每一变体类别对应于不同类型的变体、用于鉴定具有参考等位基因的参考序列的目标区域中第二位置的组的另外的鉴定装置(1160),其中在一个或多个样品中至少50%的其他位置对于所述第一等位基因展示出假阳性,且其中第二位置的组包括第一位置、用于在第二位置的组的每一个处和对于一个或多个样品的每一个:基于与参考序列的第二位置比对的样品的序列读取,确定第一等位基因的第二变体频率的另外的确定装置(1170),所述第二变体频率形成统计分布、和用于比较第一变体频率与统计分布的统计值来确定相对于统计分布的统计值的第一变体频率的概率值的比较装置(1180)、和用于比较第一等位基因的所述概率值与阈值作为确定所述第一候选变体在第一样品中是否为真阳性的部分的另外的比较装置(1190),对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。参考图15B,计算机系统(2100)可以包括:例如用于接收从多个测序读取获得的数据的接受装置(2110)、用于将多个序列读取与参考序列的目标区域比对的比对装置(2120)、用于基于与参考序列的第一位置处的参考等位基因不同的第一位置处的每一样品的经比对的序列读取鉴定所述至少两个样品的每一样品的第一位置处是否存在第一等位基因的鉴定装置(2130)、用于确定所述至少两个样品的每一样品的第一位置处的第一等位基因的变体计数和第一位置处的参考等位基因的野生型计数的确定装置(2140)、用于从所述至少两个样品选择至少一个样品作为参考样品的选择装置(2150)、用于比较所述第一样品的第一位置处的第一等位基因的第一变体计数和第一位置处的参考等位基因的第一野生型计数与所述参考样品的第一位置处的第一等位基因的第二变体计数和第一位置处的参考等位基因的第二野生型计数以确定所述第一样品的第一位置处具有第一等位基因的变体的概率值的比较装置(2160)、和用于比较所述第一等位基因的概率值与阈值作为确定第一样品的第一位置处的第一等位基因是否为真阳性的部分的另外的比较装置(2170),在第一位置处对于第一等位基因所述阈值在假阳性和真阳性之间有所不同。在某些实施方案中,系统还可以包括用于在计算机屏幕上显示结果的显示装置。图14表明测序装置和计算机系统之间的相互作用。系统包括可以位于测序装置内的序列分析模块和作为计算机系统的部分的智能模块。将数据集(测序数据集)经网络连接或直接连接从分析模块转移至智能模块,或反之亦然。数据集可以根据图15A或15B由在处理器上运行或存储在智能模块的存储装置上的计算机代码所处理,并且在处理后转移回分析模块的存储装置,在那可以将经修改的数据显示在显示装置上。在一些实施方案中,智能模块还可以在测序装置中实现。
[0147] 具体实施方案的具体细节可以在不背离本发明的实施方案的精神和范围的情况下以任何合适方式来组合。然而,本发明的其他实施方案可以涉及关于每一单独方面、或这些单独方面的特定组合的特定实施方案。
[0148] 本发明的实施例实施方案的以上描述已呈现用于说明和描述的目的。不旨在详尽描述或将本发明限制至与所述内容完全相同,并且在以上教导下许多修改和改变都是可以的。
[0149] “一个/种(a或an)”或“所述/该”的记载旨在意指“一个/种或多个/种”,除非明确地表示与其相反。“或/或者”的使用旨在意指“包括性或”而非“排除性或”,除非明确地表示与其相反。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈