首页 / 专利库 / 多媒体工具与应用 / 千人成本 / 检测体细胞单核苷酸突变的方法和装置

检测体细胞单核苷酸突变的方法和装置

阅读:77发布:2020-06-03

专利汇可以提供检测体细胞单核苷酸突变的方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种检测 体细胞 单核苷酸突变的方法和装置。该方法包括以下步骤:S1,对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;S2,筛选出发生在剪接位点上和外显子上且导致 氨 基酸发生非同义突变的SNP位点,得到第一SNP位点集;S3,去除第一SNP位点集中千人突变 频率 高于5%的SNP位点,得到第二SNP位点集;S4,从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;以及S5,从第三SNP位点集中筛选出支持序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。该方法实现了利用单一样品对体细胞突变的检测,降低了成本。,下面是检测体细胞单核苷酸突变的方法和装置专利的具体信息内容。

1.一种检测体细胞单核苷酸突变的方法,其特征在于,所述方法包括以下步骤:
S1,对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;其中,所述SNP位点的数据包括所述SNP位点位于基因上的位置信息和所述SNP位点导致基酸发生同义突变或非同义突变的变异类型信息;
S2,从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一SNP位点集;
S3,去除所述第一SNP位点集中千人突变频率高于5%的SNP位点,得到第二SNP位点集;
S4,从所述第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;以及
S5,从所述第三SNP位点集中筛选出所述测序数据中包含所述SNP位点的序列的频率低于75%的SNP位点,得到包含所述体细胞单核苷酸突变的SNP位点。
2.根据权利要求1所述的方法,其特征在于,在所述步骤S1中,所述来源于体细胞的DNA测序数据包括全基因组DNA测序数据或目标区域的DNA测序数据。
3.根据权利要求2所述的方法,其特征在于,当所述来源于体细胞的DNA测序数据为目标区域的DNA测序数据时,所述来源于体细胞的DNA测序数据的制备步骤包括:
对来源于体细胞的DNA通过液相杂交捕获的方法制备成目标区域的DNA测序文库;
对所述目标区域的DNA测序文库进行测序,得到所述来源于体细胞的DNA测序数据。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
将所述第一SNP位点集与千人基因组数据库进行比对,得到比对数据;
从所述比对数据中去除千人突变频率高于5%的SNP位点,得到所述第二SNP位点集。
5.根据权利要求1所述的方法,其特征在于,所述步骤S4包括:
将所述第二SNP位点集与单核苷酸多态性数据库进行比对,筛选出所述第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;
对所述过滤SNP位点与Clinvar数据库进行比对,筛选出所述过滤SNP位点中来源于体细胞突变的SNP位点,得到所述第三SNP位点集。
6.根据权利要求1或5所述的方法,其特征在于,所述步骤S4中:所述单核苷酸多态性数据库和所述Clinvar数据库中来源于体细胞突变的SNP位点的SAO值为2或3。
7.根据权利要求1所述的方法,其特征在于,所述步骤S5包括:
对所述测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数;
计算所述第二总序列数占所述第一总序列数和所述第二总序列数之和的比值,得到所述同一位置的测序序列的突变频率;
从所述第三SNP位点集中筛选出所述突变频率低于75%的SNP位点,得到包含所述体细胞单核苷酸突变的SNP位点。
8.一种检测体细胞单核苷酸突变的装置,其特征在于,所述装置包括以下模
序列比对模块,用于对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;其中,所述SNP位点的数据包括所述SNP位点位于基因上的位置信息和所述SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息;
第一筛选模块,用于从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点或/和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一SNP位点集;
第二筛选模块,用于从所述第一SNP位点集中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集;
第三筛选模块,用于从所述第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;以及
第四筛选模块,用于从所述第三SNP位点集中筛选出所述测序数据中包含所述SNP位点的序列的频率低于75%的SNP位点,得到包含所述体细胞单核苷酸突变的SNP位点。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括测序模块,所述测序模块包括:
全基因组DNA测序子模块,用于对来源于体细胞的全基因组DNA测序文库进行测序,得到所述来源于体细胞的DNA测序数据;或者
目标区域DNA测序子模块,用于对来源于体细胞的目标区域的DNA测序文库进行测序,得到所述来源于体细胞的DNA测序数据。
10.根据权利要求9所述的装置,其特征在于,所述目标区域DNA测序子模块中还包括:
液相杂交捕获单元,用于对来源于体细胞的DNA进行杂交捕获,得到所述目标区域的DNA测序文库。
11.根据权利要求8所述的装置,其特征在于,所述第二筛选模块还包括:
第一比对子模块,用于将所述第一SNP位点集与千人基因组数据库进行比对,得到比对数据;以及
第一筛选子模块,用于从所述比对数据中去除千人突变频率高于5%的SNP位点,得到所述第二SNP位点集。
12.根据权利要求8所述的装置,其特征在于,所述第三筛选模块还包括:
第二比对子模块,用于将所述第二SNP位点集与单核苷酸多态性数据库进行比对,筛选出所述第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;以及第三比对子模块,用于对所述过滤SNP位点与Clinvar数据库进行比对,筛选出所述过滤SNP位点中来源于体细胞突变的SNP位点,得到所述第三SNP位点集。
13.根据权利要求8所述的装置,其特征在于,所述第四筛选模块还包括:
统计子模块,对所述测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数;
计算子模块,计算所述第二总序列数占所述第一总序列数和所述第二总序列数之和的比值,得到所述同一位置的测序序列的突变频率;以及
第三筛选子模块,用于从所述第三SNP位点集中筛选出所述频率低于75%的SNP位点,得到包含所述体细胞单核苷酸突变的SNP位点。

说明书全文

检测体细胞单核苷酸突变的方法和装置

技术领域

[0001] 本发明涉及高通量测序领域,具体而言,涉及一种检测体细胞单核苷酸突变的方法和装置。

背景技术

[0002] 个体的每个细胞中都可能会携带有两种类型的突变:种系突变和体细胞突变,种系突变是指在生殖细胞中发生的可遗传突变,也称为生殖细胞突变。假如种系突变发生,则个体中的所有细胞都会携带该种系突变。种系突变之外的突变为体细胞突变,这些突变并不是从亲代遗传得到,而是受环境和其他因素影响而发生了改变。
[0003] 使用高通量测序的方式可以测到覆盖样本中所有基因的序列,结合相关变异检测软件可检测到样本中目标基因上存在的所有变异信息。目前能够用来检测体细胞突变的方法是使用mutect软件,它在检测体细胞突变时,需要一组成对的样品,即可能带有体细胞突变的待检样品和可以提供种系突变的对照样品。将两个样品进行比对,当突变在待检样品中出现,而未在对照样品中出现,则认为该突变为待检样品中的一个体细胞突变。使用该方法检测体细胞突变时需要对两个样品分别进行两次高通量测序,增加了成本。
[0004] 目前使用单个样本做变异检测的软件,对于检测结果往往不区分种系突变和体细胞突变。而提供体细胞突变信息的软件,如mutect又需要一组成对的样品。因而,现有技术中还未开发出既能采用单个样本进行检测从而降低检测成本又能检测到体细胞突变的检测方法,仍需要对现有技术进行改进,以满足行业内对上述体细胞突变的检测要求。

发明内容

[0005] 本发明的主要目的在于提供一种检测体细胞单核苷酸突变的方法和装置,不仅能够利用单个样品实现体细胞突变的检测,而且降低检测成本。
[0006] 为了实现上述目的,根据本发明的一个方面,提供了一种检测体细胞单核苷酸突变的方法,该方法包括以下步骤:S1,对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP位点位于基因上的位置信息和SNP位点导致基酸发生同义突变或非同义突变的变异类型信息;S2,从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一SNP位点集;S3,去除第一SNP位点集中千人突变频率高于5%的SNP位点,得到第二SNP位点集;S4,从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;以及S5,从第三SNP位点集中筛选出测序数据中包含SNP位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0007] 进一步地,在步骤S1中,来源于体细胞的DNA测序数据包括全基因组DNA测序数据或目标区域的DNA测序数据。
[0008] 进一步地,当来源于体细胞的DNA测序数据为目标区域的DNA测序数据时,来源于体细胞的DNA测序数据的制备步骤包括:对来源于体细胞的DNA通过液相杂交捕获的方法制备成目标区域的DNA测序文库;对目标区域的DNA测序文库进行测序,得到来源于体细胞的DNA测序数据。
[0009] 进一步地,步骤S3包括:将第一SNP位点集与千人基因组数据库进行比对,得到比对数据;从比对数据中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集。
[0010] 进一步地,步骤S4包括:将第二SNP位点集与单核苷酸多态性数据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;对过滤SNP位点与Clinvar数据库进行比对,筛选出过滤SNP位点中来源于体细胞突变的SNP位点,得到第三SNP位点集。
[0011] 进一步地,步骤S4中:单核苷酸多态性数据库和Clinvar数据库中来源于体细胞突变的SNP位点的SAO值为2或3。
[0012] 进一步地,步骤S5包括:对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数;计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到同一位置的测序序列的突变频率;从第三SNP位点集中筛选出突变频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0013] 根据本发明的另一方面,提供了一种检测体细胞单核苷酸突变的装置,该装置包括以下模:序列比对模块,用于对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP位点位于基因上的位置信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息;第一筛选模块:用于从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点或/和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一SNP位点集;第二筛选模块;用于从第一SNP位点集中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集;第三筛选模块:用于从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;第四筛选模块:用于从第三SNP位点集中筛选出测序数据中包含SNP位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0014] 进一步地,装置还包括测序模块,测序模块包括:全基因组DNA测序子模块:用于对来源于体细胞的全基因组DNA测序文库进行测序,得到来源于体细胞的DNA测序数据;或者目标区域DNA测序子模块:用于对来源于体细胞的目标区域的DNA测序文库进行测序,得到来源于体细胞的DNA测序数据。
[0015] 进一步地,目标区域DNA测序子模块中还包括:液相杂交捕获单元:用于对来源于体细胞的DNA进行杂交捕获,得到目标区域的DNA测序文库。
[0016] 进一步地,第二筛选模块还包括:第一比对子模块:用于将第一SNP位点集与人类千人基因组数据库进行比对,得到比对数据;第一筛选子模块:用于从比对数据中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集。
[0017] 进一步地,第三筛选模块还包括:第二比对子模块:用于将第二SNP位点集与单核苷酸多态性数据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;第三比对子模块:用于对过滤SNP位点与Clinvar数据库进行比对,筛选出过滤SNP位点中来源于体细胞突变的SNP位点,得到第三SNP位点集。
[0018] 进一步地,第四筛选模块还包括:统计子模块:对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数;计算子模块:计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到同一位置的测序序列的突变频率;第三筛选子模块:用于从第三SNP位点集中筛选出频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0019] 应用本发明的技术方案,通过仅利用来源体细胞的测序数据与参考基因组进行比对,并将筛选出所有来源于体细胞的SNP位点,接着将发生在外显子和剪接位点上的SNP位点筛选出来,然后对这些SNP位点按照已知的种系细胞和体细胞的特征进行筛选,便可得到体细胞单核苷酸突变的SNP位点。该方法简单且实现了单一样品对体细胞突变的检测,而且降低了检测成本。附图说明
[0020] 构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0021] 图1示出了根据本发明的一种典型的实施例中检测体细胞单核苷酸突变的方法流程示意图;以及
[0022] 图2示出了了根据本发明的一种典型的实施例中检测体细胞单核苷酸突变的装置结构示意图。

具体实施方式

[0023] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0024] 正如背景技术部分所提到的,现有技术中检测体细胞突变的方法需要至少对两个样品进行测序,检测成本较高,而采用单个样品测序时,又无法检测出体细胞突变。针对上述缺陷,在本发明一种典型的实施方式中,提供了一种检测体细胞单核苷酸突变的方法,如图1所示,该方法包括以下步骤:S1,对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP位点位于基因上的位置信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息;S2,从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一SNP位点集;S3,去除第一SNP位点集中千人突变频率高于5%的SNP位点,得到第二SNP位点集;S4,从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;以及S5,从第三SNP位点集中筛选出测序数据中包含SNP位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0025] 本发明的上述方法,通过仅利用来源体细胞的测序数据与参考基因组进行比对,并将筛选出所有来源于体细胞的SNP位点,接着将发生在外显子和剪接位点上的SNP位点筛选出来,然后对这些SNP位点按照已知的种系细胞和体细胞的特征进行筛选,便可得到体细胞单核苷酸突变的SNP位点。该方法简单且实现了单一样品对体细胞突变的检测,而且降低了检测成本。
[0026] 本发明的上述方法中,步骤S2可以根据各SNP位点所在的染色体的功能区域进行筛选,发生在染色体的外显子区域的属于非同义突变的SNP位点,会导致其编码的氨基酸发生改变,其结果是导致蛋白质发生突变,可能会影响蛋白质的功能,因此筛选具有上述特点的位点;发生在剪接位点处的SNP位点可能会影响氨基酸的编码,因此这样的位点也需要保留。在本发明一种优选的实施例中,可以利用Knowngene数据库注释出的功能(func)信息即可筛选得到符合上述要求的SNP位点。
[0027] 本发明的上述方法中,上述步骤S1中,来源于体细胞的DNA测序数据包括全基因组DNA测序数据或目标区域的DNA测序数据。在本发明一种优选的实施例中,当来源于体细胞的DNA测序数据为目标区域的DNA测序数据时,来源于体细胞的DNA测序数据的制备步骤包括:对来源于体细胞的DNA通过液相杂交捕获的方法制备成目标区域的DNA测序文库;对目标区域的DNA测序文库进行测序,得到来源于体细胞的DNA测序数据。当需要对全基因组的体细胞突变进行分析时,则不需要进行液相杂交捕获的步骤,直接将全基因组制备成测序文库进行测序即可。
[0028] 在本发明一种具体的实施例中,上述待检的样品可以是肿瘤组织,也可以是外周血中的游离DNA。上述样品制备成测序文库的步骤中,根据样本的不同,使用不同的手段进行DNA的提取。使用自动聚焦声波样本处理仪(covaris)将DNA随机打断成双链DNA,双链DNA的主峰在150-200bp。在随机打断的DNA的3’段添加上一个“A”基,生成一个单碱基的粘性末端,对3端加“A”的DNA进行adapter的连接。将连接有接头的DNA片段使用PCR技术进行DNA富集。取富集后的DNA样品750ng进行杂交捕获,在此过程中按照美国安捷伦公司的SureSelect人类基因组外显子捕获试剂盒提供的说明书进行操作。在本发明中,采用高通量测序对制备的测序文库进行测序,具体测序平台可以选择Illumina公司的Hiseq2000、Hiseq2500、Nextseq500、Miseq,Life Technology公司的Ion torrent、Ion Proton等。各个测序平台采用的测序方式虽不尽相同,最终都能够得到来源于待测样品的体细胞的DNA测序数据。
[0029] 在本发明的上述方法中,上述步骤S3可以根据所得到的第一SNP位点集中各SNP位点的信息的不同,通过选择并比对合适的数据库即可将符合体细胞突变特点的SNP位点进行去除。在本发明一种优选的实施例中,上述步骤S3包括:将第一SNP位点集与人类千人基因组数据库进行比对,得到比对数据;从比对数据中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集。体细胞突变在人类千人基因组数据库(即1000g数据库)中多为低频突变,因而,如果第一SNP位点集中某一SNP位点的突变频率小于5%或在上述数据库中没有注释出突变频率信息,即该SNP位点的突变为低频突变,属于体细胞突变的特征,因而需要保留。另外,若在1000g数据库中没有给出相应的信息,有可能该突变位点属于新的突变位点,因而也需要保留此类SNP位点。
[0030] 在本发明的上述方法中,上述步骤S4同样可以通过选择合适的数据库进行比对,只要能够将明显不符合体细胞突变特征的SNP位点去除掉即可得到上述第三SNP位点集。在本发明一种优选的实施例中,上述步骤S4包括:将第二SNP位点集与单核苷酸多态性数据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;对过滤SNP位点与Clinvar数据库进行比对,筛选出过滤SNP位点中来源于体细胞突变的SNP位点,得到第三SNP位点集。
[0031] dbSNP数据库(http://www.ncbi.nlm.nih.gov/projects/SNP/)是单核苷酸多态性数据库的简称,该数据库不仅包含单核苷酸多态性信息,也包含其他类型的突变信息,如小片段的插入和缺失多态性、串联重复序列、多核苷酸多态性,这些突变在这个数据库中会给出特定的参考SNP编号(reference SNP ID)用以识别每一个突变,该数据库给出的位点不一定与疾病发生相关。dbSNP数据库同时会给出突变的来源,表现形式是给出SAO(Variant Allele Origin,突变来源)的值。
[0032] Clinvar数据库(http://www.ncbi.nlm.nih.gov/clinvar/)能够提供与致病性相关的突变。Clinvar数据库能够给出人类突变信息,同时解释这些突变与人类健康的关系,如果该突变与人类疾病发生相关,数据库会给出相关疾病的名称,并给出相应的支持证据。通过Clinvar数据库注释出的信息,我们能够判断突变是否有致病性。Clinvar同时会注释出突变的来源,表现形式是给出SAO的值,SAO为0时表示该突变来源未知,SAO为1时表示该突变为种系细胞突变,SAO为2时表示该突变为体细胞突变,SAO为3时表示该突变既是种系突变也是体细胞突变。
[0033] 本发明的上述实施例,通过利用上述两个数据库中的信息即可筛选出具有体细胞特征的SNP位点,从而去除掉明显不属于体细胞突变的SNP位点。优选上述步骤S4中单核苷酸多态性数据库和Clinvar数据库中来源于体细胞突变的SNP位点的SAO(Variant Allele Origin)值为2或3,将SAO为2或3的SNP位点保留下来,即保留了具有体细胞特征的SNP位点,为筛选得到真正的SNP位点提供了较大可能性。
[0034] 在本发明的一种优选的实施例中,上述步骤S5包括:对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数;计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到所述同一位置的测序序列的突变频率;从第三SNP位点集中筛选出突变频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0035] 在上述测序数据中,测序信息包含以下四个数值,支持匹配参考基因型正链序列数目、支持匹配参考基因型负链序列数目、支持匹配突变基因型正链序列数目和支持匹配突变基因型负链的序列数目,如果(匹配参考基因型正链序列数目+匹配参考基因型负链序列数目)/(匹配参考基因型正链reads+匹配参考基因型负链reads+匹配突变基因型正链reads+匹配突变基因型负链reads)的比值小于0.75,即某SNP位点的突变频率小于0.75,则这样筛选得到的SNP位点即为包含体细胞单核苷酸突变的SNP位点。
[0036] 本发明的上述方法已经能够相对准确地检测到来源于单个样本的体细胞单核苷酸突变,为了进一步提高检测的准确性,在本发明一种更优选的实施例中,上述方法还包括将在上述各筛选步骤中不符合条件的SNP位点进行再次筛选,利用靶向数据库(来自MyCancerGenome)中的包括SNP和indel突变类型信息对上述不符合条件的SNP位点进行过滤。根据染色体、位置、参考基因型和突变基因型的信息进行比对筛选,如果某SNP位点的存在于靶向数据库,则将该SNP位点加入到包含体细胞单核苷酸突变的SNP位点中。另外,若上述不符合条件的SNP位点出现在高频突变数据库(CLINSIG.pathogenic)中,则表明该SNP位点属于人群频率大于5%且为致病基因的位点,则该位点也加入到上述包含体细胞单核苷酸突变的SNP位点中。
[0037] 在本发明另一种典型的实施方式中,提供了一种检测体细胞单核苷酸突变的装置,如图2所示,该装置包括以下模块:序列比对模块,用于对来源于体细胞的DNA测序数据与参考基因组数据进行比对,得到所有SNP位点的数据;其中,SNP位点的数据包括SNP位点位于基因上的位置信息和SNP位点导致氨基酸发生同义突变或非同义突变的变异类型信息;第一筛选模块:用于从所有SNP位点的数据中筛选出发生在剪接位点上的SNP位点或/和发生在外显子上且导致氨基酸发生非同义突变的SNP位点,得到第一SNP位点集;第二筛选模块;用于从第一SNP位点集中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集;第三筛选模块:用于从第二SNP位点集中筛选出体细胞突变来源的SNP位点,得到第三SNP位点集;第四筛选模块:用于从第三SNP位点集中筛选出测序数据中包含SNP位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0038] 本发明的上述装置,通过序列比对模块仅利用来源体细胞的测序数据与参考基因组进行比对,筛选出所有来源于体细胞的SNP位点,接着利用第一筛选模块将发生在外显子和剪接位点上的SNP位点筛选出来,然后利用第二筛选模块和第三筛选模块对这些SNP位点按照已知的种系细胞突变和体细胞突变的特征进行筛选,最后通过第四筛选模块,测序数据中包含SNP位点的序列的频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。该装置不仅实现了利用单一样品对体细胞突变的检测,而且降低了检测成本。
[0039] 在本发明的上述装置中,第一筛选模块可以根据现有的筛选模块进行合理改进,只要能够实现将发生在外显子和剪接位点上的SNP位点筛选出来的功能即可适用于本发明。在本发明一种优选的实施例中,上述装置还包括测序模块,该测序模块包括:全基因组DNA测序子模块:用于对来源于体细胞的全基因组DNA测序文库进行测序,得到来源于体细胞的DNA测序数据;目标区域DNA测序子模块:用于对来源于体细胞的目标区域的DNA测序文库进行测序,得到来源于体细胞的DNA测序数据。
[0040] 在本发明另一种优选的实施例中,上述目标区域DNA测序子模块中还包括:液相杂交捕获单元:用于对来源于体细胞的DNA进行杂交捕获,得到目标区域的DNA测序文库。通过液相杂交捕获单元根据想要捕获的目标区域的DNA序列而预先设计好的探针与修复好的带有接头序列的DNA片段进行杂交,即可将所感兴趣的目标区域DNA片段从全基因组DNA片段中捕获出来,然后连上测序引物序列就形成了目标区域DNA测序文库,这样的文库能够从全基因组中把感兴趣的目的区域富集出来,从而提高了目标区域突变位点的检出效率。采用液相杂交捕获单元能够提高目标区域DNA的捕获效率。
[0041] 在本发明的上述装置中,第二筛选模块还包括:第一比对子模块:用于将第一SNP位点集与人类千人基因组数据库进行比对,得到比对数据;第一筛选子模块:用于从比对数据中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集。该实施例中第二筛选模块通过第一比对子模块将第一SNP位点集与人类千人基因组数据库进行比对,得到比对数据,然后利用第一筛选子模块从比对数据中去除千人突变频率高于5%的SNP位点,得到第二SNP位点集。人类千人基因组数据库中包括了1000个人类全基因组测序数据中出现的低频突变或高频突变的SNP位点,对于突变频率高于5%的SNP位点,由于其在人类群体中出现频率较高,通常认为是类似于种系细胞突变所引起的突变或者是遗传引起的突变,而非因环境或其他因素引起的种系细胞分化之后的体细胞突变,因而通过与上述数据库进行比对,可以把某个体细胞来源的第一SNP位点集中不属于高频突变位点的SNP位点保留下来,从而得到可能真正引起功能突变的第二SNP位点集。
[0042] 在本发明的上述装置中,上述第三筛选模块通过选择合适的筛选模块进行比对,只要能够将明显不符合体细胞突变特征的SNP位点去除掉即可。在本发明一种优选的实施例中,上述第三筛选模块包括:第二比对子模块:用于将第二SNP位点集与单核苷酸多态性数据库进行比对,筛选出第二SNP位点集中来源于体细胞突变的SNP位点,得到过滤SNP位点;第三比对子模块:用于对过滤SNP位点与Clinvar数据库进行比对,筛选出过滤SNP位点中来源于体细胞突变的SNP位点,得到第三SNP位点集。
[0043] 上述第二比对子模块和第三比对子模块通过将第二SNP位点集与dbSNP数据库(http://www.ncbi.nlm.nih.gov/projects/SNP/)和Clinvar数据库进行比对,dbSNP数据库不仅包含单核苷酸多态性信息,也包含其他类型的突变信息,如小片段的插入和缺失多态性、串联重复序列、多核苷酸多态性,这些突变在这个数据库中会给出特定的参考SNP编号(reference SNP ID,简称RS号)用以识别每一个突变,该数据库给出的位点不一定与疾病发生相关。dbSNP数据库同时会给出突变的来源,表现形式是给出SAO(Variant Allele Origin,突变来源)的值;同样,Clinvar数据库能够给出人类突变信息,同时解释这些突变与人类健康的关系,如果该突变与人类疾病发生相关,数据库会给出相关疾病的名称,并给出相应的支持证据。通过Clinvar数据库注释出的信息,我们能够判断突变是否有致病性。Clinvar同时会注释出突变的来源,表现形式是给出SAO的值,SAO为0时表示该突变来源未知,SAO为1时表示该突变为种系细胞突变,SAO为2时表示该突变为体细胞突变,SAO为
3时表示该突变既是种系突变也是体细胞突变。因而与上述两个数据库进行比对即可将符合于体细胞突变特征的SNP位点进行筛除,保留上述数据库中未出现的SNP位点和上述数据库中表明符合体细胞特征的SNP位点。
[0044] 在本发明的上述装置中,第四筛选模块可以根据测序数据的不同,对常用的统计和计算模块进行改进即可得到。在本发明中,上述第四筛选模块还包括:统计子模块:对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到同一位置上匹配参考基因组序列的第一总序列数和匹配含有SNP位点的序列的第二总序列数;计算子模块:计算第二总序列数占第一总序列数和第二总序列数之和的比值,得到同一位置的测序序列的突变频率;第三筛选子模块:用于从第三SNP位点集中筛选出所述频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。
[0045] 上述实施例中,第四筛选模块首先通过利用统计子模块对测序数据中比对到基因组同一位置上的测序序列数进行统计,得到基因组同一位置上的总比对序列数目;然后利用计算子模块计算包含各SNP位点的测序序列的数目占总比对序列数目的频率,最后第三筛选子模块从第三SNP位点集中筛选出频率低于75%的SNP位点,得到包含体细胞单核苷酸突变的SNP位点。其中,统计子模块利用测序数据中所包含的以下四个数值:支持匹配参考基因型正链序列数目、支持匹配参考基因型负链序列数目、支持匹配突变基因型正链序列数目和支持匹配突变基因型负链的序列数目,即可统计出基因组同一位置上的总比对序列数目。然后计算模块通过计算(匹配参考基因型正链序列数目+匹配参考基因型负链序列数目)/(匹配参考基因型正链reads+匹配参考基因型负链reads+匹配突变基因型正链reads+匹配突变基因型负链reads)的比值,当该比值小于0.75时,即某SNP位点的突变频率小于0.75,则这样筛选得到的SNP位点即为包含体细胞单核苷酸突变的SNP位点。
[0046] 需要说明的是,本发明主要用于检测基因外显子或剪接位点处的体细胞单核苷酸突变。高通量测序后会得到非常多的单核苷酸突变,本方法和装置可以从众多的单核苷酸突变中筛选比较有意义的体细胞单核苷酸突变。筛选得到的体细胞单核苷酸突变是否与疾病发生有直接或间接的关系,有待进一步的验证,所以本方法和装置仅适用于科研和学术基础研究之用,而不适用于临床上疾病的诊断。
[0047] 以下通过具体的实施例来进一步说明本发明的有益效果。
[0048] 提取7个不同个体的癌组织体细胞和血中的白细胞,并提取DNA进行测序分析。然后利用mutect检测方法和本发明的检测方法分别对来源于肺癌组织的体细胞进行单核苷酸突变检测。下列实施例中所用到的试剂、仪器或装置除有特殊说明外,其余均来自美国安捷伦公司。详细检测步骤如下:
[0049] 实验一:文库制备
[0050] 分别提取肺癌症组织和白细胞中的DNA,经过使用covaris破碎仪(美国Covaris公司)将DNA随机打断成双链DNA,打断片段的主带在150bp-200bp之间;然后使用末端修复酶将DNA片段进行末端修复,得到带有平末端的片段混合物,并在DNA的3’端添加一个“A”碱基生成粘性末端。接下来将接头连接到带有粘性末端的DNA片段上,每个接头都带有一个“T”碱基,能提高接头连接的效率,需要在T4DNA连接酶的催化下进行。为了保证后续分析有足够量的DNA,连接上接头的DNA片段需要使用PCR富集。
[0051] PCR反应体系为:98℃,2min;98℃,30s变性;65℃,30s退火;72℃,1min延伸;72℃,10min延伸,约进行4-7个PCR循环;4℃,保温。富集完成后使用bioanalyzer DNA1000chip(美国安捷伦公司2100bioanalyzer)进行定量。
[0052] 经过扩增的DNA样品使用安捷伦公司的Agencourt AMPure XP磁珠纯化体系,特异的将带有接头的DNA片段进一步纯化。
[0053] 实验二:杂交捕获并分别在每个文库上的DNA片段上添加特异的标签序列[0054] 取出富集纯化之后的DNA约750ng(最大体积不能超过3.4ul),使用安捷伦SureSelect XT液相捕获系统进行目标序列捕获。本实施例分析的是人483个基因的外显子区域上的体细胞突变,假如需要分析全基因组的体细胞突变,则不需要进行杂交捕获的步骤。
[0055] 分别对7个上述构建好的DNA文库单独地进行杂交和捕获,然后再通过PCR反应引入标签序列,得到各样品的目标区域的测序文库。
[0056] 实验三:上机测序
[0057] 将各样品测序文库稀释到2nM,根据各文库所需数据量进行混池,获得浓度为2nM的文库稀释液。在文库稀释液中加入0.2N NaOH溶液,使文库中的DNA变性成为单链的DNA。之后使用illumina Nextseq500测序平台对混池之后的文库进行上机测序,测序的长度为双端75bp(PE 75)。
[0058] 实验四:测序数据质控及比对
[0059] 1.原始测序数据以fastq文件格式存储(文件名:*.fq),在进行下一步分析之前需要进行常规的数据过滤步骤,过滤方法如下:
[0060] (1)过滤掉含有接头序列的测序序列(reads);
[0061] (2)当双端测序序列中的某一单端序列中含有的不确定碱基N的含量超过该条序列总长度比例的10%时,需要去除此对双端测序序列;
[0062] (3)当双端测序序列中的某一单端序列中含有的低质量(Q<=5)碱基数超过该条序列长度比例的50%时,需要去除此对双端测序序列。
[0063] 2.经过对测序数据的严格过滤,得到高质量的有效数据(Clean data)。有效数据通过BWA(Burrows-Wheeler Alignment tool)软件比对到NCBI build 37/hg19参考基因组上,比对时的参数为:“-t 10–k 32–M”。比对结果使用samtools sort(http://samtools.sourceforge.net/)功能进行排序,并经picard(http://broadinstitute.github.io/picard/)去除重复,过滤掉错配碱基数目超过5的序列。
[0064] 实验五:使用mutect软件检测肺癌组织细胞中存在的体细胞突变[0065] Mutect软件是美国broad研究院开发的一款可以准确的使用高通量测序发现体细胞单核苷酸突变的软件。使用mutect软件寻找体细胞突变时需要输入待检细胞测序结果的比对文件和对照细胞测序结果的比对文件,mutect使用了两个贝叶斯分类器:一个识别待检样品中存在的突变,另一个用于检测对照样品中是否存在该突变。通过两个分类器,mutect即可发现待检样品中存在的体细胞突变。
[0066] 在本发明的实施例中,待检样品是每个个体中提取的肺癌组织细胞,而对照样品则是每个个体中提取的白细胞。在运行mutect时,分别输入这两个样品测序结果各自与参考基因组的比对文件,mutect运行时使用hg37版人类基因组,并指定能够记录目标基因在参考基因组上位置的bed文件。Bed文件中含有待检测基因在参考基因组上的位置。采用Mutect直接检测的体细胞突变结果统计如下表1。
[0067] 表1:
[0068]
[0069] 由上表1可以看出,由于内含子以及基因间区的突变(上表中未示出)以及外显子上的同义突变对个体表型以及相关功能影响较弱,在相关科研应用中往往更加关注外显子区域上非同义突变和剪接位点突变。该实施例中我们将位于剪接位点上的SNP突变和外显子区域上的非同义突变的SNP位点突变记为突变系列一。
[0070] 实验六:使用mutect软件检测肺癌组织细胞中存在的所有突变
[0071] 假如仅对肺癌组织细胞测序结果的比对文件中的突变进行检测,则会检测到该肺癌组织细胞样本中所有的SNP突变位点,这些位点的突变既包含种系细胞突变又包含体细胞突变。检测步骤中运行mutect的参数与实验五中的参数一致。Mutect检测的肺癌组织体细胞中SNP突变结果统计如下表2。
[0072] 表2:
[0073]样本编号 SNP位点总数
T010014 1958
T020020 1792
T020021 1593
T020023 1593
T030017 1932
T030019 1861
T030021 1716
[0074] 通过比较表1中体细胞SNP总数和体细胞突变系列一的SNP位点数与和表2中的SNP位点总数可以发现,利用单个待检样本通过现有的检测方法所检测到的体细胞突变的SNP位点中,种系突变的个数要远大于体细胞突变的个数,检测到的体细胞突变的准确度非常低。
[0075] 实验七:SNP变异信息注释
[0076] 利用多种数据库对实验五和实验六中得到的所有SNP突变位点进行注释。这些数据库各有所长,给出碱基突变可能涉及的致病性、癌症发生的可能性以及是否有有效的药物进行治疗等相关信息。
[0077] 注释时使用annovar变异注释程序,annovar是一款应用最新的数据库信息对变异信息进行功能注释的软件。SNP突变位点可以注释出染色体信息、突变起始位置信息、参考基因型信息、突变基因型信息、各种数据库注释出的信息以及测序相关的信息。数据库注释的信息包括Knowgene数据库注释出突变发生的功能区(Func)、突变基因名称(Gene)、突变对基因功能区域的影响(ExonicFunc)、突变注释出的转录本上氨基酸的改变(AAChange)、dbSNP数据库注释RS号,COSMIC数据库注释出ID号、突变发生的组织以及该种突变发生在这种组织中已经被报道的次数(OCCURENCE),Clinvar数据库注释出突变所具有的临床意义以及这种临床意义发生在什么类型的疾病中,并且给出所在数据库中的编号。
[0078] 测序数据得到的信息包括总测序深度(DP)以及支持匹配参考基因型正链序列及数目、支持匹配参考基因型负链序列及数目、支持匹配突变基因型正链序列及数目、支持匹配突变基因型负链的序列及数目。每个位点并不是在所有的数据库中都有注释信息。本发明在使用annovar进行变异注释时使用了Clinvar数据库、dbSNP数据库、千人基因组数据库、COSMIC数据库和Knowngene数据库。
[0079] Clinvar数据库(http://www.ncbi.nlm.nih.gov/clinvar/)提供与致病性相关的突变。Clinvar数据库能够给出人类突变信息,同时解释这些突变与人类健康的关系,如果该突变与人类疾病发生相关,数据库会给出相关疾病的名称,并给出相应的支持证据。通过Clinvar数据库注释出的信息,我们能够判断突变是否有致病性。Clinvar同时会注释出突变的来源,表现形式是给出SAO(Variant Allele Origin,突变来源)的值,SAO为0时表示该突变来源未知,SAO为1时表示该突变为种系突变,SAO为2时表示该突变为体细胞突变,SAO为3时表示该突变既是种系突变也是体细胞突变。
[0080] dbSNP数据库(http://www.ncbi.nlm.nih.gov/projects/SNP/)是单核苷酸多态性数据库的简称,该数据库不仅包含单核苷酸多态性信息,也包含其他类型的突变信息,如小片段的插入和缺失多态性、串联重复序列、多核苷酸多态性,这些突变在这个数据库中会给出特定的RS号用以识别每一个突变,该数据库给出的位点不一定与疾病发生相关。dbSNP数据库同时会给出突变的来源,表现形式是给出SAO的值,与Clinvar数据库类似。
[0081] 1000g数据库是来自于千人基因组计划(1000Genomes,http://www.1000genomes.org/),通过对超过1000人进行全基因组测序,将人类变异进行非常详细的归类,该数据库会给出突变位点在1000人中发生突变的概率。
[0082] Knowngene数据库来自UCSC(http://genome.ucsc.edu/),注释出位点所有转录本信息,利用该数据库,可以知道一个SNP突变是发生在什么基因上,发生在基因的什么区域,如外显子、内含子或基因间等,以及这种突变是无义突变、错义突变还是同义突变,这些信息便于理解该SNP位点的突变对于包含该SNP位点的基因功能的影响。
[0083] 实验八:从所有的肺癌组织体细胞突变中筛选出可信的体细胞突变[0084] 在实验六中得到的来源于肺癌组织细胞单个样本检测到的突变中,包含体细胞突变和种系突变,参考步骤七)注释的结果,分析各SNP位点突变的特征,去除不符合体细胞突变特征的SNP位点,即可得到可信的体细胞突变位点。
[0085] 由于当前科学研究关注的突变都集中在外显子区域上的非同义突变和剪接位点上的突变,因此,根据上述注释信息过滤掉外显子区域上的同义突变、内含子和基因间区的突变。
[0086] 与种系突变相比,体细胞突变往往具有较低的人群突变频率,在本实施例中,以SNP突变位点在人群中的突变频率为5%作为分界点,过滤掉人群突变频率高于5%的SNP位点。
[0087] 根据Clinvar和dbSNP注释的信息,我们可以得到SAO的信息,在本实施例中我们过滤掉SAO为0或1的变异。同时考虑到在肺癌组织细胞样本取样时,不可避免的会带有一些正常的体细胞,由于这部分正常体细胞中并不会携带肺癌组织细胞中特异存在的体细胞突变,肺癌组织细胞中特异存在的体细胞突变的支持序列的频率会明显小于种系突变的支持序列频率。在本实施例中,过滤掉序列支持频率高于75%的SNP突变位点。
[0088] 进一步地,为了保证有重要研究或者相关数据库中,不符合上述条件的点暂时放入不可信库中,随后搜索这些单核苷酸突变是否存在于靶向用药数据库中或者是否为Clinvar数据库中标明为致病突变的位点。假如特定突变不存在于这两个数据库中,则将该变异丢弃,若存在则将该变异输出到最终结果中。
[0089] 按照本发明的上述检测方法,从单个待测样本中能够检测到可信的体细胞单核苷酸突变,此部分突变在本实施例中称为突变系列二,具体检测结果见下表3。
[0090] 表3:
[0091]样本编号 突变系列二
T010014 30
T020020 29
T020021 22
T020023 22
T030017 30
T030019 19
T030021 23
[0092] 比较表2中的体细胞突检到的SNP位点数和表3中的体细胞突变系列二的SNP位点数可以看出,本发明的利用单个样本的检测体细胞突变的检测方法能够大大减少种系细胞突变的干扰,提高检测的准确度。而且,相比表1中利用对照样品检测到的体细胞SNP位点数和上表3中的利用单个样本检测到的体细胞SNP位点数可以看出,本发明的方法对体细胞中SNP位点的检出数目并没有如表2中的检测数目那么悬殊,可见,本发明能够在确保检测灵敏度和准确度的情况下,降低检测成本。
[0093] 将表1中采用现有技术的两个样本检测到的体细胞突变突变系列一的SNP位点数和表3中采用本发明的单个样本检测到的体细胞突变系列二的SNP位点数进行比较,比较结果见下表4。
[0094] 表4:
[0095]
[0096] 从表4中的数据可以看出,本发明的检测方法具有很高的灵敏度,在测试的7个样本中,体细胞突变系列二都能覆盖体细胞突变系列一。而且,本发明的检测方法的准确度在10%-30%之间,考虑到mutect软件的检测方法还具有一定的假阴性,所以本发明实际检测的准确度会更高一些。相比采用现有技术的方法,本发明的检测方法将单个样本中检测到的SNP位点(约2000个)下降到可接受的范围内(20-30个),为后续的研究分析提供了便利条件。
[0097] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈