首页 / 专利库 / 数学与统计 / 信息检索 / 身份关系鉴定方法、装置、设备及存储介质

身份关系鉴定方法、装置、设备及存储介质

阅读:16发布:2020-05-08

专利汇可以提供身份关系鉴定方法、装置、设备及存储介质专利检索,专利查询,专利分析的服务。并且本 发明 涉及一种能够提高鉴定结果的有效性和可靠性的身份关系鉴定方法、装置、设备及存储介质。该身份关系鉴定方法在身份关系鉴定时,通过在样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息,并从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息,最后比较不同样本的标识信息中对应的目的SNP位点的基因型,对不同样本的身份关系进行鉴定。由于SNP向其他方向突变的突变率极低,即使突变,单个目的SNP对最终结果的影响也有限,因此,通过SNP来进行身份关系的鉴定,较之传统的使用STR检测的方法,可以显著提高鉴定结果的有效性和可靠性。,下面是身份关系鉴定方法、装置、设备及存储介质专利的具体信息内容。

1.一种身份关系鉴定方法,其特征在于,包括如下步骤:
步骤S1:获取对测序结果进行比对分析得到的样本突变信息;
步骤S2:在所述样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息;对于在所述样本突变信息的突变位点中能够检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型不一致的纯合型或杂合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率、突变质量以及测序覆盖度;对于未能在所述样本突变信息的突变位点中检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型一致的纯合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率以及测序覆盖度;
步骤S3:从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息;
步骤S4:比较不同样本的标识信息中对应的目的SNP位点的基因型,对不同样本的身份关系进行鉴定;
步骤S41:判断是否是对不同样本进行个体识别,若是,则比较不同样本的所有对应的目的SNP位点的基因型,根据比较结果分析该不同样本是否属于同一个体;
步骤S42:判断是否是对不同样本进行亲子关系鉴定,若是,则根据目的SNP位点的基因型及相应等位基因人群频率计算每个匹配的目的SNP位点的亲权指数,并由各个匹配的目的SNP位点的亲权指数确定综合亲权指数,根据该综合亲权指数分析该不同样本是否属于亲子关系;所述匹配的目的SNP位点是指不同样本至少有一个等位基因相同的目的SNP位点;
步骤S43:判断是否是对不同样本进行其他非亲子关系的亲属关系鉴定,若是,则根据不匹配的目的SNP位点的个数分析该其他非亲子关系的亲属关系;所述不匹配的目的SNP位点是指不同样本的两个等位基因都不相同的目的SNP位点;
所述SNP即单核苷酸多态性。
2.如权利要求1所述的身份关系鉴定方法,其特征在于,所述样本突变信息包含突变位点、突变的频率、突变质量。
3.如权利要求1所述的身份关系鉴定方法,其特征在于,各所述目的SNP位点位于常染色体外显子上或功能性非编码区域上,且等位基因人群频率在0.45~0.55之间。
4.如权利要求1所述的身份关系鉴定方法,其特征在于,对于亲子关系鉴定,目的SNP位点的个数要求不低于100个;
对于表亲这一级的亲属关系鉴定,目的SNP位点的个数要求不低于720个;
对于爷孙/叔侄这一级的亲属关系鉴定,目的SNP位点的个数要求不低于480个;
对于兄弟姐妹这一级的亲属关系鉴定,目的SNP位点的个数要求不低于240个;
对于个体识别,目的SNP位点的个数要求不低于50个。
5.如权利要求1所述的身份关系鉴定方法,其特征在于,在所述步骤S3中,满足预设要求是指测序覆盖度满足不小于30个read覆盖,突变质量满足GATK的默认质控标准,所述GATK是Genome Analysis Toolkit基因组分析工具包软件
6.如权利要求5所述的身份关系鉴定方法,其特征在于,所述GATK的默认质控标准即QD>2.0且MQ>40.0且FS<60.0且HaplotypeScore<60.0且MQRankSum>-12.5且ReadPosRankSum>-8.0。
7.如权利要求1所述的身份关系鉴定方法,其特征在于,所述目的SNP位点包括如下位点:
其中,参考序列为hg19。
8.一种身份关系鉴定装置,其特征在于,包括:
突变信息获取模,用于获取对测序结果进行比对分析得到的样本突变信息;
目的SNP信息检索模块,用于在所述样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息;对于在所述样本突变信息的突变位点中能够检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型不一致的纯合型或杂合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率、突变质量以及测序覆盖度;对于未能在所述样本突变信息的突变位点中检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型一致的纯合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率以及测序覆盖度;
标识信息选择模块,用于从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息;以及
身份关系鉴定模块,用于比较不同样本的标识信息中对应的目的SNP位点的基因型,对不同样本的身份关系进行鉴定;
所述身份关系鉴定模块包括第一判断模块、个体识别模块、匹配情况统计模块、第二判断模块、亲子关系鉴定模块以及其他亲属关系鉴定模块;
所述第一判断模块用于判断是对不同样本进行个体识别还是亲属关系鉴定;
所述个体识别模块用于比较不同样本的所有对应的目的SNP位点的基因型,根据比较结果分析该不同样本是否属于同一个体;
所述匹配情况统计模块用于统计不同样本的对应的目的SNP位点中匹配的目的SNP位点个数和/或不匹配的目的SNP位点个数;
所述第二判断模块用于判断是对不同样本进行亲子关系鉴定还是除亲子关系之外的其他亲属关系鉴定;
所述亲子关系鉴定模块用于根据目的SNP位点的基因型及相应等位基因人群频率计算每个匹配的目的SNP位点的亲权指数,并由各个匹配的目的SNP位点的亲权指数确定综合亲权指数,根据该综合亲权指数分析该不同样本是否属于亲子关系;
所述其他亲属关系鉴定模块用于根据不匹配的目的SNP位点的个数分析该其他非亲子关系的亲属关系;
所述SNP即单核苷酸多态性。
9.一种计算机设备,其特征在于,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任一项所述的身份关系鉴定方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1~7中任一项所述的身份关系鉴定方法的步骤。

说明书全文

身份关系鉴定方法、装置、设备及存储介质

技术领域

[0001] 本发明涉及分子生物学及生物信息学技术领域,尤其是涉及一种身份关系鉴定方法、装置、设备及存储介质。

背景技术

[0002] 目前个体识别及亲属关系鉴定(包括亲子鉴定)等身份关系鉴定的方法主要基于STR(short tandem repeat,短串联重复序列)检测。研究发现,人类基因组中STR的数量相对于SNP(Single Nucleotide Polymorphism,单核苷酸多态性)非常少,对于个体区分有高区分度的STR更少,再排除不同人群中STR频率波动较大的情况,剩下的可用STR就非常有限。而单个STR相对于SNP等更容易发生突变,并且由于可用的STR数量有限,即使只发生一个突变也会对最终的鉴定结果产生较大的影响。

发明内容

[0003] 基于此,有必要针对上述技术问题,提供一种能够提高鉴定结果的有效性和可靠性的身份关系鉴定方法、装置、设备及存储介质。
[0004] 一种身份关系鉴定方法,包括如下步骤:
[0005] 步骤S1:获取对测序结果进行比对分析得到的样本突变信息;
[0006] 步骤S2:在所述样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息;
[0007] 步骤S3:从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息;
[0008] 步骤S4:比较不同样本的标识信息中对应的目的SNP位点的基因型,对不同样本的身份关系进行鉴定。
[0009] 在其中一个实施例中,各所述目的SNP位点位于常染色体外显子上或功能性非编码区域上,且等位基因人群频率在0.45~0.55之间。
[0010] 在其中一个实施例中,在所述步骤S2中,对于在所述样本突变信息的突变位点中能够检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型不一致的纯合型或杂合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率、突变质量以及测序覆盖度;
[0011] 对于未能在所述样本突变信息的突变位点中检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型一致的纯合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率以及测序覆盖度。
[0012] 在其中一个实施例中,在所述步骤S3中,满足预设要求是指测序覆盖度满足不小于30个reads覆盖,突变质量满足GATK的默认质控标准。
[0013] 在其中一个实施例中,所述步骤S4包括:
[0014] 步骤S41:判断是否是对不同样本进行个体识别,若是,则比较不同样本的所有对应的目的SNP位点的基因型,根据比较结果分析该不同样本是否属于同一个体。
[0015] 在其中一个实施例中,所述步骤S4包括:
[0016] 步骤S42:判断是否是对不同样本进行亲子关系鉴定,若是,则根据目的 SNP位点的基因型及相应等位基因人群频率计算每个匹配的目的SNP位点的亲权指数,并由各个匹配的目的SNP位点的亲权指数确定综合亲权指数,根据该综合亲权指数分析该不同样本是否属于亲子关系;
[0017] 所述匹配的目的SNP位点是指不同样本的至少有一个等位基因相同的目的 SNP位点。
[0018] 在其中一个实施例中,所述步骤S4包括:
[0019] 步骤S43:判断是否是对不同样本进行其他非亲子关系的亲属关系鉴定,若是,则根据不匹配的目的SNP位点的个数分析该其他非亲子关系的亲属关系;
[0020] 所述不匹配的目的SNP位点是指不同样本的两个等位基因都不相同的目的 SNP位点。
[0021] 一种身份关系鉴定装置,包括:
[0022] 突变信息获取模,用于获取对测序结果进行比对分析得到的样本突变信息;
[0023] 目的SNP信息检索模块,用于在所述样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息;
[0024] 标识信息选择模块,用于从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息;以及
[0025] 身份关系鉴定模块,用于比较不同样本的标识信息中对应的目的SNP位点的基因型,对不同样本的身份关系进行鉴定。
[0026] 一种计算机设备,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的身份关系鉴定方法的步骤。
[0027] 一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现上述任一实施例所述的身份关系鉴定方法的步骤。
[0028] 上述身份关系鉴定方法、装置、设备及存储介质,在身份关系鉴定时,通过在样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息,并从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息,最后比较不同样本的标识信息中对应的目的SNP位点的基因型,对不同样本的身份关系进行鉴定。由于SNP向其他方向突变的突变率极低,即使突变,单个目的SNP对最终结果的影响也有限,因此,通过SNP来进行身份关系的鉴定,较之传统的使用STR检测的方法,可以显著提高鉴定结果的有效性和可靠性。
[0029] 进一步,研究发现,由于个体识别和亲子鉴定是全匹配的鉴定,对错配容忍极低,所以个体识别或亲子鉴定使用20个STR一般就可以达到比较好的鉴定效果,但对于其他亲属关系鉴定,由于并不是所有位点都匹配,这样在鉴定时就会导致较大的随机性误差。例如祖孙之间单倍体有50%的不同源位点,此时 20个STR中平均有10个的匹配结果是随机人群的匹配结果,这样位点数太少导致最终实际匹配的位点数随机波动比较大,从而鉴定效果非常差。而SNP在人类基因组中的数量非常庞大(千人基因组项目报道的人类多态性SNP达到 8000万个,平均每个人约有350-400万个),利用SNP可以为各类身份关系的鉴定提供更好的支持。利用SNP不仅可以用于亲子鉴定,还可以用于个体识别和除亲子关系鉴定之外的其他亲属关系鉴定,误差小,可靠性高。
[0030] 更进一步,传统的STR的检测方法是DNA片段分析,不是常规的DNA测序方法,且STR大多位于基因间区,很多都是目前认为的无功能区域,一般的测序项目都不会涉及这些区域,因而在这些测序项目中如果遇到需要鉴定身份关系的时候,往往需要额外加做一个检测STR的实验,费时费,且会导致项目成本的提高。而基因外显子和其他功能性的非编码区域上就有大量的足够多的SNP,因而可以进一步利用这些在绝大多数科研临床测序项目中都已测得的 SNP进行身份关系鉴定,无需额外的实验即可鉴定各类身份关系。因而,使用上述身份关系鉴定方法省时,且可以降低检测成本。附图说明
[0031] 图1为一实施例的身份关系鉴定方法流程示意图;
[0032] 图2为图1中对不同样本的身份关系进行鉴定时的一具体示例的流程示意图;
[0033] 图3为一实施例的身份关系鉴定装置的结构示意图;
[0034] 图4为图3中身份关系鉴定模块的一具体示例的结构示意图。

具体实施方式

[0035] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
[0036] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0037] 本文所述的“身份关系鉴定”包括个体识别、亲子关系鉴定以及其他非亲子关系的亲属关系鉴定,如爷孙关系鉴定、叔侄关系鉴定、兄弟姐妹关系鉴定、表亲关系鉴定、表叔侄关系鉴定等;所述的SNP位点的“人群突变频率”是指在一个特定人群(如中国人群体)中一个SNP位点与参考序列不一致的那个基的出现频率;所述的SNP位点的“等位基因人群频率”是指在一个特定人群 (如中国人群体)中一个SNP位点的每种等位基因的出现频率;所述的“突变质量”是指GATK(或其他突变分析软件)给定的默认质控标准;所述的“read”是指高通量测序平台(如各类二代测序平台)所产生的测序序列;所述的“测序覆盖度”是指一个测序位点覆盖的read数。
[0038] 如图1所示,本发明一实施例提供了一种身份关系鉴定方法,其包括如下步骤:
[0039] 步骤S110:获取对测序结果进行比对分析得到的样本突变信息。
[0040] 对每一个样本,可以使用但不限于二代测序的方法进行测序,获得测序结果。在得到测序结果之后,可将其比对到人类的参考基因组上,经过分析可以得到突变文件,其含有该样本的样本突变信息。该样本突变信息包含突变位点、突变的频率、突变质量等信息。所述突变是相对于参考基因组而言的,即测序结果显示具有与参考基因组上相应区域或位点的序列不一样的变异。
[0041] 步骤S120:在样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息。
[0042] 各目的SNP位点优选位于常染色体外显子上或功能性非编码区域上,且等位基因人群频率在0.45~0.55之间。对于亲子关系(父子、母子)鉴定,一般需要进行检索的目的SNP位点的数量在100个时就能达到约99.999%的准确度, 960个位点可以达到约(100-10-53)%的准确度,因此,对于亲子关系鉴定,目的SNP位点的个数可要求不低于100个;对于其他亲属关系鉴定,如后面分析,不管多少个目的SNP位点,都是根据不匹配位点数的期望值来进行推测分析,虽然不能100%断定,但可信度依然很高,一般目的SNP位点个数越多,结果的可靠性越大,例如,一般目的SNP位点个数不小于720个就可以进行表亲这一级的亲属关系鉴定,目的SNP位点不小于480个可以进行爷孙/叔侄这一级的亲属关系鉴定,目的SNP位点不小于240个可以进行兄弟姐妹这一级的亲属关系鉴定;对于个体识别,是目的SNP位点的基因型完全匹配的检测,一般目的SNP 位点的个数可要求不低于50个。
[0043] 在一个具体示例中,可选用如下表1所示的中国人群中位于常染色外显子上的且等位基因人群频率介于0.45~0.55之间的984个目的SNP位点中的多个目的SNP位点,这些目的SNP位点包含于大部分基因外显子测序的项目中。
[0044] 表1
[0045]
[0046]
[0047]
[0048]
[0049]
[0050] 注:以上SNP位点参考序列均为hg19。以“10|101293035|C|A”表示的目的SNP位点为例,其中,“|”用作项目隔开符号,“10”表示染色体号,“101293035”表示在相应染色体上的坐标位置,“C”表示与参考基因组上相应位点一致的碱基,“A”表示与参考基因组上相应位点不一致的另外一种碱基;其他目的SNP位点同理。
[0051] 在样本突变信息的突变位点中对多个目的SNP位点逐一进行检索时,可能检索到该当前目的SNP,也可能检索不到当前目的SNP。对于在样本突变信息的突变位点中能够检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型不一致的纯合型或杂合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率、突变质量以及测序覆盖度;对于未能在样本突变信息的突变位点中检索到的目的SNP,则说明该目的SNP位点的基因型为与参考基因型一致的纯合型,获取的突变及测序信息包括该目的SNP位点的基因型、等位基因人群频率以及测序覆盖度。测序覆盖度等信息,可以根据当前检索的目的SNP位点情况,从样本的测序比对文件(如bam文件)中计算出。
[0052] 以参考的等位基因记为R,突变的等位基因记为V为例,人类是二倍体,对于在所述样本突变信息的突变位点中能够检索到的目的SNP,说明该样本的当前目的SNP位点的基因型是VV(纯合型)或RV(杂合型),对于未能在所述样本突变信息的突变位点中检索到的目的SNP,说明该样本的当前目的SNP 位点的基因型是RR。
[0053] 步骤S130:从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息。
[0054] 具体地,满足预设要求是指测序覆盖度满足大于30个read覆盖,突变质量满足GATK的默认质控标准。
[0055] GATK的默认质控标准即QD>2.0且MQ>40.0且FS<60.0且 HaplotypeScore<60.0且MQRankSum>-12.5且ReadPosRankSum>-8.0。
[0056] 通过多个目的SNP位点进行可靠性分析,可以筛选出样本共有的高质量位点,避免不可靠的位点对结果判断的影响。即对一个目的SNP位点的分型要求有足够的覆盖度和质量控制,否则很可能因为随机性而分错,例如某目的SNP 位点父亲是AA型,儿子是AT型,但如果儿子该位点的覆盖度很低或者质量不好,比如只有5个read,有可能这5个read刚好都是T,或者有质量不好的导致没测到A,最后就会把儿子的分型判断为TT。
[0057] 步骤S140:比较不同样本的标识信息中对应的目的SNP位点的基因型,对不同样本的身份关系进行鉴定。
[0058] 汇总选出的满足预设要求的各目的SNP位点的基因型,得到标识信息,可以生成如utag格式的标识信息文件。
[0059] 该标识信息文件就可以用于个体识别、亲属关系鉴定等。
[0060] 以亲子关系为例,单个目的SNP位点的非父排除率PE=2*p2*(1-p)2,p为该目的SNP位点的等位基因人群频率,PE值在p=0.5时可取得最大值0.125。在p 介于0.45~0.55之间时,该单个目的SNP位点的非父排除率最低为0.1225125。对于984个目的SNP位点,使用本发明方法得到的非父排除率 远高于传统的20个STR位点的亲子鉴定方法。
[0061] 在一具体地示例中,如图2所示,步骤S140包括:
[0062] 步骤S141:判断是对不同样本进行个体识别还是亲属关系鉴定,若是进行个体识别,则执行步骤S142,否则执行步骤S143。
[0063] 步骤S142:则比较不同样本的所有对应的目的SNP位点的基因型,根据比较结果分析该不同样本是否属于同一个体。
[0064] 原则上,对于个体识别,需要所有对应的目的SNP位点的基因型完全一致才可以判断是同一个体,但在大量目的SNP位点比对分析时,出现极少量目的 SNP位点的基因型不一致的情况下,也可以视情况具体分析,如样本DNA发生降解、受检个体某SNP在胚胎分化过程中发生突变。如胚胎分化过程中产生的突变,会使一个人身体不同组织部位的基因有微小差异,个体识别可能取自不同部位的样本,虽然这种可能性非常低,但依然存在,不过一般不影响个体识别的判断。
[0065] 步骤S143:统计不同样本的对应的目的SNP位点中匹配的目的SNP位点个数和/或不匹配的目的SNP位点个数。
[0066] 所述匹配的目的SNP位点是指不同样本至少有一个等位基因相同的目的 SNP位点。所述不匹配的目的SNP位点是指不同样本的两个等位基因都不相同的目的SNP位点。所述匹配的目的SNP位点的个数与所述不匹配的目的SNP 位点个数之和等于标识信息中总的目的SNP位点的个数。
[0067] 步骤S144:判断是对不同样本进行亲子关系鉴定还是除亲子关系之外的其他亲属关系鉴定,若是亲子关系鉴定,则执行步骤S145,否则执行步骤S146。
[0068] 步骤S145:根据目的SNP位点的基因型及相应等位基因人群频率计算每个匹配的目的SNP位点的亲权指数,并由各个匹配的目的SNP位点的亲权指数确定综合亲权指数,根据该综合亲权指数分析该不同样本是否属于亲子关系。
[0069] 每个匹配的目的SNP位点的亲权指数PI按照以下公式计算:  pi为匹配的等位基因频率,PI取所有能够匹配的情况之和。综合亲权指数CPI 为所有PI值的乘积。
[0070] 根据该综合亲权指数CPI即可分析该不同样本是否属于亲子关系,如一般的,在CPI>1000时即可以判定为是亲子关系。
[0071] 步骤S146:根据不匹配的目的SNP位点的个数分析该其他非亲子关系的亲属关系。
[0072] 可理解,在其他实施例中,该步骤S140可以只对个体识别、亲子关系鉴定以及除亲子关系鉴定之外的其他亲属关系鉴定中的一种身份关系鉴定或两种身份关系鉴定,相应地,如在一个具体的示例中,步骤S140包括:判断是否是对不同样本进行个体识别,若是,则比较不同样本的所有对应的目的SNP位点的基因型,根据比较结果分析该不同样本是否属于同一个体;又如在另一个具体的示例中,步骤S140包括:判断是否是对不同样本进行亲子关系鉴定,若是,则根据目的SNP位点的基因型及相应等位基因人群频率计算每个匹配的目的 SNP位点的亲权指数,并由各个匹配的目的SNP位点的亲权指数确定综合亲权指数,根据该综合亲权指数分析该不同样本是否属于亲子关系,匹配的目的SNP 位点是指不同样本的至少有一个等位基因相同的目的SNP位点;又如,在另一个具体的示例中,步骤S140包括:判断是否是对不同样本进行其他非亲子关系的亲属关系鉴定,若是,则根据不匹配的目的SNP位点的个数分析该其他非亲子关系的亲属关系,不匹配的目的SNP位点是指不同样本的两个等位基因都不相同的目的SNP位点。
[0073] 更具体地,在一个示例中,如不匹配的目的SNP位点个数≈目的SNP位点总个数/16可以认为是爷孙,或者是叔侄等,不匹配的目的SNP位点个数≈目的 SNP位点总个数/32可以认为兄弟姐妹。
[0074] 在此,引入概念:两个样本间的单倍体层次上的不相关位点,即没有遗传关联的位点。只有不相关位点才有可能会导致两个样本多个目的SNP不匹配,对于人群频率为0.5的SNP,三种基因型AA/BB/AB的比例分别为0.25、0.25、 0.5,当且仅当两个样本为AA和BB时才能导致SNP不匹配,此概率为 2*0.25*0.25=0.125,即1/8,即单个SNP位点最大的非父排除率。
[0075] 下面以两个样本对应的目的SNP总数960,所有目的SNP位点的等位基因人群频率均为0.5为例,演示不同亲属关系下的不匹配的目的SNP位点个数:
[0076] ①儿子有一条染色体完全遗传自父亲,因此父子间的不相关位点数为0;
[0077] ②考虑到减数分裂时非姐妹染色单体间的交换产生基因重组,儿子遗传自父亲的那条染色体有0.5的期望是遗传自爷爷,所以祖孙之间的不相关位点数为 960*0.5=480;
[0078] ③同理,儿子遗传自父亲的那条染色体有0.5的期望是遗传自奶奶,对于这部分染色体爷爷和奶奶各有50%的可能遗传给叔叔,即叔叔拥有这部分染色体的期望为0.5*50%+0.5*50%=0.5,所以叔侄之间不相关位点数为960*(1-0.5)= 480;
[0079] ④兄弟姐妹的情况,要求两个等位基因都不同来源才是不相关位点,例如父亲的为Aa,母亲的为Bb,则要求遗传给哥哥的为AB,遗传给弟弟的为ab,或者Ab\aB等交叉组合;若出现AB\Ab等有公共等位基因的非交叉组合,该目的SNP则为相关的匹配位点,产生交叉组合的概率为0.5*0.5=0.25,即兄弟姐妹之间不相关位点数为960*0.25=240;
[0080] ⑤上面计算过叔侄之间有相同来源染色体的概率为0.5,这部分染色体由叔叔遗传给堂弟的概率为0.5,即堂弟这部分染色体的概率为0.25,所以表亲之间不相关位点数为960*(1-0.25)=720;
[0081] ⑥同理,表叔侄之间不相关位点数为960*(1-0.125)=840。
[0082] 下表2所示的为各类亲属关系的不相关位点数的期望值和不匹配的目的 SNP位点个数的期望值。
[0083] 表2
[0084]
[0085] 以上为考虑所有SNP位点的等位基因人群频率均为0.5的情况下的理想结果,实际情况下由于SNP等位基因人群频率偏离0.5导致排除率降低,会使不匹配的目的SNP个数减少。
[0086] 通过实例检测和研究发现,对于等位基因人群频率在0.45~0.55之间的、作为上述步骤S120中的检索对象的多个目的SNP位点,在最终非亲子关系等其他亲属关系判断时,都可以参考上表2的不匹配的目的SNP位点个数的期望值进行亲属关系判断。
[0087] 上述身份关系鉴定方法在身份关系鉴定时,通过在包含基因样本突变信息的突变位点中,对多个目的SNP逐一进行检索,得到各目的SNP的突变及测序信息,并根据各目的SNP的突变及测序信息判断各目的SNP的可靠性是否满足预设要求,选出满足预设要求的目的SNP及其突变及测序信息,构建标识信息,最后比较不同样本的标识信息中的对应的目的SNP及其突变及测序信息,通过标识信息对不同样本的身份关系进行鉴定。由于SNP向其他方向突变的突变率极低,即使突变,单个目的SNP对最终结果的影响也有限,因此,通过SNP来进行身份关系的鉴定,较之传统的使用STR检测的方法,可以显著提高鉴定结果的有效性和可靠性。
[0088] 进一步,研究发现,由于个体识别和亲子鉴定是全匹配的鉴定,对错配容忍极低,所以个体识别或亲子鉴定使用20个STR一般就可以达到比较好的鉴定效果,但对于其他亲属关系鉴定,由于并不是所有位点都匹配,这样在鉴定时就会导致较大的随机性误差。例如祖孙之间单倍体有50%的不同源位点,此时 20个STR中平均有10个的匹配结果是随机人群的匹配结果,这样位点数太少导致最终实际匹配的位点数随机波动比较大,从而鉴定效果非常差。而SNP在人类基因组中的数量非常庞大(千人基因组项目报道的人类多态性SNP达到 8000万个,平均每个人约有350-400万个),利用SNP可以为各类身份关系的鉴定提供更好的支持。利用SNP不仅可以用于亲子鉴定,还可以用于个体识别和除亲子关系鉴定之外的其他亲属关系鉴定,误差小,可靠性高。
[0089] 更进一步,传统的STR的检测方法是DNA片段分析,不是常规的DNA测序方法,且STR大多位于基因间区,很多都是目前认为的无功能区域,一般的测序项目都不会涉及这些区域,因而在这些测序项目中如果遇到需要鉴定身份关系的时候,往往需要额外加做一个检测STR的实验,费时费力,且会导致项目成本的提高。而基因外显子和其他功能性的非编码区域上就有大量的足够多的SNP,因而可以进一步利用这些在绝大多数科研临床测序项目中都已测得的 SNP进行身份关系鉴定,无需额外的实验即可鉴定各类身份关系。例如,临床上接到一个遗传病家系的测序项目,通过全外显子测序分析后,临床怀疑可能是近亲结婚,即可直接使用上述身份关系鉴定方法,使用已测序的SNP进行鉴定,无需额外实验。因而,使用上述身份关系鉴定方法省时,且可以降低检测成本。
[0090] 如图3所示,基于与上述方法相同的思想,本发明一实施例还提供了一种身份关系鉴定装置200,其包括:
[0091] 突变信息获取模块210,用于获取对测序结果进行比对分析得到的样本突变信息;
[0092] 目的SNP信息检索模块220,用于在样本突变信息的突变位点中对多个目的SNP位点逐一进行检索,得到包含各目的SNP位点的基因型的突变及测序信息;
[0093] 标识信息选择模块230,用于从多个目的SNP位点中选出满足预设要求的目的SNP位点及其突变及测序信息,得到标识信息;以及
[0094] 身份关系鉴定模块240,用于比较不同样本的标识信息中对应的目的SNP 位点的基因型,对不同样本的身份关系进行鉴定。
[0095] 在图 4 的一个具体地示例中,身份关系鉴定模块240包括第一判断模块241、个体识别模块242、匹配情况统计模块243、第二判断模块244、亲子关系鉴定模块 245以及其他亲属关系鉴定模块246。
[0096] 第一判断模块241用于判断是对不同样本进行个体识别还是亲属关系鉴定。
[0097] 个体识别模块242用于比较不同样本的所有对应的目的SNP位点的基因型,根据比较结果分析该不同样本是否属于同一个体。
[0098] 匹配情况统计模块243用于统计不同样本的对应的目的SNP位点中匹配的目的SNP位点个数和/或不匹配的目的SNP位点个数。
[0099] 第二判断模块244用于判断是对不同样本进行亲子关系鉴定还是除亲子关系之外的其他亲属关系鉴定。
[0100] 亲子关系鉴定模块245用于根据目的SNP位点的基因型及相应等位基因人群频率计算每个匹配的目的SNP位点的亲权指数,并由各个匹配的目的SNP位点的亲权指数确定综合亲权指数,根据该综合亲权指数分析该不同样本是否属于亲子关系。
[0101] 其他亲属关系鉴定模块246用于根据不匹配的目的SNP位点的个数分析该其他非亲子关系的亲属关系。
[0102] 基于如上所述的实施例,本发明还提供了一种可用于身份关系鉴定的计算机设备,具有处理器和存储器,存储器上存储有计算机程序,处理器执行该计算机程序时实现上述任一实施例的身份关系鉴定方法的步骤。
[0103] 本领域普通技术人员可以理解实现上述方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory, RAM)等。
[0104] 据此,本发明还提供了一种可用于测序建库的引物序列处理的计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现上述任一实施例的身份关系鉴定方法的步骤。
[0105] 以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0106] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈