用于细胞系鉴定的21位点STR数据库的建立方法及细胞鉴定及匹配率的计算方法和系统

申请号 CN201710108853.0 申请日 2017-02-27 公开(公告)号 CN106894095A 公开(公告)日 2017-06-27
申请人 武汉大学; 武汉珈创生物技术股份有限公司; 发明人 沈超; 朱欢; 刘晏瑞; 刘月红; 袁冰; 徐国东; 郑从义;
摘要 本 发明 涉及用于细胞系鉴定的21位点STR 数据库 的建立方法及细胞鉴定及匹配率的计算方法和系统,通过检测得到多个细胞系的21个位点数据;建立数据表,以获得所述21位点STR数据库,数据表包含21组STR位点数据记录,一组记录对应一个STR位点,每组记录包含至多三条STR位点记录。在21位点STR数据库的 基础 上,本发明提供了三种鉴定未知细胞的方法:CCTCC、ATCC、DSMZ数据库匹配率计算。此外,本发明还提供了一种计算两株未知细胞亲缘性的方法。本发明数据库的另一优点在于,可以根据待测细胞任选的,至少9个至多21个STR位点的来计算其与数据库中已知细胞系间的匹配率,从而来鉴定其细胞系种类。
权利要求

1.一种用于细胞系鉴定的21位点STR数据库的建立方法,其特征在于,21个STR位点包括ATCC与DSMZ中的9个位点,以及D19S433、D21S11、D18S51、D6S1043、D3S1358、Penta D、D2S441、D8S1179、Penta E、D12S391、D2S1338、FGA的12个位点,具体包括:
步骤1,通过检测得到多个细胞系的21个位点数据;
步骤2,建立数据表,以获得所述21位点STR数据库,所述数据表包含21组STR位点数据记录,一组记录对应一个STR位点,每组记录包含至少两条STR位点记录;所述数据表包含多个字段,所述字段包含:
字段一:STR位点名称,
字段二:STR位点特征数
字段三:是/否能为空。
2.根据权利要求1所述的一种用于细胞系鉴定的21位点STR数据库的建立方法,其特征在于,所述步骤2中,每组记录中,AMEL性别位点包含两条记录,其他位点均包含至少一条至多三条不同的记录。
3.一种采用权利要求1所述的21位点STR数据库的细胞鉴定的方法,其特征在于,根据
21位点STR数据库中计算与已知细胞系的STR特征数的匹配率,以实现所述鉴定,具体计算包括:
计算方式一:STR数据库匹配率(%)=送检样品细胞与数据库比对细胞等位基因中相同等位基因的总数目/(样品细胞等位基因总数目+数据库比对细胞等位基因总数目)*
100%
计算方式二:ATCC数据库匹配率(%)=(送检样品细胞与数据库比对细胞共有等位基因数目/数据库比对细胞等位基因总数目)*100%
计算方式三:DSMZ数据库匹配率(%)=送检样品细胞与数据库比对细胞共有等位基因数目*2/(送检样品细胞等位基因总数目+数据库比对细胞等位基因总数目)*100%。
4.根据权利要求3所述的采用21位点STR数据库的细胞鉴定的方法,其特征在于,21位点STR数据库计算方法中纯合等位基因只记一个;ATCC数据库计算方法中纯合等位基因只记一个;DSMZ数据库计算方法中纯合等位基因记两个。
5.权利要求4所述的采用21位点STR数据库的细胞鉴定的方法,其特征在于,其特征在于,根据计算方式一、二、三中任意一种方法计算待测细胞中至少9个至多21个STR位点的匹配率。
6.一种采用权利要求4所述的细胞鉴定的方法计算两个细胞系间的STR匹配率,其特征在于,定义两个细胞系,分别是细胞系A和细胞系B,计算细胞系A和细胞系B间的STR匹配率采用计算方式一、二、三中任意一种方法计算两个细胞系间的STR匹配率;具体包括:
计算方式一:STR数据库匹配率(%)=细胞系A与细胞系B等位基因中相同等位基因的总数目/(细胞系A等位基因总数目+细胞系B等位基因总数目)*100%
计算方式二:ATCC数据库匹配率(%)=(细胞系A与细胞系B共有等位基因数目/细胞系B等位基因总数目)*100%
计算方式三:DSMZ数据库匹配率(%)=细胞系A与细胞系B共有等位基因数目*2/(细胞系A等位基因总数目+细胞系B等位基因总数目)*100%。
7.一种细胞鉴定的系统,其特征在于,包括:
输入装置,用以输入所测细胞的STR特征数;
输出装置,用以输出所测细胞的细胞系匹配率;
21位点STR数据库存储装置:与输入装置和输出装置相连,用以根据数据库中细胞系数据和计算方式一、二、三匹配率计算方法进行匹配率的计算。

说明书全文

用于细胞系鉴定的21位点STR数据库的建立方法及细胞鉴定

及匹配率的计算方法和系统

技术领域

[0001] 本发明属于生物学研究中细胞系鉴定的领域,具体的,本发明涉及构建细胞系21位点STR特征数的数据库的方法、21位点STR数据的数据库在细胞系鉴定中的用途、细胞系来源鉴定的方法及系统。技术背景
[0002] 近年来,对于细胞的研究成果斐然,有关细胞周期、细胞凋亡等研究成果也都获得了诺贝尔奖,而随着细胞应用的广泛,带来的问题也逐渐显现,细胞交叉污染、身份错误识别等问题十分严重,这对于生物学科研、临床医学研究、药物开发、疫苗生产等方面造成了重大的影响并且产生了巨大的经济损失。因此,排查细胞污染、鉴定细胞系身份,尽可能地减少错误细胞使用频率,对于提高科研效率、减少时间和经济的损失、具有重大意义。
[0003] 人源细胞作为一种重要的生物资源,已广泛地应用于生命科学、临床医学基础性研究及产品开发。但是,由于不规范操作等原因,人源细胞系的交叉污染现象日趋严重。细胞的错误鉴定或交叉污染可能引起很多不良后果,如得出错误的检测数据、违反自然规律的研究结论、毫无价值的产品、甚至导致多年的研究成果付诸东流。从细胞培养技术诞生之日起,特别是多种细胞系同时持续培养,细胞交叉污染就更加难免。
[0004] STR(短串联重复序列)基因位点由长度为3~7个基对的短串联重复序列组成,这些重复序列广泛存在于人类基因组中,可作为高度多态性标记,被称为细胞的DNA指纹,其可通过一定的计算方法,即可根据所得的STR分型结果与专业的细胞STR数据库比对从而推算出样品所属的细胞系或可能的交叉污染的细胞系名称。目前ATCC和DSMZ都采用了D5S818、D13S317、D7S820、D16S539、VWA、TH01、AMEL(性别位点)、TPOX、CSF1PO九个STR位点进行对比分析鉴定细胞系。

发明内容

[0005] 本发明的上述技术问题主要是通过下述技术方案得以解决的:
[0006] 一种用于细胞系鉴定的21位点STR数据库的建立方法,其特征在于,21个STR位点包括ATCC与DSMZ中的9个位点,以及D19S433、D21S11、D18S51、D6S1043、D3S1358、Penta D、D2S441、D8S1179、Penta E、D12S391、D2S1338、FGA的12个位点,具体包括:
[0007] 步骤1,通过检测得到若干个细胞系的21个位点数据;若干个是指有100多株数据,可以不断增加
[0008] 步骤2,建立数据表,以获得所述21位点STR数据库,所述数据表包含21组STR位点数据记录,一组记录对应一个STR位点,每组记录包含至少两条STR位点记录;所述数据表包含多个字段,所述字段包含:
[0009] 字段一:STR位点名称,
[0010] 字段二:STR位点特征数
[0011] 字段三:是/否能为空。
[0012] 在上述的一种用于细胞系鉴定的21位点STR数据库的建立方法,其特征在于,所述步骤2中,每组记录中,AMEL性别位点包含两条记录,其他位点均包含三条记录。其中AMEL性别位点,就是X染色体和Y染色体,两条记录就是X,X;或者X,Y;不可能会有三条记录的情况出现。
[0013] 采用21位点STR数据库的细胞鉴定的方法,其特征在于,根据21位点STR数据库中计算与已知细胞系的STR特征数的匹配率,以实现所述鉴定,具体计算包括:
[0014] 计算方式一:STR数据库匹配率(%)=送检样品细胞与数据库比对细胞等位基因中相同等位基因的总数目/(样品细胞等位基因总数目+数据库比对细胞等位基因总数目)*100%
[0015] 计算方式二:ATCC数据库匹配率(%)=(送检样品细胞与数据库比对细胞共有等位基因数目/数据库比对细胞等位基因总数目)*100%
[0016] 计算方式三:DSMZ数据库匹配率(%)=送检样品细胞与数据库比对细胞共有等位基因数目*2/(送检样品细胞等位基因总数目+数据库比对细胞等位基因总数目)*100%。
[0017] 在上述的采用21位点STR数据库的细胞鉴定的方法,21位点STR数据库计算方法中纯合等位基因只记一个;ATCC数据库计算方法中纯合等位基因只记一个;DSMZ数据库计算方法中纯合等位基因记两个。
[0018] 在上述的采用21位点STR数据库的细胞鉴定的方法,根据计算方式一、二、三中任意一种方法计算待测细胞中至少9个至多21个STR位点的匹配率。
[0019] 一种采用细胞鉴定的方法计算两个细胞系间的STR匹配率,其特征在于,定义两个细胞系,分别是细胞系A和细胞系B,计算细胞系A和细胞系B间的STR匹配率采用计算方式一、二、三中任意一种方法计算两个细胞系间的STR匹配率;具体包括:
[0020] 计算方式一:STR数据库匹配率(%)=A细胞与B细胞等位基因中相同等位基因的总数目/(A细胞等位基因总数目+B细胞等位基因总数目)*100%
[0021] 计算方式二:ATCC数据库匹配率(%)=(A细胞与B细胞共有等位基因数目/B细胞等位基因总数目)*100%
[0022] 计算方式三:DSMZ数据库匹配率(%)=A细胞与B细胞共有等位基因数目*2/(A细胞等位基因总数目+B细胞等位基因总数目)*100%。
[0023] 一种细胞鉴定的系统,其特征在于,包括:
[0024] 输入装置,用以输入所测细胞的STR特征数;
[0025] 输出装置,用以输出所测细胞的细胞系匹配率;
[0026] 21位点STR数据库存储装置:与输入装置和输出装置相连,用以根据数据库中细胞系数据和计算方式一、二、三匹配率计算方法进行匹配率的计算。
[0027] 因此,本发明具有如下优点:1、本发明数据库可以根据不同的需要选择不同的算法来鉴定细胞,也可以三种计算方法均使用来鉴定同一细胞系来增强鉴定结果的准确性。此外,本发明还提供了一种计算两株未知细胞亲缘性的方法,即可输入两株细胞的STR特征数,任选以上三种算法之一,便可得到这两株细胞STR的匹配率,从而预测两株细胞间的亲缘关系。2、在使用三种计算方法计算匹配率时,可以根据待测细胞任选的,至少9个至多21个STR位点的来计算其与数据库中已知细胞系间的匹配率,从而来鉴定其细胞系种类。同时,两株未知细胞的亲缘鉴定也可任选至少9个至多21个STR位点的来计算两者之间的匹配率。3、本发明的系统能够用于实施上述本发明的细胞鉴定方法的全部或部分步骤,该系统包括:输入装置,用以输入所测细胞的STR特征数;输出装置,用以输出所测细胞的细胞系匹配率;以及上述本发明提供的21位点STR数据库,与所述输入装置和输出装置相连,用以依据每个细胞系的STR特征数与所测细胞相应的STR位点的特征数进行以上所述算法的匹配率计算,实现所述的细胞鉴定。
附图说明
[0028] 图1为本发明的数据库系统的总体框架示意图。
[0029] 图2为本发明数据库系统两未知细胞系间亲缘鉴定方法的示意图。
[0030] 图3为本发明数据库中存储一个细胞系STR数据的数据表的具体结构。
[0031] 图4为本发明实例1中输入ATCC与DSMZ所使用9个STR位点的示意图。
[0032] 图5为本发明实例1中输入16个STR位点的示意图;。
[0033] 图6为本发明实例1中输入全部21个STR位点的示意图。
[0034] 图7为本发明实例1中输入9个STR位点使用CCTCC算法,细胞Hep-2的匹配结果。
[0035] 图8为本发明实例1中输入16个STR位点使用ATCC算法,细胞Hep-2的匹配结果。
[0036] 图9为本发明实例1中输入21个STR位点使用DSMZ算法,细胞Hep-2的匹配结果。
[0037] 图10为本发明实例2中输入9个STR位点使用CCTCC算法,细胞A549的匹配结果。
[0038] 图11为本发明实例2中输入16个STR位点使用ATCC算法,细胞A549的匹配结果。
[0039] 图12为本发明实例3中输入21个STR位点使用CCTCC算法,计算细胞Hep-2与细胞A549的匹配率结果。
[0040] 图13为本发明实例3中输入21个STR位点使用ATCC算法,计算细胞Hep-2与细胞A549的匹配率结果。
[0041] 图14为本发明实例3中输入21个STR位点使用DSMZ算法,计算细胞Hep-2与细胞A549的匹配率结果。

具体实施方式

[0042] 下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而非限定。
[0043] 本发明的目的在于构建一个在生物学研究中广泛使用的细胞系的21位点STR特征数据库,用以对未知的细胞进行身份鉴定,采用了21个STR位点(除ATCC与DSMZ中现有的9个位点外,还增加了12个位点D19S433、D21S11、D18S51、D6S1043、D3S1358、Penta D、D2S441、D8S1179、Penta E、D12S391、D2S1338、FGA),与ATCC、DSMZ的9位点结果相比,其涵括信息更全面,鉴定结果更准确详细。
[0044] 一,首先介绍一下本发明的方法原理。
[0045] 本发明提供了一种构建细胞系21位点STR数据库的方法,该方法包括以下步骤:通过检测得到多个细胞系的21个位点数据;建立数据表,以获得所述21位点STR数据库,所述数据表包含21组STR位点数据记录,一组记录对应一个STR位点,每组记录包含三条STR位点记录(AMEL性别位点仅有两条记录)。所述数据表包含多个字段,所述字段包含:STR位点名称,STR位点特征数和是/否能为空。利用该方法构建21位点STR数据库时,限制了所测得的细胞系的一个STR位点特征数的数目,即一般情况下一个STR位点有2个特征数,有些细胞系一个STR位点有3个特征数,从而保证了数据库的包容性和精确度。当所测细胞系的某一STR位点仅出现一个值时,我们可以认为该STR在两个等位基因中出现的次数是一样的,因此我们将该STR特征数记录两遍,分别填入STR_1和STR_2,而STR_3留空。
[0046] 本发明提供一种细胞系21位点STR特征数数据库,其依据上述构建细胞系21位点STR数据库的方法构建所得。该数据库中一个细胞系对应着一个数据表,数据表中记录着此细胞系21个STR位点的所有特征数,而且每个细胞系的特征数都是具有特异性的,不同细胞系间STR的特征数是不同的。若是两个细胞的STR特征数完全相同,那么这两个细胞必定属于同一细胞系。因此,每个数据表中STR的数据必定是不同的。本发明的21位点STR数据库中就存储着多种不同细胞系的21位点STR的全部特征数。
[0047] 在21位点STR数据库的基础上,本发明提供了三种鉴定未知细胞的方法:
[0048] 本发明数据库提供的CCTCC匹配率计算公式::STR数据库匹配率(%)=送检样品细胞与数据库比对细胞等位基因中相同等位基因的总数目/(样品细胞等位基因总数目+数据库比对细胞等位基因总数目)*100%;
[0049] ATCC数据库匹配率计算公式:ATCC数据库匹配率(%)=(送检样品细胞与数据库比对细胞共有等位基因数目/数据库比对细胞等位基因总数目)*100%;
[0050] DSMZ数据库匹配率计算公式:DSMZ数据库匹配率(%)=送检样品细胞与数据库比对细胞共有等位基因数目*2/(送检样品细胞等位基因总数目+数据库比对细胞等位基因总数目)*100%。
[0051] 本发明中计算方法提供的CCTCC计算方法与DSMZ数据库计算方法的区别在于,CCTCC计算方法和ATCC数据库计算方法中所测细胞纯合等位基因只记一个,而DSMZ数据库计算方法中所测细胞纯合等位基因记两个。
[0052] 本发明数据库可以根据不同的需要选择不同的算法来鉴定细胞,也可以三种计算方法均使用来鉴定同一细胞系来增强鉴定结果的准确性。此外,本发明还提供了一种计算两株未知细胞亲缘性的方法,即可输入两株细胞的STR特征数,任选以上三种算法之一,便可得到这两株细胞STR的匹配率,从而预测两株细胞间的亲缘关系。
[0053] 本发明数据库的另一优点在于,在使用上述三种计算方法计算匹配率时,可以根据待测细胞任选的,至少9个至多21个STR位点的来计算其与数据库中已知细胞系间的匹配率,从而来鉴定其细胞系种类。同时,两株未知细胞的亲缘鉴定也可任选至少9个至多21个STR位点的来计算两者之间的匹配率。
[0054] 本发明提供一种对细胞进行鉴定的系统,其能够用于实施上述本发明的细胞鉴定方法的全部或部分步骤,该系统包括:输入装置,用以输入所测细胞的STR特征数;输出装置,用以输出所测细胞的细胞系匹配率;以及上述本发明提供的21位点STR数据库,与所述输入装置和输出装置相连,用以依据每个细胞系的STR特征数与所测细胞相应的STR位点的特征数进行以上所述算法的匹配率计算,实现所述的细胞鉴定。
[0055] 二、本发明所使用的判定标准为ATCC数据库判定标准:当待检细胞STR图谱出现3个以上位点同时有≥3峰出现,判定该待检细胞是至少有2株细胞混合,峰越多,说明混合细胞种类越多;将待检细胞9位点等位基因与数据库细胞比对,当匹配率≥80%时,认为这2株细胞同一来源;当匹配率在56%-80%之间,该待检细胞需进一步验证其来源,无法准确判断;当匹配率<55%,认定这2株细胞没有关系。
[0056] 实施例1
[0057] 细胞Hep-2的鉴定
[0058] 根据检测该细胞的21个STR位点的值如表1:
[0059] 表1细胞Hep-2的STR位点和Amelogenin位点的基因分型结果
[0060]
[0061]
[0062] 将ATCC与DSMZ所使用的D5S818、D13S317、D7S820、D16S539、VWA、TH01、AMEL(性别位点)、TPOX、CSF1PO九个STR位点的特征值如图4输入到相对应的STR位点后,任选上述三种计算算法其一,选择CCTCC算法,匹配结果如图7。从表1中,可以看出该细胞不存在有位点有≥3个值出现,可以认为该细胞中只有一株细胞,没有混合其他种类的细胞;而且与HeLa的STR数据100%匹配,因此可以认为该细胞为HeLa细胞。
[0063] 使用ATCC算法检测其结果如图8,该细胞与HeLa的1,3,7,10,P3型细胞有着100%的匹配率,还与其他数种HeLa亚型细胞有着80%以上的匹配率。因此,该细胞是HeLa细胞的可能性比较大。
[0064] 使用DMSZ算法检测其结果如图9中,该细胞与数种HeLa细胞的匹配率都高于100%,随后与MG-63-1细胞的匹配率仅有58%。因此,可以得到该细胞是HeLa细胞。
[0065] 综合上述三种方法的结果来看,该细胞是HeLa细胞而不是送检所称的Hep-2细胞,从此实施例的检测结果可以看出本发明的实用性与准确性。
[0066] 实施例2
[0067] 细胞A549的鉴定
[0068] 根据检测该细胞的21个STR位点的值如表2:
[0069] 表2细胞A549的STR位点和Amelogenin位点的基因分型结果
[0070]
[0071]
[0072] 如实例1中进行输入与匹配查找,可获得匹配结果,如图10(CCTCC算法),图11(ATCC算法)。从表2中可以看出该细胞不存在有位点有≥3个值出现,因此该细胞中不存在交叉污染;而且与A549-1、A549-2细胞有着94%的匹配率,因此可以认为该细胞为A549细胞,且没有被污染。
[0073] 从图11中,该细胞与A549-2细胞有着92%的匹配率,而与A549-1细胞的匹配率要略低,为86%。因此,该细胞是A549-2细胞的可能性最大,且没有被污染。
[0074] 综合上述两种方法的结果来看,该细胞是A549细胞,且没有交叉污染。
[0075] 实施例3
[0076] 细胞Hep-2与细胞A549细胞系间的STR比对
[0077] 首先,由上述验证可以得知细胞Hep-2与细胞A549均为纯细胞系,没有被其他细胞污染。在对两株细胞以三种不同的算法进行比对后,其比对方式如图12、13、14,可以得出两株细胞STR的匹配率分别为:CCTCC算法为29%,ATCC算法为34%,DMSZ算法为38%。三种算法计算得出的两株细胞21位点STR匹配率均低于55%,所以可以判定这两株细胞属于不同的细胞系,而且存在比较大的差别。
[0078] 本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
QQ群二维码
意见反馈