首页 / 专利库 / 激光与光电 / 光电子器件 / 光探测器 / 光电二极管 / PIN光电二极管 / 本征区 / 评估目标区域文库的建库污染程度的方法和优化文库构建的方法

评估目标区域文库的建库污染程度的方法和优化文库构建的方法

阅读:1015发布:2020-11-04

专利汇可以提供评估目标区域文库的建库污染程度的方法和优化文库构建的方法专利检索,专利查询,专利分析的服务。并且一种评估目标区域文库的建库污染程度的方法和优化文库构建的方法,其中评估目标区域文库的建库污染程度的方法包括:提供多个合成模板、真实样本和阴性样本作为建库起始材料,合成模板是指根据所述目标区域的已知序列合成的模板序列,真实样本是指包含目标区域序列的样本,阴性样本是指不含任何核酸材料的样本;在建库用多孔板上分别使用合成模板、真实样本和阴性样本进行文库构建,获得测序文库;对测序文库进行上机测序获得测序数据,然后将测序数据比对到目标区域的参考序列,获得比对正确的有效数据;根据合成模板、真实样本和阴性样本各自的有效数据,评估各文库的污染来源及其比例。该方法能够有效评估和控制建库中的污染。,下面是评估目标区域文库的建库污染程度的方法和优化文库构建的方法专利的具体信息内容。

1.一种评估目标区域文库的建库污染程度的方法,其特征在于,所述方法包括:
提供多个合成模板、真实样本和阴性样本作为建库起始材料,其中,所述合成模板是指根据所述目标区域的已知序列合成的模板序列,所述真实样本是指包含目标区域序列的样本,所述阴性样本是指不含任何核酸材料的样本;
在建库用多孔板上分别使用所述多个合成模板、真实样本和阴性样本进行文库构建,获得合成模板、真实样本和阴性样本的测序文库;
对所述测序文库进行上机测序获得所述合成模板、真实样本和阴性样本的测序数据,然后将所述测序数据比对到所述目标区域的参考序列,获得比对正确的有效数据;
根据所述合成模板、真实样本和阴性样本各自的所述有效数据,评估各文库的污染来源及其比例。
2.根据权利要求1所述的方法,其特征在于,所述评估各文库的污染来源及其比例包括如下至少一项:
(a)所述阴性样本的来源于所述合成模板、真实样本和其它来源的污染情况以及各自的比例;
(b)所述合成模板的来源于所述合成模板、真实样本和其它来源的污染情况以及各自的比例;和
(c)所述真实样本的来源于所述合成模板的污染情况以及各自的比例。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述各文库的污染来源及其比例形成可视化的热图,以直观形象地表征所述污染来源及其比例。
4.根据权利要求1所述的方法,其特征在于,所述阴性样本是指纯或不含任何核酸材料的缓冲液,优选纯水。
5.根据权利要求1所述的方法,其特征在于,所述目标区域文库是免疫组库,优选T淋巴细胞受体β链免疫组库。
6.根据权利要求5所述的方法,其特征在于,每个所述合成模板分别是多种模板的混合模板,每种模板包括重排后的T淋巴细胞或B淋巴细胞受体基因的V基因参考序列和J基因参考序列随机组合形成的序列。
7.根据权利要求1所述的方法,其特征在于,所述建库用多孔板是96孔板或384孔板,优选96孔板;
优选地,所述阴性样本排布在所述96孔板或384孔板的对线的反应孔中,所述合成模板、真实样本散布在对角线以外的其他反应孔中。
8.根据权利要求1所述的方法,其特征在于,所述文库构建是采用多重PCR的方法进行的文库构建。
9.一种评估免疫组库的建库污染程度的方法,其特征在于,所述方法包括:
提供多个合成模板、真实样本和阴性样本作为建库起始材料,其中,所述合成模板是指根据T淋巴细胞或B淋巴细胞受体基因的已知序列合成的模板序列,所述真实样本是指包含T淋巴细胞或B淋巴细胞受体基因序列的样本,所述阴性样本是指不含任何核酸材料的样本;
在建库用多孔板上分别使用所述多个合成模板、真实样本和阴性样本进行文库构建,获得合成模板、真实样本和阴性样本的测序文库;
对所述测序文库进行上机测序获得所述合成模板、真实样本和阴性样本的测序数据,然后将所述测序数据比对到所述T淋巴细胞或B淋巴细胞受体基因的参考序列,获得比对正确的有效数据;
根据所述合成模板、真实样本和阴性样本各自的所述有效数据,评估各文库的污染来源及其比例。
10.一种优化目标区域文库构建的方法,其特征在于,所述方法包括采用权利要求1-9任一项所述的方法评估目标区域文库的建库污染程度,以确定主要污染来源;然后根据所述主要污染来源优化建库步骤以消除或减弱所述主要污染来源。

说明书全文

评估目标区域文库的建库污染程度的方法和优化文库构建的

方法

技术领域

[0001] 本发明涉及文库构建技术领域,具体涉及一种评估目标区域文库的建库污染程度的方法和优化文库构建的方法

背景技术

[0002] 免疫组库是以T淋巴细胞或B淋巴细胞为研究目标,多重PCR或5’RACE结合高通量测序为技术手段,扩增重排后的V(D)J基因或V(D)JC基因(图1),全面评估免疫系统的多样性,识别并量化体内免疫应答增殖克隆,从而对免疫学基础疾病机理和药物开发等进行研究。
[0003] 如今在高通量测序的时代,文库构建已进入自动化。在文库构建时经常用多孔板(如96孔板)进行自动化建库,提高建库通量,降低人工成本。但是在进行免疫组库96孔板建库时,需要有效评估和控制污染,该技术对污染序列极其敏感,数据分析需要精确到克隆。所以在免疫组库技术中涉及到克隆分析的精确性,污染的克隆及频率会影响分析结果,在建库过程中,应尽量降低和避免污染,所以需要一个量化的指标来衡量污染的程度,并且使污染达到一个可接受的范围。
[0004] 目前,在免疫组库技术应用中,还没有相关报道提出如何评估污染的程度,但是关于如何降低污染,只有iCubate全自动生物大分子检测技术平台可以做到独特的全封闭,一次性使用卡盒设计避免任何交叉污染和PCR产物污染,同时还能够应用于环境监测,包括质、空气的污染。一次性使用的全封闭设计确保整个过程的密闭操作,有效避免了交叉污染,杜绝了高浓度PCR产物对试验环境产生的污染。虽然可以建立全封闭的操作平台隔绝环境的污染,但是也无法避免样本与样本之间的交叉污染。所以还是需要一套可以评估现有技术流程的污染程度的方法,了解污染的特征和频率,然后用信息分析的方法将数据过滤,使结果更加精确。然而,目前仍然缺乏一套系统性评估免疫组库技术污染程度和特征的方法。

发明内容

[0005] 本发明提供一种评估目标区域文库的建库污染程度的方法和优化文库构建的方法,能够有效评估和控制建库中的污染。
[0006] 根据第一方面,一种实施例中提供一种评估目标区域文库的建库污染程度的方法,包括:
[0007] 提供多个合成模板、真实样本和阴性样本作为建库起始材料,其中,上述合成模板是指根据上述目标区域的已知序列合成的模板序列,上述真实样本是指包含目标区域序列的样本,上述阴性样本是指不含任何核酸材料的样本;
[0008] 在建库用多孔板上分别使用上述多个合成模板、真实样本和阴性样本进行文库构建,获得合成模板、真实样本和阴性样本的测序文库;
[0009] 对上述测序文库进行上机测序获得上述合成模板、真实样本和阴性样本的测序数据,然后将上述测序数据比对到上述目标区域的参考序列,获得比对正确的有效数据;
[0010] 根据上述合成模板、真实样本和阴性样本各自的上述有效数据,评估各文库的污染来源及其比例。
[0011] 作为本发明的优选方案,上述评估各文库的污染来源及其比例包括如下至少一项:
[0012] (a)上述阴性样本的来源于上述合成模板、真实样本和其它来源的污染情况以及各自的比例;
[0013] (b)上述合成模板的来源于上述合成模板、真实样本和其它来源的污染情况以及各自的比例;和
[0014] (c)上述真实样本的来源于上述合成模板的污染情况以及各自的比例。
[0015] 作为本发明的优选方案,上述方法还包括:将上述各文库的污染来源及其比例形成可视化的热图,以直观形象地表征上述污染来源及其比例。
[0016] 作为本发明的优选方案,上述阴性样本是指纯水或不含任何核酸材料的缓冲液,优选纯水。
[0017] 作为本发明的优选方案,上述目标区域文库是免疫组库,优选T淋巴细胞受体β链免疫组库。
[0018] 作为本发明的优选方案,每个上述合成模板分别是多种模板的混合模板,每种模板包括重排后的T淋巴细胞或B淋巴细胞受体基因的V基因参考序列和J基因参考序列随机组合形成的序列。
[0019] 作为本发明的优选方案,上述建库用多孔板是96孔板或384孔板,优选96孔板。
[0020] 作为本发明的优选方案,上述阴性样本排布在上述96孔板或384孔板的对线的反应孔中,上述合成模板、真实样本散布在对角线以外的其他反应孔中。
[0021] 作为本发明的优选方案,上述文库构建是采用多重PCR的方法进行的文库构建。
[0022] 作为本发明的优选方案,一种评估免疫组库的建库污染程度的方法,包括:
[0023] 提供多个合成模板、真实样本和阴性样本作为建库起始材料,其中,上述合成模板是指根据T淋巴细胞或B淋巴细胞受体基因的已知序列合成的模板序列,上述真实样本是指包含T淋巴细胞或B淋巴细胞受体基因序列的样本,上述阴性样本是指不含任何核酸材料的样本;
[0024] 在建库用多孔板上分别使用上述多个合成模板、真实样本和阴性样本进行文库构建,获得合成模板、真实样本和阴性样本的测序文库;
[0025] 对上述测序文库进行上机测序获得上述合成模板、真实样本和阴性样本的测序数据,然后将上述测序数据比对到上述T淋巴细胞或B淋巴细胞受体基因的参考序列,获得比对正确的有效数据;
[0026] 根据上述合成模板、真实样本和阴性样本各自的上述有效数据,评估各文库的污染来源及其比例。
[0027] 根据第二方面,一种实施例中提供一种优化目标区域文库构建的方法,包括采用第一方面的方法评估目标区域文库的建库污染程度,以确定主要污染来源;然后根据主要污染来源优化建库步骤以消除或减弱主要污染来源。
[0028] 本发明的评估目标区域文库的建库污染程度的方法,通过使用合成模板、真实样本和阴性样本作为建库起始材料,在多孔板上构建文库,对文库进行测序并结合信息分析拆分污染来源和计算污染频率,能够辅助发现污染的克隆,使得到的数据更准确可信。本方法有效地量化了污染,能够更深入地了解建库流程中主要的污染来源及特征,然后采取措施降低和预防污染。本发明的方法广泛适用于各种目标区域文库的建库污染程度评估,尤其是适用于评估免疫组库的建库污染程度。附图说明
[0029] 图1为本发明实施例中重排后的V(D)JC基因结构示意图;
[0030] 图2为本发明实施例的评估免疫组库的建库污染程度的方法流程图
[0031] 图3为本发明实施例中样本在96孔板上的排布示意图,混合模板用“T”开头依次命名,真实样本用“S”开头依次命名,阴性对照用“NTC”依次命名;
[0032] 图4为本发明实施例中优化前的TRB VJ建库流程图;
[0033] 图5为本发明实施例中优化前建库方案的NTC和PTC的有效数据量和污染率,read num.表示读长数;
[0034] 图6为本发明实施例中优化前建库方案的23个NTC污染来源比例,有效数据中分别来自47种CDR3序列、真实样本CDR3序列和未知的百分比;
[0035] 图7为本发明实施例中优化前建库方案的47种混合模板和25种真实样本有效数据中来自47种合成模板CDR3序列的百分比;
[0036] 图8为本发明实施例中优化前建库方案的23个NTC污染来源为混合模板的比例,横坐标为47种混合模板,从左到右依次为T1~T47;纵坐标为23个NTC,从上到下依次为NTC1~NTC23;
[0037] 图9为本发明实施例中优化前建库方案的72个PTC污染来源为混合模板的比例,横坐标为47种混合模板,从左到右依次为T1~T47;纵坐标为72个PTC,从上到下依次为T1~T47、S1~S25;
[0038] 图10为本发明实施例中优化后的TRB VJ建库流程图;
[0039] 图11为本发明实施例中优化后建库方案的NTC和PTC的有效数据量和污染率,read num.表示读长数;
[0040] 图12为本发明实施例中优化后建库方案的23个NTC污染来源比例,有效数据中分别来自47种CDR3序列、真实样本CDR3序列和未知的百分比;
[0041] 图13为本发明实施例中优化后建库方案的47种混合模板和25种真实样本有效数据中来自47种合成模板CDR3序列的百分比;
[0042] 图14为本发明实施例中优化后建库方案的23个NTC污染来源为混合模板的比例,横坐标为47种混合模板,从左到右依次为T1~T47;纵坐标为23个NTC,从上到下依次为NTC1~NTC23;
[0043] 图15为本发明实施例中优化后建库方案的72个PTC污染来源为混合模板的比例,横坐标为47种混合模板,从左到右依次为T1~T47;纵坐标为72个PTC,从上到下依次为T1~T47、S1~S25。

具体实施方式

[0044] 下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。
[0045] 另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
[0046] 本发明实施例中提供一种评估目标区域文库的建库污染程度的方法,包括:
[0047] 提供多个合成模板、真实样本和阴性样本作为建库起始材料,其中,上述合成模板是指根据上述目标区域的已知序列合成的模板序列,上述真实样本是指包含目标区域序列的样本,上述阴性样本是指不含任何核酸材料的样本;
[0048] 在建库用多孔板上分别使用上述多个合成模板、真实样本和阴性样本进行文库构建,获得合成模板、真实样本和阴性样本的测序文库;
[0049] 对上述测序文库进行上机测序获得上述合成模板、真实样本和阴性样本的测序数据,然后将上述测序数据比对到上述目标区域的参考序列,获得比对正确的有效数据;
[0050] 根据上述合成模板、真实样本和阴性样本各自的上述有效数据,评估各文库的污染来源及其比例。
[0051] 本发明的方法采用三种样本,即合成模板、真实样本和阴性样本。其中,合成模板是指根据目标区域的已知序列合成的模板序列。所谓“目标区域”即文库中插入片段在基因组上的相应区域,例如在捕获测序文库中,目标区域就是捕获探针或引物捕获的区域,例如免疫组库中V(D)J基因或V(D)JC基因区域是一个目标区域的例子。不同的建库类型研究的目标区域不同,因此目标区域往往与建库类型相关,所以合成模板可以是不同的基因或区域。比如,外显子捕获研究的是外显子区域、免疫组库研究的是抗原抗体结合区域。因此不同的建库技术需要合成的目标区域的模板序列也不同。
[0052] 合成模板是根据目标区域的已知序列合成的,因此本发明的方法在制备合成模板前需要先确定目标区域的序列。根据已知序列合成的序列,无论是基因序列还是非基因序列都是合成模板。根据扩增的目标区域序列设计合成模板,用于本发明的方法中,可以使污染情况更接近真实样本建库时的情况,所以扩增的目标区域不同时,可以设计不同区域的合成模板。
[0053] 在本发明的一个实施例中,目标区域文库是免疫组库,优选T淋巴细胞受体β链(T cellreceptor beta chain,TRB)免疫组库,因此,合成模板是根据V(D)J基因或V(D)JC基因上的已知序列合成的序列。在本发明的一个实施例中,每个合成模板(用作一个样本)分别包括多种模板的混合模板,每种模板包括重排后的T淋巴细胞受体基因的V基因参考序列和J基因参考序列随机组合形成的序列。例如,在本发明的一个实施例中,根据T淋巴细胞受体β链参考序列人工设计611条DNA模板,每种模板由V、D、J和C组成,47种V基因和13种J基因随机组合成611种模板。按47种V基因把611条模板分成47种混合模板,每种混合模板含13种合成模板,13种合成模板等比混合,用作一个样本。
[0054] 真实样本是指包含目标区域序列的样本,这样的样本来源于任何可能的应用领域,无论是临床上的病人或健康人样本,还是环境中的各种物种样本。这些样本中含有待研究的目标区域序列,例如免疫组库研究中的V(D)J基因或V(D)JC基因等基因序列,或者外显子捕获研究中的外显子序列。真实样本实际上就是通常的测序文库构建中的样本,本发明的方法用途之一就是用于评估这些真实样本在采用多孔板建库时彼此之间交叉污染关系和程度。
[0055] 阴性样本是指不含任何核酸材料的样本,可以是指纯水或不含任何核酸材料的缓冲液等,优选纯水。阴性样本是在实验中最能评估污染率高低样本,因此是非常关键的。特别是,阴性样本在多孔板上的排布有一定的重要性,例如,本发明中建库用多孔板可以是96孔板或384孔板,比较常用的是96孔板。在一个优选实施例中,阴性样本排布在96孔板或384孔板的对角线的反应孔中,而合成模板、真实样本散布在对角线以外的其他反应孔中。其好处是,这样可以监控每列不同位置的污染程度。对于96孔板而言,在一个优选实施例中,在对角线上取23个反应孔作为阴性样本的反应孔,而剩下的合成模板和真实样本可以按照规则(例如按列从左到右)或者不规则方式散布在96孔板的其他反应孔中。
[0056] 本发明中,文库构建方法不限,在一个实施例中,采用多重PCR的方法进行的文库构建。在本发明一个实施例中,用多重PCR的方法进行TRB VJ区域扩增建库。
[0057] 本发明中,上机测序方法不限,任何二代测序方法均可适用于本发明对测序文库进行上机测序以获得合成模板、真实样本和阴性样本的测序数据。例如,在一个实施例中,采用BGISEQ-500SE200+10测序。
[0058] 本发明中,上机测序产生的测序数据比对到目标区域的参考序列上,根据目标区域的不同,参考序列也不同,例如针对外显子捕获文库,其参考序列是外显子区域序列;针对免疫组库,其参考序列是抗原抗体结合区域序列。在一个实施例中,测序文库是免疫组库,其参考序列是T细胞受体β链参考序列,来源于IMGT(http://www.imgt.org/vquest/refseqh.html)。通过将上机测序产生的测序数据比对到目标区域的参考序列上,就能得到有效数据(effectivedata read numbers),即正确地比对到参考序列上上的测序数据。在一个实施例中,通过IMonitor(doi:10.1534/genetics.115.176735/-/DC1)信息分析软件进行处理得到比对正确的序列文件,即有效数据。
[0059] 本发明中,得到各个样本的有效数据以后,可以通过NTC(阴性样本)与PTC(阳性样本,包括合成模板和真实样本)有效数据的比值计算得到污染率,即阴性样本的污染率(%)=NTC(阴性样本)有效数据的平均值/PTC(阳性样本)有效数据的平均值*100%。从NTC(阴性样本)和合成模板(或混合模板)可准确评估污染的来源,然后确定建库过程中的主要污染来源。同时,可从各种不同的合成模板(或混合模板)和真实样本中,分析来源为合成模板(或混合模板)的污染比例,评估样本之间污染的频率。除去能正确比对到合成模板的部分,称为“其它”来源。用合成模板(或混合模板)的“其它”部分比对真实样本的“其它”部分,得到合成模板(或混合模板)中来源于真实样本的污染的比例。
[0060] 具体而言,评估各文库的污染来源及其比例包括如下至少一项:(a)阴性样本的来源于合成模板、真实样本和其它来源的污染情况以及各自的比例;(b)合成模板的来源于合成模板、真实样本和其它来源的污染情况以及各自的比例;和(c)真实样本的来源于合成模板的污染情况以及各自的比例。
[0061] 本发明实施例,通过数据分析和污染来源的拆分,从PTC(阳性样本)部分统计样本与样本之间交叉污染的频率,从NTC(阴性样本)部分了解污染的特征,计算污染频率。结合PTC和NTC计算目标区域文库建库技术,尤其是免疫组库建库技术的污染率,然后采取可以降低污染率的措施,将总污染率控制在可接受的范围。因此本发明的方法可将污染量化,并深入了解污染特征,辅助数据过滤去除不可信的克隆,从而提高建库技术的灵敏度和准确度。
[0062] 本发明的优选实施例中,上述方法还包括:将各文库的污染来源及其比例形成可视化的热图,即可将上述(a)至(c)项中各文库的污染来源及其比例形成可视化的热图,以直观形象地表征污染来源及其比例。
[0063] 作为本发明的一种优选实施方案,本发明的目标区域文库是免疫组库,因此,提供一种评估免疫组库的建库污染程度的方法,包括:
[0064] 提供多个合成模板、真实样本和阴性样本作为建库起始材料,其中,合成模板是指根据T淋巴细胞或B淋巴细胞受体基因的已知序列合成的模板序列,真实样本是指包含T淋巴细胞或B淋巴细胞受体基因序列的样本,阴性样本是指不含任何核酸材料的样本;
[0065] 在建库用多孔板上分别使用多个合成模板、真实样本和阴性样本进行文库构建,获得合成模板、真实样本和阴性样本的测序文库;
[0066] 对测序文库进行上机测序获得上述合成模板、真实样本和阴性样本的测序数据,然后将测序数据比对到上述T淋巴细胞或B淋巴细胞受体基因的参考序列,获得比对正确的有效数据;
[0067] 根据合成模板、真实样本和阴性样本各自的有效数据,评估各文库的污染来源及其比例。
[0068] 在本发明的一个具体详细的实施例中,针对免疫组库技术流程中的污染问题,提供一种评估免疫组库的建库污染程度的方法,如图2所示,具体包括如下内容:
[0069] 首先,设计一定数量的合成模板,作为已知序列,在污染评估中可判断样本之间是否有污染。本实施例中,合成模板针对的目标区域是CDR(complementarity determining region)区,其是与抗原结合的区域,具有重要的研究意义,CDR区称为高变区,也叫互补决定区(图1)。其中,CDR3区由V、D、J基因组成,多样性最高,在免疫组库技术中主要分析的内容就是针对CDR3区。CDR3区是高度可变的,缺乏固定的已知序列,因此在合成模板中CDR3区序列是人为设计的。在评估实验中,用合成模板分别混合成CDR3区序列不同的样本,分析时使用CDR3序列区分是否污染。同时,选择真实样本进行评估,真实样本中会有频率高低的克隆,所以污染特征更接近实际污染的情况。
[0070] 虽然真实样本的CDR3序列是未知的,但是可以从合成模板中的污染部分寻找是否有来源于真实样本的CDR3序列,从而分析合成模板中真实样本污染的特征。然而,最能评估污染率来源的是实验中加入的阴性对照样本,即用不含任何核酸模板分子的样本(例如水)当作模板进行建库。因此,在本实施例中,在每次污染评估的实验中,应包含合成模板、真实样本、水三种文库,合成模板、真实样本的文库在本实施例中称为阳性对照(PTC),水的文库称为阴性对照(NTC),这样能够比较全面的评估污染的特征。
[0071] 文库构建后上机测序,需要将CDR3区测通,这是因为分析时需要使用CDR3序列辨别是否污染。得到的测序数据可以经过IMonitor(doi:10.1534/genetics.115.176735/-/DC1)信息分析软件进行处理后得到比对正确的序列文件,即有效数据。进而计算NTC与PTC有效数据的比值得到污染率。从NTC和混合模板可准确评估污染的来源,然后确定建库过程中的主要污染来源。同时,可从各种不同CDR3的混合模板和真实样本中,分析来源为混合模板的污染比例,评估样本之间污染的频率。除去能比对上合成模板的部分,本实施例中称为“其它”(others)来源。用混合模板的“其它”部分比对真实样本的“其它”部分,得到混合模板中来源真实样本的污染比例。
[0072] 本实施例通过数据分析和污染来源的拆分,从PTC部分统计样本与样本之间交叉污染的频率,从NTC部分了解污染的特征,计算污染频率。结合PTC和NTC计算免疫组库技术总污染率,然后采取可以降低污染率的措施,将总污染率控制在可接受的范围。因此,本实施例的方法可将污染量化,并深入了解污染特征,辅助数据过滤去除不可信的克隆,从而使免疫组库技术应用研究中,可以更精准地寻找抗原相关特异性克隆,提高该技术的灵敏度和准确度。
[0073] 在本发明一个实施例中,基于本发明的评估目标区域文库的建库污染程度的方法,还提供一种优化目标区域文库构建的方法,该方法包括采用本发明的评估目标区域文库的建库污染程度的方法来评估目标区域文库的建库污染程度,以确定主要污染来源;然后根据主要污染来源优化建库步骤以消除或减弱主要污染来源。例如,在本发明一个实施例中,确定主要污染来源在于引物扩增效率低,样本产量与NTC相近,使污染部分极为突出,因此相应调整多重PCR的扩增条件来消除或减弱主要污染来源。
[0074] 本发明的评估目标区域文库的建库污染程度的方法,通过使用合成模板、真实样本和阴性样本作为建库起始材料,在多孔板上构建文库,对文库进行测序并结合信息分析计算污染来源和频率,能够辅助发现污染的克隆,使得到的数据更准确可信。本方法有效地量化了污染,能够更深入地了解建库流程中主要的污染来源及特征,然后采取措施降低和预防污染。本发明的方法广泛适用于各种目标区域文库的建库污染程度评估,尤其是适用于评估免疫组库的建库污染程度。
[0075] 以下通过具体实施例详细说明本发明的技术方案和效果,应当理解实施例仅是示例性的,不能理解为对本发明保护范围的限制。
[0076] 实施例1
[0077] 本实施例评估96孔板自动化T淋巴细胞受体β链(T cell receptor beta chain,TRB)免疫组库建库,然后BGISEQ-500上机整个技术流程中的污染情况。
[0078] (一)实验流程
[0079] 1.合成模板设计
[0080] 根据IMGT(http://www.imgt.org/vquest/refseqh.html)中的T细胞受体β链参考序列人工设计611条DNA模板,每种模板由V、D、J和C组成,这611条DNA模板由47种V基因和13种J基因随机组合而成。CDR3长度设计为43bp(由测序数据统计正常人平均的CDR3长度),总共47种,与47种V基因绑定,即每种V基因对应一种CDR3。按47种V基因将611条模板分成47种混合模板,每种混合模板含13种合成模板,由13种合成模板等比混合。因此,47种混合模板之间没有相同的CDR3序列,以便分析污染具体来源。
[0081] 2.实验设计
[0082] 2.1 96孔板排版设计
[0083] 如图3所示,96孔板上总共95个孔用于实验,由72个PTC和23个NTC组成,72个PTC包括47种DNA混合模板和25种DNA真实样本。由于BGISEQ-500测序平台一套标签分子(barcode)只有96种,其中1种标签分子作为免疫组库上机的平衡文库,因此总共95个实验孔。NTC分布在96孔板的对角线上,PTC按列的顺序,47种混合模板从第1列至第8列,25种真实样本从第8列至第12列。
[0084] 2.2文库构建
[0085] 混合模板以10^6个分子起始,真实样本以1.2μg起始,用多重PCR的方法进行TRB VJ区域扩增建库,引物序列参考文章(DOI:10.1371/journal.pone.0152464)。采用两步PCR法构建TRB免疫组库文库,建库流程如图4所示,用BGISEQ-500SE200+10进行上机测序,120G/通道(lane),95个样本上一条通道,其中还包括30%的平衡文库。
[0086] (二)信息分析
[0087] 1.用IMonitor进行数据处理
[0088] 测序下机原始数据用IMonitor软件处理后,使用bascial_filter_stat.txt文件先分别计算72个PTC和23个NTC有效数据的平均值,再用有效数据计算NTC污染率,即污染率(%)=NTC有效数据的平均值/PTC有效数据的平均值*100%,图5示出了NTC相对PTC的污染率约为12%。
[0089] 2.拆分和计算污染比例
[0090] 将每个样本的structure.gz文件与47种CDR3序列进行比对,容错5bp,有效数据拆成比对上47种CDR3的部分和比对不上的(others)部分,得到NTC和PTC污染来源的比例。NTC的污染来源主要分为合成模板、真实样本和其它,PTC包括混合模板和真实样本两种,混合模板的污染来源主要分为合成模板、真实样本和其它,真实样本的污染来源主要为合成模板。NTC和混合模板的PTC都可以利用比对不上的(others)部分进行再拆分,将污染来源为真实样本的部分拆出来。NTC中污染来源主要来自于真实样本,其次是合成模板,未知污染的比例很少,平均约2.2%。在拆分混合模板中比对不上的(others)部分时,发现容错5bp后剩下的比对不上的(others)比例极低,主要是由于严重的PCR错误或者测序错误造成无法比对上自身的CDR3序列,因此比对不上的(others)的污染也是来源于合成模板,混合模板的PTC主要污染来源为合成模板,如图6和图7所示,其中图6示出了23个NTC污染来源比例,有效数据中分别来自47种CDR3序列、真实样本CDR3序列和未知的百分比;图7示出了47种混合模板和25种真实样本有效数据中来自47种合成模板CDR3序列的百分比。NTC和PTC中都可以量化的污染来源为合成模板,将污染程度的数值可视化为热图,所有污染频率取log2(以2为底的对数)得到热图显示的值。如图8和图9所示,其中图8示出了23个NTC污染来源为混合模板的比例;图9示出了72个PTC污染来源为混合模板的比例。热图中白色表示空值,即污染频率为0,颜色越深表示污染频率越高。由于有一个混合模板建库失败,能比对上自身序列的极少,所以有一列几乎都是空值,也说明建库失败的样本不容易污染到其它样本。
[0091] 总之,结果显示:污染来源主要来自同一个96孔板建库的样本,几乎每个孔都存在合成模板的污染,混合模板中含有的合成模板污染的平均比例比真实样本的稍高,可能因为混合模板的位置比较聚集。由于每个孔的污染频率比较随机,并且污染频率的高低与孔位距离没有显著关系,因此污染可能是通过空气传播导致的。
[0092] (三)降低污染率
[0093] 从数据结果看,该技术流程污染率很高。通过测试实验分析污染率高的原因在于引物扩增效率低,样本产量与NTC相近,使污染部分极为突出。因此,在技术上以提高产量为目的进行优化,优化后的建库流程如图10所示。用优化后的建库流程重复上述实验流程和信息分析。
[0094] (四)技术优化后的信息分析
[0095] 信息分析流程与上述(二)部分相同,优化后与优化前进行平行比较分析,图11示出了优化后NTC和PTC的有效数据量以及计算的污染率;图12示出了优化后23个NTC污染来源比例,有效数据中分别来自47种CDR3序列、真实样本CDR3序列和未知的百分比;图13示出了优化后47种混合模板和25种真实样本有效数据中来自47种合成模板CDR3序列的百分比;图14示出了优化后23个NTC污染来源为混合模板的比例;图15示出了优化后72个PTC污染来源为混合模板的比例。
[0096] 结果显示:技术优化后,用本发明的方法再次评估污染率,污染率明显降低,说明该评估方法有效。NTC和PTC中各种污染来源的比例与优化前相似,说明污染来源未变,如果要完全阻断污染来源,从技术上优化建库方法无法完全实现。
[0097] 以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈