首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 组合化学;化合物库,如化学库、虚拟库 / 一种大量组织、细胞样本mRNA的分子条形码标记、文库构建、测序的方法

一种大量组织、细胞样本mRNA的分子条形码标记、文库构建、测序的方法

申请号 CN201710472582.7 申请日 2017-06-20 公开(公告)号 CN107502607A 公开(公告)日 2017-12-22
申请人 浙江大学; 发明人 欧阳宏伟; 吴兵兵; 李余; 潘宗友; 安晟锐; 刘怡孝; 邹晓晖;
摘要 本 发明 涉及一种大量组织、细胞样本mRNA的分子 条形码 标记、文库构建、测序的方法。能够精准地将提取的每个样本mRNA都标记上独特的分子条形码,并通过高效的逆转录、合成第二条链将每个样本的mRNA转换成带有独特分子条形码标签的双链DNA,随后通过优化的文库构建方法,可将大量标记了分子条形码的样本混合后,实现高通量样本文库构建及二代测序检测。
权利要求

1.一种用于对大量组织、细胞样本信使核糖核酸逆转录的含分子条形码的寡核苷酸引物序列组合,其特征在于:该序列组合含多个不同且唯一的条形码及oligo-dT的寡核苷酸链。
2.根据权利要求1所述的寡核苷酸引物序列组合,其特征在于:所述寡核苷酸链为:Z1-X(N)-T(18-30),其中X(N)是任意不同且唯一的分子条形码(barcode)序列,一个X代表ATGC四种脱核糖核酸基中的任意一个碱基,N为6-8,Z1为任意illumina i5测序引物序列,T(18-30)为18-30个连续脱氧核糖核酸T碱基。
3.一种通过逆转录对大量组织、细胞样本mRNA分子进行条形码标记的方法,其特征在于:该方法包括:
mRNA的提取、mRNA添加分子条形码、逆转录:每个样本加入含唯一且不同条形码及oligo-dT的寡核苷酸链作为特异逆转录引物,进行逆转录,其中所述寡核苷酸链为:Z1-X(N)-T(18-30),其中X(N)是任意不同且唯一的分子条形码序列,一个X代表ATGC四种脱氧核糖核酸碱基中的任意一个碱基,N为6-8,Z1为任意illumina i5测序引物序列,T(18-30)为
18-30个连续脱氧核糖核酸T碱基。
4.一种用于对大量组织、细胞样本构建3’端二代测序文库的方法,其特征在于:所述大量组织、细胞样本是含polyA尾巴的mRNA的真核生物的正常或异常病变的组织、细胞样本,该方法包括如下步骤:
1)、mRNA的提取;
2)、mRNA添加分子条形码、逆转录:每个样本加入含唯一且不同条形码及oligo-dT的寡核苷酸链作为特异逆转录引物,进行逆转录,其中所述寡核苷酸链为:Z1-X(N)-T(18-30),其中X(N)是任意不同且唯一的分子条形码序列,一个X代表ATGC四种脱氧核糖核酸碱基中的任意一个碱基,N为6-8,Z1为任意illumina i5测序引物序列,T(18-30)为18-30个连续脱氧核糖核酸T碱基;
3).合成第二条cDNA链
将大量标记有不同barcode序列的样本通过内参基因荧光定量QPCR检测每个样本的相对摩尔浓度;
根据每个样本的相对摩尔浓度,将标记有不同条形码的逆转录产物等摩尔浓度混合,并经AMPure XP磁珠纯化;将混合、纯化后的逆转录产物,利用NEB第二条cDNA链合成试剂盒合成第二条cDNA的链。
4)文库构建
首先将大量标记有不同barcode序列的双链cDNA样本,经AMPure XP磁珠(Beckman Coulter)纯化后,根据样本浓度,将其用TE(Tris,EDTA,PH7.4)稀释至0.2-1ng/μl,取1.25μl,加入3.75μl预混液[Nextera XT(Illumina)试剂盒中的Tagment DNA Buffer(2.5μl)和Amplification Tagment Mix(1.25μl)],涡旋20s,3000g离心5min后,在PCR仪上反应[55℃,10min;10℃,5min];等温度降到10℃后,上在反应体系中加入1.25μl NT Buffer终止反应;涡旋20s,3000g离心5min;然后在上述反应体系中依次加入:3.75μl Nextera PCR Master Mix(NPM),1.25μl的i5端PCR引物,1.25μl i7引物,涡旋20s,3000g离心2min后,在PCR仪上反应[72℃,3min;95℃,30s;12循环(95℃,10s;55℃,30s;72℃,60s);72℃,5min;
10℃,5min;];上述为总反应体系12.5μl,当对最终测序文库的产量需求较大,根据实际需求按倍数放大上述建库反应中每一步的试剂的体积。
5.根据权利要求4所述的用于对大量组织、细胞样本构建3’端二代测序文库的方法,其特征在于:所述的i5端PCR引物序列为AATGATACGGCGACCACCGAGATCT-Z2,Z2为步骤2对应的illumina i5测序引物Z1的5’端部分14-20个碱基序列;所述的i7引物为Nextera XT(Illumina)试剂盒的i7引物序列。
6.根据权利要求5所述的用于对大量组织、细胞样本构建3’端二代测序文库的方法,其特征在于:所述的Z2长度的选择标准为:对应的illumina i5测序引物Z1的5’端部分第一个碱基开始往3’端14-20个碱基序列,选择的序列退火温度在54-56℃。
7.一种用于对大量组织、细胞样本分析的3’端二代测序文库,其特征在于:该二代测序文库由包括权利要求4-6任一项的方法构建得到。
8.一种用于富集基于illumina二代测序文库的i5端核酸引物,其特征在于:
该i5端核酸引物序列为AATGATACGGCGACCACCGAGATCT-Z2,Z2为权利要求2所述的illumina i5测序引物Z1的5’端部分14-20个碱基序列。
9.根据权利要求8所述的一种用于富集基于illumina二代测序文库的i5端核酸引物,其特征在于:所述的Z2长度的选择标准为:对应的illumina i5测序引物Z1的5’端部分第一个碱基开始往3’端14-20个碱基序列,选择的序列退火温度在54-56℃。
10.一种标记有不同分子条形码的3‘端测序文库的二代测序、数据分析方法,其特征在于:该方法包括如下步骤:权利要求7所述测序文库采用illumina Hiseq2500或X-Ten平台进行双端测序,测得的数据先根据i7端index拆分,随后再根据i5端barcode将数据进一步细分成单个样本,其中i7端reads序列主要用于后续mapping得到基因表达数据,i5端reads序列主要用于后续根据各自barcode序列将测序数据分开到单个样本;拆分得到的单个样本的数据分别通过标准流程进行mapping、标准化得到各个样本基因表达量列表;用于后续的聚类分析、主成分分析、差异基因表达量分析、基因本体论分析、信号通路分析、疾病分子分型等。

说明书全文

一种大量组织、细胞样本mRNA的分子条形码标记、文库构建、

测序的方法

技术领域

[0001] 本发明涉及一种基于分子条形码标记的大量组织、细胞mRNA建库、测序新方法,可用于高通量同时测序大量样本mRNA表达量,解析各个样本基因表达情况。

背景技术

[0002] 随着精准医疗计划的进展,高通量基因测序技术将在以后的疾病精确诊断、疾病亚型分类、精准监控疾病发生发展、精准指导用药、特异疾病相关基因组数据库建立等方面发挥越来越关键作用。尽管测序成本已经显著降低,然而一旦涉及高通量、大量样本的测序,成本依然较高。
[0003] 传统mRNA测序前的文库制备往往是一个样本构建一个测序文库,而且是基因全长建库,然后将构建的文库混合后测序,构建测序文库的高成本将极大限制所能检测的样本数量,较难实现大量样本同时检测;而且由于是基因全长建库,一旦样本数量增加,测序成本也极大增加,因此极大限制了其广泛的运用。
[0004] 因此,基于现有方法的以上不足,本发明了一种大量组织、细胞样本信使核糖核酸(mRNA)的分子条形码标记、文库构建、测序的新方法。

发明内容

[0005] 本发明包含将大量组织、细胞样本信使核糖核酸(mRNA)标记分子条形码、逆转录、合成第二条链、文库构建及二代测序整个流程的新方法。所述方案能够精准地将提取的每个样本mRNA都标记上独特的分子条形码,并通过高效的逆转录、合成第二条链将每个样本的mRNA转换成带有独特分子条形码标签的双链DNA,随后通过优化的文库构建方法,可将大量标记了分子条形码的样本混合后,实现高通量样本文库构建及二代测序检测。该分子条形码标记测序方法与现今主流的单个样本文库建库及测序方法比较,极大的降低了构建测序文库及测序的成本。该方法可实现高通量多样本同时建库、测序,可用于研究高通量筛选不同处理因素对同一细胞、组织的影响、或一种处理对全身多个不同组织影响、大量临床样本mRNA测序、或实时活检多个人群血液淋巴细胞表达谱的改变等高通量研究。
[0006] 本发明采用的技术方案为:
[0007] 本发明涉及一种用于对大量(多个)组织、细胞样本信使核糖核酸(mRNA)逆转录的含分子条形码的寡核苷酸引物序列组合:该序列组合含多个不同且唯一的条形码(barcode)及oligo-dT的寡核苷酸链。
[0008] 优选地,所述寡核苷酸链为:Z1-X(N)-T(18-30),其中X(N)是任意不同且唯一的分子条形码(barcode)序列,一个X代表ATGC四种脱核糖核酸基中的任意一个碱基,N为6-8,Z1为任意illumina i5测序引物序列(如序列ACACTCTTTCCCTACACGACGCTCTTCCGATCT),T(18-30)为18-30个连续脱氧核糖核酸T碱基。
[0009] 本发明方法针对的对象即大量的组织、细胞样本的样本数数量范围在1-5000之间均适用,相应的上述序列组合中寡核苷酸链的数量优选为1-210个之间。
[0010] 优选地,当样本数量为1-40个时,该序列组合中寡核苷酸链数量(即X(N)的数量)跟样本数量一致,(比如当样本数量为6个时,该序列组合含6个不同且唯一的条形码及oligo-dT的寡核苷酸链),当40<样本数量≤960个时,该序列组合中寡核苷酸链数量为40个(如样本数量为100、200、300时,该序列组合中寡核苷酸链数量为40个);当960<样本数量≤5000个时,该序列组合中寡核苷酸链数量至少大于样本数/24,且数量为整数。
[0011] 优选地,该序列组合中,多个寡核苷酸链之间Z1序列相同,T(18-30)中T碱基数量相同。
[0012] 本发明中所述大量组织、细胞样本是含polyA尾巴的mRNA的真核生物(例如酵母、小鼠、人、蝾螈等)的正常或异常病变的组织、细胞样本。
[0013] 本发明还提供了一种通过逆转录对大量组织、细胞样本信使核糖核酸(mRNA)分子进行条形码标记的方法,该方法包括:
[0014] mRNA的提取、mRNA添加分子条形码、逆转录:每个样本(取1-1000ng总RNA)加入含唯一且不同条形码(barcode)及oligodT的寡核苷酸链(1-10μM)作为特异逆转录引物,进行逆转录,其中所述寡核苷酸链为:Z1-X(N)-T(18-30),其中X(N)是任意不同且唯一的分子条形码(barcode)序列,一个X代表ATGC四种脱氧核糖核酸碱基中的任意一个碱基,N为6-8,Z1为任意illumina i5测序引物序列,T(18-30)为18-30个连续脱氧核糖核酸T碱基。
[0015] 逆转录反应试剂可以兼容任何商业化逆转录酶及缓冲体系。
[0016] 优选地,样本信使核糖核酸(mRNA)的提取可通过液氮速冻、组织研磨或直接裂解后,通过传统的trizol法提取总RNA或直接通过任何商业化RNA提取试剂盒提取。
[0017] 本发明还提供了一种用于对大量(多个)组织、细胞样本构建3’端二代测序文库的方法,该方法包括如下步骤:
[0018] 1)、mRNA的提取;
[0019] 2)、mRNA添加分子条形码、逆转录:每个样本(取1-1000ng总RNA)加入含唯一且不同条形码(barcode)及oligodT的寡核苷酸链(1-10μM)作为特异逆转录引物,进行逆转录,其中所述寡核苷酸链为:Z1-X(N)-T(18-30),其中X(N)是任意不同且唯一的分子条形码(barcode)序列,一个X代表ATGC四种脱氧核糖核酸碱基中的任意一个碱基,N为6-8,Z1为任意illumina i5测序引物序列,T(18-30)为18-30个连续脱氧核糖核酸T碱基。
[0020] 3).合成第二条cDNA链
[0021] 将大量标记有不同barcode序列的样本通过内参基因荧光定量QPCR检测每个样本的相对摩尔浓度;
[0022] 根据每个样本的相对摩尔浓度,(每个样本取1-1000ng,)将标记有不同条形码的逆转录产物等摩尔浓度混合,并经AMPure XP磁珠(Beckman Coulter)纯化;将混合、纯化后的逆转录产物,(取1-1000ng,)利用NEB第二条cDNA链合成试剂盒合成第二条cDNA的链。
[0023] 4).文库构建
[0024] 首先将大量标记有不同barcode序列的双链cDNA样本,经AMPure XP磁珠(Beckman Coulter)纯化后,根据样本浓度,将其用TE(Tris,EDTA,PH7.4)稀释至0.2-1ng/μl,取1.25μl,加入3.75μl预混液[Nextera XT(Illumina)试剂盒中的Tagment DNA Buffer(2.5μl)和Amplification Tagment Mix(1.25μl)],涡旋20s,3000g离心5min后,在PCR仪上反应[55℃,10min;10℃,5min];等温度降到10℃后,上在反应体系中加入1.25μl NT Buffer终止反应;涡旋20s,3000g离心5min;然后在上述反应体系中依次加入:3.75μl Nextera PCR Master Mix(NPM),1.25μl的i5端PCR引物,1.25μl i7引物,涡旋20s,3000g离心2min后,在PCR仪上反应[72℃,3min;95℃,30s;12循环(95℃,10s;55℃,30s;72℃,60s);72℃,5min;10℃,5min;];上述为总反应体系12.5μl,当对最终测序文库的产量需求较大,根据实际需求按倍数放大上述建库反应中每一步的试剂的体积。(如需50μl文库则每步反应的试剂均需增加至原来的4倍)。
[0025] 所述的i5端PCR引物序列为AATGATACGGCGACCACCGAGATCT-Z2,其中AATGATACGGCGACCACCGAGATCT为illumina测序i5端linker序列,Z2为步骤2对应的illumina i5测序引物Z1的5’端部分14-20个碱基序列。所述的i7引物为Nextera XT(Illumina)试剂盒的i7引物序列。
[0026] 更优选地,所述的Z2长度的选择标准为:对应的illumina i5测序引物Z1的5’端部分第一个碱基开始往3’端14-20个碱基序列,以选择的序列退火温度在54-56℃为最佳。
[0027] 本发明还提供了一种用于富集基于illumina二代测序文库的i5端核酸引物,所述的i5端核酸引物序列为AATGATACGGCGACCACCGAGATCT-Z2 ,其中AATGATACGGCGACCACCGAGATCT为illumina测序i5端linker序列,Z2为上述对应的illumina i5测序引物Z1的5’端部分14-20个碱基序列。
[0028] 更优选地,所述的Z2长度的选择标准为:对应的illumina i5测序引物Z1的5’端部分第一个碱基开始往3’端14-20个碱基序列,以选择的序列退火温度在54-56℃为最佳。
[0029] 具体地,上述的用于大量组织、细胞样本的文库构建方法,该方法包括如下步骤:
[0030] 1).总RNA提取
[0031] 组织研磨、细胞消化后,转移至1.5mL离心管,加Trizol 1mL,剧烈振荡30s,室温静置5-10min。加入200μl三氯甲烷至同一离心管,上下颠倒混匀15s,静置5min后,12000rpm,4℃离心15min。分三层,取上清液至新1.5ml RNAse free离心管,加等体积的异丙醇,涡旋混匀后,-20℃静置30min;12000rpm,4℃离心15min。弃上清,加1ml预冷的75%乙醇洗,12000rpm,4℃离心10min。弃上清,将沉淀室温干燥10min后,加DEPC溶解沉淀。Nano Drop通过260/280,260/230检测所提取的RNA的浓度和纯度。样本立即进行后续实验或保存-80℃箱。
[0032] 2).mRNA添加分子条形码、逆转录(图1)
[0033] 每个样本取1.5μl(1-1000ng)提取的总RNA,加入0.5μl含barcode及oligodT的寡核酸链Z1-X(N)-T(18-30)(其中X(N)是任意不同且唯一的分子条形码(barcode)序列,barcode的种类/数量根据实际样本数量选择N数量的X进行排列组合,理论上可得到4N种不同的barcode序列,Z1为任意illumina i5测序引物序列,T(18-30)为18-30个连续脱氧核糖核酸T碱基)(1-10μM),0.5μldNTP,涡旋震荡混匀,3000rpm,4℃,离心3min,在PCR仪上反应(72℃,3min)后,立即放置在冰上,再在每个孔中依次加入2.5μl逆转录混合液[0.25μl SuperScript II reverse transcriptase,1μl 5×Superscript II First-Strand Buffer,0.125μl DTT,0.125μl RNAse inhibitor(Takara),1μl betaine(5M,Sigma),0.045μl MgCl2(1M,Sigma)],涡旋震荡混匀,3000rpm,4℃,离心3min后。在PCR仪上反应{42℃,90min;[50℃,2min;42℃,2min]10个循环,70℃,15min;16℃,5min;}。
[0034] 3).质检
[0035] 将上述逆转录产物用三蒸水稀释10倍后,取1μl作为模板,加入0.5μl内参基因(beta-actin/gapdh等)上下游引物(10μM),10μl 2X PCR mix,8μl三蒸水,涡旋震荡混匀,3000rpm,4℃,离心3min后,在PCR仪上反应[95℃,3min;30个循环(95℃,30s;60℃,30s;72℃,30s);72℃,3min;]。取8μl PCR产物在1%的琼脂糖凝胶电泳(80V,30min),通过电泳条带的大小及明暗,检测上述逆转录的效率。将标记有不同barcode序列的逆转录样本,每个各取5μl混合到同一个1.5ml的离心管中。将混合后的样本用AMPure XP磁珠(Beckman Coulter)按照产品说明书纯化,去除无机盐离子、剩余的引物等杂质。将纯化后的洗脱产物,用Qubit检测样本中cDNA的浓度。反应结束后样本放置-20℃,或直接进行后续实验。
[0036] 4).合成第二条cDNA链
[0037] 利用NEB合成第二条链试剂盒合成逆转录后cDNA的第二条链:取100ng上述混合、纯化后的cDNA样本,依次加入2μl Second Strand Synthesis Reaction Buffer,1μl Second Strand Synthesis Enzyme Mix,并加水至20μl体系,涡旋震荡混匀,3000rpm,4℃,离心3min后,在PCR仪上反应(16℃,2.5h)。
[0038] 将反应后的样本用AMPure XP磁珠(Beckman Coulter)按照产品说明书纯化,去除无机盐离子、剩余的引物等杂质。将纯化后的洗脱产物,用Qubit检测样本中双链DNA的浓度。
[0039] 5).文库构建
[0040] 片段化:
[0041] 将上述质检通过的样本,用Nextera XT(Illumina)试剂盒构建DNA测序文库:根据Qubit检测的样本浓度,将其用TE(Tris,EDTA,PH7.4)稀释至0.5-1ng/μl,取1.25μl,加入3.75μl预混液[试剂盒中的Tagment DNA Buffer(2.5μl)和Amplification Tagment Mix(1.25μl)],涡旋20s,3000g离心5min后,在PCR仪上反应[55℃,10min;10℃,5min]。等温度降到10度后,马上在反应体系中加入1.25μl NT Buffer终止反应。涡旋20s,3000g离心
5min。
[0042] PCR富集:
[0043] 在上述反应体系中依次加入:3.75μl Nextera PCR Master Mix(NPM),1.25μl的i5端富集引物(AATGATACGGCGACCACCGAGATCT-Z2,其中AATGATACGGCGACCACCGAGATCT为illumina测序i5端linker序列,Z2为上述对应的illumina i5测序引物Z1的5’端部分14-20个碱基序列)(92ng/μl),1.25μl试剂盒的i7引物,涡旋20s,3000g离心2min后,在PCR仪上反应[72℃,3min;95℃,30s;12循环(95℃,10s;55℃,30s;72℃,60s);72℃,5min;10℃,5min;]
[0044] 质检:
[0045] 将建库后的样本用AMPure XP磁珠(Beckman Coulter)按照产品说明书纯化,去除无机盐离子、剩余的引物等杂质。将纯化后的洗脱产物,用Qubit和Agilent Bioanalyzer2200检测样本中双链DNA的浓度、碱基序列长度分布情况。最后将构建的文库连接到T载体、转化感受态细菌后,在抗性平板挑选阳性细菌克隆,送公司进行一代测序,作为文库随机抽样质检,检测文库序列中mRNA序列所占的比例。
[0046] 本发明还提供了一种用于对大量组织、细胞样本分析的3’端二代测序文库,该二代测序文库由包括上述的方法构建得到。
[0047] 本发明还提供了一种标记有不同分子条形码的3‘端测序文库的二代测序、数据分析方法,该方法包括如下步骤:所构建的上述测序文库采用illumina Hiseq2500或X-Ten平台进行双端测序,测得的数据先根据i7端index拆分,随后再根据i5端barcode将数据进一步细分成单个样本,其中i7端reads序列主要用于后续mapping得到基因表达数据,i5端reads序列主要用于后续根据各自barcode序列将测序数据分开到单个样本;拆分得到的单个样本的数据分别通过标准流程进行mapping、标准化得到各个样本基因表达量列表。用于后续的聚类分析、主成分分析、差异基因表达量分析、基因本体论分析、信号通路分析等。
[0048] 本发明方法可用于小鼠各个组织的基因表达检测、以及临床病人样本的疾病相关基因表达水平监测等方面的应用。
[0049] 本发明所具有的优点和有益效果:
[0050] 该分子条形码标记方法与现今主流的单个样本建库、测序方法比较,极大的降低了整个过程的成本,特别是构建测序文库及测序的成本。由于是将单个样本标记分子条形码后,混合建库,因此当进行高通量样本测序时建库成本可成几何级降低(可根据barcode的个数至少降低40-100倍)。同时本方法仅富集基因的3‘端区域进行建库,而非传统的基因全长建库、测序,因此可减少测序数据量至原来全长测序的1/10-1/20,因此至少可将测序成本降到原来的1/10。附图说明
[0051] 图1.逆转录、合成第二条cDNA链原理图;
[0052] 图2.逆转录质量检验(beta-Actin内参基因PCR、电泳);
[0053] 图3.测序文库构建原理图;
[0054] 图4.文库质量检验(Agilent Bioanalyzer 2200);
[0055] 图5.文库质量检验(QPCR定量);
[0056] 图6.二代测序后数据质量检验(来自6只小鼠来源151个组织样本测序后每个样本得到的原始数据量);
[0057] 图7.二代测序后数据质量检验(来自6只小鼠的151个组织样本测序后每个样本得到的数据量);
[0058] 图8.二代测序后数据质量检验(来自6只小鼠的151个组织样本测序后每个样本数据高质量数据比例);
[0059] 图9.来自6只小鼠的151个组织样本测序后每个样本检测到的基因数(counts>5)频率分布图;
[0060] 图10.来自6只小鼠的151个组织样本测序后每个样本mapping到的reads数与检测到基因数(counts>5)间关系;
[0061] 图11.来自6只小鼠的151个组织样本测序后同一种组织样本可根据其与其他组织间差异表达基因聚成一类;
[0062] 图12.来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本主成分分析;
[0063] 图13.来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本间的差异表达基因[上调(红色)与下调(蓝色)];
[0064] 图14.来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本比较后得到的前300个差异表达基因热图;
[0065] 图15.来自三例骨关节炎临床病人的关节软骨(cartilage)和软骨下骨(subchondral bone)样本中代表性标志基因表达情况;

具体实施方式

[0066] 下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
[0067] 实施例1来自6只小鼠的151个组织样本通过Trizol法提取总RNA
[0068] 1、实验区喷RNase抑制剂,组织通过研磨仪或液氮速冻后研磨成粉末,加1ml Trizol,剧烈振荡30s,室温静置5min。
[0069] 2、加入200μl(1/5体积)三氯甲烷,涡旋振荡,充分乳化溶液呈乳白状,静置10min。
[0070] 3、预冷离心机,离心:12000rpm,4℃,15min。
[0071] 4、将上清转移到新的1.5ml RNase-free EP管中(每管吸约400μl,宁少勿多)。
[0072] 5、加入等量异丙醇(400μl),上下颠倒充分混匀,-20℃静置30min。
[0073] 6、离心:12000rpm,4℃,15min。
[0074] 7、小心弃去上清,加入75%的乙醇(DEPC水现配)1ml,轻轻上下颠倒洗涤离心管管壁。
[0075] 8、离心:12000rpm,4℃,离心10min。
[0076] 9、弃上清(可先倾倒,再瞬时离心后用枪头吸),干10min。
[0077] 10、根据沉淀大小,加入10μl或20μl含1U/μl RNase inhibitor的无菌水,4℃溶解RNA,静置30min,测浓度。
[0078] 实施例2来自6只小鼠的151个组织样本总RNA标记barcode分子标签、逆转录及PCR质检
[0079] 逆转录:
[0080] 每个样本取1.5μl(100ng)提取的总RNA,每个样本分别加入0.5μl的dNTP和0.5μl的40种含不同barcode的逆转录引物(其中ACACTCTTTCCCTACACGACGCTCTTCCGATCT为Z1的一种,是illumina i5测序引物序列,最后是30个连续的T碱基oligodT30,测序引物与oligodT30之间是40种含6个不同碱基组合的barcode序列),涡旋震荡混匀,3000rpm,4℃,离心3min,在PCR仪上反应(72℃,3min)后,立即放置在冰上,再在每个孔中依次加入2.5μl逆转录混合液[0.25μl SuperScript II reverse transcriptase,1μl5×Superscript II First-Strand Buffer,0.125μl DTT,0.125μl RNAse inhibitor(Takara),1μl betaine(5M,Sigma),0.045μl MgCl2(1M,Sigma)],涡旋震荡混匀,3000rpm,4℃,离心3min后。在PCR仪上反应{42℃,90min;[50℃,2min;42℃,2min]10个循环,70℃,15min;16℃,5min;}。
[0081] 40种含不同barcode的逆转录引物:(5’—3’)
[0082] ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCACATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTACTGCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTATCAGCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCGACTATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCGATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTAGCACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTAGCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCACGTATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTATGCTCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTACATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGCATCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTACATGCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTACGTCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCATGCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCTAGTCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTGCATCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCATCTGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGATCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTAGCACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTACTCGATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTCACGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTCAGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTCAGACTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGACTCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCACAGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTACACTGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGCAGTATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTGATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTAGTCGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTATGACGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCGATGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTAGATCGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGAGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTAGATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTGTACGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTATCGTGTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGTGCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTGAGCTATTTTTTTTTTTTTTTTTTTTTTTTTTTTTT[0083] 逆转录产物PCR质检:
[0084] 将上述逆转录产物用三蒸水稀释10倍后,取各1μl作为模板,加入0.5μl内参基因(beta-actin)上下游引物(10μM),10μl 2X PCR mix,8μl三蒸水,涡旋震荡混匀,3000rpm,4℃,离心3min后,在PCR仪上反应[95℃,3min;30个循环(95℃,30s;60℃,30s;72℃,30s);72℃,3min;]。取8μl PCR产物在1%的琼脂糖凝胶电泳(80V,30min),通过电泳条带的大小及明暗,检测上述逆转录的效率。
[0085] 结果显示:所有151个样本均可扩展出较亮且亮度均一的特异小鼠内参基因beta-actin的电泳条带(图2),说明逆转录成功,可用于后续实验。
[0086] 实施例3来自6只小鼠的151个组织样本的第二条链cDNA链合成
[0087] 混合样本:
[0088] 将标记有40个不同barcode序列的逆转录产物,每个各取5μl混合到同一个1.5ml的离心管中(151个样本可混入4管1.5ml离心管)。将混合后的4个样本用AMPure XP磁珠(Beckman Coulter)按照产品说明书纯化,去除无机盐离子、剩余的引物等杂质。将纯化后的洗脱产物,用Qubit检测样本中cDNA的浓度。
[0089] 第二条链cDNA链合成:
[0090] 利用NEB合成第二条链试剂盒合成逆转录后cDNA的第二条链:每个上述混合后的4个样本分别取100ng,依次加入2μl Second Strand Synthesis Reaction Buffer,1μl Second Strand Synthesis Enzyme Mix,并加水至20μl体系,涡旋震荡混匀,3000rpm,4℃,离心3min后,在PCR仪上反应(16℃,2.5h)。
[0091] 将反应后的4个样本用AMPure XP磁珠(Beckman Coulter)按照产品说明书纯化,去除无机盐离子、剩余的引物等杂质。将纯化后的洗脱产物,用Qubit检测样本中双链DNA的浓度。
[0092] 实施例4来自6只小鼠的151个组织样本的测序文库构建
[0093] 片段化:
[0094] 将上述纯化后的4个双链cDNA链样本,用Nextera XT(Illumina)试剂盒构建DNA测序文库:根据Qubit检测的样本浓度,将4个样本用TE(Tris,EDTA,PH7.4)稀释至0.5-1ng/μl,各取1.25μl,加入3.75μl预混液[试剂盒中的Tagment  DNA Buffer(2.5μl)和Amplification Tagment Mix(1.25μl)],涡旋20s,3000g离心5min后,在PCR仪上反应[55℃,10min;10℃,5min]。等温度降到10度后,马上在反应体系中加入1.25μl NT Buffer终止反应。涡旋20s,3000g离心5min。
[0095] PCR富集:
[0096] 在上述反应体系中依次加入:3.75μl Nextera PCR Master Mix(NPM),1.25μl的富集引物(5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACG-3’,下划线部分即是Z2序列,即相应Z1序列的5’端起始18个碱基)(92ng/μl),1.25μl试剂盒的i7引物(由于是4个样本,因此选择四个不同的i7引物进行PCR富集),涡旋20s,3000g离心2min后,在PCR仪上反应[72℃,3min;95℃,30s;12循环(95℃,10s;55℃,30s;72℃,60s);72℃,5min;10℃,5min;][0097] 实施例5来自6只小鼠的151个组织样本测序文库的质检
[0098] Bioanalyzer2200质检:
[0099] 将建库后的4个含不同i7index的文库等体积混合成一个文库,用AMPureXP磁珠(Beckman Coulter)按照产品说明书纯化,去除无机盐离子、剩余的引物等杂质。将纯化后的洗脱产物,用Qubit和Agilent Bioanalyzer2200检测样本中双链DNA的浓度、碱基序列长度分布情况,结果显示,文库所含的碱基序列大小在200-2000bp之间,峰值在947bp位置(图4),复合二代测序上机的文库质检要求,表明建库成功。
[0100] QPCR浓度检测:
[0101] 随后将混合后的一个文库通过QPCR利用文库标准品(将标准品稀释成20、2、0.2、0.02、0.002、0.0002pM不同浓度),根据标准品的Ct值,做标准曲线的方法(图5),再根据样本的Ct值,通过标准曲线计算出所构建文库的摩尔浓度为11.1555468nM。
[0102] 文库的一代测序质检:
[0103] 最后将构建的文库连接到T载体、转化感受态细菌后,在抗性平板挑选阳性细菌克隆,送公司进行一代测序,作为文库随机抽样质检,检测文库序列中mRNA序列所占的比例,结果显示(表1),151个样本构建的文库(文库1)随机选择的10个片段中有5个是mRNA片段,表明该文库50%插入片段为mRNA,可用于后续二代测序。
[0104] 实施例6来自6只小鼠的151个组织样本测序文库的二代测序
[0105] 将包含15个样本的文库利用illumina X-Ten平台进行双端测序,其中i7端reads序列主要用于后续mapping而得到基因表达数据,i5端reads序列主要用于后续根据各自barcode序列将测序数据分开到单个样本。测得的数据先根据i7端index拆分,随后再根据i5端barcode将数据进一步细分成151个样本的测序数据。
[0106] 实施例7来自6只小鼠的151个组织样本测序文库的二代测序数据质检[0107] 将测序后拆分得到的151个样本来源的数据进行质检发现:151个样本平均每个样本得到的原始数据(图6)和过滤后的纯数据(图7)均在2-4M之间,高质量数据比率在86-90%(图8),表明测序成功,得到的数据质量较高。
[0108] 实施例8来自6只小鼠的151个组织样本测序文库二代测序数据的分析[0109] 将测序得到的高质量纯数据通过tophat、Cufflinks、Cuffmerge等软件进行QC、比对mapping到小鼠基因组参考序列上,经过统计来自6只小鼠的151个组织样本测序后每个样本检测到的基因数(counts>5)在6000-12000之间(图9),并且检测到的基因数会随着样品测序深度的增加而增加,但当测序深度达到1M每个样本时,检测到的基因数将达到峰值,进入平台期,即使再提高测序深度,检测到的基印数不会增加(图10)。
[0110] 将来自6只小鼠的151个组织样本的基因表达量利用R语言的edgeR程序包进行标准化、获得差异表达基因、聚类,发现将来自6只小鼠的151个组织样本测序后同一种组织样本可根据其与其他组织间差异表达基因聚成一类(图11)。
[0111] 实施例9来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本的总RNA提取、逆转录、第二条链cDNA链合成、测序文库构建
[0112] 1、实验区喷RNase抑制剂,组织通过研磨仪或液氮速冻后研磨成粉末,加1ml Trizol;
[0113] 2、加入200μl(1/5体积)三氯甲烷,涡旋振荡,充分乳化溶液呈乳白状,静置10min;
[0114] 3、预冷离心机,离心:12000g,4℃,15min。
[0115] 4、将上清转移到新的1.5ml RNase-free EP管中(每管吸约400μl,宁少勿多)。
[0116] 5、加入等体积的70%乙醇(400μl),上下颠倒充分混匀,室温静置5min。
[0117] 6、将混合液转移至Qiagen RNeasy mini kit的结合柱上,10000rpm,4℃,15s。
[0118] 7、小心弃去液体,向结合柱上加入试剂盒配套的DNA酶处理,用于降解潜在的基因组DNA污染。
[0119] 8、按照试剂盒说明书向结合柱中依次加入700μl、500μl、500μl的Buffer RW1、RPE、RPE三种buffer,并依次10000rpm,4℃,15s离心去除。
[0120] 9、12000rpm,4℃,2min离心后将结合柱转移至新的1.5ml收集管,向柱子中加入10μl或20μl含1U/μl RNase inhibitor的无菌水。
[0121] 10、静置3min后,12000rpm,4℃,2min洗脱RNA,测浓度。
[0122] 11、来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本总RNA标记barcode分子标签、逆转录、第二条链cDNA链合成、测序文库构建方法同上述151个样本的样本准备方法。
[0123] 其中选择的逆转录引物为:(5’-3’)
[0124] ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCACATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTTACTGCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTATCAGCTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCGACTATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTCATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCGATTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT
[0125] PCR富集过程中用到的富集引物为:
[0126] 5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACG-3’。
[0127] 实施例10来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本测序文库质检、二代测序、数据质检
[0128] 将构建后的包含3例病人的6个临床样本的测序文库连接到T载体、转化感受态细菌后,在抗性平板挑选阳性细菌克隆,送公司进行一代测序,作为文库随机抽样质检,检测文库序列中mRNA序列所占的比例,结果显示(表1),6个临床样本的测序文库(文库2)随机选择的10个片段中有6个是mRNA片段,表明该文库60%插入片段为mRNA,可用于后续二代测序。
[0129] 将包含6个临床样本的文库利用illumina X-Ten平台进行双端测序,其中i7端reads序列主要用于后续mapping而得到基因表达数据,i5端reads序列主要用于后续根据各自barcode序列将测序数据分开到单个样本。测得的数据先根据i7端index拆分,随后再根据i5端barcode将数据进一步细分成6个样本的数据。
[0130] 实施例11来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本二代测序结果分析
[0131] 将测序得到的6个临床样本的高质量纯数据通过tophat、Cufflinks、Cuffmerge等软件进行QC、比对mapping到人基因组参考序列上。
[0132] 将来自6个临床样本的基因表达量利用R语言的edgeR程序包进行标准化、主成分分析、获得差异表达基因、聚类。主成分分析(PCA)结果显示来自三例骨关节炎临床病人的关节软骨(C)和软骨下骨(B)样本可根据各自的表达基因,同一种组织的三个样本之间距离较近,两种不同组织间距离较远,可通过PCA将两种组织区分开(图12)。进一步比较关节软骨(C)和软骨下骨(B)样本,可得到大量组织间差异表达基因(图13),并通过热图将前300个差异表达基因进行可视化(图14),并从中选取了骨和软骨代表性的标志基因(图15),均特异在相应组织高表达。最后选取三例骨关节炎临床病人软骨下骨中300个上调和下调的差异表达基因,进行基因本体论分析(gene ontology),表明三例骨关节炎临床病人软骨下骨中300个上调基因主要参与骨组织中血管形成(blood vessel morphogenesis),而软骨下骨中300个下调的基因主要参与软骨组织的糖胺聚糖生物合成过程(glycosaminoglycan biosynthetic process)等。
[0133] 表1.文库质量检验(PCR、TA克隆、一代测序、比对结果)
[0134] 文库1比对结果:
[0135]1 小鼠3号染色体clone RP23-349H13序列
2 小鼠血红蛋白Hbb-bt基因信使RNA序列
3 小鼠真核翻译延伸因子2(Eef2)基因信使RNA序列
4 小鼠磷酸葡萄糖酸脱氢酶(Pgd)基因信使RNA序列
5 小鼠线粒体基因序列
6 小鼠真核翻译起始因子4A2(Eif4a2)基因非编码RNA序列
7 小鼠线粒体基因序列B82-2748-95
8 小鼠Sptbn1基因信使RNA序列
9 小鼠线粒体基因序列clone:B82-2748-95
10 小鼠3号染色体序列clone RP23-349H13
[0136] 文库2比对结果:
[0137]1 人TAPBP基因信使RNA序列
2 未知
3 人PRUNE2基因信使RNA序列
4 人FOXC1基因信使RNA序列
5 未知
6 人205号染色体上CHM1_1.1基因信使RNA序列
7 人线粒体基因
8 人5号染色体上DIAPH1基因信使RNA序列
9: 人纤连蛋白1(FN1)信使RNA序列
10 人核糖体蛋白S16(RPS16)信使RNA序列
[0138] 表2.三例骨关节炎临床病人软骨下骨中300个上调的差异表达基因的基因本体论分析(gene ontology)
[0139]GO生物过程名称 富集倍数 P值
调控葡萄糖代谢过程 11.95 2.01E-02
血管形成 5.66 1.37E-02
细胞对含氧化合物的反应 3.7 1.47E-02
对内源性刺激的反应 2.81 4.99E-02
调控多细胞生物过程 2.4 2.60E-03
信号转导 1.89 6.50E-03
[0140] 表3.三例骨关节炎临床病人关节软骨中300个上调的差异表达基因的基因本体论分析(gene ontology)
[0141]GO生物过程名称 富集倍数 P值
ADP代谢过程 18.58 1.13E-03
二磷酸核苷磷酸化 15.49 3.82E-03
糖胺聚糖生物合成过程 11.27 1.22E-03
黏多醣代谢过程 10.96 1.54E-03
含硫化合物生物合成过程 7.58 7.23E-04
细胞外基质的组织 6.01 9.97E-04
酸代谢过程 3.57 1.56E-04
单细胞生物生物合成过程 2.9 1.47E-02
QQ群二维码
意见反馈