首页 / 专利库 / 专利权 / 第I章 / 国际申请 / 说明书 / 序列表 / 一种获得艾纳香的转录组及功能基因的方法

一种获得纳香的转录组及功能基因的方法

阅读:679发布:2023-03-01

专利汇可以提供一种获得纳香的转录组及功能基因的方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种获得 艾 纳香的转录组及功能基因的方法:(a)提取艾纳香的总RNA,分离出3’端带有polyA的mRNA,随机打断mRNA,反转录并合成双链cDAN;(b)对获得的序列进行测序;(c)将测序结果进行拼接与组装,获得Unigene,并确定其方向;(d)对获得的基因转录本分别进行 生物 信息学分析,即得。采用该方法共得到48197273个序列信息,100341条Unigene;包含RNA-seq名称、序列长度及表达数、COG预测、COG功能注释、KEGG注释、KEGG-pathway、GO注释的共60477条信息;包括对获得的序列信息进行CDS核酸序列预测的蛋白功能注释共37283条信息。,下面是一种获得纳香的转录组及功能基因的方法专利的具体信息内容。

1.一种获得纳香的转录组及功能基因的方法,其特征在于,包括以下步骤:
(a)提取艾纳香的总RNA,分离出3’端带有polyA的mRNA,随机打断mRNA回收200-700bp片段,反转录并合成双链cDAN;
(b)对获得的序列进行测序;
(c)将测序结果进行拼接与组装,获得Unigene,并确定其方向;
(d)对获得的基因转录本分别进行生物信息学分析,从而获得艾纳香的基因信息及功能基因。
2.根据权利要求1所述的方法,其特征在于,步骤(d)中,所述的生物信息学分析包括:
基因注释、CDS预测、和差异表达基因筛选及代谢通路分析。
3.根据权利要求2所述的方法,其特征在于,所述的基因注释包括:表达量注释和功能注释。
4.根据权利要求2所述的方法,其特征在于,所述的差异表达基因筛选包括:GO功能显著性富集分析和Pathway显著性富集分析。
5.一种采用权利要求1-4中任意一项所述方法获得的艾纳香的转录组及功能基因。

说明书全文

一种获得纳香的转录组及功能基因的方法

技术领域

[0001] 本发明属于生物技术领域,具体涉及艾纳香的转录组信息、功能基因表达量及其注释信息,以及它们的获得方法。

背景技术

[0002] 艾纳香(Blumea balsamifera L.DC.)为菊科艾纳香属多年生木质草本植物,主要分布于我国海南、贵州、广西、广东、南、台湾等省。以其全草或地上部分入药,具有镇痛、发汗、祛除湿、去痰止咳、通经止血等功效,在黎族、苗族、壮族等少数民族地区有着悠久的用药历史,是一种重要的民间药物。同时艾纳香也是获取天然片(艾片)的重要植物来源之一。并且,在精致艾片过程中所产生的艾油具有扩张血管、降低血压、抑制交感神经的作用,因而被广泛应用于医药行业。
[0003] 关于艾纳香,过去的研究主要集中在药理和有效成分方面,对其活性成分的研究相对较少。有限的研究表明,艾纳香具有药理作用化学成分的主要集中在黄类和挥发油成分上。虽然,关于艾纳香中挥发油及生物的含量及在不同栽培环境、措施及品种间有一定的报道,但是上述研究均未能揭示艾纳香生长发育规律与活性成分的形成和积累的关系,以及外界激素等诱导因子处理下活性物质积累的响应规律,更不能从本质上揭示活性物质的生物合成机制、代谢调控途径及调控平。目前分子生物学是研究艾纳香活性成分代谢调控途径的重要手段。然而,目前对艾纳香分子生物学方面的研究较少,基因信息十分匮乏,使得艾纳香基因层面的研究进展十分缓慢。因为没有该物种的全基因组序列,一直以来对于该物种的研究还停留在传统生物学的阶段,而分子生物学层面的研究相对较少,主要是基于近缘物种的相似基因进行研究。

发明内容

[0004] 本发明的目的在于克服现有技术中难以从无基因参考序列的物种中获得基因信息的技术难题,提供一种获得艾纳香的全长基因信息,基因的表达量及功能基因的发现和研究方法。
[0005] 本发明的第一个方面是提供一种获得艾纳香的转录组及功能基因的方法,包括以下步骤:
[0006] (a)提取艾纳香的总RNA,分离出3’端带有polyA的mRNA,随机打断mRNA回收200-700bp片段,反转录并合成双链cDAN;
[0007] (b)对获得的序列进行测序;
[0008] (c)将测序结果进行拼接与组装,获得Unigene,并确定其方向;
[0009] (d)对获得的基因转录本分别进行生物信息学分析,从而获得艾纳香的基因信息及功能基因。
[0010] 其中,步骤(d)中,所述的生物信息学分析包括但不限于:基因注释、CDS预测、和差异表达基因筛选及代谢通路分析。
[0011] 其中,所述的基因注释包括:表达量注释和功能注释。
[0012] 其中,所述的差异表达基因筛选包括:GO功能显著性富集分析和Pathway显著性富集分析。
[0013] 本发明的第二个方面是提供一种采用本发明第一个方面所述方法获得的艾纳香的转录组及功能基因。
[0014] 本发明发明人在前期对艾纳香资源收集、评价、有效成分提取、分离及检测的工作基础上,首次采用本发明的方法,挖掘到艾纳香苗期和花期的基因信息、基因功能和表达情况,共得到了48197273个序列信息,100341条Unigene;包含RNA-seq名称、序列长度及表达数、COG预测、COG功能注释、KEGG注释、KEGG-pathway、GO注释的共60477条信息;以及包括对获得的序列信息进行CDS核酸序列预测的蛋白功能注释共37283条信息。本发明从分子水平揭示艾纳香活性成分代谢途径和调控机制,为提高艾纳香活性成分含量提供理论依据。附图说明
[0015] 图1为RNA-seq的样品处理及测序流程示意图。
[0016] 图2为RNA-seq数据分析流程示意图。

具体实施方式

[0017] 下面参照附图结合具体的实施例对本发明作进一步的描述,以更好地理解本发明。
[0018] RNA-seq分析样品处理及测序流程见图1。具体方法如下:
[0019] 1、艾纳香总RNA的提取,真核生物以5ug total RNA起始量建库;
[0020] 2、磁珠法分离mRNA后,离子打断mRNA(TruseqTM RNA sample prep Kit);
[0021] 3、回收200-700bp片段,双链cDNA合成、补平、3’端加A、连接index接头(TruseqTM RNAsample prep Kit);
[0022] 4、文库富集,PCR扩增15个cycles;
[0023] 5、2%琼脂糖胶回收目的条带(Certified Low Range Ultra Agarose);
[0024] 6、TBS380(Picogreen)定量,按数据比例混合上机;
[0025] 7、cBot上进行桥式PCR扩增,生成clusters;
[0026] 8、Hiseq2000测序平台,进行2*100bp测序。
[0027] 试剂仪器表
[0028] 表1所使用的试剂和仪器表
[0029]
[0030] 9.数据分析
[0031] 数据分析流程图见图2。
[0032] (1)原始测序数据统计
[0033] Illumina Hiseq 2000测序得到的原始图像数据经过Base Calling转化为序列数据,结果文件以FASTQ文件格式来存储。FASTQ格式文件包含测序reads的序列信息以及reads癿测序质量信息。测序数据随机截取结果如下所示:
[0034] @HWI-ST531R:144:D11RDACXX:4:1101:1212:1946 1:N:0:ATTCCT
[0035] ATNATGACTCAAGCGCTTCCTCAGTTTAATGAAGCTAACTTCAATGCTGAGATCGTTGA
[0036] +HWI-ST531R:144:D11RDACXX:4:1101:1212:1946 1:N:0:ATTCCT
[0037] ?A#AFFDFFHGFFHJJGIJJJIICHIIIIJJGGHIIJJIIJIIJIHGI@FEHIIJBFFHGJJIIHHHDFFFFDCC
[0038] 每条read包含4行信息,其中第一行和第三行分别由文件识别标志和读段名(ID)组成(第一行以“@”开头而第三行以“+”开头;第三行中ID可以省略,但“+”不能省略),第二行为碱基序列,第四行是第二行中每个碱基所对应的测序质量值。
[0039] (2)原始测序数据质控
[0040] Illumina测序属于第二代测序技术,单次运行能产生数十亿级癿reads,如此海量的数据无法逐个展示每条read的质量情况;生物信息分析运用统计学的方法,对所有测序reads的每个circle进行碱基分布和质量波动的统计,可以从宏观上直观地反映出样本的测序质量和文库构建质量。
[0041] 得到原始测序数据后,先对测序结果进行统计和评估,再根据接头信息去除那些有接头污染的序列。
[0042] (3)原始数据去杂
[0043] 得到原始的FASTQ数据后,对其进行质控得到高质量的测序结果(clean data)。质控步骤如下:首先去除reads中的adaptor序列;接着去除测序质量较低的reads(质量值小于20);然后去除含N较多的reads;最后去除经过以上步骤后长度小于20nt的小片段。
[0044] 使用软件:SeqPrep(https://github.com/jstjohn/SeqPrep)
[0045] Sickle(https://github.com/najoshi/sickle)
[0046] (4)拼接及拼接结果统计
[0047] 将质控后得到的高质量序列进行de novo拼接。
[0048] 使用软件:Trinity(http://trinityrnaseq.sourceforge.net/)
[0049] (5)与拼接结果比对
[0050] 转录本的丰度体现基因的表达水平,转录本丰度越高,则基因表达水平越高。在分析中,将测序得到的reads与前面所得的拼接结果进行比对(mapping)。
[0051] 使用软件:bowtie(http://bowtie-bio.sourceforge.net/index.shtml)[0052] (6)表达量统计及表达差异分析
[0053] 转录本的丰度体现基因的表达水平,转录本丰度越高,则基因表达水平越高。在RNA-seq分析中,通过对定位到基因组区域的测序序列(clean reads)的数量来估计基因的表达水平。依据所有样本不参考基因组比对的结果,计算每个基因/转录本在样本中的FPKM值,以该值作为基因/转录本在样本中的表达量。最终对所有基因/转录本在各组样本中的表达进行差异显著性分析,找出相对差异表达癿基因/转录本,并对其进行可视化分析。显著差异表达基因/转录本筛选条件:FDR<0.05&&|log2FC|>=2。
[0054] 使用软件:RSEM(http://deweylab.biostat.wisc.edu/rsem/)
[0055] edgeR(http://www.bioconductor.org/packages/release/bioc/html/edgeR.html)
[0056] (7)拼接结果注释:
[0057] 基因预测:对拼接结果进行ORF预测。
[0058] 使用软件:Trinity(http://trinityrnaseq.sourceforge.net/analysis/extract_proteins_from_trinity_transcripts.html)
[0059] 功能注释:将预测出ORF的蛋白序列与未预测出ORF的核苷酸序列分别注释,将预测出ORF的蛋白序列使用blastp分别与NR、string、gene数据库进行比对,剩余未预测出ORF的序列使用blastx分别与NR、string、gene数据库比对。使用软件:BLAST(BLAST Version 2.2.25),BLAST比对参数设置期望值E value为1e-5。
[0060] (8)基因功能分类
[0061] GO分类:GO(Gene Ontology,http://www.geneontology.org/)是基因本体论联合会建立的数据库,标准化不同数据库中的关于基因和基因产物的生物学术语,对基因和蛋白功能进行限定和描述。利用GO数据库,可以按照基因参与的生物学过程、构成细胞的组分、实现的分子功能等进行分类。因此GO注释有劣于我们理解基因背后所代表的生物学意义。GO注释包括3方面:
[0062] 细胞成分(Cellular component)(GO:0005575):细胞的一部分或者其细胞外环境(the parts of a cell or its extracellular environment),例如细胞核(such as nucleus)(GO:0005634),核糖体(ribosome)(GO:0005840);
[0063] 分子功能(Molecular function)(GO:0003674):基因产物在分子水平上的基本活动(the elemental activities of a gene product at the molecular level),如结合(such as binding)(GO:0005488),催化(catalysis)(GO:0043364);
[0064] 生物过程(Biological process)(GO:0008150):具有明确的开始和结束的、与完整的生命单元的功能有关的分子事件活动或集合:细胞、组织、器官和有机体(operations or sets of molecular events with a defined beginning and end,pertinent to the functioning of integrated living units:cells,tissues,organs,and organisms),如细胞生理过程(such as cellular physiological process)(GO:0009987),信号转导(signal transduction)(GO:0007165)。
[0065] 使用软件:blast2go(http://www.blast2go.com/b2ghome)
[0066] COG分类:COG(同源蛋白质簇,Clusters of Orthologous Groups of proteins,http://www.ncbi.nlm.nih.gov/COG/)为蛋白直系同源簇数据库,是选取66株已完成的基因组的蛋白质序列,根据系统进化关系分类构建而成。与COG数据库比对可以进行功能注释、归类以及蛋白进化分析。通过采用blastp与string数据库比对,得到基因对应的COG number,幵根据COG number进行功能归类,分析所用软件及数据库如下:使用软件:blastx 2.2.24+
[0067] 比对数据库:STRING 9.0(http://string-db.org/)
[0068] 代谢通路分析
[0069] 在生物体内,基因产物并不是孤立存在地作用的,不同基因产物之间通过有序的相互协调来行使其具体的生物学功能。因此,KEGG数据库中丰富的通路信息将有助于我们从系统水平去了解基因的生物学功能,例如代谢途径、遗传信息传递以及细胞过程等一些复杂的生物功能,这大大提高了该数据库在实际生产和应用中的价值。基于KEGG数据库,运用BLAST算法(blastx/blastp 2.2.24+)将所有基因与KEGG的基因数据库(GENES)进行比对,根据比对得到的KO编号去查找具体的生物学通路,提供所分析基因可能参与的所有生物学通路。
[0070] 使用软件:blastx/blastp 2.2.24+
[0071] 比对数据库:genes(http://www.genome.jp/kegg/genes.html)
[0072] RNA-seq分析结果
[0073] 通过RNA-seq技术获得了艾纳香苗期和花期的cDNA序列信息,共得到了48197273个序列信息,100341条Unigene;包含RNA-seq名称、序列长度及表达数、COG预测、COG功能注释、KEGG注释、KEGG-pathway、GO注释的共60477条信息;以及包括对获得的序列信息进行CDS核酸序列预测的蛋白功能注释共37283条信息。部分活性成分序列举例如表2所示:
[0074] 表2.艾纳香的部分Unigenes的表达量、功能注释及其代谢通路分析
[0075]
[0076]
[0077] 以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈