首页 / 专利库 / 牙科学 / 骨整合 / 一种二代序列和三代序列联合组装结果去冗余的方法和装置

一种二代序列和三代序列联合组装结果去冗余的方法和装置

阅读:1026发布:2020-09-14

专利汇可以提供一种二代序列和三代序列联合组装结果去冗余的方法和装置专利检索,专利查询,专利分析的服务。并且本 发明 提供一种二代序列和三代序列联合组装结果去冗余的方法和装置,所述方法包括如下步骤:(1)根据基因组组装结果,划分和获取短序列和长序列;(2)将所述短系列和长序列进行比对,获得比对结果;(3)整合短序列比对结果,获得冗余序列;(4)去除冗余序列,获得组装结果。本发明方法和装置用于克服 现有技术 冗余序列去除不完全,基因组组装结果不完整、不准确的缺点,能够很好的去除二代和三代联合组装结果中的冗余序列,并能通过去除长度比较小的Scaffold,从而大幅提升Scaffold N90和contig N50的组装指标,同时也能提高基因组组装指标和准确性。,下面是一种二代序列和三代序列联合组装结果去冗余的方法和装置专利的具体信息内容。

1.一种二代序列和三代序列联合组装结果去冗余的方法,其特征在于,包括如下步骤:
(1)根据基因组组装结果,划分和获取短序列和长序列;
(2)将所述短系列和长序列进行比对,获得比对结果;
(3)整合短序列比对结果,获得冗余序列;
(4)去除冗余序列,获得组装结果。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述划分短序列和长序列以500-
1000bp为阈值进行划分。
3.根据权利要求1或2所述的方法,其特征在于,步骤(2)所述比对采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
4.根据权利要求1-3中任一项所述的方法,其特征在于,步骤(3)所述整合短序列比对结果具体包括:筛选小于等于设定错配数的短序列;
优选地,所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将
500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3;
优选地,步骤(3)所述的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基因组组装包括采用二代序列组装、三代序列补洞和二代序列补洞;
优选地,所述二代序列组装具体包括:使用软件对二代序列进行重叠群和一级骨架序列组装,用二代序列对一级骨架序列进行补洞;
优选地,所述软件为SOAPdenovo和/或Platanus;
优选地,三代序列补洞和二代序列补洞具体包括:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。
6.一种二代序列和三代序列联合组装结果去冗余的系统,其特征在于,包括:
划分模,用于根据基因组组装结果,划分和获取短序列和长序列;
比对模块,与所述划分模块相连,用于将所述短系列和长序列进行比对,获得比对结果;
整合模块,与所述比对模块相连,用于整合短序列比对结果,获得冗余序列;
输出模块,与所述整合模块相连,用于去除冗余序列,获得组装结果。
7.根据权利要求6所述的系统,其特征在于,所述划分模块将所述短序列和长序列以
500-1000bp为阈值进行划分。
8.根据权利要求6或7所述的系统,其特征在于,所述比对模块采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
9.根据权利要求6-8中任一项所述的系统,其特征在于,所述整合模块进行比对具体包括:筛选小于等于设定错配数的短序列;
优选地,所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将
500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3;
优选地,所述整合模块中得到的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
10.根据权利要求6-9中任一项所述的系统,其特征在于,所述系统还包括组装模块和补洞模块;
优选地,所述组装模块用于使用SOAPdenovo和/或Platanus软件对二代序列进行重叠群和一级骨架序列组装,用二代序列对一级骨架序列进行补洞;
优选地,所述补洞模块与所述组装模块相连,用于使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。

说明书全文

一种二代序列和三代序列联合组装结果去冗余的方法和装置

技术领域

[0001] 本发明属于生物技术领域,涉及一种测序组装结果去冗余的方法,尤其涉及一种二代序列和三代序列联合组装结果去冗余的方法和装置。

背景技术

[0002] 目前,基因组组装项目以全基因组枪法测序(whole-genome  shotgun sequencing,WGS)为主流设计方案,它主要根据基因组具有大量重复序列的特点,搭配不同长度的DNA插入片段进行双末端测序,在全基因组的平均测序达到足够深度的情况下,可保证单基的准确性和基因组的完整性。随着第二代序列技术(next-generation sequencing,NGS)的成熟和普及,测序成本得以降低,基于第二代序列技术的全基因组鸟枪法测序成为各种基因组测序项目的主流方案。
[0003] 第三代PacBio单分子实时测序(single molecule real time,SMRT)技术具有超长读长的特点,可以对高重复序列、转座子区域与高度变异区域等基因组复杂区域进行高平组装,获得的contigs(Contig)N50和骨架序列(Scaffold)N50长度更长,组装结果完整准确,得到越来越广泛的应用。
[0004] 其中,contigs(Contig)N50或骨架序列(Scaffold)N50是指:把组装出的Contig或Scaffold从大到小排列,当其累计长度刚刚超过全部组装序列总长度的50%时,最后一个Contig或Scaffold的大小即为N50,同理可知N60、N70、N80、N90的含义,N50、N90等对评价基因测序的完整性具有重要的意义。
[0005] 目前,三代序列技术联合二代序列技术用于全基因组组装的应用越来越多,然而,其也会产生一些冗余的组装结果。
[0006] 二三代序列技术联合组装中冗余结果的产生过程,如图1所示,包括:步骤102所示为基因组序列的结构,其中白色区域为重复序列;步骤104所示为二代序列组装的Contigs结果,由于白色区域为重复序列部分,因此只组装出一份;步骤106所示为不同大小的Contigs片段利用双末端序列关系链接组装成Scaffolds序列,其中白色Scaffold序列由于满足多种距离关系,并未被链接上,进行单独保留;步骤108所示为利用三代序列补洞后的组装结果,步骤106中的间隙N被三代序列补上,但冗余的白色Scaffold序列仍然存在。
[0007] 201410137420.4公开了一种杂合基因组处理方法,该方法将采用WGS获得的有效的读长短序列Reads进行组装并构建Scaffold,得到带有冗余序列的基因组图谱,通过k-mer分布图识别杂合区域,从而基于组装的长度来去除杂和区域中冗余的Scaffold。该方法不能确定冗余Scaffold的去除程度,无法实现完整而精确的基因组组装。
[0008] 201410272988.7公开了一种组装基因组序列的方法和系统,该方法将第二代序列技术获得的高精度短片段序列进行拼接,获得第一拼接序列;将单分子测序技术获得的长片段序列进行拼接,获得第二拼接序列;将第一拼接序列定位到第二拼接序列上,利用第一拼接序列的高精度短片段序列对第二拼接序列中的长片段序列进行局部纠错,获得第三拼接序列,达到组装基因组序列的目的。然而,对于在拼接过程中产生的冗余序列,该方法仅利用全局比对信息进行去除,冗余片段的去除程度与去除效果并未讨论,无法得到完整而准确的基因组组装结果。
[0009] 201510706400.9公开了一种基于参考基因组和从头组装相结合的二代序列数据组装方法,该方法采用AMOS软件对得到的Contig进行进一步组装,去除冗余区域,然而,该软件在一些较短的简单重复序列区域,不能完整地将该区域组装出来,于是也不能将冗余区域完全去除。
[0010] 因此,找到一种可以准确去除组装基因组的冗余序列的方法,提高二代序列和三代序列联合组装结果的可靠性,对提高全基因组测序序列的完整性和准确性具有重要意义。

发明内容

[0011] 针对现有技术的不足及实际需求,本发明提供一种二代序列和三代序列联合组装结果去冗余的方法和装置,以克服现有技术冗余序列去除不完全,基因组组装结果不完整、不准确的缺点。
[0012] 一种二代序列和三代序列联合组装结果去冗余的方法,其特征在于,包括如下步骤:
[0013] (1)根据基因组组装结果,划分和获取短序列和长序列;
[0014] (2)将所述短系列和长序列进行比对,获得比对结果;
[0015] (3)整合短序列比对结果,获得冗余序列;
[0016] (4)去除冗余序列,获得组装结果。
[0017] 本发明中,所述二代序列为通过二代测序得到的序列,所述三代序列为通过三代测序得到的序列。
[0018] 根据本发明,步骤(1)所述划分短序列和长序列根据本物种组装结果情况,将序列划分为大于一定长度的序列和小于等于一定长度的序列,长度的大小本领域技术人员可以根据物种的组装结果而定,本发明中,步骤(1)所述划分短序列和长序列以500-1000bp为阈值进行划分,例如可以是500bp、510bp、520bp、530bp、540bp、550bp、560bp、580bp、600bp、620bp、650bp、680bp、700bp、720bp、750bp、780bp、800bp、820bp、850bp、880bp、900bp、
920bp、950bp、980bp或1000bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。
[0019] 根据本发明,步骤(2)所述比对采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
[0020] 根据本发明,步骤(3)所述整合短序列比对结果具体包括:筛选小于等于设定错配数的短序列。
[0021] 根据本发明,所述设定错配数本领域技术人员可以根据具体的物种的组装结果而定,本发明中所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3。
[0022] 根据本发明,步骤(3)所述的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
[0023] 根据本发明,所述基因组组装包括采用二代序列组装、三代序列补洞和二代序列补洞。
[0024] 根据本发明,所述二代序列组装具体包括:使用软件对二代序列进行contigs(重叠群)和Scaffold(一级骨架序列)组装,用二代序列对Scaffold进行补洞。
[0025] 根据本发明,所述软件为SOAPdenovo和/或Platanus。
[0026] 根据本发明,三代序列补洞和二代序列补洞具体包括:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞。
[0027] 根据本发明,所述系统的使用方法包括如下步骤:
[0028] 第二方面,本发明提供一种二代序列和三代序列联合组装结果去冗余的系统,包括:
[0029] 划分模,用于根据基因组组装结果,划分和获取短序列和长序列;
[0030] 比对模块,与所述划分模块相连,用于将所述短系列和长序列进行比对,获得比对结果;
[0031] 整合模块,与所述比对模块相连,用于整合短序列比对结果,获得冗余序列;
[0032] 输出模块,与所述整合模块相连,用于去除冗余序列,获得组装结果。
[0033] 根据本发明,所述划分模块中划分短序列和长序列可以根据本物种组装结果情况,将序列划分为大于一定长度的序列和小于等于一定长度的序列,长度的大小本领域技术人员可以根据物种的组装结果而定,本发明中,所述划分模块将所述短序列和长序列以500-1000bp为阈值进行划分,例如可以是500bp、510bp、520bp、530bp、540bp、550bp、560bp、
580bp、600bp、620bp、650bp、680bp、700bp、720bp、750bp、780bp、800bp、820bp、850bp、
880bp、900bp、920bp、950bp、980bp或1000bp,以及上述数值之间的具体点值,限于篇幅及出于简明的考虑,本发明不再穷尽列举所述范围包括的具体点值。
[0034] 根据本发明,所述比对模块采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对。
[0035] 根据本发明,所述整合模块进行比对具体包括:筛选小于等于设定错配数的短序列。
[0036] 根据本发明,所述设定错配数本领域技术人员可以根据具体的物种的组装结果而定,本发明中所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1;将500-1000bp的短序列错配数设定为小于等于2;将1000bp以上的短序列错配数设定为小于等于3。
[0037] 根据本发明,所述整合模块中得到的冗余序列为所述筛选得到的小于等于设定错配数的短序列。
[0038] 根据本发明,所述系统还包括组装模块和补洞模块。
[0039] 根据本发明,所述组装模块用于使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞。
[0040] 根据本发明,所述补洞模块与所述组装模块相连,用于使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞。
[0041] 根据本发明,所述系统的使用方法,包括如下步骤:
[0042] (1)二代序列组装:使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞
[0043] (2)三代序列补洞和二代序列补洞:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞;
[0044] (3)根据基因组组装结果,以500-1000bp为阈值划分和获取短序列和长序列;
[0045] (4)将所述短系列和长序列采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对,获得比对结果;
[0046] (5)整合短序列比对结果,具体包括:筛选小于等于设定错配数的短序列,将500bp以下的短序列错配数设定为小于等于1,将500-1000bp的短序列错配数设定为小于等于2,所述筛选得到的小于等于设定错配数的短序列为获得冗余序列;
[0047] (6)去除冗余序列,获得组装结果。
[0048] 与现有技术相比,本申请具有的有益效果:
[0049] 本发明方法和装置用于克服现有技术冗余序列去除不完全,基因组组装结果不完整、不准确的缺点,能够很好的去除二代和三代联合组装结果中的冗余序列,并能通过去除长度比较小的Scaffold,从而大幅提升Scaffold N90和contig N50的组装指标,同时也能提高基因组组装指标和准确性。附图说明
[0050] 图1为现有技术二三代序列组装冗余序列产生过程的一个实施例流程图
[0051] 图2是本发明二代序列和三代序列联合组装结果去除冗余序列的一个实施例的流程图。

具体实施方式

[0052] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0053] 实施例1一种二代序列和三代序列联合组装结果去冗余的系统
[0054] 一种二代序列和三代序列联合组装结果去冗余的系统的组装,包括:
[0055] 组装模块,用于使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对scaffold进行补洞;
[0056] 补洞模块,用于使用PBJelly软件使用三代序列对二代组装结果进行补洞,再使用二代序列用gapclose软件进行补洞;
[0057] 划分模块,用于根据基因组组装结果,划分和获取短序列和长序列,所述划分模块将所述短序列和长序列以500-1000bp为阈值进行划分;
[0058] 比对模块,与所述划分模块相连,用于将所述短系列和长序列进行比对,获得比对结果,所述比对模块采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对;
[0059] 整合模块,与所述比对模块相连,用于整合短序列比对结果。具体包括:筛选小于等于设定错配数的短序列,所述设定错配数具体包括:将500bp以下的短序列错配数设定为小于等于1,将500-1000bp的短序列错配数设定为小于等于2,获得所述筛选得到的小于等于设定错配数的短序列为冗余序列;
[0060] 输出模块,与所述整合模块相连,用于去除冗余序列,获得组装结果。
[0061] 所述系统的使用方法,包括如下步骤:
[0062] (1)二代序列组装:使用SOAPdenovo和/或Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞,如图1中的102、104和106步骤所示;
[0063] (2)三代序列补洞和二代序列补洞:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞,如图1中的108所示;
[0064] (3)根据基因组组装结果,以500-1000bp为阈值划分和获取短序列和长序列,如图2中的202所示;
[0065] (4)将所述短系列和长序列采用SOAPAligner、bwa或blast中的任意一种或至少两种软件的组合进行比对,获得比对结果,如图2中的204所示;
[0066] (5)整合短序列比对结果,具体包括:筛选小于等于设定错配数的短序列,将500bp以下的短序列错配数设定为小于等于1,将500-1000bp的短序列错配数设定为小于等于2,所述筛选得到的小于等于设定错配数的短序列为获得冗余序列,如图2中的206所示;
[0067] (6)去除冗余序列,获得组装结果,如图2中的208所示。
[0068] 实施例2苦苣苔二代序列和三代序列联合组装结果去冗余的方法
[0069] 所述苦苣苔基因组大小约为950MB,实现基因结果去除容易具体包括如下步骤:
[0070] (1)二代序列组装:使用Platanus软件对二代序列进行contigs和Scaffold组装,用二代序列对Scaffold进行补洞,得到基因组Scaffold N50约为1.33MB,Contig N50约为52Kb;
[0071] (2)三代序列补洞和二代序列补洞:使用PBJelly软件使用三代序列对二代组装结果进行补洞,再用二代序列用gapclose软件进行补洞,得到基因组Scaffold N50约为1.33MB,Contig N50约为107Kb;
[0072] (3)根据基因组组装结果,以500bp为阈值划分和获取短序列和长序列,将二三代组装结果943MB的Scaffold以小于等于500bp长度划分为短序列、以大于500bp的Scaffold划分为长序列,其中长序列大小为884.4MB,短序列为58.6MB;
[0073] (4)将所述短系列和长序列采用SOAPAligner软件进行比对,获得比对结果;
[0074] (5)整合短序列比对结果,具体包括:筛选小于等于设定错配数的短序列,将500bp以下的短序列错配数设定为小于等于1,把小于等于1个错配的短序列筛选出来,得到28.5MB冗余的短序列;
[0075] (6)去除冗余序列,获得组装结果:从组装结果中去除上一步筛选出来的短序列,获得最终914.5MB组装结果,具体如表1和表2所示:
[0076] 表1
[0077]
[0078] 表2
[0079]
[0080] Scaffold N50为1.39MB,Contig N50为111KB,如表1所示,其中二三代联合组装结果去冗余前后Scaffold组装结果大小,N50、N90的大小和数量的变化,其中短的冗余序列大幅降低28.5MB,条数减少170555条。ScaffoldN90也显著从3KB提高到112KB,增长了36倍。如表2所示,其中二三代联合组装结果去冗余前后Contig组装结果大小,N50、N90的大小和数量的变化,其中短的冗余序列大幅降低28.5MB,条数降低170555条。Contig N90也显著从1.5KB现在提高到11.8KB,提高了6.85倍。
[0081] 综上所述,本发明方法和装置,能够很好的去除二代和三代联合组装结果中的冗余序列,并能通过去除长度比较小的Scaffold,从而大幅提升Scaffold N90和contig N50的组装指标,同时也能提高基因组组装指标和准确性。
[0082] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈