首页 / 专利库 / 动物学 / 节肢动物 / 黑腹果蝇 / 一种基于卷积神经网络的核小体分类预测方法

一种基于卷积神经网络的核小体分类预测方法

阅读:52发布:2020-06-18

专利汇可以提供一种基于卷积神经网络的核小体分类预测方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 卷积神经网络 的核小体分类预测方法,其特征是,包括如下步骤:1)特征提取;2)提取核小体或链接体DNA序列中核苷酸的物理化学属性;3)添加 生物 特性;4)获取第24维向量;5)添加核苷 酸化 学性质;6)得到包含生物信息的矩阵;7)构建卷积神经网络结构;8)分类核小体。这种方法能精准预测核小体的分类。,下面是一种基于卷积神经网络的核小体分类预测方法专利的具体信息内容。

1.一种基于卷积神经网络的核小体分类预测方法,其特征是,包括如下步骤:
1)特征提取:选取UCSC基因组数据库中智人、线虫黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):
Xi=(Pi,1,Pi,2,...,Pi,16)T     (1)
Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;
2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Goniet al-Genome biology,2007,8,R263中的六种物理结构性质的原始值,二核苷酸的空间排列由六个参数表征,其中三个是局部平移参数,另外三个是局部参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:
其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:
Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22)T    (3)
Ri,17,L,Ri,22分别表示6种二核苷酸的空间排列特征;
3)添加生物特性:采用Segal-Segal E,Foudufe—Mittendorf Y,Chen L,et a1.A genomic code for nueleosome positioning[J].Nature,2006,443:772-778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:
Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23)T      (4)
ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;
4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)的23维向量中,得到第24维向量,对应这阶段特征向量有公式(5)形式:
Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24)T    (5)
Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;
5)添加核苷酸化学性质:在步骤4)得到的第24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示,第26维代表其官能团,基用‘1’表示,基用‘0’表示,第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:
Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T   (6)Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;
6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的*(147*27)的矩阵如公式(7):
Pi,1 Pi,2 L Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;
7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度
8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。

说明书全文

一种基于卷积神经网络的核小体分类预测方法

技术领域

[0001] 本发明涉及遗传学的分类预测,具体是一种基于卷积神经网络的核小体分类预测方法。

背景技术

[0002] 核小体预测是目前遗传学研究的重要内容,核小体的特殊结构限制了负责基本生命过程的蛋白质与围绕组蛋白上的DNA接触,所以它的形成以及在染色质上的精确定位在基因表达过程中起着无可替代的作用,直接或间接地影响转录等基本生物过程。核小体定位是真核生物基因转录调节的重要方式,要彻底了解基因表达调控信息,就必须考虑核小体定位的调控作用,核小体的位置信息与基因表达调控的关系是当前表观遗传学的研究热点,因此提供一个快速、准确的核小体分类十分必要。
[0003] 然而,通过生物学的方法来测定核小体定位非常困难,并且效率较低。因此应用生物信息学的相关知识,使用计算机预测技术来测定核小体定位就显得尤为重要,对于发现和认识核小体结构和生理功能有着重要的意义。
[0004] 目前,针对核小体定位的计算模型还很欠缺。查阅文献,可以发现,目前为数不多专设计用来进行核小体定位预测的计算模型,iNuc-PhysChem和Segal。iNuc-PhysChem基于核小体序列具有一定的位置特异性物理化学识别核小体定位的预测器(Chen W,Lin H,Feng P-M,Ding C,Zuo Y-C,et al.(2012)iNuc-PhysChem:A Sequence-Based Predictor for Identifying Nucleosomes via Physicochemical Properties.PLoS ONE 7(10):e47843.doi:10.1371/journal..pone.0047843)。另一方面,Segal(School of Electronics and Information Engineering,SoochowUniversity,Suzhou,215006)通过核小体和连接序列的二核苷酸位置频率建立了核小体和连接序列两组得分函数,并以其差值作为核小体的定位依据。然而,综合分析这两个预测模型,可以发现预测生物物种局限在一种酵母,迫切需要进一步建立一个适应更广泛的生物类型的核小体定位的预测器。基于一种称为“iNuc-PseKNC”(Guo S H,Deng E Z,Xu L Q,et al.iNuc-PseKNC:a sequence-based predictor for predicting nucleosome positioning in genomes with pseudo k-tuple nucleotide composition.[J].Bioinformatics,2014,30(11):1522)的预测因子的改进方法预测核小体位置的核心算法,但现有的预测算法大部分仅依据核小体的统计特性,定位准确性很受局限。另一方面,经研究发现,DNA连接序列作为两个核小体的连接纽带,存在一定的统计特性。

发明内容

[0005] 本发明的目的是针对现有技术的不足,而提供一种基于卷积神经网络的核小体分类预测方法。这种方法能精准预测核小体的分类。
[0006] 实现本发明目的技术方案是:
[0007] 一种基于卷积神经网络的核小体分类预测方法,包括如下步骤:
[0008] 1)特征提取:选取UCSC基因组数据库中智人、线虫黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):
[0009] Xi=(Pi,1,Pi,2,...,Pi,16)T   (1)
[0010] Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;
[0011] 2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Goniet al(Genome biology,2007,8,R263).中的六种物理结构性质的原始值如表1,二核苷酸的空间排列由六个参数表征(Dickerson,R.E.(1989)Definitions and nomenclature of nucleic acid structure parameters.J.Biomol.Struct.Dynam.),其中三个是局部平移参数,另外三个是局部参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:
[0012]
[0013] 其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值如表2,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:
[0014] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22)T   (3)
[0015] Ri,17,L,Ri,22分别表示6种二核苷酸的空间排列特征;
[0016] 表1.Goniet al的六种物理结构性质的原始值
[0017]
[0018]
[0019]
[0020] 表2.通过公式2的标准转换从表1获得的值。
[0021]
[0022]
[0023] 3)添加生物特性:采用Segal(Segal E,Foudufe—Mittendorf Y,Chen L,et a1.A genomic code for nueleosome positioning[J].Nature,2006,443:772-778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率如表3所示的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:
[0024] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23)T   (4)
[0025] ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;
[0026] 表3 16种二核苷酸在核小体或链接体DNA序列中的平均占有率
[0027]
[0028] 4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该类核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)得到的23维向量中,得到24维向量,对应这阶段特征向量有公式(5)形式:
[0029] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24)T   (5)
[0030] Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;
[0031] 5)添加核苷酸化学性质:在步骤4)得到的24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,如表4所示,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示;第26维代表其官能团,基用‘1’表示,基用‘0’表示;第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:
[0032] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T   (6),[0033] Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;
[0034] 表4,脱核糖核苷酸的化学性质
[0035]
[0036]
[0037] 6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息(147*27)的矩阵如公式(7):
[0038]
[0039] Pi,1Pi,2L Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数,P表示n×27的矩阵;
[0040] 7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度
[0041] 8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。
[0042] 这种方法是一种基于卷积神经网络过训练复合物来更好地利用越来越大的和高维数据集的可用性,具有捕获其内部结构的多个层的网络,提高性能超过传统模式,增加可解释性,并提供对生物数据结构的更多了解,提高模型预测精度。
[0043] 简而言之,深层神经网络将原始数据置于最低(输入)层,并通过以数据驱动的方式连续组合来自前一层的输出,将其转化为越来越抽象的特征表示,在该过程中封装了高度复杂的函数。深层神经网络会学习网络并发现高级功能,提高性能超过传统模式,增加可解释性,并提供对生物数据结构的更多了解。深度神经网络可以通过从数据中学习来帮助规避手动提取特征,由于它们的代表性丰富,它们可以捕获序列和相互作用效应中的非线性依赖关系,并在多个基因组尺度上跨越更宽的序列上下文,使用深度模型提取的较高级别特征能够更好地提升分类精度。
[0044] 这种方法能精准预测核小体的分类。附图说明
[0045] 图1为实施例的方法流程示意图。

具体实施方式

[0046] 下面结合附图和实施例对本发明内容做进一步的阐述,但不是对本发明的限定。
[0047] 实施例:
[0048] 参照图1,一种基于卷积神经网络的核小体分类预测方法,包括如下步骤:
[0049] 1)特征提取:选取UCSC基因组数据库中智人、线虫和黑腹果蝇三个生物的核小体或链接体的DNA序列,每一段核小体或链接体的DNA序列长度为147bp,bp是指碱基对,通过独热编码依次将每一段核小体或链接体的DNA序列中的二核苷酸ATCG的16种组合方式转化成16维的向量,该特征向量表示如公式(1):
[0050] Xi=(Pi,1,Pi,2,...,Pi,16)T   (1)
[0051] Xi表示第i个核小体或链接体此时的特征向量,Pi,1,Pi,2,...,Pi,16代表二核苷酸16种组合方式独热编码,T表示转置;
[0052] 2)提取核小体或链接体DNA序列中核苷酸的物理化学属性:选自Goniet al(Genome biology,2007,8,R263).中的六种物理结构性质的原始值如表1,二核苷酸的空间排列由六个参数表征(Dickerson,R.E.(1989)Definitions and nomenclature of nucleic acid structure parameters.J.Biomol.Struct.Dynam.),其中三个是局部平移参数,另外三个是局部角参数,将六种物理结构性质的原始值进行标准转换由公式(2)描述:
[0053]
[0054] 其中符号<>表示取其中超过16种不同的二核苷酸的量的平均值,SD意味着相应的标准偏差,如果再次通过相同的转换过程并且将保持不变,在16个不同的二核苷酸上由公式(2)获得的转换值将具有零的平均值如表2,再将6种二核苷酸的空间排列特征添加到步骤1)中的16维的向量中,得到22维的向量,对应这阶段特征向量有公式(3)形式:
[0055] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22)T   (3)
[0056] Ri,17,L,Ri,22分别表示6种二核苷酸的空间排列特征;
[0057] 表1.Goniet al的六种物理结构性质的原始值
[0058]
[0059]
[0060]
[0061] 表2.通过公式2的标准转换从表1获得的值。
[0062]
[0063]
[0064] 3)添加生物特性:采用Segal(Segal E,Foudufe—Mittendorf Y,Chen L,et a1.A genomic code for nueleosome positioning[J].Nature,2006,443:772-778.中公开的方法,将16种二核苷酸在核小体或链接体DNA序列中的平均占有率如表3所示的生物特性添加到步骤2)得到的22维向量中,得到23维的向量,对应这阶段特征向量有公式(4)形式:
[0065] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23)T   (4)
[0066] ki,23表示该二核苷酸在核小体或链接体DNA序列中的平均占有率;
[0067] 表3 16种二核苷酸在核小体或链接体DNA序列中的平均占有率
[0068]
[0069] 4)获取第24维向量:通过计算147bp的核小体、或链接体DNA序列的每个位置的该类核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值,将该比值添加到步骤3)得到的23维向量中,得到24维向量,对应这阶段特征向量有公式(5)形式:
[0070] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24)T   (5)
[0071] Mi,24表示147bp的核小体、或链接体DNA序列的每个位置的该核苷酸在147bp的核小体、或链接体DNA序列出现次数与此核小体、或链接体DNA序列的长度比值;
[0072] 5)添加核苷酸化学性质:在步骤4)得到的24维向量中添加核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质,如表4所示,用第25维代表相邻两个中第一个核苷酸的环形结构,嘌呤用‘1’表示,嘧啶用‘0’表示;第26维代表其官能团,氨基用‘1’表示,酮基用‘0’表示;第27维代表互补配对时氢键的强弱,强用‘1’表示,弱用‘0’表示,对应这阶段特征向量有公式(6)形式:
[0073] Xi=(Pi,l,Pi,2,L,Pi,16,Ri,17,L,Ri,22,ki,23,Mi,24,Ni,25,Ni,26,Ni,27)T   (6),[0074] Ni,25,Ni,26,Ni,27分别表示核苷酸的环形结构、官能团、互补配对时氢键的强弱这3个核苷酸的化学性质;
[0075] 表4,脱氧核糖核苷酸的化学性质
[0076]
[0077] 6)得到包含生物信息的矩阵:有N个核小体、或M个链接体DNA序列,每个核小体或链接体DNA序列的长度为147bp,遍历生物的核小体或链接体的DNA序列得到一个包含生物信息的*(147*27)的矩阵如公式(7):
[0078]
[0079] Pi,1Pi,2L Pi,27表示由1至5步得到特征,i表示第i个核小体或连接体DNA序列,n表示核小体或连接体DNA序列的总数。P表示n×27的矩阵;
[0080] 7)构建卷积神经网络结构:假定卷积神经网络结构包括输入层、卷积层、子采样层、全连接层和输出层;提高性能超过传统模式,增加可解释性,提高模型预测精度。
[0081] 8)分类核小体:将步骤6)中的生物特征矩阵导入到卷积神经网络分类出核小体。
[0082] 验证试验:
[0083] 在数据库上下载智人,线虫和黑腹果蝇这三中生物数据,(i)智人(Schones,D.E.et al.(2008)Dynamic regulation of nucleosome positioning in the human genome.Cell,132,887–898.);(ii)线虫(Mavrich,T.N.et al.(2008a)A barrier nucleosome model for statistical positioning of nucleosomes throughout the yeast genome.Genome Res.,18,1073–1083.);(iii)黑腹果蝇(Mavrich,T.N.et al.(2008b)Nucleosome organization in the Drosophila genome.Nature,453,358–362.)使用本实施例方法构建了一个预测器,该预测器由深度神经网络理论得到,下面以预测核小体定位预测,预测结果如表5所示:
[0084] 表5本方法与iNuc-PseKNC预测器分类精度对比
[0085]
[0086] 由表5可以看出,使用本实施例方法方法,利用卷积神经网络算法对智人,线虫和黑腹果蝇的进行核小体定位预测,分类的精度分别为88.13%,88.17%,84.7%预测结果整体优于iNuc-PseKNC预测器。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈