首页 / 专利库 / 软件 / 无损压缩 / 基于布尔代数的基因处理方法、装置及可读存储介质

基于布尔代数的基因处理方法、装置及可读存储介质

阅读:129发布:2020-05-08

专利汇可以提供基于布尔代数的基因处理方法、装置及可读存储介质专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于布尔代数的基因处理方法、装置和可读存储介质,方法包括:对获取到的基因数据进行布尔编码,得到原始数据矩阵;基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;对所述模式矩阵进行 无损压缩 得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据;在接收到解码指令时,对模式压缩数据及残差压缩数据解码得到模式矩阵及残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。本发明利用布尔代数,对基因数据进行布尔编码、矩阵分解得到的基因模式矩阵和样本模式矩阵是对于原始数据的 降维 表示,除了用于压缩存储数据,也可以用于数据分析,得到基因的常见模式和样本的常见模式。,下面是基于布尔代数的基因处理方法、装置及可读存储介质专利的具体信息内容。

1.一种基于布尔代数的基因处理方法,其特征在于,所述基于布尔代数的基因处理方法包括如下步骤:
对获取到的基因数据进行布尔编码,得到原始数据矩阵;
基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;
对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据;
在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。
2.如权利要求1所述的基于布尔代数的基因处理方法,其特征在于,所述模式矩阵包括基因模式矩阵及样本模式矩阵,并且分解得到所述模式矩阵和从所述模式矩阵解码还原数据都是依据布尔代数,而不是通常的线性代数;所述基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵的步骤包括:
基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;
基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;
比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
3.如权利要求2所述的基于布尔代数的基因处理方法,其特征在于,所述比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵的步骤之后,所述基于布尔代数的基因处理方法包括:
利用所述残差矩阵,对所述近似数据矩阵纠正。
4.如权利要求1所述的基于布尔代数的基因处理方法,其特征在于,所述对所述残差矩阵进行无损压缩得到残差压缩数据的步骤包括:
对所述残差矩阵进行稀疏编码,得到残差压缩数据。
5.如权利要求2所述的基于布尔代数的基因处理方法,其特征在于,所述在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵的步骤包括:
在接收到解码指令时,基于布尔代数对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以基于布尔代数获得所述近似数据矩阵;
对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;
基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
6.如权利要求1所述的基于布尔代数的基因处理方法,其特征在于,所述基因数据为基序列数据;所述原始数据矩阵为第一原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
对所述碱基序列数据进行布尔编码,得到二进制序列的第一原始数据矩阵。
7.如权利要求1至5中任一项所述的基于布尔代数的基因处理方法,其特征在于,所述基因数据为单核苷酸多态性数据;所述原始数据矩阵为第二原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
获取单核苷酸多态性数据的次等位基因对、杂等位基因对及主等位基因对;
对所述次等位基因对、杂等位基因对及主等位基因对进行布尔编码得到二进制序列的第二原始数据矩阵。
8.一种基于布尔代数的基因处理装置,其特征在于,所述基于布尔代数的基因处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被所述处理器执行时实现如权利要求
1至7中任一项所述的基于布尔代数的基因处理方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被处理器执行时实现如权利要求1至7中任一项所述的基于布尔代数的基因处理方法的步骤。

说明书全文

基于布尔代数的基因处理方法、装置及可读存储介质

技术领域

[0001] 本发明涉及基因数据处理技术领域,尤其涉及基于布尔代数的基因处理方法、装置及可读存储介质。

背景技术

[0002] 基因数据对于临床决策支持、疾病预防控制、新药研发和基础研究等方面都具有重大意义。随着基因测序成本持续降低,各研究生所和实验室高速地产生大量基因数据。海量的基因数据对分析、传输和存储都带来巨大的挑战。

发明内容

[0003] 本发明的主要目的在于提出一种基于布尔代数的基因处理方法、装置及可读存储介质,旨在解决现有技术中基因数据不便于分析、传输及存储的问题。
[0004] 为实现上述目的,本发明提供一种基于布尔代数的基因处理方法,所述基于布尔代数的基因处理方法包括如下步骤:
[0005] 对获取到的基因数据进行布尔编码,得到原始数据矩阵;
[0006] 基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;
[0007] 对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据;
[0008] 在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。
[0009] 可选地,所述模式矩阵包括基因模式矩阵及样本模式矩阵;所述基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵的步骤包括:
[0010] 基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;
[0011] 基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;
[0012] 比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
[0013] 可选地,所述比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵的步骤之后,所述基于布尔代数的基因处理方法包括:
[0014] 利用所述残差矩阵,对所述近似数据矩阵纠正。
[0015] 可选地,所述对所述残差矩阵进行无损压缩得到残差压缩数据的步骤包括:
[0016] 对所述残差矩阵进行稀疏编码,得到残差压缩数据。
[0017] 可选地,所述在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵的步骤包括:
[0018] 在接收到解码指令时,基于布尔代数对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以基于布尔代数获得所述近似数据矩阵;
[0019] 对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;
[0020] 基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
[0021] 可选地,所述基因数据为基序列数据;所述原始数据矩阵为第一原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
[0022] 对所述碱基序列数据进行布尔编码,得到二进制序列的第一原始数据矩阵。
[0023] 可选地,所述基因数据为单核苷酸多态性数据;所述原始数据矩阵为第二原始数据矩阵;所述对获取到的基因数据进行布尔编码,得到原始数据矩阵的步骤包括:
[0024] 获取单核苷酸多态性数据的次等位基因对、杂等位基因对及主等位基因对;
[0025] 对所述次等位基因对、杂等位基因对及主等位基因对进行布尔编码得到二进制序列的第二原始数据矩阵。
[0026] 此外,为实现上述目的,本发明还提供一种基于布尔代数的基因处理装置,所述基于布尔代数的基因处理装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被所述处理器执行时实现如上所述的基于布尔代数的基因处理方法的步骤。
[0027] 此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被处理器执行时实现如上所述的基于布尔代数的基因处理方法的步骤。
[0028] 本发明利用布尔代数,而非现有技术中利用线性代数,通过对基因数据进行布尔编码、矩阵分解得到模式矩阵及残差矩阵,分解得到的基因模式矩阵和样本模式矩阵是对于原始数据的降维表示,除了用于压缩存储数据,也可以用于数据分析,得到基因的常见模式和样本的常见模式;并且,通过对模式矩阵及残差矩阵的无损压缩,便于传输及存储,在解码时,基于布尔代数对模式压缩数据及残差压缩数据解码,能够得到原始数据矩阵。附图说明
[0029] 图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
[0030] 图2为本发明基于布尔代数的基因处理方法第一实施例的流程示意图;
[0031] 图3为本发明基于布尔代数的基因处理方法的流程框图
[0032] 本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

[0033] 应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0034] 如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
[0035] 本发明实施例基于布尔代数的基因处理装置可以是PC机或服务器设备。
[0036] 如图1所示,该基于布尔代数的基因处理装置可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005 可选的还可以是独立于前述处理器1001的存储装置。
[0037] 本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0038] 如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模、用户接口模块以及基于布尔代数的基因处理程序。
[0039] 在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的基于布尔代数的基因处理程序,并执行下述基于布尔代数的基因处理方法各个实施例中的操作。
[0040] 基于上述硬件结构,提出本发明基于布尔代数的基因处理方法实施例。
[0041] 参照图2,图2为本发明基于布尔代数的基因处理方法第一实施例的流程示意图;所述方法包括:
[0042] 步骤S10,对获取到的基因数据进行布尔编码,得到原始数据矩阵;
[0043] 本实施例中,基因,通常指DNA(deoxyribonucleic acid,脱核糖核酸),是一种分子,双链结构,由脱氧核糖核苷酸(成分为:脱氧核糖、磷酸及四种含氮碱基)组成。可组成遗传指令,引导生物发育与生命机能运作。而基因(遗传因子)是具有遗传效应的DNA片段,基因支持着生命的基本构造和性能。
[0044] 核糖核苷酸上有四种可能的碱基:腺嘌呤(A)、嘌呤(G)、胞嘧啶 (C)、和尿嘧啶(U),脱氧核醣核酸彼此相连形成链状结构,链上的碱基序列承载了遗传信息。
[0045] 现有技术中,由于基因测序成本持续降低,各研究所和实验室高速地产生大量基因数据,且基因测序产生的原始数据量以每年3到5倍、甚至更快的速度爆炸式增长。基因测序样本的原始数据巨大,例如一个人的55x全基因组测序数据大约是400GB,而这些海量基因数据却没有得到很好的分析、传输和存储。
[0046] 本案在获取了海量基因数据后,对基因数据进行布尔编码,得到原始数据矩阵。布尔代数,是一个用于集合运算和逻辑运算的代数。布尔代数定义在二元集合{0,1}上,包括包括∧(与)、∨(或), (非)和xor(异或)四个运算。
[0047] 其运算规则如表1所示:
[0048]
[0049] 表1布尔代数的运算规则
[0050] 基因数据可以为四种碱基(A、T、G、和C)的序列。这四种碱基可以按表2编码成为二进制序列,每个碱基用两个比特(bit)表示。这样l个碱基就编码成为n=2l个比特。
[0051] A:00 T:01 G:10 C:11
[0052] 表2四种碱基(A、T、G、和C)的二进制编码
[0053] 基因数据也可以是单核苷酸多态性(SNP)数据,单核苷酸多态性(SNP) 数据通常在每个位点有三种状态:次等位基因对、杂等位基因对和主等位基因对。这三种状态可以按表3编码成为二进制序列,每个SNP用两个比特(bit) 表示。这样l个SNP就编码成为n=2l个比特。
[0054]次等位基因:01 杂等位基因对:11 主等位基因对:10
[0055] 表3等位基因的SNP编码
[0056] 通过对基因数据进行布尔编码,得到原始数据矩阵,用于矩阵分解。
[0057] 步骤S20,基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵;
[0058] 该步骤中,基于布尔代数对所述原始数据矩阵进行矩阵分解,得到模式矩阵及残差矩阵可以包括基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;基于所述基因模式矩阵及所述样本模式矩阵,得到近似数据矩阵;比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
[0059] 需要说明的是,矩阵分解(matrix decomposition)中的“矩阵”是表示表格数据的常用形式。通常每一行代表一个样本(sample),每一列代表一个特征 (feature)。矩阵分解就是把一个矩阵表示成许多一阶矩阵的组合。每个一阶矩阵就是一个列向量和一个行向量的外积。其中行向量表示一个特征向量的模式,而一个列向量表示该模式在样本中的分布。常用的基于线性代数的分解方法有:主成分分析(principal component analysis),独立成分分析(independent component analysis),非负矩阵分解(non-negative matrix factorization)。本专利采用的是基于布尔代数的分解方法。
[0060] 本案输入基因数据,进行布尔编码后,得到一个原始数据矩阵A,根据布尔代数,对原始数据矩阵A进行矩阵分解,输出一个样本模式矩阵W,一个基因模式矩阵P,和一个残差矩阵E。W表示具有相似基因的样本子群,P表示基因的常见表型模式。W和P可以重构一个和A非常近似的基因数据矩阵 A,而且W和P的元素个数远远小于A。
[0061] 得到的样本模式矩阵W,基因模式矩阵P,和残差矩阵E,能够实现对原始数据矩阵A的分析,从而实现基于布尔代数的基因分析。因为W和P的元素个数远远小于A,而且E很稀疏,该技术也可以实现基于数据的压缩。
[0062] 步骤S30,对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据。
[0063] 该步骤中,模式矩阵可以包括样本模式矩阵W和基因模式矩阵P,对样本模式矩阵W和基因模式矩阵P进行压缩后得到模式压缩数据,且在对残差矩阵进行无损压缩后,得到残差压缩数据。
[0064] 无损压缩(lossless compression),如果经过其压缩而后解码的数据与原始的输入数据完全相同,那么这个压缩方法被称为无损的(lossless)。无损压缩是利用数据的统计冗余进行压缩,可完全恢复原始数据而不引起任何失真,但压缩率是受到数据统计冗余度的理论限制,一般为2:1到5:1.这类方法广泛用于文本数据,程序和特殊应用场合的图像数据(如指纹图像,医学图像等) 的压缩。
[0065] 通过对所述模式矩阵进行无损压缩得到模式压缩数据,且对所述残差矩阵进行无损压缩得到残差压缩数据,压缩数据便于存储及传输,并且,由于通过无损方式压缩,因此,在解码后,能够得到原始数据矩阵,避免数据损伤。
[0066] 步骤S40,在接收到解码指令时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。
[0067] 该步骤中,在需要解码时,即在接收到解码指令时,对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以获得所述近似数据矩阵;对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
[0068] 本发明利用布尔代数,而非现有技术中利用线性代数,通过对基因数据进行布尔编码、矩阵分解得到模式矩阵及残差矩阵,分解得到的基因模式矩阵和样本模式矩阵是对于原始数据的降维表示,除了用于压缩存储数据,也可以用于数据分析,得到基因的常见模式和样本的常见模式;并且,通过对模式矩阵及残差矩阵的无损压缩,便于传输及存储,在解码时,对所述模式压缩数据进行解码得到模式矩阵,且对残差压缩数据进行解码得到残差矩阵,再基于布尔代数从模式矩阵和残差矩阵还原原始数据矩阵。
[0069] 进一步地,基于本发明基于布尔代数的基因处理方法的第一实施例,提出本发明基于布尔代数的基因处理方法的第二实施例;所述模式矩阵包括基因模式矩阵及样本模式矩阵;步骤S20可以包括:
[0070] 基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;
[0071] 基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;
[0072] 比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
[0073] 本实施例中,得到模式矩阵及残差矩阵的具体方式为:基于布尔代数对所述原始数据矩阵进行矩阵分解,得到基因模式矩阵及样本模式矩阵;基于布尔代数对所述基因模式矩阵及所述样本模式矩阵进行重构数据,得到近似数据矩阵;比较所述原始数据矩阵及所述近似数据矩阵,得到残差矩阵。
[0074] 例如,一组m个样本l个碱基或等位基因的数据可以依据布尔编码表示一个m×n的{0,1}二值矩阵,其中n=2l。可以用Am×n表示该矩阵,寻找一个可以用公式1表示同时又尽量近似Am×n的矩阵Am×n=[aij]。公式1要求Am×n可以被按照布尔代数分解为两个{0,1}二值矩阵Wm×k和Pk×n,其中k是分解的成分数目。要注意的是,公式1中的矩阵乘法依据公式2中的布尔代数,其中wi. 和p.j分别为Wm×k和Pk×n中的元素。为了让Am×n尽量近似Am×n,用公式4里的差异函数J来衡量他们的相似程度,其中和分别是Am×n和Am×n中第i行第j列的元素,cij是依据Am×n制定的对第i行第j列的近似误差的惩罚系数。可以按照公式3来寻找Wm×k和Pk×n使得J最小化,优化得到的Wm×k和Pk×n分别表示样本的聚类模式和基因的聚类模式。
[0075]
[0076]
[0077]
[0078]
[0079] 在得到样本模式矩阵Wm×k和基因模式矩阵Pk×n后,基于样本模式矩阵Wm×k和基因模式矩阵Pk×n,得到近似数据矩阵 具体为:
[0080] 给定样本模式矩阵Wm×k和基因模式矩阵Pk×n,可以依据公式1重构近似数据矩阵要注意的是,公式1中的矩阵乘法依据公式2中的布尔代数,其中wi.和p.j分别为Wm×k和Pk×n中的元素。
[0081] 在得到近似数据矩阵后,比较原始数据矩阵和近似数据矩阵,得到残差矩阵,具体为:
[0082] 给定原始数据矩阵Am×n和重构的近似数据矩阵 比较急原始数据矩阵 Am×n和重构的近似数据矩阵 按照公式5计算他们的残差矩阵Em×n=[eij]。由于Am×n和 都是{0,1}二值矩阵,Em×n也是一个{0,1}二值矩阵。因为Am×n和 非常相似,所以Em×n非常稀疏。
[0083]
[0084] 通过对原始数据矩阵进行矩阵分解,发掘常见的基因表型组合,即在基因序列的哪些位点的哪些表型常常同时出现,发掘具有相似基因表型的样本群,即哪些样本在某些基因序列的位点具有相似的表型模式,从而实现基因分析过程。
[0085] 进一步地,步骤S20之后,基于布尔代数的基因处理方法可以包括:
[0086] 利用所述残差矩阵,对所述近似数据矩阵纠正。
[0087] 本实施例中,比较重构后的近似数据矩阵及原始数据矩阵,得到残差矩阵,可以利用残差矩阵对近似数据矩阵进行纠正,减小近似数据矩阵的误差。
[0088] 进一步地,基于步骤S30可以包括:
[0089] 对所述残差矩阵进行稀疏编码,得到残差压缩数据。
[0090] 在本实施例中,由于得到的残差矩阵Em×n=[eij]非常稀疏,再使用无损压缩算法(比如LZ77和LZ78)编码或解码。并且,使用无损压缩算法(比如 LZ77和LZ78)编码和解码模式矩阵Wm×k和Pk×n。因此,在进行无损压缩时,对残差矩阵进行稀疏编码,得到残差压缩数据,且对模式矩阵进行压缩,以便于存储及传输。
[0091] 需要说明的是,LZ77是无损压缩算法,由以色列人Abraham Lempel发表于1977年。LZ77是典型的基于字典的压缩算法,现在很多压缩技术都是基于 LZ77。
[0092] LZ78算法,是建立词典的算法。LZ78的编码思想是:不断地从字符流中提取新的缀-符串(String),通俗地理解为新"词条",然后用"代号"也就是码字 (Code word)表示这个"词条"。对字符流的编码就变成了用码字(Code word)去替换字符流(Charstream),生成码字流(Codestream),从而达到压缩数据的目的。
[0093] 进一步地,基于本发明基于布尔代数的基因处理方法的第二实施例,提出本发明基于布尔代数的基因处理方法的第三实施例;步骤S40可以包括:
[0094] 在接收到解码指令时,基于布尔代数对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以基于布尔代数获得所述近似数据矩阵;
[0095] 对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;
[0096] 基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
[0097] 本实施例中,在需要解码时,即在接收到解码指令时,对所述模式压缩数据进行解码,得到所述基因模式矩阵及所述样本模式矩阵,以获得所述近似数据矩阵;对所述残差压缩数据进行稀疏解码,得到所述残差矩阵;基于布尔代数从所述基因模式矩阵、所述样本模式矩阵及残差矩阵还原原始数据矩阵。
[0098] 给定重构的近似数据矩阵 和残差矩阵Em×n,公式6可以无损的恢复原始的数据矩阵Am×n=[aij]。
[0099]
[0100] 因此,在解码时,可以得到无损的原始数据矩阵,从而实现基因数据保存的完整性,便于后续研究再次使用。
[0101] 进一步地,所述基因数据为碱基序列数据;步骤S10可以包括:
[0102] 对所述碱基序列数据进行布尔编码,得到二进制序列的第一原始数据矩阵。
[0103] 本实施例中,基因数据可以为四种碱基(A、T、G、和C)的序列。这四种碱基可以按表2编码成为二进制序列,每个碱基用两个比特(bit)表示。这样L个碱基就编码成为n=2L个比特。
[0104] A:00 T:01 G:10 C:11
[0105] 表4四种碱基(A、T、G、和C)的二进制编码
[0106] 进一步地,所述基因数据为单核苷酸多态性数据;步骤S10可以包括:
[0107] 获取单核苷酸多态性数据的次等位基因对、杂等位基因对及主等位基因对;
[0108] 对所述次等位基因对、杂等位基因对及主等位基因对进行布尔编码得到二进制序列的第二原始数据矩阵。
[0109] 本实施例中,基因数据也可以是单核苷酸多态性(SNP)数据,单核苷酸多态性(SNP)数据通常在每个位点有三种状态:次等位基因对、杂等位基因对和主等位基因对。这三种状态可以按表3编码成为二进制序列,每个SNP 用两个比特(bit)表示。这样L个SNP就编码成为n=2L个比特。
[0110] 次等位基因:01 杂等位基因对:11 主等位基因对:10
[0111] 表5等位基因的SNP编码
[0112] 本发明还提供一种计算机可读存储介质。
[0113] 本发明计算机可读存储介质上存储有基于布尔代数的基因处理程序,所述基于布尔代数的基因处理程序被处理器执行时实现如上所述的基于布尔代数的基因处理方法的步骤。
[0114] 其中,在所述处理器上运行的基于布尔代数的基因处理程序被执行时所实现的方法可参照本发明基于布尔代数的基因处理方法各个实施例,此处不再赘述。
[0115] 需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
[0116] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0117] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台基于布尔代数的基因处理装置(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
[0118] 以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈