首页 / 专利分类库 / 基本电子电路 / 一种质谱数据高效存储及读取方法

一种质谱数据高效存储及读取方法

申请号 CN202311825283.9 申请日 2023-12-27 公开(公告)号 CN117891397A 公开(公告)日 2024-04-16
申请人 昆山禾信质谱技术有限公司; 广州禾信仪器股份有限公司; 发明人 王攀攀; 左海波; 朱辉; 沈小祥; 束亚飞; 王敏; 王新宇; 黄晓; 张涛;
摘要 本 发明 涉及数据文件存储与读取领域,更具体地,涉及一种质谱数据高效存储及读取方法,具体包括以下步骤:S1:按照谱图产生的先后顺序进行 数据采集 ,包括对质谱数据文件的信息以及对谱图数据的采集;S2:将预先自定义和采集过程得到的质谱数据文件的信息存储到信息域中;S3:对采集得到的谱图数据进行多层次压缩,然后存储到数据域中;S4:根据信息域中的质谱数据文件的信息建立与数据域中的谱图数据映射关系;本发明实现了采集过程的实时在线分析与同步存储的兼容性,同时使用分 层压 缩的方式提高了数据的压缩率,并且提高了数据分析的效率及灵活性。
权利要求

1.一种质谱数据高效存储方法,其特征在于,包括以下步骤:
S1:按照谱图产生的先后顺序进行数据采集,包括对质谱数据文件的信息以及对谱图数据的采集;
S2:将预先自定义和采集过程得到的质谱数据文件的信息存储到信息域中;
S3:对采集得到的谱图数据进行多层次压缩,然后存储到数据域中;
S4:根据信息域中的质谱数据文件的信息建立与数据域中的谱图数据的映射关系。
2.根据权利要求1所述的一种质谱数据高效存储方法,其特征在于,在所述步骤S1中,还包括了建立缓存区,在采集过程中根据采样速率和采样长度的乘积不同,来设置不同的缓存区的大小。
3.根据权利要求2所述的一种质谱数据高效存储方法,其特征在于,在步骤S2中,所述信息域通过分层存储的方式进行信息存储,将具有相同类型或者相似作用的信息作为一个层,其中每一层至少包括以下一种信息:数据域中每张谱图的索引、对信息域中其他层的引用信息以及设备的相关信息。
4.根据权利要求3所述的一种质谱数据高效存储方法,其特征在于,在步骤S2‑S3中,将采集到的谱图数据同步备份到缓存区中进行实时在线分析,根据分析结果,由用户和或/预先自定义的程序来决定是否进行特定操作,其中至少包括了进行质量轴校正操作或调整仪器参数操作。
5.根据权利要求4所述的一种质谱数据高效存储方法,其特征在于,在采集过程中,对仪器的操作,至少包括了仪器参数的调整所需要补充的信息会被自动添加到信息域的拓展层中,从而修改对应的信息域中谱图的索引并作用于数据域。
6.根据权利要求5所述的一种质谱数据高效存储方法,其特征在于,在所述步骤S3中,所述多层次压缩在不同阶段中进行,具体包括了:
第一层压缩:在采集过程中,对每张谱图进行内压缩处理,得到谱图数据块;
第二层压缩:将第一层压缩所得到的谱图数据块存储到数据域中,采集完成后,再对所有块进行整体压缩。
7.根据权利要求6所述的一种质谱数据高效存储方法,其特征在于,数据压缩率γ≤
0.1。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1‑7任一项所述的质谱数据高效存储方法。
9.一种质谱数据高效读取方法,其特征在于,包括以下步骤:
A1:在信息域中查找对应数据域中的索引信息;
A2:根据索引信息在数据域中查找相应的谱图数据块;
A3:对谱图数据块进行解压缩,然后读取所需的数据信息并对其进行数据分析。
10.根据权利要求9所述的一种质谱数据高效读取方法,其特征在于,步骤A3中所述的解压缩具体包括了:首先从整体压缩后的数据域中提取出对应的谱图数据块,然后再对该谱图数据块进行解压缩操作。

说明书全文

一种质谱数据高效存储及读取方法

技术领域

[0001] 本发明涉及数据文件存储与读取领域,更具体地,涉及一种质谱数据高效存储及读取方法。

背景技术

[0002] 质谱仪可以实现分子量的精确测量,种类多样,可以与色谱等技术联用,广泛应用于环境检测、食品安全蛋白质组学、代谢组学、生物医药、临床等领域。随着样品基质复杂性的不断提高,对质谱仪的灵敏度、质量分辨率、高通量等性能的要求也不断提高,随之而来的问题是,质谱仪的原始数据文件的大小也在以惊人的速度增长。如,用于蛋白质组学分析的液相色谱‑四极杆飞行时间串级质谱仪,一次较长时间的分析可产生高达10G以上的单个原始数据文件,对计算机的性能提出了很高的要求。
[0003] 目前,开源的质谱仪数据存储格式主要有mzML、mzXML、mzData等,以及各仪器厂商的专用数据格式文件,如SCIEX的.wiff文件,Thermo的.RAW格式等。但上述质谱数据存储格式通常用于质谱数据的离线存储,并不兼容实时存储,需要先完成实时在线采集之后,再将整个文件转化为可进一步分析处理的文件格式;另外,这些主流的数据存储格式并没有依据质谱数据的固有特征设计专有的压缩算法。因此压缩率并不高。同时这些主流的数据存储格式并没有针对采集模式做搜索上的优化,数据加载及查找速度慢,无法满足速度要求。
[0004] 另外,通用的数据格式.cdf、.hdf5、.mgf等,在多种科学数据领域应用广泛,但质谱数据有着独特性,如对于串级质谱来说,存在着一级谱图、二级谱图,且有着多种数据采集方法如:数据非依赖型分析(Data Independent Analysis,DIA)方法、数据依赖型分析(Data Dependent Analysis,DDA)方法;另外,完整的质谱文件还包含着质量轴校准,质谱参数设置信息,样品信息、与色谱仪联用时还包含色谱相关信息(如,色谱仪方法设置,流出时间、色谱图绘制等等)等等。这些信息对于质谱数据的分析至关重要,但无法与现有的通用数据格式兼容。
[0005] 因此,开发一种可实现质谱数据高效存储、节省大量的存储空间,且可实现边实时采集、边存储的方法具有重要现实意义,可显著提高质谱仪数据采集及数据分析处理的效率。

发明内容

[0006] 本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种质谱数据高效存储及读取方法,用于解决现有技术中无法实现数据实时采集与最终保存数据的兼容性、数据压缩率低以及对原始数据的加载以及查找速度慢的问题。
[0007] 本发明采取的技术方案是一种质谱数据高效存储的方法,具体包括以下步骤:
[0008] S1:按照谱图产生的先后顺序进行数据采集,包括对质谱数据文件的信息以及对谱图数据的采集;
[0009] S2:将预先自定义及采集得到的质谱数据文件的信息存储到信息域中;
[0010] S3:对采集得到的谱图数据进行多层次压缩,然后存储到数据域中;
[0011] S4:根据信息域中的质谱数据文件的信息建立与数据域中的谱图数据的映射关系。
[0012] 通过上述步骤实现了对质谱数据的快速采集与存储,通过多层次压缩使得实现数据分存储,提高了数据的压缩效率以及读取和访问效率。
[0013] 优选地,在所述步骤S1中,还包括了建立缓存区,在采集过程中根据采样速率和采样长度的乘积不同,来设置不同的缓存区的大小。在本发明中通过缓存区的设置,可以根据实际的情况来动态缓存数据,合理地运用了储存空间,提高了空间的利用率,同时实现了数据采集过程的实时在线分析与同步存储的兼容性。
[0014] 优选地,在步骤S2中,所述信息域通过分层存储的方式进行信息存储,将具有相同类型或者相似作用的信息作为一个层,其中每一层至少包括以下一种信息:数据域中每张谱图的索引、对信息域中其他层的引用信息以及设备的相关信息。通过分层存储的方式使得信息域中的层次结构清晰明了,同时通过将具有相同类型或者相似作用的信息作为一个层,这种层级的设置方法允许了某些层具有相对独立性,并且其他层之间也可以互相关联和引用,构建了一个完整的信息网络。
[0015] 优选地,在步骤S2‑S3中,将采集到的谱图数据先同步备份到缓存区中进行实时在线分析,根据分析结果,由用户和或/预先自定义的程序来决定是否进行某些特定的操作:如进行质量轴校正、调整仪器参数等。
[0016] 进一步优选地,在采集过程中,对仪器的操作,至少包括了仪器参数的调整所需要的补充信息将会被自动添加到信息域的拓展层中,从而修改对应的信息域中谱图的索引并作用于数据域。
[0017] 信息域为质谱数据文件的重要组成部分,其中包含了质谱数据的元信息及其相关描述,为数据提供了关键的上下文和解释,在其中存储有质谱方法、色谱方法、校准方法等信息,控制着采集过程,通过根据在线分析反馈的结果信息,利用信息域中层次之间的交互性,或者通过信息域的可拓展性来添加新的拓展层,实现信息的更新,提高信息域的索引与数据域中相应数据一一对应的精确性,大大地提高了数据分析的效率以及灵活性,节省了时间。
[0018] 优选地,在所述步骤S3中,所述多层次压缩在不同阶段中进行,具体包括了:
[0019] 第一层压缩:采集过程中,对每张谱图进行块内压缩处理,得到压缩的谱图数据块;
[0020] 第二层压缩:完成采集后,将第一层压缩所得到的谱图数据块存储到数据域中,再对所有块进行整体压缩。
[0021] 进一步优选地,在本发明中数据压缩率γ≤0.1。
[0022] 通过分层压缩,大大地减少了数据的存储空间,同时可以实现数据的同步压缩和同步写入的在线实时操作,提高了数据处理的效率,并且这种分层压缩的方式,使得数据的压缩率较高,压缩后的体积小于压缩前体积的0.1。
[0023] 第二方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的质谱数据高效存储方法。
[0024] 第三方面,在本发明中还提供了一种质谱数据高效读取方法,具体包括以下步骤:
[0025] A1:在信息域中查找对应数据域中的索引信息;
[0026] A2:根据索引信息在数据域中查找相应的谱图数据块;
[0027] A3:对谱图数据块进行解压缩,然后读取所需的数据信息并对其进行数据分析。
[0028] 通过上述步骤实现了质谱数据的高效读取,数据域中的数据通过分块存储的方式进行存储,有效地提高了数据的读取和访问效率,在信息域中获取相应的索引信息即可快速地在数据域中查找到所需的数据。
[0029] 优选地,步骤A3中所述的解压缩具体包括了:首先从整体压缩后的数据域中提取出对应的谱图数据块,然后再对该谱图数据块进行解压缩操作。实现了针对性地进行数据获取,提高了数据读取的精准性,提高了数据读取的效率。
[0030] 与现有技术相比,本发明的有益效果为:
[0031] 1、利用多线程技术,通过缓存区的设置,实现了采集过程的实时在线分析与同步存储的兼容性;
[0032] 2、使用分层压缩,数据压缩率较高,压缩后的体积小于压缩前的1/10;
[0033] 3、信息域使用了层次化、可拓展的分层存储技术,提高了数据分析的效率及灵活性;
[0034] 4、数据进行分块存储的方式,提高了数据访问和读取的效率,同时建立信息域与数据域的映射关系实现了数据的快速查找与读取。附图说明
[0035] 图1为本发明的质谱数据存储方法流程示意图。
[0036] 图2为本发明的质谱数据存储方法示意图。
[0037] 图3为本发明的数据域存储示意图。
[0038] 图4为本发明的信息交互示意图。
[0039] 图5为本发明的信息域层拓展示意图。
[0040] 图6为本发明的质谱数据读取流程示意图。
[0041] 图7为本发明的数据校准流程示意图。
[0042] 图8为本发明提供的电子设备的结构示意图。

具体实施方式

[0043] 本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0044] 实施例1
[0045] 如图1所示,在本实施例中提供了一种质谱数据高效存储的方法,具体包括以下步骤:
[0046] S1:按照谱图产生的先后顺序进行数据采集,包括对质谱数据文件的信息以及对谱图数据的采集;
[0047] S2:将预先自定义和采集过程得到的质谱数据文件的信息存储到信息域中;
[0048] S3:对采集得到的谱图数据进行多层次压缩,然后存储到数据域中;
[0049] S4:根据信息域中的质谱数据文件的信息建立与数据域中的谱图数据的映射关系。
[0050] 在本实施例中,质谱文件由两部分组成,一部分为数据域,另一部分为信息域。数据域用来存储时间序列谱图,根据谱图产生的时间先后顺序进行采集,如图3所示,以时间序列按照索引0~N‑1的方式进行线性分块存储,每块包含一张谱图,每张谱图都包含两个长度相等,且一一对应的一维有序数组/向量:质荷比(对于飞行时间质量分析器,未校准之前为飞行时间)和响应值。每块的大小,即每张谱图中有序数组/向量的长度(表示质荷比/飞行时间,或者响应值),取决于采集方法设置,其大小可变。
[0051] 通过上述步骤实现了对质谱数据的快速采集与存储,通过多层次压缩使得实现数据分块存储,提高了数据的压缩效率以及读取和访问效率。
[0052] 优选地,如图2所示,在本实施例的步骤S1中,还包括了建立缓存区,在采集过程中根据采样速率和采样长度的乘积不同,来设置不同的缓存区的大小,合理地运用了储存空间,提高了空间的利用率,同时,采集数据的同步缓存,同步压缩,实现了数据采集过程的实时在线分析与同步存储的兼容性。
[0053] 优选地,在步骤S2中,所述信息域通过分层存储的方式进行信息存储,将具有相同类型或者相似作用的信息作为一个层,其中每一层至少包括以下一种信息:数据域中每张谱图的索引、对信息域中其他层的引用信息以及设备的相关信息。
[0054] 通过分层存储的方式使得信息域中的层次结构清晰明了,同时通过将具有相同类型或者相似作用的信息作为一个层,这种层级的设置方法允许了某些层具有相对独立性,并且其他层之间也可以互相关联和引用,构建了一个完整的信息网络。另外在信息域中所存储的设备的相关信息包括但不限于样品信息(前处理方式、浓度)、仪器类型(三重四极杆质谱、四极杆‑飞行时间质谱等)、分析条件(高灵敏度模式,高分辨率模式…)等,这些信息都对数据域的理解及完整的数据分析过程具有重要意义。
[0055] 优选地,在步骤S2‑S3中将采集到的谱图数据同步备份到缓存区中进行实时在线分析,然后将分析得到的结果信息反馈给步骤S2中的信息域对数据域的数据采集进行在线校准。通过在线校准使得信息域中所存储的质谱数据文件的信息对数据域的理解能够更加准确,提高了数据采集以及索引信息的精准性。
[0056] 进一步优选地,如图5所示,所述在线校准具体包括了:信息域根据反馈的结果信息通过对其他层的索引来修改校准参数,和或/通过设置补充信息添加新的拓展层,从而修改数据域中谱图的索引并作用于数据域。
[0057] 信息域为质谱数据文件的重要组成部分,其中包含了质谱数据的元信息及其相关描述,为数据提供了关键的上下文和解释,在其中存储有质谱方法、色谱方法、校准方法等信息,控制着采集过程,通过根据反馈的结果信息利用信息域中层次之间的交互性,或者通过信息与的可拓展性来添加新的拓展层,实现信息的更新,从而能够更加精准快速地对数据进行采集,同时校准了索引信息,提高信息域的索引与数据域中相应数据一一对应的精确性,大大地提高了数据分析的效率以及灵活性,节省了时间。同时这种相互引用与独立性的灵活设置,可以根据仪器类型和实际场景进行调整,不影响数据域中数据的保存,交互性也体现在与数据域的交互,当用户在数据的在线采集过程中,对某些参数设置进行修改,如:对质谱仪电参数进行修改调整,将存储在信息域新的拓展层中,并作用于数据域,使得数据域的数据改变更新。
[0058] 优选地,在所述步骤S3中,所述多层次压缩在不同阶段中进行,具体包括了:
[0059] 第一层压缩:数据采集过程中,对每张谱图进行块内压缩处理,得到谱图数据块;
[0060] 第二层压缩:将第一层压缩所得到的谱图数据块存储到数据域中,再对所有块进行整体压缩。
[0061] 进一步优选地,在本发明中数据压缩率γ≤0.1。
[0062] 在本实施例中,如上所述对数据域的压缩采用多层次压缩方法,主要包含了两个层次:(1)针对每一块(在此对应的为每一张谱图)数据的压缩处理;(2)在对每一块进行压缩的基础上,然后对整个数据域进行进一步压缩。通过这种分层压缩的方式,大大地减少了数据的存储空间,同时可以实现数据的同步压缩和同步写入的在线实时操作,提高了数据处理的效率,并且这种分层压缩的方式,使得数据的压缩率较高,压缩后的体积小于压缩前体积的0.1。
[0063] 此外,另一种实施例以串级质谱LC‑QTOF(液相色谱‑四极杆飞行时间质谱)仪器为例,在串级质谱LC‑QTOF(液相色谱‑四极杆飞行时间质谱)仪器中数据域的存储方式如图3所示,以时间序列,按照索引0~N‑1的方式进行线性分块存储,在本实施例中存储有质荷比数组/向量和响应数组/向量这两种数据,首先将数据存储到缓存区,在采集过程中,缓存区内谱图数量的大小取决于采集速率和采集长度,根据二者乘积不同,可以设置不同的缓存区的大小,然后再进行利用信息域中的质谱文件数据信息对其进行在线分析与校准,信息域采用的是可交互性、可拓展性的层次结构,其存储方式为分层存储,在本实施例中提供了一种分层设置方法,具体如下:
[0064] 第一层B1存储了质谱文件的相关信息,包括:文件相关信息(保存路径、文件名称、采集日期及时间等)、质谱仪类型,数据域中每一张谱图中所使用的单位,如m/z、计数个数等,其对应的数据域中的索引为全部索引。第二层B2则包含仪器参数信息,如离子源电参数、质量分析器电参数、检测器电参数等。第三层B3则存储仪器方法信息及索引信息,由于LC‑QTOF在蛋白质组学、代谢组学等领域的应用中,存在着多种采集方法,包括数据依赖型分析(Data Dependent Analysis,DDA)、数据非依赖型分析(Data Independent Analysis,DIA)等,对应于数据域,则存在着一级谱图和二级谱图之分;一级质谱和二级质谱根据所设定的方法,如在一级质谱图中,将响应最高的前10个前体离子进行CID(碰撞诱导解离),以产生二级谱图;按照设定的方法,一级谱图和二级谱图依次交替产生;根据预先设定的DDA采集方法,B3层存储了对应于数据域中一级谱图和二级谱图的索引,以及二级谱图对应的母离子。第四层B4层则存储了质量校准方法,包括校准参数,及其对应作用范围,通常情况下,一级谱图和二级谱图由于质量范围不同,所使用的校准参数也不同,因此B4层与B3层可以相互引用,如图4所示,B4层通过调用B3层存储的一级谱图和二级谱图的索引,对数据域的数据进行在线校准,或者修改校准参数,进行离线校准,以更新数据域中的每张谱图,其他层可根据实际需求添加,如:仪器的自动调谐信息,数据预处理(去噪、平滑等)信息,色谱信息,样品信息等等。
[0065] 在信息域中的可拓展性除了可以设置补充信息,添加新的层,也表现在实时在线分析过程中,动态添加新的层,以记录用户修改的信息,并根据修改信息决定是否作用于数据域。如在数据采集过程中,通过实时在线分析发现仪器灵敏度较低,需要进行某些电参数调整,以增大灵敏度;或者需要对预处理参数进行调整,此时将在信息域中生成新的拓展层,以记录修改后的参数及修改时间点,通过记录修改后的时间点及采集速率等参数,可以得到修改参数时谱图的索引,并最终反映在数据域中。
[0066] 如图2所示,缓存区的存在实现了谱图的在线分析与压缩的同步,在本实施例中,在满足一定的数据精度要求下,在对谱图数据进行在线分析的同时分别对质荷比数组/向量和响应数组/向量这两种谱图采用不同的压缩算法处理,由于质荷比/飞行时间数据为等差数列数组/向量,因此对每一块中质荷比/飞行时间的数组/向量,采用Delta Encoding(差分编码)压缩算法,利用数据中相邻元素之间的差异性来减少数据量,从而减小存储位数;对于响应数组/向量,根据信息域中存储的阈值参数,将小于该阈值的值设为0,然后使用通用压缩算法Zlib通过优化比较字符串的算法来实现高效的压缩和解压,从而减小数据尺寸,使得数据被压缩成相应的谱图数据块存储到数据域中,最后在数据采集完成后,再对所有已压缩的谱图数据块作进一步的压缩处理,进一步地提高压缩率。
[0067] 图8为本发明提供的电子设备的结构示意图。如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行质谱数据高效存储的方法,该方法包括:按照谱图产生的先后顺序进行数据采集,包括对质谱数据文件的信息以及对谱图数据的采集;将预先自定义和采集过程得到的质谱数据文件的信息存储到信息域中;对采集得到的谱图数据进行多层次压缩,然后存储到数据域中;根据信息域中的质谱数据文件的信息建立与数据域中的谱图数据的映射关系。
[0068] 此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明方案的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本方案各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0069] 第三方面,如图6所示,在本实施例中还提供了一种质谱数据高效读取方法,具体包括以下步骤:
[0070] A1:在信息域中查找对应数据域中的索引信息;
[0071] A2:根据索引信息在数据域中查找相应的谱图数据块;
[0072] A3:对谱图数据块进行解压缩,然后读取所需的数据信息并对其进行数据分析。
[0073] 通过上述步骤实现了质谱数据的高效读取,数据域中的数据通过分块存储的方式进行存储,有效地提高了数据的读取和访问效率,在信息域中获取相应的索引信息即可快速地在数据域中查找到所需的数据。
[0074] 优选地,如图7所示,在步骤A1中,还包括了在查找不到相应索引信息时对信息域中的索引信息进行更新校准,具体包括以下步骤:
[0075] A11:收集相关的校准参数信息;
[0076] A12:根据校准参数信息在信息域中设置补充信息,添加到新的层,和或/修改已有的其他层的信息,进行在线或者离线校准,从而更新与数据域一一对应的索引信息,进而更新数据域中的每张谱图信息;
[0077] A13:重复步骤A1中重新进行数据读取。
[0078] 如图5所示,通过进行在线或者离线校准,进行参数的修改,然后通过动态拓展生成新的信息域层记录修改信息,实现对信息域中索引等信息的更新,从而作用于数据域,对数据域数据进行更新,进一步地提高了数据读取的高效与准确性。
[0079] 优选地,步骤A3中所述的解压缩具体包括了:首先从整体压缩后的数据域中提取出对应的谱图数据块,然后再对该谱图数据块进行解压缩操作。实现了针对性地进行数据获取,提高了数据读取的精准性,提高了数据读取的效率。
[0080] 显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
QQ群二维码
意见反馈