首页 / 专利库 / 电脑编程 / 算法 / 基于核磁共振和质谱的代谢组学数据融合方法及其应用

基于核磁共振和质谱的代谢组学数据融合方法及其应用

阅读:166发布:2021-09-18

专利汇可以提供基于核磁共振和质谱的代谢组学数据融合方法及其应用专利检索,专利查询,专利分析的服务。并且本 发明 公开了基于 核磁共振 和质谱的代谢组学数据融合方法及其应用,该方法包括:分别利用核磁共振谱仪和液相色谱‑质谱仪器采集 生物 样品的代谢轮廓,得到基于核磁共振(NMR)和基于质谱(MS)的两种代谢组学数据;利用Diffreg检验方法,先从MS数据中筛选出对NMR数据具有补充意义的变量,将所筛选的MS变量集与NMR数据集合并;再从新数据集中删除冗余的变量,则所得的数据即为融合数据,便于后续的建模分析。本发明方法得到的模型具有更好的解释与预测性能,且对于其它代谢组学平台的数据融合具有很强的适用性。,下面是基于核磁共振和质谱的代谢组学数据融合方法及其应用专利的具体信息内容。

1.基于核磁共振和质谱的代谢组学数据融合方法,其特征在于,包括如下步骤:
(1)样本收集:收集代谢组学研究的实验样品,对实验样品处理得到正常样品A和疾病样品B;
(2)数据的收集和处理:对实验样品进行一维核磁共振氢谱和液相色谱-质谱实验,将得到的谱图进行处理得到每行为实验样本、每列为代谢物信息的二维矩阵,分别为NMR数据集和MS数据集;
(3)使用Diffreg检验计算MS数据集中每个变量对NMR数据集的p值,选择Diffreg检验p值小于0.05的或者前10%小的变量,这些变量即为MS数据集中对NMR数据集有补充信息的变量,作为MS补充变量集;
(4)使用Diffreg检验计算NMR数据集中每个变量对步骤(3)中的MS补充变量集的p值,保留前10%至20%小的变量,将新得到的NMR补充变量集与步骤(3)中的MS补充变量集结合起来,所得的新数据集即为核磁共振与质谱的融合数据。
2.根据权利要求1所述的基于核磁共振和质谱的代谢组学数据融合方法,其特征在于:
所述步骤(2)中一维核磁共振氢谱实验在布鲁克DRX 500MHz谱仪上完成,实验温度设置为
298K,采集实验样品的一维核磁共振氢谱;液相色谱-质谱实验在Agilent 1260LC AB Sciex QTrap 5500MS系统上完成,每个实验样品正负模式下各检测一次获取其代谢信息。
3.根据权利要求1所述的基于核磁共振和质谱的代谢组学数据融合方法,其特征在于:
所述步骤(2)中所述一维核磁共振氢谱的谱图数据,使用MestReNova软件进行定标、相位校正、基线校正、谱峰对齐,删除残余的溶剂峰和基线点,再进行分段积分和归一化处理,得到NMR数据集;液相色谱-质谱的谱图数据,使用MultiQuant对谱峰进行积分,然后使用QC样本对数据进行归一化处理,得到MS数据集。
4.根据权利要求1所述的基于核磁共振和质谱的代谢组学数据融合方法,其特征在于:
所述步骤(3)、(4)中使用Diffreg检验筛选具有补充意义的变量的具体方法为:
①数据准备:将步骤(2)中的NMR数据集或者步骤(3)中的MS补充变量集数据集作为Xlocal,将步骤(2)中的MS数据集中的每一个变量或者步骤(2)中的NMR数据集中的每一个变量作为Xre,针对每一个Xre构建X=Xlocal+βXre,其中β为Xre的系数;Y为对应每一个样本的标签;
②数据划分:将X分割为两部分Xin与Xout,其对应的响应分别为Yin与Yout;
③Screening:利用第一部分数据Xin,分别计算在限制βi=0,i∈A下的模型与未限制模型中参数β的估计 和 以及相关变量的集合 和
④p值计算:利用第二部分数据Xout,分别计算两个模型的对数似然函数

并计算其似然比统计量
同样,利用其渐近分布或排列检验计算LR的p值;其中,X代表等待检验的数据矩阵,Y代表对应的标签,β为要加入至待测矩阵的待检验变量。
5.根据权利要求4所述的基于核磁共振和质谱的代谢组学数据融合方法,其特征在于:
所述步骤(4)中使用Diffreg检验删除扩展数据集中的冗余变量的具体方法为:保留Diffreg算法中p值中前10%小的变量。
6.如权利要求1~5任一项代谢组学数据融合方法在代谢组学稀疏模型构建中的应用。

说明书全文

基于核磁共振和质谱的代谢组学数据融合方法及其应用

技术领域

[0001] 本发明属于分析技术领域,涉及基于核磁共振和质谱的代谢组学数据融合方法及其应用。

背景技术

[0002] 代谢组学是后基因时代出现的一新兴“组学”。它利用核磁共振波谱和色质联用等高通量的现代分析技术,结合化学计量学方法,对生物体的内源性代谢产物进行定性定量地测定和分析,以揭示生命体对基因、药物和环境等内外刺激的响应规律。与其他组学技术如基因组学、转录组学和蛋白质组学相比,代谢组学更能够真实地反映整个机体在某一特定的生理或病理状态下的代谢轮廓及已经发生的生命活动,已经成为系统生物学研究的又一重要手段。
[0003] 核磁共振技术(NMR)和液相色谱质谱联用技术(LC-MS)是代谢组学研究中最常用的两种分析技术。NMR技术的主要优势在于生物样品预处理步骤简单,谱图重复性好且便于定量分析,代谢物检测无偏向性,但灵敏度较低。而LCMS检测的分辨率和灵敏度更高,可以检测到浓度较低的代谢物,但LCMS的可重现性比较差,定量相对较难。因此,联合核磁共振和质谱技术能够优势互补,获得更全面的代谢轮廓信息。但由于NMR和LCMS数据中含有一部分冗余的信息,如果直接对二者数据进行串联建模,这些冗余信息容易引起模型性能下降而得出不当的分析结果。如何有效地融合NMR和LCMS数据,提取有用信息,是提高模型性能的一个关键问题。
[0004] Diffreg检验用来检验两个模型之间是否存在显著性差异。设两个模型的参数分别为θ(1)和θ(2),该方法用于检验
[0005]
[0006] 其具体步骤如下:
[0007] (1)数据划分:将两个模型的样本随机划分为样本量相等的两部分, 和 以及 和 分别用于第二步的Screening和第三步的p值计算。
[0008] (2)Screening:Screening的过程旨在估计出一个相关变量集 并诱导出参数子空间 假定 为真正的相关变量构成的集合,则 Screening过程应满足两个条件:(a) 相较于其对应的样本量nin数值较小;(b)  将Screening方法分别应用于 以及池
化样本 得到θ(1)、θ(2)和θ(12)的估计 和 以及相关变量集合 的
估计 以及
[0009] (3)p值计算:用第二部分数据 以及池化样本 来计算p值。记由 和 决定的每一组模型其对数似然函数为Lind,由 决定的池化模型其对数joint ind joint
似然函数为L 。考虑统计量LR=2(L -L ),则可用排列检验或其渐进分布来计算其p值。
[0010] Diffreg检验通过检验:“在一个模型中加入一个新变量之后,模型是否发生显著变化”,从而判断新变量对现有模型是否具有补充意义。反过来,如果将不显著的变量视为冗余变量,则 Diffreg检验也可以用于删除冗余数据。因此,借助Diffreg检验,可以抽取出一种数据对于另外一种数据具有补充性的信息,也可以删除数据集中的冗余信息,从而帮助建立一个性能优良的模型。

发明内容

[0011] 本发明的目的在于克服现有技术的不足之处,提供了基于核磁共振和质谱的代谢组学数据融合方法及其应用,解决了上述背景技术中的问题。
[0012] 本发明解决其技术问题所采用的技术方案是:提供了基于核磁共振(NMR)和质谱(MS) 的代谢组学数据融合方法,该方法有效地提取MS中对NMR数据的补充信息,从而构造一个预测性能更良好的模型。
[0013] 本发明所述的一种基于NMR和MS联用的代谢组学数据融合方法。该方法首先对感兴趣生物的实验组和对照组分别进行NMR和LC-MS检测得到相应的代谢指纹谱,然后通过Diffreg 检验提取MS数据中相对于NMR数据的补充变量组,进而将此补充变量组加入NMR数据生成一个新的扩展数据矩阵,最后对此矩阵进行建模。这种数据融合方法有效地提取了NMR和 MS数据集中的互补信息,降低了冗余信息对模型的干扰,具有重要的意义。
[0014] 本发明所述的一种基于NMR和MS联用的代谢组学数据融合方法,其具体技术方案如下:
[0015] (1)样本收集:收集代谢组学研究的实验样品,对实验样品处理得到正常样品A和疾病样品B;通常收集正常动物与疾病动物的样本,放置-80℃箱中妥善保存待测。
[0016] (2)数据的收集和处理:对实验样品进行一维核磁共振氢谱和液相色谱-质谱实验,将得到的谱图进行处理得到每行为实验样本、每列为代谢物信息的二维矩阵,分别为NMR数据集和MS数据集;
[0017] a.核磁共振实验在布鲁克DRX 500MHz谱仪上进行,实验温度设置为298K,采集生物样本的高分辨率一维核磁共振氢谱。
[0018] b.样品制备完毕后,质谱实验在Agilent 1260 LC(Agilent Technologies,Santa Clara,CA)AB Sciex QTrap 5500 MS(AB Sciex,Toronto,Canada)系统上进行,在正、负模式下各检测一次,使用MultiQuant 2.1软件(AB Sciex,Toronto,Canada)对谱峰进行积分处理。
[0019] c.谱图预处理:采集得到的核磁共振谱使用MestReNova v.8.1.2软件进行傅立叶变化、相位调整、基线校正和定标等预处理,对处理后的谱图进行分段积分和归一化后得到每行为分析样本,每列为代谢物信息的二维矩阵;对采集得到的质谱先转化成mzML文件,然后用R读取文件,使用XCMS v3.0.2软件对质谱文件进行中心化、去噪、对齐等处理,得到每行为样本,每列为代谢物信息的二维矩阵。
[0020] (3)使用Diffreg检验计算MS数据集中每个变量对NMR数据集的p值,选择Diffreg检验p值小于0.05的或者前10%小的变量,这些变量即为MS数据集中对NMR数据集有补充信息的变量;
[0021] (4)使用Diffreg检验计算NMR数据集中每个变量对(3)中的补充变量集的p值,保留前10%至20%小的变量,将新得到的NMR补充变量集与(3)中的MS补充变量结合起来,所得的新数据集即为核磁共振与质谱的融合数据。
[0022] 算法示意图如图1所示,将Diffreg算法改为如下步骤以在此场景下做检验:
[0023] 所述步骤(3)、(4)中使用Diffreg检验筛选具有补充意义的变量的具体方法为:
[0024] ①数据准备:将(3)中的NMR数据集或者(4)中的MS补充变量数据集作为Xlocal,将(3)中的MS数据集中的每一个变量或者(4)中的NMR数据集中的每一个变量作为Xre,针对每一个Xre构建X=Xlocal+βXre,其中β为Xre的系数;Y为对应每一个样本的标签;
[0025] ②数据划分:将X分割为两部分Xin与Xout,其对应的响应分别为Yin与Yout。
[0026] ③Screening:利用第一部分数据Xin,分别计算在限制βi=0,i∈A下的模型与未限制模型中参数β的估计 和 以及相关变量的集合 和
[0027] ④p值计算:利用第二部分数据Xout,分别计算两个模型的对数似然函数[0028]
[0029] 和
[0030] 并计算其似然比统计量
[0031]
[0032] 同样,利用其渐近分布或排列检验计算LR的p值;其中,X代表等待检验的数据矩阵,Y 代表对应的分类,β为要加入至待测矩阵的待检验变量。
[0033] (5)冗余变量剔除:将上述得到的MS补充变量组和NMR变量组保留下来,对NMR 变量组中的每一个变量对此MS补充变量组做一遍diffreg检验,具体算法如上述的diffreg算法,保留这一步中p值中前10%小的变量,保留下的变量组即为剔除冗余变量之后的NMR 变量组。将此NMR变量组与MS补充变量组向结合,即为一个稀疏的NMR与MS融合数据矩阵。
[0034] 本发明还提供了上述数据融合方法在代谢组学稀疏模型构建中的应用,使模型构建方法简单,便于推广应用。
[0035] 在本发明一较佳实施例中,应用本发明所述的一种基于NMR和MS联用的代谢组学数据融合方法,包括以下步骤:采集待检正常、疾病生物的生物样本进行样品预处理,将预处理后的样本进行核磁共振、质谱测定,得到待检样本的原始代谢谱;将这些原始代谢谱进行谱图预处理,得到包含代谢物信息的二维数据矩阵;将得到的数据矩阵用于此代谢组学数据融合方法,可以得到融合数据矩阵,对此数据矩阵进行进一步分析建模可以用于疾病预测或分类等多种任务。
[0036] 本技术方案与背景技术相比,它具有如下优点:
[0037] 1.本发明的生物样本是正常生物和患病生物的生物样本(可以是血液、尿液、粪便等),此类生物样本是常用的检验样品,其收集和处理过程简单方便,花费低,便于推广应用。
[0038] 2.通过基于NMR和MS联用的代谢组学数据融合方法可以整合来自NMR和MS的信息,建立一个新的融合数据矩阵,方便下一步继续分析和建模。该方法对于提高病理诊断和分型的准确率有较大的帮助,且该方法的提出至今在国内外尚未见相似报道。
[0039] 3.本发明的代谢组学数据融合方法,不仅可以用于核磁共振和质谱这两种检测技术所获得的代谢指纹谱融合分析,也可以推广至核磁共振与近红外光谱、质谱与近红外光谱等其他分析平台的模型融合。
[0040] 4.通常联合使用核磁共振与质谱技术进行建模时,由于变量繁多、维度爆炸等因素会造成分析上的困难;本方法于通过融合核磁共振信息和质谱信息,构造一个相对稀疏的变量集,此变量集保留了对模型构建有用的信息,同时剔除了冗余的信息,对后续进行模型构建,预测等工作有很大帮助。附图说明
[0041] 图1为本发明的算法流程图
[0042] 图2为单个MS变量对NMR数据矩阵的补充变量图。
[0043] 图3为NMR和MS直接结合做PLSDA的得分图。
[0044] 图4为提取补充性之后的融合矩阵做PLSDA的得分图。
[0045] 图5为提取补充性之后的融合矩阵的PLSDA的CV验证。

具体实施方式

[0046] 实施例1
[0047] 1.研究对象
[0048] 本发明使用在印第安纳州大学医学院采集的83个血清样本,分别来自28个结直肠癌患者和55个健康志愿者,所有结直肠癌患者均是第一次被诊断出,采血之前未进行任何手术治疗化学治疗放射治疗
[0049] 2.试剂和仪器设备
[0050] 实验试剂包括重、三氯甲烷、甲醇、磷酸二氢钠、磷酸氢二、乙酸铵、醋酸
[0051] 实验耗材包括5mm核磁管、移液器、1000μL和200μL枪头、5mL EP管、记号笔、乳胶手套和口罩。
[0052] 实验设备包括移液器、低温高速离心机、布鲁克500MHz核磁共振谱仪、安捷伦1260 LC 和AB Sciex QTrap 5500 MS系统。
[0053] 3.样本收集与预处理
[0054] 采集28个结直肠癌患者和55个健康志愿者的血浆,采集到的血液静置45分钟后以2000 转/分钟的转速离心10分钟,离心后其取上清液储存于-80℃冰箱中直至实验。
[0055] 4.核磁共振谱测定
[0056] 取530μL待测样品加入5mm NMR管中。将一个封装60μL TSP(3-propionic-2,2,3,3-d4 acid sodium salt)溶液(20.9nmol TSP溶解于60μL D2O中)的毛细管置于5mm NMR管内用于化学位移定标(δ=0.00ppm)。1D 1H NMR实验在Bruker DRX 500MHz谱仪上进行。预饱和序列来抑制水峰信号并结合CPMG(Carr-Purcell-Meiboom-Gill)自旋回波序列来采集血清谱。试验温度设置为25℃,每一个谱共累加128次,谱宽6kHz,采集到的FID信号进行傅立叶变换前乘以一个指数加权函数来提高谱图信噪比。利用Bruker TopSpin软件(version 
3.5)对谱图进行相位和基线校正。根据谱峰位置和裂分信息对代谢物进行归属,并对获取的代谢物谱峰进行手动积分。
[0057] 5.LC/MS谱测定
[0058] 50μL血清样本与150μL甲醇涡旋混合,并静置于-20℃冰箱20分钟;取出样本以14000 转/分钟的速度离心10分钟,取上清液;对于剩下的蛋白质小球,再次加入300μL甲醇、涡旋混合10分钟、14000转/分钟离心10分钟,之后取上清液;两轮中提取的上清液混合后进行干燥;干燥后的固体复溶于500μL的99.8%乙酸铵溶液(5mM乙酸铵,40%水/60%乙腈) +0.2%醋酸(5.13μM L-酪酸-13C2/22.54μM L-乳酸钠-13C3),其中两种同位素标记的标准物被用于监控实验系统稳定性。LC-MS/MS实验在Agilent 1260 LC(Agilent Technologies,Santa Clara,CA)和AB Sciex QTrap 5500 MS(AB Sciex,Toronto,Canada)系统上进行。每个样本正、负模式下各检测一次。靶标质谱数据在质谱多反应监测(multiple reaction monitoring, MRM)模式下获取。在正、负模式下分别检测到59对和99个母离子-子离子对(总共158 对)。最后,利用MultiQuant 2.1软件(AB Sciex,Toronto,Canada)对谱峰进行积分处理。
[0059] 6.补充信息提取与融合数据矩阵建立
[0060] 将数据矩阵导入Rstudio软件进行分析,所有的数据进行中心化处理后,将处理之后的核磁数据矩阵标记为NMR,质谱数据矩阵标记为MS,首先对MS中的每一个变量分别与NMR 结合之后做Diffreg检验,将p值前10%小的变量提取出来,作为MS补充变量集;然后对NMR中的每一个变量分别与MS补充变量集集合做Diffreg检验,同样提取前10%小的变量,作为NMR补充变量集,结合这两个补充变量集作为一个新的数据矩阵,这个新的数据矩阵就是经过稀疏的NMR和MS融合数据矩阵。
[0061] 7.方法验证与对比
[0062] 为验证在步骤6中本方法所提取的数据融合矩阵的建模性能要优于直接结合NMR和MS 的数据矩阵的建模性能,我们可以对步骤6中的数据矩阵和直接结合NMR和MS的数据矩阵做PLSDA分析,PLSDA算法可以直接调用SIMCA软件中的算法。得到两个PLSDA模型之后,可以画出得分图进行对比:得分图如图4所示。与直接联合NMR和MS做PLSDA分析(图3)对比,可以看到前两个主成分的贡献率提升了接近20%,并且可以看到此融合模型通过了CV验证(图5)。为了便于比较,我们分别对NMR数据、MS数据及其串联数据进行PLSDA建模,进行对比,结果如表一。在表一中可以看到,两种数据直接连用时,PLSDA 模型的PMSE(predict mean-square error,预测均方误差)相较于单独用MS数据非但没有下降,反而有所上升,但是提取了MS对NMR的补充性变量之后联合建模预测均方误差更小,性能更加良好。
[0063] 表1.不同数据的PLSDA模型的预测结果比较
[0064]
[0065] 7.结论
[0066] 由以上验证可以看出,本发明所述的一种基于NMR和MS联用的代谢组学数据融合方法所构建的融合矩阵能够提高后续建模分析的准确性和预测性,相较于直接使用核磁共振谱或者质谱建模,新方法表现出一定的优越性,并且有效地利用了质谱数据对核磁共振数据中的补充信息。
[0067] 实施例2
[0068] 应用本发明所述的一种基于多平台数据融合的代谢组学稀疏模型构建方法,包括以下步骤:
[0069] (1)根据上述步骤3采集待检生物样本进行预处理,达到核磁共振实验及质谱实验要求;
[0070] (2)根据上述步骤4将预处理后的待检生物样本进行核磁共振谱测定,得到待检生物样本的原始代谢轮廓图谱,将这些原始代谢轮廓图谱进行谱图预处理,得到包含代谢物信息的核磁共振二维数据矩阵;
[0071] (3)根据上述步骤5将预处理后的待检生物样本进行质谱测定,得到待检生物样本的质谱;将这些原始质谱进行谱图预处理,得到包含代谢物信息的质谱二维数据矩阵;
[0072] (4)根据上述步骤6将两个数据矩阵导入到基于NMR和MS联用的代谢组学数据融合方法,生成融合数据矩阵。
[0073] 以上所述,仅为本发明较佳实施例而已,故不能依此限定本发明实施的范围,即依本发明专利范围及说明书内容所作的等效变化与修饰,皆应仍属本发明涵盖的范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈