首页 / 专利库 / 生物学 / 有效微生物 / 一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法

一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法

阅读:0发布:2022-06-15

专利汇可以提供一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种区分 假阳性 质谱峰 信号 且定量校正质谱峰面积的代谢组学方法。本发明提供代谢组学研究方法,该方法可以有效区分 生物 来源与非生物来源的质谱峰信号,并对质谱峰信号进行定量评价,排除定量能 力 (Quantification Performance)较差的质谱峰;通过QC样本稀释建立相对含量校正模型,对质谱峰面积进行校正。该方法最大的特点是有效消除假阳性的质谱峰信号,使代谢组学数据变得可靠,有利于筛选真识的代谢标识物(Biomarkers)。本方法可以针对 植物 、动物、 微生物 样本,也可以适合GC‑MS,LC‑MS和CE‑MS的基于质谱平台的代谢组学分析。,下面是一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法专利的具体信息内容。

1.一种区分多个待测样本的差异代谢产物的方法,包括如下步骤:
1)、制备QC_mix样本、溶剂空白样本、不同稀释倍数QC_mix样本、不同浓缩倍数QC_mix样本、多个待测样本代谢产物样本;
所述QC_mix样本为将多个待测样本的代谢产物溶液混匀,得到QC_mix样本;
所述代谢产物溶液为由代谢产物和有机溶剂组成或用有机溶剂提取待测样本的代谢产物得到,作为待测样本代谢产物样本;
所述溶剂空白样本由内标和所述有机溶剂组成;
所述不同稀释倍数QC_mix样本为对所述QC_mix样本进行逐级稀释,得到的不同稀释倍数QC_mix样本;
所述不同浓缩倍数QC_mix样本为对所述QC_mix样本进行逐级浓缩,得到的不同浓缩倍数QC_mix样本;
所述多个待测样本代谢产物样本为多个待测样本的代谢产物溶液;
2)、色谱-质谱联用依次检测步骤1)获得的各样本,所述检测包括如下步骤:
(1)对所述溶剂空白样本进行大于等于3次检测,得到溶剂空白样本的大于等于3次的原始质谱数据;
(2)对所述QC_mix样本进行大于等于6次检测,得到QC_mix样本的大于等于6次的原始质谱数据;
(3)对所述不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本按照浓度从小到大的顺序依次检测1次,得到浓度从小到大排列的不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本的原始质谱数据;
(4)对所述多个待测样本代谢产物样本分别进行1次检测,得到多个待测样本代谢产物样本的原始质谱数据;
3)、对步骤2)得到的所有质谱数据进行峰提取和峰对齐,得到所有样本的峰列表矩阵;
再用如下(A)-(E)的五步质谱峰过滤规则过滤所述峰列表矩阵中的假阳性峰,得到过滤后质谱峰:
(A)选取所述峰列表矩阵中QC_mix样本的大于等于6次检测结果中峰出现频率大于等于80%的峰保留;
(B)选取经(A)处理得到的峰中QC_mix样本的大于等于6次检测结果中峰变异性RSD小于20%的峰保留;
(C)选取经(B)处理得到的峰中B/S值小于5%的峰保留;
B/S值为溶剂空白样本大于等于3次检测结果峰面积平均值比QC_mix样本大于等于6次检测结果峰面积平均值;
(D)计算经(C)处理得到的峰中QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本的峰面积与各样本对应的相对浓度指数的pearson相关系数r,选取0.7所述QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本对应的相对浓度指数按照如下包括如下步骤的方法获得:将所述QC_mix不同稀释倍数样本和所述QC_mix不同浓缩倍数样本中浓度最小的样本赋予相对浓度指数为X,根据下面公式1计算其余浓度样本的相对浓度指数y,得到所有QC_mix不同稀释倍数和QC_mix不同浓缩倍数的相对浓度指数;
公式1:样本相对浓度指数y=该样本相对于浓度最小样本的浓度倍数*Xx为不为0的数值;
(E)将经(D)处理得到的0.74)、将步骤3)的E得到的所述过滤后质谱峰的峰面积和其对应的相对浓度指数建立回归模型;再将每个所述待测样本的代谢产物的质谱图峰面积分别代入回归模型进行校正和归一化,得到每个待测样本的相对浓度指数;
所述回归模型包括线性回归模型、二项式回归模型、对数回归模型、指数回归模型和/或复合回归模型;
5)、对所有待测样本的相对浓度指数进行多变量或单变量统计分析,找到多个待测样本的差异代谢产物。
2.根据权利要求1所述的方法,其特征在于:
步骤2)中,所述色谱-质谱联用为GC-MS,LC-MS和CE-MS;
和/或,所述色谱-质谱联用具体为LC-MS;
步骤3)中,所述峰提取和峰对齐采用的软件为质谱预处理分析软件,
和/或,所述质谱预处理分析软件具体为xcms或MasshunterQuanlitative Analysis;
步骤3)的E中,将经(D)处理得到的0.93.根据权利要求1或2所述的方法,其特征在于:
步骤1)中,所述待测样本为生物来源样本和/或非生物来源样本;
所述生物来源样本具体为植物、动物和/或微生物
4.根据权利要求1-3中任一所述的方法,其特征在于:
步骤1)中,所述多个待测样本个数大于等于2;
步骤2)中,所述QC_mix样本为将多个待测样本的代谢产物溶液等体积混匀得到;
所述稀释采用的稀释液为所述有机溶剂;
所述逐级稀释为逐级稀释至16-32倍;
所述逐级浓缩为逐级浓缩至2-4倍。
5.一种代谢产物检测中假阳性质谱峰消除方法,包括如下步骤:为权利要求1-4中任一方法中的步骤1)-3),实现假阳性质谱峰消除。
6.权利要求1-3中任一所述的方法或权利要求5所述的方法在定量验证不同样本的代谢产物中的应用。
7.权利要求5所述的方法在区分样本中假阳性质谱峰信号中的应用。

说明书全文

一种区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组

学方法

技术领域

背景技术

[0002] 随着人类全基因组序列的测定,各种组学的概念应运而生。基因组学研究带动了生命科学的迅猛发展,并极大地推动了转录组学、蛋白质组学、代谢组学、表型组学等的快速发展。代谢组学(Metabonomics/Metabolomics)旨在研究生物体或组织甚至单个细胞的全部小分子代谢物成分及其动态变化(Nicholson JK andLindon JC.Nature 455:1054–6)。代谢物距表型最接近,是基因与表型之间的桥梁。代谢组学是系统生物学研究中非常重要的一个环节,不仅可以揭示基因的功能,也为生物技术的应用提供科学依据(Chen,W.,et al.,Nat Genet.46:714-721;Sreekumar,A.,et al.,Nature 457:910-914)。
[0003] 代谢组学研究的需求刺激了各种高灵敏度、高分辨率分析仪器的迅速发展。目前,代谢组学主要采用两大分析技术平台,核磁共振谱(Nuclear Magnetic Resonance,NMR)平台和质谱(Mass Spectrometry,MS)平台。尽管NMR具有简单的样品预处理、较高的重现性和良好的检测客观性等优势,但是质谱拥有较高的分辨率和灵敏度,对于植物这样复杂的样本尤其适合(Antignac,JP.,et al.,TrAC-Trend Anal.Chem.30:292-301;De Vos,RCH.,et al.,Nat Protoc.2:778-791)。
[0004] 代谢组学求分析所有的小分子代谢物,期望分析仪器能够检测尽可能多的代谢物。然而,由于色谱-质谱联用技术具有非常高的灵敏度,对20种标准品组成的混合物能够提取上千种质谱信号,超过90%的假阳性。有些假阳性信号具有随机性,它们的含量波动大多数时候会高于生物来源代谢物含量的差异,会直接影响后面的统计分析,极大地干扰真实生物标志物“biomarkers”的筛选。在缺少数据质量控制的代谢组学分析中,往往找不到真实的生物标识物,或者筛选到假阳性biomarkers(Broadhurst,DI.and Kell,DB..Metabolomics 2:171-196;Kim,S.and Zhang,X..J Chemometr 29:80-86;Redestig,H.et al.,Anal.Chem.83:5645-5651)。在代谢组学数据分析,在尽可能检测更多的信号与减少假阳性信号之间存在矛盾,如何过滤质谱数据没有统一的标准。而且质谱数据处理软件一个小参数的变化使得代谢物峰的数量发生巨大的变化,如何评价这些信号,如何取舍这些信号,目前还缺乏合理的逻辑判断方法。
[0005] 色谱-质谱联用代谢组学方法的质谱信号可以分为两种,一种是生物来源的,一种是非生物来源的,即溶剂杂质,色谱柱,仪器管路,实验耗材带来的外来污染。通常一个空白样本可以轻易获得上千的质谱峰信号,一个生物学样本可以获得数千个质谱峰信号,非生物来源的信号占了大部分。对于生物来源的信号,也不是所有的信号都适合代谢组学定量分析,比如那些含量极高、极低的组份,在色谱-质谱分析中会获得信号,但是它们的信号强度与真实浓度之间不一定存在或存在极差的相关性。直接使用质谱峰面积比较相对定量关系,往往会得到错误的结果。因此,区分非生物来源的质谱峰信号,评价生物来源的质谱峰信号对代谢组学分析有重要的意义。
[0006] 目前能有效区分非生物来源的质谱峰信号的方法主要是同位素标记代谢组的方法,该方法需要用C13,H2等稳定同位素标记整个代谢组(Giavalisco,P.et al.,Anal Chem81:6546-51),通过质谱位移来判断那些质谱峰是来源于生物体,并可以对质谱位移限定原子(或氢原子)的个数,对质谱峰信号进行定性分析。同位素标记代谢组方法非常有效,但是成本很高,技术要求非常高。靶向的代谢组学分析方法,用标准品,分析已知代谢物的含量差异,这些可以方法局限于分析某种或某些具体的代谢物(Phinney,KW.et al.,.Anal Chem 85:11732-11738),而对于非靶向代谢组学实验不合适。

发明内容

[0007] 本发明的一个目的是提供一种区分不同样本的差异代谢产物的方法。
[0008] 本发明提供的方法,包括如下步骤:
[0009] 1)、制备QC_mix样本、溶剂空白样本、不同稀释倍数QC_mix样本、不同浓缩倍数QC_mix样本、多个待测样本代谢产物样本;
[0010] 所述QC_mix样本为将多个待测样本的代谢产物溶液混匀,得到QC_mix样本;
[0011] 所述代谢产物溶液为由代谢产物和有机溶剂组成或用有机溶剂提取待测样本的代谢产物得到,作为待测样本代谢产物样本;
[0012] 所述溶剂空白样本由内标和所述有机溶剂组成;
[0013] 所述不同稀释倍数QC_mix样本为对所述QC_mix样本进行逐级稀释,得到的不同稀释倍数QC_mix样本;
[0014] 所述不同浓缩倍数QC_mix样本为对所述QC_mix样本进行逐级浓缩,得到的不同浓缩倍数QC_mix样本;
[0015] 所述多个待测样本代谢产物样本为多个待测样本的代谢产物溶液;
[0016] 2)、色谱-质谱联用依次检测步骤1)获得的各样本,所述检测包括如下步骤:
[0017] (1)对所述溶剂空白样本进行大于等于3次检测,得到溶剂空白样本的大于等于3次的原始质谱数据;
[0018] (2)对所述QC_mix样本进行大于等于6次检测,得到QC_mix样本的大于等于6次的原始质谱数据;
[0019] (3)对所述不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本按照浓度从小到大的顺序依次检测1次,得到浓度从小到大排列的不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本的原始质谱数据;
[0020] (4)对所述多个待测样本代谢产物样本分别进行1次检测,得到多个待测样本代谢产物样本的原始质谱数据;
[0021] 3)、对步骤2)得到的所有质谱数据进行峰提取和峰对齐,得到所有样本的峰列表矩阵;再用如下(A)-(E)的五步质谱峰过滤规则过滤所述峰列表矩阵中的假阳性峰,得到过滤后质谱峰:
[0022] (A)选取所述峰列表矩阵中QC_mix样本的大于等于6次检测结果中峰出现频率>等于80%的峰保留;
[0023] (B)选取经(A)处理得到的峰中QC_mix样本的大于等于6次检测结果中峰变异性RSD<20%的峰保留;
[0024] (C)选取经(B)处理得到的峰中B/S值小于5%的峰保留;
[0025] B/S值为溶剂空白样本大于等于3次检测结果峰面积平均值比QC_mix样本大于等于6次检测结果峰面积平均值;
[0026] (D)计算经(C)处理得到的峰中QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本的峰面积与各样本对应的相对浓度指数的pearson相关系数r,选取0.7
[0027] 所述QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本对应的相对浓度指数按照如下包括如下步骤的方法获得:将所述QC_mix不同稀释倍数样本和所述QC_mix不同浓缩倍数样本中浓度最小的样本赋予相对浓度指数为X,根据下面公式1计算其余浓度样本的相对浓度指数y,得到所有QC_mix不同稀释倍数和QC_mix不同浓缩倍数的相对浓度指数;
[0028] 公式1:样本相对浓度指数y=该样本相对于浓度最小样本的浓度倍数*X[0029] x为不为0的数值;
[0030] (E)将经(D)处理得到的0.7
[0031] 4)、将步骤3)的E得到的所述过滤后质谱峰的峰面积和其对应的相对浓度指数建立回归模型;再将每个所述待测样本的代谢产物的质谱图峰面积分别代入回归模型进行校正和归一化,得到每个待测样本的相对浓度指数;
[0032] 所述回归模型包括线性回归模型、二项式回归模型、对数回归模型、指数回归模型和/或复合回归模型;
[0033] 5)、对所有待测样本的相对浓度指数进行多变量或单变量统计分析,找到多个待测样本的差异代谢产物。
[0034] 上述方法中,步骤2)中,所述色谱-质谱联用为GC-MS,LC-MS和CE-MS;
[0035] 和/或,所述色谱-质谱联用具体为LC-MS;
[0036] 步骤3)中,所述峰提取和峰对齐采用的软件为质谱预处理分析软件,[0037] 和/或,所述质谱预处理分析软件具体为xcms或Masshunter Quanlitative Analysis;
[0038] 步骤3)的E中,将经(D)处理得到的0.9
[0039] 上述方法中,步骤1)中,所述待测样本为生物来源样本和/或非生物来源样本;
[0040] 所述生物来源样本具体为植物、动物和/或微生物
[0041] 上述方法中,步骤1)中,所述多个待测样本个数大于等于2;
[0042] 所述有机溶剂为甲醇,
[0043] 所述内标为umbelliferon;
[0044] 步骤2)中,所述QC_mix样本为将多个待测样本的代谢产物溶液等体积混匀得到;
[0045] 所述稀释采用的稀释液为所述有机溶剂;
[0046] 所述逐级稀释为逐级稀释至16-32倍;
[0047] 所述逐级浓缩为逐级浓缩至2-4倍。
[0048] 本发明另一个目的是提供一种代谢产物检测中假阳性质谱峰消除方法。
[0049] 本发明提供的方法,包括如下步骤:为上述中的步骤1)-3),实现假阳性质谱峰消除。
[0050] 上述的方法在区分不同样本的代谢产物中的应用也是本发明保护的范围。
[0051] 上述的方法在定量校正不同样本的代谢产物中的应用也是本发明保护的范围。
[0052] 上述的方法在区分样本中假阳性质谱峰信号中的应用也是本发明保护的范围。
[0053] 上述LC-MS的条件如下:
[0054] (1)色谱条件:色谱仪器,Agilent公司1290型超高压液相色谱(UHPLC),色谱柱ZORBAX Eclipse Plus C18(Agilent),2.1*100mm,填料粒径1.8μm。
[0055] (2)进样量5ul,柱温30度,流动相组成:A(0.1%,甲酸),B乙腈(0.1%,甲酸),UHPLC梯度洗脱程序如下:起始5%B,5min→20%B,15min→40%B,25min→100%B,28→100%B,28.5→5%B平衡2.5min,整个洗脱时间30min。
[0056] (3)质谱条件:色谱仪器,Agilent公司6540型四极杆串联飞行时间质谱(Q-TOF/MS),配备高灵敏度喷射流离子聚焦离子源(Jet stream ESI)。全扫描模式(full scan),质量范围50-1000,采集速率,2spectrum/s,正离子模式下校正离子:m/z 121.050873,922.009798。正离子模式参数设置:载气温度,350℃;干燥气流速:8L/min;雾化器压力,
35psi;鞘气温度,350℃;鞘气流速,8L/min;V cap电压,4000V;Fragmentor电压,130V;
Nozzle voltage,0V。负离子模式参数设置:载气温度,350℃;干燥气流速:8L/min;雾化器压力,35psi;鞘气温度,350℃;鞘气流速,8L/min;V cap电压,3000V;Fragmentor电压,
130V;Nozzle voltage,1000V。
[0057] 本发明提供简单、低成本、有效地代谢组学研究新方法,该方法可以有效区分生物来源与非生物来源的质谱峰信号,并对质谱峰信号进行定量评价,排除定量能力(Quantification Performance)较差的质谱峰。通过QC样本稀释建立相对含量校正模型,对质谱峰面积进行校正。该方法最大的特点是有效消除假阳性的质谱峰信号,使代谢组学数据变得可靠,有利于筛选真实的代谢标识物(Biomarkers)。本方法可以针对植物、动物、微生物样本,也可以适合GC-MS,LC-MS和CE-MS的基于质谱平台的代谢组学分析。
[0058] 本发明与现有技术相比,具有的突出优点是建立了一种简单、低成本、有效地区分生物来源与非生物来源的质谱峰信号,排除定量能力较差的质谱峰,对质谱峰面积进行校正,提高了代谢组学数据的可靠性。
[0059] (1)简单、低成本。与同位素标记的方法相比,本发明不需要额外的同位素标记技术和仪器,也不需要昂贵的同位素标记材料。任何代谢组学实验室均能完成,只需要做好样本的制备和按照本发明的检测方式进行。
[0060] (2)有效地区分假阳性信号和定量能力差的信号。通过五步质谱峰过滤规则,能够极大地降低质谱峰数量,这五步质谱峰过滤从分析化学的度,即分析的重现性,检测的精确性,空白对照和定量相关性等几个方面综合分析,这些参数具有逻辑性,避免人为武断地过滤质谱峰。
[0061] (3)引入相对浓度指数概念,不仅可以对峰的定量性能进行量化评价,而且还可以建立相对校正模型,对质谱峰面积进行校正,提高了定量准确性。
[0062] (4)高通量,批量化处理。通过对QC_mix进行分析,将所有的代谢物一起进行分析评价,而且一次稀释实验即可对所有化合物建立相对回归曲线,大大地节约成本和工作量。
[0063] (5)通过本发明,可以将非靶向代谢组学方法转化为靶向的代谢组学分析方法。
[0064] (6)本发明采用的分析策略,包括混合各生物样本组成质控样本(Quality Control,QC),对质控样本进行稀释,设置溶剂空白样本等。而且本发明规定了上样顺序,五步峰过滤规则等。本方法对标准品组成的模拟样本,能够消除92.4%的假阳性质谱峰信号,对水稻籽粒的生物学样本能消除71.4%的假阳性质谱信号。本方法简单、方便、成本低、消除假阳性效果较好,保证了代谢组学的数据质量。附图说明
[0065] 图1为区分假阳性质谱峰信号、提高定量准确性的代谢组学新方法流程图
[0066] 图2为QC_mix稀释用来区分假阳性质谱峰信号。
[0067] 图3为人工样本配制方法,不同标准品在12组人工样本中的浓度比例。
[0068] 图4为五步过滤规则,对人工样本减少假阳性质谱峰的效果。
[0069] 图5为相对浓度指数和相对浓度校正模型。
[0070] 图6为步过滤规则,对水稻籽粒样本减少假阳性质谱峰的效果。
[0071] 图7为本方法(右)与传统代谢组学方法(左)在区分两种栽培水稻籽粒,建立主成分分析模型中的差别。
[0072] 图8为本方法(右)与传统代谢组学方法(左)在区分水稻籽粒主成分分析得分图中的差别。
[0073] 图9为本方法(下)与传统代谢组学方法(上)在区分水稻籽粒主成分分析载荷图中的差别。
[0074] 图10为本方法(黄)与传统代谢组学方法(蓝)筛选两种水稻籽粒差异代谢物的数量差别。

具体实施方式

[0075] 下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
[0076] 下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
[0077] 下面结合附图对本发明做进一步说明。
[0078] 实施例1、本发明用于区分假阳性质谱峰信号且定量校正质谱峰面积的代谢组学方法
[0079] 一、代谢产物检测中假阳性质谱峰消除方法,包括如下步骤:
[0080] 1、制备QC_mix样本、溶剂空白样本、不同稀释倍数QC_mix样本、不同浓缩倍数QC_mix样本、多个待测样本代谢产物样本;
[0081] QC_mix样本为将多个待测样本的代谢产物溶液混匀,得到QC_mix样本;
[0082] 代谢产物溶液为由代谢产物和有机溶剂组成或用有机溶剂提取待测样本的代谢产物得到,作为待测样本代谢产物样本;
[0083] 溶剂空白样本由内标和有机溶剂组成;
[0084] 不同稀释倍数QC_mix样本为对QC_mix样本进行逐级稀释,得到的不同稀释倍数QC_mix样本;
[0085] 不同浓缩倍数QC_mix样本为对QC_mix样本进行逐级浓缩,得到的不同浓缩倍数QC_mix样本;
[0086] 2、色谱-质谱联用依次检测步骤1)获得的各样本,检测包括如下步骤:
[0087] (1)对溶剂空白样本进行大于等于3次检测至总离子流色谱图完全重叠(即仪器达到稳定状态),得到溶剂空白样本的大于等于3次的原始质谱数据;
[0088] (2)对QC_mix样本进行大于等于6次检测,得到QC_mix样本的大于等于6次的原始质谱数据;
[0089] (3)对不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本按照浓度从小到大的顺序依次检测1次,得到浓度从小到大排列的不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本的原始质谱数据;
[0090] (4)对多个待测样本代谢产物样本分别进行1次检测,得到多个待测样本代谢产物样本的原始质谱数据;
[0091] 3、对步骤2得到的所有质谱数据进行峰提取和峰对齐,得到所有样本的峰列表矩阵;再用如下(A)-(E)的五步质谱峰过滤规则过滤峰列表矩阵中的假阳性峰,得到过滤后质谱峰:
[0092] (A)选取峰列表矩阵中QC_mix样本的大于等于6次检测结果中峰出现频率>等于80%的峰保留;
[0093] (B)选取经(A)处理得到的峰中QC_mix样本的大于等于6次检测结果中峰变异性RSD<20%的峰保留;
[0094] (C)选取经(B)处理得到的峰中B/S值小于5%的峰保留;
[0095] B/S值为溶剂空白样本大于等于3次检测结果峰面积平均值比QC_mix样本大于等于6次检测结果峰面积平均值;
[0096] (D)计算经(C)处理得到的峰中QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本的峰面积与各样本对应的相对浓度指数的pearson相关系数r,选取0.7
[0097] QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本对应的相对浓度指数按照如下包括如下步骤的方法获得:将QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本中浓度最小的样本赋予相对浓度指数为X,再将其余不同浓度的QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本按照X的不同浓度倍数计算获得,得到所有QC_mix不同稀释倍数和QC_mix不同浓缩倍数的相对浓度指数;
[0098] 公式1:样本相对浓度指数y=该样本相对于浓度最小样本的浓度倍数*X[0099] x为不为0的数值;
[0100] (E)将经(D)处理得到的0.7
[0101] 二、区分不同样本代谢产物的方法
[0102] 包括如下步骤:
[0103] 1、制备QC_mix样本、溶剂空白样本、不同稀释倍数QC_mix样本、不同浓缩倍数QC_mix样本、多个待测样本代谢产物样本;
[0104] QC_mix样本为将多个待测样本的代谢产物溶液混匀,得到QC_mix样本;
[0105] 代谢产物溶液为由代谢产物和有机溶剂组成或用有机溶剂提取待测样本的代谢产物得到,作为待测样本代谢产物样本;
[0106] 溶剂空白样本由内标和有机溶剂组成;
[0107] 不同稀释倍数QC_mix样本为对QC_mix样本进行逐级稀释,得到的不同稀释倍数QC_mix样本;
[0108] 不同浓缩倍数QC_mix样本为对QC_mix样本进行逐级浓缩,得到的不同浓缩倍数QC_mix样本;
[0109] 多个待测样本代谢产物样本为多个待测样本的代谢产物溶液;
[0110] 2、色谱-质谱联用依次检测步骤1)获得的各样本,检测包括如下步骤:
[0111] (1)对溶剂空白样本进行大于等于3次检测至总离子流色谱图完全重叠(即仪器达到稳定状态),得到溶剂空白样本的大于等于3次的原始质谱数据;
[0112] (2)对QC_mix样本进行大于等于6次检测,得到QC_mix样本的大于等于6次的原始质谱数据;
[0113] (3)对不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本按照浓度从小到大的顺序依次检测1次,得到浓度从小到大排列的不同稀释倍数QC_mix样本和不同浓缩倍数QC_mix样本的原始质谱数据;
[0114] (4)对多个待测样本代谢产物样本分别进行1次检测,得到多个待测样本代谢产物样本的原始质谱数据;
[0115] 3、对步骤2得到的所有质谱数据进行峰提取和峰对齐,得到所有样本的峰列表矩阵;再用如下(A)-(E)的五步质谱峰过滤规则过滤峰列表矩阵中的假阳性峰,得到过滤后质谱峰:
[0116] (A)选取峰列表矩阵中QC_mix样本的大于等于6次检测结果中峰出现频率>等于80%的峰保留;
[0117] (B)选取经(A)处理得到的峰中QC_mix样本的大于等于6次检测结果中峰变异性RSD<20%的峰保留;
[0118] (C)选取经(B)处理得到的峰中B/S值小于5%的峰保留;
[0119] B/S值为溶剂空白样本大于等于3次检测结果峰面积平均值比QC_mix样本大于等于6次检测结果峰面积平均值;
[0120] (D)计算经(C)处理得到的峰中QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本的峰面积与各样本对应的相对浓度指数的pearson相关系数r,选取0.7
[0121] QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本对应的相对浓度指数按照如下包括如下步骤的方法获得:将QC_mix不同稀释倍数样本和QC_mix不同浓缩倍数样本中浓度最小的样本赋予相对浓度指数为X,根据下面公式1计算其余浓度样本的相对浓度指数y,得到所有QC_mix不同稀释倍数和QC_mix不同浓缩倍数的相对浓度指数;
[0122] 公式1:样本相对浓度指数y=该样本相对于浓度最小样本的浓度倍数*X[0123] x为不为0的数值;
[0124] (E)将经(D)处理得到的0.7
[0125] 4、将步骤3的E得到的过滤后质谱峰的峰面积和其对应的相对浓度指数建立回归模型;再将每个待测样本的代谢产物的质谱图峰面积分别代入回归模型进行校正和归一化,得到每个待测样本的相对浓度指数;
[0126] 回归模型包括线性回归模型、二项式回归模型、对数回归模型、指数回归模型和/或复合回归模型;
[0127] 5、对所有待测样本的相对浓度指数进行多变量或单变量统计分析,找到多个待测样本的差异代谢产物。
[0128] 上述色谱-质谱联用为GC-MS,LC-MS和CE-MS;色谱-质谱联用具体为LC-MS;
[0129] 步骤3)中,峰提取和峰对齐采用的软件为质谱分析软件,具体为xcms或Masshunter Quanlitative Analysis;
[0130] 步骤3)的E中,将经(D)处理得到的0.9
[0131] 实施例2、人工模拟样本验证本发明方法降低假阳性质谱峰的效果
[0132] 为了验证方法的有效性、可行性和可靠性,实验配置了20种标准品组成的人工模拟样本(Artificial Samples,AS),图1为本发明的流程图。
[0133] 表1为20种标准品组成的人工模拟样本及浓度(mmol)
[0134]
[0135]
[0136] *:Asa:artificial samples group A,人工模拟样本A组,Asa_1,_2,,,_6模拟6次生物学重复。
[0137] ^:Asb:artificial samples group B,人工模拟样本B组,Asb_1,_2,,,_6模拟6次生物学重复。
[0138] 浓度单位为mmol
[0139] 标准品:酪酸(T2900000),苯丙氨酸(147966),山柰酚(96353),3-吲哚丁酸(57310),花旗松素(78666),5-羟基色氨(14972),毛蕊黄-7-O-β-D葡萄糖苷(1087483),2-氨基-4-氟苯甲酸(370169),卡草胺(P562s),绿原酸(C3878),东莨菪内酯(S2500),氢化肉桂酸内酯(D104809),迷迭香酸(36954),6,7-二羟基香豆素(246573),3,4-二甲基肉桂酸(D133809),香豆素(72609);购自Sigma公司(Sigma-Aldrich,上海),括号内为货号。
[0140] 标准品:丹参酮IIA(110766),隐丹参酮(110852),丹参酮I(110867)购自生物药品检定所(中国),括号内为货号。
[0141] 1、制备QC_mix样本、溶剂空白样本、不同稀释倍数QC_mix样本、不同浓缩倍数QC_mix样本
[0142] 将20种标准品,按照表1中的配置浓度(mmol),配制成12份人工模拟样本Asa_1,Asa_2,,,Asb6,溶剂为甲醇(色谱级,Thermo fisher公司),每个人工模拟样品最终定容到2mL,内标为香豆素(见表1)。
[0143] 人工模拟样本A组,包括样本为Asa_1,Asa_2,Asa_3,Asa_4,Asa_5,Asa_6;
[0144] 人工模拟样本B组,包括样本为Asb_1,Asb_2,Asb_3,Asb_4,Asb_5,Asb_6;
[0145] 溶剂空白样本为含有内标(香豆素,0.2mmol)的色谱级甲醇。
[0146] QC_mix样本为分别取人工模拟样本A组和B组共12个样本50ul,等量混合,得到QC_mix;
[0147] 不同稀释倍数QC_mix样本为将QC_mix用色谱级甲醇逐级稀释2,4,8,16倍,得到稀释2倍QC_mix样本、稀释4倍QC_mix样本、稀释8倍QC_mix样本、稀释16倍QC_mix样本;
[0148] 不同浓缩倍数QC_mix样本为将QC_mix采用冷冻离心(1500g)浓缩,逐级浓缩2倍、4倍,得到浓缩2倍QC_mix样本、浓缩4倍QC_mix样本(图3)。
[0149] 2、用液相质谱联用检测各样本
[0150] 色谱-质谱联用依次检测如下各样本:溶剂空白样本检测3次至总离子流色谱图完全重叠(即仪器达到稳定状态)、QC_mix样本检测6次、稀释16倍QC_mix样本(DS_1/16x)检测1次、稀释8倍QC_mix样本(DS_1/8x)检测1次、稀释4倍QC_mix样本(DS_1/4x)检测1次、稀释2倍QC_mix样本(DS_1/2x)检测1次、浓缩2倍QC_mix样本(DS_2x)检测1次、浓缩4倍QC_mix样本(DS_4x)检测1次、12个人工模拟样本检测1次,得到各样本的质谱原始数据;
[0151] 色谱-质谱联用的条件如下:
[0152] 1)色谱条件:色谱仪器,Agilent公司1290型超高压液相色谱(UHPLC),色谱柱ZORBAX Eclipse Plus C18(Agilent),2.1*100mm,填料粒径1.8μm。
[0153] 2)进样量5ul,柱温30度,流动相组成:A水(0.1%,甲酸),B乙腈(0.1%,甲酸),UHPLC梯度洗脱程序如下:起始5%B,5min→20%B,15min→40%B,25min→100%B,28→100%B,28.5→5%B平衡2.5min,整个洗脱时间30min。
[0154] 3)质谱条件:色谱仪器,Agilent公司6540型四极杆串联飞行时间质谱(Q-TOF/MS),配备高灵敏度喷射流离子聚焦离子源(Jet stream ESI)。全扫描模式(full scan),质量范围50-1000,采集速率,2spectrum/s,正离子模式下校正离子:m/z 121.050873,922.009798。正离子模式参数设置:载气温度,350℃;干燥气流速:8L/min;雾化器压力,
35psi;鞘气温度,350℃;鞘气流速,8L/min;V cap电压,4000V;Fragmentor电压,130V;
Nozzle voltage,0V。负离子模式参数设置:载气温度,350℃;干燥气流速:8L/min;雾化器压力,35psi;鞘气温度,350℃;鞘气流速,8L/min;V cap电压,3000V;Fragmentor电压,
130V;Nozzle voltage,1000V。
[0155] 3、分析质谱数据
[0156] 1)质谱数据预处理
[0157] 对3)得到的所有样本的质谱原始数据进行峰提取和峰对齐,得到所有样本的峰列表矩阵;
[0158] 峰提取和峰对齐采用的软件为质谱数据预处理软件,具体包括化合物提取软件:MasshunterQuanlitative Analysis(B04)(Agilent)和峰对齐软件:Mass Profiler Professional(MPP,Agilent);
[0159] 峰提取及解卷积,使用分子特征提取(Molecule FeatureExtraction,MFE)算法;关键参数设置:峰高>=500计数,绝对峰高>=6000,代谢物提取算法类型,小分子化合物(色谱),离子种类包括:正离子,包括+H,+Na,+K,+NH4等,化合物电荷态,1。
[0160] 峰对齐软件Mass Profiler Professional(MPP,Agilent),所有代谢轮廓谱经过上述的MFE提取方法获得所有检测峰的列表,并导出成CEF文件,在MPP软件中进行峰对齐,形得到所有样本的峰列表矩阵。
[0161] 2)五步质谱峰过滤假阳性峰
[0162] (A)重现性检查:选取峰列表矩阵中QC_mix样本的6次检测结果中峰出现频率>等于80%的峰保留;过滤掉的峰可能为随机出现的峰,或者测量不稳定的峰。
[0163] (B)变异性检查:选取经(A)处理得到的峰中QC_mix样本的6次检测结果中峰变异性RSD<20%的峰保留;
[0164] (C)空白溶剂检查:选取经(B)处理得到的峰中B/S值小于5%的峰保留;
[0165] B/S值为溶剂空白样本3次检测结果峰面积平均值比QC_mix样本6次检测结果峰面积平均值;
[0166] B/S值越低,说明背景含有的量越少;B/S<1%或5%,低于一般的实验误差范围内;B/S值越高,说明溶剂或仪器背景中含有相关离子,可能是非生物来源的质谱信号。
[0167] (D)定量能力检查:
[0168] 计算经(C)处理得到的峰中DS_1/8x,DS_1/4x,DS_1/2x,DS_1x,DS_2x,DS_4x样本的峰面积与相对浓度指数的pearson相关系数r,选取0.7
[0169] 给DS_1/16x样本赋值相对浓度指数X为100,则DS_1/8x,DS_1/4x,DS_1/2x,DS_1x,DS_2x,DS_4x样本中的相对浓度指数分别为200,400,800,1600,3200;
[0170] 相对浓度指数(Relative Concentration Index,RCI),由于不知道每一个峰的绝对浓度,但是所有的峰都具有相同的稀释倍数,假定所有的峰在DS样本中具有相同的相对浓度指数。
[0171] (E)手动检查:将经(D)处理得到的0.7
[0172] 五步峰过滤规则过滤的效果图见图4,92.4%的假阳性质谱信号被过滤。
[0173] 图2是重叠的总离子流色谱图,结合稀释样本和溶剂空白可以区分哪些质谱峰是非生物来源的峰,哪些质谱峰具有较好或价差的定量能力。
[0174] 结果如下:
[0175] 1)所有的20种标准品均通过五步峰过滤规则,总共从1343个质谱峰里面,保留下来102个,过滤掉92.4%的假阳性质谱峰。
[0176] 2)在102个被保留的质谱峰里面,通过分子量和保留时间可以确定其中的53个来源于20种标准品及其加合离子、裂解离子;其中的21个未知化合物,与标准品具有相似的浓度比例,它们来源于标准品,因为标准品纯度不可能到100%,可能为其中的杂质成分;仅仅13个未知峰不清楚其来源。
[0177] 4、建立回归模型并计算12个人工模拟样本的相对浓度指数
[0178] 将步骤3的E得到的过滤后质谱峰的峰面积和其对应的相对浓度指数建立回归模型;再将每个待测样本的代谢产物的质谱图峰面积分别代入回归模型进行校正和归一化,得到每个待测样本的相对浓度指数。
[0179] 图5所示部分回归模型,是根据相对浓度指数和质谱峰面积建立的几种回归模型和校正方程。在过滤后的质谱峰(保留下来的102个质谱峰)中(图4),72.0%的质谱峰满足线性校正模型,21.8%的峰满足二项式模型,3.4%的符合对数模型,仅仅一个峰手动建立复合模型,即在低浓度区符合线性模型,在高浓度区符合二项式模型。
[0180] 再将保留下来的102个质谱峰峰面积代入到各自建立的回归模型进行校正,得到相应的相对浓度指数。
[0181] 实施例2、本发明的方法用于区分不同水稻品种的差异代谢产物
[0182] 以典型的indicia水稻栽培种9311和japonica水稻栽培种nipponbare水稻干籽粒为例,比较本发明与传统代谢组学方法的优缺点。
[0183] 一、本发明的方法和传统代谢组学方法
[0184] A、本发明的方法如下:
[0185] 1、制备QC_mix样本、溶剂空白样本、不同稀释倍数QC_mix样本、不同浓缩倍数QC_mix样本、2个水稻品种代谢产物样本
[0186] 待测样本代谢产物样本:9311和nipponbare水稻籽粒各10份,每份100mg,采用球磨仪(Retsch Mixer Mill MM 400,VerderRetsch Trading Co.Ltd.,上海,中国)粉碎,采用含有内标为伞形酮内酯(umbelliferon,Sigma公司,货号93979,浓度为2mg/mL,20μL)的色谱级甲醇进行超声(20kHz)提取15min。然后在13,000rpm离心10min,获得9311水稻10个样本和nipponbare水稻10个样本的代谢提取物,为10个9311水稻代谢产物样本和10个nipponbare水稻代谢产物样本。
[0187] 溶剂空白样本由内标伞形酮内酯(umbelliferon,浓度0.2mmol)和色谱级甲醇组成。
[0188] QC_mix样本:从9311水稻10个样本和nipponbare水稻10个样本分别取50ul体积混合作为QC_mix(所有的生物样本等量混合);
[0189] 不同稀释倍数QC_mix样本:将QC_mix用色谱级甲醇逐级稀释2,4,8倍,得到稀释2倍QC_mix样本、稀释4倍QC_mix样本、稀释8倍QC_mix样本;
[0190] 不同浓缩倍数QC_mix样本:将QC_mix采用冷冻离心浓缩(1500g)逐级浓缩2倍、4倍,得到浓缩2倍QC_mix样本、浓缩4倍QC_mix样本。
[0191] 2、用液相质谱联用检测各样本
[0192] 分别色谱-质谱联用依次检测如下各样本:溶剂空白样本(检测3次至总离子流色谱图完全重叠,即仪器达到稳定状态)、QC_mix样本(检测6次)、稀释8倍QC_mix样本(DS_1/8x)、稀释4倍QC_mix样本(DS_1/4x)、稀释2倍QC_mix样本(DS_1/2x)、浓缩2倍QC_mix样本(DS_2x)、浓缩4倍QC_mix样本(DS_4x)、10个9311水稻代谢产物样本和10个nipponbare水稻代谢产物样本,得到各样本的代谢谱质谱数据;
[0193] 色谱-质谱联用的条件同实施例1。
[0194] 3、分析质谱数据
[0195] 1)质谱数据预处理:同实施例1;
[0196] 2)五步质谱峰过滤:同实施例1;获得消除假阳性的质谱峰列表。结果见图6,71.4%的质谱峰被过滤。
[0197] 4、建立回归模型并计算9311水稻代谢产物样本和nipponbare水稻代谢产物样本的相对浓度指数
[0198] 将步骤3的E得到的过滤后质谱峰的峰面积和其对应的相对浓度指数建立回归模型;再将每个9311水稻代谢产物样本和每个nipponbare水稻代谢产物样本的质谱图峰面积分别代入回归模型进行校正和归一化,得到每个9311水稻代谢产物样本相对浓度指数和每个nipponbare水稻代谢产物样本相对浓度指数;
[0199] 5、对所有9311水稻代谢产物样本相对浓度指数和所有nipponbare水稻代谢产物样本相对浓度指数进行多变量或单变量统计分析,找到9311水稻代谢产物样本和nipponbare水稻代谢产物样本的差异代谢产物。
[0200] 本发明基于RCI而不是峰面积进行多变量分析,RCI已经是归一化的数据,其数值具有相同的尺度范围,不需要对质谱峰进行归一化(normalization)处理。
[0201] 直接通过RCI建立主成分分析(Principal component analysis,PCA),偏最小二乘判别分析(Partial least squares regressiondiscrimination analysis,PLS-DA)或正交偏最小二乘回归分析(orthogonal projections to latent structures,OPLS)。
[0202] 差异代谢物的标准必须满足:
[0203] 1)代谢物在两种水稻籽粒中含量的差别Fold Change>2或<0.5
[0204] 2)t-test检验的p-value<0.05
[0205] B、传统代谢组学方法
[0206] 分别色谱-质谱联检测9311水稻代谢产物样本和10个nipponbare水稻代谢产物,获得质谱峰,不进行过滤直接用峰面积进行normalization处理,然后进行多变量分析(De VosRCH etal.,Nat Protoc,2007,2:778-791)。
[0207] 二、本发明的方法和传统代谢组学方法结果比对
[0208] 1、区分两种水稻栽培种的主成分模型的解释能力和预测能力不同
[0209] 多变量统计分析结果如图7,使用本发明获得的PCA模型对数据的解释百分比明显高于传统方法,而且模型的预测能力也显著高于传统方法。
[0210] 2、本方法(右)与传统代谢组学方法(左)在区分水稻籽粒主成分分析得分图比较[0211] 多变量统计分析结果如图8所示,indicia水稻栽培种9311和japonica水稻栽培种nipponbare水稻籽粒代谢物差别较大,无论是传统方法还是本发明的方法,都能区分这两种水稻品种。但是新发明的PCA图谱更加清楚地区分两组实验材料。
[0212] 3、本方法(下)与传统代谢组学方法(上)在区分水稻籽粒主成分分析载荷图比较[0213] 多变量统计分析结果如图9所示,S-plot显示代谢物两组样本的差异代谢物,分布在S-plot两端的代谢物是在两组间有明显差异的物质。本方法明显消除S-plot中间部分的代谢物,大大消除了假阳性的峰。
[0214] 4、比较本方法(左边的圈)与传统代谢组学(右边的圈)筛选差异代谢物的能力[0215] 多变量统计分析结果如图10所示,通过相同的筛选标准,Fold change>2或<0.5,p-value<0.5(t-test),传统方法获得575个差异代谢物,而新发明方法获得135个差异的代谢物,两种方法筛选出共有的代谢物121种。本发明方法明显减少假阳性的差异代谢物,大大缩小候选差异代谢物的范围。
[0216] 从上述可以看出,
[0217] (1)本发明与传统方法相比,极大消除假阳性质谱信号。
[0218] 在标准品组成的人工样本中消除92.4%的假阳性质谱信号,对生物样本消除71.4%的假阳性质谱信号。
[0219] (2)本发明引入相对浓度指数,建立回归校正模型,提高定量分析能力,对水稻样本的主成分分析,明细提高了模型的解释能力和预测能力。
[0220] (3)本发明极大减少了候选差异代谢物,为寻找真实的生物标志物提供基础
[0221] (4)本发明还能通过五步峰过滤规则,将非靶向代谢组学方法转化为拟靶向代谢组学方法,缩小拟检测代谢物的范围。
[0222] (5)本发明相对同位素标记,标准品建立的靶向方法而言,本发明简单、低成本、高效。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈