首页 / 专利库 / 物理 / 离子阱 / 高分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波

分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波

阅读:111发布:2021-03-20

专利汇可以提供分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波专利检索,专利查询,专利分析的服务。并且本 发明 提供了用于识别高 分辨率 质谱的方法、系统和 算法 。在一些实施方式中,分析物被电离并使用高分辨率质谱法(MS)在高 质量 精确度(例如≤75ppm或≤30ppm)下进行分析,并且将得到的质谱与一种或多种准候选分子或化学式进行匹配。本发明提供了,例如方法和系统,其中,确定可以产生自候选分子或化学式的可能的碎片以及这些碎片的每个的质量。本发明提供了,例如方法和系统,其中,高分辨率质谱然后与每个候选分子或化学式的计算的碎片质量比较,并且确定对应于或能被计算的碎片质量解释的高分辨率质谱部分。,下面是分辨率气相色谱‑质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波专利的具体信息内容。

1.一种使用质谱法分析样品中的分析物的方法,所述方法包括:
(a)使用提供等于或小于75ppm的质量精确度的质谱技术来测定所述分析物的断裂谱图;其中,所述断裂谱图包括多个对应于来自所述样品的碎片离子的测定质荷比的峰;其中,所述断裂谱图的特征在于对应于所述断裂谱图的所述峰的信号参数;
(b)提供用于分析所述分析物的所述断裂谱图的候选分子;
(c)确定来自所述候选分子的可能的碎片离子的推定碎片质量;以及
(d)比较所述候选分子的所述推定碎片质量与来自所述断裂谱图的所述测定质荷比,以确定与所述候选分子的所述推定碎片质量相匹配的所述断裂谱图的信号参数相似度,由此使用质谱法分析所述分析物。
2.根据权利要求1所述的方法,其中,推定碎片质量针对来自所述候选分子的所有可能的碎片离子来确定并且与所述测定质荷比进行比较,或者其中,推定碎片质量针对所述候选分子的分子式的原子的所有非重复组合来确定。
3.根据权利要求1或2所述的方法,其中,所述质量精确度等于或小于30ppm。
4.根据权利要求1至3中任一项所述的方法,其中,所述信号参数是对应于所述断裂谱图的所述峰的总和的总离子流(TIC),并且所述信号参数相似度是对应于与所述候选分子的所述推定碎片质量相匹配的断裂谱图的峰的TIC的百分率。
5.根据权利要求4所述的方法,其中,与所述推定碎片质量匹配的TIC的所述百分率对应于所述断裂谱图的与推定碎片质量相匹配至30ppm内的程度的峰。
6.根据权利要求1至5中任一项所述的方法,其中,所述候选分子通过将所述断裂谱图与在参考谱图数据库中的一个或多个参考谱图进行匹配来确定,或者其中,所述候选分子对应于用于在所述样品中进行分析的目标化合物,或者其中,所述候选分子对应于一个或多个候选化学式。
7.根据权利要求1至6中任一项所述的方法,还包括计算所述分析物的所述断裂谱图与所述候选分子的参考谱图之间的谱图重叠。
8.根据权利要求7所述的方法,其中,所述参考谱图是低分辨率参考谱图或高分辨率参考谱图。
9.根据权利要求7或8所述的方法,其中,计算所述谱图重叠包括使用点积计算。
10.根据权利要求7或8所述的方法,其中,计算所述谱图重叠包括将所述断裂谱图的所有峰的m/z值四舍五入到最接近的整数值。
11.根据权利要求7至10中任一项所述的方法,其中,计算所述分析物的所述断裂谱图与所述候选分子的所述参考谱图之间的所述谱图重叠产生谱图重叠评分。
12.根据权利要求11所述的方法,其中,将所述谱图重叠评分和匹配所述推定碎片质量的所述断裂谱图的TIC的百分率结合从而为所述候选分子产生高分辨率滤波评分。
13.根据权利要求1至12中任一项所述的方法,还包括提供用于分析所述分析物的所述断裂谱图的多个不同候选分子的步骤,其中,推定碎片质量针对每个所述候选分子被独立地确定并且独立地与来自所述断裂谱图的所述测定质荷比进行比较,由此确定与用于每个所述候选分子的所述推定碎片质量相匹配的所述断裂谱图的信号参数相似度。
14.根据权利要求13所述的方法,其中,所述多个不同候选分子通过将所述断裂谱图的所述峰与参考谱图数据库的多个参考谱图进行比较来确定。
15.根据权利要求13或14所述的方法,其中,所述多个不同候选分子中的每一个的特征在于大于或等于一阈值的谱图重叠评分。
16.根据权利要求13所述的方法,其中,所述候选分子对应于用于在所述样品中进行分析的目标化合物。
17.根据权利要求13至16中任一项所述的方法,还包括:针对每个所述候选分子,独立地确定与所述候选分子的所述推定碎片质量相匹配的所述断裂谱图的信号参数相似度。
18.根据权利要求17所述的方法,其中,与每个给定候选分子的所述推定碎片质量相匹配的所述断裂谱图的信号参数相似度用于识别所述候选分子中的哪些具有对应于所述分析物的组成。
19.根据权利要求18所述的方法,还包括:针对每个所述候选分子,独立地计算所述分析物的断裂谱图与所述候选分子的参考谱图之间的谱图重叠,由此为每个所述候选分子产生谱图重叠评分。
20.根据权利要求19所述的方法,其中,所述信号参数是对应于所述断裂谱图的所述峰的总和的总离子流(TIC),并且所述信号参数相似度是对应于与所述候选分子的推定碎片质量相匹配的峰的所述断裂谱图的TIC的百分率,并且其中,对于每个所述候选分子,将所述谱图重叠评分和与所述推定碎片质量相匹配的所述断裂谱图的TIC的百分率结合,由此为每个所述候选分子产生高分辨率滤波评分。
21.根据权利要求20所述的方法,还包括将具有最高高分辨率滤波评分的候选分子识别为具有所述分析物的相同组成。
22.根据权利要求1至21中任一项所述的方法,还包括在测定所述断裂谱图之前纯化具有所述分析物的所述样品。
23.根据权利要求1至22中任一项所述的方法,其中,具有所述分析物的所述样品是在测定所述断裂谱图之前获得的色谱分离的洗脱产物。
24.根据权利要求1至23中任一项所述的方法,其中,产生所述断裂谱图包括使用GC-MS技术或LC-MS技术。
25.根据权利要求1至24中任一项所述的方法,还包括使用一种或多种电离或解离方法产生所述碎片离子。
26.根据权利要求25所述的方法,其中,所述一种或多种电离或解离方法选自由电子电离(EI)、化学电离(CI)、电喷雾电离(ESI)、大气压化学电离(APCI)和基质辅助激光解吸电离(MALDI)组成的组。
27.根据权利要求25所述的方法,其中,所述一种或多种电离或解离方法选自由碰撞诱导解离(CID)、表面诱导解离(SID)、激光诱导解离(LID)、中性反应解离、离子反应解离、电子捕获解离(ECD)和电子转移解离(ETD)组成的组。
28.根据权利要求1至27中任一项所述的方法,其中,所述断裂谱图使用利用电子电离(EI)的GC-MS方法或利用电子电离(EI)的LC-MS方法产生。
29.根据权利要求1至28中任一项所述的方法,其中,所述断裂谱图使用多级质谱法产生。
30.根据权利要求1至28中任一项所述的方法,其中,所述断裂谱图使用串联质谱法产生。
31.根据权利要求1至28中任一项所述的方法,其中,所述断裂谱图使用四极质谱仪或离子阱质谱法产生。
32.根据权利要求1至31中任一项所述的方法,还包括测定源自所述分析物的前体离子的完整质量值的步骤。
33.根据权利要求32所述的方法,还包括评价所述候选分子是否具有在所述完整质量值的预选范围内的分子质量的步骤。
34.根据权利要求1至33中任一项所述的方法,其中,所述断裂谱图通过使用高分辨率精确质量(HRAM)质谱法来获得。
35.根据权利要求1至34中任一项所述的方法,其中,步骤(a)包括解卷积步骤,所述解卷积步骤包括:
1)执行所述分析物的两次或更多次EI断裂扫描;
2)将在连续的EI断裂扫描中观察到的具有相似m/z值的碎片峰分组到一起,由此产生数据特征,其中,在连续的扫描中观察到的不具有相似m/z值的峰按单独的数据特征被分组;以及
3)将具有在相同时间段内洗脱的峰的数据特征分组到一起,由此产生一组来源于所述分析物的碎片峰。
36.一种使用质谱法识别样品中的分析物的组成的方法,所述方法包括:
(a)使用提供等于或小于75ppm的质量精确度的质谱技术来测定所述分析物的断裂谱图;其中,所述断裂谱图包括多个对应于来自所述样品的碎片离子的测定质荷比的峰;其中,所述断裂谱图的特征在于对应于所述断裂谱图的所述峰的信号参数;
(b)提供用于分析所述分析物的所述断裂谱图的多个不同候选分子;
(c)独立地确定每个所述候选分子的可能的碎片离子的推定碎片质量;以及(d)比较每个所述候选分子的所述推定碎片质量与来自所述断裂谱图的测定质荷比,由此针对每个所述候选分子独立地确定匹配所述候选分子的推定碎片质量的所述断裂谱图的信号参数相似度;以及
(e)使用匹配每个所述候选分子的所述推定碎片质量的所述断裂谱图的信号参数相似度识别所述分析物的组成。
37.根据权利要求36所述的方法,还包括:针对每个所述候选分子,独立地计算所述分析物的所述断裂谱图与所述候选分子的参考谱图之间的谱图重叠,由此为每个所述候选分子产生谱图重叠评分。
38.根据权利要求36或37所述的方法,其中,所述信号参数是对应于所述断裂谱图的所述峰的总和的总离子流(TIC),并且所述信号参数相似度是对应于与所述候选分子的所述推定碎片质量相匹配的峰的断裂谱图的TIC的百分率。
39.根据权利要求38所述的方法,其中,针对每个所述候选分子,将所述谱图重叠评分和对应于与所述推定碎片质量相匹配的峰的断裂谱图的TIC的百分率结合,由此为每个所述候选分子产生高分辨率滤波评分。
40.根据权利要求36至39中任一项所述的方法,还包括将具有最高高分辨率滤波评分的候选分子识别为具有所述分析物的组成。

说明书全文

分辨率气相色谱-质谱数据与单位分辨率参考数据库的改

进谱图匹配的高质量精确度滤波

[0001] 相关申请的交叉引用
[0002] 本申请要求提交于2014年3月28日的美国临时申请61/972,073的权益,其全部内容以与其一致的程度而通过引用结合到本申请中。
[0003] 关于联邦资助的研究或开发的声明
[0004] 本发明是在由美国国立卫生研究院授予的政府资助GM107199下进行的。政府对本发明具有一定的权利。

背景技术

[0005] 气相色谱质谱法(气相色谱质谱联用)(GC-MS)实验在偶联至电离源的GC柱上分离小分子。电离后,分子随后被质量分析。一种典型的电离方法是导致分子以有助于分析物识别的可再现模式分裂成碎片的电子电离(EI)。通常,使用者产生的EI谱图通过与参考谱图的数据库进行谱图匹配来识别,这些数据库包括从在单位分辨质谱仪上收集的纯化合物产生的几个现存的EI谱图数据库(即由NIST、Wiley等提供的~1Da参考库)。
[0006] 然而,该方法可能导致分析物归属识别的不明确,这是由于单位分辨率谱图的特异性差。许多情况下不同化合物产生相似EI谱图,导致大量错误识别。此外,在所观测的谱图和参考谱图之间的谱图相似度程度(用于分配识别置信度的度量)是不明确的并且受到人的判断的影响。
[0007] 之前,研究人员已经构建了能够收集高分辨率EI谱图的高分辨GC-轨道离子阱质谱仪(参见,例如Peterson等人,“Development and characterization of a GC-enabled QLT-Orbitrap for high-resolution and high-mass accuracy GC/MS(用于高分辨和高质量精确度的GC/MS的一种GC-驱动的QLT-轨道离子阱的发展和表征)”,Anal.Chem.,2010,82(20):8618-28)。然而,目前可用的谱图库(如由NIST和Wiley提供的)不包含高分辨率谱图,而是保持为单位分辨率库。
[0008] 所需要的是利用当前可用的单位分辨参考库实现高分辨率谱图匹配的方法。这些可用的数据库包含使用高分辨率GC/MS仪器重新创建将是过分昂贵的数十万个参考谱图。本文所呈现的本发明提供了一种利用高分辨率谱图以利用这些现有资源实现优越的谱图匹配特异性的手段。使用高分辨精确质量测定将会提高谱图匹配置信度而无需高分辨参考库。
[0009] 其他人已经使用预测的断裂模型(即,由进行预测的计算机模拟(in silico)断裂的算法生成的理论高分辨率谱图)试图提高谱图匹配的特异性。使用这种方法,已知的分子结构和键能用于开发预测EI断裂的算法。如果存在,则这些算法很少能够产生与实验测定的谱图精确相关的谱图。通常预测的谱图与它们的测定的类似物极度不相似,导致错误识别的可能性增大。本方法的一种实施方式以在测定的参考数据中实验观测的模式开始,保持在预测模型中不容易考虑的重要峰和强度的关系。
[0010] 本发明提供了用于使用单位分辨率谱图数据结合另外的滤波和评分步骤分析从高分辨质谱仪获得的数据的方法和系统。此外,本发明能够使用目前可用的单位分辨参考库实现高分辨匹配。这些可用数据库包含使用高分辨率GC/MS仪器重新创建将是过分昂贵的数十万参考谱图。因此,本发明允许使用新获得的高分辨率谱图利用现有资源实现优越的谱图匹配特异性。
[0011] 本文中所呈现的本发明是使用获得的高分辨质谱(如GC-MS期间获得的谱图)提高化合物识别的有用工具。在一个实施方式中,例如,本发明的方法以在测定的参考数据中实验观测的模式开始,保持在预测模型中不容易考虑的重要峰和强度的关系。因此,本文描述的方法和系统的方面是互补的,或者对于所进行的与由某些常规算法生成的理论高分辨率谱图进行的谱图匹配而言是优越的。

发明内容

[0012] 本发明提供了用于识别高分辨质谱的方法、系统和算法。在一些实施方式中,分析物被电离(离子化)并使用高分辨率质谱法(MS)以高质量精确度(例如≤75ppm或≤30ppm)进行分析,并且将得到的质谱与一种或多种准候选分子或化学式匹配。本发明提供了例如方法和系统,其中,确定了可以产生自候选分子或化学式的可能的碎片(片段,fragment)以及这些碎片的每个的质量。本发明提供了例如这样的方法和系统,其中,高分辨质谱然后与针对每个候选分子或化学式计算的碎片质量进行比较,并且确定对应于或能被计算的碎片质量解释的高分辨率质谱部分。本发明提供了例如方法和系统,其中,基于对应于或能被计算的碎片质量解释的高分辨率质谱的量,分析物被识别为候选分子或具有该化学式,或者候选分子或化学式作为可能的识别而被排除。
[0013] 在本发明的一个方面,获得的分析物的质谱使用包括单位分辨率库和数据库的参考库或数据库(包含候选分子的质谱)与一个或多个候选分子匹配。高分辨率质谱可以通过将高分辨率谱图转换成较低分辨率谱图,例如通过将峰m/z值四舍五入到最接近的整数,而匹配至单位分辨率数据库。反馈的谱图匹配可能仍然是不明确的,但现在可以采用另外的计算每个候选分子的碎片质量和将该高分辨质谱与计算出的碎片质量进行比较的步骤以提高识别率。
[0014] 例如,可以储存与参考数据库相匹配的顶级化合物,并且对于每个推定识别,原子的所有非重复组合由其分子式产生。在产生每组碎片并且可选地过滤掉不可能的分子式后,这些化学碎片在高质量精确度下与高分辨率谱图进行匹配。由此,确定了每组化学碎片可以解释的谱图的量。
[0015] 本发明的一个实施方式提供了一种使用质谱法分析样品中的分析物的方法,包括:
[0016] (a)使用提供等于或小于75ppm的质量精确度的质谱技术测定所述分析物的断裂谱图;其中,所述断裂谱图包括多个对应于来自所述样品的碎片离子的测定质荷比的峰;其中,所述断裂谱图的特征在于对应于所述断裂谱图的所述峰的信号参数;
[0017] (b)提供用于分析所述分析物的所述断裂谱图的候选分子;
[0018] (c)确定来自所述候选分子的可能碎片离子的推定碎片质量;以及
[0019] (d)比较所述候选分子的推定碎片质量与来自所述断裂谱图的测定质荷比以确定与所述候选分子的推定碎片质量相匹配的断裂谱图的信号参数相似度,由此使用质谱法分析所述分析物。
[0020] 在该方面的一个实施方式中,例如,质量精确度等于或小于30ppm,并且可选地对于一些实施方式等于或小于10ppm。在该方面的一个实施方式中,确定来自所述候选分子的所有可能碎片离子的推定碎片质量。
[0021] 在进一步的实施方式中,推定碎片质量针对来自候选分子的所有可能碎片离子而被确定并与所测定的质荷比进行比较。此外,推定碎片质量可以针对候选分子的分子式的原子的所有非重复组合而被确定。
[0022] 所述信号参数包括但不限于谱图中的峰的数目、峰的强度或强烈程度、对应于峰的总和的总离子流(TIC)和峰的m/z值。因此,确定断裂谱图和候选分子的推定碎片质量之间的信号参数相似度包括但不限于成功匹配的峰的数目、匹配的峰的百分率、所有匹配的峰的m/z值与它们各自的强度的乘积之和,以及匹配的峰的TIC的百分率。在一个实施方式中,信号参数是对应于断裂谱图的峰的总和的总离子流(TIC),并且信号参数相似度是对应于匹配候选分子的一个或多个推定碎片质量的峰的断裂谱图的TIC的百分率。
[0023] 在一个实施方式中,针对谱图中每个测定的m/z峰,定义的大约以峰m/z值为中心的质量公差在选定的ppm公差下被创建,例如,至30ppm内、至15ppm内、至1ppm内,或在一些实施方式中至小于1ppm(例如0.5ppm或0.1ppm)内。来自给定候选分子的推定碎片质量例如,通过使用选定的ppm公差比较推定质量与断裂谱图中观测到的峰而与峰相匹配。例如,任何具有落入其定义的质量公差的推定碎片的峰被认为是“匹配的”。“信号参数相似度”是相对于那些还没有“匹配”的峰,量化已经成功匹配的峰的参数,并且例如,可能包括匹配的峰的数目、匹配的峰的百分率、对应于匹配的峰的信号强度的百分率等。
[0024] 对于一些实施方式优选地,质谱技术提供了等于或小于30ppm、等于或小于20ppm、等于或小于10ppm、或等于或小于5ppm的质量精确度。在一个实施方式中,当对应于测定质荷比的断裂谱图中的峰在推定碎片质量的30ppm范围内、对于一些实施例更优选地至20ppm内、对于一些实施例更优选地至10ppm内或对于一些实施例更优选地至5ppm内时,对应于测定质荷比的断裂谱图中的峰匹配推定碎片质量。在一个实施方式中,匹配推定碎片质量的TIC的百分率对应于将至少一个推定碎片质量匹配至30ppm内的、对于一些实施例更优选地匹配至20ppm内的、对于一些实施例更优选地匹配至10ppm内的、或对于一些实施例更优选地匹配至5ppm内的峰。在一个实施方式中,信号参数相似度是匹配候选分子的推定碎片质量的断裂谱图中峰的数目。在一个实施方式中,信号参数相似度是匹配候选分子的推定碎片质量的断裂谱图中峰的总离子流(TIC)。
[0025] 可选地,候选分子通过匹配断裂谱图与参考谱图数据库中的一个或多个参考谱图而选择,或其中候选分子对应于样品中用于分析的目标化合物,或其中候选分子对应于一个或多个期望的候选的化学式。
[0026] 一个实施方式包括计算分析物的断裂谱图和一个或多个候选分子的参考谱图之间的谱图重叠。参考谱图可以是低分辨率参考谱图或高分辨率参考谱图。如果参考谱图是较低分辨率谱图,例如单位分辨率谱图,则计算谱图重叠优选地包括将断裂谱图的所有峰m/z值四舍五入到最接近的整数值。
[0027] 可选地,确定断裂谱图和参考谱图之间的谱图重叠包括例如使用点积计算来产生谱图重叠评分。信号谱图重叠评分和信号参数相似度可另外组合以提供分析物对应于候选分子的可能性的指示或数值。例如,在一个实施方式中,谱图重叠评分和匹配推定碎片质量的断裂谱图的TIC的百分率被结合以产生关于分析物的候选分子的高分辨率滤波评分。在一个实施方式中,谱图重叠评分和匹配推定碎片质量的断裂谱图的TIC的百分率通过谱图重叠评分和匹配推定碎片质量的断裂谱图的TIC的百分率相乘而被结合。
[0028] 在一个实施方式中,“谱图重叠评分”是量化两个质谱之间相似度的参数。在一个实例中,例如这些谱图是实验得到的GC-MS EI谱图和参考GC-MS EI谱图。可以在本发明的背景下使用产生代表两个谱图彼此多么相似的一些值作为结果的任何数学计算。在本发明的一个实施方式中,实验得到的谱图与大量参考GC-MS EI谱图进行比较。为了识别那些与所测定的谱图最相似的参考谱图,针对全部来计算谱图重叠评分(例如,如本文所定义的加权点积),并且反馈具有最高评分的参考谱图。使用来自这些反馈的候选物的化学式,对应的高分辨率滤波评分被计算,例如,如段落[154]和[155]中描述的。这两个评分度量可被认为是独立地、彼此结合地,或与大量其他度量结合来确定反馈识别的健全性。上述度量可以独立地进行评估或数学地组合以给出反馈识别的质量的单个或多个数值表示。
[0029] 本发明的一个实施方式包括提供多个用于分析的不同候选分子的步骤。推定碎片质量针对每个候选分子独立地确定并与来自断裂谱图的信号参数独立地进行比较,由此确定每个候选分子的信号参数相似度。每个不同候选分子的特征在于大于或等于指定阈值的谱图重叠评分,以确定哪些候选分子关于与断裂谱图的信号参数相似度而被进一步分析。
[0030] 本发明的方法可在相对纯化的分析物(即,具有小于10%的污染物)或含有分析物的混合物上进行。在一个实施方式中,具有分析物的样品在电离或测定断裂谱图之前被分开或纯化。作为非限制性示例,含有分析物的样品是色谱分离技术的洗脱产物,例如GC-MS技术或LC-MS技术的一部分。
[0031] 本发明的方法是通用的,因此,可适用于广泛范围的包括单级和多级质谱分析的质谱技术。在一个实施方式中,方法还包括使用一种或多种电离(离子化)或解离方法产生碎片离子。在一个实施方式中,例如,一种或多种电离或解离方法选自由电子电离(EI)、化学电离(CI)、电喷雾电离(ESI)、大气压化学电离(APCI)和基质辅助激光解吸电离(MALDI)组成的组。在一个实施方式中,例如,一种或多种电离或解离方法选自由碰撞诱导解离(CID)、表面诱导解离(SID)、激光诱导解离(LID)、中性反应解离、离子反应离解、电子捕获解离(ECD)和电子转移解离(ETD)组成的组。在一个实施方式中,例如,断裂谱图使用具有电子电离(EI)的GC-MS方法或具有电子电离(EI)的LC-MS方法产生。
[0032] 在一个实施方式中,例如,断裂谱图使用多级质谱法(例如,MSX,其中x大于1)产生。在一个实施方式中,例如,断裂谱图使用串联质谱法(例如,MS/MS)产生。在一个实施方式中,断裂谱图使用四极质谱仪或离子阱质谱法产生。在一个实施方式中,例如,本发明的方法还包括测定自分析物衍生的前体离子的完整质量值并评估候选分子是否具有处于完整质量值的预选定范围(例如20%、10%或5%)内的质量的步骤。本发明的这一方面有助于在测定的质荷比或分子质量基础上进一步评估候选分子。
[0033] 可选地进行额外的步骤以提高效率和识别率。例如,在一个实施方式中,首先使用已知的分离技术如液相色谱或气相色谱将含有分析物的样品分开。然后收集和电离来自色谱步骤的分析物。可选地进行一个或多个解卷积步骤将来自相同母体分子的碎片离子一起隔离。本发明的一个实施方式提供了解卷积步骤,包括:
[0034] 1)进行所述分析物的两次或多次断裂扫描;
[0035] 2)将在连续的EI断裂扫描中观测到的具有相似m/z值的碎片峰分组到一起,由此产生数据特征,其中,在连续的扫描中观测到的不具有相似m/z值的峰分组成单独的数据特征;以及
[0036] 3)将具有在相同时间段内洗脱的峰的数据特征分组到一起,由此产生一组来源于分析物的碎片峰。
[0037] 本发明的另一个实施方式提供了一种识别样品中的分析物的组成的方法,包括:
[0038] (a)使用提供等于或小于75ppm的质量精确度的质谱技术测定所述分析物的断裂谱图;其中,所述断裂谱图包括对应于来自所述样品的测定碎片离子的质荷比的多个峰;其中,所述断裂谱图的特征在于对应于所述断裂谱图的所述峰的信号参数;
[0039] (b)提供用于分析所述分析物的所述断裂谱图的多个不同候选分子;
[0040] (c)独立地确定每个所述候选分子的可能碎片离子的推定碎片质量;以及
[0041] (d)比较每个所述候选分子的推定碎片质量与来自所述断裂谱图的测定质荷比,从而针对每个候选分子独立地确定匹配所述候选分子的推定碎片质量的断裂谱图的信号参数相似度;以及
[0042] (e)使用匹配每个所述候选分子的推定碎片质量的断裂谱图的信号参数相似度以识别所述分析物的组成。在该方面的一个实施方式中,例如,质量精确度等于或小于30ppm,并且可选地对于一些实施方式等于或小于10ppm。
[0043] 在一方面,本发明提供了一种用于改进高分辨率GC-MS仪器上收集的断裂谱图与单位分辨率GC-MS仪器上收集的参考谱图的数据库的谱图匹配的方法。从在单位分辨率仪器上收集的纯化合物产生的电子电离(EI)谱图的几个大型数据库目前是可用的。众所周知,纯EI谱图主要包含源于单个母体分子的碎片峰。基于这一原理,可以系统地解释在已知化合物的断裂谱图中观测到的峰。通过产生一些,或可选地全部,创建了来自前体分子式的原子的非重复组合,一组潜在的碎片。在一些实施方式中,在该化合物的断裂谱图中每个观测到的峰可以通过匹配其m/z值与这些潜在碎片的精确质量来进行注解。断裂谱图也可以使用LC-MS收集并使用相同的过程与参考谱图的LC-MS数据库进行比较。
[0044] 在本发明方法的一方面,另外的滤波步骤通过使用高分辨精确质量(HRAM)质谱法,大大提高了匹配的特异性。通过首先将推定化学识别归属给每个高分辨率谱图,可以确定是否每个峰可以通过来自归属的分子式的精确碎片质量进行解释。在某些实例中,该方法大大提高了归属识别的特异性,并提高了未知识别的置信度。
[0045] 在一方面,本发明提供了用于实施本文所述任何方法的质谱仪。在一个实施方式中,例如,本发明提供了一种用于分析样品中的分析物的质谱仪,该质谱仪包括:(i)用于产生来自样品的碎片离子的离子源;(ii)用于检测来自样品的碎片离子的质量分析仪,由此产生包括对应于来自样品的测定质荷比的多个峰的断裂谱图;其中断裂谱图的特征在于对应于断裂谱图的峰的信号参数;提供等于或小于75ppm的质量精确度的质量分析仪;以及(iii)处理器,该处理器用于:a)确定来自候选分子的可能碎片离子的推定碎片质量;和b)比较候选分子的推定碎片质量与来自断裂谱图的测定质荷比以确定匹配候选分子的推定碎片质量的断裂谱图的信号参数相似度,由此对分析物进行分析。在该方面的一个实施方式中,例如,质量精确度等于或小于30ppm,并且可选地对于一些实施方式等于或小于10ppm。在该方面的一个实施方式中,由处理器确定来自候选分子的所有可能碎片离子的推定碎片质量。
[0046] 广泛的离子源在本发明的设备中是有用的,包括一种或多种电子电离(EI)系统、化学电离(CI)系统、电喷雾电离(ESI)系统、大气压化学电离(APCI)系统和基质辅助激光解吸电离(MALDI)系统。在一些实施方式中,离子源通过一种或多种选自由碰撞诱导解离(CID)、表面诱导解离(SID)、激光诱导解离(LID)、中性反应解离、离子反应离解、电子捕获解离(ECD)和电子转移解离(ETD)组成的组的电离和/或解离方法提供电离和/或断裂。在一个实施方式中,设备还包括用于在测定断裂谱图之前纯化具有分析物的样品的分离部件。在一个实施方式中,例如,系统是具有电子电离(EI)的GC-MS系统或具有电子电离(EI)的LC-MS系统。在一个实施方式中,该质量分析仪是四极质量分析仪或离子阱质量分析仪。
[0047] 在一方面,本发明可以与用于对蛋白质、小分子、代谢物和其他分析物进行基于质谱的分析和识别的现有基于软件的解决方案集成。
[0048] 不希望受任何特定理论的束缚,本文可能存在对有关本文所公开的设备和方法基本原则的信念和理解的讨论。认识到的是,无论任何机械解释或假设的最终正确性如何,本发明的一个实施方式可以仍然是可操作的和有用的。附图说明
[0049] 图1示出了目前可用的提取MS数据文件中的单独组成的谱图并试图通过将这些谱图匹配参考库来识别潜在目标化合物的自动化质谱解卷积和识别系统(AMDIS)计算机程序的典型屏幕截图。
[0050] 图2示出了在本发明的一个实施方式中将高分辨率GC-MS谱图与来自单位分辨率参考库的谱图进行匹配而执行的不同的步骤。在本实施方式中,获得的EI谱图经历解卷积、谱图匹配,接着是高分辨率滤波。
[0051] 图3示出了在本发明的一个实施方式中用于高分辨率谱图匹配算法的标准工作流程,包括高分辨率谱图匹配算法(图3A)、谱图相似度算法(图3B)和高分辨率评分算法(图3C)。该实施方式中示出了从数据收集和处理到识别未知分子的步骤。
[0052] 图4示出了在一个实施方式中的三模态特征,其中三模态特征被假定为在GC梯度中彼此接近地洗脱的三个单独前体的共同碎片(图4A)。使用9-pt极大(boxcar)平均值使特征变平滑,并且在显示在被平滑特征之上的三所指示的时间点检测到局部最大值(图4B)。局部最小值在这些最大值之间求得,并且特征被分为分别对应于不同母体分子的三个单独(图4C)。
[0053] 图5示出了在本发明的具有及时彼此邻近地洗脱的多个平滑特征的主要组的一个实施方式中的解卷积步骤(图5A)。算法根据洗脱顶点将这些特征分为三个小组(图5B)。每个单独小组可以通过独特颜色或线条来指示。从这些小组,每个特征的强度在由虚线指示的顶点处被计算(图5C),并且针对每个组构建“纯”质谱(图5D),该质谱然后可以被向下转化为单位分辨率谱图并用于谱图匹配。
[0054] 图6示出了在本发明的一个实施方式中特草定的实验获得的谱图与特草定和4-苯基-哌啶的单位分辨参考谱图(从NIST参考库获得)进行比较的单位分辨率谱图匹配。当特草定的实验谱图与特草定的参考谱图比较时,获得了90.49的初始匹配评分,而当特草定的实验谱图与4-苯基-哌啶的参考谱图比较时,获得了49.49的匹配评分。
[0055] 图7示出了乙炔(C2H2)的整数数组表示,其为[2,2]。第一个指数代表分子中原子的数目,第二个代表氢原子的数目(分别是2和2)。以基础整数数组[0,0]开始,每个指数迭代地递增,以便创建代表所有可能碎片的原子的所有可能组合。显示这些碎片和它们的整数数组表示。在每个框中左上角的数值指数指示使用本发明的算法产生各碎片的顺序。该相同的过程可以应用于实质上更大的分子。
[0056] 图8示出了本发明的一个实施方式中从特草定的已知谱图的数据库检索反馈的单位分辨率谱图匹配。实验收集的谱图在顶部显示而参考谱图显示在底部。高度谱图重叠被注意到,并且90.49的匹配评分被反馈。使用本发明的高分辨率滤波算法,当特草定的理论碎片匹配至观测到的高分辨率峰时,可以解释99.95%的总离子流(TIC)信号。
[0057] 图9示出了高分辨率滤波级产生于来自谱图匹配步骤的顶级化合物的理论碎片被产生并与观测到的特草定的高分辨率的峰比较。结果,当特草定的理论碎片匹配至观测到的高分辨的峰时,可以解释99.95%的总离子流(TIC)信号。
[0058] 图10示出了反馈自禾草特(草达灭)的已知谱图的数据库检索的两个谱图匹配(分别是禾草特和2-甲基-1,3-环己二)。实验得到的谱图显示于顶部,而相应的参考谱图示于底部。在具有两个谱图中都匹配的所有显著特征的两个实例中都反馈了高评分。在本发明的一个实施方式中,使用该算法,发现使用禾草特的化学式(C9H17NOS)可以解释99.63%的观测到的TIC信号,但使用2-甲基-1,3-环己二酮的化学式(C7H10O2)仅可以解释19.30%的观察到信号。与来自指定分子式的精确质量碎片(允许的15ppm的公差范围内)成功匹配的峰被显示出来。
[0059] 图11示出了当与含有大约213000个谱图(NIST12)的单位分辨率参考数据库进行匹配时,一组34种已知杀虫剂中前十个反馈谱图匹配评分。每个正确的匹配的评分以红色显示,而错误命中的评分以蓝色显示。在应用高分辨率滤波器和计算高分辨率匹配评分后,发现不正确的评分的分布向下偏斜,其中最大群体的评分下降至接近0。该结果突出了本发明的一个实施方式中该算法在区别错误匹配方面的效率。
[0060] 图12示出了使用高分辨率滤波来确定推定识别可信性的一个实施例。使用GC-轨道离子阱质谱仪对已知标准氟草敏进行采样。所得EI谱图与大约21000个单位分辨率参考谱图(NIST)的数据库进行匹配,并且两个最好评分的化合物,氟草敏(C12H9ClF3N3O)和5-基-3-甲基-1-苯基吡唑(C10H11N3)分别具有76.34和76.11的匹配评分。在产生两个化合物的碎片的所有可能组合并且过滤掉任何不具有在+/-10ppm范围内的匹配碎片的任何峰之后,两个红色谱图被保留。对于氟草敏,95.80%的TIC可以用-0.062(σ=3.214ppm)的平均ppm误差进行解释,而对于5-氨基-1-甲基-3-苯基吡唑,仅5.20%的TIC被解释。基于此结果,第二个命中物可以有效地被排除作为候选匹配,这在没有准确的质量信息情况下是不能被完成的。
[0061] 图13示出了从甘氨酸-叔丁基二甲基基数据库检索反馈的前两个谱图匹配(1-丙醇,3-氨基,叔丁基二甲基硅基和甘氨酸-叔丁基二甲基硅基)。该实验得到的谱图示于顶部,而相应的NIST参考谱图示于底部。使用在本发明的一个实施方式中的算法,我们发现98.35%的观测到的TIC信号可以使用甘氨酸-叔丁基二甲基硅基的化学式(C14H33NO2Si2)来进行解释,但仅66.91%的观测到的信号可以使用1-丙醇、3-氨基、叔丁基二甲基硅基的化学式(C15H37NOSi2)来进行解释。
[0062] 图14示出了从用叔丁基二甲基硅基标签(二(叔丁基二甲基硅基)丙二酸酯)衍生化的丙二酸酯数据库检索反馈的前五个谱图匹配,以及对NIST12单位分辨率EI参考库检索的实验得到的谱图。反馈了具有在66.610(2-甲基-1,4-丁二醇,二(叔丁基二甲基硅基)醚)至60.773(二(叔丁基二甲基硅基)丙二酸酯)范围内的评分的前五个最好单位分辨率评分谱图匹配。使用高分辨率滤波算法,二(叔丁基二甲基硅基)丙二酸酯的化学式相较于任何其他化合物解释了更大百分比(99.719%)的谱图中观测到的TIC。出现在一个或多个谱图中的显著特征利用相应的化学式进行注解。
[0063] 图15示出了与NIST参考谱图比较的获得的氯唑灵的实验谱图。
[0064] 图16至图18示出了能够针对图15的实验得到的谱图,通过针对其同位素峰质量绘制的每个独特化学式解释的TIC信号的百分率。图16突出了对应于氯唑灵(C5H5Cl3N2OS)的绘制点。图17突出了对应于C5H5Cl3N2OS的超集合的绘制点,并且图18突出了对应于C5H5Cl3N2OS的子集合的绘制点。
[0065] 图19示出了能够针对实验得到的丙二酸酯-叔丁基二甲基硅基的谱图,通过针对其同位素峰质量绘制的每个独特化学式解释的TIC信号的百分率。所突出的是对应于丙二酸酯-叔丁基二甲基硅基(C15H32O4Si2)以及C15H32O4Si2的超集合和子集合的绘制点。
[0066] 图20示出了来自图19的、具有对应于突出的与丙二酸酯-叔丁基二甲基硅基的前五名谱图匹配的TIC信号的百分率。
[0067] 图21A至图21F示出了具有谱图匹配的高分辨率滤波工作流程。图21A:跨越连续扫描观测到的峰被浓缩成数据特征。这里示出的是在标准GC梯度的窄的时间窗口内观测到的所有特征。图21B:基于洗脱顶点,特征被平滑和分组。所观测到的特征基于它们的色谱顶点的位置被置于四个逻辑组内。在组内的所有特征都假定产生于单一的前体。图21C:各个谱图来源于基于平均m/z和顶点强度的特征组,然后可以提交进行谱图匹配。图21D:针对相应的NIST参考谱图的实验得到的氯雷他定的谱图的强谱图匹配。来自C22H23CIN2O2的所有子分子式被生成,并且被少一个电子的精确分子式质量排序。为所有包含35Cl的碎片生成含有37Cl的变体。图21E:子分子式与基于质量按升序与峰进行匹配。对于每个匹配的碎片,含有适当重同位素的变体被创建并置于按排序顺序的子分子式的列表中。图21F:对于氯雷他定的高分辨率谱图,99.2617%的测定离子流可以用C22H23CIN2O2的子分子式进行注解。
[0068] 图22A至图22C示出了高分辨率滤波结果。图22A:示出了数据集合中105个谱图的谱图匹配和HRF评分结果。每个绘制点代表正确的分配。HRF评分在范围的高末端附近聚集在一起,而谱图匹配评分更分散。图22B:示出了使用60560个不同分子式的β-谷甾醇(三甲基硅基)的谱图的HRF评分。真正的母体(C32H58OSi)以红色示出。C32H58Osi的子集合和超集合分别以绿色和蓝色示出。没有子分子式能够达到和真正的母体同样高的HRF评分,这表明这些化合物缺乏成功注解所有观测到的信号的适当的原子组成。我们将期望来自存在完整分子离子的其他谱图的相似行为。正如所预期的,所有超集合产生相似的高HRF评分。图22C:以灰色示出了来自60560个独特的分子式与所有105个谱图进行比较的累积分布。以蓝色示出了通过组合所有结果发现的代表性分布。我们发现,平均只有3.206%的分子式可以成功地达到来自数据集合的HRF评分的中位数。
[0069] 图23A至图23D示出了以不同浓度加入人体尿液的药物的分析。图23A:示出了来自以最高浓度(蓝色)和最低浓度(红色)加入的样品的GC-MS TIC色谱。在高浓度下,观测到所有加入药物的强色谱峰。这些特征大体上在低浓度下消失。图23B:高浓度(蓝色)和低浓度(红色)的药物格鲁米特的解卷积特征组。背景特征以灰色示出。复杂背景基质的存在使得分组更具挑战性,这是由于观测到的信号的优势。图23C:在所有浓度(其中分析物丰度足以产生谱图)下分析的每种药物的谱图匹配和HRF评分。针对每种药物报告了六种浓度数据点的最小值。随着浓度的降低,谱图匹配评分开始下降;然而,HTF度量自始至终保持为高。图23D:针对每种药物隔离了两个谱图(一个在最高浓度点,另一个在最低浓度点),并且使用来自NIST数据库的55229个独特的分子式(0-500Da)针对每种药物计算HRF评分。针对高浓度(蓝色)和低浓度(红色),示出了累积的HRF结果连同两个群体的组合分布。曲线表明HRF方法的特异性不随着峰数目的减少而明显变化。
[0070] 图24A至图24I示出了以不同的浓度加入人尿液中的药物的各个分析。这里示出的是从尿液加入数据集合中提取的所有解卷积谱图的测定谱图匹配和HRF评分。这些数据与在图23B所示的数据相同。为了清楚起见,相应的谱图匹配和HRF评分线绘制在一起。需要注意的是在降低的浓度下,观测到的谱图匹配评分趋于下降,而HRF度量保持较高。
[0071] 图25A至图25B示出了关于峰耗尽谱图的方法特异性。对于每种所分析的药物提取两个谱图,一个在最高的测定浓度(图25A),一个在最低的测定浓度(图25B)。该数据与图23D中的数据相同,但为了清楚起见此处被颜色编码。使用来自大小在0-500Da范围内的NIST数据库的55229个独特分子式计算HRF评分。鉴于这些药物相对小,这些分子式被假定为更准确地反映了潜在候选分子的池(pool)。示出了可以达到一定的HRF评分的分子式的百分率的累积分布被示出。例如,在异戊巴比妥的情况下,我们发现大约70%的考虑的分子式反馈≤10的HRF评分。无论“峰富”或“峰贫”的谱图是否被考虑,该方法的特异性似乎并不改变,因为对于每种药物产生了相似的累积曲线。该数据表明,即使在降低的浓度下收集的谱图也将包含足够的信息用于该方法保持特异性。
[0072] 图26示出了总的高分辨率滤波结果。对于这项研究中分析的所有105个参考谱图,使用来自NIST 12 EI参考库的独特化学式计算了60560个HRF评分。这里示出的是按同位素质量上升的顺序的所有参考谱图(1-105)的分析结果。计算出的评分被分成两类:产生小于真实母体评分(蓝色)的HRF评分的分子式,和产生大于或等于真实母体评分(红色)的HRF评分的分子式。更详细的结果示于图30(补充表2)中。我们注意到,对于大多数考虑的谱图,很小百分比的分子式可以产生相似高(或更高)的评分,少数除外。对大百分比的分子式可以产生高质量结果(1、23、24、35)的情况的粗略分析表明这样的化合物倾向于具有更简化的分子式(分别为C10H15N、C12H14N2O2、C15H10O2、C16H17NO)。我们注意到,这些化合物排他地包括四种最常见的有机元素,即碳、氢、氮和。对于具有提高的化学复杂度的化合物,该方法如预期地表现出提高的特异性。
[0073] 图27A至图27B示出了加入药物标准品的人体尿样的谱图匹配/高分辨率滤波结果。加入一些药物(10ng/μL)的人体尿样的分析产生了272个含有10+个峰的谱图。图27A:在在绿色的热图中示出了对于所有272个谱图(从上到下)的10个最好的谱图匹配(从左到右)。每个像素的强度反映了谱图相似度。在蓝色的热图中示出了相应的所有匹配的HRF评分。类似地,这里的强度反映可用精确化学式进行注解的离子流的百分率。针对谱图匹配和HRF评分(40-100和90-100)所选定的范围是基于来自本研究中所报道的已知标准品的结果而选择的。我们没有观测到低于90的HRF评分对应正确识别的实例。在这方面,HRF度量在这一点上基本上是二元分类器(binary classifier)。图27B:高于和低于90(分别为蓝色和灰色)的所有HRF评分的分布。我们发现,从所有2720个反馈的谱图匹配,72.2428%具有小于90的相关的HRF评分。该信息维度可用来区分推定识别。
[0074] 图28A显示了氰草津的前8名谱图匹配(基于加权点积)。
[0075] 图28B示出了使用公差范围(PPM公差0至750)计算解释的百分率TIC(HRF评分)的结果。
[0076] 图29(补充表1)提供了包括(complete with)原始文件名称、保留时间、HRF评分、谱图匹配评分、峰数目以及如所报道的参考谱图名称的所有分析的参考化合物的结果。
[0077] 图30(补充表2)示出了总的HRF分析。这里示出的是当针对60560个独特化学式计算105个数据集合谱图的分数时反馈的HRF结果的总结。化合物以同位素质量升序排列。产生小于、或大于、或等于真正母体的HRF评分的分子式的原始数目被示出于以HRF<母体评分和HRF>=母体评分标记的列中。使用产生HRF评分>=真正母体HRF评分的分子式池,确定正确的和错误的超集合的数量。超集合是其中真正的母体集合中的所有原子也被包含的分子式。非超集合是那些不符合此条件的分子式。对于那些非超集合,计算与真正的母体共享的原子的平均百分率连同由所讨论的分子式拥有的额外原子的平均和中位数目。我们发现,这些能够达到和真正母体同样高的HRF评分的非超集合通常与正确的前体共享大百分率的原子(93.574%),并且平均包含相当数量的额外原子(19.506)。
[0078] 图31(补充表3)提供了加入药物数据集合中的所有提取谱图的相关的谱图匹配评分、HRF评分、以及峰数目。考虑的所有谱图包含至少10个峰。

具体实施方式

[0079] 总体而言,本文所使用的术语和短语具有其本领域公认的含义,其可以通过参考标准教科书、期刊参考文献和对本领域技术人员是已知的上下文而找到。提供了以下定义以阐明它们在本发明的上下文中的具体使用。
[0080] 定义:
[0081] 如本文所用的,“质量精确度”是质谱仪准确地确定被测定离子的质荷比的能,并且通常被定义为质荷比(m/z)测定误差与真正质荷比(m/z)的比率。商用仪器制造商通常将质量精确度明确规定为以百分率(%)或百万分率(ppm)为单位的相对误差。例如,给定的m/z的峰的PPM误差可以使用以下关系式来计算:
[0082] PPM误差=(测定的m/z-理论的m/z)/(理论的m/z)*1×106。
[0083] 在一些实施方式中,测定的质量精确度和高分辨率滤波的特异性成反比。在图28A和图28B中示出了这个概念。图28A显示了氰草津的前8个谱图匹配(基于加权点积)。收集的氰草津谱图是红色的(在X轴以上),反相的蓝色痕迹(在X轴以下)来自NIST库。对于8个谱图中的每一个,使用一个宽范围的公差(PPM公差0至750),计算解释的百分率TIC(HRF评分)。该计算的结果示于图28B。该目标是具有将产生100%解释的TIC的少量或可选地仅一个化合物(化学式,优选当前化学式)。当在峰匹配期间使用30的PPM公差或更小的PPM公差时,我们发现确实是这种情况。就75ppm而言,有2个化合物提供100%解释的TIC,就300ppm而言,有4个化合物提供100%解释的TIC。使用的质量公差越宽,则HRF评分的特异性越低。但是它在缩小候选物池方面仍然有价值,其有相当大的效用。本实施例是用于单一化合物。在某些情况下,提供了最好的选择性的精确ppm要求可能是化合物特异性的。然而,使用30ppm或更少的质量公差,我们得到对许多化合物的实质性的选择性。
[0084] “点积计算”是指测定两个GC-MS EI谱之间的相似度并产生一些反映两者之间相似度的数值作为结果的任何数学计算。
[0085] “电离”是指作为化学反应、高温、放电、粒子碰撞或辐射结果的离子的形成。使分子电离以产生用于使用质谱法分析的前体离子的方法包括,但不限于电子电离(EI)、化学电离(CI)、电喷雾电离(ESI)、大气压化学电离(APCI)和基质辅助激光解吸电离(MALDI)。然后,这样的前体离子可以进一步被断裂并使用串联质谱法进行分析。
[0086] 本文所讨论的许多分子包含一个或多个可电离基团。“可电离基团”包括从其中可以移除质子(例如,-COOH)或添加质子(例如,胺)的基团以及可以被季铵化的基团(例如,胺)。这样的分子及其盐的所有可能离子形式旨在单独地包含于本文的公开内容中。关于本文化合物的盐,本领域的普通技术人员可以从各种各样的适于制备用于给定应用的本发明的盐的可用的反离子之中进行选择。在特定的应用中,用于制备盐的给定的阴离子或阳离子的选择可以导致该盐的提高的或降低的溶解度
[0087] “母体分子”是指在质谱法过程中产生一个或多个离子的单分子或分析物。如本文所使用的,术语“前体离子”在本文中用于指在质谱法分析的电离阶段产生的离子,包括MS/MS分析的MS1电离阶段。
[0088] 如本文所使用的,术语“产物离子”和“次级离子”可互换使用并且是指产生于质谱法分析过程中的电离过程和/或断裂过程中的离子,包括MS/MS分析的MS2电离阶段。如本文所用的术语“次级产物离子”是指其为连续断裂的产物的离子。
[0089] 如本文所使用的,术语“断裂谱图”是指由电离期间产生的分析物离子、碎片离子、前体离子和/或产物离子组成的质谱,或者是指产生于所选择的前体的解离的串联质谱。
[0090] 如本文中所使用的,术语“分析”指的是用于确定分析物的性质的过程。分析能够确定,例如,分析物的物理性质,如质量、质荷比、浓度、绝对丰度、相对丰度、或原子或取代组成。在蛋白质组分析的背景下,术语分析可以指确定样品中的蛋白质或肽的组成(例如,序列)和/或丰度。
[0091] 如本文中所使用的,术语“分析物”指的是化合物、化合物的混合物或作为分析受试物的其他组合物。分析物包括但不限于生物分子、蛋白质、修饰的蛋白质、肽、修饰的肽、小分子、药物化合物、寡核苷酸、糖、聚合物、代谢物、激素、脂质以及它们的混合物。
[0092] 如本文中所使用的,术语“质谱法”(MS)指的是用于确定分析物的元素组成、质荷比、绝对丰度和/或相对丰度的分析技术。质谱技术可用于识别诸如生物分子、蛋白质、修饰的蛋白质、肽、修饰的肽、小分子、药用化合物、寡核苷酸、糖、聚合物、代谢物、激素、脂质及其混合物的分析物的组成和/或丰度。质谱法包括含有使分析物电离以产生带电物种或物种碎片、诸如产物离子的带电物种或物种碎片的断裂以及带电物种或物种碎片的荷质比的测定的过程,可选地包括附加的基于质荷比的分离过程、附加的断裂处理、电荷转移过程等。进行分析物的质谱分析造成产生例如包括分析物和/或分析物碎片的质荷比和相应的强度数据的质谱数据。对应于分析物离子和分析物离子碎片的质谱数据通常被提供为强度,作为代表分析物离子和/或分析物离子碎片的质荷比的荷质比(m/z)单位的函数。质谱法通常允许根据不同的质荷比解析对应于不同分析物的强度。在串联质谱法(MS/MS或MS2)中,进行了多重序列质谱法分析。例如,含有诸如生物分子的化学化合物的混合物的样品,可以被电离,并且根据它们的质荷比所得的前体离子可以被分离。然后所选择的前体离子可以被断裂,并且根据碎片的质荷比被进一步分析。
[0093] 如本文中所使用的,术语“干扰”是指干扰检测感兴趣的物种或分析物的在分析中检测到的物种。例如,干扰可以指检测生物分子、小分子药物、蛋白质或蛋白质碎片,其不是感兴趣的生物分子、小分子药物、蛋白质、或蛋白质碎片,并且干扰精确地检测或量化感兴趣的生物分子、小分子药物、蛋白质、或蛋白质碎片。干扰可以被量化为干扰比,例如干扰信号的量与分析物信号的量的比率。在质谱分析中,干扰可以表现为对应于检测不是感兴趣的分析物的物种的干扰峰。
[0094] 如本文中所使用的,“隔离”或“隔离窗口”指的是一范围的离子,例如被选择性地分离和断裂、控制或隔离的前体离子。
[0095] 如本文中所使用的,术语“物种”是指特定的分子、化合物、离子、阴离子、原子、电子或质子。物种包括同位素标记的分析物、同位素标记试剂、同位素标记的氨基酸和/或同位素标记的肽或蛋白质。
[0096] 如本文中所使用的,术语“信噪比”指的是量化信号被噪音破坏多少或不想要的信号的度量。它也可以指信号功率与破坏信号的噪音功率的比率。高于1:1的比率指示比噪音更多的信号,并且对于一些应用是被期望的。
[0097] 如本文中所使用的,术语“质荷比”指的是物种的质量与物种的电荷态的比率。术语“m/z单位”指的是质荷比的度量。汤姆森单位(缩写为Th)是m/z单位的实例,并且被定义为离子的质量(以道尔顿计)与离子的电荷(相对于元素电荷)的比率的绝对值。
[0098] 如本文中所使用的,术语“质谱仪”是指一种设备,该设备从样品中产生离子、根据质荷比分离离子并检测离子,诸如来源于同位素标记的分析物、同位素标记试剂、同位素标记的氨基酸和/或同位素标记的肽或蛋白质的产物离子。质谱仪包括单级和多级质谱仪。多级质谱仪包括串联质谱仪,其使质量分离的离子断裂并通过质量一次分离产物离子。
[0099] “质谱仪解析力,通常称为分辨率,是在质谱中m/z峰被分离的程度(即,被解析)的量化度量。
[0100] 如本文中所使用的,术语“离子源”是指例如,在质谱法分析过程中从样品中产生离子的设备部件。在本方法中有用的离子源的实例包括,但不限于,电喷雾电离源和基质辅助激光解吸/电离(MALDI)源。
[0101] 如本文所使用的,术语“控制器”指的是如本领域众所周知的可以被编程为控制设备或系统的设备部件。控制器可以,例如,被编程为控制质谱仪系统,以便执行如本文所述的方法。本发明包括具有配置为执行本文所述的任何方法的控制器的质谱仪。
[0102] 如本文中所使用的,术语“离子光学件(ion optic)”指的是例如,通过施加电场和/或磁场辅助带电粒子的运输和操纵的设备部件。电场或磁场可以是静态的、交替的、或者可以包含静态和交替分量两者。离子光学设备部件包括,但不限于偏转离子的离子偏转器、聚焦离子的离子透镜和将离子限制到特定的空间或轨迹的多极(例如四级(quadruple))。离子光学件包括包含具有静态和交替的电场和/或磁场两者的多个棒的多极RF设备部件。
[0103] 如本文所用的,术语“分开的”或“分开”是指如本领域中所众所周知的样品的物理分离。样品可以根据诸如质量、长度、或对另一个化合物的亲和力等的物理性质,使用本领域中所众所周知的色谱技术来分开。分开可以发生在分离阶段,该分离阶段通过一种或多种物理性质起到分开感兴趣的样品的作用,正如本领域中所众所周知的。除了其他技术,分离阶段还可以采用液相和气相色谱技术。分离阶段包括但不限于液相色谱分离系统、气相色谱分离系统、亲和色谱分离系统和毛细管电泳分离系统。
[0104] 术语“肽”和“多肽”在本说明书中同义地使用,并且是指一类由通过酰胺键(或肽键)化学键合在一起的氨基酸残基组成的化合物。肽和多肽是包括至少两个氨基酸残基或修饰的氨基酸残基的聚合化合物。修饰可以是天然存在的或非天然存在的,例如通过化学合成产生的修饰。对肽中氨基酸的修饰包括,但不限于,磷酸化、糖基化、脂质化、异戊二烯化、磺化、羟基化、乙酰化、甲基化、甲硫氨酸氧化、烷基化、酰化、氨甲酰化、碘化以及辅助因子的添加。肽包括蛋白质,并且还包括通过例如蛋白质解消化的蛋白质降解产生的组合物。肽和多肽可通过蛋白质的基本完全的消化或通过蛋白质的部分消化产生。多肽包括,例如,包含2至100个氨基酸单元的多肽、对于一些实施方式可选地2至50个氨基酸单元、对于一些实施方式可选地2至20个氨基酸单元以及对于一些实施方式可选地2至10个氨基酸单元。
[0105] “碎片”指的是分子的一部分。碎片可以是单电荷离子或者是多电荷离子。如本文所用的,术语“碎片离子”指的是以电离形式存在的母体或前体分子的一部分,诸如在MS分析和MS/MS分析期间形成的。碎片可以从母体分子中的键断裂得到,例如在母体肽中的多肽键的位点特定断裂。碎片还可以产生自多重断裂事件或步骤。碎片可能是截短的肽,母体肽的羧基末端、氨基末端或两者。碎片可以指当多肽键、C-C键、C-N键、C-O键或这些过程的组合断裂时产生的产物。碎片可指通过氨基酸的一个或多个侧链被移除、或修饰被移除的过程或这些过程的任意组合而形成的产物。碎片可以包括在亚稳态条件下形成的碎片或者产生于对所述分析物或前体离子通过各种解离和电离方法引入能量的碎片,这些解离和电离方法包括但不限于,碰撞诱导解离(CID)、表面诱导解离(SID)、激光诱导解离(LID)、电子捕获解离(ECD)、电子转移解离(ETD)、电子电离(EI)、化学电离(ESI)、中性反应解离、离子反应解离、大气压化学电离(APCI)和基质辅助激光解吸电离(MALDI),或这些方法的任何组合或在串联质谱领域中公知的任何等效物。碎片的性质,例如分子质量,可通过断裂质谱的分析而表征。
[0106] 概述:
[0107] 自从60年代后期首次证明气相色谱-质谱仪器(GC-MS)作为分析技术的效用以来,)其已被用于小分子的定性和量化分析。从那时起,在质谱法方面关于提高的分辨率、灵敏度和数据收集的速度已经有了大量令人难以置信的进步。轨道离子阱质量分析仪的引入是一个这样的引人注目的实例。轨道离子阱可以达到近1000000的解析力,这在以前只有在昂贵的傅立叶变换离子回旋共振质谱(FTICR-MS)上才是可能的。尽管在以亚ppm级水平精确度快速获得高分辨图谱的能力方面已经取得了显著的提高,但在GC-MS领域却变化很少。通常,小分子分析仍然在类似于50年前在GC-MS工作中使用的单位分辨质谱仪上进行。足以说高分辨质谱的特别的好处尚待应用于此领域。
[0108] 例如,在典型的GC-MS实验中,小分子在前期的GC上分开或分离,然后在MS分析前使用化学电离(CI)或电子电离(EI)而电离。CI使得能够测定完整的前体质量,而EI导致分子以特征模式断裂。这些断裂模式是高度可重现的,并且对分析物识别是有用的。为了归属识别,用户产生的谱图从原始数据文件提取并与之前收集的参考谱图的数据库进行匹配。该方法是相当可靠的,但在这些情况下高分辨数据的缺乏阻止了在精确质量基础上区分候选前体。也有许多不相似的化合物产生相似断裂谱图的情况,这可以导致异常高数量的错误识别,这再次是由于缺乏高分辨能力。此外,将识别定性为正确或错误所需的观测到的谱图和参考谱图之间的重叠程度是不明确的,并且受人的判断影响。
[0109] 理想地,为了归属识别,可以比较收集的质谱数据与预先存在的高分辨率参考库。然而,考虑到编译目前存在的参考库所需的时间和资源的量,这是不可能的。另外,NIST和Wiley参考库包含数十万化合物的纯EI谱图,并仍然是有很大用处的(图1)。
[0110] 如本文中所描述的,本发明的一个方面提供了允许使用包括单位分辨率数据库的预先存在的参考库来精确地识别样品的高分辨率质谱的方法和算法。这些高分辨率质谱可以与单位分辨率数据库例如通过四舍五入到峰m/z值到最接近的整数来进行匹配。反馈的谱图匹配仍然可能是不明确的,但是现在可以使用另外的滤波来提高识别率。例如,前N名匹配化合物可以被储存,并且对于每个推定识别,原子的所有非重复组合从推定识别的分子式产生。这组组合代表一组可能的化学碎片。在产生每组碎片并滤波掉不可能的分子式之后,这些化学碎片以高的质量精确度(如≤75ppm、≤30ppm、≤201ppm或≤10ppm)与高分辨率谱图进行匹配。由此,确定了可以由每组化学碎片进行解释的谱图的百分率。可选地,样品在收集高分辨质谱之前使用诸如液相和气相色谱的分离技术分开。
[0111] 可替代地,本发明还提供了允许样品的高分辨率质谱与一个或多个候选分子的谱图进行比较、或者与可能不一定是参考库一部分的已知化学式进行比较的方法和算法。
[0112] 本发明在以下实施例中被进一步详述,这些实施例通过说明的方式提供,并且不旨在以任何方式限制本发明的范围。
[0113] 实施例1:用于高分辨率气相色谱-质谱数据与单位分辨率参考数据库的改进谱图匹配的高质量精确度滤波
[0114] 本文中所描述的算法和方法假定纯质谱中的每一碎片来自相同母体分子。基于该概念,可以得出结论:在所述谱图中观测到的每一碎片由来自母体分子的原子的某些组合构成。因此,如果收集化合物的精确质谱,则每一高分辨峰应该能够用包含一些包含在母体分子式中的原子的子集合的精确化学式来注解。利用这种想法,基于与低分辨参考谱图的相似度,候选物识别可以首先被归属给纯化合物的高分辨率谱图。然后,具有候选分子式允许用户尝试用一些仅含有存在于母体分子式中的原子的碎片来解释每个观测到的高分辨峰。理论上,如果存在正确的匹配,则每一峰(或几乎每一峰)应该能够被解释并且母体分子应该能够被识别。
[0115] 在图2所示的一个实施方式中,该方法包括与谱图匹配步骤和高分辨率滤波步骤结合使用的解卷积步骤。在GC分离后,电离样品,并获得高分辨率质谱。解卷积步骤将原始质谱数据分组成相关的特征,使得仅含有来自相同母体分子的峰的谱图被分组在一起。每个EI谱图的单位分辨率副本被创建并且与单位分辨率数据库进行匹配。评分系统,例如点积评分系统针对每个谱图的比较进行计算,并且存储最好的谱图匹配。对于每个储存的谱图匹配,针对每个与匹配的谱图相关联的每个候选母体分子产生原子的所有非重复组合,并且潜在原子组合的精确质量碎片与所获得的高分辨率谱图进行匹配。然后,计算并提供了通过潜在原子组合的质量碎片解释的高分辨率谱图的量。
[0116] 算法设计
[0117] 高分辨率谱图匹配算法的以下描述包括获得在HRAM GC-MS系统上收集的原始数据并产生可信的识别必要的所有步骤。需要注意的是关于此点而收集的所有高分辨率数据是在由Coon研究组(威斯康星大学麦迪逊分校)构建的新型GC-轨道离子阱上的。
[0118] 用于将推定识别归属给使用GC-MS分析的化合物的标准工作流程是收集利用电子轰击电离产生的纯断裂谱图,然后将其与参考EI谱图的数据库进行比较。这里描述的算法大大地改进了该标准工作流程。以由高分辨率质谱仪提供的高质量精确度同时利用并影响(leverage)所测定的数据(这以计算机模拟重复几乎是不可能的)。如上所述,将详细讨论的算法的三个部分是解卷积、谱图匹配和高分辨率滤波,其中高分辨率滤波步骤是最新颖和强有力的步骤。在图3A至图3C中示出了使用该算法处理数据的标准工作流程。
[0119] 解卷积
[0120] 在挥发性化合物的复杂混合物的分析中,前期(front-end)气相色谱分离是至关重要的。虽然GC非常强健且可重现,但是其经常不能将各个化合物彼此分离,特别是存在背景基质时。鉴于所有的参考谱图是使用纯化合物(其大部分是不含污染物的)收集的,比较仅含有来自给定母体分子的碎片的谱图是重要的。由于这一要求,提取“纯”谱图的后期(back-end)解卷积往往是必要的。在复杂混合物的谱图解卷积中的主要挑战之一是,抽出样品中所有化合物,而错过任何化合物。这是具有挑战性的,因为当在梯度期间洗脱某个化合物时,其不总是明显的,特别是在低丰富物种的情况下。解卷积算法被写出,使得在GC-MS运行期间收集的每一谱图中的每一峰被考虑到,而没有化合物被错过。
[0121] 该算法的第一步骤将原始数据文件中的所有峰组合为特征。特征是包括在连续扫描中观测到的具有相同m/z值的峰的对象。该算法获得存在于运行的第一次扫描中的所有峰并检查以查看在第二次扫描中是否有对应的峰(允许约20ppm的小的质量公差)。如果在两次扫描中都观测到峰,则假定它们实际上是相同物种,然后它们被分组成特征。然后下一次扫描针对相同的峰进行检查,然后下一次,当峰存在时不断添加发现的每个峰至该特征。一旦扫描发现峰不存在时,该特征被认为是“完整的”,并且移至新的列表。该过程在原始文件中针对每个扫描重复。该算法是以在随后的扫描中极快地检查每个峰的方式编写的。此速度分量是至关重要的,因为对于该算法的首要的目标之一是其非常快速地执行以促进快速数据分析。
[0122] 特征的理想情况是,一旦峰出现,其信号上升到某个顶点,然后不断下降直至它不再存在。然而,由于许多小分子产生相同的碎片,情况并非总是如此。通常,靠近彼此洗脱的分子将具有其信号在它们的洗脱之间不降至0的共享碎片。经常观测到信号上升、下降、再次上升、再次下降等的特征。为了解释这一点,写出了基于特征的信号多快地上升(向上倾斜)和下降(向下倾斜)而检测局部最大值和最小值的峰拾取算法。采用该峰拾取过程,可以将来源于单独的母体分子的共同碎片分离成不同的特征(图4)。
[0123] 在将各个峰分组为特征之后,那些靠近彼此洗脱的特征需要基于它们是来源于相同母体的碎片的假设而被分组到一起。在此分组步骤之前,对已经从原始数据抽出的所有特征进行检查以去除噪音。据推测来自每一碎片的信号会以特有的方式上升和下降,使得它应当在其洗脱期间达到某个顶点。这是分析物信号的重要特征,由于噪音,该特征可用于将其与信号区分。为了使这些模式更易于观测,使用9点极大平均值使数据平滑。该平滑步骤使得碎片洗脱的上升/下降的整体趋势更为明显。因为噪音在整个运行中大致恒定,预期包括噪音峰的任何特征将不会表现出该峰样形状。相反,大部分噪音信号在平滑后应当保持相当恒定。为了滤除噪音,检查每一特征以查看它是否达到大于其最小信号两倍的强度。该阈值被设置,因为它表现出有效地去除源于噪音的特征。
[0124] 来自母体分子的碎片将会被同时洗脱。由于该原因,预期来自母体分子的碎片的信号将以与及时洗脱的母体的量相一致的方式上升和下降。现在的目标是针对混合物中存在的每个化合物将来自相同母体的所有碎片分组到一起。进行了两个分组步骤。第一步更普遍,其中在一定的时间窗口内观测到的所有特征被一起置于主要组中。此窗口被设置为长于分子从柱中洗脱出来所花费的时间(通常为约5秒,尽管其基于丰度和进入GC梯度的时间而变化)。需要注意的是可以将相同特征放入多个组。此步骤对于减小传递到下一个分组步骤的问题大小是重要的。在进行这个初始分组后,在每一主要组中的所有特征以基于特征的最大强度的顺序排序。
[0125] 然后进行另一个分组步骤,该分组步骤创建仅包含来自特定母体的那些碎片的次要组。起始于主要组中最强特征的顶点,确定了特征具有大于其顶点强度的95%的强度期间的时间范围。假定达到在此时间窗口的顶点的任何其他特征也是来自相同的母体分子的碎片。创建所有这样的碎片将被添加到该组的新的次要组。算法然后移动到主要组中的下一个最强的特征,并检查其是否具有在此窗口中的顶点,如果是,它则被添加到次要组并标记为已被包括在内。如果不是,则该算法移至下一个最强的特征,并进行相同检查。重复该过程,直至主要组中的每一特征已经被检查。该算法然后移回到列表的顶部,并找到尚未被加入到次要组的最强特征。该算法找到相同的95%顶点的时间窗口,并且重复相同的过程。直至主要组中的每一特征已经被添加到次要组,完成该过程。假定含有少于5个峰的次要组包含用以产生正确的识别的信息不充足,并且随后被丢弃。
[0126] 在算法中的这一点上,已经产生了仅含有来源于相同母体分子的碎片的一组次要组。这个过程已经有效地去除了噪音,并且从其他共洗脱物种分离出碎片。在原始数据文件中的每一单峰已经被考虑,因此实际上不可能遗漏任何已洗脱的化合物,除了那些丰度非常低并且不会产生可信的识别的化合物。为了将这些次要组转变为“纯”EI谱,创建了包含对应于次要组中的所有特征的m/z值的峰的新谱图对象,其中次要组中的所有特征的强度在该组的顶点时间点处。图5A至图5D示出了所有特征分组步骤和随后“纯”谱图的提取。
[0127] 谱图匹配
[0128] 使用EI GC-MS来确定化合物识别的典型手段是将提取的谱图与一组参考谱图进行比较并计算谱图重叠。具有最高的重叠的参考谱图被假定为正确的匹配。存在几种确定谱图重叠的方案。这样做最简单的方法将是计算两个谱图之间的绝对差。要做到这一点,人们将确定哪些峰在实验谱图和参考谱图中都存在,并且彼此减去它们的强度。造成最小量的未解释强度的参考谱图将被认为是正确的匹配。该方法将相等权重赋予谱图中的所有峰是不明智的,因为更大的峰在归属识别中显著更具特征性。考虑在300m/z下产生碎片的分子。与能在200m/z下产生碎片的分子相比,实际存在理论上可在300m/z下产生碎片的分子更少。为了解释这一点,使用了测定谱图重叠的点积计算。这种用于测定谱图相似度的策略将更多的权重赋予更大的m/z峰。使用传统的点积,谱图相似度主要受谱图中的最大峰值影响。例如,如果在谱图中存在一个主峰和在不同m/z值的几个较小的峰,则高评分的匹配可能被反馈,即使只有最大峰是匹配的。更合适的策略将是使用加权点积,其将更少的重要性赋予谱图中的最大峰,因此将更多的权重赋予可能更具特征性的较小的峰。用于测定谱图重叠的替代性方案是可用的;然而,所述计算用于算法开发目的。
[0129] 使用利用解卷积算法提取的“纯”高分辨EI谱图,创建了向下转换伪单位分辨EI谱,其中所有的峰m/z值被四舍五入到最接近的整数值。然后,该谱图与整个用户指定的数据库进行比较,计算每个谱图比较的加权点积,并且储存前N名最高评分的匹配。比较平均谱图与整个NIST数据库(约213000个谱图)并为每个计算加权点积花费大约1.5秒。由该算法提供的好处之一是它的执行速度。使用NIST MS检索算法,比较单个谱图与<10000个谱图花费大约相同量的时间。我们决定搜索空间应尽可能多地被打开,以增加提取的谱图得到与其真正的参考谱图进行比较的机会,直至它出现在数据库中。在该算法中这一点上完全利用每个解卷积高分辨率谱图的相关的化学式,产生了一组候选物识别。由此,高分辨/精确质量测定可以被利用以大大提高归属识别的置信度并且区分错误命中。
[0130] 图6示出了与特草定和4-苯基-哌啶的单位分辨参考谱图(从NIST参考库获得)匹配的特草定的实验获得的谱图(用户谱图)。使用下面的公式,
[0131]
[0132] Au–使用者谱图的峰强度
[0133] Ar–参考谱图的峰强度
[0134] m–峰m/z值
[0135] 当特草定的实验谱图与特草定的参考谱图比较时,获得了90.49的初始匹配评分,而当特草定的实验谱图与4-苯基-哌啶的参考谱图比较时,获得了49.49的匹配评分。
[0136] 高分辨率滤波
[0137] 如先前所述,该算法以以下原理操作,即在化合物的纯断裂谱图中的每一单个碎片峰含有来自母体分子结构的原子的一些子集合。现在,如果正确的匹配实际上被包括在候选匹配的这个列表中,我们将期望观测到的每一峰可以使用来自分子的一些碎片的精确质量进行解释。可以用精确质量碎片注解的来自精确质量峰的信号的百分率(总离子流或TIC)可被用作用于确定是否完成了正确匹配的度量。
[0138] 存在几种试图采用已知的分子结构并基于已知的键能和原子在空间是如何连接的来预测将产生什么碎片的算法。这些算法通常不能准确预测所有观测到的碎片,这将阻止实施我们所提出的用于归属识别的工作流程。相反,本算法生成一组包含候选分子可以产生的每一可能的碎片的化学式。它是通过构建母体分子式中原子的所有非重复组合来完成的。虽然这种方法将产生一些不可能的分子式,这样的分子式将被简单地忽略,因为将利用仅仅那些具有落入在观测到的峰(约15ppm)附近的窄的m/z公差范围内的精确质量的碎片。这种方法被保证以产生所有观测到的碎片,并且不需要分子将如何断裂或者它在断裂之前将如何重排的任何先验知识。然而,基于规律的断裂方案的主要的限制是,并非可以在质谱仪高真空度下的气相中发生的所有可能的分子重排都是已知的。发现每种可能的重排是不太可能在不久的将来发生的(如果有的话),这对基于规律的断裂算法的显著不利因素。
[0139] 为了产生所有可能的碎片,首先创建了代表每个匹配化学式的整数数组。在这个方案中,数组中的每个指数代表特定原子,并且储存在该指数中的数字等于分子中该原子的数目。此过程以其中为每个原子储存零的空数组开始,并且迭代地递增储存在每个指数中数字直到达到原始的原子数目。下面针对乙炔(C2H2)的简单情况在图7中示出了这种方法,其中可能的组合将是H、H2、C、C2、CH、C2H、CH2和C2H2。可以看出,分子式(碎片)的每一种可能的组合使用该实施方式被产生。现在,使用这组中每个碎片的精确质量,可以确定在高分辨率谱图中观测到的每个峰的精确质量是否可以被解释。使用用于对观测到的峰快速注解的这种方法的好处是其可以基于由电子轰击电离过程产生的产物碎片潜在地发现新的气相化学重排。
[0140] 使用这里收集的信息来区分错误的匹配非常容易。如果在高分辨EI谱图中观测到的峰都不能(或者甚至很少能)使用来自潜在候选物的精确质量碎片来解释,则可以以高置信度得出结论:所述分子不产生收集的谱图。对于这一点,区分候选匹配的过程已不可能通过匹配单位分辨率谱图与单位分辨参考库来进行,这是由于缺乏精确质量测定。
[0141] 相反地,验证谱图匹配是正确的过程进行的更为容易。如果在实验得到的高分辨率GC/MS谱中的每一峰可以被解释,则可以确定含有该组原子的一些分子一定已产生了观测到的峰。然而,存在许多包含相同组的原子的化合物,虽然它们在空间中的排列是非常不同的。如果在实验和参考谱图之间存在很大程度的谱图重叠,并且所有观测到的峰可以被解释,则正确的化合物已匹配的置信度大大提高。为将这两个成分组合成此置信度的单个数值表示,该算法反馈谱图相似度(从0至100测定,其中100是完全的谱图重叠)和可以被精确质量碎片解释的TIC的百分率的积(参见例如,图8)。
[0142] 被承认的是在某些情况下,含有相同的母体化学式并被以类似的方式(例如立体异构体)排列的分子产生类似的谱图。仅使用这两条信息仍可能不能明确归属正确的识别。然而,额外的信息维度(在GC分离中的保留指数)和分析方法(NMR等)可以用于确定什么化合物已经被分析。在这些情况下,本算法将所有顶级的匹配分组在一起并将该组作为一个命中物反馈给用户。
[0143] 初步数据
[0144] 对于该算法的初始验证,分析了含有适于用GC-MS分析的已知杀虫剂的样品混合物。下面的实施例突出了本算法的效率,以及它如何被用来提高归属识别的置信度和以高保真度区分错误的命中物。特草定的分析产生了以下的谱图,该谱图正确地与NIST 12 MS库中特草定的参考谱图匹配。谱图以90.49的评分被匹配,并且我们能够解释高分辨率谱图中99.95%的TIC(图8和图9)。任何未匹配的信号被归因于窄的容许的质量公差以外的质量误差,或被归因于被不合逻辑地包括在解卷积步骤中的峰。这是一种理想的情况,其中观测到很大程度的谱图重叠并且可以解释高分辨率谱图中几乎所有的峰。
[0145] 应注意到的是,其中该算法在区分命中物方面是有效的实例是相当接近的(相似的参考谱图被匹配),其中低分辨匹配评分介于顶级命中物之间。例如,在禾草特的情况下,前两名命中物(分别为禾草特和2-甲基-1,3-环己二酮)具有82.41和75.16的低分辨的匹配评分。单位分辨率谱图的目视解读表明当在两个参考谱图中的主峰都匹配时每种化合物都可能潜在是正确的匹配。但是在进行高分辨率滤波步骤之后,我们发现,只有19.30%的TIC可以用来自2-甲基-1,3-环己二酮的化学式来解释,而使用禾草特的化学式,所观测到的99.63%的信号可以被解释(图10)。该实施例凸显了该算法在降低类似的谱图匹配之间的不确定性方面的效用。已经不可能仅仅通过匹配低分辨参考谱图和实验谱图来区分这两个命中物,然而本方法能够使用该算法最终排除2-甲基-1,3-环己二酮为正确的匹配。
[0146] 该算法在更大的数据集合(34种已知的杀虫剂)的分析中也很好地执行。图11中所示的是所有已知化合物的前10名命中物的匹配评分,其中示出了正确匹配评分和不正确匹配的评分。在进行高分辨率滤波步骤之后,可以看出,许多不正确的评分显著下降,其中最大群体的评分下降至接近0。此结果凸显了该算法在选择错误匹配方面的效用。使用该算法,使用作为分析小分子的工具的GC-MS的分析物将会受益,这是因为人们可以在反馈的谱图匹配中获得大量的置信度而无需任何额外的实验。
[0147] 高分辨率滤波算法的附加应用
[0148] 据预测,该碎片产生算法可以延伸到使用GC-MS确认归属给收集的高分辨率EI谱图的谱图匹配。目前可用的参考库不一定包含用GC-MS能观测到的每一化合物的参考谱图。这种高分辨率滤波的方法可以潜在地扩展到发现数据库中不存在的化合物。在实验谱图不能以高重叠与参考谱图匹配的实例中,用户可以开始搜索可用于注解所有观测到的峰的化学式。这样做的一种方法是使用产生含有完整前体的谱图的化学电离来分析同样的样品。
从这个完整的前体,获得了可匹配回化学式的精确质量测定。
[0149] 化学式匹配的这个过程可以通过将观测到的前体质量与已知化学式的数据库进行比较或通过产生含有某些原子的所有可能的化学式来完成。如果具有匹配精确质量的这些化学式中的一个可被用来解释观测到的谱图中的所有峰,该分子或具有更大的化学式的分子(包含所有原子然后包括一些原子)可以认定为已以高置信度产生了谱图。从那里,用户可以开始导出该分子的分子结构。这样的过程对于促进小分子的基于高通量发现的分析潜在地非常有价值。此外,正如之前所表明的,利用该算法快速注解观测到的谱峰可能对于发现新颖气相重排和断裂途径颇具教益。
[0150] 实施例2:氟草敏的推定识别
[0151] 本发明的一个方面提供了用于改进使用在单位分辨率GC-MS仪器上收集的参考谱图的现有数据库谱图匹配高分辨率GC-MS仪器上收集的EI断裂谱图的新颖策略。这些高分辨EI谱图可以通过四舍五入峰m/z值到最接近的整数来与单位分辨数据库进行匹配。反馈的谱图匹配仍然可能是不明确的,但采用的额外滤波提高了识别率。
[0152] 就高分辨率谱图而言,前N名匹配的化合物被储存,并且对于每个推定识别,原子的所有非重复组合从其分子式产生。这一组组合代表一组可能的碎片。产生每组碎片并过滤掉不可能的分子式后,剩余的碎片在高质量精确度下(即,<20ppm)与高分辨率谱图进行匹配。从此确定了多少百分率的总离子流(TIC)可以被每组化学碎片解释。方法通过反馈最终的“高分辨率滤波评分”(即低分辨点积匹配评分(0-100)和可以被来自特定匹配化合物的碎片解释的测得总离子流的加权百分率的积)而被完全自动化。
[0153] 在图12中示出了该技术,其示出了使用高分辨率滤波来确定推定识别可信性的实施例。使用GC-轨道离子阱质谱仪对氟草敏的已知标准品进行采样。所得EI谱图与大约21000个单位分辨参考谱图(从NIST获得的)的数据库进行匹配,并且两个最好评分的化合物,氟草敏(C12H9ClF3N3O)和5-氨基-3-甲基-1-苯基吡唑(C10H11N3)分别具有76.34和76.11的匹配评分。产生两个化合物的碎片的所有可能的组合和滤波掉任何不具有在+/-10ppm范围内的匹配碎片的任何峰之后,两个谱图保留。对于氟草敏,95.80%的TIC可以用-0.062(σ=3.214ppm)的平均ppm误差进行解释,而对于5-氨基-1-甲基-3-苯基吡唑,仅5.20%的TIC被解释。基于此结果,第二个命中物可以有效地被排除作为候选匹配,这没有准确的质量信息是不能被完成的。
[0154] 实施例3:使用高分辨率滤波区分两个相似的化合物
[0155] 甘氨酸的样品用叔丁基二甲基硅基标签衍生化,并且实验得到的谱图针对NIST12单位分辨EI参考库进行搜索。反馈的前两名单位分辨率谱图匹配为1-丙醇,3-氨基,叔丁基二甲基硅基和甘氨酸-叔丁基二甲基硅基,分别具有72.864和70.329的评分(见图13)。值得注意的是,两个化合物的单位分辨参考谱图包含几乎所有相同的显著特征。利用比较单位分辨参考谱图的标准机制以在该实例中识别EI谱图可能导致错误的识别,这是因为-1-丙醇,3-氨基,叔丁基二甲基硅基具有更高的谱图匹配评分。然而,当如本文所述使用高分辨率滤波方法,我们发现,在利用1-丙醇,3-氨基,叔丁基二甲基硅基的化学式(C15H37NOSi2)在高分辨EI谱图中可以解释仅66.91%的观测到的TIC。
[0156] 相反,98.35%的观测到的TIC可使用甘氨酸-叔丁基二甲基硅基的化学式(C14H33NO2Si2)进行解释。在给所述匹配重新评分以考虑进解释的TIC后,甘氨酸-叔丁基二甲基硅基(其是以前的第二最好评分的谱图匹配)的谱图被移到列表的顶部。该识别被在
5ppm范围内观测相同样品的相应CI运行中的完整前体所证实。
[0157] 实施例4:使用高分辨率滤波区分多个相似的化合物
[0158] 丙二酸酯的样品用叔丁基二甲基硅基标签(二(叔丁基二甲基硅基)丙二酸酯)衍生化,并且实验得到的谱图针对NIST12单位分辨EI参考库进行搜索。前五名最好的评分谱图匹配被反馈(参见图14),其中评分在66.610(2-甲基-1,4-丁二醇、二(叔丁基二甲基硅基)醚)至60.773(二(叔丁基二甲基硅基)丙二酸酯)的范围内。所有参考谱图包含类似的显著特征,基于谱图重叠区别正确的谱图几乎是不可能的。事实上,正确的化合物,二(叔丁基二甲基硅基)丙二酸酯,在五个反馈谱图中具有最低谱图匹配评分。
[0159] 然而,使用高分辨率滤波算法后,二(叔丁基二甲基硅基)丙二酸酯的化学式相较于任何其他化合物解释了更大百分比(99.719%)的谱图中观测到的TIC(参见图14)。在对谱图匹配重新评分以包括该解释的TIC成分之后,正确的谱图匹配移到列表的顶部。在不使用该算法的情况下,几乎不可能从相似评分谱图匹配的列表区分正确的答案。该识别被在5ppm范围内观测相同样品的相应CI运行中的完整前体所证实。
[0160] 还注意到,实验得到的谱图中的几个显著特征可以被来自所有五个最好评分的谱图匹配的化学式的碎片解释。可以被所有谱图匹配解释的最大的特征用化学式C5H15OSi2注解。这讲得通,这是因为每个匹配的化学式包含至少五个碳(C)、十五个氢(H)、一个氧(O)和两个硅(Si)。下一最强峰可以使用最好的五种谱图匹配中的四种的化学式来解释。该碎片用化学式C8H21OSi2注解。在这个实例中,理论上不能产生具有该质量的碎片的唯一母体分子式是双二(三甲基硅基团)甲基酸酯,它在其结构中仅有七个碳原子。最后,在实验得到的二(叔丁基二甲基硅基)丙二酸酯的EI谱图中有显著的特征,其仅能被它的化学式解释。此特征用化学式C11H23O4Si2注解。该峰的质量不能由其他化学式解释是讲得通的,因为二(叔丁基二甲基硅基)丙二酸酯是组中唯一含有四个氧原子的化学式。
[0161] 实施例5:在没有参考谱图情况下的化学式的阐明
[0162] 氯唑灵的已知的标准品被分析并且实验得到的EI谱图针对NIST12单位分辨EI参考库进行搜索。反馈具有高的谱图重叠(84.842)和解释的高(比例)TIC(99.427%)的氯唑灵的参考谱图(参见图15)。这一结果表明,该实验得到的谱图的质量非常高。然后该谱图被用来确定是否可以识别解释实验谱图中所观测到的绝大多数TIC所需的最小化学式。
[0163] 计算对于氯唑灵实验得到EI谱图,能够被NIST12参考数据库中的每个独特的化学式解释的TIC信号的百分率。在图16中示出的是能够被针对其同位素峰质量绘制的每个独特的化学式解释的TIC信号的百分率。值得注意的是,很少的化合物可以解释大百分率(>=90%)的TIC。绘制和识别对应氯唑灵的化学式(C5H5Cl3N2OS)的点。该点对应于可用于解释EI谱图中极大百分率的观测到的TIC的最小分子式。同样绘制的是C5H5Cl3N2OS的超集合(图
17)和子集合(图18),并且我们注意到几乎每个可以解释最大百分率的观测到的TIC的化学式包含原子C5H5Cl3N2OS的基本集合。
[0164] 使用这种方法,已经能够确定,很有可能具有至少C5H5Cl3N2OS的分子产生了观测到的断裂谱图。测定相应的CI运行中的完整前体将有助于证实具有至少该基本集合的原子的分子实际上确实产生了观测到的谱图的假说。阐明化学式的该方法可以潜在地延伸至不具有存在于库中的参考谱图的化合物的基于发现的分析。该方法为用户提供了分子的推测化学式和注解的EI谱图。由此,用户可以开始阐明其分析物的结构。
[0165] 对于二(叔丁基二甲基硅基)丙二酸酯的实验得到的谱图进行了如上所述相同的分析。图19示出了能够被针对其同位素峰质量绘制的每个独特的化学式解释的TIC信号的百分率,并对C15H32O4Si2的超集合和子集合进行了绘制。再次,非常少的化合物能够解释大多数所观察的TIC。图20示出了针对二(叔丁基二甲基硅基)丙二酸酯前5个最佳谱图匹配而解释的TIC的百分率,其中二(叔丁基二甲基硅基)丙二酸酯的化学式(C15H32O4Si2)是最上面的大点。该实施例再次突出了在使用可以被解释为下述度量的观测信号的百分率方面的效用,所述度量对高分辨参考谱图与单位分辨参考谱图的谱图匹配进行评分。
[0166] 实施例6:通过GC/MS改进的小分子识别的精确质量
[0167] 已证明获得通过GC/MS分析的小分子和代谢物的可信的识别是非常具有挑战性的。在本实施例中,我们描述了使用高分辨率滤波通过利用精确质量测定来确定推定识别的可信性的一种组合方法。本方法为传统谱图匹配和保留指数提供了正交信息。此外,它提供了提高的MS分辨率的所有益处,同时延伸了目前可用的扩展单位分辨率GC/MS参考库的效用。
[0168] 气相色谱-质谱(GC/MS)长久以来被认为是用于挥发性小分子定性和量化分析的1-3
首要分析工具之一 。结合所分析分子的保守断裂,高度重现的色谱分离既为靶向的测试也为基于发现的测试提供了该技术。GC/MS已经显示了效用的突出领域之一在于代谢物谱分析4,5。代谢组学正迅速成为系统生物学家和临床研究人员都感兴趣的领域。鉴于代谢组是从基因型至表现型最远的下游,许多人相信代谢物谱分析有揭示生物标记物和/或特征
6,7
性代谢物谱的潜力 。据信,这些特征可以促进疾病和其他病症的早期诊断/预后。此外,代谢物物筛选在临床应用(clinical setting)上是高度期望的,因为它们通常跻身于最小侵入性生物测试。随着该领域持续发展,迫切需要发展在较短时间跨度内实现更深入的分析的先进工具和技术。
[0169] 在传统发现实验中,挥发性分析物在质量分析之前通过GC分离并使用电子电离(EI)电离。EI是“硬”电离技术,并导致分子以特征性的模式成为碎片。含有来自各个分析物(其可以包含或可以不包含完整的分子离子)的碎片的谱图被提取,然后与单位分辨参考谱图数据库进行比较8。具有足够高的谱图相似度的匹配往往被推测为正确的识别。正确地识别在GC/MS实验中观测到的大部分特征已被证明是一项艰巨的挑战9,10。这些特征的大部分保持未被识别不是罕见的。对于那些推测的识别已被归属的化合物,后续的验证常常需要分析者运行纯参考标准品以确证谱图相似度和分析物保留(时间)两者。特别是,如果对于单一化合物存在大量推定识别,则该过程可能是特别费力的。因此,任何可以用来区分候选前体或导向候选前体的辅助信息是非常有价值的。
[0170] 几十年来,单位分辨率GC/MS仪器是标准,并且最大的公开可用的参考库是由这些11,12
系统上获得的谱图构成的 。近年来,高分辨率仪器已经进入市场,但数据分析工具还大部分保持未改变13-16。在保持被利用的可用的精确质量方面有很大的潜力。为了比较,高分辨质谱仪的引入标志着基于LC-MS/MS的蛋白质组学的转型。预测的肽断裂的性质在这里是有利的。许多开发的肽谱图匹配算法容易被调适以减少允许的质量公差并实现搜索空间伴随的减少和前体/产物离子匹配特异性的提高。相反,小分子断裂模式可预测性要小得多。
已证明计算机模拟的理论EI谱的产生是非常具有挑战性的,并且迄今为止,尝试此任务的算法仅显示了适度成功17-19。作为替代的方法,本实施例的方法着眼于目前到位的扩展EI参考数据库。这里可用的质量精确度的差异排除了直接比较测定的精确质量与它们的参考对应物的能力。然而,这些参考谱图关于断裂谱和强度模式信息丰富。此外,使用新仪器重新创建这些库至少在不久的将来将是过于昂贵的。我们纠正为我们仍然可以利用这些库识别候选前体,而同时利用可用的质量精确度。
[0171] 在本实施例中,我们描述了一种用于利用精确质量信息提高小分子识别的特异性的新颖方法。所述高分辨率滤波(HRF)方法利用通过计算GC-MS谱图中能够用源于推测前体的精确化学式注解的信号的百分率来测定归属识别的可信性)的组合过程。这一策略的一个实施方式使用与单位分辨参考库的传统谱图匹配收集候选识别。通过在测定的断裂谱和精确质量两者的基础上实现区分前体,该方法有效地提供了两者的长处。可替代模式依赖于可用于确定推测识别的健全性的用户指定的化学式。当没有合适的参考谱图时,这对于用户分析新颖化合物是一种方便的替代方法。本文所描述的方法使GC/MS的用户能够利用精确质量测定并能够解与由谱图匹配所提供的信息正交的额外维度的信息。
[0172] 在HRF策略后面的潜在方面是,衍生于特定母体的每一碎片包含来自所述前体的原子的子集合。我们主张,纯高分辨率GC/MS谱图中的每一峰可以使用来自真实母体的原子的组合来进行注解。在给定高分辨率GC/MS谱图和推定识别的情况下,来自归属的化学式的原子的所有非重复组合被产生,然后使用精确质量与峰进行匹配。至于什么化学式能存在,什么化学式不能存在,没有进行粗略估算。虽然一些产生的组合是化学上不可能的,但是该列表本身包含了可能被观测到的碎片的所有化学式。这里我们证明,目前的实施是可行的,并且对于正确的母体归属是有高度特异性的。
[0173] 使用收集自覆盖许多类小分子(代谢物、杀虫剂、滥用药物等)的105个纯参考标准品的高分辨GC-轨道离子阱谱图的数据集合,我们测试了本方法。使用设计成将那些源于单一前体的碎片分组到一起的内部解卷积算法而从原始数据文件中提取各个谱图。提取的谱图被提交进行与NIST 12EI数据库(约213000个谱图)全部内容的谱图匹配。计算了测定与每个比较的参考谱图的谱图相似度的加权点积并且反馈了最佳评分匹配(图21A至图21D)。仅考虑正确的命中,对于提交的105个谱图,达到了具有9.587的标准公差的81.889的中位数谱图匹配评分。继谱图匹配之后,所有反馈的匹配经受我们的HRF方法。使用与反馈的谱图匹配相关的化学式,反馈了能够使用来自每个的子分子式的精确质量注解的信号的百分率(图21E至图21F)。再次仅考虑正确的命中,我们报道了具有1.022的标准公差的99.700的中位数HRF评分(图22A和图29(补充表1))。
[0174] 图29(补充表1)提供了包括原始文件名称、保留时间、HRF评分、谱图匹配评分、峰数目以及如所报道的参考谱图名称的所有分析的参考化合物的结果。
[0175] 这些有前景的结果表明,本发明的这一方面的方法高度地表示可行的化学组合物已被推断出来。但是,其提出了关于类似的结果是否能从随机的化学式中获得的问题。为了测试方法的特异性,数据集合中所有的谱图使用来自NIST数据库的60560个独特的分子式经受HRF过程。示出了来自三甲基硅基衍生的β-谷甾醇(C32H58OSi)的谱图的代表性结果(图22B)。我们注意到真正的母体是能够产生最大HRF评分的最小的分子式。所注解的子集合缺乏达到类似高评分的原子的合适组合。正如所预期,C32H58OSi的所有超集合产生类似的高评分。这是预期的因为来自真正母体的所有子分子式也将被包含于由这些超集合前体产生的子分子式集合中。我们注意到,在某些情况下,不是真正的超集合、但与正确的母体共享大百分率的原子的非常大的分子式也可以产生高的评分(图30(补充表2))。
[0176] 图30(补充表2)示出了总的HRF分析。这里示出的是当针对60560个独特化学式计算105个数据集合谱图的分数时反馈的HRF结果的总结。化合物以同位素质量升序排列。产生小于、或大于、或等于真正母体的HRF评分的分子式的原始数目被显示于以HRF<母体评分和HRF>=母体评分标记的列中。使用产生HRF评分>=真正母体HRF评分的分子式池,确定了正确和错误的超集合的数目。超集合是还包含真正的母体集合中的所有原子的分子式。非超集合是那些不符合此条件的分子式。对于那些非超集合,计算了与真正的母体共享的原子的平均百分率,连同由所讨论的分子式拥有的额外原子的平均和中位数目。我们发现,这些能够达到和真正母体同样高的HRF评分的非超集合通常与正确的前体共享大百分率的原子(93.574%),并且平均包含相当数量的额外原子(19.506)。
[0177] 为了提供方法的特异性的全局视图,我们示出了数据集合中的所有105个谱图的累积分布,连同来自所有反馈的HRF评分的组合的代表性分配(图22C和图26)。这种分析的近似是所有考虑的分子式具有被选定为所获得谱图的推定母体的平等机会。可能不是这种情况,并且在来自谱图匹配或分析者保有的先验信息的候选母体选择方面将会有差异。但是,基于此代表性分布,我们将会预计平均大约86.9%的考虑的分子式将反馈HRF评分≤90,并且仅有3.560%的分子式将产生大于等于计算的HRF评分中位数(99.700)的评分。对于一些实施方式,方法的特异性可能依赖于所讨论的分析物的复杂性。元素复杂性和原子数目的增加将通常导致更少的数目的前体可以成功被注解的谱图。
[0178] 本实施例还测试了当应用于在次优条件下收集的谱图时该算法的表现。作为概念验证,十二种药物以八种浓度(10ng/μL至约78pg/μL)加入到人体尿液中,并在GC/MS分析之前提取(图23A)。我们报道了这十二种药物中九种药物的结果。色谱分辨率不足以成功地分离苯海拉明和氯胺酮,并且咖啡因的高背景水平降低了通过一系列浓度分析化合物的能力。因此,没有进行进一步的分析。
[0179] 对在复杂背景基质中的化合物的分析给谱图解卷积提供了额外的挑战(图23B)。在这个过程中使用保守标准降低了不合逻辑的碎片包含于所提取的谱图的可能性,但也可能导致真正的碎片被排除。报道的所有化合物产生了具有10+个峰的谱图和在前40名反馈的命中之中真正母体的谱图匹配。示出了相关的谱图匹配和HRF评分(图23C、图24A至图24I和图31(补充表3))。我们注意到,谱图匹配评分随着降低分析物丰度而降低。这是符合乎逻辑的,因为在降低的浓度下的低丰度峰的损失将消极地贡献于谱图匹配评分。我们也注意到,对于所有观测到的谱图,相关的HRF评分仍然保持为高(92+)。这表明质量精确度是高度保守的,并且在降低的S/N的时该HRF度量是强健的。
[0180] 图31(补充表3)提供了加入药物数据集合中的所有提取谱图的相关的谱图匹配评分、HRF评分以及峰数目。考虑的所有谱图包含至少10个峰。
[0181] 在分析含有减少数量的峰谱图时还评价了方法的特异性。为了充分质询这种可能性,使用每种分析药物的两个谱图(一个对应于浓度最高的数据点,另一个对应于浓度最低的数据点),从NIST(0-500Da)中的55290个独特的分子式计算了HRF评分(图23D和25A至图25B)。两组谱图之间的平均峰值数目(96对比23)显著降低。然而,累积分布显示在HRF方法的功效方面没有显著的差异。似乎存在于这些峰贫谱图中的精确质量信息足以区分前体。
这些数据表明,所提出的方法即使当应用于在减少的浓度下收集的谱图也能够很好地起作用。
[0182] 这里,我们描述了一种用于为高分辨率GC/MS的用户提供进一步提高小分子识别的置信度的补充信息的方法。所述方法可以结合传统谱图匹配使用,并有效地延伸目前可用的单位分辨参考库的效用。此外,该方法提供的信息与传统谱图匹配和保留指数完全正交。事实上,当没有合适的参考谱图时,它是用户分析新颖化合物的唯一一条可用的信息。HRF方法促进了谱图的快速注解,可以延伸至LC-MS/MS应用,并且可以证明有助于对于迄今在小分子分析中已经基本是难以逃避的自动错误发现率计算。20
[0183] 方法
[0184] 材料和试剂。除非另有说明,所有标准参考材料购自Sigma-Aldrich公司(圣路易斯,密苏里州),除了分析的37种杀虫剂参考标准品,它们包含在《有机氮农药混用1号-EPA方法525.2》并购自Restek公司(贝尔丰特,宾夕法尼亚州)。甲醇、乙酸乙酯、丙酮、己烷、二氯甲烷和异丙醇试剂也购自Sigma-Aldrich公司。带有1%三甲基氯硅烷衍生化试剂的N-甲基-N-三甲基硅基三氟乙酰胺(MSTFA+1%TMCS)购自Pierce生物技术公司(罗克福德,伊利诺伊州)。压缩气体(甲烷、氦和氮)为超高纯度等级,并购自Airgas公司(麦迪逊,威斯康星州)。200mg清洁扫描 (Clean )提取柱购自联合化学技术公司(布里斯托尔,宾夕法尼亚州)。
[0185] 样品制备和GC/MS获取。GC/MS分析是在装备有GC PAL自动进样器(CTC分析公司,茨温根,瑞士)的痕量GC超(Trace GC Ultra)气相色谱(Thermo Fisher科学公司,米兰,意大利)上进行的。化合物是在带有氦气载气的20m x 0.18mm(i.d.)x 0.18μm(df)交联键合5%二苯基/95%二甲基聚硅氧烷柱(Restek公司的RXI-5Sil质谱,贝尔丰特,宾夕法尼亚州)上被分离的。气相色谱通过加热的输送管线连接到Q-Exactive仪(Thermo Fisher科学公司,不来梅,德国)。利用自动增益控制(AGC)的所有质谱实验21-23和所有数据是在线型模式下获取的。
[0186] 尿液药物测试。首先以1mg/mL的甲醇制备分析的所有药物的储备溶液。报道的所有药物被组合,并稀释(再次在甲醇中)至合适的浓度。当不使用时,储备溶液保持在4℃。对于每个梯度数据点,在使用200mg清洁筛选(Clean Screen)提取柱提取之前,100μL的药物混合物被加入到原始尿液中。根据制造商的方案,提取酸性和性药物/代谢物部分。24这些部分随后在氮气下干燥,在50μL的乙酸乙酯中重构,然后重新组合。对于每个浓度数据点,1μL等分试样(aliquot)被注入(不分流进样),并在1.2mL/min He(氦气)流速下分离。使用以下的GC梯度:在60℃下恒温2.5分钟;以40℃/分钟升至210℃;以5℃/分钟升至267℃;以40℃/分钟升至310℃;然后在310℃下恒温6.2分钟。质谱传输管线和源温度分别保持在280℃和200℃。50至500m/z的质量范围是使用30000(m/Δm)的分辨率分析的、相对于200m/z的质量。AGC目标设定为1e6,并且使用了电子电离(70eV)。在获取这些数据的过程中,使用了锁定质谱校准。在计算必要的质量修正中发生了意料之外的错误,并且在这些实验中获得的许多扫描默认为极端值(约25ppm)。质量精确度上大的扭曲很大程度上抑制了所述HRF方法。因此,在数据处理期间,通过移除如每个扫描标题中所报道的应用的质量修正,每个谱图被恢复到其自然状态。随后的分析没有采用该锁定质量校正,从而质量精确度没有受到影响。
[0187] 杀虫剂分析。含有37EPA 525.2杀虫剂的混合物在丙酮中从500μg/mL稀释至3ng/μL的工作浓度。1μL等分试样使用1:10的分流在275℃的温度下被注射,并在1.2mL/min He(氦气)流速下分离。使用以下的GC烘箱梯度:在100℃下恒温1分钟;以8℃/分钟升至320℃;并且在320℃下恒温3分钟。传输管线和源温度分别保持在275℃和225℃。在每个质谱扫描中,50至650m/z的质量范围使用17500(m/Δm)的分辨率相对于200m/z被分析。在1e6的AGC的目标下允许100ms的最大注射时间。使用在70eV下的电子电离(EI)。
[0188] 额外的参考标准品分析。所有其他报道的标准品的储备溶液在适当的溶剂中以1mg/mL的浓度被单独制备。含有大约5至10个参考标准品的混合物通过组合每个标准品的
20μL等分试样来进行制备,而并不使用具体的组织方案。这些混合物在氮气下干燥,在100μL MSTFA+1%TMCS的衍生化试剂中重新悬浮、加盖、在涡旋振荡器上振荡混匀、并在60℃下加热15分钟。然后在各混合物被转移到自动进样器小瓶之前,100μL乙酸乙酯加入到各混合物中。如《尿液药物测试》中所描述的同样的GC烘箱梯度和质谱参数在这里也被使用。
[0189] 谱图解卷积。在数据收集之后,原始EI-GC/MS谱图数据被解卷积为“特征”,然后分组为仅含有源于单一母体的产物离子的各个谱图。这一步是至关重要的,因为谱图中包含外来的碎片离子可以降低该算法利用被母体的原子组限制的精确化学式来注解所有观测到的峰的能力。对原始数据文件中的每一峰进行了考虑。在至少五次连续扫描中观测到的、具有在彼此+/-10ppm范围内m/z值的峰被一起分组为到一起,作为数据特征。在峰聚集为特征后,为每个特征创建平滑的强度线型。通过要求每个特征表现出“峰状”形状,从噪音产生的不合逻辑的特征(部分)从考虑中被排除。所有特征需要上升到具有所包括的第一个和最后一个峰的强度的至少两倍强度的顶点。从产生自对紧邻洗脱的前体而言是普通碎片的任何特征在显著局部最小值处被分裂为单独特征。在大约相同的时间达到达洗脱顶点的特征被分组在一起。基于顶点强度,特征首先被分类。以最强的碎片开始,创建了顶点周围的离散时间窗口。然后将具有这个窗口内的顶点的所有特征)分组在一起。这个窗口的宽度被设置为包括具有≥顶点峰强度96%的强度的所有峰。考虑到复杂的背景,更保守的标准被用于尿液药物加入实验中的谱图的提取。这里,时间窗口被设置为包括具有≥顶点峰强度99%的强度的峰。在特征分组后,为每个组创建新的谱图,并且该谱图用代表组中的每个特征峰填充。峰m/z值和强度值分别被设置为等于相应的特征中的所有峰的强度加权m/z平均值和在顶点处的强度。
[0190] 通过谱图匹配的小分子识别。对于所分析的小分子的化合物识别通过将解卷积高分辨率谱图与存在于NIST 12 MS/EI库的单位分辨参考谱图进行比较而被归属。通过NIST MS搜索2.0程序,库中的所有212961个单位分辨参考谱图被提取为.JDX文件,并被转换为适合于与获取的GC-轨道离子阱谱图进行匹配的格式。通过结合落入相同的标称质量范围内的峰的强度,创建每个高分辨率谱图的伪单位分辨副本。标称质量值被报道为峰值m/z,并且所有强度值相对于谱图的基峰(设置为999)被归一化。为计算实验谱图和参考谱图之间的相似度,使用了加权点积计算。首先,谱图中的所有峰使用以下文献中报道的归一化因子定比例(scale):25
[0191] m/z归一化的=m/z测定的×1.3
[0192] 强度归一化的=强度测定的0.53
[0193] 相同的归一化被应用于所有参考谱图。以下点积等式被用来测定谱图相似度:
[0194]
[0195] 虽然简单,但是这种方法对于检索具有类似于实验得到的谱图的断裂模式的候选化合物是完全胜任的。为尽可能多地增加搜索空间,所有参考谱图与运行时间期间获得的GC-轨道离子阱谱图的每个单位分辨副本进行匹配。报道的所有化合物利用NIST数据库中的参考谱图产生了可信的谱图匹配。一些分析的化合物不产生可信谱图匹配,这是由于数据库中缺乏参考谱图,或者是由于所讨论的化合物没有反馈在前40名命中物中的正确匹配。
[0196] 理论碎片产生。每个候选化合物的一组理论碎片是通过从包含于母体化学式的集合产生的原子的所有非重复组合而产生的。每个原子的丰度最高的同位素被使用,除了溴和氯。79Br和81Br分别具有0.5069和0.4931的天然同位素丰度。类似地,35Cl和37Cl具有0.7576和0.2424的天然同位素丰度。对于含有溴或者氯的每个碎片,产生额外的变体,其中较重的同位素被交换为其较轻的对应物。对于那些含有多个溴和/或氯原子的碎片,此过程以组合的方式被重复。对于含有集合{12C,32S,28Si}中原子的那些候选物,在碎片/峰匹配过程中基于具体问题具体处理而进行额外的同位素碎片的产生。
[0197] 碎片/峰匹配。假定EI-GC/MS谱图中所有碎片峰都是自由基阳离子。因此,电子的质量从候选物集合中的每个碎片的单一同位素质量减去。以GC-轨道离子阱谱图中最小的峰开始,发现落入以峰的测定m/z为中心的+/-10ppm的公差范围内的碎片。如果没有碎片存在于该范围内,算法移动到下一最大峰并重复该过程。如果在该范围内发现单个碎片,含有取代的3C、33S、34S、29Si或30Si原子的同位素变体在合适的情况下被产生,并被添加到候选碎片的列表中。如果在允许的公差范围内发现多个碎片,则独立地评价每个碎片,以确定多少额外的峰/信号可以被匹配。导致最大数量的额外匹配信号的碎片被假定为是正确的,并且取代的同位素碎片被加入到候选碎片列表中。储存了具有匹配碎片的所有峰。在考虑所有峰都之后,反馈了通过如下公式计算的与碎片匹配的总离子流:
[0198] ∑(mz×强度)注解的/∑(mz×强度)观测的。
[0199] 该评分计算被认为是合适的,这是因为它为更大的离子赋予了额外的权重,与更小质量的离子相比,这些更大的离子本身对于给定的前体是更有特征性的。从概念上讲,相较于能在200m/z产生碎片的分子,所存在的理论上能在300m/z产生碎片的分子更少。
[0200] 参考文献
[0201] 1.Westerhoff,P.&Yoon,Y.Fate of endocrine-disruptor,pharmaceutical,and personal care product chemicals during simulated drinking water treatment processes.Environ.Sci.Technol.39,6649–6663(2005).
[0202] 2.Tareke,E.&Rydberg,P.Analysis of acrylamide,a carcinogen formed in heated foodstuffs.J.Agric.Food Chem.4998–5006(2002).at
[0203] 3.Kataoka,H.,Lord,H.L.&Pawliszyn,J.Applications of solid-phase microextraction in food analysis.J.Chromatogr.A 880,35–62(2000).
[0204] 4.Yang,C.et al.Comprehensive mass spectrometric mapping of the hydroxylated amino acid residues of theα1(V)collagen chain.J.Biol.Chem.287,
40598–610(2012).
[0205] 5.Fiehn,O.,Kopka,J.& P.Metabolite profiling for plant functional genomics.Nat.Biotechnol.1157–1161(2000).
[0206] 6.Goodacre,R.,Vaidyanathan,S.,Dunn,W.B.,Harrigan,G.G.&Kell,D.B.Metabolomics by numbers:acquiring and understanding global metabolite data.Trends Biotechnol.22,245–52(2004).
[0207] 7.Allen,J.et al.High-throughput classification of yeast mutants for functional genomics using metabolic footprinting.Nat.Biotechnol.21,692–6(2003).
[0208] 8.Stein,S.An integrated method for spectrum extraction and compound identification from gas chromatography/mass spectrometry data.J.Am.Soc.Mass Spectrom.0305,(1999).
[0209] 9.Fiehn,O.Extending the breadth of metabolite profiling by gas chromatography coupled to mass spectrometry.Trends Analyt.Chem.27,261–269(2008).
[0210] 10.Fiehn,O.,Kopka,J.,Trethewey,R.N.&Willmitzer,L.Identification of Uncommon Plant Metabolites Based on Calculation of Elemental Compositions Using Gas Chromatography and Quadrupole Mass Spectrometry.Anal.Chem.72,3573–3580(2000).
[0211] 11.NIST Mass Spectral Library.(2012).
[0212] 12.Wiley Registry of Mass Spectral Data.(2010).
[0213] 13.Lewis,S.,Kenyon,C.N.,Meili,J.&Burlingame,a.L.High resolution gas chromatographic/real-time high resolution mass spectrometric identification of organic acids in human urine.Anal.Chem.51,1275–1285(1979).
[0214] 14.Peterson,A.C.,Balloon,A.J.,Westphall,M.S.&Coon,J.J.Development of a GC/Quadrupole-Orbitrap mass spectrometer,part II:new approaches for discovery metabolomics.Anal.Chem.86,10044–51(2014).
[0215] 15.Peterson,A.C.et al.Development of a GC/Quadrupole-Orbitrap mass spectrometer,part I:design and characterization.Anal.Chem.86,10036–43(2014).[0216] 16.Peterson,A.C.,McAlister,G.C.,Quarmby,S.T.,Griep-Raming,J.&Coon,J.J.Development and characterization of a GC-enabled QLT-Orbitrap for high-resolution and high-mass accuracy GC/MS.Anal.Chem.82,8618–28(2010).
[0217] 17.Wolf,S.,Schmidt,S.,Müller-Hannemann,M.&Neumann,S.In silico fragmentation for computer assisted identification of metabolite mass 
spectra.BMC Bioinformatics 11,148(2010).
[0218] 18.Hill,D.W.,Kertesz,T.M.,Fontaine,D.,Friedman,R.&Grant,D.F.Mass spectral metabonomics beyond elemental formula:chemical database querying by matching experimental with computational fragmentation spectra.Anal.Chem.80,5574–82(2008).
[0219] 19.Kerber,A.,Laue,R.,Meringer,M.&Varmuza,K.MOLGEN-MS:Evaluation of low resolution electron impact mass spectra with MS classification and exhaustive structure generation.Adv.Mass Spectrom 15,939–940(2001).
[0220] 20.Matsuda,F.et al.Assessment of metabolome annotation quality:a method for evaluating the false discovery rate of elemental composition searches.PLoS One 4,e7490(2009).
[0221] 21.Michalski,A.et al.Mass spectrometry-based proteomics using Q Exactive,a  high-performance  benchtop  quadrupole  Orbitrap  mass spectrometer.Mol.Cell.Proteomics 10,M111.011015(2011).
[0222] 22.Olsen,J.V et al.A dual  pressure linear ion trap Orbitrap instrument with very high sequencing speed.Mol.Cell.Proteomics 8,2759–69(2009).
[0223] 23.Second,T.P.et al.Dual-pressure linear ion trap mass spectrometer improving the analysis of complex protein mixtures.Anal.Chem.81,7757–65(2009).
[0224] 24.Solid Phase Extraction Applications Manual.42–44(2008).at
[0225] 25.Kim,S.,Koo,I.,Wei,X.&Zhang,X.A method of finding optimal weight factors  for  compound  identification  in gas chromatography-mass spectrometry.Bioinformatics 28,1158–63(2012).
[0226] 关于通过引用的结合与变体的声明
[0227] 贯穿本申请引用的所有参考文献,例如包括颁发的或授权的专利或等同物的专利文件;专利申请公开;和非专利文献文件或其他来源的材料通过引用他们的全部内容被到结合到本文中,就好像通过引用而单独并入,所引用的程度为每个参考至少部分不与本申请中的公开内容不一致(例如除了参考不一致的部分,部分不一致的参考通过引用而被结合)。
[0228] 本文已使用的术语和表达被用作描述而非限制的术语,并且不旨在使用这样的术语和表达来排除所示出和描述的特征的任何等同物或其部分,但认识到在所要求的本发明的范围内的各种修改是可能的。因此,应该理解尽管本发明通过优选实施方式具体公开了,但是示例性实施方式和可选的特征、修改和本文所公开的构思的变体可以被本领域技术人员采取,并且这样的修改和变体被认为是在如所附的权利要求所限定的本发明的范围之内。本文提供的具体实施方式是本发明的有用的实施方式的实施例,并且对本领域技术人员来说显而易见的是可以使用大量本发明中阐述的设备、设备部件、方法步骤的变体来进行本发明。正如对本技术领域技术人员将是显而易见的,对于本方法有用的方法和装置可包括大量可选组合物和处理元件及步骤。
[0229] 当本文公开一组取代基时,应该理解单独地公开了该组的所有各个成员和所有子组,包括组成员的任何异构体、对映异构体以及非对映异构体。当在本文使用库什组或其他分组时,本公开旨在单独地包括该组所有各个成员以及该组所有可能的组合和子组合。当在本文中在例如在分子式或化学名称中未指明该化合物的特别异构体、对映异构体或非对映异构体,的情况下描述化合物时,该描述旨在包括单独地或以任何组合的方式描述的化合物的每个异构体和对映异构体。此外,除非另有规定,本文所公开的化合物的所有同位素变体旨在被本公开所包含。例如,应当理解,在所公开的分子中的任何一个或多个氢可以用氘或氚取代。分子的同位素变体在对于分子测试中和在与分子或其应用相关的化学和生物研究中广泛地被用作标准品。用于制造这种同位素变体的方法在本领域中是公知的。化合物的具体名称旨在是示例性的,因为公知的是本领域普通技术人员可以以不同的方式命名相同的化合物。
[0230] 必须注意,如本文和所附权利要求书中所使用的,单数形式“一个”,“一种”,和“该”包括复数指代,除非上下文另有明确说明。因此,例如,提及“细胞”包括本领域技术人员所公知的多个这样的细胞及其等同物,等等。同样,术语“一个”(或“一种”),“一个或多个”和“至少一个”在本文中可以互换使用。还应当注意的是,术语“包括”,“包含”,和“具有”可以互换使用。表达“权利要求XX-YY中的任意的”(其中XX和YY指的是权利要求的编号)旨在以择一的形式提供在多项从属权利要求,并且在一些实施方式中与表达“如权利要求XX-YY中的任一项”是可互换的。
[0231] 除非另有定义,本文使用的所有技术和科学术语具有本发明所属的本领域普通技术人员通常所理解的含义。虽然类似于或等同于本文所描述的任何方法和材料可以在实践中使用或可用于测试本发明,现描述了优选的方法和材料。本文任何事物均不被解释为承认本发明无权借助在先发明早于这样的公开。
[0232] 本文所描述的或举例说明的成分的每种制剂或组合可用于实践本发明,除非另有说明。
[0233] 每当在说明书中给定一范围,例如,温度范围、时间范围或成分或浓度范围,所有包含于给定的范围中的所有中间范围和子范围及所有单个值意在包括在本公开中。如本文所所用的,范围具体包括作为范围的端点值所提供的值。例如,1至100的范围具体包括端点值1和100。应该理解,包含于本文描述中的范围或子范围中的任何子范围或各个数值可以被本文的权利要求排除。
[0234] 如本文所使用的,“包括”与“包含”、“含有”或“特征在于”是同义的,并且是包含性的或开放式的,并且不排除另外的、未陈述的要素或方法步骤。如本文中所使用的,“由......组成”排除任何在权利要求的要素中未指明的要素、步骤或成分。如本文所使用的,“基本上由......组成”不排除不实质上影响权利要求的基本性质和和新颖性的材料或步骤。在本文的每一种情况下,任何术语“包括”、“基本上由......组成”和“由......组成”可以用其他两个术语替换。本文举例描述的本发明在缺少本发明未具体公开的任何一种或多种元素、一种或多种限制的情况下可能被适当地实施。
[0235] 本领域普通技术人员将理解,除了具体例举的那些,在实践本发明中还可以采用起始原料、生物材料、试剂、合成方法、纯化方法、分析方法、测定方法以及生物方法,而无需采取过度的实验。本发明旨在包括所有本领域公知的任何这样的材料和方法的功能等同物。已采用的术语和表达被用作描述的术语而非限制,并且不旨在使用这样的术语和表达来排除所示出和描述的特征的任何等同物或其部分,但认识到,在所要求的本发明的范围内的各种修改是可能的。因此,应当理解,虽然本发明已通过优选实施方式和可选特征具体公开,但是本文所公开的构思的修改和变体可以被本领域技术人员采取,并且这样的修改和变体被认为是在如所附的权利要求所限定的本发明的范围之内。
相关专利内容
标题 发布/更新时间 阅读量
离子阱质谱仪 2020-05-14 182
离子阱 2020-05-11 180
虚拟离子阱 2020-05-12 471
在离子阱中分离离子 2020-05-15 345
二维四极离子阱 2020-05-13 693
高产出的四极离子阱 2020-05-16 760
离子阱和在离子阱中解离离子的方法 2020-05-15 678
二维四极离子阱 2020-05-14 621
直流离子阱 2020-05-12 36
线性离子阱结构 2020-05-14 371
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈