[0148] 当在PTR反应期间应用离子停车技术时,则电荷减少过程基本上停止在电荷态z1,其对应于由施加的AC波形谐振激发的离子的特定质荷比(例如,mp/z1)。从具有初始电荷态z的分子物质M导出以使得z>z1的那些前驱体阳离子将失去质子,直到其电荷态减少到z1,在此之后将禁止进一步反应和质子损失。从具有初始电荷状态z以使得z
[0149] 返回到图3C中概括的方法380的论述,应注意方法380的步骤302-310相同于方法300(图3A)的类似编号的步骤且此处不再描述。随后,在步骤328中,前驱体离子经受PTR,任选地由离子停车技术改质。如前文所述,通过跨离子阱的一对电极施加补充AC激发波形而执行步骤328,样本导出的阳离子在所述离子阱内与反应剂阴离子反应达预定时间段。如上文所描述,此“离子停车”程序的采用将使从任何特定蛋白质或多肽导出的离子的分布集中于m/z值的特定受限范围中。这将一般将从任何特定蛋白质或多肽导出的离子限制到特定电荷态中,从而简化所得质谱且增加对应于特定蛋白质或多肽的任何质谱峰的强度。离子受限于其中的m/z值的特定范围可包括从不同相应分子物质导出的不同相应电荷态的离子。在一些实施例中,用以实现离子停车的所施加AC波形可包括不同相应频率的波形的求和,以使得所求和波形致使PTR反应产生对应于两个或更多个非邻接m/z范围的PTR产物离子的最终群体。
[0150] 在后续步骤330中,通过质量分析器对在步骤328中产生的PTR产物离子的群体进行质量分析,并且在步骤331中,可对在质量分析中产生的数据执行自动计算以便自动识别所述数据中可表示的任何电荷态序列,其中每一此类电荷态序列对应于不同潜在蛋白质或多肽分析物。在步骤330的质量分析之前,可存储PTR产物离子的一部分(步骤329)以准备用于可能的后续PTR反应。取决于电荷态序列的自动识别(步骤331)的结果,可做出使PTR产物离子经受此进一步PTR反应的自动决策,如由图3C中所示的虚线任选路径指示。所述决策也可以基于电荷态序列的自动识别的结果而做出以仅使PTR产物离子的选定子集经受后续PTR反应。在此些情况下,执行步骤327。因此,根据一些实施例,步骤327-331可包括迭代循环,其中在循环的每一迭代,选择且隔离对应于不同相应蛋白质或多肽的不同相应离子物质以用于通过PTR过程的进一步纯化。可根据本文档的附录中描述的新颖的“最高P个唯一分析物特定群集”工作流在步骤331中确定以此方式选择的离子物质。
[0151] 如果在步骤330中采用的质量分析器是检测通过离子阱或其它离子存储装置内的循环离子运动产生的镜像电流的类型,例如FT-ICR质量分析器或OrbitrapTM质量分析器,那么PTR反应步骤可有利地减少目标蛋白质或多肽分子的碰撞分布以使得这些分子在阱中保持稳定达足够时间长度以产生高质量质谱。在足够数目的PTR反应步骤之后,接着可通过匹配于已知分子质量的数据库而快速辨别蛋白质或多肽的化学身份(在步骤402c中)。少量(3到10种)蛋白质的识别将一般足以唯一地识别微生物物质(任选的步骤404c)。识别也可经由如先前所论述使用应用于PTR数据的分类器而实现,其包含(但不限于)贝叶斯、逻辑回归或基于决策树的方法。
[0152] 图3D到3E以流程图形式说明根据本发明教示的另一方法方法390。方法390的步骤302-331在图3D中所示且相同于方法380(图3C)的先前论述类似编号的步骤,因此,此处不再描述这些步骤。并非从步骤330直接前进到识别步骤402d(如图3C的方法380中),方法390(图3D到3E)的执行从步骤330前进到质量选择和隔离步骤332。在步骤332中,根据选定m/z比隔离通过PTR程序的一或多次应用而产生的PTR产物离子的子集。关于在此步骤期间将隔离的特定m/z比的决策可基于在步骤330中获得的质谱结果或者相对于任选的后续质量隔离和分段(参见图3E的任选重复分支)基于片段离子本身的质量分析的结果(步骤338)而自动执行。在图3E中说明的步骤332-338表示可迭代(参见任选的重复分支)以便产生多代分段产物离子的离子分段程序。这些步骤332-338类似于图3B中说明的方法370的步骤318-
322且因此不详细论述。
[0153] 在分段和质量分析步骤的执行之后,执行方法390(图3E)的肽识别步骤402d。方法300(图3A)的识别步骤402a仅利用包括质子化或多质子化分析物分子的离子物质的m/z比(或分子量),而方法390的识别步骤402d还考虑了这些离子物质的片段(可能多代)的m/z比。因此,在蛋白质或多肽的复杂混合物的情况下,较大置信度可与使用方法390进行的识别的结果相关联。根据一些实施例通过如上所述利用实时数据解卷积可实时执行对实验的控制。在步骤402d中对少量(3到10个)蛋白质物质的识别将一般足以在步骤404d中唯一地识别微生物物质。
[0154] 图3F以流程图形式概略地说明根据本发明教示的另一方法方法395。方法395(图3F)中的大多数步骤类似于方法370(图3B)中类似地编号的步骤且不再详细地描述这些步骤。类似于方法370,方法395包含使原始前驱体离子经受PTR电荷减少的步骤(步骤312),随后是隔离选定PTR产物离子物质且使隔离的离子物质经受分段以便形成片段产物离子物质的步骤(步骤318和320)。方法395通过提供使片段离子经受PTR电荷减少的额外步骤步骤
340而不同于方法370。由于从原始前驱体离子产生的各种PTR产物离子物质可为多电荷的且可以各种程度的质子化在物质当中分布,因此由其形成的片段离子本身可在多个质子化状态当中分布。在步骤340中碎片离子物质的PTR电荷减少可在步骤341中的其质量分析之前简化片段离子的电荷态分布。任选地,PTR步骤(步骤312和步骤340)中的任一者可采用离子停车。从步骤341返回至步骤318的任选重复以便重复步骤318-341可出于以下目的而执行:基于在步骤316中先前执行的电荷态序列的自动识别而挑选PTR反应产物的第二不同离子物质(在步骤312中产生且可能存储)以用于分段。如先前相对于方法370(图3B)论述,所述第二不同离子物质可属于第二电荷态包络的线的集合,所述第二电荷态包络不同于先前隔离且分段的离子物质属于的电荷态包络(还参见图12C)。附录中描述的新颖的“最高P个唯一分析物特定群集”工作流具体地说适于辨识对应于不同相应潜在分析物分子的此类群集。以此方式,在包括方法395的步骤318-341的任选循环的每一迭代期间获得关于不同潜在分析物的片段信息。
[0155] 实例A
[0156] 图4A和4B提供由单个PTR反应步骤提供的质谱信号增强的实例(例如,如图3A中所示的方法300中)。在第一应用(图4A,4B)中,经由直接输注分析来自病原体大肠杆菌的提取物,图4A中示出第一代电喷射产生的离子的质谱。正如期望,存在以各种m/z值重叠的许多蛋白质,导致近似m/z=780与m/z=1420之间存在宽谱区域,其内检测到许多离子但在可辨别的蛋白质电荷态分布方面只有极少的可用信息。接着,具有宽度2Th且以m/z=750为中心的第一代离子的m/z“窗口”被隔离,且所得隔离的离子群体经受PTR反应。图4A中所示的m/z位置412a指示隔离窗口的中心位置。
[0157] 图4B展示大肠杆菌提取物的前驱体离子的PTR反应产物的质谱。实行PTR反应,其中在递送到如图2中所说明的相同一般配置的质谱仪的离子光学元件内含有的辉光放电反应剂离子源的氮气流中从3ppm的六氟化硫(SF6)导出的反应剂阴离子。如同大多数PTR产物离子光谱,图4B中所示的质谱在原始第一代离子隔离窗口的位置(如位置412b指示)处展现相对强烈的隔离峰。在隔离窗口的位置处的这些峰一般指示在隔离的位置处偶然发生的残余单电荷第一代离子(一般不关注)的存在。图4B的谱中的其它峰表示从PTR反应产生的产物离子。这些产物离子一般包括相关离子的重叠集合,每一集合对应于包括来自原始隔离窗口内的原始多电荷前驱体离子的电荷态分布的离子。一种此类可能的电荷态分布图案由包络413近似指示。图4A和4B中所示的结果展示PTR反应过程一般显著简化谱且减少背景干扰。但是,由于许多蛋白质导出或肽导出的前驱体离子可能存在于原始隔离窗口中,因此电荷态分布图案可能重叠。可能需要数学分解(有时称为“解卷积”)来辨识个别图案。
[0158] 实例B
[0159] 图5A和5B说明由包含PTR反应的两个阶段的程序执行的大肠杆菌提取物的分析的实例(例如,参见图3C中的方法380的步骤327、328、329和330)。图5A说明来自以m/z=1200为中心的5Th质量窗口内的PTR产物离子谱产生的隔离第一代前驱体离子,由图5A中的位置711指示。在此实例中,初始PTR谱不包含经充分良好解析以实现样本中的任何蛋白质的识别的峰。因此,针对来自以m/z=1320为中心的5Th质量窗口内的PTR的第二阶段隔离第一代PTR产物离子的子集,由图5A中的位置712a和图5B中的位置712b指示。在图5B中以大于1320的m/z比发生的第二代PTR产物离子展示可成功地用于样本中蛋白质的识别的清楚电荷态分布图案。
[0160] 图6A到6G说明由包含通过PTR反应的产物离子形成的第一阶段随后是PTR反应产物离子的CID的后续阶段的程序(例如,参见图3B中的方法370的步骤312到322)执行的大肠杆菌提取物分析的实例。图6A说明来自以m/z=640为中心的5Th质量窗口内的PTR产物离子谱产生的隔离第一代前驱体离子,由图6A中的位置811指示。PTR产物离子以比图6A中位置811指示的情况更大的m/z比发生。图6A中分别位于833、926和917的m/z比处且有质谱峰
813、814和815指示的三种最强烈PTR产物离子随后被个别地隔离且单独地经受碰撞引起的解离以便产生第二代产物离子的三个集合。图6B和6C分别描绘在m/z=833处的隔离PTR产物离子以及通过隔离PTR产物离子的CID产生的第二代产物离子(片段离子)。同样,图6D和
6E分别描绘在m/z=926处的隔离PTR产物离子以及通过在m/z=926处的隔离PTR产物离子的CID产生的第二代产物离子。同样,图6F和6G分别描绘在m/z=917处的隔离PTR产物离子以及通过在m/z=917处的隔离PTR产物离子的CID产生的第二代产物离子。
[0161] 实例C
[0162] 如从先前论述将显而易见,任何蛋白质或多肽分子的阳离子电喷射电离将由于原始分子的不同程度质子化而产生包括不同相应电荷态(即,电荷数目)的多个离子。+50或更多的电荷态或者可能的及每一电荷态将由表示不同程度的自然同位素取代的多个质谱线表示。另一并发情况从以下事实产生:对于大多数自然生物样本,多肽分子的许多不同蛋白质可在质谱中表示。又一并发情况从以下事实产生:不一定关注的许多其它分子可能存在于样本中。
[0163] 在许多面向基本研究的研究中,多个分析物和多个干扰物质的上述并发因素可以通过在将每一分离化合物个别地引入质谱仪中之前执行
色度分离而部分地或完全地解析。然而,临床分析常常会在紧张的时间约束下执行,这并不允许传统的耗时层析分离。临床时间约束可仅允许使用固相萃取(SPE)、尺寸排阻层析或上述快速部分层析分离(FPCS)的方法的不完全或部分分离。因此,当采用这些部分分离程序时,任何特定蛋白质或多肽的质谱特征可以扩展到宽质荷比之外,且可与其它化合物的质谱特征复杂地重叠。由于由电喷射设备提供的可用电荷将在许多不同类型的离子上扩展,因此大多数观测到的质谱线将共存且可能隐藏于一般密集群体且低强度或不良界定的谱“背景”中,这由图7A到7B中的谱包络
902示意性地指示。
[0164] 发明人已经实现任何特定蛋白质、多肽或其它生物相关高分子量分析物的质谱特征可通过以下方式假设地放大:同时隔离同一原始分子的多个电荷态,并且然后使多个态的集合与PTR反应剂离子反应以便将所述集合同时减少到在几个电荷态值上分布的少量电荷态,这些电荷态值相对于原始电荷态经减少。此概念由图7A中上覆于一般电荷态包络902上所示的垂直方框904a-904g说明。每一此垂直框表示特定前驱体离子物质且表示经选择为对应于特定分析物的特定电荷态(且可能包含几个同位素变体)的m/z值的小范围。假设地,如果可排除对应于垂直方框的范围之外的所有离子且仅来自所指示范围内的离子混合在一起,那么后续PTR将基本上提供来自各种原始的多个电荷态的信号的求和。多个前驱体离子物质的此多物质隔离的使用可使分析的灵敏度增加多达N倍,其中N是经选择且同时隔离的m/z范围的数目。
[0165] 当在线性离子阱(例如在图2中说明的低压线性阱单元217b)中执行时此多物质隔离相当容易实现,因为用以排出不希望的离子的谐振激发波形可构造有多个缺口。每一此缺口对应于不同的相应m/z窗口,其内将不排出离子(且因此隔离)。因此,在一些实施例中,可通过同时隔离全部多个前驱体离子物质而执行多个电喷射产生(第一代)前驱体离子物质的共同隔离。进行此的一种方式是通过将宽带谐振排出频率波形应用于从电喷射源接收的离子已经引入其中的离子阱,其中所述波形包括多个求和的正弦频率分量,其中包含的频率分量对应于希望从阱排出的离子的m/z范围且排除的频率分量对应于希望在阱内保持的离子的m/z范围。在此程序中,省略的频率界定排出频率波形中的一或多个频率缺口。可通过首先挑选所需的多缺口波形并且然后计算所需波形的傅里叶逆变换而计算所述频率分量。
[0166] 替代地,可通过使用施加于离子阱的相应单缺口波形在常规意义上每次一种离子物质地隔离个别前驱体离子物质而执行所述多个前驱体离子物质的共同隔离。个别地隔离的前驱体离子物质可一次一个地传送到离子存储组件(例如在图2中说明的多极离子导向器214),其中各种选定且隔离的离子物质随时间而积聚。作为又一替代例,可通过使从电喷射源接收的多个离子通过四极滤质器,同时所述四极滤质器的带通经循序地调谐以又优先发射对应于特定前驱体离子物质的每一m/z范围而执行所述多个前驱体离子物质的共同隔离。通过四极滤质器的经过滤离子随后传递到离子存储组件,所述组件积聚来自所有优先发射的m/z范围的离子。举例来说,在图2中说明的质谱仪150a中,四极滤质器208可执行过滤步骤的序列且每一发射m/z范围的离子可发射到多极离子导向器214内且在其内积聚。积聚的前驱体离子物质接着可传送返回至低压单元217b用于PTR反应。
[0167] 采用同时的多物质隔离的上述程序假定先验已知的适当隔离范围904a-904g。关于将采用的正确隔离范围的此知识在目标分析的某些例子中当待搜索的分析物的身份(和关于其的其它信息)已经已知且分析的目的是确定所述分析物存在或不存在或者确定所述分析物的数量或浓度时是可用的。然而,在其中分析物的身份可能不是事先已知的调查分析的情况下以上假设可为无效的。在后面的这些情况下,可通过如图7B中示意性地描绘隔离第一代离子的随机质量范围903并且然后使隔离的离子与PTR反应剂阴离子反应而执行初始随机调查。如先前在图4A和4B中说明,此程序可提供与一或多个分析物的电荷态分布相关的经解析、可解译的质谱线。在许多情况下,可通过相关线的m/z值与用于连续整数z的某一序列的等式1的相互一致性来辨识相关线的集合。线位置的一致性的程度可通过计算机分析自动执行以使得此些相关线的重叠集合可在数学上经分解且辨识。
[0168] 作为以上类型分析的实例,通过m/z范围903内的前驱体离子的隔离和反应而产生的PTR产物离子线的数学分解可导致对如图7C中所说明由包络905和包络906描绘的两个重叠线集合的辨识。借助通过此初始调查程序提供的信息,可选择适当且一致的m/z值集合,其可用于后续同时的多物质隔离和反应程序中。举例来说,可能可以自动选择包络905下方的线的某些解析实例的m/z值。对应于这些所选m/z值的前驱体离子的后续多物质隔离和PTR反应将随后提供放大的谱,所述谱可用以确定由包络905表示的特定分子的数量或浓度。此程序可稍后使用相关联包络906重复以便确定另一分子的数量或浓度。所确定的数量或浓度在绝对意义上可能不是准确的,但所确定的数量或浓度的比率可提供与相对数量或浓度相关的有用信息。上文概述的此整个程序可使用不同随机选择的m/z范围903重复多次,从而提供若干化合物的相对数量或浓度的确定。如先前陈述,可利用实时光谱解卷积的结果以数据相依方式实现对此些实验的控制。
[0169] 图8提供使用上文概括的通过PTR反应剂离子与来自多个非邻接m/z范围的第一代离子的反应的PTR信号放大进行调查分析的示范性方法方法397的一般流程图。方法397的步骤302、304、306、308、309、312、314、316、402和404相同于在图3A中说明的方法300的类似编号的步骤且因此此处不再描述。并且,新步骤311类似于方法300的先前描述的步骤310,但步骤311仅涉及第一代离子的随机m/z范围(例如图7C中所描绘的范围903)的质量隔离,而不涉及如针对先前方法300描述的“一或多个随机或预定m/z范围”。在初始调查PTR反应(步骤312)和电荷态序列的识别(步骤316)(后者优选地通过本文档的附录中描述的计算方法执行)之后,执行步骤323,其中隔离且积聚第一代离子的多个非邻接m/z范围,其中所述非邻接m/z范围对应于经识别电荷态序列。可从先前存储的此些离子的批次获得第一代离子(先前步骤319a),或替代地(先前步骤319b),可能需要重复样本引入和电喷射离子产生步骤。
[0170] 在第一代离子的多个非邻接m/z范围的隔离和积聚(步骤323)之后,使积聚的离子与PTR反应剂离子反应(步骤324)。所得放大的谱将一般具有高质量,从而促进例如对应于多个非邻接m/z范围的分子的准确分子量或者此分子的准确数量、浓度或相对丰度的导出(步骤325)。如果步骤316的紧邻在前的执行识别出相关m/z比的多于一个集合,那么可使用对应于不同经识别电荷态序列的非邻接m/z范围的新集合再次执行步骤319a或319b和步骤323-325(跟随步骤326的最左边“Y”分支)。如果针对可能的额外分析物的搜索将继续,那么执行可返回到步骤311(跟随步骤326的最右边“Y”分支),在此选择不同的随机m/z范围。
[0171] 实例D
[0172] 依据根据本发明教示的利用质子转移反应的样本复杂性减少的另一方法,采用PTR的质谱分析可与层析法直接关联以便简化且检测原本将错过的额外蛋白质。在此实施例中,采取全扫描质谱且使用实时解卷积程序计算蛋白质分子量。接着,选择具有经界定宽度的隔离窗口,且使所述窗口中的m/z值的子集经受PTR反应。
[0173] 举例来说,图9A展示在大肠杆菌提取物的十分钟梯度反相液相层析分离的过程期间在10分钟30秒的滞留时间下从溶离液产生的第一代离子的全扫描质谱。如图9A中的括号指示,此全扫描质谱展现分别具有35.1和31.1kDa的近似分子量的两种蛋白质的相异光谱特征。对于下一步骤,具有10Th宽度且以750Th为中心的m/z隔离窗口510内的m/z值的离子群体被隔离。随后使隔离的离子群体经受与阴离子反应剂六氟化硫的PTR反应达10ms。图9B中所示的所得产物离子质谱展现了具有11220.07Da和24599.56Da的分子量的全扫描质谱中未见的两种额外蛋白质的质谱特征。另外,在全扫描质谱中先前观测到的35.1kDa蛋白质组分也展现PTR产物离子谱中的谱特征,其包含对应于在749的标称m/z值处的+47电荷态的线,在方框520中描绘。在749Th处的线表示35.1kDa蛋白质的甚至更高电荷态的电荷减少。在11.2和24.6kDa处观测到的蛋白质在反相层析运行的此实例中无PTR步骤存在下将不会被识别,原因是复杂的谱重叠以及来自大量单电荷背景离子的干扰噪声。
[0174] 图10A和10B展示来自六十分钟梯度溶离运行的在42分钟30秒的滞留时间下从溶离液获得的类似层析法/MS实验的结果。如图10A中所示,在此溶离时间下的高背景造成识别全扫描谱中的分析物峰的困难。然而,图10B中标绘的PTR产物离子谱更容易经受解译和质谱解卷积。PTR产物离子谱展现原本将观测不到的三种相异蛋白质(具体地说具有11165.92Da、13480.28Da和18727.23Da的分子量)的质谱特征。在此实例中,从10Th宽度的以m/z 750为中心的质谱窗口(图10A中由方框610指示)产生的隔离前驱体离子产生PTR产物离子。通过对在单个实验过程期间在各种不同滞留时间下溶离的溶离液执行此类型的分析,可辨识足够数目的样本肽以便实现在物质、亚种或菌株层级的对微生物的识别。如图9A到9B中所示的结果也指示,如果存在来自隔离窗口内的全质谱的蛋白质离子的m/z重叠,那么所述蛋白质将也在PTR产物离子质谱中见到。
[0175] 有趣的是,全扫描质谱和PTR产物离子质谱可提供互补信息,如图11A和11B中所说明,其表示在三十分钟层析分离的过程中从在18分钟9秒的滞留时间下溶离的溶离液获得的质谱结果。在此实例中,全扫描质谱(图11A)展现具有9534.3Da的分子量的基本上单个蛋白质的强质谱特征,然而,当PTR产物离子谱是从在以m/z 750Th为中心的10Th宽窗口(方框530)内隔离的离子产生时,质谱特征包括来自具有14965.5Da的分子量的蛋白质(由在近似
1247Th处的+12电荷态的峰535最佳表示)以及具有12669.8Da、14150.0Da、14236.1Da、
14965.5Da和15117.5Da的分子量的五个其它微小蛋白质的强信号。图11C是在同一层析分离期间从在22分钟27秒的滞留时间下溶离的溶离液获得的全扫描质谱。所述谱包含指示具有24961.3Da的分子量的蛋白质的存在的峰。在隔离窗口540内隔离的离子的PTR反应后,获得图11D中所示的PTR产物离子谱。PTR产物离子谱中的质谱特征包含来自具有28461.5Da的分子量的蛋白质(由在近似1294Th处的+22电荷态的峰545最佳表示)以及具有18590.5Da和
20168.0Da的分子量的两个其它蛋白质的相对强信号。因此,仅从这两个滞留时间处的数据,有可能检测十一种不同蛋白质的存在和分子量。
[0176] 额外实例
[0177] 以下段落列出根据本发明教示的各种具体实施例的额外具体实例。
[0178] 实例1.一种用于识别液体样本内的蛋白质或多肽分析物化合物的存在或不存在的方法,所述液体样本包括化合物的混合物,所述混合物包含多种蛋白质化合物或多种多肽化合物或多种蛋白质和多肽化合物,所述方法包括:
[0179] (a)将所述液体样本的一部分引入到质谱仪的电喷射电离源中;
[0180] (b)通过电喷射电离形成所述液体样本的所述部分的所述化合物混合物的带正电离子,所述带正电离子包括多个离子物质;
[0181] (c)隔离包括第一质荷比(m/z)比率范围的所述离子物质的第一子集,所述范围包含所述分析物化合物的特定预定多质子化分子物质的m/z比;
[0182] (d)通过致使所述隔离的离子物质的第一子集在预定持续时间中与反应剂阴离子反应而从所述隔离的离子物质的第一子集产生多个第一代产物离子物质,所述反应剂阴离子在反应后从一或多个离子物质中的包括蛋白质或多肽化合物的质子化分子物质的每一者提取质子;
[0183] (e)使用质量分析器产生所述第一代产物离子物质或从所述第一代产物离子物质产生的第二代产物离子物质的质谱;
[0184] (f)进行对所述第一代或所述第二代产物离子物质的所述质谱的搜索以找到作为所述蛋白质或多肽分析物化合物的诊断的一或多个m/z比的集合;以及
[0185] (g)如果在所述质谱中识别出一或多个m/z比的所述集合,那么识别所述样本内的所述分析物化合物的存在。
[0186] 实例2.根据实例1所述的方法,其进一步包括第二次重复所述步骤(a)到(e),其中在所述步骤(a)到(e)的所述第二次执行期间或之前执行所述步骤(f)和(g)。
[0187] 实例3.根据实例1所述的方法,其进一步包括多次重复执行步骤(a)到(g),其中步骤(a)的每一重复包括将来自对应于相应滞留时间的层析柱的溶离液引入到所述电喷射电离源中。
[0188] 实例4.根据实例1所述的方法,其中所述步骤(f)包括进行对所述第一代产物离子物质的所述质谱的搜索以找到对应于所述分析物化合物的多质子化离子物质序列的一系列m/z比,所述多质子化离子物质序列相对于所述特定预定多质子化分子物质的电荷态渐进地电荷减少。
[0189] 实例5.根据实例1所述的方法,其中:
[0190] 所述步骤(c)包括进一步隔离所述离子物质的第二子集,所述第二子集包括第二m/z比范围,所述范围包含第二蛋白质或多肽分析物化合物的特定预定多质子化分子物质的m/z比;
[0191] 所述步骤(f)包括进行对所述第一代或所述第二代产物离子物质的所述质谱的额外搜索以找到作为所述第二蛋白质或多肽分析物化合物的诊断的一或多个m/z比的第二集合;以及
[0192] 所述步骤(g)包括如果在所述质谱中识别出m/z比的所述第二集合,那么识别所述样本内的所述第二分析物化合物的存在。
[0193] 实例6.根据实例5所述的方法,其中所述第一m/z比范围相同于所述第二m/z比范围。
[0194] 实例7.根据实例5所述的方法,其中所述步骤(c)包括同时隔离包括所述第一m/z比范围的所述离子物质的所述第一子集以及包括所述第二m/z比范围的所述离子物质的所述第二子集以使得所述第一和第二m/z比范围是非邻接的。
[0195] 实例8.根据实例1所述的方法,其中产生多个第一代产物离子物质的所述步骤(d)包括致使所述隔离的离子物质的第一子集和反应剂阴离子在一持续时间中反应,所述持续时间致使在步骤(e)中的所述质谱的后续产生期间所述产物离子物质稳定而不会分解。
[0196] 实例9.根据实例8所述的方法,其中所述步骤(e)包括使用质量分析器产生所述第一代产物离子物质的质谱,所述质量分析器通过检测由离子阱内所述产物离子物质的所述离子的运动造成的镜像电流来产生所述质谱。
[0197] 实例10.根据实例1所述的方法,其中产生多个第一代产物离子物质的所述步骤(d)包含跨越离子阱的电极施加补充AC电压,在所述离子阱内所述隔离的离子物质的第一子集与反应剂阴离子反应,其中所述补充AC电压的频率使得禁止所述反应剂阴离子与选定的第一代产物离子物质之间的离子-离子反应。
[0198] 实例11.根据实例10所述的方法,其中所述补充AC电压的所述频率使得在步骤(d)的执行之后,由所述分析物化合物形成的产物离子大体上作为具有特定电荷态的单个离子物质而存在。
[0199] 实例12.根据实例11所述的方法,其中:
[0200] 所述步骤(e)包括产生所述第一代产物离子物质的质谱;以及
[0201] 其中所述单个离子物质的质量大于20,000Da且所述单个离子物质的电荷态充分大以使得可在所述质谱的产生期间通过四极质量分析器、傅立叶变换离子回旋共振质谱仪或静电阱质量分析器检测所述单个离子物质的离子。
[0202] 实例13.根据实例1所述的方法,其中产生质谱的所述步骤(e)包括产生第二代产物离子物质的质谱,其中所述第二代产物离子物质是通过以下步骤产生:
[0203] 隔离包括特定产物离子m/z比范围的所述第一代产物离子物质的子集;以及[0204] 使所述第一代产物离子物质的所述隔离的子集分段以便形成片段离子物质,其中所述片段离子物质包括所述第二代产物离子物质。
[0205] 实例14.根据实例1所述的方法,其中产生质谱的所述步骤(e)包括产生第二代产物离子物质的质谱,其中所述第二代产物离子物质是通过以下步骤产生:
[0206] 致使所述第一代产物离子物质在第二预定持续时间中与所述反应剂阴离子反应,其中所述第一代产物离子物质与所述反应剂阴离子之间的反应的产物包括所述第二代产物离子物质。
[0207] 实例15.根据实例14所述的方法,其中跨越离子阱的电极施加补充AC电压,在所述离子阱内所述第一代产物离子物质与所述反应剂阴离子反应,其中所述补充AC电压的频率使得禁止所述反应剂阴离子与选定产物离子物质之间的离子-离子反应。
[0208] 实例16.根据实例1到15中的任一者所述的方法,其进一步包括通过包括以下各项的程序产生包括所述化合物混合物的所述液体样本:
[0209] (i)培养微生物或细胞;
[0210] (ii)裂解所述经培养的微生物或细胞;以及
[0211] (iii)从经培养的微生物或细胞的所述裂解物提取蛋白质。
[0212] 实例17.根据实例16所述的方法,其中从所述裂解物提取所述液体样本的所述步骤(iii)包含使所述裂解物通过固相提取设备。
[0213] 实例18.一种识别样本中的微生物类型的存在或不存在的方法,其包括:
[0214] (i)识别在所述样本中的同时存在是所述样本中的所述微生物类型的存在的诊断的分析物化合物的列表,所述分析物化合物的列表包括蛋白质化合物、多肽化合物或蛋白质和多肽化合物两者;
[0215] (ii)从所述样本提取包括从样本导出的蛋白质和多肽的混合物的液体溶液;
[0216] (iii)对于所述列表中的每一相应分析物化合物,执行以下步骤:
[0217] (a)将所述液体溶液的一部分引入到质谱仪的电喷射电离源中;
[0218] (b)通过电喷射电离形成所述液体溶液的所述部分的所述化合物混合物的带正电离子,所述带正电离子包括多个离子物质;
[0219] (c)隔离包括第一质荷比(m/z)比率范围的所述离子物质的第一子集,所述范围包含所述相应分析物化合物的特定预定多质子化分子物质的m/z比;
[0220] (d)通过致使所述隔离的离子物质的第一子集在预定持续时间中与反应剂阴离子反应而从所述隔离的离子物质的第一子集产生多个第一代产物离子物质,所述反应剂阴离子在反应后从一或多个离子物质中的包括蛋白质或多肽化合物的质子化分子物质的每一者提取质子;
[0221] (e)使用质量分析器产生所述第一代产物离子物质或从所述第一代产物离子物质产生的第二代产物离子物质的质谱;
[0222] (f)进行对所述第一代或所述第二代产物离子物质的所述质谱的搜索以找到作为所述相应分析物化合物的诊断的一或多个m/z比的集合;以及
[0223] (g)如果在所述质谱中识别出一或多个m/z比的所述集合,那么识别所述液体溶液内的所述相应分析物化合物的存在;以及
[0224] (iv)如果在所述液体溶液内识别出所述分析物化合物列表的每一和每个分析物化合物的存在,那么识别所述样本内的所述微生物类型的存在。
[0225] 实例19.一种识别样本中的微生物类型的存在或不存在的方法,其包括:
[0226] (i)识别在所述样本中的同时存在是所述样本中的所述微生物类型的存在的诊断的分析物化合物的列表,所述分析物化合物的列表包括蛋白质化合物、多肽化合物或蛋白质和多肽化合物两者;
[0227] (ii)从所述样本提取包括从样本导出的蛋白质和多肽的混合物的液体溶液;
[0228] (iii)将所述液体溶液的至少第一部分引入到质谱仪的电离源中;
[0229] (iv)从所述电离源处的所述液体溶液的所述至少第一部分产生所述化合物混合物的带正电离子,所述带正电离子包括多个离子物质;
[0230] (v)隔离所述多个离子物质的至少第一子集,所述至少第一隔离的子集的每一隔离的子集包括相应质荷比(m/z)比率范围;
[0231] (vi)通过使离子物质的每一所述隔离的子集在预定持续时间中与反应剂阴离子反应而从离子物质的每一隔离的子集产生多个第一代产物离子物质,所述反应剂阴离子在反应后从离子物质的所述隔离的子集的一或多个离子物质中的包括蛋白质或多肽化合物的质子化分子物质的每一者提取质子;
[0232] (vii)使用所述质谱仪的质量分析器产生第一代产物离子物质或通过所述第一代产物离子物质的进一步反应产生的第二代产物离子物质的至少一个质谱;
[0233] (viii)对于所述列表中的每一相应分析物化合物,执行以下步骤:
[0234] (a)进行对所述第一代或所述第二代产物离子物质的所述至少一个质谱的搜索以找到作为所述相应分析物化合物的诊断的一或多个m/z比的集合;以及
[0235] (b)如果在所述质谱中识别出一或多个m/z比的所述集合,那么识别所述液体溶液内的所述相应分析物化合物的存在;以及
[0236] (ix)如果在所述液体溶液内识别出所述分析物化合物列表的每一和每个分析物化合物的存在,那么识别所述样本内的所述微生物类型的存在。
[0237] 实例20.根据实例19所述的方法,其中与所述步骤(iii)到(vii)中的一或多者的执行同时执行所述步骤(a)和(b)的执行。
[0238] 实例21.根据实例19所述的方法,其中所述微生物类型经界定为特定细菌种类,且所述分析物化合物列表包含作为所述特定细菌种类的诊断的足够数目的分析物化合物以实现所述样本中所述特定细菌种类的存在或不存在的识别。
[0239] 实例22.根据实例19所述的方法,其中所述微生物类型经界定为特定细菌物质,且所述分析物化合物列表包含作为所述特定细菌物质的诊断的足够数目的分析物化合物以实现所述样本中所述特定细菌物质的存在或不存在的识别。
[0240] 实例23.根据实例19所述的方法,其中所述微生物类型经界定为特定细菌子物质,且所述分析物化合物列表包含作为所述特定细菌子物质的诊断的足够数目的分析物化合物以实现所述样本中所述特定细菌子物质的存在或不存在的识别。
[0241] 实例24.根据实例19所述的方法,其中所述微生物类型经界定为特定病毒菌株,且所述分析物化合物列表包含作为所述特定病毒菌株的诊断的足够数目的分析物化合物以实现所述样本中所述特定病毒菌株的存在或不存在的识别。
[0242] 实例25.根据实例19所述的方法,其中所述微生物类型经界定为特定病毒菌株,且所述分析物化合物列表包含作为所述特定病毒菌株的诊断的足够数目的分析物化合物以实现所述样本中所述特定病毒菌株的存在或不存在的识别。
[0243] 实例26.一种用于识别样本内的蛋白质或多肽分析物化合物的存在或不存在的方法,所述样本包括化合物的混合物,所述混合物包含多种蛋白质化合物或多种多肽化合物或多种蛋白质和多肽化合物,所述方法包括:
[0244] (a)将所述液体样本的一部分引入到质谱仪的电喷射电离源中;
[0245] (b)通过电喷射电离形成所述液体样本的所述部分的所述化合物混合物的带正电离子,所述带正电离子包括多个第一代离子物质;
[0246] (c)隔离包括相应质荷比(m/z)比率范围的所述第一代离子物质的多个子集,其中每一m/z比范围包含包括所述分析物化合物的相应质子化状态的离子物质的m/z比;
[0247] (d)通过致使所述第一代离子物质的所述隔离的多个子集在预定持续时间中与反应剂阴离子反应而从所述第一代离子物质的所述隔离的多个子集产生多个第一代产物离子物质,所述反应剂阴离子在反应后从包括所述分析物化合物的相应质子化状态的每一离子物质提取质子;
[0248] (e)产生所述第一代产物离子物质的质谱;以及
[0249] (f)如果所述质谱包括在相应预定m/z比处的包括高于预定阈值的相应强度的一或多条线,那么识别所述样本内的所述分析物化合物的存在,或否则识别所述样本内的所述分析物化合物的不存在。
[0250] 实例27.根据实例26所述的方法,其进一步包括多次重复执行步骤(a)到(f),其中步骤(a)的每一重复包括将来自对应于相应滞留时间的层析柱的溶离液引入到所述电喷射电离源中。
[0251] 实例28.根据实例26所述的方法,其中所述步骤(f)进一步包括如果所述质谱包括在相应预定m/z比处的包括高于预定阈值的相应强度的一或多条线,那么基于所述一或多个强度确定所述样本内的所述分析物化合物的数量或浓度。
[0252] 实例29.根据实例26所述的方法,其进一步包括在形成带正电离子的所述步骤(b)之后且在隔离所述第一代离子物质的多个子集的所述步骤(c)之前的以下步骤:
[0253] (b1)隔离包括随机选择的质荷比(m/z)比率范围的所述第一代离子物质的子集;
[0254] (b2)通过致使所述第一代离子物质的所述隔离的子集与反应剂阴离子反应而从所述第一代离子物质的所述隔离的子集产生多个产物离子物质,所述反应剂阴离子在反应后从包括所述分析物化合物的相应质子化状态或者另一蛋白质或多肽化合物的相应质子化状态的每一离子物质提取质子;
[0255] (b3)产生所述产物离子物质的质谱;以及
[0256] (b4)基于所述产物离子的所述质谱自动确定在所述后续步骤(c)中将使用的所述m/z比范围。
[0257] 实例30.根据实例28所述的方法,其中所述步骤(b4)包括从所述质谱自动确定对应于另一蛋白质或多肽化合物的多质子化离子物质的m/z比的集合。
[0258] 实例31.一种识别样本中的微生物的存在或不存在的方法,其包括:
[0259] 制作所述样本的提取物;
[0260] 重复执行根据实例26所述的方法以便在每一执行识别所述样本提取物内的不同相应蛋白质或多肽分析物化合物的存在或不存在;以及
[0261] 如果所述样本提取物内每一相应蛋白质或多肽分析物化合物存在,那么识别所述样本内的所述微生物的存在,或否则识别所述样本内的所述微生物的不存在。
[0262] 结论
[0263] 如本文档中教示的离子-离子反应的PTR类型的使用具有若干优点用于蛋白质或多肽离子的复杂混合物的分析。通过比较图4A与图4B可容易观测到第一显著优点是由极大地改进的信噪比提供。即使由于PTR过程而丢失一些电荷(即,完全中和),由于多电荷蛋白质与单电荷阴离子的反应也获得显著信噪比。此反应的速率与电荷的乘积的平方成比例。因此,最初高度带电分析物离子转换为较少带电PTR产物离子,其质谱特征在显著较大质荷比处出现。相比之下,低电荷态化学背景离子在典型实验反应周期期间受PTR过程影响显著较少,原因是这些离子的反应的低速率。此过程基本上从低质量、低电荷态化学背景“噪声”移除了蛋白质和多肽的质谱特征。举例来说,如图4B中所示,背景离子由在m/z≈642的“左后方”的大的单电荷峰表示。还认为仍粘附到大蛋白质的加成物或水分子由于由PTR反应沉积的发热反应热(至少125千卡/摩尔)而移除。此些离子变换为简单质子化分子可进一步增强信噪比特性。潜在地,经由此方法获得的蛋白质识别的数目可超过利用某一形式的分离技术的当前复杂的从上到下方法。
[0264] 与根据本发明教示的方法相关联的第二重要优点是由极大地改进的电荷态指派提供。举例来说,本发明人已经以实验方式确定,通过采用根据本发明教示的方法可正确地指派用于个别电荷态的电荷态指派的近似75%。此改进的辨识电荷态的能力是得自显著改进的信噪比。这又提供蛋白质或多肽的分子量的较准确确定。此比较适用于经常用于实时电荷态确定的当前Patterson-FFT电荷态算法。与根据本发明教示的方法相关联的另一重要优点是由执行快速处理量分析的能力提供。当与上文应用的快速部分层析分离技术结合时,这些方法允许在一分钟或更短的时间尺度上以高处理量方式分析样本。
[0265] 本申请中所包括的论述是希望充当基本描述。尽管已经根据所展示和描述的各种实施例描述了本发明,但所属领域的一般技术人员将容易认识到,可以存在对这些实施例的变化,并且那些变化将在本发明的精神和范围内。因此,读者应该知道,具体的论述可以不明确地描述所有可能的实施例;很多替代方案是隐含的。因此,在不脱离如权利要求书所描述的本发明的范围的情况下,所属领域的技术人员可做出许多修改。描述和术语均不希望限制本发明的范围。本文中提到的任何专利、专利申请案、专利申请公开案或其它文献在此被以引用的方式按其相应的全部内容并入本文中,如同在本文中被充分阐明一般。
[0266] 附录-数学计算方法
[0267] 例如蛋白质等复杂结构的电离分子的结构阐明常常使用耦合到液体层析仪的串连质谱仪实行。对从通过液相层析(LC)分离的化合物产生的离子进行质谱法(MS)分析的一般技术可被称为“LC-MS”。如果质谱法分析作为串连质谱法(MS/MS)进行,那么上述程序可被称为“LC-MS/MS”。在常规LC-MS/MS实验中,初始地通过质谱法分析样本以确定对应于所关注的峰的质荷比(m/z)。随后通过对选定峰执行产物离子MS/MS扫描而进一步分析样本。1
具体地说,在经常称为“MS”的分析的第一阶段中,获得包括初始调查扫描的全扫描质谱。
此全扫描谱之后是一或多个前驱体离子物质的选择(从获得的结果中)。选定物质的前驱体离子经受反应,一般例如可采用碰撞池或采用另一形式的分段单元(例如采用表面引发的解离、电子转移解离或光解离的那些)而实现分段。在第二阶段中,检测所得片段(产物)离
2
子以用于使用同一或第二质量分析器进行进一步分析(经常称为“MS/MS”或“MS”)。所得产物谱展现一组分段峰(片段集合),其在许多情况下可用作导出与前驱体肽或蛋白质或其它生物化学寡聚物相关的结构信息的手段。应注意,使用片段离子作为起始群体,离子选择和后续分段的过程可再次重复,进而产生“MS3”谱。在一般情况中,在选择和分段的(n-1)次迭代阶段之后获得的质谱可被称为“MSn”谱。这是耗时的过程,因为样本需要分析至少两次且仅针对有限数目的组分记录MS/MS数据。
[0268] 能够串连分析的大多数当前可用的质谱仪配备有自动数据相依性功能,借此当从MS1中的离子峰选择用于MS2分析的前驱体离子时以逐渐减小的强度选择离子前驱体。在图12A中所示的简单数据相依性实验中,检测器连续地测量可归因于进入质谱仪检测器的离子的总电流。设定总离子电流的阈值强度水平A8,在低于此水平下仅获取MS1数据。在作为峰A10所检测的第一组分溶离时,总离子电流强度在时间t1跨越阈值A8。当这发生时,质谱仪的机载处理器或其它
控制器确定MS1谱中的最强烈离子且立即起始关于最强烈离子的MS/MS扫描。随后,检测另一溶离峰A12的前边缘。当总离子电流在时间t3再次突破阈值强度A8时,关于在时间t3之后检测到的最强烈离子起始MS/MS扫描。大体上,峰A12将对应于不同化学组分的溶离,且因此在时间t3之后检测到的最充足离子将不同于在溶离峰A10期间进行其MS/MS分析的离子。以此方式,对每一组分在其溶离时获取MS和MS/MS谱两者。
[0269] 上述简单数据相依性实验对于层析解析或部分地解析的组分良好地起作用,如在图12A中说明。然而,在极复杂的混合物中可能存在溶离峰完全重叠的组分,如图12B中离子电流强度对滞留时间的曲线图所说明。在此实例中溶离峰A11表示可归因于离子m11的离子电流,且溶离峰A13表示可归因于离子m13的离子电流,这些离子的质量在插图方框A16中的质谱表示中示意性地说明。在图12B中所示的假设情形中,存在引起离子m11和m13的化合物的溶离的几乎完全重叠,其中在溶离过程期间离子m11的质谱强度始终大于离子m13的质谱强度。在这些条件下,上文参考图12A所论述的简单数据相依性技术将不能一直起始离子m13(及可能其它重要离子)的MS/MS分析,因为将仅选择最密集组分(m11)用于MS/MS。
[0270] 在图12B中说明的假设两个离子情形是简化实例。大多数现代的质谱仪仪器能够关于MS1分析中所检测的若干充足离子中的每一相应一者执行一系列MS/MS分析。通常,替代于挑选仅单个最充足的前驱体,现代的仪器将基于先前MS1数据获取的信息而选择“最高P数目的最充足前驱体”用于串连质量分析,其中数目P是常数或可能是由用户输入的变量。但是,由图12B表明的基本问题尤其对于可能引起单个质谱中的数十到数百个质谱峰的生物聚合物分析物的多组分样本仍然存在。无论如何将此样本引入到质谱仪(例如,通过层析分离、流动注入或毛细电泳法;作为从芯片实验室装置递送的单独化学品,通过灌注或其它方法),都可以在来自单个时间点的单个质谱中表示多于一个分析物,且每一此类分析物可引起许多离子,如在图12C中说明的假设质谱中所说明。在图12C中,由包络A208概括的实心垂直线表示从第一分析物化合物产生的质谱峰的第一集合的质心,且由包络A206概括的点线垂直线表示从第二共溶离分析物化合物产生的质谱峰的第二集合的质心。显然,即使有待分析的最充足的峰的数目P等于例如10,也多于将选择分析物化合物中的仅一者的离子用于使用上述传统的数据相依性方法进行MS/MS分析。与第二分析物相关的信息将丢失。此外,因此获得的数据将包括关于同一组分的冗余信息。
[0271] 为了更成功地解决共溶离化合物的质谱分析的复杂度,许多质谱仪器还采用所谓n n的“动态排除”原理,借此在获取其MS谱之后将质荷比临时放入排除列表中。MS不再次分析排除的质荷比,直到在先前MSn谱获取之后已经过某一持续时间为止。此技术使同一前驱体离子在若干后续扫描中分段的机会最小化,且允许质谱仪收集关于原本将不检查的具有较不密集峰的其它组分的MSn谱。在选定时间周期之后,将从列表移除排除的离子以使得可分析具有相同质荷比的任何其它化合物。离子物质在排除列表上的此持续时间一般是基于平均或估计层析峰宽度而估计。因此,动态排除原理的使用允许关于复杂混合物中的更多组分获得更多数据。
[0272] 不利的是,现有动态排除技术对于分析复杂生物分子的混合物的质谱可能表现不良。举例来说,再次考虑在图12C中说明的假设情形。如果使用动态排除原理分析图12C中所描绘的离子,那么将通过MSn分析按所说明的MS1谱中其强度的降序分析从单个分析物导出的至少10个离子物质(由包络A208概括),然后才考虑来自较低丰度分析物的任何峰(由包络A206概括)。无论每一前驱体每一离子物质在其相应分析之后放置到排除列表上的事实,此序列都将发生。执行十次不必要的冗余MSn分析消耗的时间量接着可导致最充足的离子的排除时间的到期(或可导致可用于完全分析少量最充足离子的时间的耗尽),在此之后可n重复MS分析的整个序列。
[0273] 将动态排除原理应用于复杂生物分子的混合物的质量分析中的另一并发因素得自以下事实:各种化合物的溶离分布是高度可变的且难以预测。由于层析固定相与具有多个分子交互位点的生物聚合物之间的复杂交互,不同生物聚合物化合物可展现不同溶离分布。此外,由于质谱仪的电离源内的电离抑制,从甚至单个此类化合物产生的各种离子的时间分布可能不能与未电离化合物的溶离分布相关或者与彼此的分布相关。
[0274] 作为可能遇到的溶离分布变化率的实例,图13说明从大肠杆菌提取物的单个液相层析质谱法实验运行收集的一组层析图。总离子电流在最上部层析图(曲线A40)中示出,且说明由相应m/z比率范围贡献的离子电流的各种提取离子层析图在最下部五个绘图(曲线A50、A60、A70、A80和A90)中示出。曲线A50表示m/z范围660.0-660.5Da。类似地,曲线A60、A70、A80和A90表示m/z范围700.5-701.5Da、1114.5-1114.5Da、942.5-943.5Da和540.5-540.5Da。峰A1、A2和A3是具有宽层析分布的峰的实例。峰A4和A5是窄的分布的实例。峰A6展示极宽的峰。峰宽度跨越一数量级,因此严重限制具有预定义排除持续时间的排除列表的适用性。为了解决以上计算困难,以下描述改进的经优化计算方法,用于进行电荷态指派且用于多路复用电荷态分布的实时辨识,此方法称为“最高P个唯一分析物特定群集”的。
[0275] 2.1.自一致映射电荷指派算法的关键特征
[0276] 2.1.1.专
门质心的使用。标准质谱电荷指派算法(例如,Senko等,1995)使用质谱中的线的全分布数据。相比之下,本发明方法中采用的新颖方法使用质心。使用线分布上的质心的关键优点是数据精简。通常分布数据点的数目大约比质心的数目大一个数量级。使用质心的任何算法将获得优于标准指派方法的计算效率的显著优点。对于需要实时电荷指派的应用,优选地设计仅需要质心数据的算法。使用质心的主要缺点是m/z值的不精确性。例如质量准确性、分辨率和峰挑选效率等因素全部趋于影响质心数据的质量。但这些问题可通过将m/z不精确性纳入采用质心数据的算法中而大部分减轻。
[0277] 2.1.2.强度是二进制的。与大多数现有算法的另一关键不同是根据本发明方法将强度编码为二进制(或布尔型)变量(真/假或存在/缺乏)。本发明方法仅考虑质心强度是否高于阈值。如果强度值满足基于信号强度或信噪比或这两者的用户可设定准则,那么所述强度值采用布尔型“真”值,否则指派“假”的值,无论所述强度的实际数字值如何。数字值作为简单二进制值的编码再次带来显著的数据精简。在许多编程语言中,双精度值使用八字节的存储器存储,而二进制(或布尔型)值使用仅单个字节。并且,布尔型量的比较固有地比双精度变量的比较快得多。使用布尔型值的众所周知的缺点是信息的损失。然而,如果具有大量的数据点要处理,例如典型高分辨率谱中的数千个质心,那么通过布尔型变量的绝对数目来较多地补偿强度信息的损失。因此,发明人的方法及因此本文教示的算法利用此数据丰度来实现效率和准确性两者。
[0278] 但是,可通过使用近似强度值而不是仅布尔型真/假变量来实现无显著计算速度损失的额外准确性。举例来说,可设想其中仅将类似高度的峰彼此进行比较的情形。可通过将强度值离散化为少量低分辨率二进位(例如,“低”、“中”、“高”和“极高”)而容易地适应添加的信息。此二进位化可实现具有“高度信息”的良好平衡,而不会牺牲强度的极简化表示的计算简单性。
[0279] 2.1.3.将质荷比值变换且组合为低分辨率二进位,且预先计算相对电荷态间隔一次且高速缓冲存储以获得效率。本发明中教示的方法的另一创新在于质谱线的m/z值从其以道尔顿计的正常线性标度变换为更自然的无量纲对数表示。如从以下具体论述可见,此变换极大地简化属于例如同一蛋白质但表示潜在不同电荷态的任何峰的m/z值的计算。此变换不涉及精度的降低。当执行经变换变量的计算时,可利用高速缓冲存储的相对m/z值以改善计算效率。
[0280] 2.1.4.基于简单计数的计分和统计选择准则组合质心强度作为布尔型值的编码以及m/z值的变换,本发明方法将所讨论的任何质谱的整个内容编码为单布尔型值阵列。电荷态的计分减少到在适合于正查询的电荷态的经变换m/z位置处布尔型变量的是或否(真或假)的简单计数。此方法再次绕过涉及双精度变量的计算上代价大的操作。一旦针对某一范围的潜在电荷态编译出得分,便可通过简单统计程序容易地拾取最优值。使用统计准则比使用任意得分截止或仅挑选最高计分电荷态更严格且可靠。
[0281] 2.1.5.实现最优性且由电荷指派的完全自一致性界定的迭代过程本发明新颖方法的最终关键特征是使用将电荷指派导向解决方案的适当最优性条件。最优条件简单地经界定为谱的所有质心的电荷的最一致指派。此条件下是推断指派给每一质心的电荷态应当与指派给谱中的其它质心的那些电荷态一致。本发明算法实施迭代程序以产生如以上最优性条件所指导的电荷态指派。此程序符合优化程序的公认标准。即,首先界定适当最优性条件,并且然后设计算法以满足此条件,并且最后可接着通过算法满足最优性条件的良好程度来判断所述算法的有效性。大多数现有方法缺乏此逻辑
框架,且其理论优点因此难以客观地评估。
[0282] 2.2.分解算法的细节
[0283] 本发明人已开发尤其能够将自一致电荷态指派到质谱线且将包括关于若干分析物的重叠信息的复杂质谱分解为多个线集合的方法,其中每一线集合对应于相应分析物。图14是用于实现这些结果的根据本发明教示的一般步骤集合的概述流程图。图14中列出的若干操作在伴随的附图集合的其它流程图中更详细说明。
[0284] 2.2.1.高级方法。如图所示,图14描绘至少两个一般执行或工作流路径。根据第一一般执行路径或工作流,此处仅出于参考目的而被称为“文件解卷积工作流”,采用本发明教示的方法以用于分析且可能解译先前收集且存储的质谱数据的目的。根据第二一般执行路径或工作流,此处仅出于参考目的而被称为“数据相依性获取工作流”,在正获取质谱数据时以“实时”或“在线”方式采用本发明教示的方法,且基于根据本发明的计算或算法的结果而确定或控制数据获取过程的至少一些方面。图14中说明的一些步骤是上文界定的执行路径两者所共同的,且在图14中由双线界定的方框表示。其它步骤是数据相依性获取工作流路径专有的,且由虚线界定的方框表示。至少一个步骤步骤A312是文件解卷积工作流路径专有的,且由点线界定的方框表示。最后,由具有单实线的方框描绘的步骤A920和A925是关于数据相依性获取工作流任选的,但将一般与文件解卷积工作流结合而执行。文件解卷积工作流将通常跟随由图14的下部部分的点线箭头指示的一般路径。
[0285] 仍参考图14,文件解卷积工作流在步骤A312开始,其中呈至少一个质谱形式的先前所获取且存储的质谱数据从电子存储装置输入且可用于后续分析中的使用。所述质谱可为MS1谱、MS2谱或大体上任何形式的MSn谱。相比之下,数据相依性获取工作流开始于步骤A310,其中将样本引入到质谱仪中且随后在步骤A315中电离。所述样本引入可借助于注入1
或其它手段而来自层析仪。在步骤A320中产生离子的MS谱。假定在包含步骤A312的替代路径中输入的数据的产生中已经执行类似于步骤A310、A315和A320的步骤。
[0286] 在步骤A325中,识别新的峰质心(即,在所讨论的实验期间或在输入数据的MS1谱中先前未识别的质心)且添加到质心列表。在下一步骤A400中,变换质心的m/z值且将强度数据转换成布尔型值数据阵列,其中在经变换m/z尺度上指派二进位。步骤A400包括构造且填充布尔型占用阵列的第一子步骤A420以及构造且填充相对分离矩阵的第二子步骤A460(参见图15)。在本发明的后续部分中更详细地描述这些子步骤的细节。
[0287] 在仅应用于数据相依性获取工作流的步骤A510中,如果正对组成是时变的样本(例如对来自层析柱的流出物)执行质量分析,那么从“选择列表”移除已完成MSn分析的分析物的质心且可添加到“排除列表”。选择列表包含有待分析或正通过串连质量分析(MS/MS分析)或可能MSn分析而由质谱仪分析的一或多个质荷比(m/z)值或值范围,每一此类m/z值或范围对应于如通过本发明教示的方法识别的样本的化学组分。所述排除列表包含在实验的持续时间或实验期间的临时时间周期中将从未来分析排除的一或多个质荷比(m/z)值或值范围。可根据本发明教示的方法确定临时时间周期(如果采用),如本发明的后续部分中所描述。替代地对于直接输注或流动注射分析,可基于信号等级而执行将从未来分析排除的所述一或多个质荷比值或值范围。在步骤A515中从排除和选择列表移除描绘低强度质谱线的质心。如果对应质谱信号强度随后在实验运行期间增加,那么稍后可将移除的m/z值或范围添加到选择列表。
[0288] 在步骤A600中,做出尝试性的电荷态指派,如图17A和B中概括以及下文参考所述图进一步论述。随后,在步骤A700中,使用自一致性的要求调整尝试性地指派的电荷态且做出最终电荷态指派。此过程的细节在图18中概括且下文参考所述图进一步论述。一旦已经做出最终电荷态指派,则在步骤A800中使用从同位素群集的间距导出的信息将以实验方式观测到的质心分解为分析物特定的群集。步骤A800的细节在图19中说明且参考所述图进一步描述。
[0289] 方法A300的执行可在步骤A910处沿着分别由实线箭头和点线箭头指示的两个可能的执行路径中的一者分支。如果通过先前数据分析的结果控制实时串连质谱法,那么方法执行可跟随从步骤A910直接到步骤A915的“否”分支(由实线表示),从而跳过步骤A920和A925。替代地,如果将对在步骤A320中测得的MS1数据进行更多数据分析操作或者如果在步骤A312中先前输入数据,那么跟随步骤A910的“是”分支,然后可计算分子量或识别分析物物质(步骤A920),且可报告或存储计算的结果(步骤A925)。如在步骤A915处所确定,如果将执行串连质谱法,如将一般跟随数据相依性获取工作流执行路径的情况,那么所述方法沿着“是”分支而分支到步骤A930。否则,执行沿着“否”分支前进到步骤A960。
[0290] 现在考虑在图14的右侧上说明的“在线”执行路径,在步骤A930中做出所考虑质心集合中是否存在可归因于已知加成物的质心的确定。如此(步骤A930的“是”分支)则在步骤A935中将对应于加合物物质或另外经改质物质(例如从中性分子的损失产生的物质)的质心添加到排除列表。否则,绕过步骤A935。步骤A940是从上到下分析的开始,其中从在步骤A800中确定的最高P个分析物特定群集中的每一者选择代表性峰用于分段。以下步骤A945、A950和A955分别是隔离对应于选定质心的m/z比的离子、对隔离的离子进行分段以及执行产物离子的质量分析(MS2)的常规步骤。
[0291] 如果质谱实验或数据分析完成,那么方法A300的执行可在步骤A960之后结束。否则,执行返回至将样本的下一部分引入到质谱仪的步骤A310或返回至输入质谱数据的下一部分的步骤A312。
[0292] 2.2.2.建置布尔型值占用阵列。图16展示建置占用阵列[Ok]的步骤A420的细节。所述阵列值是布尔型变量,且所述阵列的索引对应于离散经变换质量/电荷值。步骤A420采取质心集合Ci(1≤i≤L)作为输入,其中L是观测到的质谱线的数目。每一Ci的特征在于其质量/电荷(m/z)i、其强度Ii、其信噪比(S/N)i及其分辨率Ri。接着,借助收集通过了强度和信噪比阈值的用户可设定准则的质心的子集{F}而执行质心的过滤(步骤A422)。接着,在步骤A424中,通过采取质量/电荷值减去质子的质量Mproton的自然对数而对{F}中的每一Ci执行质量/电荷变换,如等式1中那样。
[0293] T(m/z)i=ln((m/z)i-Mproton) 等式(1)
[0294] 在此变换之后,子集{F}中的每一质心Ci的特征在于T(m/z)i、Ii、(S/N)i和Ri。在步骤A426中标注来自子集{F}的T(m/z)值的最大值T(m/z)High和最小值T(m/z)low。此信息随后用以产生值的阵列[Ok],其中所述阵列的每一元素是布尔型值“占用”,其维持“信号”是否被认为在与所述阵列元素相关联的相应经变换质荷比值T(m/z)k处发生的记录。在创建后,将所述阵列的每一元素Ok初始化为布尔型值“假”。阵列中的离散元素的数目或阵列[Ok]的“长度”表示为Loccs,其确定为
[0295]
[0296] 其中D是阵列中的每一二进位的宽度且D=MA/106,其中通常为10的MA表示所关注的谱的质量准确性的用户可设定参数。
[0297] 在创建和初始化之后,必须以有意义的值填充阵列[Ok](在步骤A436中执行)。占用阵列[Ok]的元素是以变量k(1≤k≤Loccs)作索引,而经过滤质心子集{F}的元素是以变量i作索引。后者的索引在步骤A430中转换为对应的k值,其中对于子集{F}中的每一质心Ci,对应索引ki确定如下:
[0298]
[0299] 且被舍入到最近的整数(舍入操作由图16中的算子“ROUND[]”指示。如果质心Ci的分辨率Ri可用(例如质心模式中收集的那些的某个谱可能未做出此界定),那么跟随决策步骤A432的“是”分支,其中在步骤A434a中计算额外索引 和 如下
[0300]
[0301]
[0302] 其中值舍入到最近的整数。在其中Ri不可用的情况下,这些索引实际上在步骤A434b中分别设定成ki-1和ki+1。最后,在步骤A436中,将阵列值全部设定成用于范围从到 的索引的布尔型值“真”,即
[0303] Ok:=真;
[0304] 2.2.3.建置相对分离矩阵(RSM)。如图15中所示,步骤A460是构造相对分离矩阵的步骤且是一般步骤A400的第二子步骤。相对分离矩阵的创建是通过以下观测而促动:给定两个质心C1和C2,则如果它们属于同一蛋白质同位素峰但恰好电荷态不同,那么其质量/电荷值如下相关
[0305] |z1|×((m/z)1-Mproton)=|z2|×((m/z)2-Mproton) 等式(6)
[0306] 其中z1和z2分别是质心C1和C2的电荷态,且Mproton是质子的质量。电荷态值z1和z2将一般为全正或全负,这取决于进行分析的质谱仪仪器中使用的电离模式。执行如等式(1)中所描述的变换产生以下关系:
[0307] T(m/z)1=T(m/z)2+ln|z2/z1| 等式(7)
[0308] 等式(7)的重要性质在于在不同电荷态下的经变换T(m/z)i值是通过独立于经变换值的相加性因数而相关。因此可预先计算且高速缓冲存储量ln(z2/z1)作为可通过预先计算RSM的简单查询而在后续计算中再使用的矩阵。电荷态的绝对值将一般范围在单位一与某个最大值|Zmax|之间,或更具体来说1≤z1,z2≤|Zmax|。最后步骤是通过如等式(4)中除以D而离散化ln|z2/z1|矩阵:
[0309]
[0310] 由Zmax确定的矩阵的限制可由用户预期在谱的集合中将遇到的最大和最小电荷态来设定。替代地,Zmax可为预定或预先计算的值。通常,对于从上到下的实验,电荷态的绝对值范围是从1到50。因此在此情况下,RSM将为50x 50反对称矩阵。
[0311] 2.2.4.建置每一质心的计分分布且将其用于指派试验性的电荷态。在可通过迭代确定电荷指派的自一致集合(在图18的步骤A700中)之前,必须调配试验性的电荷指派的合理初始集合。图17A和17B中展示其细节的步骤A600通过将可能的电荷态指派到子集{F}的各质心而产生此初始集合。步骤A601-A615考虑每一此类质心,又并且针对每一考虑的质心,从最小电荷态值Zmin直到最大电荷态值Zmax逐步通过假定电荷态z的假定值。举例来说,可能针对每一质心考虑从z=1到z=50的假定电荷态。对于质心Ci的每一组合(如在步骤A601或步骤A615中选择)和假定的电荷态zi(如步骤A609的A603中设定),在步骤A605中计算“探测索引”kp(Ci,zi)的集合。探测索引是为了测试在这些索引中的每一者处的“真”值的目的而参考占用阵列[Ok]的二进位的k值的集合。kp(Ci,zi)矩阵包含的第一行的索引对应于选定质心Ci的(+/-m)理论同位素峰的离散化T(m/z)i值。举例来说,如果m=5,那么对应于(+/-5)理论同位素峰的探测索引是如下的经变换值:
[0312]
[0313] kp(Ci,zi)矩阵还包含两个额外行,其元素是通过针对上述行中的2m个探测索引中的每一者产生对应于z-1峰的预期位置的额外探测索引以及对应于z+1峰的预期位置的另一额外探测索引而计算出。具体地说,产生索引[kp(Ci,zi)+RSM(zi-1,zi)]和[kp(Ci,zi)+RSM(zi+1,zi)],其中RSM是上述预先计算且高速缓冲存储的相对分离矩阵。应注意质心Ci自身的ki索引从探测索引矩阵排除,因为在算法的此执行阶段,假定占用阵列在此索引处含有“真”的值。类似地,也可增加探测矩阵而包含(z-m,z-m+1,…,z+m-1,z+m)的更多电荷态而不是如上文所描述的仅(z-1,z,z+1)。
[0314] 在步骤A607中,针对每一测试的z值和每一质心Ci计算得分值。得分集合用以产生每一z值的计分分布。通过针对zi的每一可能的值将以实验方式导出的占用值求和而计算得分S(z)。具体地说,z的每一值的得分如下确定:
[0315] S(z)=∑Ok/C 等式(9)
[0316] 其中所述总和是在kp(Ci,zi)的k上以使得(1≤k≤Loccs)且C恰好是此k的数目。换句话说,在z处的得分恰好是如在步骤A420(图15)中构造的占用阵列中经译码的测得的高于阈值的质谱信号(即,“真”的值)“占据”的kp(Ci,zi)索引的分数。因此,在步骤A605中的计算呈
流线型近似“内积”计算的形式,其中任何单个计算的最大可能的得分是单位一。通过从最低到最高用户可设定限制将z的每一值的得分求和而形成得分分布。使用1和50的我们的实例作为低和高限制,我们将得到每一质心的50个得分的分布。
[0317] 决策步骤A611针对每一质心确定是否已考虑z的最大值。如果否,那么执行返回到步骤A605用于以z的新值(如在步骤A609中设定)计算探测索引。否则,执行分支到决策步骤A613,其确定是否已考虑子集{F}中的最后质心。如果否,那么执行前进到步骤A615,其中选择下一质心,并且然后到步骤A603,其中将z值复位到其初始状态。否则,执行前进到步骤A617(图17B),在此开始调配试验性的电荷指派的过程。
[0318] 图17B中所示的步骤A617-A635说明使用在步骤A607(图17A)的多个迭代中先前产生的计分分布做出试验性的电荷指派的过程。在步骤A617中,选择第一质心;稍后在步骤A635中更新正考虑的质心的选择。在这两个步骤中的任一者之后,在步骤A620中计算相应计分分布的平均值μ和标准差σ。因此,步骤A620-A635的重复迭代致使针对与每一质心相关联的计分分布计算这些统计量度。在步骤A625中,如果存在任何得分大于平均值μ+3σ,那么将具有最大得分的z值指派给质心作为初始电荷态指派。如果不存在得分大于μ+3σ,那么提供空值作为用于所讨论质心的初始指派。
[0319] 2.2.5.通过迭代实现完全自一致电荷指派的最优性。在步骤A600中已经做出试验性的电荷态指派之后,方法A300(图14)的执行前进到步骤A700,其中调整试验性的电荷态指派。步骤A700的细节在图18中展示。最优条件简单地经界定为谱的所有质心的电荷的最一致指派。此条件下是推断指派给每一质心的电荷态应当与指派给谱中的其它质心的那些电荷态一致。
[0320] 步骤A700的细节在图18中展示,其如上方最优性条件指导而实施迭代程序以产生电荷态指派。具有非空指派(如图17B的步骤A625中指派的每一质心)继而得到考虑。这些中的每一者可与如在图17A的步骤A605中指示的探测索引的集合相关联。针对具有非空指派的所有质心重复此过程,且在每一探测索引处确定新的电荷态分布。具体地说,在步骤A702中,选择具有非空尝试性地指派的电荷态zt的第一或下一质心。在步骤A704中,如果必要则如先前相对于图17A的步骤A605描述而产生所讨论质心的探测索引。随后,在步骤A706中,假定选定质心的电荷态是zt,在对应于所讨论质心的探测索引中的每一者处计算电荷态。对于每一探测索引,保持针对所述探测索引计算每一电荷态多少次的记录。在开始通过步骤A702-A710的每一循环之前,在步骤A701中清除这些记录(复位为零)。随后,在每一循环期间,每次在步骤A706中针对探测索引计算电荷态,便递增在所述探测索引处已如此计算电荷态的次数。如果在步骤A710,存在具有非空指派的额外质心,那么执行返回到步骤A702且选择下一此类质心。
[0321] 在已考虑最后质心之后,执行分支到步骤A712。在步骤A712中,在每一探测索引处将每一电荷态的出现次数(如在步骤A706中计算)列表,进而产生每一探测索引的电荷态分布。使用新电荷态分布,在步骤A714中通过调整每一探测索引处的试验性电荷态以便使电荷态等于相应索引处列表的最高数目而获得“按大多数的电荷指派”(CAM)。所有此些CAM电荷指派的集合形成值阵列-按大多数的电荷指派阵列。
[0322] 如果在步骤A716,CAM阵列的值不同于在CAM阵列的产生中使用的电荷态值,那么电荷指派被认为是不一致的。相比之下,将完全自一致电荷指派界定为在每一索引处的电荷指派以使得其与来自产生于其的CAM阵列的指派完全一致。因此,在步骤A716,将经调整试验性的电荷态与其先前值进行比较。如果已存在大于某一可耐受限制的改变,那么所述电荷指派不是自一致的。在此情况下,跟随步骤A716的“否”分支,且执行返回到步骤A701,借此执行新的计算集合以便实现自一致性。因此,通过使用来自每一CAM的电荷以产生后续CAM而执行CAM阵列确定的一组重复。当实现收敛时实现最优性,即,CAM产生同一CAM。
[0323] 实际上,通过此程序可能不实现确切的收敛。然而,发明人的经验展示在几次迭代之后,非一致的发生变成可忽视地小,且因此可在极好的电荷态指派下停止迭代。因此,在步骤A716中,当连续CAM阵列中的差在某一可耐受限制内(即,某一容限内)时视为操作性地实现收敛。在此情况下,执行分支到步骤A718,在此将最终自一致电荷态和每一质心设定成等于发生操作性收敛的试验性的电荷态。
[0324] 2.3.分析物特定群集的确定
[0325] 群集方法开始于由等式(10)界定的群集准则,其中合理地预期在受限制m/z范围内发生的C13非单同位素峰的数目ΔNC13如下给出:
[0326]
[0327] 其中z1和z2是指派给质谱线的电荷态,(m/z)1和(m/z)2是以实验方式测得的质荷比值,MC13是碳同位素C13与C12之间的质量差,且Mproton是质子的质量。与所述计算相关联的误差(δ)或标准差是从用户供应的以ppm界定的准确性值α以及考虑中的质心的分辨率R1和R2计算,如等式(11)中描述:
[0328]
[0329] 为了确定任何两个质心(峰)是否属于同一分析物特定群集(与例如蛋白质等特定生物分子相关联),使用等式(10)计算理论ΔNC13值。如果计算的ΔNC13值是测量误差内的整数,如等式(11)中计算,那么将所述两个质心视为属于同一分析物特定群集,前提是C13峰的数目不超过用户界定的限制(通常为10到15)。当然,所属领域的技术人员可容易地使用众多其它类似统计测试,例如z测试或t测试,以确定所述两个峰是否相差整数数目的C13,以α编码的其m/z的不确定性以及分辨率R为前提。
[0330] 图19中所示的将质谱线分解为分析物特定群集的步骤A800利用了上述推理。步骤A800考虑已经对其做出电荷指派的质心,如先前描述。步骤A805以具有最大以实验方式观测的强度的经电荷指派质心开始。如此选定的质心随后用作第一群集的“
种子”。随后,按逐渐减小的强度次序进行(步骤A810到A830),做出检查以确定列表中的下一质心是否以此群集的种子质心而群集。此检查是通过首先分别使用等式10和等式11计算ΔNC13及其误差δ而执行(步骤A815)。如果在决策步骤A820中注意到ΔNC13的当前计算值是计算误差内的整数,那么执行沿着“是”分支跟随到步骤A825,其中将考虑中的质心连同种子质心一起分组为属于单个群集。如果不是,那么跟随“否”分支以使得在步骤A830中,如果存在剩余的非种子质心,那么执行返回到步骤A810,其中选择下一密集非种子质心用于群集检查。如果在步骤A830,非种子质心的列表耗尽(即,不存在具有小于当前考虑质心的强度的剩余非种子质心)但存在剩余非群集质心(在步骤A835中确定),那么执行返回到步骤A805,其中使用最密集非种子质心作为新种子而开始新群集。后续迭代针对产生的所有群集种子进行检查,且在新质心不以任何先前群集而群集的情况下产生新群集。
[0331] 最后,在步骤A840中,使用简单试探法来确定由群集算法产生的任何群集是否是“健康的”。在我们的初始实施方案中,我们使用“健康的”群集必须具有至少四个相异电荷态或至少N个(用户可设定,但默认为15)成员质心的简单规则。我们根据这些准则滤出不“健康”的群集。在“不健康”群集的移除之后,剩余是最终分析物特定群集,各自表示不同生物聚合物或其它高质量化合物。
[0332] 2.4.蛋白质分子量计算
[0333] 从实验高分辨率谱计算蛋白质的单同位素分子量Mmono的更常见方式中的一者是使用所谓的“Averagine”方法(Senko,M.W,Beu,S.C.和McLafferty,F.W.,1995,《从解析的同位素分布确定大生物分子的单同位素质量和离子群体(Determination of monoisotopic masses and ion populations for large biomolecules from resolved isotopic distributions)》,《美国质谱学会期刊(J.Am.Soc.Mass Spectrom.)》,6:229-
233),其自身是用于低分辨率数据的更早方法的扩展(Zubarev,R.A.和Bonddarenko,P.V.,
1991《,肽和寡核苷酸的平均与单同位素质量之间的先验关系(An a-priori relationship between the average and monoisotopic masses of peptides and
oligonucleotides)》,《质谱快讯(Rapid Commun.Mass Spectrom.)》,5:276-277)。简要地,Averagine方法首先通过假设模型分子“Averagine”分子对实验同位素群集进行建模。通过优化实验与理论同位素分布之间的配合,可得到所需单同位素质量的估计。
[0334] Averagine技术在可购自美国马萨诸塞州沃尔瑟姆市的Thermo Fisher Scientific的各种质谱法峰分解和分析算法内使用。虽然Averagine方法已高度成功,但本发明人受激发而基于以下考虑开发不同方法:(1)计算速度。Averagine拟合可为耗时的,这对于实时应用并非无关紧要的考虑,例如本文所描述的其中实时自动做出关于若干观测离子中的哪些将片段的决策的那些应用。然而,应注意在其中不需要大量谱拟合的情形中,计算速度可不存在任何问题;以及(2)质量准确性。对于其特征在拥挤的谱中出现的较大分子量蛋白质,对应同位素群集趋向于为有噪声的且不完整的(遗失同位素,尤其是边缘,遗失电荷态等)。在此类情况下Averagine拟合的使用可能不是适当的。
[0335] 本发明人因此在此教示一种方法,所述方法有望产生单同位素质量的稳健估计,其极容易计算且更抗噪声和假象。接受估计可能偏置的影响下,主要目标是稳健性和精度。简单地说,所述估计可能不是“真实”单同位素质量(但是与其极接近),但在面对实验
缺陷时将是稳健/稳定的。在将质量准确性纳入考虑之后,误差应当从真实单同位素质量精确偏离0或+/-1道尔顿(1Da)。本发明人此处指出在许多情况下稳健性比准确性更重要。举例来说,如果将基于实验数据建置分子量数据库,那么一般需要在建置数据库的同时以及在通过新数据测试数据库的同时产生相同答案的能力,即使所述估计从真实分子量潜在地偏离
1Da但是在实验之间是相同的。
[0336] 所述方法以三个简单观测开始:(1)大多数蛋白质的同位素模式是由于C12/C13二项分布且所有其它同位素具有过低丰度而无法保证考虑;(2)二项分布的模式(即,具有最大强度的峰)是与分布的平均值、标准差或确切边界相比的所述二项分布的极稳健特征,且(3)对于二项分布,所述模式位于平均值左边少于1Da(参见图20A到20D中呈现的表A1)。这意味着所述模式是用于平均值的极可用替换,所述平均值自身对于较多噪声的数据是较难以估计的。举例来说,在边缘处截断的分布将引起不可靠的平均估计,而所述模式除非分布高度失真,否则都对此截断极稳定。
[0337] 所述计算的起始点由 界定,其为同位素群集的观测模式。随后采用计算单同位素质量的第一近似的Zubarev方法,其中:
[0338]
[0339] 单同位素质量的第二近似随后如下界定:
[0340]
[0341] 其中n是最小整数以使得M2≥M1。最后,在单同位素质量Mmono的计算中,如果存在1道尔顿内的群集的大于M2的实验峰,那么:
[0342] Mmono=M2+1.003 等式(14a)
[0343] 否则,
[0344] Mmono=M2 等式(14b)
[0345] 计算单同位素质量的此方法已并入在本文所说明的结果中。发明人的结果展示所述预测与由Averagine方法预测的那些结果相比极有利。对于大蛋白质,对标准蛋白质的测试指示单同位素质量估计是稳定的。另外,还针对接近地相关的峰或蛋白质变体计算群集分子量。我们将此计算的结果称为“群集分子量”。在已经成批发现蛋白质变体之后,使用更有辨识力的误差函数执行所有蛋白质变体的群集分析:
[0346] 误差=min|w1-w2-N×1.003| 等式(15)
[0347] 其中-3≤N≤3。如果误差<0.5(w1+w2)×10ppm,那么w1和w2应当被视为相等的。每一蛋白质变体随后将映射到由共识单同位素质量表示的相等蛋白质变体的群集中。此质量被称为且存储为“共识MW”。
[0348] 2.5.程序输入和输出
[0349] 图21A展示采用本文所描述的数据相依性方法的计算机程序的数据获取后版本的起始页(即,视觉显示屏截图)。在图21A中说明的显示器的左边,“原始文件”方框充当用于待处理的质谱法数据文件的输入线。可启用“批次模式”复选框,进而允许用户处理多个数据文件,而“自动扫描递增”复选框用以启用连续谱的处理。通过用户启用“绘图解卷积”复选框可在显示器中标绘来自所述程序的数据获取后版本的结果。将处理的最小和最大谱(扫描)数目是由“扫描按钮”设定,其直接默认为文件长度(以扫描数计)或可由用户设定。
[0350] 如图21A下部左侧所见,可通过致使结果输出到峰列表且通过用户将输出指定为MS1或MS2类型数据(以csv文件格式)来控制输出。质量容限(Mass Tol)默认为3;然而这也可由用户设定。输出也可以.puf文件格式产生以用于输入到ProSightTM PC蛋白质识别程序中。谱分解结果(在本文中也被称作“解卷积”结果)的细节也可以.csv文件格式存储以用于进一步数据分析。“结果”标签中的解卷积概述列出了经分析以产生报告的数据文件和扫描。沿标签向下是所检测质心的总数以及作为程序的部分经过滤的数目。成功地接收电荷态指派的峰的百分比在“Zscape”方框中找到,还有与所述领域的技术人员当前使用的前导现有解卷积程序中的一者所计算的结果的比较。“两者经指派”和“一致”方框量度所述两个程序之间的协定。移动到“结果”标签的底部,展示经指派群集的百分比以及经解卷积的唯一蛋白质的总数。图21D中展示此标签的放大图。
[0351] 图21A中所示的位于显示的右侧的两个标签提供挑选与解卷积过程相关联的指派和群集参数。在图21B中,“指派参数”标签包含以百万分率(ppm)计的质量准确性、最小峰强度阈值、需要的最小信噪比(s/n)以及解卷积过程预期的最低和最高电荷态。这些参数进一步划分成两个列,各自用于MS1和MS2分析。
[0352] 图21C中所示的“群集参数”标签也划分成分别与MS1和MS2分析相关的两个列。提供邻接电荷态和同位素的最小数目的用户输入以用于上述群集收敛计算。此输入标签上还呈现“足够邻接电荷态”、“足够邻接同位素”和“质量分离”参数输入显示。
[0353] 2.6.实例
[0354] 图22A展示来自由细胞色素C、溶菌酶、肌血球素、胰蛋白酶抑制剂和碳酸酐酶组成的五组分蛋白质混合物的解卷积结果。所述显示的顶部
显示面板A1203展示从表示为质心的质谱法所获取的数据。位于中央的主显示面板A1201说明每一峰为相应符号。用于顶部面板A1203和中央面板A1201的水平安置的质荷比(m/z)尺度A1207展示于中央面板下方。计算机显示还可包含(图22A中未具体展示)用于质量准确性(以ppm表达)的设定、峰/同位素群集设定、最小强度阈值和信噪比设定,以及与计算相关联的最小和最大电荷态。显示的左侧的面板A1205展示蛋白质分子的以道尔顿计的所计算分子量。侧面板A1205的分子量(MW)尺度垂直地定向于所述显示上,其垂直于关于检测到的离子的水平定向m/z尺度A1207。中央面板A1201中的每一水平线指示在此实例中具有对应于离子电荷态的点线轮廓线的蛋白质的检测,其显示为先前论述的变换计算的直接结果。在图22B中展示关于同一数据集的显示,其中分子量(MW)尺度相对于图22A中所示的视图极大地扩展。图22B的扩展图说明单个蛋白质电荷态的良好解析同位素(左面板A1205的最下部部分)以及潜在加合物或杂质峰(所述显示中存在两个)。这三个分子中最密集的是胰蛋白酶抑制剂蛋白质。图22C中的另一扩展图展示胰蛋白酶抑制剂蛋白质在同位素层级的确切细节。用以表示个别同位素的符号大小根据每一同位素峰的强度而按比例缩放。
[0355] 图23A展示来自细菌大肠杆菌的粗提取物的数据和解卷积结果。使用仅单级质谱法将此样本直接灌注到质谱仪中。使用根据本发明教示的方法获得的计算结果指示此样本中58个唯一可辩别的蛋白质的存在。在此实例中的许多所述蛋白质具有重叠电荷态,其容易使用前述算法而群集。图23B说明对应于同一数据集的另一显示,其展示m/z=700Da/e附近的m/z尺度的扩展图(以及以道尔顿计的MW尺度的扩展图),其展示由顶部面板A1203中的不同
图案化质心描绘的三个相异电荷态。所述显示的顶部面板A1203中的质心A1301对应于具有质量15,305.76Da的蛋白质的+22同位素解析电荷态。在此情况下,这是存在的仅有电荷态分布,但即使质心条A1303和A1305在所讨论电荷态的1Da内发生,所述算法也正确地识别群集。许多当前可用的解卷积程序无法正确地指派电荷态到3Da窗口内的独立分布(两个不同蛋白质)。并且,质心条A1305表示具有质量16,017.57Da的大肠杆菌的蛋白质的+23电荷态。应注意此蛋白质的+23电荷态与具有质量15327.47Da的单独+22电荷态蛋白质的质心条A1303直接重叠。典型解卷积程序不能够正确地指派具有此种类小间距或重叠电荷态的谱中的峰,如通过与图23C的比较可见,图23C展示使用采用常规算法的程序所获取且处理的同一质谱。常规方法不能够在谱的此区中做出任何电荷态指派,如由图中所关注的峰上的“问题标记”指示。图23D已经正确地标记如由我们的采用本文教示的新颖方法的算法指派的用于上述两个重叠电荷态的原始分布数据的电荷态。
[0356] 采用根据本发明教示的方法的程序也可确定并不含有个别地解析的同位素的那些峰的电荷态。在图24A中说明的另一实例中,以变化程度的糖基化展示完整抗体的质谱。图24A的插图中显示抗体的不同糖型的实例。图24B说明范围从148378Da到148763Da的四个解卷积糖型的解卷积分子量。
[0357] 根据本发明教示的方法也具有用于解卷积串连质谱法数据的实用性。在如图25A和25B中说明的另一实例中,针对碰撞激活解离而选择来自蛋白质碳酸酐酶II的两个电荷态。在图25A中展示碳酸酐酶II的+26电荷态的MS/MS谱和对应解卷积。与使用常规算法的仅9%相比,此处正确地识别64%的质心。甚至在许多MS/MS片段并不产生同一片段的多个电荷态的情况下也群集确切50%的质心。经正确识别的片段离子的总数是35。图25B展示在m/z 1001处的碳酸酐酶II的+21电荷态的MS/MS分段和解卷积。此处正确地群集74%的质心且指派78%的电荷态。使用所述程序识别总共49个片段离子。
[0358] 2.7.引导数据相依性获取以避免冗余测量
[0359] 在建立动态排除列表的传统方法中,m/z值在指定时间周期中放置在列表上,所述时间周期近似为给定化合物/化合物类型的平均峰宽度。当对于小分子或肽(即通常具有相同生理化学性质的胰蛋白酶肽)使用此方法时,其良好起作用而增加与化合物识别过程相关联的动态范围。与其相反,完整蛋白质(如在从上到下蛋白质组研究中测得)在大小、胺基酸组合物、生理化学性质和3-D结构方面广泛变化。此变化率通常导致蛋白质上的更多位点(与较小分子分析物的情况相比)与层析柱的固定相交互。结果是一些峰可能为仅几秒宽,而其它峰可持续约数分钟。图13中说明可预期的变化率的典型实例,其展示从单个层析运行获得的变化峰分布。因此,动态排除的标准方法不是用于从上到下分析的理想拟合。为了矫正此问题,本发明方法采用信号强度分级系统以确定与给定蛋白质相关联的电荷态应当放置在动态排除列表上多长时间。在此新方法中,每一群集的种子质心放在排除列表上。当后续MS1扫描中提出新种子质心时,首先在步骤A510中进行检查以确定所述新质心是否以当前在选择列表上的种子质心中的任一者而群集(图14)。如果是这样,那么进行检查以确定新质心的强度是否已经下降到低于阈值(如原始种子质心的强度的分数)。仅当强度确实下降到低于阈值时,才将原始种子质心从排除列表去掉(步骤A515)。
[0360] 替代地,来自给定蛋白质的所有电荷态可放置在排除列表上,因此避免从用于串连MS分析的同一蛋白质选择不同电荷态。虽然这些电荷态在动态排除列表上,但监视构成所述列表的峰的信号强度直到它们低于经界定最小强度或者存在从在经界定质量差(ppm)的电荷态中的一者的信号增加,其指示具有不同质量和电荷但相同m/z值的两个组分的存在。