包含聚合物单元的聚合物的分析

申请号 CN201280057564.8 申请日 2012-09-21 公开(公告)号 CN104066850B 公开(公告)日 2017-11-10
申请人 牛津楠路珀尔科技有限公司; 发明人 斯图尔特·威廉·里德; 加文·哈珀; 克莱夫·加文·布朗; 詹姆斯·安东尼·克拉克; 安德鲁·约翰·赫伦;
摘要 在 聚合物 (3)例如DNA中的聚合物单元的序列由涉及聚合物的至少一个测量的系列例如作为移位通过纳米孔(1)的函数的离子 电流 来估计,其中每个测量值取决于k聚体,所述k聚体是k个聚合物单元(4)的组。提供了尤其是隐 马 尔可夫模型(HMM)的概率模型,对于一组可能的k聚体,所述模型包括:表示从起源k聚体到目标k聚体的过渡的机会的过渡权重;以及表示观测k聚体的测量的给定值的机会的关于每个k聚体的发射权重。利用参考模型的分析技术例如维特比解码来分析测量的系列,并基于通过由聚合物单元的序列产生的测量的系列的模型所预测的似然来估计在聚合物中的聚合物单元的至少一种估计的序列。在进一步的实施方式中,在移位期间跨越纳米孔施加不同的 电压 以便改善聚合物单元的分辨 力 。
权利要求

1.一种由在聚合物移位通过纳米孔期间进行的测量来估计所述聚合物中的聚合物单元的序列的方法,其中,每个测量的值取决于k聚体,所述k聚体是k个聚合物单元的组,其中k是正的复整数,所述方法包括:
提供模型,对于一组可能的k聚体,所述模型包括:
过渡权重,所述过渡权重表示从起源k聚体到目标k聚体的过渡的机会,和关于每个k聚体的发射权重,所述发射权重表示观测该k聚体的测量的给定值的机会;
接收至少一种输入信号,所述输入信号包含测量的输入系列,其中,多个测量的组取决于相同的k聚体,而没有在所述组中测量的数目的先验知识;
处理所述至少一种输入信号以确定测量的连续组以及导出关于每个确定组的测量的预定数目,所述预定数目是一个或多个,从而导出关于所述输入信号或每个输入信号的测量的系列;以及
利用参考所述模型的分析技术来分析由此导出的所述测量的系列并且基于通过由聚合物单元的序列产生的所述测量的系列的模型所预测的似然来估计所述聚合物中的聚合物单元的至少一种估计的序列。
2.根据权利要求1所述的方法,其中,所述发射权重表示观测所有可能的测量的非零机会。
3.根据权利要求1所述的方法,其中,关于每个k聚体的所述发射权重相对于测量的值具有单峰或多峰分布。
4.根据权利要求3所述的方法,其中,关于每个k聚体的所述发射权重相对于测量的值具有高斯、拉普拉斯、正方或三分布。
5.根据权利要求1所述的方法,其中,所述过渡权重表示优选过渡的非零机会,所述优选过渡是从起源k聚体到具有其中第一(k-1)聚合物单元是所述起源k聚体的最后(k-1)聚合物单元的序列的目标k聚体的过渡,并且表示非优选过渡的较低机会,所述非优选过渡是从起源k聚体到具有不同于所述起源k聚体并且其中所述第一(k-1)聚合物单元不是所述起源k聚体的最后(k-1)聚合物单元的序列的目标k聚体的过渡。
6.根据权利要求5所述的方法,其中,所述过渡权重表示至少一些所述非优选过渡的非零机会。
7.根据权利要求6所述的方法,其中,所述过渡权重表示从起源k聚体到具有其中第一(k-2)聚合物单元是所述起源k聚体的最后(k-2)聚合物单元的序列的目标k聚体的非优选过渡的非零机会。
8.根据权利要求1至7中任一项所述的方法,其中,所述分析技术是概率技术。
9.根据权利要求1至7中任一项所述的方法,其中,所述过渡权重是概率,和/或所述发射权重是概率。
10.根据权利要求1至7中任一项所述的方法,其中,所述模型是隐尔可夫模型。
11.根据权利要求1至7中任一项所述的方法,其中,所述分析步骤进一步包括导出关于所述估计序列或每个估计序列的质量得分,所述质量得分表示通过由聚合物单元的估计序列产生的测量的系列的模型预测的似然。
12.根据权利要求1至7中任一项所述的方法,其中,所述分析步骤进一步包括导出关于对应于聚合物单元的估计序列的单独k聚体的质量得分,所述质量得分表示通过由包括所述单独k聚体的序列产生的测量的系列的模型所预测的似然。
13.根据权利要求1至7中任一项所述的方法,其中,所述分析步骤进一步包括导出关于对应于聚合物单元的估计序列的k聚体的序列的质量得分,所述质量得分表示通过由k聚体的给定序列产生的测量的系列的模型所预测的似然。
14.根据权利要求1至7中任一项所述的方法,其中,所述分析步骤导出在所述聚合物中的聚合物单元的多个估计序列。
15.根据权利要求1至7中任一项所述的方法,其中,估计所述聚合物中的聚合物单元的至少一种估计序列的步骤包括:
基于通过由单独k聚体产生的测量的系列的模型所预测的似然来估计k聚体的序列;以及
由k聚体的估计序列来估计聚合物单元的序列。
16.根据权利要求1至7中任一项所述的方法,其中,估计所述聚合物中的聚合物单元的至少一种估计序列的步骤包括:
基于通过由k聚体的整个序列产生的测量的系列的模型所预测的似然来估计k聚体的至少一种序列;以及
由k聚体的估计序列来估计聚合物单元的序列。
17.根据权利要求1至7中任一项所述的方法,其中,在所述聚合物以棘轮方式移位通过所述纳米孔期间进行所述测量。
18.根据权利要求1至7中任一项所述的方法,其中,所述聚合物是多核苷酸,并且所述聚合物单元是核苷酸。
19.根据权利要求1至7中任一项所述的方法,其中,所述纳米孔是生物孔。
20.根据权利要求1至7中任一项所述的方法,其中,所述测量包括电流测量、阻抗测量、隧道效应测量、FET测量和光学测量中的一种或多种。
21.根据权利要求1至7中任一项所述的方法,其中
对各自涉及所述聚合物的多个测量的输入系列进行所述方法,其中每个测量的值取决于k聚体,
所述分析技术处理以多个、各自的维度安排的多个测量的系列。
22.根据权利要求21所述的方法,其中,每个测量的输入系列是相同聚合物的相同区的测量。
23.根据权利要求21所述的方法,其中,所述多个测量的输入系列包括测量的两个系列,其中测量的第一输入系列是聚合物的第一区的测量以及测量的第二输入系列是与所述第一区相关的聚合物的第二区的测量。
24.根据权利要求23所述的方法,其中,所述第一区和第二区是相同聚合物的相关区。
25.根据权利要求23所述的方法,其中,所述相关区是互补的。
26.根据权利要求1至7中任一项所述的方法,其中,所述模型被存储在存储器中。
27.根据权利要求1至7中任一项所述的方法,其中,在硬件设备中或在计算机设备中实施提供模型和分析测量的步骤。
28.根据权利要求1至7中任一项所述的方法,其中,所述测量的预定数目包括测量的组的平均值、中值或平的其它度量。
29.根据权利要求1至7中任一项所述的方法,其中,所述测量的预定数目是复数。
30.根据权利要求29所述的方法,其中,所述测量的预定数目包括测量的组的平均值、中值或水平的其它度量以及测量的组的方差。
31.根据权利要求1至7中任一项所述的方法,进一步包括进行聚合物的所述测量。

说明书全文

包含聚合物单元的聚合物的分析

[0001] 本发明总体上涉及通过进行涉及聚合物的测量来分析包含聚合物单元的聚合物例如但不限于多核苷酸的领域。本发明的第一方面特别涉及在聚合物中聚合物单元的序列的估计。本发明的第二和第三方面涉及在聚合物的移位期间测量流过纳米孔(nanopore)的离子电流,用于聚合物的分析。
[0002] 存在许多类型的测量系统,其提供聚合物的测量,用于分析聚合物和/或确定聚合物单元的序列的目的。
[0003] 例如但不限于,一种类型的测量系统采用聚合物通过其移位的纳米孔。系统的一些性能取决于在纳米孔中的聚合物单元,并进行上述性能的测量。例如,可以通过将纳米孔放置在绝缘膜中并在有分析物分子存在的条件下测量通过纳米孔的电压驱动的离子转运来产生测量系统。取决于纳米孔的特性,通过它的独特的离子电流特征,可以揭示分析物的同一性(特性,identity),尤其是电流单元(current block)的持续时间和程度以及电流平的变化。上述类型的使用纳米孔的测量系统大有前途,尤其是在多核苷酸如DNA或RNA的测序领域,并且一直是最近很大发展的主题。
[0004] 在广泛的应用范围内,目前需要快速和廉价的核酸(例如DNA或RNA)测序技术。现有技术是缓慢和昂贵的,主要是因为它们依靠扩增技术来产生大量的核酸并需要大量的用于信号检测的专荧光化学物质。通过减少所需要的核苷酸和试剂的量,纳米孔检测有可能提供快速和廉价的核酸测序。
[0005] 本发明涉及一种情况,其中每个测量的值取决于k个聚合物单元的组,其中k是正整数(即‘k聚体’)。
[0006] 此外,典型的是,用于每个测量的值的许多类型的测量系统,包括大多数目前已知的生物纳米孔,是取决于k聚体,其中k是复整数(plural integer)。这是因为,多于一个的聚合物单元有助于观测到的信号并且可以概念上被认为是具有大于待测量的聚合物单元的“钝性读出头”的测量系统。在这样的情况下,待解析的不同k聚体的数目增加到k的乘方。例如,如果存在n个可能的聚合物单元,则待解析的不同k聚体的数目是nk。虽然期望的是,在不同k聚体的测量之间具有清晰的分离,但常见的是,这些测量的一些是重叠的。尤其是在k聚体中聚合物单元的高数目(即k的高值)的情况下,可以变得难以解析由不同k聚体产生的测量,从而不利于导出关于聚合物的信息,例如聚合物单元的基本序列的估计。
[0007] 因此,许多开发工作一直是针对可以改善测量的分辨率的测量系统的设计。这在实际测量系统中是困难的,这是由于测量的变化,其可以在不同程度上由基本物理或生物系统的内在变化和/或由于待测量性能的较小幅度不可避免的测量噪声产生。
[0008] 许多研究已旨在测量系统的设计,上述测量系统提供可分辨的测量,其取决于单个聚合物单元。然而,这在实践中已被证明是困难的。
[0009] 其它工作已接受取决于k聚体的测量,其中k是复整数,但已旨在设计这样的测量系统,其中来自不同k聚体的测量是彼此可分辨的。然而,实际限制再次意味着这是非常困难的。由一些不同k聚体产生的信号的分布经常可以重叠。
[0010] 原则上,也许可以结合来自k个测量的信息,其中k是复整数,其各自部分地取决于相同的聚合物单元以获得在聚合物单元的水平上被解析的单值。然而,这在实践中是困难的。首先,这依赖于确定适宜的变换以变换一组k个测量的可能性。然而,对于许多测量系统,由于在基本物理或生物系统中相互作用的复杂性,这样的变换并不存在或对其加以确定是不切实际的。其次,即使对于给定测量系统而言这样的变换可以原则上存在,但测量的变化使得这种变换难以确定和/或变换仍可能提供不能彼此加以解析的值。第三,借助于这样的技术,难以或不可能考虑到错过的测量,即其中取决于给定k聚体的测量在聚合物单元的序列中失去,如在实际测量系统中有时可以是这种情况,例如由于测量系统未能进行测量或由于在随后数据处理中的错误。
[0011] 本发明的第一方面涉及提供这样的技术,其改善由取决于k聚体的这种测量来估计在聚合物中聚合物单元的序列的准确性。
[0012] 按照本发明的第一方面,提供了用于由涉及聚合物的至少一个测量的系列来估计在聚合物中聚合物单元的序列的方法,其中每个测量的值取决于k聚体,k聚体是k个聚合物单元的组,其中k是正整数,上述方法包括:
[0013] 提供模型,对于一组可能的k聚体所述模型包括:
[0014] 过渡权重(transition weightings),其表示从起源k聚体(起点k聚体,origin k-mers)到目标k聚体(目的k聚体,destination k-mers)的过渡(转变,transitions)的机会(chances),以及
[0015] 关于每个k聚体的发射权重(emission weightings),其表示观测k聚体的测量的给定值的机会;以及
[0016] 利用其指的是模型的分析技术来分析测量系列,并基于通过由聚合物单元的序列产生的测量系列的模型所预测的似然(可能性,likelihood)来估计在聚合物中的聚合物单元的至少一种估计的序列。
[0017] 进一步根据本发明的第一方面,提供了实施类似方法的分析设备。
[0018] 因此,本发明的第一方面利用了产生测量的测量系统的模型。给定任何测量系列,模型表示已产生那些测量的k聚体的不同序列的机会。本发明的第一方面特别适合于这样的情况,其中每个测量的值取决于k聚体,其中k是复整数。
[0019] 上述模型考虑可能的k聚体。例如,在聚合物中,其中每个聚合物单元可以是4个聚合物单元(或者更一般地n个聚合物单元)的一个,存在4k种可能的k聚体(或者更一般地nk种可能的k聚体),除非任何特定的k聚体物理上并不存在。对于可以存在的所有k聚体,发射权重考虑到观测测量的给定值的机会。关于每种k聚体的发射权重表示观测k聚体的测量的给定值的机会。
[0020] 过渡权重表示从起源k聚体到目标k聚体的过渡的机会,因此,考虑到k聚体的机会,在不同k聚体之间的过渡的测量取决于上述k聚体。因此过渡权重可以考虑到更多和更少可能的过渡。通过举例的方式,其中k是复整数,对于给定起源k聚体,这可以表示与非优选过渡相比优选过渡的更大的机会,所述优选过渡是到具有其中第一(k-1)聚合物单元是起源k聚体的最后(k-1)聚合物单元的序列的目标k聚体的过渡,所述非优选过渡是到具有不同于起源k聚体以及其中第一(k-1)聚合物单元不是起源k聚体的最后(k-1)聚合物单元的序列的目标k聚体的过渡。例如,对于其中聚合物单元是天然存在的DNA基的3聚体,状态CGT具有到GTC、GTG、GTT和GTA的优选过渡。通过举例而非限制性地,模型可以是其中过渡权重和发射权重是概率(probabilities)的隐尔可夫模型。
[0021] 这允许利用指的是模型的分析技术来分析测量系列。基于通过由聚合物单元的序列产生的测量系列的模型所预测的似然来估计在聚合物中的聚合物单元的至少一种估计的序列。例如但不限于,分析技术可以是概率技术。
[0022] 尤其是,来自单独k聚体的测量不需要是彼此可分辨的,并且并不需要存在从取决于相同聚合物单元的k个测量的组到关于变换的值的变换,即观测到的状态的组并不需要是较小数目的参数的函数(虽然这并不被排除)。相反,上述模型的使用可以提供准确估计,其中通过在考虑通过聚合物单元的序列产生的测量系列的模型所预测的似然时考虑到多个测量。从概念上讲,过渡权重可以被视为,在任何给定聚合物单元的估计中允许模型考虑到至少k个测量,其部分取决于上述聚合物单元,并且确实还取决于来自在序列中的较大距离的测量。在任何给定聚合物单元的估计中,上述模型可以有效地考虑到大量的测量,从而给出可以是更准确的结果。
[0023] 类似地,这样的模型的使用可以允许分析技术考虑到从给定k聚体失去的测量和/或考虑到在由给定k聚体产生的测量中的离群值(outliers)。这可以用过渡权重和/或发射权重加以解释。例如,过渡权重可以表示至少一些非优选过渡的非零机会和/或发射权重可以表示观测所有可能的测量的非零机会。
[0024] 本发明的第二和第三方面涉及提供这样的技术,利用当聚合物移位通过纳米孔时流过纳米孔的离子电流的测量,其协助聚合物的分析。
[0025] 依据本发明的第二方面,提供了分析包含聚合物单元的聚合物的方法,该方法包括:
[0026] 在聚合物移位通过纳米孔期间,当跨越纳米孔施加电压时,进行测量,其取决于在纳米孔中k聚体的同一性,k聚体是聚合物的k个聚合物单元,其中k是正整数,其中关于单独k聚体的测量包括在跨越纳米孔施加的不同水平的所述电压下进行的分开测量;以及[0027] 在所述不同水平的所述电压下分析测量以确定至少部分聚合物的同一性。
[0028] 上述方法涉及进行测量,其取决于在纳米孔中k聚体的同一性,k聚体是聚合物的k个聚合物单元,其中k是正整数。尤其是,关于单独k聚体的测量包括在跨越纳米孔施加的不同水平的所述电压下进行的分开测量。本发明人已经认识到和证实,上述在跨越纳米孔施加的不同水平的所述电压下的测量提供另外的信息,而不是仅仅重复的。例如,在不同电压下的测量允许不同状态的分辨率。例如,在给定电压下不能被解析的一些k聚体可以在另一电压下被解析。
[0029] 本发明的第三方面提供了在跨越纳米孔施加不同水平的电压下进行测量的方法,其可以可选地应用于本发明的第二方面。尤其是,根据本发明的第三方面,提供了对包含聚合物单元的聚合物进行测量的方法,该方法包括:
[0030] 当跨越纳米孔施加电压时,进行所述聚合物通过纳米孔的移位;
[0031] 在聚合物通过纳米孔的所述移位期间,以一定循环,施加不同水平的所述电压,以及
[0032] 进行取决于在纳米孔中k聚体的同一性的测量,k聚体是聚合物的k个聚合物单元,其中k是正整数,上述测量包括以所述循环在所述不同水平的所述电压下关于单独k聚体的分开测量,上述循环具有这样的循环周期,其短于其中所述测量取决于所述单独k聚体的状态。
[0033] 因此,本发明的第三方面提供了与本发明的第二方面相同的优点,尤其是测量提供另外的信息,而不是仅仅重复的。在不同电压下的测量提供了在随后的测量分析中不同状态的分辨。例如,在给定电压下不能被解析的一些状态可以在另一电压下被解析。
[0034] 这是基于这样的创新,其中在聚合物通过纳米孔的单个移位期间获得在不同电压下的测量。这是通过以一定循环改变所述电压的水平来实现,选择上述循环使得循环周期短于待测量的状态的持续时间。
[0035] 然而,在本发明的第二方面内,并不必需使用这种方法。作为一种替代方案,可以在聚合物通过纳米孔的不同移位期间,其可以是在相同方向上的移位,或可以包括在相反方向上的移位,在不同量值的电压下,进行离子电流测量。
[0036] 因此,本发明的第二方面和第三方面的方法可以提供另外的信息,其改善随后的测量分析,以导出关于聚合物的信息。可以导出的信息的类型的一些实例如下。
[0037] 分析可以用来导出在状态之间过渡的时序。在这种情况下,通过在不同电位下测量每种状态所提供的另外的信息会改善准确性。例如,在一种电压下在两种状态之间的过渡不能加以解析的情况下,通过在另一电压下改变离子电流测量的水平可以确定上述过渡。这潜在地允许鉴定这样的过渡,其仅在一种电压下工作将不是显而易见的,或较高置信度地确定过渡事实上并不发生。这种鉴定可以用于随后的测量分析。
[0038] 一般来说,相比于在一种电压水平下可以获得的,在不同电压水平下进行测量会提供更多信息。例如在通过纳米孔的离子流的测量中,可以获自测量的信息包括电流水平和针对特定状态的信号变化(噪声)。例如对于DNA通过纳米孔的移位,包含核苷酸碱基G的k聚体倾向于产生具有增加的信号变化的状态。可能难以确定状态的过渡是否已发生,例如由于相应的状态具有类似的电流水平或其中一种或两种相应的状态具有高信号变化。对于不同电压水平,针对特定状态的电流水平和信号变化可以不同,因而在不同电压水平下的测量可以使得能够确定高变化状态或增加在确定状态时的置信水平。因此,相比于另一个电压水平,在一种电压水平下,可以更容易确定在状态之间的过渡。
[0039] 分析可以是估计聚合物的同一性或估计在聚合物中聚合物单元的序列。在这种情况下,由在不同电位下每个状态的测量提供的另外的信息会改善估计的准确性。
[0040] 在估计聚合物单元的序列的情况下,分析可以使用根据本发明的第一方面的方法。因此,以任何组合,本发明的第一方面的特点可以与本发明的第二方面和/或第三方面的特点结合。
[0041] 进一步根据本发明的第二和第三方面,提供了用来实施类似方法的分析设备。
[0042] 为了允许更好的理解,现将通过非限制性实例参照附图来描述本发明的实施方式,其中:
[0043] 图1是包括纳米孔的测量系统的示意图;
[0044] 图2是随着时间的推移通过测量系统测得的事件的信号图;
[0045] 图3是在包括纳米孔的测量系统中两种不同多核苷酸的测量的频率分布图;
[0046] 图4和5分别是64个3聚体系数和1024个5聚体系数的图(plot),其相对于来自适用于实验得出的电流测量的集合的一阶线性模型的预测值;
[0047] 图6是包含聚合物的测量的输入信号的分析方法的流程图
[0048] 图7是图6的状态检测步骤的流程图;
[0049] 图8是图6的分析步骤的流程图;
[0050] 图9和10分别是经受状态检测步骤的输入信号和产生的测量系列的曲线图;
[0051] 图11是跃迁矩阵(转换矩阵,transition matrix)的图形表示;
[0052] 图12是在模拟实例中关于k聚体状态的预期测量的图;
[0053] 图13示出模拟自图12所示的预期测量的输入信号;
[0054] 图14示出源自图13的输入信号的一系列测量;
[0055] 图15和16示出过渡权重的相应的跃迁矩阵;
[0056] 图17至19是具有分别为高斯、三(triangular)和正方(square)的可能的分布的发射权重的图;
[0057] 图20是在一组模拟测量和图12所示的预期测量之间的电流的空间排列(电流的空间比对,current space alignment)的图;
[0058] 图21是在实际k聚体和从图20的模拟测量估计的k聚体之间的k聚体空间排列的图;
[0059] 图22是在另一组模拟测量和图12所示的预期测量之间的电流的空间排列的图;
[0060] 图23和24是在实际k聚体和分别借助于图15和16的跃迁矩阵从图22的模拟测量估计的k聚体之间的k聚体空间排列的图;
[0061] 图25是具有小的非零背景的正方分布的发射权重的散布图,其中分布集中于图12的预期测量上;
[0062] 图26是在实际k聚体和借助于图15的跃迁矩阵和图25的发射权重从图20的模拟测量估计的k聚体之间的k聚体空间排列的图;
[0063] 图27是具有零背景的正方分布的发射权重的图,其中分布集中于图12的预期测量上;
[0064] 图28是在实际k聚体和借助于图15的跃迁矩阵和图27的发射权重从图20的模拟测量估计的k聚体之间的k聚体空间排列的图;
[0065] 图29是利用链霉亲和素由保持在MS-(B2)8纳米孔中的DNA链获得的电流测量的散布图;
[0066] 图30是用于示例性训练过程的跃迁矩阵;
[0067] 图31是图30的跃迁矩阵的放大部分;
[0068] 图32和33是分别对于源自静态训练过程的64种k聚体的模型和上述模型平移成大约400种状态的模型的发射权重的图;
[0069] 图34是训练过程的流程图;
[0070] 图35是由图34的训练过程确定的发射权重的图;
[0071] 图36是利用来自模型的预期测量在许多实验上汇集的电流测量的图;
[0072] 图37是在实际k聚体和估计k聚体之间的k聚体空间排列的图;
[0073] 图38示出用实际序列校准的估计k聚体的估计序列;
[0074] 图39示出聚合物的有义和反义区的单独的估计序列,以及通过处理来自以两个相应的维度设置的有义和反义区的测量所导出的估计序列;
[0075] 图40是在第一实例中在三种不同电压下在纳米孔中的一组DNA链的离子电流测量的一组柱状图;
[0076] 图41是在第二实例中在共同时间期间内对纳米孔中的单链的施加电位和生成的离子电流的一对图;
[0077] 图42至45是在第二实例中分别水平索引在4个水平的电压下每个DNA链的测得电流的散布图;
[0078] 图46是在第二实例中相对于施加电压测得的每个DNA链的电流图;
[0079] 图47是在第二实例中相对于施加电压每个DNA链的电流测量的标准偏差图;
[0080] 图48是用于进行离子电流测量的方法的流程图;
[0081] 图49和50各自是在第三实例中在共同时间期间内施加电位和生成的离子电流的一对图;
[0082] 图51是用于进行离子电流测量的一种替代方法的流程图;以及
[0083] 图52a和52b是在相同的时间尺度上跨越纳米孔施加的成形电压步骤和产生的电流的图。本发明的所有方面可以应用于如下聚合物范围。
[0084] 聚合物可以是多核苷酸(或核酸)、多肽如蛋白、多糖、或任何其它聚合物。聚合物可以是天然或合成的。
[0085] 在多核苷酸或核酸的情况下,聚合物单元可以是核苷酸。核酸通常是脱核糖核酸(DNA)、核糖核酸(RNA)、cDNA或合成核酸(在本领域中已知的),如肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、核酸(LNA)或具有核苷酸侧链的其它合成聚合物。核酸可以是单链、是双链、或包含单链和双链区。通常,cDNA、RNA、GNA、TNA或LNA是单链的。本发明的方法可以用来确定任何核苷酸。核苷酸可以是天然存在的或人工的。核苷酸通常包含核碱、糖和至少一个磷酸酯基团。核碱通常是杂环的。适宜的核碱包括嘌呤和嘧啶以及更具体地腺嘌呤、嘌呤、胸腺嘧啶、尿嘧啶和胞嘧啶。上述糖通常是戊糖。适宜的糖包括但不限于核糖和脱氧核糖。核苷酸通常是核糖核苷酸或脱氧核糖核苷酸。核苷酸通常包含单磷酸酯、二磷酸酯或三磷酸酯。
[0086] 核苷酸可以是损伤或表遗传碱基。核苷酸可以被标记或修饰以作为具有明显信号的标记物。这种技术可以用来确定碱基的缺乏,例如,在多核苷酸中的无碱基单元或隔离物。上述方法也可以应用于任何类型的聚合物。
[0087] 当考虑修饰或损伤DNA(或类似系统)的测量时,具有特别用途的是其中考虑互补数据的方法。提供的另外的信息允许在较大数目的基本状态之间加以区别。
[0088] 在多肽的情况下,聚合物单元可以是天然存在的或合成的基酸。
[0089] 在多糖的情况下,聚合物单元可以是单糖。
[0090] 本发明可以应用于通过一范围的测量系统进行的测量(如下文进一步讨论的)。
[0091] 根据本发明的所有方面,测量系统可以是包括纳米孔的纳米孔系统。在这种情况下,可以在聚合物移位通过纳米孔期间进行测量。聚合物通过纳米孔的移位会产生在测得特性中的特征信号,其可以被观测到,并且可以作为总体被称为“事件”。
[0092] 纳米孔是孔,通过具有纳米级的尺寸,其允许聚合物通过其中。可以测量取决于聚合物单元移位通过孔的性能。上述性能可以与在聚合物和孔之间的相互作用相关。在孔的狭窄区(constricted region)处可以发生聚合物的相互作用。测量系统测量性能,从而产生取决于聚合物的聚合物单元的测量。
[0093] 纳米孔可以是生物孔或固态孔。
[0094] 在纳米孔是生物孔的情况下,它可以具有以下性能。
[0095] 生物孔可以是跨膜蛋白质孔。根据本发明使用的跨膜蛋白质孔可来自β-桶孔(barrel pore)或α-螺旋束孔。β-桶孔包含桶或通道,其由β-链形成。适宜的β-桶孔包括但不限于β-毒素,如α-溶血素、炭疽毒素和杀白细胞素,以及细菌的外膜蛋白/孔蛋白,如耻垢分枝杆菌孔蛋白(Mycobacterium smegmatis porin)(Msp),例如MspA、外膜孔蛋白F(OmpF)、外膜孔蛋白G(OmpG)、外膜磷脂酶A和奈瑟菌自转运脂蛋白(NalP)。α-螺旋束孔包含桶或通道,其由α-螺旋形成。适宜的α-螺旋束孔包括但不限于内膜蛋白和α外膜蛋白,如WZA和ClyA毒素。跨膜蛋白可以源自Msp或源自α-溶血素(α-HL)。
[0096] 跨膜蛋白质孔通常源自Msp,优选源自MspA。这样的孔将是寡聚的并且通常包含源自Msp的7、8、9或10个单体。孔可以是源自包含相同单体的Msp的同源寡聚体孔。可替换地,孔可以是异寡聚体孔,该异寡聚体孔源自Msp,其包含至少一种不同于其它单体的单体。上述孔还可以包含一种或多种构建体,其包含源自Msp的两种或更多种共价连接单体。适宜的孔披露于美国临时申请号61/441,718(2011年2月11日提交)中。优选地,上述孔来自MspA或其同系物或旁系同源物(paralog)。
[0097] 生物孔可以是天然产生的孔或可以是突变体孔。典型孔描述于WO-2010/109197,Stoddart D et al.,Proc Natl Acad Sci,12;106(19):7702-7,Stoddart D et al.,Angew Chem Int Ed Engl.2010;49(3):556-9,Stoddart D et al.,Nano Lett.2010Sep8;10(9):3633-7,Butler TZ et al.,Proc Natl Acad Sci2008;105(52):20647-52,以及美国临时申请61/441718中。
[0098] 生物孔可以是MS-(B1)8。编码B1的核苷酸序列和B1的氨基酸序列示于下文(Seq ID:1和Seq ID:2)。
[0099] Seq ID 1:MS-(B1)8=MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0100] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGATACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATATATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCACTGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTCTGATCAACAATGGTAACATTACCGCACCGCCGTTTGGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCATTCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCGTTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACCTATGGCGAACCGTGGAATATGAACTAA
[0101] Seq ID2:MS-(B1)8=MS-(D90N/D91N/D93N/D118R/D134R/E139K)8
[0102] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYOIGFPWSLGVGINFSYTTPNILINNGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSNAHGTVTGAAGGVLLRPFARLIASTGDSVTTYGEPWNMN
[0103] 生物孔更优选地是MS-(B2)8。除突变L88N之外,B2的氨基酸序列与B1的氨基酸序列相同。编码B2的核苷酸序列和B2的氨基酸序列示于下文(Seq ID:3和Seq ID:4)。
[0104] Scq ID3:MS-(B2)8=MS-(L88N/D90N/D91N/D93N/D118R/D134R~E139K)8
[0105] ATGGGTCTGGATAATGAACTGAGCCTGGTGGACGGTCAAGATCGTACCCTGACGGTGCAACAATGGGATACCTTTCTGAATGGCGTTTTTCCGCTGGATCGTAATCGCCTGACCCGTGAATGGTTTCATTCCGGTCGCGCAAAATATATCGTCGCAGGCCCGGGTGCTGACGAATTCGAAGGCACGCTGGAACTGGGTTATCAGATTGGCTTTCCGTGGTCACTGGGCGTTGGTATCAACTTCTCGTACACCACGCCGAATATTAACATCAACAATGGTAACATTACCGCACCGCCGTTTGGCCTGAACAGCGTGATTACGCCGAACCTGTTTCCGGGTGTTAGCATCTCTGCCCGTCTGGGCAATGGTCCGGGCATTCAAGAAGTGGCAACCTTTAGTGTGCGCGTTTCCGGCGCTAAAGGCGGTGTCGCGGTGTCTAACGCCCACGGTACCGTTACGGGCGCGGCCGGCGGTGTCCTGCTGCGTCCGTTCGCGCGCCTGATTGCCTCTACCGGCGACAGCGTTACGACCTATGGCGAACCGTGGAATATGAACTAA
[0106] Seq ID4:MS-(B2)8=MS-(L88N/D90N/D91N/D93N/D118R/D134R/E139K)8
[0107] GLDNELSLVDGQDRTLTVQQWDTFLNGVFPLDRNRLTREWFHSGRAKYIVAGPGADEFEGTLELGYQIGFPWSLGVGINFSYTTPNININNGNITAPPFGLNSVITPNLFPGVSISARLGNGPGIQEVATFSVRVSGAKGGVAVSNAHGTVTGAAGGVLLRPFARLIASTGDSVTTYGEPWNMN
[0108] 可以将生物孔插入两亲层如生物膜,例如脂双层中。两亲层是这样的层,其由具有亲水性和亲脂性的两亲分子如磷脂形成。两亲层可以是单层或双层。两亲层可以是共嵌段聚合物如由(Gonzalez-Perez et al.,Langmuir,2009,25,10447-10450)所披露的。可替换地,可以将生物孔插入固态层中。
[0109] 可替换地,纳米孔可以是固态孔,其包含在固态层中形成的孔。
[0110] 固态层并不是生物起源的。换句话说,固态层不是源自或分离自生物环境如生物体或细胞、或生物可利用结构的合成制造形式。固态层可以由有机和无机材料形成,其包括但不限于微电子材料,绝缘材料如Si3N4、A12O3、和SiO,有机和无机聚合物如聚酰胺塑料如或弹性体如双组分加成固化橡胶,以及玻璃。固态层可以由石墨烯形成。适宜的石墨烯层披露于WO2009/035647和WO-2011/046706中。
[0111] 固态孔通常是在固态层中的孔。可以用化学方式或其它方式来改性孔,以增强其作为纳米孔的性能。可以连同另外的元件一起来使用固态孔,其中上述另外的元件提供聚合物的替代的或附加的测量,如隧道电极(Ivanov AP et al.,Nano Lett.2011Jan12;11(1):279-85)、或场效应晶体管(FET)装置(国际申请WO2005/124888)。可以通过已知方法,包括例如在WO00/79257中描述的那些方法,来形成固态孔。
[0112] 在一种类型的测量系统中,可以使用流过纳米孔的离子电流的测量。可以利用如描述于Stoddart D et al.,Proc Natl Acad Sci,12;106(19):7702-7,Lieberman KR et al,J Am Chem Soc.2010;132(50):17961-72和国际申请WO-2000/28312中的标准单通道记录装置,来进行这些和其它电子测量。可替换地,可以利用例如描述于国际申请WO-2009/077734和国际申请WO-2011/067559中的多通道系统来进行电子测量。
[0113] 为了允许当聚合物移位通过纳米孔时进行测量,可以通过聚合物结合部分来控制移位速率。通常,借助于或针对施加场,该部分可以移动聚合物通过纳米孔。该部分可以是分子马达,其利用例如,在该部分是酶的情况下,酶促活性,或作为分子刹车。在聚合物是多核苷酸的情况下,提出了许多方法来控制移位速率,包括使用多核苷酸结合酶。用于控制多核苷酸的移位速率的适宜的酶包括但不限于聚合酶、螺旋酶、外切核酸酶、单链和双链结合蛋白、以及拓扑异构酶,如促旋酶。对于其它聚合物类型,可以使用与上述聚合物类型相互作用的部分。聚合物相互作用部分可以是任何披露于国际申请号PCT/GB10/000133或US61/441718(Lieberman KR et al,J Am Chem Soc.2010;132(50):17961-72)中,以及用于电压门控方案(Luan B et al.,Phys Rev Lett.2010;104(23):238103)中的部分。
[0114] 可以以许多方式来使用聚合物结合部分以控制聚合物移动。借助于或针对施加场,上述部分可以移动聚合物通过纳米孔。上述部分可以用作分子马达,其利用例如,在上述部分是酶的情况下,酶促活性,或作为分子刹车。可以通过控制聚合物通过孔的移动的分子棘轮(molecular ratchet),来控制聚合物的移位。分子棘轮可以是聚合物结合蛋白。对于多核苷酸,多核苷酸结合蛋白优选是多核苷酸处理酶。多核苷酸处理酶是一种多肽,其能够与多核苷酸相互作用并改进多核苷酸的至少一种性能。上述酶可以通过切割其来修饰多核苷酸以形成单个核苷酸或核苷酸的较短链,如二或三核苷酸。上述酶可以通过定向它或移动它到特定位置来修饰多核苷酸。多核苷酸处理酶并不需要显示酶促活性,只要它能够结合靶多核苷酸并控制它通过孔的移动。例如,可以修饰上述酶以除去它的酶促活性,或可以在防止它作为酶的条件下加以使用。下文更详细地讨论这样的条件。
[0115] 多核苷酸处理酶可以源自核水解酶。在酶的构建体中使用的多核苷酸处理酶更优选地源自任何酶分类(EC)组3.1.11、3.1.13、3.1.14、3.1.15、3.1.16、3.1.21、3.1.22、3.1.25、3.1.26、3.1.27、3.1.30和3.1.31的成员。上述酶可以是披露于国际申请号PCT/GB10/000133(公开为WO2010/086603)中的任何酶。
[0116] 优选的酶是聚合酶、外切核酸酶、螺旋酶和拓扑异构酶,如促旋酶。适宜的酶包括但不限于来自大肠杆菌的外切核酸酶I(SEQ ID NO:8)、来自大肠杆菌的外切核酸酶III酶(SEQ ID NO:10)、来自极端嗜热菌(T.thermophilus)的RecJ(SEQ ID NO:12)和噬菌体λ外切核酸酶(SEQ ID NO:14)以及它们的变体。包含示于SEQ ID NO:14中的序列或其变体的三个亚单位相互作用以形成三聚体外切核酸酶。上述酶优选源自Phi29DNA聚合酶。源自Phi29聚合酶的一种酶包含示为SEQ ID NO:6或其变体的序列。
[0117] SEQ ID NO:6、8、10、12或14的变体是一种酶,该酶具有氨基酸序列,其不同于SEQ ID NO:6、8、10、12或14的氨基酸序列并且其保留多核苷酸结合能。上述变体可以包括修饰,其促进多核苷酸的结合和/或促进它在高盐浓度和/或室温下的活性。
[0118] 对于SEQ ID NO:6、8、10、12或14的氨基酸序列的整个长度,基于氨基酸同一性,变体将优选至少50%同源于上述序列。更优选地,对于整个序列,基于氨基酸同一性,变体多肽可以是至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%以及更优选地至少95%、97%或99%同源于SEQ ID NO:6、8、10、12或14的氨基酸序列。
对于200或更多,例如230、250、270或280或更多相邻氨基酸的一段序列,可以存在至少
80%,例如至少85%、90%或95%的氨基酸同一性(“硬同源性”)。如上所述,确定同源性。以上文讨论的任何方式,参比SEQ ID NO:2,变体可以不同于野生型序列。如上文所讨论的,酶可以共价连接于孔。
[0119] 用于单链DNA测序的两种策略是,借助于或针对施加电位,顺式至反式和反式至顺式地使DNA移位通过纳米孔。用于链测序的最有利的机制是在施加电位下单链DNA通过纳米孔的受控移位。逐渐地或持续地作用于双链DNA的外切核酸酶可以用于孔的顺侧以在施加电位下使剩余单链进料通过,或在反向电位下用于反侧。同样,还可以以类似的方式来使用解旋双链DNA的螺旋酶。也有可能是这样的测序应用,其需要相对于施加电位的链移位,但DNA必须在反向或没有电位下首先被酶“捕获”。在结合以后,借助于切换回来的电位,链将顺式至反式通过孔并通过电流而被保持处于伸展构象。单链DNA外切核酸酶或单链DNA依赖性聚合酶可以作为分子马达,以相对于施加电位,反式至顺式,以受控分步方式,通过孔,拉回最近移位的单链。可替换地,单链DNA依赖性聚合酶可以作为分子刹车,其用来放慢多核苷酸通过孔的移动。在临时申请US61/441718或US临时申请号61/402903中描述的任何部分、技术或酶可以用来控制聚合物移动。
[0120] 然而,替代类型的测量系统和测量也是可能的。
[0121] 以下是替代类型的测量系统的一些非限制性实例。
[0122] 测量系统可以是扫描探针显微镜。扫描探针显微镜可以是原子力显微镜(AFM)、扫描隧道显微镜(STM)或另一种形式的扫描显微镜。
[0123] 在读数器是AFM的情况下,相比于单个聚合物单元的维度,AFM尖端的分辨率可以是较不精细的。因此,测量可以是多个聚合物单元的函数。AFM尖端可以被功能化,从而以替代方式与聚合物单元相互作用或如果它未被功能化。可以以接触模式、非接触模式、轻敲模式或任何其它模式来操作AFM。
[0124] 在读数器是STM的情况下,相比于单个聚合物单元的维度,测量的分辨率可以是较不精细的,使得测量是多个聚合物单元的函数。可以常规地操作STM或进行光谱测量(STS)或以任何其它模式。
[0125] 替代类型的测量的一些实例包括但不限于电子测量和光学测量。J.Am.Chem.Soc.2009,1311652-1653披露了一种适宜的光学方法,其涉及荧光的测量。可能的电子测量包括:电流测量、阻抗测量、隧道效应测量(例如如披露于Ivanov AP et al.,Nano Lett.2011Jan12;11(1):279-85)、以及FET测量(例如如披露于国际申请WO2005/
124888中)。光学测量可以与电子测量(Soni GV et al.,Rev Sci Instrum.2010Jan;81(1):014301)结合。测量可以是跨膜电流测量如通过纳米孔的离子电流的测量。离子电流通常可以是DC离子电流,虽然原则上一种替代方法是使用AC电流(即,在施加AC电压下,流过的AC电流的幅值)。
[0126] 在本文中,术语‘k聚体’是指k个聚合物单元的组,其中k是正整数,包括k是1的情况,其中k聚体是单个聚合物单元。在一些情况下,提及k聚体,其中k是复整数,是k聚体的亚组,一般来说不包括k是1的情况。
[0127] 虽然理想地,借助于许多典型的测量系统,测量将取决于单个聚合物单元,但其中k是复整数的情况下测量取决于聚合物的k聚体。即,在其中k是复整数的情况下,每个测量取决于k聚体中的每个聚合物单元的序列。通常,测量具有这样的特性,其与在聚合物和测量系统之间的相互作用相关。
[0128] 在本发明的一些实施方式中,优选使用这样的测量,其取决于聚合物单元的小组,例如聚合物单元的双联体或三联体(即,其中k=2或k=3)。在其它实施方式中,优选使用这样的测量,其取决于聚合物单元的较大组,即,具有“宽”分辨率。这样的宽分辨率特别可用于检查均聚物区。
[0129] 尤其是,在测量取决于k聚体(其中k是复整数)的情况下,期望的是,对于尽可能多的可能的k聚体,测量是可分辨的(即分离的)。通常,如果由不同k聚体产生的测量很好分布于测量范围和/或具有窄分布,这可以实现。通过不同的测量系统,这可以在不同程度上实现。然而,本发明的独特优势在于,由不同k聚体产生的测量是可分辨的不是必不可少的。
[0130] 图1示意性地说明测量系统8的实例,该系统包括纳米孔,其是插入生物膜2如两亲层中的生物孔1。使包含一系列聚合物单元4的聚合物3移位通过生物孔1,如箭头所示。聚合物3可以是多核苷酸,其中聚合物单元4是核苷酸。聚合物3与生物孔1的活性部分5相互作用,从而引起电性能如跨膜电流依赖于生物孔1内的k聚体而变化。在此实例中,活性部分5被示为与三个聚合物单元4的k聚体相互作用,但这不是限制性的。
[0131] 布置在生物膜2的每侧上的电极6连接于电路7,其包括控制电路71和测量电路72。
[0132] 控制电路71被设置成将电压提供到电极6,用于跨越生物孔1进行施加。
[0133] 测量电路72被设置成测量电性能。因此,测量取决于在生物孔1内的k聚体。
[0134] 由测量系统输出并且其是根据本发明加以分析的输入信号的典型类型的信号是“噪声阶梯波”,虽然不限于这种信号类型。具有这种形式的输入信号的实例示于图2中,其用于利用包括纳米孔的测量系统获得的离子电流测量的情况。
[0135] 这种类型的输入信号包括测量的输入系列,其中连续的多个测量的组取决于相同的k聚体。在每组中的多个测量具有恒定值,并经受下文所讨论的一些变化,因而形成信号的“水平”,其对应于测量系统的状态。上述信号在一组水平(其可以是较大组)之间移动。鉴于仪表的采样速率和在信号上的噪声,可以认为在水平之间的过渡是瞬间的,因此可以通过理想化的步跟踪来近似信号。
[0136] 对应于每个状态的测量在事件的时间范围内是恒定的,但对于大多数测量系统而言将在短时间范围内经受变化。变化可能起因于测量噪声,例如产生自电路和信号处理,尤其是在电生理学的特定情况下产生自放大器。由于待测量的性能的较小幅度,上述测量噪声是不可避免的。变化也可以来自在测量系统的基本物理或生物系统中的内在变化或扩散。大多数测量系统将在更大或更小程度上经历上述内在变化。对于任何给定测量系统,两种变化源均可以起作用,或这些噪声源的一种可以是占主导地位的。
[0137] 另外,通常没有在组中测量的数目的先验知识,其不可预测地变化。
[0138] 上述两种变化因素以及测量的数目的知识的缺乏可以使得难以区分一些组,例如在组较短和/或两个连续组的测量的水平彼此接近的情况下。
[0139] 由于在测量系统中发生的物理或生物过程的结果,信号采用这种形式。因此,每组测量可以被称为“状态”。
[0140] 例如,在包括纳米孔的一些测量系统中,由聚合物通过纳米孔的移位组成的事件可以以棘轮方式发生。在棘轮移动的每个步骤期间,在跨越纳米孔的给定电压下,流过纳米孔的离子电流是恒定的,并经受上述讨论的变化。因此,每组测量与棘轮移动的步骤相关。每个步骤对应于一种状态,其中聚合物处于相对于纳米孔的相应位置。虽然在状态期间过程中,在精确位置方面,可以存在一些变化,但在状态之间存在聚合物的大规模移动。取决于测量系统的特性,由于在纳米孔中结合事件的结果,状态可以发生。
[0141] 单个状态的持续时间可以取决于许多因素,如跨越孔施加的电位,用来对聚合物作棘轮的酶的类型,而不管聚合物通过存在的酶、pH、盐浓度和三磷酸核苷的类型被推动或拉动通过孔。状态的持续时间可能会通常在0.5ms至3s之间变化,其取决于测量系统,以及对于任何给定纳米孔系统,具有在状态之间的一些随机变化。对于任何给定测量系统,可以实验确定持续时间的预期分布。
[0142] 上述方法可以使用多个测量的输入系列,各自采用上文描述的形式,其中在每个系列中多个测量的连续组取决于相同的k聚体。可以记录上述多个系列使得先验已知的是,来自相应系列的哪些测量对应和取决于相同的k聚体,例如如果同时获取每个系列的测量。这可能是这种情况,例如,如果测量具有由不同测量系统同步测得的不同性能。可替换地,可以不记录上述多个系列,使得不是先验已知的是,来自相应系列的哪些测量对应和取决于相同的k聚体。这可能是这种情况,例如,如果在不同的时间进行测量系列。
[0143] 根据下文讨论的第三方面的方法,其中在跨越纳米孔施加不同水平的电压下进行测量,提供了关于每个水平的电压的一系列测量。在这种情况下,考虑到用于谈及的测量系统的状态的循环周期,来选择测量的循环周期。理想地,循环周期短于所有状态的持续时间,其是通过选择短于测量系统的最小预期循环周期的循环周期来实现。然而,有用的信息可以获自在短于仅仅一些状态的持续时间的循环周期期间进行的测量,例如短于状态的持续时间的平均60%、70%、80%、90%、95%、或99%。通常,循环周期可以是至多3s,更通常至多2s或至多1s。通常,循环周期可以是至少0.5ms,更通常至少1ms或至少2ms。
[0144] 对于状态的持续时间,可以施加多于一个的电压循环,例如2至10个之间的数目。
[0145] 关于每种k聚体,可以在一种电压水平下进行多个测量(或在多个电压水平的每个下进行多个测量)。在一种可能的方式中,可以各自连续施加不同水平的电压一时间段,例如当电压波形是阶梯波时,以及在相应的时期期间中,在上述期间内施加的一种电压下进行多个测量的组。
[0146] 多个测量本身可以用于随后的分析。可替换地,在所述(或每个)电压水平的一个或多个汇总测量可以源自每个多个测量的组。一个或多个汇总测量可以源自在任何给定电压水平下关于任何给定k聚体以任何方式的多个测量,例如作为平均值或中值,或作为统计变化的度量,例如标准偏差。然后一个或多个汇总测量可以用于随后的分析。
[0147] 电压循环可以选自许多不同波形。波形可以是非对称、对称、规则或不规则的。
[0148] 在循环的一个实例中,可以各自连续施加不同水平的电压一时间段,即循环的部分期间,具有在那些不同水平之间的过渡,例如矩形波或阶梯波。在电压水平之间的过渡可以是尖锐的或可以是在一时间段内斜线上升的(ramped)。
[0149] 在循环的另一个实例中,电压水平可以连续变化,例如在不同水平之间是斜线上升的,例如三角形或锯齿波。在这种情况下,可以通过在循环内对应于所期望的电压水平的时间进行测量来进行在不同水平下的测量。
[0150] 信息可以源自在电压坪区(voltage plateau)下的测量或源自斜率的测量。除在不同电压水平下进行的测量之外,可以导出进一步的信息,例如通过测量在一个电压水平和另一个电压水平之间的瞬态形状。
[0151] 在阶梯电压方案中,在电压水平之间的过渡可以被成形,使得最小化任何电容瞬态(capacitive transients)。考虑纳米孔系统作为简单的RC电路,电流,I,由下式给出,I=V/R+C dV/dt,其中V是施加电位,R是电阻(通常为孔的电阻),t是时间以及C是电容(通常为双层的电容)。在此模型系统中,在两个电压水平之间的过渡将遵循时间常数的指数,τ=RC,其中V=V2-(V2-V1)*exp(-t/τ)。
[0152] 图52a和52b示出这样的情况,其中选择在电压水平之间过渡的时间常数τ,以致过渡速度太快和太慢地被优化。在电压过渡太快的情况下,在测得的电流信号中看到尖峰信号(过冲),而在太慢的情况下,则测得的信号并不足够快速地变平(下冲)。在过渡速度被优化的情况下,测得的电流从理想的尖锐过渡变形的时间被最小化。可以根据测量测量系统的电性能,或根据测试不同的过渡,来确定过渡的时间常数τ。
[0153] 可以在两种或更多种电压水平下进行测量。选择电压水平,以致在每个电压水平下的测量提供关于决定测量的k聚体的同一性的信息。因此,水平的选择取决于测量系统的特性。跨越纳米孔施加的电位差的程度将取决于许多因素如两亲层的稳定性、所使用的酶的类型以及所期望的移位速度。通常,每个水平的电压将具有相同的极性,虽然一般来说,一个或多个水平的电压可以具有与其它电压相反的极性。一般来说,对于大多数纳米孔系统,每个水平的电压可以通常是10mV至2V之间(相对于接地)。因此,在电压水平之间的电压差可以通常是至少10mV,更优选至少20mV。在电压水平之间的电压差可以通常是至多1.5V,更通常至多400mV。较大电压差倾向于在电压水平之间产生电流的较大差异,因此潜在地在相应的状态之间产生较大区别。然而,高电压水平可以在系统中产生例如更多噪声或导致通过酶的移位的破坏。相反地,较小电压差倾向于产生电流的较小差异。可以选择最佳电位差,其取决于实验条件或酶棘轮的类型。
[0154] 在一种电压水平下测得的k聚体可以不一定是如在不同电压水平下测得的相同的k聚体。在不同电位下测得的k聚体之间,k值可以不同。如果是这种情况,然而有可能,将存在这样的聚合物单元,其是在不同电压水平下测得的每种k聚体所共同的。不被理论所限制,认为,待测量的k聚体的任何差异可能是由于在纳米孔内在跨越纳米孔施加的较高电位差下聚合物的构象变化引起的,从而导致通过读取头测得的聚合物单元的数目的变化。这种构象变化的程度可能取决于在一个值和另一个值之间电位的差异。
[0155] 可以存在其它可获得的信息,作为测量的一部分,或来自另外的来源,其提供注册信息。上述其它信息可以使得能够确定状态。
[0156] 可替换地,信号可以采取任意形式。在这些情况下,还可以依据一组发射和过渡来描述对应于k聚体的测量。例如,取决于特定k聚体的测量可以包括以适合于通过这些方法的描述的方式发生的一系列测量。
[0157] 可以实验检查给定测量系统提供取决于k聚体和k聚体的尺寸的测量的程度。例如,可以合成已知的聚合物并保持在相对于测量系统的预定位置,以根据得到的测量来研究测量如何取决于与测量系统相互作用的k聚体的同一性。
[0158] 一种可能的方式是使用一组聚合物,除在预定位置(其对于组中的每种聚合物是不同的)处的k聚体之外,其还具有相同序列。可以变化k聚体的尺寸和同一性以研究对测量的影响。
[0159] 另一种可能的方式是使用一组聚合物,其中,在预定位置处,所研究的在k聚体外部的聚合物单元对于组的每种聚合物是不同的。作为上述方式的实例,图3是在包括纳米孔的测量系统中两种多核苷酸的电流测量的频率分布。在多核苷酸的一种(标记多T)中,在纳米孔的区中的每个碱基是T(标记多T),以及在多核苷酸的另一种(标记N11-TATGAT-N8)中,特定固定6聚体(具有序列TATGAT)左边的11个碱基和右边的8个碱基被允许变化。图3的实例示出,依据电流测量,两种链的极好的分离。通过N11-TATGAT-N8链看到的数值范围也仅比通过多T看到的数值范围稍宽。以这种方式和测量还具有其它序列的聚合物,可以确定,对于谈及的特定测量系统,以良好的近似,测量取决于6聚体。
[0160] 这种方式、或类似方式,可以通用于任何测量系统,其使得能够确定位置和最小k聚体描述。
[0161] 概率框架,尤其是在不同条件下或通过不同的检测方法来施加多个测量的技术可以使得能够使用聚合物的较低k描述。例如在下文讨论的有义和反义DNA测量的情况下,3聚体描述可以足以确定基本聚合物k聚体,其中每个k聚体测量的更准确的描述将是6聚体。类似地,在多个电位下进行测量的情况下,其中k具有较低值的k聚体描述,可以足以确定基本聚合物k聚体,其中每个k聚体测量的更准确的描述将是一个k聚体或多个k聚体,其中k具有较高值。
[0162] 在一般的测量系统中,类似方法可以用来确定良好近似k聚体的位置和宽度。在图3的实例中,这是通过改变6聚体相对于孔的位置(例如,通过改变以前和以后N的数目)来实现,以检测最佳逼近k聚体的位置以及增加和减少来自6的固定碱基的数目。k值可以最少经受足够窄的值的扩散。可以选择k聚体的位置以最小化峰宽度。
[0163] 对于典型的测量系统,通常的情况是,取决于不同k聚体的测量并不都是独特地可分辨的。例如,在图3相关的测量系统中,可以观察到,由具有固定6聚体的DNA链产生的测量的范围是大约2pA以及此系统的近似的测量范围是30pA至70pA之间。对于6聚体,存在4096种可能的k聚体。鉴于它们的每一种具有2pA的类似变化,很显然,在40pA测量范围中,这些信号将不会是独特可分辨的。甚至在一些k聚体的测量是可分辨的情况下,通常被观察到,许多其它k聚体的测量不是可分辨的。
[0164] 对于许多实际测量系统,不可能确定变换k个测量的函数,其各自部分地取决于相同的聚合物单元,来获得在聚合物单元的水平下被解析的单值,或者更一般地,不能通过小于k聚体的数目的一组参数来描述k聚体测量。
[0165] 通过举例的方式,现在将证明,对于包括纳米孔的特定测量系统,通过简单的一阶线性模型并不能准确地描述实验得到的多核苷酸的离子电流测量。对于在下文更详细描述的两个训练组,这得到说明。用于此证明的简单的一阶线性模型是:
[0166] 电流=总和[fn(Bn)]+E
[0167] 其中,fn是在测量系统中在每个位置n处发生的每个碱基Bn的系数以及E表示起因于实验可变性的随机误差。通过最小二乘法,将数据拟合于此模型,虽然可替换地可以使用在本领域中已知的许多方法的任何一种。图4和5是相对于电流测量的最好的模型拟合的图。如果通过此模型,数据得到充分描述,那么点应在典型的实验误差(例如2pA)内紧密遵循对角线。这不是这种情况,其表明,通过用于系数的任何组的这种线性模型,数据没有得到充分描述。
[0168] 现在将描述分析输入信号(其是噪声阶梯波)的具体方法,其具体实施本发明的第一方面。以下方法涉及测量取决于k聚体的情况,其中k是2或更大,但相同方法可以以简化形式应用于取决于k聚体(其中k是1)的测量。
[0169] 上述方法示于图6中并且可以用示意性地示于图6中的分析单元10来实施。分析单元10接收和分析输入信号,其包括来自测量电路72的测量。因而连接分析单元10和测量系统8,并且共同构成用于分析聚合物的设备。分析单元10还可以将控制信号提供到控制电路7以选择在测量系统8中跨越生物孔1施加的电压,并可以按照施加电压来分析来自测量电路72的测量。
[0170] 可以布置包括分析单元10和测量系统8的设备,如披露于以下任何之一:WO-2008/102210、WO-2009/07734、WO-2010/122293和/或WO-2011/067559。
[0171] 分析单元10可以通过在计算机设备中执行的计算机程序来实施或可以通过专用硬件装置、或它们的任何组合来实施。在任何一种情况下,由上述方法使用的数据被存储在分析单元10的存储器中。计算机设备,在使用的情况下,可以是任何类型的计算机系统,但通常具有常规结构。可以用任何适宜的编程语言来写计算机程序。可以将计算机程序存储于计算机可读存储介质中,上述计算机可读存储介质可以具有任何类型,例如:记录介质,其可插入计算系统的驱动器以及其可以以磁、光或光磁方式来存储信息;计算机系统的固定记录介质如硬盘驱动器;或计算机存储器。
[0172] 对输入信号11进行上述方法,上述输入信号包含上文描述类型的一系列测量(或者更一般地,任何数目的系列,如下文进一步描述的),包括取决于相同k聚体的多个测量的连续组,而没有在任何组中测量的数目的先验知识。这样的输入信号11的实例示于图2(如先前所描述的)。
[0173] 在状态检测步骤S1中,处理输入信号11以确定测量的连续组和导出测量系列12,其由关于每个确定组的预定数目(是一个或多个)的测量组成。对由此导出的测量系列12进行分析步骤S2。状态检测步骤S1的目的是将输入信号减少到预定数目的与每个k聚体状态相关的测量,以简化分析步骤S2。例如噪声阶梯波信号,如图2所示,可以被减少到这样的状态,其中与每个状态相关的单个测量可以是平均电流。这种状态可以被称为水平。
[0174] 可以利用查找输入信号11的衍生物中的短期增加的图7所示的方法,来进行状态检测步骤S1,具体如下。
[0175] 在步骤S1-1中,区分输入信号11以导出它的衍生物。
[0176] 在步骤S1-2中,来自步骤S1-1的衍生物经受低通滤波以抑制高频噪声(分化倾向于放大)。
[0177] 在步骤S1-3中,来自步骤S1-2的滤波衍生物被阈值化以检测在测量的组之间的过渡点(转变点),从而确定数据的组。
[0178] 在步骤S1-4中,预定数目的测量来源于在步骤S1-3中确定的每组中的输入信号11。在最简单的方法中,导出单个测量,例如作为在每个确定组中测量的平均值、中值、或位置的其它度量。从步骤S1-4输出的测量形成测量系列12。在其它方法中,导出关于每组的多个测量。
[0179] 这种技术的常见简化是使用滑动窗口分析,据此,比较两个相邻窗口的数据的平均值。然后可以基于平均差异来直接设定阈值,或可以基于在两个窗口中数据点的方差(例如,通过计算史蒂特氏t统计量)来设定阈值。这些方法的独特优势在于,可以应用它们,而没有施加关于数据的许多假设。
[0180] 可以存储与测得水平相关的其它信息,用于以后的分析。这样的信息可以包括但不限于:信号的变化;不对称信息;观察的置信度;组的长度。
[0181] 通过举例的方式,图9示出通过移动窗口t检验而减小的实验确定的输入信号11。尤其是,图9示出输入信号11作为浅色线。在状态检测以后的水平被示为重叠的,作为暗色线。图10示出针对整个谱图导出的测量系列12,依据在过渡之间的平均值来计算每个状态的水平。
[0182] 然而,如在下文更详细描述的,状态检测步骤S1是可选的,并且在下文进一步描述的替代方案中,可以被省略。在这种情况下,如由图6中的虚线示意性地所示,对输入信号11本身进行分析步骤S2,代替测量系列12。
[0183] 现将描述分析步骤S2。
[0184] 分析步骤S2使用一种分析技术,其是指存储在分析单元10中的模型13。分析步骤S2估计在聚合物中聚合物单元的估计序列16,其基于通过由聚合物单元的序列产生的测量系列12的模型13预测的似然。在最简单的情况下,估计序列16可以是下述表示,其为每个聚合物单元提供单个估计同一性。更一般地,估计序列16可以是按照一定最优性准则的聚合物单元的序列的任何表示。例如,估计序列16可以包含多个序列,例如包括在部分或所有的聚合物中一个或多个聚合物单元的多个估计同一性。
[0185] 现将考虑模型13的数学基础。分析步骤S2还提供下文进一步描述的质量得分17。
[0186] 在从其对电流采样的随机变量{X1,X2,…,Xn}的序列之间的关系可以通过简单的图形模型A来表示,其表示在变量之间的条件独立性关系:
[0187] X1-X2-X3-…-Xn
[0188] 每个电流测量取决于被读的k聚体,所以存在随机变量{S1,S2,…,Sn}的基本组,其表示k聚体的基本序列以及借助于相应的图形模型B:
[0189]
[0190] 应用于施加的电流区的这些模型利用了马尔可夫(Markov)性能。在模型A中,如果f(Xi)用来表示随机变量Xi的概率密度函数,那么马尔可夫性能可以被表示为:
[0191] f(Xm|Xm-1)=f(Xm|X1,X2,...,Xm-1)
[0192] 在模型B中,马尔可夫性能可以被表示为:
[0193] p(Sm|Sm-1)=P(Sm|S1,S2,...,sm-1)
[0194] 精确地取决于如何编码问题,用于解的自然的方法可以包括贝叶斯网络、马尔可夫随机场、隐马尔可夫模型,并且还包括这些模型的变型,例如上述模型的有条件或最大熵公式。在这些稍微不同的框架内,解的方法经常是类似的。通常,模型13包括过渡权重14,其表示从起源k聚体到目标k聚体的过渡的机会;以及关于每种k聚体的发射权重15,其表示观测k聚体的测量的给定值的机会。在模型13是隐马尔可夫模型的情况下,现将进行说明。
[0195] 在图形模型B中,在本文给出的设置中,隐马尔可夫模型(HMM)是自然表示。在HMM中,在离散随机变量Sm和Sm+1之间的关系是依据过渡权重14的跃迁矩阵加以定义,其在这种情况下是概率,该概率表示在每个随机变量可以采取的可能的状态之间的过渡的概率,即从起源k聚体到目标k聚体。例如,常规地,跃迁矩阵的第(i,j)个元(entry)是过渡权重14,其表示概率Sm+1=sm+1,j,鉴于Sm=sm,i,即过渡到Sm+1的第j个可能的值的概率,鉴于Sm呈现它的第i个可能的值。
[0196] 图11是Sm到Sm+1的跃迁矩阵的图形表示。在这里,为便于说明,Sm和Sm+1仅显示4个值,但在现实中将存在和不同k聚体一样多的状态。每个边表示过渡,并且可以被标记有来自跃迁矩阵的元,其表示过渡概率。在图11中,连接在Sm层至Sm+1层中的每个节点的四条边的过渡概率将经典地共计为1,虽然可以使用非概率权重。
[0197] 一般来说,期望的是,过渡权重14包含非二进制变量的值(非二进制值)。这允许模型13表示在k聚体之间过渡的实际概率。
[0198] 考虑到模型13表示k聚体,所以任何给定k聚体具有k个优选过渡,从起源k聚体过渡到目标k聚体,其具有这样的序列,其中第一(k-1)聚合物单元是起源k聚体的最后(k-1)聚合物单元。例如在多核苷酸由4种核苷酸G、T、A和C组成的情况下,起源3聚体TAC具有到3聚体ACA、ACC、ACT和ACG的优选过渡。对于第一近似,从概念上讲,可以认为,4种优选过渡的过渡概率是相等的,为(0.25),以及其它非优选过渡的过渡概率是零,非优选过渡是从起源k聚体过渡到目标k聚体,其具有不同于起源k聚体以及其中第一(k-1)聚合物单元不是起源k聚体的最后(k-1)聚合物单元的序列。然而,虽然这种近似有利于理解,但一般来说,过渡的实际机会可以从在任何给定测量系统中的这种近似进行变化。这可以由过渡权重14反映,其采用非二进制变量的值(非二进制值)。可以表示的上述变化的一些实例如下。
[0199] 一个实例是,优选过渡的过渡概率可能不是相等的。这允许模型13表示聚合物,其中在序列中的聚合物之间存在相互关系。
[0200] 一个实例是,至少一些非优选过渡的过渡概率可能是非零。这允许模型13考虑到错过的测量,即其中不存在这样的测量,其取决于在实际聚合物中的一种(或多种)k聚体。上述错过的测量可以发生:由于在测量系统中的问题,以致测量不是物理上采取的,或由于在随后的数据分析中的问题,如状态检测步骤S1未能确定测量的组之一,例如由于给定组太短或两个组并不具有足够分离的水平。
[0201] 尽管允许过渡权重14具有任何值的一般性,但通常它将是这种情况,过渡权重14表示从起源k聚体到目标k聚体的优选过渡的非零机会,上述目标k聚体具有这样的序列,其中第一(k-1)聚合物单元是起源k聚体的最后(k-1)聚合物单元,以及表示非优选过渡的较低机会。还通常地,过渡权重14表示至少一些所述非优选过渡的非零机会,即使机会可以接近零,或对于一些被绝对排除的过渡可以是零。
[0202] 为了允许在序列中单个错过的k聚体,过渡权重14可以表示从起源k聚体到目标k聚体的非优选过渡的非零机会,上述目标k聚体具有这样的序列,其中第一(k-2)聚合物单元是起源k聚体的最后(k-2)聚合物单元。例如,在多核苷酸由4种核苷酸组成的情况下,对于起源3聚体TAC,存在到所有可能的开始于C的3聚体的过渡。我们可以将对应于这些单个错过的k聚体的过渡定义为“跳过”。
[0203] 在分析包含关于每种k聚体的单个测量的测量系列12的情况下,那么过渡权重14将表示对于每个测量12的过渡的高机会。取决于测量的特性,从起源k聚体过渡到与起源k聚体相同的目标k聚体的机会可以是零或接近于零,或可以类似于非优选过渡的机会。
[0204] 类似地,在分析包含预定数目的关于每种k聚体的测量的测量系列12的情况下,那么过渡权重14可以表示在关于相同的k聚体的测量12之间过渡的低或零机会。可以改变过渡权重14以允许起源k聚体和目标k聚体是相同的k聚体。这允许,例如,错误地检测到的状态过渡。我们可以将对应于这些重复相同的k聚体的过渡定义为“停留”。我们注意到,在k聚体中的所有聚合物单元是相同的均聚物的情况下,优选过渡将是停留过渡。在这些情况下,聚合物已移动一个位置,但k聚体保持相同的。
[0205] 类似地,在万一分析测量系列12(其中通常存在关于每种k聚体但具有未知量的多个测量(其可以被称为“粘着”))的情况下,过渡权重14可以表示起源k聚体和目标k聚体是相同k聚体的相对较高概率,以及取决于物理系统,在一些情况下,可以大于如上所述的优选过渡的概率,上述优选过渡是从起源k聚体到目标k聚体的过渡,其中第一(k-1)聚合物单元与起源k聚体的最后(k-1)聚合物单元相同。
[0206] 此外,在分析输入信号11而没有利用状态检测步骤S1的情况下,那么这可以简单地通过使过渡权重14适应于表示起源k聚体和目标k聚体是相同k聚体的相对较高概率来实现。这基本上允许进行相同的分析步骤S2,其中模型13的适应隐式地考虑到状态检测。
[0207] 与每个k聚体相关,存在发射权重15,其表示观测k聚体的测量的给定值的概率。因此,对于由图11中的节点Sm,i表示的k聚体状态,发射权重15可以被表示为概率密度函数g(Xm|sm,i),其描述从其采样电流测量的分布。期望的是,发射权重15包含非二进制变量的值。这允许模型13表示不同电流测量的概率,一般来说,其可能不具有简单的二进制形式。
[0208] 在状态检测步骤S1导出由关于每个确定组(例如平均值和方差)的多个测量组成的测量系列12的情况下,发射权重15表示观测k聚体的每种类型的测量的给定值的概率。类似地,在更一般情况下,即对多个测量系列12进行上述方法,上述多个测量系列被记录以致先验已知的是,来自相应系列的哪些测量对应和取决于相同的k聚体,则发射权重15再次表示观测k聚体的每个系列的测量的给定值的概率。在这些情况下,可以应用模型13,其中利用发射权重15作为在多个维度上的概率密度函数,其描述对于每个k聚体状态的多个测量的分布。一般来说,用于任何给定k聚体的发射权重15可以采用任何形式,其反映测量的概率。在单个模型13内,并不需要不同k聚体具有有相同发射分布形式或参数化的发射权重15。
[0209] 对于许多测量系统,k聚体的测量具有特定预期值,其可以是扩散的,这起因于待测量的物理或生物特性的扩散和/或测量误差。这可以用模型13来建模,其中通过使用发射权重15,其具有适宜的分布,例如单峰分布。
[0210] 然而,对于一些测量系统,用于任何给定k聚体的发射权重15可以是多峰的,例如物理上产生自在测量系统中两种不同类型的结合和/或产生自在测量系统内采用多种构象的k聚体。
[0211] 有利地,发射权重15可以表示观测所有可能的测量的非零机会。这允许模型13考虑到由给定k聚体产生的未预期测量,其是离群值。例如,可以在允许具有非零概率的离群值的广泛的支持下选择发射权重15概率密度函数。例如在单峰分布的情况下,对于每个k聚体的发射权重15可以具有高斯或拉普拉斯分布,其对于所有实数具有非零权重。
[0212] 可以是有利的是,允许发射权重15是任意定义的分布,以使得能够精致地处理离群值测量和处理具有多值发射的单状态的情况。
[0213] 可以期望根据经验来确定发射权重15,例如在如下文所述的训练期期间。
[0214] 可以借助于跨越测量空间的任何适宜数目的二进制(bins)来表示发射权重15的分布。例如,在下文描述的情况下,通过在数据范围上的500个二进制来定义分布。可以通过在所有二进制中具有非零概率(虽然在离群二进制中较低)和类似概率(如果数据并不属于定义二进制之一)来处理离群值测量。可以定义足够数目的二进制以近似所期望的分布。
[0215] 因此,独特优势可以源自使用表示至少一些所述非优选过渡的非零机会的过渡权重14和/或使用表示观测所有可能的测量的非零机会的发射权重15。独特优势还可以源自使用对应于观测给定k聚体的测量范围的相对机会的发射权重。
[0216] 为了强调这些优点,作为比较例,考虑用于导出序列的简单的非概率方法。在此比较例中,不允许在观测值的给定范围以外产生测量的k聚体以及不允许对应于错过的测量的过渡(跳过),例如通过删除边和结点来减少图11中过渡的数目。在上述比较例中,然后搜索k聚体状态的独特的连接序列,其准确地包含用于每个Si的一个节点,以及对应于聚合物单元的基本序列。然而,因为此比较例依靠任意阈值来确定不允许的结点和边,所以在跳过的测量的情况下它未能找到任何路径,这是因为在图中并不存在适当的边。类似地,在离群测量的情况下,上述比较例将导致在图11中的相应节点被删除,并再次变得不可能确定通过该图的正确路径。
[0217] 相比之下,在分析步骤S2中使用模型13和分析技术如概率或加权方法的独特优势在于,可以避免这种崩溃情况。另一个优点在于,在存在多个允许路径的情况下,可以确定最有可能的或一组可能的路径。
[0218] 这种方法的另一独特优势涉及检测均聚物,即相同的聚合物单元的序列。基于模型的分析使得能够处理这样的均聚物区,其达到类似于有助于信号的聚合物单元的数目的长度。例如6聚体测量可以确定长度可达6个聚合物单元的均聚物区。
[0219] 分析步骤S2的一种可能的形式示于图8并且操作如下。
[0220] 在步骤S2-1中,参照模型13基于通过由k聚体的序列产生的测量系列12的模型13所预测的似然,来估计k聚体的估计序列18。
[0221] 在步骤S2-2中,聚合物单元的估计序列16由在步骤S2-1中估计的k聚体的估计序列18估计。
[0222] 在步骤S2-1和S2-2中,还提供了质量得分,其分别表示k聚体的估计序列18和聚合物单元的估计序列16的质量,如下文进一步讨论的。
[0223] 在分析步骤S2中应用的分析技术可以采用各种各样的形式,其适用于模型13以基于通过由聚合物单元的序列产生的测量系列12的模型13所预测的似然来提供在聚合物中聚合物单元的估计序列16。例如在模型是HMM的情况下,在步骤S2-1中分析技术可以使用任何已知的算法,例如前向后向(Forwards Backwards)算法或维特比(Viterbi)算法。一般来说,这样的算法可以避免通过状态的序列的所有可能的路径的似然(可能性)的蛮力计算,而是利用基于似然的简化的方法来确定状态序列。
[0224] 在一个替代方案中,通过估计序列的单独k聚体,或对于在序列中的每个k聚体的多个k聚体估计,基于通过由单独k聚体产生的测量系列的模型所预测的似然,步骤S2-1可以确定k聚体的序列18。作为实例,在步骤S2-1中分析技术使用前向后向算法的情况下,基于通过由单独k聚体产生的测量系列的模型所预测的似然,分析技术估计k聚体的序列18。前向-后向算法在本领域中是众所周知的。对于前向部分:利用过渡和发射权重,从第一至最后测量,向前递归地计算结束于给定k聚体的所有序列的总似然。后向部分以类似的方式进行工作但从最后测量至第一测量。结合这些前向和后向概率以及连同数据的总似然一起来计算来自给定k聚体的每个测量的概率。
[0225] 根据前向-后向概率,导出在序列18中每个k聚体的估计。这是基于与每个单独k聚体相关的似然。一种简单的方法是在每个测量中获得最有可能的k聚体,这是因为前向-后向概率表明在每个测量中k聚体的相对似然。
[0226] 在步骤S2-1中,还导出关于序列18中的单独k聚体的质量得分,其表示通过由包括单独k聚体的序列产生的测量系列12的模型13所预测的似然。这可以获自在步骤S2-1中进行的分析,并提供另外的有用的信息。
[0227] 在另一种替代方案中,基于通过由k聚体的整个序列产生的测量系列的模型所预测的似然,通过估计整个序列、或多个整个序列,步骤S2-1可以确定k聚体的序列18。作为另一实例,在步骤S2-1中分析技术使用维特比算法的情况下,基于通过由k聚体的整个序列产生的测量系列的模型所预测的似然,分析技术估计k聚体的序列18。维特比算法在本领域中是众所周知的。
[0228] 在步骤S2-1中,还导出关于在序列18中单独k聚体的质量得分,其表示通过由k聚体的整个序列产生的测量系列12的模型13所预测的似然。这可以获自在步骤S2-1中进行的分析,并提供另外的有用的信息。
[0229] 作为另一种替代方案,可以将步骤S2-1分为两个阶段,包括:第一阶段:基于通过由k聚体的整个序列产生的测量系列的模型所预测的似然,确定k聚体的整个序列;以及第二阶段:依据第一阶段的结果,通过估计序列的单独k聚体,或对于在序列中的每个k聚体的多个k聚体估计,来确定k聚体的序列18。作为实例,这种替代方案可以使用蛮力计算。
[0230] 在步骤S2-2中,利用任何适宜的技术,由在步骤S2-1中估计的k聚体的估计序列18估计聚合物单元的估计序列16。一种直接方法是以一对一关系使k聚体与聚合物单元相关以及简单地采取来自相关k聚体的单个聚合物单元。更复杂的方法利用来自在序列18中包含每个给定的聚合物单元的估计k聚体的组的信息的组合来估计每个聚合物单元。例如聚合物单元可以取自最有可能的那些估计k聚体。在步骤S2-1中,利用导出的关于估计k聚体序列的质量得分17,可以估计每个聚合物单元。
[0231] 在步骤S2-2中,还导出关于在序列16中的每个聚合物单元的质量得分,其表示由包括聚合物单元的序列产生的测量系列12的模型13所预测的似然。这可以获自在步骤S2-2中进行的分析,例如基于每个k聚体和相关的聚合物单元的相对概率,以及提供另外的有用的信息。
[0232] 在分析步骤S2中的上述技术不是限制性的。存在许多方法来利用模型,其中利用概率或其它分析技术。估计k聚体的整个序列、单独k聚体或基本聚合物单元的过程可以针对特定的应用设计。没有必要进行任何“硬”k聚体序列、k聚体或聚合物单元调用(calls)。可以考虑所有k聚体序列、或可能的k聚体序列的亚组。可以考虑k聚体或k聚体的组,其与k聚体序列相关或被认为独立于特定k聚体序列,例如相对于所有k聚体序列的加权和。聚合物单元或聚合物单元的组与k聚体相关或被认为独立于特定k聚体,例如相对于所有k聚体的加权和,那些k聚体依赖于、或独立于k聚体序列或k聚体序列的组。
[0233] 通过实例的方式,可以考虑3聚体多核苷酸系统。有几种方法来导出一组可能的碱基估计。第一替代方案是考虑最有可能的路径(维特比算法),导出与上述路径相关的3聚体状态的组,以及使用来自k聚体的一个碱基,例如中心碱基,作为碱基调用。第二替代方案是考虑所有路径以导出在每个点处最有可能的k聚体(前向-后向算法)。于是,来自最有可能的k聚体的一个碱基(例如中心碱基)可以是碱基估计。用来自k聚体导出碱基估计的另一种替代方案将是总和所有k聚体,其中考虑到碱基之一(例如中心碱基)的贡献并采用最有可能的碱基作为估计。用来自k聚体导出碱基估计的另一种替代方案将是总和来自在所有k聚体中的所有位置的贡献,以确定在每个位置处最有可能的估计。
[0234] 类似地,分析步骤S2可以估计k聚体的多个序列18和/或聚合物单元的多个序列16。在这种情况下,可以存在导出的质量得分,其是关于k聚体的每个的多个序列18和/或聚合物单元的每个的多个序列16。以这种方式,分析步骤S2提供关于可能性较小的序列的信息,其仍然可以用于一些应用。
[0235] 给出的以上描述是依据模型13,其是HMM,其中过渡权重14和发射权重15是概率,以及分析步骤S2使用其指的是模型13的概率技术。然而,可替换地可能的是,模型13使用一种框架,其中过渡权重14和/或发射权重15不是概率,但以某种其它方式表示过渡或测量的机会。在这种情况下,分析步骤S2可以使用分析技术而不是概率技术,其是基于由聚合物单元的序列产生的测量系列的模型13所预测的似然。分析步骤S2使用的分析技术可以明确使用似然函数,但一般来说这不是必需的。因此,在本发明的上下文中,术语“似然”在一般意义上用于考虑到通过聚合物单元的序列产生的测量系列的机会,而无需计算或利用正式似然函数。
[0236] 例如,可以用费用(或距离)来表示过渡权重14和/或发射权重15,其表示过渡或发射的机会,但不是概率,所以例如不会被限于总和为1。在这种情况下,分析步骤S2可以使用一种分析技术,其处理分析作为最小费用路径或最小路径问题,例如如在运筹学中通常看到的分析。可以使用标准方法如迪科斯彻算法(Dijkstra’s algorithm)(或其它更有效的算法)。
[0237] 现将讨论具体实例,其中模型13是HMM,其用来建模和分析来自钝性读出头系统的数据。在这里,通过如先前描述的状态检测步骤S1来首先处理输入数据11。为简单起见,但不是限制性地,这种具体实例涉及用于多核苷酸的3聚体模型,上述多核苷酸具有4种可能的碱基,以致存在64种可能的k聚体。介绍了一种模拟情况以能够参照基本模型13和状态来说明关键点。
[0238] 在这种模拟情况下,随机选择3聚体电流水平,以致64种k聚体状态的发射权重15的最简单的描述需要64个系数。通过如所描述的基于模型的分析来实现根据测量的k聚体的基本序列的确定。
[0239] 图12示出对于每个k聚体的最有可能的测量值。因此,这些值也是每个k聚体的发射权重15的分布的中心值。在图12中,按顺序G、T、A、C,即状态0=“GGG”、状态1=“GGT”、...状态62=“CCA”、状态63=“CCC”,来依次运行k聚体状态指数。在分析期间使用K聚体状态指数,其中转换回到“底空间(base space)”作为最后步骤。
[0240] 利用先前描述的系数来模拟来自给定序列的测量。例如序列ACTGTCAG是由3聚体构成:ACT、CTG、TGT、GTC、TCA、CAG。它们对应于状态指数45、52、17、7、30、56,其产生预期测量:68.5、46.5、94.9、51.3、19.5、52.1。模拟测量示于图13,作为输入信号12,以及示于图14,作为通过状态检测步骤S1产生的测量系列12。
[0241] 在实践中,进行的任何测量具有与它们相关的错误。在模拟情况下,这通过将噪声加入预期测量中而考虑。
[0242] 还存在失去测量或插入假阳性测量的机会。在如现将描述的跃迁矩阵中可以考虑到这些。
[0243] 现将考虑用于模拟情况的过渡权重14的跃迁矩阵。
[0244] 鉴于测量系列12和发射权重15的组,分析步骤S2确定基本序列的估计。从概念上讲,这可以被认为是,分析步骤S2建模所有可能的过渡,相对于其,比较观测到的序列(虽然事实上分析步骤S2可以使用并不需要此的更有效的算法)。例如在所考虑的3聚体的情况下,64种状态的每一种具有到4种其它状态的优选过渡。
[0245] 图15示出用于模拟模型的过渡权重14的跃迁矩阵,其中用于优选过渡的过渡权重14各自是0.25以及用于非优选过渡的过渡权重14各自是零。例如,可以看到,起源状态0(GGG)可以以相等概率过渡到状态0(GGG)、1(GGT)、2(GGA)或3(GGC)。
[0246] 图16示出用于模拟模型的过渡权重14的跃迁矩阵的更复杂的情况,上述模拟模型由图15的模拟模型改进,其中通过允许用于非优选过渡的非零过渡权重14,上述非优选过渡表示错过的测量,即其中过渡被跳过。一般说来,如需要建模基本测量系统时,跃迁矩阵可以是任意复杂的。
[0247] 在操作测量系列12的情况下,其中我们已进行状态检测S1,远离任何给定起源k聚体的过渡概率通常较高,总之接近1。在图15的第一实例中,跃迁矩阵需要过渡,除了在4种均聚物情况下,其中优选“过渡”的一种是到相同的k聚体。从任何状态的4种优选过渡的每一种的概率是0.25。此矩阵不太可能能够处理“真实世界”数据,除非进行其它适当的减轻,例如在发射权重15中的离群值处理。
[0248] 然而,对于需要处理或有可能发生的任何情况,可以允许非零过渡。在图16的第二实例中,优选过渡的概率小于0.25,其中余数由停留和跳过概率组成。以类似的方式,也可以允许多个跳过,达到任意水平的复杂性。
[0249] 可以调节过渡概率以考虑到可以测量在k聚体之间的过渡的容易性。例如在来自两个连续k聚体的信号是非常接近在一起的情况下,状态检测步骤S1可以错过此过渡。在这种情况下,在这两个k聚体之间的跃迁矩阵元素可以在跳过第二k聚体的方向被加权。
[0250] 可以调节矩阵以考虑到在给定样品中的任何序列偏向。
[0251] 在上述实例中,将发射和过渡权重固定于恒定值,但这不是必需的。作为一种替代方案,对于待分析的测量系列的不同部分,可以变化发射权重和/或过渡权重,也许由关于过程的另外的信息所引导。作为实例,其具有作为“停留”的解释的过渡权重的矩阵的元素可以被调节,其取决于特定事件()反映聚合物的实际过渡的置信度。作为进一步的实例,可以调节发射权重以反映测量装置的背景噪声的系统漂移或对施加电压进行的变化。对权重的调节的范围并不限于这些实例。
[0252] 在上述实例中,存在每个k聚体的单一表示,但这不是必需的。作为一种替代方案,模型可以具有一些或所有k聚体的多个不同的表示,以致关于任何给定k聚体,可以存在多组的过渡和/或发射权重。这里的过渡权重可以是在不同的起源和不同的目标k聚体之间,所以每个起源-目标对可以具有多个权重,其取决于每个k聚体的不同表示的数目。这些不同表示的许多可能的解释中的一种是,k聚体被标记有标记,其指示不能直接观测的系统的某种行为,例如在移位通过纳米孔期间聚合物可以采用的不同构象或移位行为的不同动力学。
[0253] 对于操作于原始输入信号11而没有进行状态检测步骤S1的模型13,将上述方法直接应用于输入系列的测量,其中多个测量的组取决于相同的k聚体而没有在组中测量的数目的先验知识。在这种情况下,可以应用非常类似的技术,但对模型13进行显著调节,这是因为,远离任何给定起源k聚体状态的过渡概率的总和现在远小于1。例如,如果平均而言,系统对相同的k聚体进行100次测量,则在跃迁矩阵中的对角线上的概率(表示没有过渡或这样的过渡,其中起源k聚体和目标k聚体是相同的k聚体)将是0.99,并在所有其它优选和非优选过渡之间具有0.01分裂。优选过渡的组可以类似于那些用于状态检测情况的组。
[0254] 考虑发射权重15,图17至19示出用于模拟系数的发射分布,其分别是高斯、三角和正方分布,虽然以这种方式可以定义任何任意分布(包括非参数分布)。
[0255] 为了表明,相对于噪声,这些方法的稳健性,将噪声扰动加入模拟测量中。在此实例中,将采样自标准偏差5pA的高斯分布的随机噪声加入图12所示的预期k聚体测量中。
[0256] 图20示出,相比于图12所示的预期测量,模拟测量(测量系列12),其表明可以看到的添加的噪声是严重的。
[0257] 应用模型13,其中借助于过渡权重的适当的跃迁矩阵,例如图16所示的跃迁矩阵,以及用于发射权重15的适当的分布,在这种情况下为高斯分布。前向-后向算法用作分析技术来估计在测量系列中的每个点处的最有可能的k聚体。相对于已知的k聚体序列,比较估计的k聚体调用,如图21所示。可以看到,甚至在这种严重的情况下,也正确估计大多数状态。
[0258] 现说明,相对于与在序列中的k聚体相关的失去测量的稳健性。在这种情况下,模拟测量的系列12,其中,除将噪声加入预期k聚体测量之外(在此实例中,我们使用较不严重的具有1pA标准偏差的噪声的情况),还从数据随机删除k聚体测量,在这种情况下,具有0.1的删除概率。图22示出相比于图12所示的预期测量的模拟测量(测量系列12)。在图22中,可以看到失去的k聚体状态(带圆圈)。
[0259] 再一次,应用预期k聚体测量的模型13,借助于过渡权重的适当的跃迁矩阵,在这种情况下,借助于图15和16所示的跃迁矩阵,以及发射权重15的适当的分布,在这种情况下为高斯分布。前向-后向算法用作分析技术来估计在测量系列12中的每个点处的最有可能的k聚体。
[0260] 相对于已知的k聚体序列,比较估计的k聚体调用,如图23和24分别针对图15和16的跃迁矩阵所示。在这里,当相比于图23时,在图24中可以看到,正确称为k聚体的数目的改善,其中通过允许在模型过渡中的跳过。在存在由高置信度估计包围的失去的k聚体测量的情况下,失去的k聚体可以由周围的k聚体估计。相比之下,对于不允许跳过的情况,通过发射权重15来适应失去数据,上述发射权重具有并不达到零的分布,以便分析找到通过k聚体的系列的路径。在下一部分中进一步讨论在发射分布中的非零背景。
[0261] 现说明,相对于与在序列中的给定k聚体相关的离群测量的稳健性。在关于失去测量的先前说明中,其中过渡权重14并不允许跳过的状态(即,具有图15的跃迁矩阵),需要使用具有并不达到零的分布的发射权重15,以便使分析能够找到通过k聚体的序列的路径(虽然非常不可能的路径)。在正方发射分布的简单情况下,说明了对于所有测量具有非零值的发射权重15的优点。此实例使用图20所示的模拟测量系列12,其中添加标准偏差为5pA的噪声。
[0262] 再一次,在这种情况下应用预期k聚体测量的模型13,并借助于过渡权重14的跃迁矩阵,其中不允许非优选过渡,如图15所示,以及借助于用于发射权重15的两种不同的分布。前向-后向算法用作分析技术来估计在测量系列12中的每个点处的最有可能的k聚体。
[0263] 在第一种情况下,发射权重15具有正方分布,其具有小的非零背景(在这种情况下1x10-10),如图25所示,对于其,相对于在图26中的已知的k聚体序列,比较估计的k聚体调用。
[0264] 在第二种情况下,发射权重15具有正方分布,其具有如图27所示的零背景,对于其,相对于在图28中的已知的k聚体序列,比较估计的k聚体调用。
[0265] 在发射权重15的分布中具有零背景的第二种情况下,借助于其中那些分布的宽度太窄的发射分布,不存在通过k聚体序列的路径。对于此实例,我们已使用宽度为+/-14pA的发射分布,以致分析可以发现通过测量的路径,如图27所示。在这种情况下,不是存在较少数目的路径,各自具有高数目的正确状态,而是存在大量的路径,其包含许多不正确称为的状态。用于此实例的一组k聚体调用示于图28中。
[0266] 在第一种情况下,其中允许在背景中小的非零发射,如图25所示,可以容忍更窄的分布,从而使得能够正确估计更高数目的k聚体状态,如图27所示,其提供比图28更好的结果。
[0267] 另外,此实例说明了概率方法的优点,其中通过比较正方分布情况与用于图20和21所示的实例的高斯发射,其提供比使用如图27和28所示的正方分布更好的结果。
[0268] 现将讨论模型13的训练,其是对于给定测量系统的发射权重15的求导。
[0269] 相比于上述模拟,在真实的测量系统中,来自每个k聚体的单个测量是预先未知的但可来自训练集。一般说来,这涉及采取来自已知的聚合物的测量并利用训练技术,其本身常规用于HMM。
[0270] 在这些训练方法中,可以开发特定类型的序列,其是deBruijn序列,该序列是对于给定k包含所有k聚体的最小长度序列。deBruijn序列的使用是用来最小化所需要的实验数目的有效方式。
[0271] 对于用来测量多核苷酸的包括纳米孔的测量系统,描述了两种训练方法。第一种方法使用来自“静态”DNA链的测量,通过生物素/链霉亲和素系统,上述链被保持在纳米孔内的特定位置。第二种方法使用来自移位通过纳米孔的DNA链的测量并估计或“训练”系数,其中通过利用类似于针对k聚体估计所描述的概率框架。
[0272] 如下进行第一静态训练方法。
[0273] 这些实验涉及利用生物素分子并以与由Stoddart D et al.,Proc Natl Acad Sci,12;106(19):7702-7描述的那些方式类似的方式,将DNA链连接于链霉亲和素“锚状物”。在此系统中,k值是3。利用在400mM KCl中的MS-(B2)8,DNA链表示k=3deBruijn序列(Seq ID:3)。在施加电位下在纳米孔中捕捉上述链并记录电流。可以用一系列DNA链来重复实验,其中序列被一个核苷酸提前,如列于以下表中。以这种方式,获得在特定施加电位如180mV下的电流水平的测量,其对应于那些由移动链预期的结果,如列于以下表中。
[0274] Seq ID3(k3De Bruijn):
[0275] ATAAGAACATTATGATCAGTAGGAGCACTACGACCTTTGTTCTGGTGCTCGTCCGGGCGCCCAAAT[0276] 表1:
[0277]
[0278]
[0279] 对来自每个单独链的数据依次作图以产生电流状态的图(散布图),如图29所示,其中每个点表示DNA链从SD01(左)至SD64(右)。对数据进行作图,作为与多T链的偏移。
[0280] 这些测量可以用来导出发射权重15,作为用于每个k聚体的集中于图29所示的测量上的分布。可以使用高斯分布,其中标准偏差由图29所示的测量获得。可以手动选择过渡权重14。
[0281] 如下进行第二种动态训练方法。
[0282] 静态链训练提供许多优点,然而,它可能是费力的并且还对于一些测量系统,可能并不准确地反映完整测序系统。可替换地,可以通过利用与我们在分析步骤S2中使用的那些框架类似的框架(因而类似的算法)来训练模型13。现描述一种这样的实施方式,虽然可以进行许多变化。因为描述的过程是迭代过程,所以有用的是开始于(用贝叶斯术语,先验)的参数的合理估计。3聚体静态系数为训练较高的k聚体模型提供了合理的起点。
[0283] 因为施加训练,相比于状态调用模型,模型的使用具有少得多的灵活性。因为一种或多种训练链的序列是已知的,所以可能施加主要制约因素。不是建模在所有k聚体之间允许的过渡,而是仅建模由我们的训练序列允许的那些过渡。为了进一步约束训练,独立地建模在训练链中的每个位置,并且仅到紧随其后的状态的过渡是优选的。因此,我们可以称其为“强迫路径”模型。
[0284] 鉴于大约400个单元的聚合物,例如,可以定义用于在上述聚合物中的每个位置的独立状态指数。然后构建跃迁矩阵,其允许在聚合物内的过渡,如图30和31所示,图30示出用于408种k聚体状态的跃迁矩阵以及图31示出最初10个过渡权重的特写。
[0285] 如同在上文描述的模型13中的过渡权重14的k聚体估计跃迁矩阵,可以添加灵活性以允许这样的事实:此是现实世界系统。在此实例中,允许缺乏过渡(或这样的过渡,其中起源状态指数和目标状态指数是相同状态),以及通过利用非优选过渡(其跳过一状态)的非零概率来适应错过的测量。概率(或加权)框架的优点在于,可以用过渡权重和/或发射权重来特别处理测量系统的已知伪迹。
[0286] 现描述发射权重的训练。发射权重的分布可以类似于用于上文描述的分析步骤S2的那些分布。然而,因为,在此实例中,分开处理在聚合物中的每个位置,所以针对每个位置来定义发射分布。图32示出源自如上所述的静态训练过程的64种k聚体模型的实例。图33示出图32的翻译成大约400个状态的序列的64种k聚体模型的实例。如先前描述的,可以在对于所有可能的测量值具有非零概率的发射权重的分布内适应离群数据。
[0287] 训练过程示于图34中并现在加以描述。训练过程是迭代的并首先使用如上所述的模型20的初步估计作为模型21的估计。训练过程还使用测量22。
[0288] 鉴于模型21的估计和测量22,在步骤S3中,计算测量22如何拟合于模型,其中通过应用一范围的已知算法中的任何一种。在HMM的情况下,一种适宜的算法是前向-后向算法。
[0289] 在步骤S4中,然后,拟合于在步骤S3中计算的模型的数据用来估计何种基本状态发射分布将归入上述拟合以及再估计k聚体状态中心,从而更新模型21的估计。
[0290] 在步骤S5中,确定训练过程是否已收敛,即是否来自步骤S4的模型21的更新估计与先前迭代没有显著改变。如果未收敛,则利用模型21的更新估计对过程进行迭代。
[0291] 进行这样的迭代直到在步骤S5中确定收敛。此时,模型21的更新估计已收敛到测量22的描述并被输出为输出模型23。
[0292] 虽然这是用于训练过程的机器学习算法的一种可能的实施方式,但可以使用如在本领域中是已知的其它机器学习方法。
[0293] 现将描述图6的分析方法的实例,其应用于图9的实验确定的输入信号11。如上所述的,通过状态检测步骤S1导出的测量系列12示于图10中。
[0294] 聚合物是多核苷酸以及用来描述测量的k聚体模型是3聚体。
[0295] 模型13包含如图16所示和上文描述的过渡权重14。
[0296] 上述模型包含利用如上所述的图34的训练过程确定的发射权重15。图35示出得到的发射权重15,其是具有小的非零背景的高斯分布。
[0297] 图36示出来自部分的状态数据的电流测量(汇集自许多实验)与来自模型13的预期测量的重叠。
[0298] 图37示出已知序列(参比)和通过分析步骤S2(调用)估计的k聚体状态的估计序列的状态空间排列。正确估计的k聚体状态被示为较大点。如可以看到的,提供了k聚体状态的良好估计。
[0299] 图38示出通过分析步骤S2估计的并且对比与实际序列所示出的核苷酸的估计序列16。正确的k聚体状态估计被示为‘#’(因为我们已将k聚体状态直接相关于碱基,这可以被示出)。正确的碱基估计但不正确的k聚体状态估计被示为’*’。
[0300] 以上的描述涉及这样的情况,其中上述方法基于单个输入信号11和单个测量系列12。
[0301] 可替换地,本发明的第一方面可以使用多个测量系列,各自涉及相同聚合物。在此上下文中,“相同”聚合物是这样的聚合物,其具有相同的同一性或组分,即物理上相同的聚合物或物理上不同但具有相同同一性的聚合物。可以对相同聚合物或可以对具有相关序列的不同聚合物进行多个测量的系列。
[0302] 可以各自通过相同技术或通过不同技术来进行多个测量的系列。可以利用相同或不同的测量系统来进行多个测量的系列。
[0303] 多个测量的系列可以具有对相同聚合物的相同区同时进行的不同类型,例如是同时进行的跨膜电流测量和FET测量,或是同时进行的光学测量和电子测量(Heron AJ et al.,J Am Chem Soc.2009;131(5):1652-3)。可以通过将给定聚合物或其区转移通过孔多于一次来一个接一个地进行多个测量。这些测量可以是相同测量或不同测量以及在相同条件下、或在不同条件下进行。
[0304] 可以对有关的聚合物的区进行多个测量的系列。在这种情况下,测量的系列可以是具有相关序列的独立的聚合物的测量,或可以是具有相关序列的相同聚合物的不同区的测量。作为后者的实例,可以使用针对多核苷酸提出的技术,其中关系是上述序列是互补的。在这种情况下,可以利用多核苷酸结合蛋白或经由多核苷酸样品制备来依次读有义和反义链。在临时申请61/511436或WO-2010/086622中提供的任何方法可以用来允许读有义和反义链。
[0305] 作为此的实例,图6所示的方法可以应用于多个输入信号11,其可以在状态检测步骤S1中加以处理以提供多个测量的系列12。在这种情况下,每个输入信号11和测量系列12与所述聚合物相关:通过是相同聚合物的相同区的测量,或通过是相同或不同聚合物(例如DNA链和互补DNA链)的不同但相关区的测量,如上文详细描述的。
[0306] 在这种情况下,分析方法基本上是相同的,但通过在如安排于多个、相应维度的步骤S2中的分析技术来处理来自相应测量系列12的测量。
[0307] 相对于在分析步骤S2中分别地处理每个输入信号11和测量系列12,这提供相当大的优点。通过在分析中在此早期阶段结合来自测量系列12的信息,可以进行基本聚合物单元的更准确估计。在分析过程早期,信息的结合使得相比于测量系列12的独立处理和在分析过程结束时的结合,可以获得更精确的输出。这可以没有任何要求测量系列12是相关的,而是通过基本聚合物关系来实现。概率或其它分析技术还使得分析能够估计相关测量系列12的注册或序列对比。重要的是注意到,任何测量系列相对于任何其它测量系列的注册可能或不可能是先验已知的。在没有注册的情况下,在系列内的每个测量并不与来自另一系列的测量先验成对。
[0308] 从数学上讲,用来处理如安排在两个相应的维度(尺寸)上的测量系列12的分析步骤S2的扩张是直接的。发射权重15发生在多维上,一维用于每个测量的系列12。在对所记录的多个测量系列12进行上述方法以致先验已知的是来自相应系列的哪些测量对应和取决于相同的k聚体,可以应用模型13,其中利用发射权重15作为在多维上的概率密度函数,其描述针对每个k聚体状态的多个测量的分布。
[0309] 相比之下,在对未记录的多个系列进行上述方法以致不是先验已知的是来自相应系列的那些测量对应和取决于相同的k聚体的情况下,上述方法处理作为整体的如安排于多个、相应维度上的多个测量的系列,具体如下。
[0310] 用跳过状态来增强发射分布的每一维,其中多维权重表示它们的发生机会。在单个系列中发生跳过的情况下,发射分布被视为发射“跳过”信号状态而不是在相应维上的测量值。这些“跳过”状态不是可观测的,并且这些状态的未知数目和位置引起注册问题。分析步骤S2的进行是基于以下可能性:多个测量系列12源自k聚体和聚合物单元的不同序列,以及借助于在那些测量之间的不同注册,在发射分布中,每个注册的机会是隐含的。
[0311] 在记录和未记录的情况下,其中多个测量系列12是相同性能的等效测量(例如,对于相同聚合物的重复测量),关于每个系列12的发射权重15可以是相同的。在多个测量系列12是不同性能的测量(例如,对于相同聚合物的不同测量,或对于不同聚合物但聚合物的相关区的测量)的情况下,关于每个系列12的发射权重15可以是不同的。
[0312] 考虑上述图形模型B,从概念上讲,上述模型是相同的,不同之处在于Xi现表示值的向量而不是单值。在HMM的情况下,不是来自一维概率密度函数g()的状态发射值,值发射自多维密度函数,例如在有义和反义链的测量的情况下,Xi发射电流对(xis,xia),其中xis是读自有义链的电流以及xia是来自用于互补k聚体的反义链的读数。这种发射的电流对可以包含未观测到的跳过状态以及真实电流测量。正如在基本一维的情况下,可以建模离群值和丢失数据、或跳过的状态。
[0313] 有利地,可以利用来自相关聚合物的信息来桥接在聚合物之一中的跳过。例如,借助于有义-反义数据,通过允许两维密度g()发射在一维上并具有非零概率的跳过同时采样来自其它维的电流,可以在有义但不在反义上(或反之亦然)发射跳过,所以X1可以发射形式(x1s,x1a)、(x1s,-)或(-,x1a)的电流对,其中–表示未观测到的跳过。另外,如在1D的情况下,还可以建模和校正在两种聚合物中的跳过。在这里,通过发射用于其它系列测量的跳过状态,还可以建模在测量系列中的“停留”。
[0314] 来自一维HMM的所有优点转移到这种多维HMM。相对于运行两个分开的一维HMM,然后通过对比技术在底空间中进行对准,类似地存在优点。
[0315] 仅通过实例的方式,将讨论将维特比算法应用于以多维安排的测量。维特比算法在本领域中是众所周知的。对于一维HMM,对于通过状态序列从第一向前移动到最后状态(i=1..n)的每个状态i,计算结束于每种可能的k聚体K的最有可能的路径的可能性Li(k)。由于缺乏在多个系列的测量之间的注册,必须考虑所有这样的路径。仅利用来自紧接上一个状态的值Li-1(.)以及过渡和发射概率,可以计算值Li(K),从而形成递归。在m维HMM中,可以使用类似的方案。如果加入跳过,那么我们具有m个指数,所以Li1,i2,…,im(K)是最大可能性,其描述以1维的状态i1、以2维的状态i2等等。通过查看所有可能的量Lj1,j2,…,jm(K),可以递归地计算它,其中如果以维1发射跳过,则j1=i1,或如果以1维发射状态,则(i1-1),类似地,对于j2、j3等。
[0316] 可以应用这种分析方法,其中每个输入信号11和测量系列12是相同聚合物的相同区的测量。例如,在重读聚合物、或聚合物的区的系统中,可以结合这些读数并估计注册或对比,以更精确地确定基本k聚体状态。上述方法还允许在不同条件下或通过待结合的不同方法来进行测量。
[0317] 如上文所讨论的,还可以同时进行多个测量,例如,其中多个测量系列包括多个电子测量或电子和光学测量。可以结合这些读数和/或估计注册或对比,以更准确估计基本聚合物序列。
[0318] 可替换地,汇总多个测量系列12以提供汇总测量系列,其由分析步骤S2用作一维测量。在存在m种不同类型的多个测量系列的情况下,聚合可以应用于相同类型的所有系列,以及m维HMM用于汇总状态系列。可替换地,在存在多个系列的情况下,可以对每个系列、或对每个汇总测量系列运行一维HMM,并基于来自这些分析的输出进行一致调用。
[0319] 这种分析方法还可以应用于输入信号11和测量系列12,其包括两个测量系列,其中第一测量系列是聚合物的第一区的测量以及第二测量系列是聚合物的与所述第一区相关的第二区的测量,例如相同或不同聚合物的互补区。
[0320] 这种技术特别适用于DNA序列的互补对,即,“有义”链和它的互补“反义”链。
[0321] 现将说明,相对于两个分开的一维HMM,然后通过对比技术在底空间中对准,两维方式的优点。
[0322] 作为简单说明,假定,Pr(AAACAAA)=0.6、Pr(AAAGAAA)=0.39、Pr(AAAAAAA)=0.01,来自关于有义链的HMM,以及Pr(TTTTTTT)=0.6、Pr(TTTCTTT)=0.39、Pr(TTTGTTT)=
0.01,来自关于反义链的HMM。如果获得用于有义和反义的最有可能的序列并尝试被对齐为有义-反义对,那么在序列的中部碱基则产生冲突。两维HMM会发现到目前为止最有可能的序列的一致对是(AAAGAAA,TTTCTTT),并且将对序列对(AAACAAA,TTTGTTT)和(AAAAAAA,TTTTTTT)指定低概率。
[0323] 虽然在此简单说明中,可以通过每个一维HMM来考虑第二最有可能的序列以解决此问题,但很快变成不现实的是,仔细检查用于较长序列的所有必要的聚合物单元估计。另外,用于估计聚合物单元的一些方法(例如维特比)仅发射最有可能的路径,从而使得在估计聚合物单元以后可能性较小的序列的组合变得不可能的。
[0324] 现说明利用维特比算法的有义-反义情况的具体详细的实例,以表明改善。
[0325] 在有义-反义的情况下,上文描述的m维情况用于m=2并利用值Li-1,j(.)、Li,j-1(.)和Li,j(.)来计算Li,j(K),其取决于仅由有义、仅由反义、或由两者来发射状态。
[0326] 图39示出其中利用3聚体模型和HMM来进行最有可能的有义和反义序列的独立调用的实例。利用如上所述的两维维特比算法来进行联合有义-反义调用。联合调用是正确的并具有很少例外,以及尤其是正确地调用碱基,其在有义和反义调用中被不正确地调用。以‘#’示出正确的3聚体状态估计,以‘*’示出正确的碱基。在此图中可以看到,结合独立的有义和反义读取的最佳区没有考虑在有义-反义结果中正确调用的数目。在分析过程的早期,数据的结合,并与概率方法结合,导致“大于部分的总和”的结果。
[0327] 虽然这种多维实例是用于有义-反义DNA的情况,其中添加的信息是一个链互补于另一个链,但在多维方式中,可以编码在聚合物的区之间的其它关系。可以加以编码的另一类型的信息的实例是聚合物的结构信息。此信息可以存在于RNA中,已知其形成功能结构。此信息还可以存在于多肽(蛋白质)中。在蛋白质的情况下,结构信息可以与疏水或亲水区相关。信息还可以是关于α螺旋、β片或其它二级结构。信息可以是关于已知的功能性基序如结合位点、催化部位和其它基序。
[0328] 现将讨论根据本发明的第二方面和第三方面进行聚合物的测量的方法。如下文更详细地讨论的,这可以可选地与上文按照本发明的第一方面描述的方法结合。
[0329] 在这种方法中,测量是流过纳米孔的离子电流的测量。在这种方法中,当跨越纳米孔施加电压时,聚合物被移位通过纳米孔。测量取决于在纳米孔中k聚体的同一性。在跨越纳米孔施加不同水平的电压下,进行测量。本发明人已经认识到,上述测量会提供另外的信息,而不是仅仅重复的。现将描述此优点的一些具体的展示。
[0330] 第一实例说明聚合物的离子电流测量的分辨率,上述聚合物是在施加电位下在测量系统中保持静态的DNA的链。在此实例中,通过在第二水平的电压下记录,来解析在第一正常水平的电压下电流彼此类似的DNA序列。
[0331] 与先前报道于Proc Natl Acad Sci U S A.2009May12;106(19):7702-7中的方法类似,利用链霉亲和素锚状物,将DNA链保持在纳米孔中。收集运行物,其中,利用在本领域中已知的方法,在嵌入在DPhPC双层中的单MS-(B1)8纳米孔中,测量DNA的单个链。跨越纳米孔施加电压以及由在纳米孔的任一侧上在盐溶液中的离子的移动产生电流。
[0332] 运行条件是:400mM KCl,10mM乙基哌嗪乙磺酸(Hepes),pH8.0,+180mV。用链霉亲和素并以2:1比率,温育对照序列(TS01),并加入室以产生200nM DNA的最终浓度。连同链霉亲和素一起,以2:1比率将分析物序列加入室中以产生400nM的最终分析物DNA浓度。在两种情况下,在加入室中以前,温育生物素化DNA和链霉亲和素5分钟。进行单通道记录,其中利用自动化程序来在+180mV(2秒)和-180mV(0.2秒)之间变化施加电位。正施加电位用来捕捉和读取DNA水平,而负电位则用来从纳米孔排出链霉亲和素-DNA复合物。
[0333] 研究了每个DNA结合事件(状态)的平均电流水平,具体如下。
[0334] 记录来自TS01对照和分析物序列的总体。通过利用以下关系来调节分析物序列电流水平:
[0335] IDNA调节=IDNA记录–ITS01+32.2pA
[0336] 对于一范围不同的DNA序列重复此过程。通过举例的方式,表2列出所选的序列,其中,当在+180mV的电压下测量时,调节的电流水平示出类似的幅值(54.5±0.5pA)。
[0337] 表2:
[0338]
[0339] 在随后的实验中,将DNA的相同链均放入室中,其包含嵌入在脂膜中的单MS-(B1)8纳米孔。条件类似于上述条件:400mM KCl,10mM乙基哌嗪乙磺酸(Hepes),pH8.0,+180mV。对于每种分析物DNA,以2:1的比率,将所有分析物序列加入室中,其中链霉亲和素具有200nMDNA的最终浓度。在本实验中,没有添加TS01。在加入室中以前,温育生物素化DNA和链霉亲和素5分钟。
[0340] 为了研究施加电位对DNA区别的影响,在本实验中,变化电压。进行单通道记录,其中利用自动化程序以在+X(2秒)和–X(0.2秒)之间改变施加电位,其中X是140mV、180mV和220mV。对于X的每个值,记录单通道数据大约30分钟。
[0341] 记录对于每个DNA结合事件(状态)的平均电流水平并作图于图40所示的一组柱状图中,其分别相对于+140mV、+180mV和+220mV的正电位。考虑到这些结果,很显然,在+180mV下的数据的表现是如对于表1.1中的所有11种链所预料的,其产生非常类似的电流水平。在+220mV下,存在电流水平柱状图的扩大或扩散,这表明出现了水平的分离。在+140mV下,也存在扩大或扩散并且类似地电流水平已清楚地解析成许多不同的总体。这些结果表明,在+140mV下将有可能彼此区别许多DNA链,而在+180mV下则是不可能的。虽然为便于实验,这是用在纳米孔中为静态的链进行的实例,因为不同DNA链在纳米孔中的相关位置提供不同k聚体以影响离子电流,所以预计,通过动态地移位通过孔的DNA链的不同k聚体会产生在离子电流之间的类似的分离。
[0342] 第二实例说明,在施加电位下,聚合物(其是在测量系统中保持静态的DNA的链)的离子电流测量的分离。在此实例中,示出在不同水平的电压下离子电流的测量以解析不同k聚体。
[0343] 在第二实例中,为了确定施加电位对给定链的电流水平的影响,选择DNA序列以包含所有可能的三联体(De Bruijn,GTAC,k3,Seq ID5)。
[0344] Seq ID5(k3De Bruijn):
[0345] ATAAGAACATTATGATCAGTAGGAGCACTACGACCTTTGTTCTGGTGCTCGTCCGGGCGCCCAAAT[0346] 为了评估在没有来自链移动的任何可能的复杂化的情况下电流水平的影响,设计了一系列不同的DNA链。它们各自包含在3’端处的生物素-TEG接头、一部分的k3De Bruijn序列(35个核苷酸长)、和具有低二级结构的部分,以有助于使DNA穿入纳米孔(长度为10个核苷酸)。变化包含k3De Bruijn的部分的序列以致每个链的序列被移动一个核苷酸。选择前导部分以致它并不杂交于De Bruijn部分。这些代码和相应序列列于表3中。
[0347] 表3:
[0348]
[0349]
[0350]
[0351] 利用和在第一实例中描述的类似的方式,获得表3所示链的电流水平。将TS01链加入室中作为内部对照并相对于此对照来校准电流水平。在本实验中使用的方法和在第一实例中使用的那些方法之间有两个主要差异。第一差异是,纳米孔被改变成MS-(B1-L88N)8突变体。第二差异是施加的电压方案。对其加以选择,以致在4种不同施加电位下依次记录电流。因为纳米孔捕捉DNA的速率取决于施加电位,所以首先记录最大电位。所选择的电压方案是:+180mV(2.2s)、+140mV(0.4s)、+100mV(0.4s)、+60mV(0.4s)、-180mV(0.8s)。
[0352] 图41示出,在较低痕迹中,施加电压的实例,以及,在上部痕迹中,在相同的时间尺度上,针对SD01链的得到的测得的离子电流。如在图41的实例中可以看到的,在+180mV的初期期间。发生结合事件,其导致离子电流的下降。当在随后期间电位降低时,观测到的离子电流减小。在最后期限,反向电压排出DNA链。
[0353] 对于所有DNA链SD01-SD54观测到类似模式,其中在每个电压下测得的离子电流水平列于表3。
[0354] 为了提供此数据的图形表示,图42至45分别是在4种电压水平下,针对依次水平索引的每个DNA链的测得电流的散布图。如可以看到的,当电位变化时,散布图的形状也发生变化。这意味着,在不同电压下的测量将提供另外的信息,例如通过在一种电压下的测量来提供在另一电压下不能加以解析的两种状态之间的分辨率。
[0355] 为了提供相同数据的另一种表示,图46是相对于施加电压针对每个链测得的电流图。数据包括在每个电压下用于每个链的点,在图中用于每个链的点以线相连接,以显示每个链的趋势。在图46中的这种表示说明变动的两个主要特点。
[0356] 第一特点是,随着增加的电压,对于不同链,总体上存在测得电流的扩散的增加。这种总体趋势是普遍感兴趣的。它可以指示在状态之间的分辨率的变化,其将影响电压的最佳选择,但其取决于在状态之间的分离以及还取决于单个状态的测量的标准偏差。然而,总体趋势并不用来表明利用多个电压的好处。
[0357] 第二特点是,针对单个链的测得电流显示对施加电压的不同的依赖性。因此,即使,随着增加的电压,总体趋势是发散的,针对每个链的电流测量也并不显示相同趋势。针对链的测量并不相互发散的,但相反针对单个链存在变动。相反,虽然一些链展示随电压的通常线性变化,但其它链则展示非线性或波动变化,在一些情况下具有拐点。相对于总体发散趋势,关于一些链的线会收敛。这种观测的原因不是关键的,但据推测,它们起因于在施加不同电压下测量系统的物理和/或生物学上的变化,也许起因于在纳米孔中DNA的构象变化。
[0358] 该第二特点表明,在一个以上电压下的测量提供另外的信息,而不是仅仅重复的。在不同电压下的离子电流测量允许分辨不同状态。例如,在一种电压下不能被解析的一些状态可以在另一电压下被解析。
[0359] 关于第二实例的一些另外观测检查了改变电压对状态的标准偏差(或方差)的影响。当电流的方差是在和DNA链的受控移动(如酶受控DNA移位)类似的时间尺度上时,这些状态的方差可能引起问题。在这种方法中,变得难以确定:电流水平的变化是由于在每个状态内的方差或由于DNA的净移动。为此,在第二实例中收集的数据的收集是利用保持在纳米孔的顶部的链并通过链霉亲和素,而不是利用酶来控制移位。因此,期望具有一种系统,其中,可以变化电流水平的方差以描述是否电流变化产生自链移动或电流状态的固有特性。
[0360] 为了评估施加电位对状态方差的影响,分析了第二实例的结果以导出对于在表3中的每个DNA序列的平均标准偏差。图47是相对于施加电压,每个链的标准偏差图。数据包括在每个电压下针对每个链的点,在图中针对每个链的点以线相连接,以显示针对每个链的趋势。依据图47,显而易见的是,电流水平的方差确实随施加电位而变化。对于大多数链,方差随增加的施加电位而增加,但从+180mV到+220mV则急剧上升。据推测,这种变化具有和上述的电流随电压的变动类似的原因。
[0361] 在一个以上电压下进行离子电流测量的方法,其体现本发明的第二方面和第三方面,示于图48。在这种方法中,同DNA移动通过纳米孔时,调节施加电位。
[0362] 在步骤S6中,在施加跨越纳米孔的电压下,使聚合物移位通过纳米孔。
[0363] 在步骤S7中,在移位期间,以一定周期来改变电压的水平。周期可以包括两个或更多电压水平。可以以规则或不规则模式来重复电压水平。选择周期(包括它的期间)以短于单个观测到的状态,即,这样的状态,其中聚合物处于不同位置以致测得的电流取决于不同k聚体。因此,可以观察到,在每个状态期间,当电压水平相同时,例如在重复周期中,流过纳米孔的离子电流是相同的。换句话说,借助于施加电压来循环离子电流。
[0364] 在步骤S8中,针对每个相应的状态,测量在施加电压的不同水平下流过纳米孔的离子电流。
[0365] 第三实例是这种方法的实例,其进行如下。选择分析物DNA链以包含在上述第二实例中已用链霉亲和素系统表征的序列。分析物DNA链还包含在5’突出端处的较低二级结构序列以允许穿入纳米孔。将互补链杂交于分析物链。互补链还包含短5’突出端,其中杂交包含胆固醇-TEG接头的短寡聚体。胆固醇的加入允许DNA束缚于双层并大大降低所需要的DNA的浓度。表4列出在此实例中使用的分析物DNA链的序列。
[0366] 表4:
[0367]
[0368] 实验装置类似于上文所描述的,并使用溶液,其包含:400mM KCl、10mM Hepes、pH8.0、1mM EDTA、1mM DTT。在室中使用缓冲液并作为预混合溶液的一部分。以1:1:1比率,杂交在表4.1中的DNA并加入预混合溶液。还添加Phi29DNAP并在室温下允许混合预混合物5分钟。获得单MS-(B1-L88N)8通道并添加预混合物以产生0.5nM的最终溶液DNA浓度和100nM的最终溶液Phi29DNAP浓度。
[0369] 以一定周期施加外加电压,上述周期包括+180mV和+140mV的交替脉冲,各自长度为10ms。
[0370] 图49示出结果的说明部分,其尤其显出,在较低痕迹中,施加电压,以及在上部痕迹中,得到的测得的离子电流。从Phi29DNAP-DNA复合物看到事件。在两种施加电位下均可以观测到状态,例如在图49中的标记状态1至3。在每个状态期间,在连续周期中在每个水平的电压下流动的离子电流是相同的。在每个状态中,依次获得在+140mV和+180V的施加电位下的电流水平,同时链是在一致位置,从而产生在两个电压下关于在孔中的单分子的读数,这是通过短于状态期间的循环周期来实现。在改变施加电位后不久,可以观测到电容瞬态。当在脂双层上的存储电荷变化时,这会发生。这种电容瞬态的持续时间取决于脂膜的尺寸并且可以通过使用更小的膜尺寸来减小。在本实验中,使脂膜悬浮穿过直径为50μm的孔。
[0371] 也可以观测,当链从一个位置移动到另一个位置如在施加电位下DNA被拉过Phi29DNAP时发生的状态之间的过渡。上述过渡导致针对每个施加电位所观测到的电流的变化。
[0372] 在图49中的实例还说明使用多个电压的优点:相比于在+140mV的施加电压下,在+180mV的施加电压下,在状态2和相邻状态1以及3中测得的离子电流之间的差异要大得多。
这使得在+180mV的施加电压下比在+140mV的施加电压下更容易解析状态2与状态1和3。相反地,相比于在+180mV的施加电压下,在+140mV的施加电压下更容易解析其它状态。
[0373] 图50示出结果的另一说明部分,上述结果是在和在第三实例中描述的那些条件类似的条件下所获得,但其中使用MS-(B1)8孔而不是MS-(B1-L88N)8,以和图49相同类型的图。图50具有和图49类似的总体形式,这次包括4个状态标记状态1至状态4。在这种情况下,在+
140mV的施加电压下,在状态2和相邻状态3中测得的离子电流之间几乎没有差异,但在+
140mV的施加电压下存在较高差异。在这种情况下,在+140mV下,难以或甚至不可能解析状态2与状态3,但在+180mV下,这变成可能的。再一次,相比于在+180mV的施加电压下,在+
140mV的施加电压下,更容易解析其它状态。
[0374] 当分析测得的离子电流以导出关于聚合物的信息时,利用上文表明和讨论的多个水平的施加电压获得的另外的信息会提供优点。
[0375] 分析测量的一种方法是应用按照本发明的第一方面的方法,例如上文描述的其体现第一方面的方法(参照图6和随后的附图)。因此,可以以任何组合来结合本文描述的方法的各种特点。在这种情况下,通过利用多个电压所获得的另外的信息会改善估计的准确性。
[0376] 按照本发明的第一方面的分析方法确定序列,因此确定至少部分聚合物的特性。然而,按照第二方面和第三方面的方法还提供优点:分析测量的其它方法,其确定至少部分聚合物的同一性,其一些非限制性实例是如下。
[0377] 可以利用不同于按照本发明的第一方面的那些技术的技术来分析测量以估计在至少部分的聚合物中的聚合物单元的序列。
[0378] 可以分析测量以估计至少部分聚合物的特性而没有提供聚合物单元的序列的全面估计。在这些类型的分析中,通过利用多个电压获得的另外的信息会改善估计的准确性。
[0379] 可替换地,可以分析测量以导出在状态之间过渡的时序。这些时序本身是有价值的,或可以用于进一步分析,例如用来确定聚合物单元的特性。在这种类型的分析中,另外的信息可以改善检测过渡的能力。在一个电位下更容易观测一些过渡,以及在另一电位下更容易观测其它过渡。通过举例的方式,在图50的说明性结果中,从状态2到状态3的过渡,在+140mV下难以观测到,但在+180mV下则容易观测到。相比之下,在+180mV下,从状态3到状态4的过渡是较弱的,但在+140mV下侧容易观测到。因此,在一个以上电位下,明显有利于状态检测的记录。
[0380] 在一些分析方法中,均直接使用在不同水平下的测量,例如作为分开测量,其以相同方式均有利于至少部分聚合物的特性的确定。在其它分析方法中,可以以不同方式来使用在不同水平下的测量,例如在一个水平下进行的测量用来确定特性,而在不同水平下进行的测量则用来确认结果。可替换地,在一个水平下的噪声可以相比于在另一水平下的噪声以确定在一种电压下使用特定测量。可替换地,分析方法可以涉及在针对相应的k聚体的在不同水平下的测量之间进行选择,接着使用所选择的测量以确定至少部分聚合物的特性。
[0381] 可能的是,通过使用在不同水平下的两个测量所获得的另外的信息的程度在k聚体之间是变化的。在这种情况下,可能的是,在不同数目的水平下的测量用于不同k聚体,例如利用在减少数目的水平下的测量,也许仅单一水平,用于一些k聚体,同时利用在多个水平下的测量用于其它k聚体。这种方法可以特别用于高变化状态或用于相应的状态,其具有类似的电流水平。
[0382] 在使用在不同水平下的测量的情况下,可以将不同的权重连接于不同的测量。
[0383] 然而,尽管以下事实:分析方法可以以各种方式来使用测量,但以某种方式来使用在不同水平下关于一些k聚体的测量。
[0384] 现描述按照本发明的两个非限制性实例。上述两个实例应用于这样的情况,其中在每个电位下通常存在至少一个测量/状态。
[0385] 在第一实例中,在多个水平下的测量用来确定状态过渡。这利用了以下事实:在一个电位下,状态过渡可以是可观测的,但在另一电位下则是不可观测的。可以使测量经受如上所述的分析方法,包括状态检测步骤S1,其中过渡自状态的机会是较高的。在图50中,可以将痕迹减少至分别在140和180mV下的两个测量,其中通过采用例如在每个状态下用于一个状态的总数据的平均值。然后,这些测量可以被处理为同时存在的(即紧密耦合维度),其来自两组发射分布,并借助于和1D情况类似的一组过渡进行分析。注意,在实施方面,这类似于这样的情况,其中我们在单个电位下进行一个以上的状态测量例如平均值和方差。确实,我们可以扩展这种方式到4个紧密耦合维度,其中通过考虑例如在每个电位下的平均值和方差。
[0386] 在第二实例中,在分析阶段中估计在状态之间的过渡,而不是作为分开的步骤,其类似于上文描述的情况,其中省略步骤S1。在此实例中,为简单起见,我们将考虑这样的情况,其中我们已将在电位周期的每个步骤处的测量系列减少至单个测量,例如平均值。再次参照图50,状态1包括在140和180mV之间交替的28个测量。因此,相对于适当的发射(140mV或180mV)和适合于此数据的过渡来计算针对每个测量的发射概率。例如,来自此状态的大约0.05的总过渡概率可以是适当的。这种方式还可以被一般化以考虑到每个测量,而不是来自每个周期的汇总测量、或来自每个周期的多个汇总测量。
[0387] 在按照本发明的第二方面,在不同电压下进行测量的方法中,虽然有利的是,应用按照本发明的第三方面的方法,其中循环施加电位,同时使聚合物移位通过纳米孔,但也可以使用其它方法。
[0388] 通过非限制性实例的方式,按照本发明的第二方面,在一个以上电压下进行离子电流测量的一种替换方法示于图51并进行如下。
[0389] 在步骤S9中,使聚合物移位通过纳米孔,以及在步骤S10中,在移位期间,跨越纳米孔施加单水平的电压,并在施加上述水平的电压下针对每个观测到的相应状态测量流过纳米孔的离子电流。然后上述方法重复步骤S9以移位相同聚合物以及步骤S10仅施加不同水平的电压。可以重复步骤S9和S10任何次数以获得在任何数目的电压水平下的离子电流测量。
[0390] 理想地,为了每次读取相同多核苷酸,限制聚合物离开纳米孔的能力。在多核苷酸的情况下,这可以加以完成,其中通过控制电位以致链并不离开,或通过使用化学或生物化学封闭剂,如链霉亲和素,来抑制链的移位。
QQ群二维码
意见反馈