首页 / 专利库 / 物理 / 单电子隧穿 / 量子分子测序(QM-SEQ):DNA、RNA和单核苷酸修饰的独特纳米电子隧穿光谱学指纹的鉴定

量子分子测序(QM-SEQ):DNA、RNA和单核苷酸修饰的独特纳米电子隧穿光谱学指纹的鉴定

阅读:782发布:2020-05-11

专利汇可以提供量子分子测序(QM-SEQ):DNA、RNA和单核苷酸修饰的独特纳米电子隧穿光谱学指纹的鉴定专利检索,专利查询,专利分析的服务。并且本 发明 公开了用于鉴定天然的和合成的以及经修饰的和未修饰的DNA、RNA、PNA、DNA/RNA核苷酸和对其进行测序的技术、方法、装置和组合物。所公开的技术、方法、装置和组合物用于使用纳米 电子 量子隧穿 光谱 学鉴定各种修饰、DNA/RNA损伤和核苷酸结构,所述纳米电子量子隧穿 光谱学 可被称为QM-Seq。所述方法和组合物可包括带电荷的光滑基片用于沉积单链核苷酸和多核苷酸大分子的用途,扫描经修饰的或未修饰的DNA/RNA/PNA,将未知核 碱 基的电子特征与已知核碱基的电子指纹的 数据库 相比较,包括在相同或相似条件(例如当核碱基在酸性环境中时)获得的天然的和合成的、经修饰的和未修饰的核碱基,以及二级/三级结构。,下面是量子分子测序(QM-SEQ):DNA、RNA和单核苷酸修饰的独特纳米电子隧穿光谱学指纹的鉴定专利的具体信息内容。

1.一种鉴定第一未知核基的方法,所述方法包括:
使用收集隧穿电流数据的扫描隧道显微镜术测定所述第一未知核碱基的电子特征;
将所述第一未知核碱基的电子特征与一个或多个已知核碱基的电子指纹相比较;
将所述第一未知核碱基的电子特征与已知核碱基的电子指纹匹配;和从而
鉴定所述第一未知核碱基。
2.根据权利要求1所述的方法,其中所述第一未知核碱基的电子特征和所述已知核碱基的电子指纹包含选自LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的值的至少3个、至少4个、至少5个、至少6个、至少7个、至少8个或至少9个值。
3.根据权利要求1至2中任一项所述的方法,其中所述第一未知核碱基通过一个或多个磷酸分子共价地附接于第二未知核碱基。
4.根据权利要求3所述的方法,其中通过权利要求1的方法鉴定第二未知核碱基。
5.根据权利要求1至4中任一项所述的方法,其中所述第一未知核碱基选自由以下组成的组:经修饰的和未修饰的腺嘌呤、嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶。
6.根据权利要求1至5中任一项所述的方法,其中在选自酸性、中性和碱性的一个或多个pH环境中测定所述第一未知核碱基的电子特征,并将其与在相同pH环境中收集的所述一个或多个已知碱基的电子指纹相比较。
7.根据权利要求6所述的方法,其中所述pH环境是碱性的。
8.根据权利要求7所述的方法,其中所述pH大于。
9.根据权利要求6所述的方法,其中所述pH环境是酸性的。
10.根据权利要求9所述的方法,其中所述pH小于3。
11.根据权利要求9或10中任一项所述的方法,其中所述第二pH环境是碱性的。
12.根据权利要求11所述的方法,其中所述pH大于9。
13.根据权利要求1至12中任一项所述的方法,其中所述第一未知核碱基共价地键合于核糖或脱核糖分子。
14.根据权利要求1至13中任一项所述的方法,其中所述第一未知核碱基为甲基化的核碱基。
15.根据权利要求1至14中任一项所述的方法,其中在光滑有序的金基片上测定所述第一未知核碱基的电子特征。
16.根据权利要求15所述的方法,其中所述光滑有序的金基片为Au(111)。
17.根据权利要求16所述的方法,其中将所述光滑有序的金基片经历等离子体清洁。
18.根据权利要求15至17中任一项所述的方法,其中涂覆所述光滑有序的金基片。
19.根据权利要求18所述的方法,其中通过用包含一种或多种离子型分子的溶液处理所述基片来形成所述涂层。
20.根据权利要求19所述的方法,其中所述溶液包含多聚L-赖酸并且使所述基片带电荷。
21.根据权利要求15至20中任一项所述的方法,其中所述核碱基是多核苷酸中的核苷酸。
22.根据权利要求21所述的组合物,其中通过挤出和沉积的方法将所述多核苷酸沉积在所述基片上,其中用平移运动将所述多核苷酸挤出在所述基片上。
23.根据权利要求11至20中任一项所述的组合物,其中所述基片包含通道或孔。
24.根据权利要求23所述的组合物,其中所述通道或孔是微流体通道或孔。
25.一种组合物,其包含:
基片,其中所述基片是光滑有序的金基片;
所述基片上的涂层;和
与所述基片接触的一个或多个核碱基。
26.根据权利要求25所述的组合物,其中基片为Au(111)。
27.根据权利要求25至26中任一项所述的组合物,其中使所述基片带电荷。
28.根据权利要求25至27中任一项所述的组合物,其中将所述基片经历等离子体清洁。
29.根据权利要求25至28中任一项所述的组合物,其中通过用包含一种或多种离子型分子的溶液处理所述基片来形成所述涂层。
30.根据权利要求29所述的组合物,其中所述溶液包含多聚L-赖氨酸并且使所述基片带电荷。
31.根据权利要求25至30中任一项所述的组合物,其中所述一种或多种核碱基共价地键合于多核苷酸。
32.根据权利要求31所述的组合物,其中通过挤出和沉积的方法将所述多核苷酸沉积在所述基片上,其中用平移运动将所述多核苷酸挤出在所述基片上。
33.根据权利要求25至32中任一项所述的组合物,其中所述基片包含通道或孔。
34.根据权利要求33所述的组合物,其中所述通道或孔是微流体通道或孔。
35.根据权利要求25至34中任一项所述的组合物用于测定未知核碱基的电子特征的用途。
36.根据权利要求35所述的用途,其中所述电子特征包含选自LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的值的至少3个、至少4个、至少5个、至少6个、至少7个、至少8个或至少9个值。
37.根据权利要求35至26中任一项所述的用途,其中所述一个或多个核碱基通过一个或多个磷酸分子共价地附接于第二未知核碱基。
38.根据权利要求37所述的用途,其中通过测定所述第二未知核碱基的电子特征来鉴定所述第二未知核碱基,所述电子特征包含选自LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的值的至少3个、至少4个、至少5个、至少6个、至少7个、至少8个或至少9个值。
39.根据权利要求35至38中任一项所述的用途,其中所述一个或多个核碱基选自由以下组成的组:经修饰的和未修饰的腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶和尿嘧啶。
40.根据权利要求35至39中任一项所述的用途,其中在选自酸性、中性和碱性的一个或多个pH环境中测定所述一个或多个核碱基的电子特征,并将所述电子特征与相同环境中收集的一个或多个已知碱基的电子指纹相比较。
41.根据权利要求40所述的用途,其中所述pH环境是碱性的。
42.根据权利要求41所述的用途,其中所述pH大于9。
43.根据权利要求40所述的用途,其中所述pH环境是酸性的。
44.根据权利要求43所述的用途,其中所述pH小于3。
45.根据权利要求41至44中任一项所述的用途,其中所述第二pH环境是碱性的。
46.根据权利要求45所述的用途,其中所述pH大于9。
47.一种鉴定第一未知核苷酸的方法,所述方法包括:
对置于涂覆有多聚赖氨酸的超光滑的定向的金(111)表面上的未知核苷酸进行扫描隧穿光谱学;
在酸性pH下收集所述未知核苷酸的扫描隧穿数据;
处理所述扫描隧穿数据以产生选自LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的3个或更多个参数的值;
如果
所述HOMO的值在-1.09与-1.69之间;
所述LUMO的值在约1.66与1.18之间;
所述带隙的值在约3.22与2.40之间;
所述Vtrans+的值在约1.34与0.96之间;
所述Vtrans-的值在约-0.19与-0.83之间;
所述 的值在约2.02与0.88之间;
所述Φh+的值在约1.64与0.42之间;
所述 的值在约0.52与0.06之间;和/或
所述ΔΦ的值在约3.46与1.5之间;
则将所述核苷酸鉴定为腺嘌呤,或
如果
所述HOMO的值在约-1.17与-1.55之间;
所述LUMO的值在1.72与1.24之间;
所述带隙的值在约3.11与2.57之间;
所述Vtrans+的值在1.26与1之间;
所述Vtrans-的值在-0.19与-0.77之间;
所述 的值在约1.63与1.03之间;
所述Φh+的值在约1.29与0.29之间;
所述 的值在约0.57与0.07之间;或
所述ΔΦ的值在约2.77与1.47之间;
则将所述核苷酸鉴定为鸟嘌呤,或
如果
所述HOMO的值在约-1.47与-2.15之间;
所述LUMO的值在2.79与1.99之间;
所述带隙的值在约4.69与3.71之间;
所述Vtrans+的值在1.65与1.03之间;
所述Vtrans-的值在-0.54与-1.06之间;
所述 的值在约3.51与1.73之间;
所述Φh+的值在约2.2与0.94之间;
所述 的值在约0.95与0.33之间;
所述ΔΦ的值在约5.36与3.02之间;
则将所述核苷酸鉴定为胞嘧啶,或
如果
所述HOMO的值在-1.19与-1.57之间;
所述LUMO的值在2.98与2.38之间;
所述带隙的值在约4.38与3.74之间;
所述Vtrans+的值在1.8与1.06之间;
所述Vtrans-的值在-0.25与-0.63之间;
所述 的值在约3.44与2.06之间;
所述Φh+的值在约1.25与0.45之间;
所述 的值在约0.5与0.16之间;
所述ΔΦ的值在约4.34与2.88之间,
则将所述核苷酸鉴定为胸腺嘧啶。
48.一种测序仪,其包括:
处理器;
具有至少一个量子隧穿尖端的读取头;
支撑样品的平台,所述样品包括一组或多组键合于多核苷酸的核碱基;
耦接于处理器并且提供所述读取头与所述平台之间的电压偏压
所述偏压与所述读取头之间耦接的电流传感器,所述电流传感器为所述处理器提供电流,
其中所述处理器执行指令以获取一组横穿所述样品的位置上的电子特征数据,和存储所述根据位置的电子特征,并且
其中可基于所述电子特征数据鉴定个别核碱基。
49.根据权利要求48所述的测序仪,其中所述读取头是单尖端读取头。
50.根据权利要求48所述的测序仪,其中所述读取头是多尖端阵列,排列所述多尖端阵列以便来自所述多尖端阵列的个别尖端的电流可被独立地读取。
51.根据权利要求50所述的测序仪,其中可同时读取来自所述多尖端阵列的个别尖端的电流。
52.根据权利要求48所述的测序仪,其中将所述多核苷酸挤出在导电基片上。
53.根据权利要求52所述的测序仪,其中所述导电基片包括将多核苷酸挤入其中的通道。
54.根据权利要求52或53所述的测序仪,其中所述导电基片为扁平(111)金基片。
55.根据权利要求48所述的测序仪,其中所述处理器执行指令以
(a)将所述读取头相对于所述样品置于起始位置;
(b)扫描所述电压并测量所述电流以获得电子特征数据;
(c)存储与所述读取头与所述样品之间的位置相关的电子特征数据;
(d)根据扫描模式使所述读取头相对于所述样品复位;和
(e)重复步骤(b)至(e)直至所述扫描模式完成。
56.根据权利要求48所述的测序仪,其中所述处理器进一步执行指令以
基于所述电子特征数据鉴定所述核碱基的位置;
从所述电子特征数据计算所述鉴定的位置上的参数指纹;和
基于所述参数指纹鉴定所述核碱基。
57.根据权利要求48所述的测序仪,其中将所述电子特征数据提供给执行指令的分离计算系统以
基于所述电子特征数据鉴定所述核碱基的位置;
从所述电子特征数据计算所述鉴定的位置上的参数指纹;和
基于所述参数指纹鉴定所述核碱基。
58.根据权利要求56或58所述的测序仪,其中通过从所述电子特征数据计算dI/dV、HOMO和LUMO参数来鉴定所述核碱基的位置;将所述参数与所述导电基片的那些参数相比较;和基于所述比较鉴定在只是所述导电基片的上方放置所述尖端的位置以及在核碱基的上方放置所述尖端的位置。
59.根据权利要求56或57所述的测序仪,计算参数指纹包括从所述电子特征数据计算选自组LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的至少
3个、至少4个、至少5个、至少6个、至少7个、至少8个或至少9个参数。
60.根据权利要求59所述的测序仪,其中基于参数指纹鉴定所述核碱基包括将所述参数指纹与存储在指纹数据库中的已知指纹相比较。
61.根据权利要求60所述的测序仪,其中比较所述参数指纹包括测定所述参数指纹在存储在所述指纹数据库中的一组已知指纹内的概率。
62.一种用鉴定包含一种或多种核碱基的组合物的装置,所述装置包括:
金基片,其中所述金基片是已经历等离体清洁的光滑有序的Au(111);和
包含离子型聚合物的离子型涂层。
63.根据权利要求62所述的装置,其中所述聚合物为多聚-赖氨酸。

说明书全文

量子分子测序(QM-SEQ):DNA、RNA和单核苷酸修饰的独特纳米

电子隧穿光谱学指纹的鉴定

[0001] 相关申请的交叉引用
[0002] 本申请依据35U.S.C.§119(e),要求2013年9月13日提交的美国专利申请第61/877,634号的优先权权益,该专利申请通过引用整体并入本文。
[0003] 领域
[0004] 本公开的方法、装置、组合物和系统涉及核酸的鉴定和测序。
[0005] 背景
[0006] 用于个性化医疗和快速演化的遗传学领域的新的诊断工具需要廉价、快速、可靠、不含酶和高通量的测序技术。虽然最近开发的几个DNA测序技术已试图减少测序成本和时间,但报导的核酸序列是统计上显著的总体平均值。虽然这些总体平均值可用于得出核酸序列与生理行为之间的某种关系,但遗传变异或突变的痕量平可主导生物学功能。这通过细菌或超级细菌的多重耐药菌株以及通常在药物治疗之前以痕量存在的快速突变病原体的快速出现来举例说明。牵涉抗药性编码DNA序列诸如β-内酰胺酶(其引起对基于青霉素的抗生素的抗性)的快速鉴定的最近研究已显示这些技术是适时提供靶向医疗干预,从而加强对用于快速和高通量测序的可靠单核苷酸测序工具的需要所必需的。目前的二代测序技术能够使用深度和超深(约100个读数/多核苷酸)测序法和单拷贝PCR(聚合酶链式反应)扩增检测单核苷酸多态性(SNP)。然而,这些方法非常昂贵并且技术复杂,从而使得它们难以应用于临床情况。虽然最近的研究已概述了单细胞基因组用于医学和非侵入性临床应用的潜在用途,但这些研究包括从单个分子进行的DNA的酶促扩增和使用常规测序工具(光学标记)的DNA测序。因此,用于DNA的鉴定的当前技术依赖于基于酶的DNA扩增,基于酶的DNA扩增可引入序列偏差以及可潜在地导致痕量或单细胞样品的DNA序列检测中的错误。其它新的技术已试图通过使用核酸标记和只允许DNA分子的测序的特定的酶在从头测序中减少测序错误。
[0007] DNA序列的电子鉴定为下一代测序技术的候选者,因为其可提供无DNA扩增的无酶技术。该方法可提供减少处理时间和与其它技术相关的错误的可能性。几个研究小组已使用基于沿孔离子电流的变化或隧穿电流衰减(当基穿过孔时)的DNA核苷酸的纳米孔电导进行开发。在这些实验中,使DNA穿过在其中探测其结构的非常小的空穴。然而,该方法缺乏单分子分辨能并且因核苷酸修饰而遭受不足的电导变化困扰,从而限制其用于诊断和表基因组学鉴定的潜在用途。其它研究已研究用于单分子检测和鉴定的扫描隧道显微镜术。虽然已实现了使用隧道显微镜术对单DNA分子的成像,但都未提供用于单个核苷酸、核苷和核碱基的准确、可重复和高效的鉴定和区分的可靠方法或装置或对具有多个核苷酸、核苷、核碱基及其组合的分子中的核苷酸、核苷和核碱基测序的能力。
[0008] RNA测序提出了独特挑战。近年来,大规模平行RNA测序已使得能够进行基因表达的高通量定量和稀有转录物的鉴定,包括小RNA表征、转录起始位点鉴定等等。然而,大多数RNA测序法依赖于cDNA合成以及许多在多个水平上引入偏差的操作,包括利用随机六聚体的引发、连接、扩增和测序。此外,许多常见的天然(5-甲基胞嘧啶、假尿苷)和化学修饰(N7-甲基嘌呤)在cDNA合成期间不停止逆转录酶,从而不能使用高通量DNA测序法检测出来。还已知常用逆转录酶向cDNA中引入假象,例如删除RNA二级结构的区域中的核苷酸的倾向。
这导致所得cDNA中的测序模式的模糊。此外,已发现未被目前测序技术检测出的DNA甲基化为癌细胞的显性标记,从而可用于区分在癌细胞与非癌细胞之间存在的体细胞变化。
[0009] 概述
[0010] 本文中公开的技术、方法、装置和组合物可用于测定未知核苷酸、核苷或核碱基的身份,其中方法包括通过量子隧穿分析未知的核苷酸、核苷、核碱基,测定未知的核苷酸、核苷和核碱基的一个或多个电子参数,使用电子参数测定核核苷酸、核苷和核碱基的特征,将未知的碱基的电子特征与一个或多个已知的核苷酸、核苷和核碱基的电子指纹相比较,使未知核苷酸、核苷和核碱基的电子特征与已知碱基(例如,修饰的和未被修饰的DNA核苷酸腺嘌呤,A、胸腺嘧啶,T、鸟嘌呤,G、胞嘧啶,C、RNA核苷酸A、G、C、尿嘧啶,U、肽核酸(PNA)和其它人工核酸大分子、核苷酸修饰如甲基化、5-羧基、5-甲酰基、5-羟甲基、5-甲基脱、5-甲基、5-羟甲基、N6-甲基脱氧腺苷,以及用于测定RNA二级/三级结构的其它修饰如N-甲基靛红酸酐(NMIA)或硫酸二甲酯(DMS))的电子指纹匹配,和由此鉴定未知的核碱基、核碱基修饰或核酸大分子二级/三级结构。在许多实施方案中,当核碱基在特定的化学条件或环境,例如选自酸性、中性或碱性pH的pH环境中时,可测定未知的核碱基的电子特征。在许多实施方案中,核碱基的电子特征被生化条件,例如,pH值环境改变。在一些实施例中,在酸性环境中测定未知的核碱基的身份,在酸性环境中可区分各种修饰的和未修饰的核碱基。在许多实施例中,鉴定未知的核碱基的所公开的方法可包括计算装置,其包含一个或多个标准电子指纹和将未知的核碱基的电子特征与一个或多个标准电子指纹匹配。
[0011] 所公开的技术可用于通过标记多核苷酸的5’末端来测定多核苷酸(或具有一个或多个核苷酸、核苷、核碱基或其组合的其它大分子)的3’->5’顺序。在许多情况下,多核苷酸是指包含一个或多个核苷酸、核苷、核碱基或其组合的大分子。在一些实施方案中,这通过连接特定的5’或3’末端特定引物标签(在一些情况下通过使用T4连接酶)以产生具有已知序列的5'-和3'-末端的模板来实现。通过使用公开的方法、装置和组合物,将鉴定多核苷酸(或包含一个或多个核苷酸、核苷、核碱基或其组合的其它聚合分子)的序列,序列将显示未知DNA/RNA/PNA样品的方向性。
[0012] 此处描述的微流体装置可用于改变pH以同时或几乎同时测定两个或更多个不同环境条件中的核碱基的电子特征是。使用微流体通道可从单个DNA空穴填充DNA(例如单链DNA),如图26中显示的,其中用不同的聚合电解质(聚阴离子和聚阳离子)涂覆通道,以改变和维持环境的pH至所需值。随后可将单个金属尖头或多个尖头(例如,如下文中针对并行测序所描述的)用于在不同的pH环境和其它生化条件中对核碱基进行测序。
[0013] 还公开的是可使用本文中描述的独特电子指纹鉴定多个未知的核苷酸/核碱基,其中电子指纹包含一个或多个生物物理电子参数诸如HOMO能级、LUMO能级、带隙、电子和空穴的福勒-诺德汉(Fowler-Nordheim)转变电压、隧穿曲线的斜率、电子和空穴的隧穿势垒高度的差异、电子和空穴的有效质量、不同生化条件下的电子和空穴的有效质量的比率等的值。可以以不同组合使用这些生物物理电子参数以鉴定未知的、经修饰的或未被修饰的核苷酸/核碱基。在许多情况下,未知核苷酸/核碱基的身份可以以高置信度来测定。所公开的方法可包括聚类法(其中使用许多已知的核碱基/核苷酸的一个或多个生物物理电子参
数来产生电子指纹,可将电子指纹与针对未知的核碱基/核苷酸测定的电子指纹相比较)的使用。在许多情况下,将电子参数作为电子数据存储在计算机程序中,该计算机程序可用于选择针对未知核碱基/核苷酸测定的电子参数和与已知核苷酸/核碱基的类似地配置的指
纹(包含与针对电子特征所选择的参数相同的参数的值)比较。所公开的方法可用于对用于鲁棒测序技术和软件分析的核碱基进行自动化测序和调用。
[0014] 还公开了用于测定未知核碱基的身份的组合物。在一些实施方案中,公开了用于测定核碱基的身份的基片,其中底物可以是光滑的高度有序的金基片,例如Au(111)。在一些实施方案中,基片带电荷并用包含一种或多种离子分子例如多聚L-赖酸的溶液进行处理,其中离子分子可帮助将带负电荷的聚合物,诸如单链DNA连接于金基片。
[0015] 还使用所公开的方法测定核苷酸/核碱基的化学修饰。在一些情况下,化学修饰可用于测定多核苷酸或包含一个或多个核苷酸、核苷、核碱基或其组合的其它聚合分子的二级/三级核酸大分子结构。在一些情况下,可使用N-甲基靛红酸酐(NMIA)、硫酸二甲酯(DMS)等修饰多核苷酸。DNA/RNA/PNA的化学修饰还可用于测定表观遗传标记和核酸损伤。在一些情况下,化学修饰可以是5-羧基、5-甲酰基、5-羟甲基、5-甲基脱氧、5-甲基、5-羟甲基、N6-甲基-脱氧腺苷等。可使用所公开的电子指纹利用未被修饰的DNA/RNA/PNA核苷酸同时测定化学修饰。
[0016] 虽然公开了多个实施方案,但根据下列详细描述,本发明的其它实施方案对于本领域技术人员仍将是显然的。显而易见,可通过各种描述的方面的改进实施本发明,其全都不背离本发明的精神和范围。因此,详细描述将被认为实质上是说明性且非限制性的。
[0017] 附图简述
[0018] 图1a至图1g使用量子分子测序(QM-Seq)测定核酸大分子如DNA、RNA、PNA的序列。(a)显示沉积在洁净Au(111)表面上的单链(ss)DNA的QuanT-Seq的图示。三步骤挤出沉积方案用于可重现地获得具有减小的构型熵的伸展的线性化DNA和RNA分子。用于获得QM-Seq电子谱(隧穿数据)的金属尖端用作“读取头”,(b)QM-Seq利用贯穿核苷酸的电子和空穴的纳米电子隧穿来提供独特的电子指纹。显示了酸性条件下的嘌呤和嘧啶的前线带结构、HOMO和LUMO分子轨道的示意图,其中观察到两种核碱基(未按比例绘制的)之间的显著差异。缀合的不同程度和化学上不同的核碱基(此处为腺嘌呤和胸腺嘧啶)导致不同的电子态和能
隙,(c-g)具有其对应化学结构的每一个(脱氧)核糖核苷酸的代表性QM-Seq谱(隧穿数据)。
R-可以分别地是脱氧核糖核苷酸(DNA)和核糖核苷酸(RNA)的H或OH。在酸性条件下测量谱数据。此处显示的谱对应于DNA核苷酸(A、C、G、T)和RNA核苷酸(U)。显示的结构为(c)(脱氧)腺苷5’-单克磷酸,(d)(脱氧)鸟苷5’-单克磷酸,(e)(脱氧)胞苷5’-单磷酸,(f)胸苷5’-单磷酸和(g)尿苷5’-单磷酸。A、G、C、T/U核苷酸总是分别用绿色、黑色、蓝色和红色标示。
[0019] 图2a至图2b核碱基、脱氧核苷和核糖核苷的前线分子轨道:利用(a)作为嘌呤实例的腺嘌呤、脱氧腺苷和腺苷;和(b)作为嘧啶实例的胞嘧啶、脱氧胞苷和胞苷的B3LYP函数和6-311G(2d,2p)基组,使用密度函数理论(DFT)计算的HOMO、LUMO分子轨道结构。阴影表示波函数的不同相。
[0020] 图3a至图3f使用扫描隧道显微镜术–扫描隧穿光谱学(STM-STS)测定单DNA分子的序列。(a)显示DNA加工方案的图示。使用剂压沉积技术将变性的单链(ss)DNA沉积在利用聚L-赖氨酸修饰的洁净Au(111)表面上,以可重现地获得用于测序的细长的线性化DNA模板。(b)获得沉积在带正电荷的Au(111)表面上的ssDNA核苷酸的状态(DOS)谱的形貌图象I-V和dI/dV或密度的STM-STS的示意图。使用电隧穿电流数据提供贯穿单个核苷酸的电子和空穴隧穿的隧穿概率。在可能的情况下,A、G、C、T核苷酸通过不同的阴影来区分。(c-f)中性pH下的DNA核苷酸(单磷酸)、腺苷5’-单磷酸(c)、脱氧鸟苷5’-单磷酸(d)、脱氧胞苷5’-单磷酸(e)和脱氧胸苷5’-单磷酸(f)的化学结构。
[0021] 图4a至图4f使用STM-STS获得的DNA核苷酸的电子指纹,(a)酸性条件(利用0.1M HCl洗涤的表面)下的A、G、C和T的HOMO(负)和LUMO(正)能级的分布。LUMO能级(正电压峰值)的明确分离用于鉴定嘧啶(C、T)与嘌呤(A、G),并且HOMO能级的差异用于分开嘧啶(C与T)。
(b)酸性条件下的LUMO与HOMO能级之间的能隙。(c)酸性(HCl)、中性(H2O)和碱性(NaOH)pH条件下的胸苷的HOMO/LUMO能级。箭头指示酸性、中性与碱性pH条件之间的LUMO能级的转变。(d)不同pH条件下的胸腺嘧啶的生化结构,包括酸性条件下的式-烯醇式互变异构,和中性与碱性条件之间的酸-碱行为,(e)特征在于其转变电压(Vtrans)及三形隧穿的斜率(与隧穿能量势垒成比例)的酸性条件下的胸腺嘧啶的电子福勒-诺德汉曲线。在每一个小的电压上,隧穿变成梯形/矩形,从而显示来自线性斜率(斜率变成对数型)的偏差。(f)对于所有4种核苷酸的酸性条件下的电子(Vtrans,e-)和空穴(Vtrans,h+)的转变电压的概率密度函数。福勒-诺德汉隧穿的Vtrans,e-/Vtrans,h+和斜率(S)分别显示与HOMO/LUMO能级相同的行为及其能量带隙(“带隙”)。
[0022] 图5a至图5f DNA核苷酸的电子指纹,(a)酸性条件下的多聚-L-赖氨酸修饰的表面(用0.1M HCl洗涤的)上的A、G、C和T的测量的HOMO(负)和LUMO(正)能级的箱形图。箱形图含有第二和第三四分位数(25-75%),而细须显示5-95%的数据。LUMO能级(正电压峰值)的明确分离用于在质子化分子中鉴定嘧啶(C、T)与嘌呤(A、G),并且HOMO能级的差异用于区分嘌呤(C与T)。(b)酸性条件下的LUMO与HOMO能级之间的能隙。该能隙可与中性分子不同。(c)酸性(HCl)、中性(H2O)和碱性(NaOH)pH条件下的胸腺嘧啶的HOMO/LUMO能级。(d)不同pH条件下的胸腺嘧啶的生化结构,包括酸性条件下的酮式-烯醇式互变异构,和中性与碱性条件之间的酸-碱行为。(e)对于所有4种核苷酸的酸性条件下的电子(Vtrans,e-)和空穴(Vtrans,h+)的转变电压的分布。Vtrans,e-Vtrans,h+分别显示与HOMO-LUMO能级相同的行为及其能量带隙。(f)特征在于其转变电压(Vtrans,e-)及三角形隧穿的斜率(与隧穿能量势垒成比例)的酸性条件下的胸腺嘧啶的电子福勒-诺德汉曲线。示意图显示从低电压下的直接隧穿至高偏压下的三解形隧穿的转变。在极低电压(0偏压限制)下,势垒变成矩形并且隧穿电流显示具有施加的偏压的对数型斜率。
[0023] 图6a至图6d使用STM-STS对β-内酰胺酶基因ampR的测序。(a)酸性条件下的多聚L-赖氨酸修饰的金上的腺嘌呤的表征。绿色实线显示dI/dV或态密度,灰色虚线为I-V数据,并且绿色点线显示HOMO和LUMO能级的分布。(b)1091nt ampR基因的单个ssDNA分子的STM图像。图像显示DNA在多聚L-赖氨酸修饰的金基片顶部被线性化,从而允许容易的STS鉴定。
(c)使用STM-STS测量的,在酸性条件下使用A、G、C和T的电子指纹进行的(b)中突出显示的区域中的DNA核苷酸的鉴定。对所鉴定的核苷酸进行颜色编码(黑色:A或G,蓝色:C以及红色:T)。(d)基于使用来自(c)的STS数据的第一(突变显示的)和第二鉴定的鉴定的ampR序列。
[0024] 图7a至图7d RNA核苷酸的电子指纹和与DNA的比较:(a)酸性条件下的RNA核苷酸的单分子测量的系综的HOMO和LUMO能量的箱形图,箱包含25-75%,而细须显示5%至95%的值。(b)显示嘌呤和嘧啶的两个不同能级的酸性条件下的RNA核苷酸的测量的能量带隙的箱形图。(c-d)DNA和RNA上的相同核碱基的HOMO/LUMO能级的分布的比较,(c)脱氧腺苷与腺苷的比较,(d)脱氧胞苷与胞苷的比较。
[0025] 图8a至图8e使用STM-STS进行的单核苷酸修饰的鉴定。(a)酸性条件下的沉积在多聚L-赖氨酸涂覆的Au(111)基片上的利用硫酸二甲酯(DMS)处理的腺嘌呤寡聚物的STM图像。毗邻的核苷酸(如所显示的)上的甲基化和未甲基化的腺嘌呤的简便鉴定突显使用该新的测序技术检测单核苷酸修饰的潜能。(b)利用DMS的腺嘌呤甲基化的反应产物,(c)鸟嘌呤与DMS反应产生7-甲基鸟嘌呤及其具有开环的水解产物的反应方案,(d)酸性条件下未甲基化的(实线)和甲基化的腺嘌呤的HOMO/LUMO能级的分布,(e)酸性条件下的鸟嘌呤(实线)、甲基化的鸟嘌呤(点线)和开环甲基化的鸟嘌呤(虚线)的HOMO/LUMO能级的分布。
[0026] 图9a至图9d使用QM-Seq进行的单核苷酸修饰的鉴定。(a)利用DMS的胞嘧啶甲基化的反应产物。(b)酸性条件下的未甲基化的(蓝色)胞嘧啶和甲基化的胞嘧啶(紫色)的HOMO和LUMO位置的箱形图(25-75%的四分位数)。细须显示5%-95%的四分位数,中心线为中位数。(c-d)未甲基化的胞嘧啶(c)和甲基化的胞嘧啶(d)的隧穿谱(I-V,虚曲线)和(dI/dV,实曲线)。两者具有相同的垂直轴(电压)。重叠的蓝色和紫色线可视地显示关于每一个分布的峰位置上的差异。
[0027] 图10a至图10b电子态(dI/dV)谱的I-V和密度的测量。(a)中性pH下的胞嘧啶的的STS电流(I)-电压(V)曲线,(b)显示峰位置(HOMO和LUMO能级)及其能隙的其导数。其它图中显示的隧穿特征为代表至少20个独立的光谱学数据(针对各核碱基测量的)的系综的概率
密度函数。对于I-V谱的每一个独立测量,将导数dI/dV用于鉴定HOMO和LUMO能级以及能带系。随后这些用于产生代表来自HOMO和LUMO能级的能量位置和能量带隙的正态分布的概率密度函数。电子特征的多分散性可能由构型熵或通过不同分子构象(在室温下由热能支持的)的电荷隧穿引起。
[0028] 图11a至图11d不同pH条件下具有它们各自的pKa的核苷酸的化学结构。从上至下,(a)腺嘌呤(A),(b)鸟嘌呤(G),(c)胞嘧啶(C)和(d)胸苷(T)。胸苷在酸性条件下具有处于9.9的单一pKa,并且可经历烯醇化和质子化。
[0029] 图12 pH对鸟嘌呤LUMO/HOMO能级的作用。酸性(利用0.1M HCl)、中性(H2O)和碱性(0.1M NaOH)pH下沉积在Au(111)表面上的鸟嘌呤的LUMO(正峰值)和HOMO(负峰值)能级的分布。箭头指示酸性、中性与碱性条件之间LUMO和HOMO能级的偏移。酸性(pH低于第一pKa约
3.2-3.3)、中性和碱性条件(高于其第二pKa约9.2-9.6)下的鸟嘌呤的3个生化结构。同分异构体中的空穴捕获可能导致HOMO能级(更难通过隧道空穴)随着pH升高(从酸性,至中性至碱性条件)的稳定升高。然而,酸性和碱性条件下的多个谐振结构(图11)导致相较于中性条件的更容易的电子隧穿(和较低的LUMO能级)。此外,碱性条件下的进一步的静电排斥(归因于pKa2)增加了电子隧穿概率,并导致在碱性pH下LUMO能级的进一步下降。
[0030] 图13a至图13e鸟嘌呤的原始数据和统计:(a)酸性条件下的鸟嘌呤的原始电流-电压(I-V)曲线。(b)(a)的原始谱或dI/dV,箭头指示作为每一个谱上的第一显著负/正峰值的鉴定的HOMO/LUMO能级。(c-e)与数据集拟合的,与正态分布概率密度函数(由曲线指示的,也示于图4a、4b中的)重叠的鸟嘌呤的HOMO(c)、LUMO(d)和能隙(e)的位置的直方图。阴影箱表示包含平均值±标准偏差的曲线的面积。
[0031] 图14 pH对腺嘌呤LUMO/HOMO能级的作用。在酸性(用0.1M HCl洗涤的)、中性(H2O)和碱性(0.1M NaOH)pH下沉积在Au(111)表面上的腺嘌呤的LUMO(正峰值)和HOMO(负峰值)能级的分布。虽然腺嘌呤在任何pH条件(带电荷的和不带电荷的)下具有多个谐振结构,但未观察到pH对其隧穿概率的显著作用(因谐振结构之间的电荷的耗散)。HOMO能级随pH的升高的少量升高可归功于酸性pH下的更容易的空穴隧穿(因正电荷而导致的)。
[0032] 图15a至图15e腺嘌呤的原始数据和统计:(a)酸性条件下的腺嘌呤的原始电流-电压(I-V)曲线。(b)(a)的dI/dV的原始谱,箭头指示作为每一个谱上的第一显著的负/正峰值的鉴定的HOMO/LUMO能级。(c-e).与数据集拟合的,与正态分布概率密度函数(由曲线指示的,也示于图4a、4b中的)重叠的腺嘌呤的HOMO(c)、LUMO(d)和能隙(e)的位置的直方图。阴影箱表示包含平均值±标准偏差的曲线的面积。
[0033] 图16 pH对胞嘌呤LUMO/HOMO能级的作用。在酸性(用0.1M HCl洗涤的)、中性(H2O)和碱性(0.1M NaOH)pH下的沉积在Au(111)表面上的胞嘧啶的LUMO(正峰值)和HOMO(负峰值)能级的分布。胞嘧啶对于两个主要结构具有明确的pH作用:高于其pKa约4.4,在中性与酸性条件之间未出现差异。然而,酸性条件下的其质子化形式可能显示电子捕获作用,从而升高于LUMO能级。
[0034] 图17a至图17e胞嘧啶的原始数据和统计:(a)酸性条件下的胞嘧啶的原始电流-电压(I-V)曲线。(b)(a)的原始谱或dI/dV,箭头指示作为每一个谱上的第一显著的负/正峰值的鉴定的HOMO/LUMO能级。(c-e).与数据集拟合的,与正态分布概率密度函数(由曲线指示的,也示于图4a、4b中的)重叠的胞嘧啶的HOMO(c)、LUMO(d)和能隙(e)的位置的直方图。阴影箱表示包含平均值±标准偏差的曲线的面积。
[0035] 图18a至图18d使用QuanT-Seq进行的单核苷酸修饰的鉴定。(a)利用DMS的腺嘌呤的甲基化的反应产物。(b)利用DMS的鸟嘌呤的甲基化的反应产物。(c)在酸性条件下沉积在多聚赖氨酸修饰的Au(111)表面上的腺嘌呤和甲基化的腺嘌呤的HOMO和LUMO能级分布的箱形图。甲基基团的添加通过减少空穴隧穿概率转变HOMO能级。(d)在酸性条件下沉积在多聚赖氮酸修饰的Au(111)表面上的鸟嘌呤和甲基化的鸟嘌呤的HOMO和LUMO能级分布的箱形
图。
[0036] 图19a至图19e胸腺嘧啶的原始数据和统计:(a)酸性条件下的胸腺嘧啶的原始电流-电压(I-V)曲线。(b)(a)的原始谱或dI/dV,箭头指示作为每一个谱上的第一显著的正/负峰值的鉴定的HOMO/LUMO能级。(c-e).与数据集拟合的,与正态分布概率密度函数(由曲线指示的,也示于图4a、4b中的)重叠的胞腺嘧啶的HOMO(c)、LUMO(d)和能隙(e)的位置的直方图。阴影箱表示包含平均值±标准偏差的曲线的面积。
[0037] 图20对吸附石墨烯上的腺嘌呤(核碱基)的HOMO、LUMO和能隙扩散的构型能量贡献-从Ahmed等(其基于DFT理论描述了以不同不同构型置于导电基片顶部的核碱基的DFT模拟以及其对局域态密度的贡献)改造的。线为以不同角度(在中央重叠的构象)吸附在石墨烯上的氮原子的局域态密度(LDOS)。黄色阴影区域对应于费米能级附近的主峰。灰色阴影箱表示考虑所有可能构象(从0°至90°)的费米能级附近的主峰(正和负)的分布。
[0038] 图21a至图21d根据福勒-诺德汉曲线的pH对电子和空穴转变电压(隧穿与场发射方案之间)的作用。显示了(a)腺嘌呤(A)、(b)鸟嘌呤(G)、(c)胞嘧啶(C)和(d)胸腺嘧啶(T)的电子(Vtrans,e-)和空穴(Vtrans,h+)的Vtrans。箭头指示酸性(HCl)、中性(H2O)和碱性(NaOH)条件之间的Vtrans,e-和空穴Vtrans,h+的转变。所有这些转变模拟LUMO和HOMO能级的各自转变,从而将Vtrans的作用确认为一个潜在的品质因素。
[0039] 图22a至图22c DNA核苷酸腺嘌呤、胞嘧啶和胸腺嘧啶的隧穿性质。鸟嘌呤(a)、胞嘧啶(b)和胸腺嘧啶(c)的I-V(虚线)、dI/dV或态密度(实线)以及LUMO和HOMO能级(点线)的概率分布。点线是针对LUMO和HOMO能级拟合的正态概率分布函数。
[0040] 图23a至图23b使用挤压沉积技术进行的ssDNA的线性化。不通过挤出沉积在裸金上(a)和通过挤出沉积在多聚L-赖氨酸修饰的金上(b)的ssDNA的STM图像。多聚L-赖氨酸涂层和我们的挤出沉积方案的作用在该STM数据中是明确可见的,其中线性化的DNA允许单个核苷酸的明确的STS鉴定(图25)。
[0041] 图24a至图24b使用STM-STS进行的单核苷酸修饰的鉴定。(a)利用DMS的胞嘧啶的甲基化的反应产物。(b)在酸性条件下沉积在多聚赖氨酸修饰的Au(111)上的胞嘧啶和甲基化的胞嘧啶的HOMO和LUMO能级分布。甲基基团的添加通过减小空穴隧穿概率来转变HOMO能级。
[0042] 图25单分子DNA检测能力。通过使用低浓度的ssDNA(双蒸水或TE缓冲液(三(羟甲基)基甲烷-乙二胺四乙酸(或EDTA)缓冲液))中的1-5nM)模拟生理浓度,使用所公开的技
术,可使用STM-STS测序检测几个DNA线性化的链。在此处显示的样品扫描中,在超光滑化Au(111)基片上的小的扫描面积(1μmx1μm)中发现DNA分子。这表明该测序技术检测极低浓度的DNA分子和对极低浓度的DNA分子的测序的能力。
[0043] 图26描述微流体装置中的基片形成通道。通道直径(宽度)可在100纳米(nm=10-9m)与50微米(μm)之间变化。
[0044] 图27a至图27c(a)为使用简单光学光刻,随后通过各向异性KOH蚀刻产生的厘米级光学产生的尖端模式的图像。(b)显示从金制造的高保真和周期性图案化的STM尖端的SEM图像。通过在过平的/超光滑的基片上使用大面积(cmXcm)级的STM芯片,可扫描2μmx2μm表面,并且通过大规模平行扫描和从芯芯片的简单读取在cm级上产生整个序列,与图中显示的相似。(c)为显示的1兆象素(或1megatip)2cmX2cm芯片。可同时向多个尖端施加电压,收集并存储电流,并且可同时读取(与CCD照相机类似)来自多个尖端的所有电流值。在读取电流后,可施加另一个偏压等等,以在大2cmX2cm基片上再生成整个电流-电压曲线。可在微流体通道中同时放置、线性化和读取数千个基因组。压电装置可用于将样品移动数埃,以允许对下一个核碱基进行测序-并且重复该过程以分析另外的核碱基。因此,在大规模并行测序的单个2微米扫描运动(或压电扫描)中,可在使用样品微流体装置图案化的相对大的样品生物芯片上对所有可能的核碱基进行测序。
[0045] 图28显示通过自动化方法进行的碱基调用的方法示意图。
[0046] 图29基于反应性的结构测定。使用利用RNA SHAPE和/或DMS分子进行的化学修饰的电子指纹,和使用RNA结构软件(利用其中SHAPE或DMS已反应的约束单链区)来获得二级/三级核酸结构(此处为RNA)。
[0047] 图30 RNA结构测定过程中反应的对比未反应的核苷酸的赋予。
[0048] 图31聚类法为具有高置信度的RNA核苷酸赋值。对角线表示准确的碱基调用。大定字母是未修饰的RNA核苷酸,小写字母是经修饰的RNA核苷酸。
[0049] 图32利用QM-Seq实验性测量的HIV-RNA酶的RNA结构(上图)。下图显示使用RNA折叠软件预测的芯片上无约束RNA结构。
[0050] 图33使用(顶图)3个参数电子态(HOMO-LUMO-能隙)与(底图)多维生物物理参数(>9个参数,包括但不限于电子和空穴的HOMO、LUMO、能隙、隧穿势垒高度、隧穿势垒高度的差异、对应于电子和空穴的从直接隧穿至福勒-诺德汉隧穿的隧穿势垒的转变的电压、核苷酸隧穿中的电子和空穴的有效质量、有效电子与空穴质量的比率、对应的福勒-诺德汉曲线的斜率)之间的比较,全部参数从量子隧穿光谱学扫描计算而来并用作电子指纹,通过HIV-
1 RNA酶上的QM-Seq获得。电子态可帮助鉴定RNA嘌呤与嘧啶,但多变量电子指纹允许以高精确度进行所有4个核碱基的独特鉴定,如该图(底)中显示的。
[0051] 图34a至图34h在酸性条件下于多聚赖氨酸涂覆的超光滑的Au(111)基片上测定的用作用于DNA核苷酸(A、T、G、C)鉴定的电子指纹的不同生物物理参数。a)LUMO-能级,b)HOMO-能级,c)电子的势垒高度,d)空穴的势垒高度,e)分子的总隧穿势垒高度,f)贯穿单个核苷酸的电荷隧穿的有效电子与空穴质量的比率。g)电子和h)空穴的从直接隧穿至福勒-诺德汉隧穿的转变电压。
[0052] 图35a至图35h用作用于在中性条件下于经修饰的Au(111)基片上进行的RNA核苷酸(A、U、G、C)鉴定的电子指纹的不同生物物理参数。a)LUMO-能级,b)HOMO-能级,c)电子的势垒高度,d)空穴的势垒高度,e)分子的总隧穿势垒高度,f)贯穿单个核苷酸的电荷隧穿的有效电子与空穴质量的比率。g)电子和h)空穴的从直接隧穿至福勒-诺德汉隧穿的转变电压。
[0053] 图36显示通过自动化方法进行的碱基调用的方法的示意图。
[0054] 图37显示用于测定核碱基的身份、其在基片上的位置和其在多核苷酸中的序列的方法的实施方案的流程图
[0055] 详细描述
[0056] 在本公开之前,使用隧穿光谱学的DNA测序的挑战一直为鉴定每一个核苷酸的独特隧穿谱。DNA核苷酸的量子隧穿光谱学表示单个核碱基、核苷和核苷酸的电子态密度。本文公开的是用于与其身份是未知的核苷酸(未知核苷、核苷酸或核碱基)的电子特征相比较的经修饰的和未修饰的DNA和RNA核碱基、核苷和核苷酸的独特指纹(以帮助鉴定未知的核苷酸)的方法、装置以及组合物。先前从单链(ss)DNA和双链(ds)DNA鉴定核苷酸的努力在测定四个DNA核碱基、核苷和核苷酸的独特隧穿谱中通常是不成功的。
[0057] 所公开的方法、装置和组合物也有助于缓减对RNA测序的现有方法的限制。所公开的方法、装置和组合物可用于RNA的直接测序(在单分子水平上利用非扩增模板)。在许多情况下,本公开可帮助测定获自细胞或组织的RNA分子的身份和丰度。此外,单分子的核苷酸(DNA/RNA)修饰的独特的电子隧穿谱(隧穿数据)的本公开的鉴定可提供用于疾病的早期检测的有用的表观基因组学技术。表观基因研究可提供对基因组的动态状态,尤其是它们在测定疾病状态和发育生物学中的作用的深入理解。
[0058] 所公开的方法、装置和组合物提供了具有极上噪声的高度可复现的隧穿数据或I-V数据的集合。先前的方法遭受再现性的缺乏和低信噪比的困扰。目前所公开的方法、装置和组合物以各种方式提供增强的数据集合。例如,所公开的方法、装置和组合物使用涂覆有离子聚合物的超光滑的带电荷的表面。在一个实施方案中,可用聚赖氨酸涂覆Au(111)的带电荷的表面。离子聚合物的使用可帮助定向核酸主链,其可提供具有比先前的方法更大的再现性和较高的信噪比的隧穿数据。另外,所公开的方法、装置和组合物可使用确定的环境来收集指纹数据。例如,所公开的方法、装置和组合物可在高或低pH环境中执行量子隧穿以帮助区分各种修饰和未修饰的核碱基、核苷酸和核苷。确定的环境的使用也可有助于提高所得隧穿数据。
[0059] 纳米电子隧穿是在纳米级上发生的量子-物理过程。纳米电子隧穿利用单独的原子或分子重叠的波函数的倾向。如果施加(通过增加或减少置于基片的原子附近的与原子接触的金属尖端的电位)电压偏置或偏压,尖端与原子/分子之间的电子或空穴的隧穿可发生,甚至超过势垒。虽然经典的电荷传导通常从高电位的区域至低电位的区域发生,其中两个区域相隔以下游电位偏置分开(电流从高电位流至低电位),但量子隧穿在无物理接触
(并因此分子态密度未被测量扰动)的情况下发生,超过势垒高度,并且其中隧穿概率随势垒高度增加而降低。因波函数重叠而对/从分子之一注射(电子隧穿)或提取(空穴隧穿)电子。
[0060] 核苷酸的隧穿电流谱代表电子态密度。本文所公开的是隧穿电流数据用于创建用于核苷酸鉴定的独特指纹的用途。已通过建模和通过实验进行了几次从单链(ss)DNA和双链(ds)DNA、RNA、PNA、其它核酸大分子、DNA/RNA/PNA核苷酸修饰、核酸结构鉴定和区分不同的核苷酸。然而,在本公开之前,只有鸟嘌呤(G)碱基仅被部分成功地鉴定(通过对ssDNA使用隧道显微镜术)。
[0061] 本文中提供了使用单分子DNA/RNA/PNA测序进行的核苷酸、核苷和核碱基A、G、T、C和U的独特电子指纹的测定的第一示范。另外,还公开了经修饰的核苷酸/核碱基的独特指纹。核碱基可指胞嘧啶(缩写为“C”)、鸟嘌呤(缩写为“G”)、腺嘌呤(缩写为“A”)、胸腺嘧啶(缩写为“T”)和尿嘧啶(缩写为“U”)。C、G、A和T可在脱氧核糖核酸(DNA)中被现,C、G、A和U可在核糖核酸(RNA)中被发现。图1显示通过量子隧穿光谱学测定的核苷酸A、G、C、T和U的电子指纹。术语测定核苷、核苷酸和核碱基可互换使用并且是指天然和合成的以及经修饰的和未修饰的核苷、核苷酸和核碱基。
[0062] 所公开的技术使用量子隧穿数据来创建未知核苷酸、核苷和核碱基的电子特征,以帮助测定它们的身份,并且可在室温下(即约20-25℃)或在1K至300K的低温下进行。在一些情况下,核苷酸、核苷和核碱基的电子态可,并且取决于在其下分析核苷酸、核苷或核碱基的生物物理条件或环境例如pH而变化。在一些情况下,可在酸性pH(即低于约7的pH值)下鉴定核苷酸、核苷或核碱基的不同状态。在许多实施方案中,用于测定电子参数的环境的pH低于约3。
[0063] 可在在各种生物物理条件或环境中测定经修饰的和未修饰的核苷酸、核苷和核碱基的指纹,条件或环境可转变它们的电子态。这可有助于区分在一些生物物理条件下可具有相似或重叠的参数值的核碱基。这可有助于通过将其与在相同环境中测定的已知的核碱基的特征相比较来鉴定核碱基。如上所述,可在给定的pH下测定核碱基的指纹,并将其与在相同pH中获得的已知核碱基的指纹相比较。在其它环境中,可在具有除pH外的特定特征例如摩尔浓度、极性、疏水性等的环境中测定指纹。在各种实施方案中,在包含给定量的醇、盐或非极性溶剂或溶质析环境中测定核碱基。
[0064] 如本文中所公开的,“隧穿电流数据”或“电流数据”或“I-V数据”是指在不同的偏压下于量子隧穿中测量的电流和电压(偏压)数据。隧穿电流数据可指从隧穿电流测量获得的I-V、dI/dV和/或I/V2数据。在大多数情况下,从隧穿数据导出各种参数或值。参数可包括LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)(下文中描述的)的值。
[0065] 如本文中所公开的,“特征(signature)”或“电子特征”是指从针对具有已知身份的核苷酸收集的I-V数据产生的参数的3个或更多个值。用于创建特征的参数包括LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV),其任意3个或更多个可用于创建特征。例如,在一些实施方案中,未知核苷酸的电子特征可包括LUMO、HOMO和带隙的值。在其它实施方案中,电子特征可包括LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的值。
[0066] 如本文中所公开的,“指纹”或“电子指纹”是指从针对具有已知身份的核苷酸收集的I-V数据产生的参数的3个或更多个值。被选定用于创建已知核苷酸的指纹的参数与被选定用于创建将与已知核苷酸相比较的未知核苷酸的特征的那些参数相同。用于创建电子特征的给定的参数的值可被表示为值+/-标准偏差,或表示为值的范围。用于创建指纹的参数包括LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)。在一些实施方案中,未知核碱基的电子特征可包含LUMO、HOMO和带隙的值,并且可将该特征与已知核碱基的电子指纹相比较,其中指纹包含相同参数-LUMO、HOMO和带隙的值。在其它实施方案中,特征可包含LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的值,并且可将其与包含LUMO、HOMO、带隙、Vtrans+(V)、Vtrans-(V)、Φe-(eV)、Φh+(eV)、me-/mh+和ΔΦ(eV)的值的指纹相比较。
[0067] 可将所公开的技术用于对、多核酸、多核苷酸和包含一个或多个核苷酸、核苷或核碱基的其它聚合分子进行测序。
[0068] 在许多情况下,可使用火焰退火扁平、模板剥离超光滑的金(111)晶面基片。此处的标识(111)表示金原子的暴露的顶表面的晶体结构。其它取向也可用于此目的(例如100)。超光滑的基片具有非常低的表面粗糙度,例如,从与平面表面小于约1.0nm的变化。本文中所描述的是用于使用火焰退火和模板剥离方法(如下所述的)获得超光滑基板的方法。
在一些实施方案中,可使用其它基片。在一些实施方案中,可使用其它导电基片,例如石墨烯、高度有序的热解石墨(HOPG)、具有金(或其它金属)涂层的原子光滑的新鲜剥离的母、其它超光滑金属如(111)、等。在许多情况下,基片应该是导电的(为了扫描和量子隧穿光谱学的目的)和光滑的(以易于鉴定单分子)。
[0069] 在一些实施方案中,多核苷酸可以是线性化的DNA,并且可在所公开的超光滑基片上接出多核苷酸。这可有助于分离单个核苷酸和减少它们的构型熵以便扫描。这可有助于贯穿核碱基而非糖主链的电荷隧穿的研究。在一些情况下,基片可以是带电荷的基片。例如,当基片是金时,可制备带正电荷的金(111)表面。
[0070] 在一些实施方案中,产生带正电荷的金基板以有竽挤压沉积技术。首先,在等离子体清洁器(例如臭氧等离子体清洁器)中处理新鲜制备的超光滑金(111)表面,以制备均匀带负电荷的表面。在许多实施方案中,金随后可用离子溶液,例如带正电荷的分子,例如多聚-L-赖氨酸处理金,以产生均匀涂覆的带正电荷的金表面。在一些实施方案中,将挤出-沉积技术包括三个步骤流程来在金表面上分散细长的线性ssDNA。在第一步骤中,可通过用化学溶液处理其来使金(111)表面带电荷。在一些情况下,可通过用多聚L-赖氨酸,例如,例如10ppm多-L-赖氨酸溶液涂覆其来使金表面带正电荷。用于涂覆超光滑表面的其它分子,可包括任何聚阳离子聚合物,例如聚烯丙基胺盐酸盐、儿茶酚胺聚合物、氨基烷样氨基丙基乙氧基硅烷,或环氧化物修饰的硅烷样3'缩水甘油丙基。在其它实施方案中,可通过施加电压以将主链结合于基片来进行糖-主链的负电荷的静电固定。在一些情况下,化学溶液可有助于将带负电荷的磷酸主链通过静电相互作用连接于带正电荷的基片。在用于在酸性条件下对多核苷酸测序的实施方案中,酸性条件可帮助去卷积核苷酸,例如嘧啶C或T,和嘌呤-G或A。
[0071] 挤压沉积技术中的第二步骤可包括熔解单链DNA(ssDNA)。例如,可通过例如在95℃下加热ssDNA5分钟来熔解ssDNA。在大多数实施方案中,将熔解的ssDNA迅速冷却,这可帮助防止在ssDNA中形成或再形成二级和/或三级结构。在一些实施方案中,快速冷却可包括在上瞬间冷却5分钟。在许多实施方案中,dsDNA和短的单核苷酸ssDNA可以不包含三级结构;长于约1kb的ssDNA可形成二级结构。在许多情况下,带正电荷的表面可有助于扰乱或防止二级结构的形成。
[0072] 挤出-沉积法中的第三步骤可包括将ssDNA挤出至金基片上。在一些情况下,平移运动可用于将线性化DNA链从DNA分配装置例如移液器沉积在带电荷的基板上和在其上拉出线性化DNA链。
[0073] 在一些实施方案中,化学蚀刻尖端可以用于纳米电子隧穿。在一些实施方案中,可使用铂-铱尖端(80:20的Pt-Ir)。在其它实施方案中,也可使用其它合适的STM尖端。可使用的一些其它常用的尖端为钨、金、和铂金属。通常使用的其它尖端为Pt、I、W、Au、Ag、Cu、碳纳米管及其组合。
[0074] 通过贯穿核苷酸的隧穿电子和空穴研究已知和未知的核苷酸。在一些情况下,所研究的核苷酸是线性化单链多核苷酸,如在图1a、1b中描绘的。
[0075] 隧穿电流光谱学(电流(I)-电压(V))可以是分子的局域电子态密度的直接测量(dI/dV谱,图10和在下面更详细描述的),并且可用于提供基于该核苷酸的生化结构的独特电子指纹(图1)。
[0076] 使用量子隧穿以分子分辨率获得核苷酸的电子特征(图10a)。在一些情况下,可从电流-电太(I-V)谱的一阶导数,和分别地被分配为最低未占分子轨道(LUMO)能级和最高占据分子轨道(HOMO)能级的第一显著的负峰值获得电子态密度(DOS)。在许多情况下,第一显著峰值为作为至少约30%的最大dI/dV的峰值,或者电流-电压谱的一阶导数(其中一导数代表用于电子和空穴隧穿的生物分子的态密度并且大于约±1.0V)可指示导电基片或来自环境的少量污染。在一些情况下,以小于约±1.0V(在0与+1.0V或0与-1.0V之间)产生的峰值可被分配(指定)为LUMO/HOMO能隙或“带隙”(图10b)。电子隧穿峰值(此处关于正偏压的应用)对应于分子的LUMO能级,并且空穴隧穿峰值(此处关于负偏压的应用)对应于分子的HOMO能级。LUMO和HOMO能级之间的差异是该分子的能带隙。
[0077] 对于每一个核碱基是固有的另外的生物物理参数还可使用在拐点被转变电压(Vtrans)分开的两个不同的隧穿方案(直接隧穿和福勒-诺德汉隧穿)来计算。量子隧穿的两个主要模型是基于应用于薛定谔方程式的WKB近似开发的。用于通过绝缘体分开电极之间的隧穿的西蒙斯(Simmons)模型(方程式1)描述了两个方案中的隧穿电流,其对所施加的偏压的依赖性和原始隧穿势垒的作用。
[0078]
[0079] 其中 为与随着隧穿势垒的形状从矩形变为梯形和三角形与施加的电压成比例的平均势垒高度,m*为有效电子质量, 为减小的普朗克常数, 为平均隧穿距离,A为有效隧穿面积,q为基本电荷,V为所施加的偏压。该模型对于任何形状的隧穿势垒是一般性的,因为只需要平均势垒高度
[0080] 用于量子隧穿的其它分析方法基于斯特拉顿(Stratton)模型(方程式2),其也从WKB近似产生。尽管西蒙斯和斯特拉顿模型始于相同的电流密度描述,但它们采取不同的近似来解决隧穿概率积分,这产生不同的方程式组。用于描述量子隧穿的斯特拉顿方程式为:
[0081]
[0082] 其中m为电子质量,k为玻尔兹曼常数,T是温度,并且b(V)和c(V)为从隧穿概率的泰勒展开得到的两个参数并且被定义为:
[0083] 和
[0084] 其中 并且x1和x2为其中对于隧穿间隙的每一侧Φ-ξ=0的位置,ξ为电极的费米能级并且Φ为能量势垒(依赖于x和V的)。
[0085] 虽然可将这些参数通过实验与隧穿电流的温度依赖性拟合,但当其描述此处使用的测序条件时,将该模型简化为 的形式。通过使用这种关系,我们按照以下方程式在将百分之几的误差范围内导出In(I/V2)对比V-1曲线上的最小值(Vtrans):
[0086]
[0087] 通过使用西蒙斯模型,针对高偏压(qV>Φ0)导出简化的福勒-诺德汉方程式。这采用以下形式:
[0088]
[0089] 通过组合两种模式,可使用直接从FN曲线提取的实验数据推导用于原始势垒高度(Φ0)和“有效”隧穿距离 的表达直接从FN曲线提取:
[0090]
[0091] 其中S为在高偏压下对应的ln(I/V2)对比V-1的斜率(qV>Φ0)。注意,斯特拉顿和西蒙斯使用薛定谔的相同近似(WKB),并且唯一的差异在于隧穿概率积分的处理。Hartman针对WKB近似的精确解进行了两个模型的比较,斯特拉顿和西蒙斯模型都在百分之几的与精确解的误差之内。利用该近似,通过使用两个模型,实验光谱数据可被配合在任一模型上,这否则因两个模型的非线性的不易处理性而是不可能的。
[0092] 该方法允许通过检查多达9个参数(HOMO电压、LUMO电压、能带隙Vtrans,e-、Vtrans,h+、Φ0,e-、Φ0,h+、ΔΦ和meff e-/meff h+)来进行核苷酸的定量比较。在许多实施例中,可通过分析至少3个参数的值来测定特征。在大多数实施方案中,3个以上的参数被用来测定特征。例如,可将4个、5个、6个、7个、8个或9个参数值用于测定用于与包含相同参数值的指纹比较的特征。
[0093] 通过将核苷酸经历量子隧穿,随后收集和分析隧穿电流数据来测定核苷酸的指纹和特征。在许多情况下,为了创造量子隧穿核苷酸指纹,从个别核苷酸分子(例如腺嘌呤的单个分子)上的约15至约50个点收集隧穿电流数据。另外,收集约20个不同的个别分子的量子隧穿数据,其可帮助创建统计上精确的核苷酸的指纹。
[0094] 已测定了DNA的几个已知的核苷酸的概率密度曲线(电压,V,或能量,eV,对比概率密度函数(dI/dV))。几个概率密度曲线示于图4a、4b、4c、4f、8d、8e、12、14、16、21、22和24b中。这些曲线是独立测量的统计分布,已将曲线与高斯曲线的标准化总和拟合(方程式式S1,下文中。Ni:标准化常数,V:施加的偏压,μi:平均值,σi:标准偏差)。
[0095]
[0096] 这些参数可用于生成由HOMO能级、LUMO能级和能隙(带隙)组成的给定的核苷酸的电子指纹。在许多实施方案中,已知核碱基的核碱基指纹可用于分析从未知核苷酸或多核苷酸DNA分子收集的量子隧穿特征,以测定核苷酸的身份和多核苷酸的序列。
[0097] 核酸生物化学可由其中核酸被发现的环境来定义。在一些情况下,周围的pH值可影响核酸例如核碱基/核苷酸的结构。在一些实施方案中,改变pH可导致具有不同结构的核碱基。该作用可在高于和/或低于核碱基的pKa下发生,如图11中显示的。另外,除酸-碱行为以外,其它生化变化还可在极端pH(酸性或碱性)下发生。例如,胸腺嘧啶可在其中烯醇化T相对于酮式占优势的酸性pH下形成互变异构体。
[0098] DNA核苷酸的相对电荷可取决于系统pH而促进电子或空穴隧穿。例如,在一些实施例中,带正电荷的DNA核苷酸种类可促进空穴隧穿和增加电子隧穿(LUMO)的能级,以及带负电的种类可表现出相反的行为(图12、14)。在鸟嘌呤沿着其两个pKa(图12)的谱移上观察到该作用,在两个pKa下,存在在酸性pH下带正电荷的结构至在碱性pH下带负电荷的结构的核苷酸转变。在一些实施方案中,静电相互作用从而可改变电荷隧穿的概率(电荷排斥的增加),从而导致不同的(较低的)各自的LUMO和HOMO能级。
[0099] 个别核苷酸的隧穿特征(或指纹)在不同的环境条件下,例如在不同的pH条件下可以不同。在许多情况下,在不同环境条件下收集贯穿核苷酸的电子/空穴电流。不同环境条件下的量子隧穿特征的差异在一些情况下可归因于核碱基的酮-烯醇互变异构体的存在,核碱基的酮-烯醇互变异构体在不同的pH条件下可以不同(图11和如下文中讨论的)。特定的酮-烯醇互变异构体的存在或不存在可导致不同核碱基之间,例如嘌呤(A、G)与嘧啶(C、T)之间的电子/空穴隧穿概率的分离。
[0100] 核苷酸的电荷密度可有助于测定这些作用的能量增加/减少。在一些情况下,可具有几个缀合的结构的嘌呤可在任何原子上具有相较于嘧啶显著减少的,可具有局限在单个原子上的电荷的局部电荷(图11)。在一些实施方案中,缀合作用可对隧穿能量转移具有显著影响,并且可在酸性条件下被容易地观察到(图4c、12、14、16),例如,其中嘌呤可表现出比嘧啶显著更小的作用(例如,图14中的腺嘌呤数据)。
[0101] 在许多情况下,HOMO-LUMO和能隙参数的使用可帮助基于能隙(在嘌呤A,2.73eV和G2.58eV与嘧啶C,4.43eV和T,4.82eV之间存在约1.7-2eV的差异)和LUMO能级(在嘌呤A,1.61V和G1.49V与嘧啶C,3.13V与T,3.08V之间存在约1.5eV的差异)在酸性条件下区分嘌呤(A、G)与嘧啶(C、T)。在一些实施方案中,可基于它们的HOMO能级差异(在C,-1.30V与T,-
1.74V之间存在约0.45eV的差异)区分C与T,或将C和T去卷积。在其它实施方案中,可使用它们在碱性pH下的LUMO能级(在A,1.72V与T,1.33V之间存在约0.40eV的差异)区分/鉴别/去卷积A与G。核碱基A、T、G和C的特征LUMO、HOMO和带隙值示于表I中。表I显示在中性、酸性和碱性pH环境中测定的这些值。因此,在一些实施方案中,未知核苷酸的身份可通过收集关于核苷酸在一个或多个pH值(酸性、碱性和中性)下的量子隧穿数据,测定该核苷酸的LUMO、HOMO和带隙值,和将那些值与先前针对已知身份的核苷酸测定的值相比较来测定。
[0102] 表I:不同pH条件下的裸Au(111)表面上的A、C、G和T的LUMO、HOMO和带隙能级的概述。值对应于平均值±标准偏差。
[0103]
[0104] 表II:不同pH条件下的经修饰的Au(111)表面上的A、C、G和U的LUMO、HOMO和带隙能级的概述。值对应于平均值±标准偏差。
[0105]
[0106] 鸟嘌呤:在许多情况下,鸟嘌呤可在酸性条件(酸性pH低于第pKa约3.2-3.3)、中性条件和碱性条件(高于其第二pKa约9.2-9.6)下表现出3个不同的生化结构。在一些情况下,异构体中的空穴捕获可导致HOMO能级随pH增加(从酸性,至中性至碱性条件)而稳定增加(即更难以进入隧道空穴)。在一些实施方案中,酸性和碱性条件下的多个谐振结构(图11)可导致相较于中性条件更容易的电子隧穿(和较低的LUMO能级)。在一些情况下,碱性条件下的进一步静电斥力(因pKa2而引起的)可提高电子隧穿概率,并可导致在碱性pH下LUMO能级的进一步下降。
[0107] 腺嘌呤:在许多情况下,腺嘌呤可在任何pH条件下表现出多个谐振结构(带电荷的和不带电荷的)。在大多数情况下,pH变化不显著影响腺嘌呤的隧穿概率。在一些情况下,该pH作用的缺乏可归因于谐振结构之间的电荷的耗散。在一些情况下,腺嘌呤可表现出HOMO能级随pH的增加而升高,这在一些情况下可在归功于酸性pH下更容易的空穴隧穿(因正电荷而引起的)。
[0108] 胞嘧啶:在许多实施方案中,胞嘧啶对于两个主要的结果可显示不同的pH作用。例如,在高于其pKa约4.4的一些实施方案中,胞嘧啶可在中性与碱性条件之间表现无差异。在其他情况下,其中胞嘧啶在酸性条件下呈其质子化形式,其可表现出电子捕获作用,这可导致升高的LUMO能级。
[0109] 可以以其它方式分析隧穿电流数据以鉴别/区分各自核碱基。在一些实施方案中,可使用福勒-诺德汉(F-N)曲线分析隧穿电流。这些曲线可帮助鉴定控制贯穿单个核苷酸或贯穿多核苷酸的个别核苷酸的电荷隧穿的基础生物物理参数。可将隧穿电流(I)-电压(V)数据绘制为ln(I/V2)对比(1/V)。在一些实施方案中,该曲线可帮助提取转变电压(Vtrans)和隧穿方案(对于三角形势垒)的斜率。Vtrans被确定为F-N曲线上的最小值(相当于不同方案之间的转变点)。S为在高偏压(小的1/V的值)下的F-N曲线的斜率。该值采用电子隧穿的负斜率和空穴隧穿的正斜率。图4e为核苷酸T的F-N曲线图的实例。在一些情况下,转变电压Vtrans,e-可表示从隧穿方案至场发射方案的转变,并且斜率S可为隧穿势垒(此处针对电子)的测量。在一些情况下,贯穿核苷酸序列的电子(Vtrans,e-)和空穴(Vtrans,h+)隧穿的这些生物物理参数代表鉴定电子特征的组分,并且可类似地用于HOMO-LUMO和带隙的值以表征和鉴定未知的核苷酸和多核苷酸序列。
[0110] 在一些情况下,Vtrans,e-和Vtrans,h+值可用于区分不同的环境条件例如pH值下的不同核碱基。在一些情况下,在酸性、中性和碱性条件下测定的Vtrans,e-和Vtrans,h+值可用于区分2种或更多种核碱基。在许多实施例中,1个或多个参数可用于帮助鉴别2个或更多个核碱基。在一些情况下,参数可选自Vtrans,e-、Vtrans,h+、S、HOMO、LUMO或带能量(带隙)的值。在许多实施方案中,可在一个或多个条件例如酸性、中性或碱性条件下测定参数。
[0111] 在许多情况下,可从隧穿数据诸如从隧穿至场发射的转变电压、和表示电荷隧穿的势垒的斜率的分析提取另外的参数。这些隧穿常数Vtrans,h+、Vtrans,e-、S=Se+Sh(其中Se=S电子隧穿以及Sh=空穴隧穿),可以是可将电子隧穿通过其的分子的特征。在一些情况下,可测定个别核苷酸的这些参数以帮助它们的鉴别。在一些实施方案中,可将这些参数与HOMO-LUMO和带隙的值组合以帮助测定核碱基的身份和创建核苷酸指纹。在一些实施方案中,使用Vtrans,h+进行的空穴隧穿概率的变化的测定可如HOMO能级一样用于测定不同pH条件下的核苷酸的身份。
[0112] 另外,福勒-诺德汉曲线可用于鉴定电子和空穴的隧穿转变电压(Vtrans,e-和Vtrans,h+)和能量势垒(S)(图4e和表III)。可将多达6个参数(VHOMO、VLUMO、能隙,S、Vtrans,e-、Vtrans,h+)一起用于鉴定和验证单个核苷酸的身份。
[0113] 表III:来自裸Au(111)表面上的不同pH条件下的电子(Vtrans,e-)和空穴(Vtrans,h+)的FN曲线的Vtrans的值的概述。值对应平均值±标准偏差。
[0114]
[0115] 在许多实施方案中,酸性环境可帮助可区分的核苷酸异构体的形成。A、G、T和C的pKa分别为约4.1、3.3、9.9和4.4)。在许多情况下,酸性环境可用于使用带隙、HOMO、LUMO、Vtrans和S的值可重现地对单个核苷酸进行测序(图4a、4b、4e、4f)。在一些实施方案中,在酸性pH下进行的单个STM-STS测量可用于对单链DNA(使用STM)和单核苷酸(使用STS数据,图5a中针对A和图22中针对T、G、C显示的)进行测序。在其它实施方案中,在多个pH环境中进行的多个STM-STS测量可用于对单链DNA和单个核苷酸进行测序。在一些实施方案中,用于利用所公开的方法测定DNA和/或核苷酸的身份的时间标度可在秒或分钟级上。
[0116] 在许多实施方案中,所公开的技术可以能够以高于约85%、90%、95%、96%、97%或99%的准确性对多核苷酸进行测序。在一些实施方案中,目前要求保护的技术可被用于对大于约30nt、40nt、50nt、60nt、70nt、80nt、90nt、100nt、200nt、300nt、400nt、500nt、1k nt、2k nt、3k nt、4k nt、5k nt或10k nt的多核苷酸进行测序。在许多情况下,所公开的技术可被用于确定多核苷酸的3'->5'的顺序。在一些情况下,可通过标记单链DNA的末端来确定3'->5'方向性,在一些实施方案中,标记3'或5'末端。例如,标记可通过使用连接酶(例如T4连接酶)与特定的5'或3'末端引物标记来实现。连接步骤可产生具有标记的5'或3'末端的模板。在一些情况下,临近标记末端的序列可以是已知的。通过使用所公开的测序方法,已知的序列将通过该标记来鉴定,标记将揭示未知DNA样品的方向性。
[0117] 公开的方法可用于区分和鉴定经修饰的核碱基。在一些实施方案中,目前公开的技术可用于区分和鉴定核苷酸和核碱基,包括天然存在的、合成的和/或经修饰的核苷酸和核碱基。天然存在的核苷酸可包括经修饰的和未修饰核碱基,包括腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶和肌苷。在一些实施方案中,所公开的方法可用于测定含有核糖与2'OH基的其它A、U、G、C RNA碱基的身份。核碱基可在一些情况下例如通过甲基化来修饰。在一些实施方案中,可检测与RNA、DNA和/或糖主链一起使用的各种另外的化学修饰。在一些实施方案中,所公开的方法可用于检测1-甲基-7-硝基靛红酸酐或苯甲酰氰化物或其它亲电子试剂)、二羟基-3-乙氧基-2-丁酮(乙氧丁酮)、CMCT(1-环己基-(2-吗啉代乙基)碳二亚胺甲氧基-对-甲苯磺酸盐),或脱氨基碱(例如利用亚硫酸氢盐的脱氨)。甲基化核碱基可包括甲基胞嘧啶、甲基腺嘌呤、甲基鸟嘌呤、甲基尿苷、甲基肌苷、5-甲基胞嘧啶、5-羟甲基胞嘧啶、7-甲基鸟苷、N6-甲基腺苷和O6-甲基鸟嘌呤。
[0118] 所公开的组合物、方法和技术可用于测定多种分子的电子特征。在一些情况下,分子可以是核苷酸或核碱基。在许多实施方案中,所公开的技术和组合物可基于它们的电子态密度来鉴定和区分分子。在一些实施方案中,电子态密度可使用隧穿光谱学(相关STM-STS)来测定。在一些实施方案中,不同的电子特征对于每一个分子可以是可鉴定的和不同的,这取决于pH环境。在许多情况下,可在酸性、碱性和/或中性条件下分析核苷酸。在一些实施方案中,核苷酸及其相应的互变异构结构的酸碱行为可帮助未知核苷酸的鉴定。
[0119] 可将目前公开的技术进行自动化来帮助聚合物链,尤其是多核苷酸的检测和测序。在一些实施方案中,单个链可使用高分辨率STS来进行测序,以以单个核苷酸的分辨率提供快速单分子测序。所公开的技术可用于单个核苷酸和修饰的快速、廉价、准确、无酶且高通量的鉴定,并可在生物医学应用中提供下一代测序技术的替代方法。
[0120] 目前要求保护的技术、方法、装置和组合物可用于在基片上对多核苷酸进行测序。在一些情况下,基片是金(111)。在一些实施方案中,基片形成微流体通道或孔。在一些实施方案中,用超光滑基片(例如,金(111))涂覆微流体通道或孔。在许多实施方案中,可使用所公开的技术,在分开的通道或孔中同时对多个核苷酸进行测序。在许多情况下,微流体孔可将多核苷酸,例如单链多核苷酸送入微流体通道,在微流体通道中使用所公开的技术对多核苷酸进行测序。
[0121] 由于单个STM尖端和单个Au(111)基片可用于对低浓度的DNA或RNA进行测序,因此多个微流体通道和孔和多个STM尖端可用于同时在所公开的基片上挤出多个多核苷酸(RNA或DNA分子)并且对其进行测序。该快速、高通量、无酶的单分子DNA测序技术的操作成本可以非常低。对于简单的金基片,可在单个基片上制备整个基因组序列,这显著降低了整个测序的操作成本(达到数十美元)和时间(数小时或数分钟)。在一些实施方案中,其中可同时对许多单独的单个多核苷酸进行测序,时间可减少至少于数小时。
[0122] 本公开还提供了用于鉴定核碱基、核苷和/或核苷酸的方法,方法包括:获取核碱基、核苷和/或核苷酸的隧穿电流数据;从隧穿电流数据导出至少3个、至少4个、至少5个、至少6个、至少7个、至少8个或至少9个电子特征,其中电子特征选自由以下组成的组:HOMO(eV)值、LUMO(eV)值、带隙(eV)值、Vtrans+(V)值、Vtrans-(V)值、Φe-(eV)值、Φh+(eV)值、me-/mh+值和ΔΦ(eV)值;将至少3个、至少4个、至少5个、至少6个、至少7个、至少8个或至少9个电子特征与一组对应的电子指纹参考值匹配,从而鉴定核碱基、核苷和/或核苷酸;其中,脱氧腺苷包含HOMO(eV)值(为-1.39±0.3);LUMO(eV)值(为1.42±0.24);带隙(eV)值(为2.81±0.41);Vtrans+(V)值(为1.14±0.2);Vtrans-(V)值(为-0.51±0.32);Φe-(eV)值
(为1.45±0.57);Φh+(eV)值(为1.03±0.61);me-/mh+值(为0.29±0.23)以及ΔΦ(eV)值
(为2.48±0.98)的对应的电子指纹参考值的组;腺苷包含HOMO(eV)值(为-1.44±0.2);
LUMO(eV)值(为1.47±0.21);带隙(eV)值(为2.9±0.27);Vtrans+(V)值(为1.26±0.26);
Vtrans-(V)值(为-0.63±0.23);Φe-(eV)值(为2.06±0.72);Φh+(eV)值(为1.25±0.59);
me-/mh+值(为0.43±0.17)以及ΔΦ(eV)值(为3.3±0.93)的对应的电子指纹参考值的组;
甲基化的脱氧腺苷包含HOMO(eV)值(为-2.04±0.28);LUMO(eV)值(为2.06±0.37);带隙
(eV)值(为4.1±0.25);Vtrans+(V)值(为1.47±0.37);Vtrans-(V)值(为-0.91±0.27);
Φe-(eV)值(为1.6±0.36);Φh+(eV)值(为1.28±0.41);me-/mh+值(为1.21±0.98)以及ΔΦ(eV)值(为2.87±0.74)的对应的电子指纹参考值的组;脱氧鸟苷包含HOMO(eV)值(为-1.36±0.19);LUMO(eV)值(为1.48±0.24);带隙(eV)值(为2.84±0.27);Vtrans+(V)值(为1.13±0.13);Vtrans-(V)值(为-0.48±0.29);Φe-(eV)值(为1.33±0.3);Φh+(eV)值(为0.79±
0.5);me-/mh+值(为0.32±0.25)以及ΔΦ(eV)值(为2.12±0.65)的对应的电子指纹参考值的组;鸟苷包含HOMO(eV)值(为-1.4±0.31);LUMO(eV)值(为1.47±0.19);带隙(eV)值(为
2.86±0.31);Vtrans+(V)值(为1.13±0.17);Vtrans-(V)值(为-0.59±0.15);Φe-(eV)值(为1.97±0.44);Φh+(eV)值(为1.07±0.44);me-/mh+值(为0.54±0.19)以及ΔΦ(eV)值
(为3.04±0.72)的对应的电子指纹参考值的组;甲基化的脱氧鸟苷包含HOMO(eV)值(为-
2.24±0.42);LUMO(eV)值(为2.3±0.64);带隙(eV)值(为4.53±0.85);Vtrans+(V)值(为
1.5±0.46);Vtrans-(V)值(为-1.33±0.55);Φe-(eV)值(为3.29±1.36);Φh+(eV)值(为
3.25±1.69);me-/mh+值(为1.13±0.72)以及ΔΦ(eV)值(为6.54±2.98)的对应的电子指
纹参考值的组;脱氧胞苷包含HOMO(eV)值(为-1.81±0.34);LUMO(eV)值(为2.39±0.4);带隙(eV)值(为4.2±0.49);Vtrans+(V)值(为1.34±0.31);Vtrans-(V)值(为-0.8±0.26);
Φe-(eV)值(为2.62±0.89);Φh+(eV)值(为1.57±0.63);me-/mh+值(为0.64±0.31)以及ΔΦ(eV)值(为4.19±1.17)的对应的电子指纹参考值的组;胞苷包含HOMO(eV)值(为-1.4±
0.24);LUMO(eV)值(为2.2±0.22);带隙(eV)值(为3.6±0.25);Vtrans+(V)值(为1.59±
0.28);Vtrans-(V)值(为-0.59±0.33);Φe-(eV)值(为3.17±0.63);Φh+(eV)值(为1.23±
0.68);me-/mh+值(为0.39±0.25)以及ΔΦ(eV)值(为4.4±1)的对应的电子指纹参考值的
组;甲基化的脱氧胞苷包含HOMO(eV)值(为-2.78±0.39);LUMO(eV)值(为2.62±0.59);带隙(eV)值(为5.4±0.36);Vtrans+(V)值(为1.62±0.37);Vtrans-(V)值(为-1.89±0.29);
Φe-(eV)值(为3.07±0.8);Φh+(eV)值(为3.4±1.13);me-/mh+值(为1.18±1.46)以及ΔΦ(eV)值(为6.46±1.89)的对应的电子指纹参考值的组;胸苷包含HOMO(eV)值(为-1.38±
0.19);LUMO(eV)值(为2.68±0.3);带隙(eV)值(为4.06±0.32);Vtrans+(V)值(为1.43±
0.37);Vtrans-(V)值(为-0.44±0.19);Φe-(eV)值(为2.75±0.69);Φh+(eV)值(为0.85±
0.4);me-/mh+值(为0.33±0.17)以及ΔΦ(eV)值(为3.61±0.73)的对应的电子指纹参考值的组;以及尿苷包含HOMO(eV)值(为-1.51±0.25);LUMO(eV)值(为2.04±0.25);带隙(eV)值(为3.54±0.31);Vtrans+(V)值(为1.53±0.34);Vtrans-(V)值(为-0.9±0.36);Φe-
(eV)值(为3.71±1.36);Φh+(eV)值(为1.98±1.09);me-/mh+值(为0.68±0.29)以及ΔΦ
(eV)值(为5.68±1.61)的对应的电子指纹参考值的组。
[0123] 本公开还提供了用于开发一组核碱基、核苷和/或核苷酸的电子指纹参考值的方法,核苷和/或核苷酸,方法包括:获取核苷的隧穿电流数据,其中核碱基、核苷和/或核苷酸的身份是已知的;从隧穿电流数据导出至少1个、至少2个、至少3个、至少4个、至少5个、至少
6个、至少7个、至少8个或至少9个电子特征,或从电子特征开发电子指纹参考值的组,其中电子指纹参考值的组能够鉴定核碱基、核苷和/或核苷酸。
[0124] 在另一个方面,电子指纹参考值的组能够区分第一核碱基、核苷和/核苷酸与第二核碱基、核苷和/或核苷酸,其中第一核碱基、核苷和/或核苷酸和第二核碱基、核苷和/或核苷酸是不同的核苷。
[0125] 在另一个方面,电子特征选自HOMO(eV)值、LUMO(eV)值、带隙(eV)值、Vtrans+(V)值、Vtrans-(V)值、Φe-(eV)值、Φh+(eV)值、me-/mh+值和ΔΦ(eV)值。
[0126] 在另一个方面,电子指纹参考值的组选自由以下组成的组:HOMO(eV)值、LUMO(eV)值、带隙(eV)值、Vtrans+(V)值、Vtrans-值、Φe-(eV)值、Φh+(eV)值、me-/mh+值和ΔΦ(eV)值。
[0127] 本公开还提供用于测定核酸序列的方法,其中核酸序列选自由以下组成的组:DNA、经修饰的DNA、RNA、经修饰的RNA、PNA、经修饰的PNA及其任意组合,并且其中核酸序列包含核碱基和带电荷的主链。
[0128] 所公开的技术可用于提供条剥离态金基片进行的大规模并行测序。在一个实施方案中,模板剥离可用于制备基片,并且可使用模板剥离态金基板进行大规模并行STM成像。在一个实施方案中,可以光学光刻,随后各向异性蚀刻诸如KOH蚀刻来产生尖端。
实施例
[0129] 实施例1-LUMO、HOMO和带隙值
[0130] 火焰退火平板状模板剥离超光滑金(111)基片(参见下文)。为了利用从基片拉出的核苷酸制备线性化的DNA(以研究贯穿核碱基而非糖主链的电荷隧穿),制备带正电荷的金(111)表面,并将其开发用于下文中详述的新的挤出沉积技术(图1a)。
[0131] STM基片的制备
[0132] 通过模板剥离获得火焰退火的Au(111)表面。在典型的模板剥离方法中,将热蒸发的金(Au)膜在硅(100),或其它指标匹配的基片(以对Si(100)呈45°的取向形成Au(111))上火焰退火,以产生Au(111)取向。由于金涂层对洁净的硅基片不具有粘附,因此可通过使用环氧树脂、电极沉积金属或可粘附至金的其它聚合物薄膜来剥离它们。剥离膜显示原子级光滑(模拟平面硅晶片的平滑性)的Au(111)基片(Nagpal等,Science.325,594,2009中描述的)。剥离后立即用O3等离子体处理表面2分钟((Jelight Company INC UVO Cleaner Model No.42),以使表面均匀地带负电荷(用于吸附带正电荷的聚电解质)。对于裸金样品,首先在表面上添加500μL 0.1M的HCl、0.1M Na2SO4或0.1M NaOH并用压缩空气进行干燥。随后在表面上用平移运动延展1μL的DNA溶液(寡聚物或ampR),并使其干燥。对于多聚-L-赖氨酸样品,将25μL的10ppm溶液(MW 70,000-150,00g/mol,购自Sigma,USA)添加至洁净金基片上,随后在室温孵育5分钟,随后用500μL的双蒸H2O洗涤其,并用压缩空气进行干燥。如上所述,制备用于STM-STS的DNA样品。另外,以相同浓度用500μL水、酸或碱洗涤样品,并在压缩空气下进行干燥。
[0133] 用于STM的ssDNA寡聚物和ssDNA ampR DNA
[0134] 单链寡聚物(聚(dA)15、聚(dC)15、聚(dG)15、聚(dT)15)购自Invitrogen,USA。将DNA寡聚物以20μM的浓度溶解于0.1M Na2SO4溶液,并于-20℃下贮存直至使用。使用NanoDrop 2000分光光度计(Thermo Scientific,USA)测量DNA浓度。
[0135] 用于线性化用于测序的DNA链的挤出沉积技术
[0136] 为在金基片上分散细长的线性单链ssDNA,进行3步骤法。第一,如上所述通过用10ppm多聚L-赖氨酸溶液涂覆其来使金(111)表面带正电荷。第二,将ssDNA在95℃下解链5分钟,随后在冰上瞬时冷却5分钟。在一些情况下,dsDNA和短的单核苷酸ssDNA链不含三级结构,但1kb长的ssDNA可形成二级结构。一般地,解链可帮助除去DNA上的二级结构,并且带正电荷的表面的使用可帮助破坏二级结构。表面上的正电荷由多聚L-赖氨酸肽提供,肽通过静电相互作用与磷酸主链连接。在大多数情况下,例如为了测序目的,将酸性条件用于去卷积/区分/鉴定4种核苷酸C、T和嘌呤-G或A。第三,用平移运动在经修饰的Au(111)表面上挤出ssDNA分散体(1-5nM),以形成线性化的DNA链(图23,下文中所述的)。利用不同的设置进行多核苷酸的挤出。作为具体实例,我们描述了两个实施方案:使用移液管尖端(0.1-1μL)并在沉积时缓慢地施加平移运动;和使用微流体,其中在一侧添加多核苷酸,并且毛细管力将多核苷酸挤出通过纳米/微米-通道。
[0137] 将DNA沉积在带正电荷的金表面,随后进行挤出运动,因带负电荷的磷酸主链与带正电荷的表面的相互作用而使DNA固定在金表面上。该相互作用将核苷酸暴露在原子级光滑的金的顶部,并允许使用它们的STS谱的测量对核苷酸进行测序。该方法还通过线性化ssDNA减少二级结构,以及减少来自核糖糖和磷酸主链的噪声和本底信号
[0138] 利用多聚L-赖氨酸的表面修饰具有朝向降低LUMO能级的能量和增加HOMO能级的能量同时保持相似的两者之间的能隙的一般化作用。该作用可归因于增加表面相对pH的赖氨酸残基的微碱性组分。
[0139] 使用化学蚀充刻的铂-铱尖端(80:20 Pt-Ir)并通过贯穿线性化的DNA核苷酸的隧穿电子和空穴进行相关的STM和STS研究(图1a和3a,b)。隧穿电流光谱学数据(电流(I)-电压(V))为分子的局域电子态密度的直接量度(dI/dV谱,图10和上文中讨论的),并且用于帮助创建基于核苷酸生化结构的独特电子指纹(图1和图3a、3b)。为了鉴定各种DNA核苷酸的不同隧穿特征,在不同pH条件下研究贯穿核苷酸的电子/空穴隧穿。不同pH条件下的核碱基的酮-烯醇互变异构体的存在(图11和下文中描述的)可帮助分离嘌呤(A、G)与嘧啶(C、T)之间的电子/空穴隧穿概率,以帮助区分两个组。
[0140] 成像和光谱学
[0141] 使用购自Agilent Technologies,USA的化学蚀刻的Pt-Ir(80:20)通过改进的分子成像PicoSPM II获得扫描隧道显微镜图像。在室温下和在大气压下操作仪器。将隧穿结参数设置在100pA的隧道电流和0.1V的样品偏压。利用先前的结参数以90V/s的扫描速率获得光谱学测量,以避免DNA样品的降解(归因于高电流/电压)。使用Matlab将含有关于电流-电压(I-V)谱的信息的扫描隧穿光谱学数据用于获得其导数dI/dV。dI/dV与如下文中讨论的电子局域态密度成比例。通过在谱上分别分配第一显著的正峰值和负峰值来进行LUMO和HOMO能级的能带分配(图10)。LUMO与HOMO值之间的能量差异定义电子LUMO-HOMO能带隙。基于其HOMO/LUMO和嘌呤与嘧啶之间的初步鉴定的能隙分配每一个核苷酸。C和T的鉴定基于它们的LUMO和HOMO能级差异。
[0142] 将对应于每一个像素的X-Y位置用于计算数据点之间的距离。该信息也被用于分配序列,因为每一个核苷酸具有约0.65nm的尺寸。基于核苷酸序列的空间测量,以nm计算两个相邻测量之间的距离,并将其除以0.65。因此,每一个测量对应于连续核苷酸并且位置只被用于计算其顺序。因此,使用量子分子测序扫描鉴定序列。首先,对于每一个核苷酸,鉴定生物物理参数,例如,HOMO、LUMO、带隙、转变电压(正和负)、电子/空穴有效质量的比率、电子和空穴的 和 将来自参考文库的鉴定的参数(如对来自良好表征的已知序列,诸如
不存在修饰的均聚核苷酸的训练集测定的)用于将机器学习模型构建为参照。然后,处理未知的谱以提取参数,并将那些参数与训练集比较以鉴定来自每一个单独的组来自训练集的概率。具有最高概率的组被分配给原始谱和用于序列比对。该方法允许序列的鉴定。为了检查针对注释的序列(例如,此处ampR)的所确定的测序的精确度,使用基本局部比对搜索工具(BLAST)将所鉴定的序列与可在美国国家生物技术信息中心获得的ampR序列(保藏号
EF680734.1,可在www.ncbi.nlm.nih.gov/nuccore/EF680734.1获得的)相比较。BLAST在该情况下被用于所测量的序列与参考序列的比对。除了序列比对以外,所获得的数据还可用于从头组装成新的序列注释。
[0143] 密度泛函理论模拟:使用密度泛函理论,使用图2中描述的和Phys.Rev.140,A1133,C.C.J.Roothaan Rev.Mod.Phys.23,69-89和J.Comput.Chem.14,1347-1363(1993)
中描述的限制Hartree-Fock法,利用B3LYP函数和GAMESS软件包上的6-311G(2d,2p)基组进行电子结构计算。对于与脱氧核苷酸和核糖核苷酸的中性核碱基比较,使用如
J.Chem.Phys.77,3654(1982)和J.Chem.Phys.80,3265(1984)中描述的6-311G(2d,2p)基
组,基组提供精确的结果,因为其为高斯轨道的分裂价三重ζ电描述。关于分离的核碱基的不同互补异构体与pH的研究案例,我们使用如J.Chem.Phys.77,3654(1982)和
J.Chem.Phys.80,3265(1984)中描述的6-31++G(2d,2p)基组。在氢和重原子上添加弥散功能为带电荷的分子提供更好的描述。使用Jmol软件集成特性初步优化每一个核碱基、核苷酸或核苷的结构。在于GAMESS上进行的电子计算过程中计算进一步的几何优化。使用
MacMoIPIt绘制分子轨道。
[0144] 表IV:使用6-31++G(2d,2p)基组和B3LYP函数从密度泛函理论DFT计算模拟分离的核碱基能带隙的概述。
[0145]
[0146] 表V:中性条件下使用使用6-311G(2d,2p)基组和B3LYP函数,利用DFT计算的核碱基、脱氧核糖核苷酸和核糖核苷酸的能量带隙的比较。能量带隙以eV表示。
[0147]
[0148] 在酸性pH下进行的STS测量可有利于酮/烯醇异构体的形成。酸性pH环境可通过添加强酸例如HCl来实现。在许多实施方案中,pH环境可通过添加任何酸、碱或pH缓冲剂来实现,例如酸可包括硫酸、柠檬酸硝酸、乳酸、碳酸、磷酸、酸、草酸和乙酸。在大多数实施方案中,酸用来改变pH环境。在许多实施方案中,酸将具有低于3的pKa,其可有助于确保可实现所需核苷酸化学修饰。在脱氧核糖核苷酸的情况下,这可见于图11中。在许多情况下,在酸性pH下进行的STS可允许最低未占分子轨道(LUMO)与最高未占分子轨道(HOMO)能级的分离,能级可分别表示隧穿电子和空穴的概率。该分离还可见于图4a中的V或eV相对于概率的曲线。该分离还可见于能“带隙”,或HOMO-LUMO能级之间的差异描绘于图4b中。在一些实施方案中,核苷酸C(-1.30±0.17eV)和T(-1.74±0.29eV)的HOMO能级(或空穴隧穿概率)也可表现出如图4a中看到的分离。C与T HOMO能级之间的分离可归因于它们的酮和烯醇化结构(图11)。
[0149] 也可将碱性条件用于区分核碱基。在一些情况下,碱性pH可有助于区分腺嘌呤与鸟嘌呤核苷酸(A和G)。在这些情况下,LUMO能级可为约1.72±0.19eV(对于A)和1.33±0.17eV(对于G)。在一些实施方案中,碱性pH可通过添加强碱例如NaOH来实现。在许多情况下,可通过添加多种酸、碱或缓冲剂,包括氢氧化氢氧化铵、氢氧化、氢氧化镁、氢氧化钡、氢氧化、氢氧化和氢氧化锌锂来实现所需pH环境。在大多数情况下,用于实现碱性pH的碱将具有高于9的pKa,其可有助于确保可实现所需核苷酸的化学修饰。在一些情况下,A和G的HOMO能级在碱性条件下也可不同。四种核苷酸A、T、G和C在3个不同的环境中的值报告于表I中。
[0150] 在一些情况下,在不同的pH条件下,对于其它异构体看到生物化学的差异,并且可使用单个核苷酸的STS检测到差异(图4c、12、14、16)。例如,胸腺嘧啶核碱基(T),与腺嘌呤、鸟嘌呤和胞嘧啶不同,可将电荷(电子和空穴)隧穿通过烯醇异构体(在酸性条件下形成的),(图4c、4d、11,表I)。该作用可归因于缀合。酸性、中性和碱性pH下贯穿单个T核苷酸的STS光谱学指示了这些生化变化,这可归因于贯穿单个分子的隧穿电荷的容易化(图4c、
4d)。由于更容易的电子隧穿(可能地静电排斥的作用,图4d、11,上文中讨论的),单个T核苷酸的LUMO能级随pH增加而降低。对于其它核苷酸也观察到pH对LUMO和HOMO能级的类似作用(图12、14、16)。例如,可使用STS数据看到鸟嘌呤的两个pKa值和所得的异构体(图12,表I)。
使用电子和空穴隧穿的概率追踪在不同pH条件(通过它们的pKa值测定的)下形成的生化结构、核碱基互变异构体和其它异构体,如分别使用LUMO和HOMO值(与带隙一起,图4a、4b、4c、
12、14、16,表I)监测的。
[0151] 通过使用DFT研究,假设不同pH条件下的核苷酸和核碱基的酮-烯醇互变异构体的质子化和去质子化酸/碱的存在(例如,图11和如上所述的)可在不同pH条件下导致嘌呤(A、G)与嘧啶(C、T)之间的电子/空穴隧穿的分离。所得的量子分子测序(QM-Seq)电子特征可以是不同的,从而导致鲁棒生化核苷酸鉴定法的开发。
[0152] 实施例2-作为新的QM-Seq特征的生物物理参数
[0153] 为了开发用于针对测序应用的核碱基的简便鉴定的另外的生物物理品质因数或参数,从单个分子(此处为脱氧核苷酸)分析隧穿电流的详细分析。使用福勒-诺德汉(F-N)曲线分析隧穿电流,以鉴定控制贯穿单个核苷酸的电荷隧穿的基础生物物理参数。将隧穿电流(I)-电压(V)数据绘制为ln(I/V2)对比(1/V),以提取隧穿方案(对于三角形势垒)的转变电压(Vtrans),如图4e中对于T的F-N曲线显示的。转变电压,Vtrans,e-,表示从隧穿至场发射方案的转变,并且其为隧穿势垒(此处对于电子)的量度。可将用于贯穿代表电子特征的鉴定组分的核苷酸序列的电子(Vtrans,e-)和空穴(Vtrans,h+)的这些参数类似地用于HOMO-LUMO和带隙值,以表征和鉴定序列(下文中的讨论)。当提取个别核苷酸的这些参数时,如图4f中显示的,我们观察到Vtrans,e-和Vtrans,h+的值酸性条件下的的不同分离(表III,先前和下文中的讨论)。在不同的pH条件下在电子和空穴转变电压中观察到相似的转变,如图21和表III中显示的。因此,通过使用HOMO-LUMO能级、能带隙、Vtrans,h+和Vtrans,e-作为生物物理参数,我们可使用电荷(电子和空穴)隧穿数据鉴定核苷酸。
[0154] 用于核糖核苷酸鉴定的QM-Seq特征:通过使用DFT研究连同实验性生物物理和生化研究,我们确定酸性pH确保可用于再现地鉴定单个核苷酸(使用能带隙、HOMO-LUMO、
Vtrans,h+和Vtrans,e-,图4a、4b、4e、4f,表I和表III中的DNA的QM-Seq数据、表II中的RNA的QM-Seq数据)以进行快速且精确的电子鉴定的可区分的特征(A,G,T和C的pKa分别为4.1、3.3、
9.9和4.4)的形成。此外,DFT研究表明,RNA嘧啶核碱基的量子特征或电子指纹可与DNA不同。为了评估QM-Seq用于直接RNA测序和量子特征的独特性的潜力,我们测量了酸性条件下的RNA同寡核苷酸的QM-Seq生物物理参数(图7a,b,表II)。QM-Seq的明确分离允许RNA嘌呤(A/G)和嘧啶(C/U)的快速鉴定。然而,因2'羟基化糖主链上的分子熵和电荷云离域而导致的特征的分散阻止核苷酸之间的进一步的区分。比较RNA与DNA之间的嘌呤(图7c)和嘧啶
(图7d)QM-Seq特征显示嘧啶核碱基的指纹之间的明确不同,如通过DFT模拟表明的。由于2'羟基化糖主链区分RNA与DNA核苷酸,因此电荷至核碱基的强局域化防止嘌呤核苷酸的特征的差异(图7c,表II)。这些结果概括了核苷酸的生化结构与它们的QM-Seq特征之间的关系,并且证明了使用独特的QM-Seq电子指纹的快速单分子测序的能力。
[0155] 使用体外转录进行的RNA产生:使用MAXIscript试剂盒(Applied Biosystems),使用体外转录从提取的DNA基因制备RNA样品。我们在PCR管中混合500-1000ng的DNA模板、1μL ATP 10mM、1μL CTP 10mM、1μL GTP 10mM、1μL UTP 10mM、1μL不含核酸酶的水。随后,添加2μL的10X转录缓冲液液,并充分混合。最后,将2μL的SP6聚合酶添加至反应中,随后进行涡旋和旋转。除聚合酶外,将所有试剂在室温下保持以用于组装(注意,在冰上组装反应可沉淀模板DNA)。随后将溶液在室温下孵育1小时。孵育后,添加1μL的TURBO DNA酶以降解模板DNA,并将其在37℃下孵育30分钟。然后,将溶液转移到1.5mL离心管并进行乙醇沉淀。我们添加25μL不含核酸酶的水、5μL 3M的醋酸钠(pH=5.5)和3倍体积的冷无水乙醇。将溶液在-20℃下孵育至少30分钟。然后,将产物以最大速度离心15分钟,随后用乙醇(70%)洗涤2次。
最后将RNA沉淀重悬浮于15μL的0.5x TE缓冲液中。
[0156] 利用N-甲基靛红酸酐的RAN修饰:向10μL的折叠RNA中添加10μL的N-甲基靛红酸酐(NMIA)溶液(130mM的DMSO中的NMIA)。在37℃下孵育2.5小时。如上所述进行与乙醇沉淀的反应。将RNA沉淀重悬浮于10μL的0.5x TE缓冲液中。
[0157] 利用二-甲基硫酸酯的RNA修饰:向10μL折叠RNA中添加10μL DMS溶液(0.8mM的甲醇中的DMS(硫酸二甲酯,SPEX CertiPrep,USA)。在37℃下孵育2个管2小时。如上所述进行与乙醇沉淀的反应。将RNA沉淀重悬浮于10μL的0.5x TE缓冲液中。
[0158] 数据分析:从来自每一个核碱基(HOMO、LUMO、带隙、转变电压(正和负)、电子/空穴有效质量的比率、电子和空穴的 和 的隧穿电流数据提取几个参数。我们已经开发了可用于同时鉴定序列和结构的排序算法(图1)。
[0159] 首先,在未修饰的或经修饰的(利用NMIA或DMS)均寡聚物上鉴定参数,例如,HOMO、LUMO、带隙、转变电压(正和负)、电子/空穴有效质量的比率、电子和空穴的 以及 将来自个别经修饰的/未修饰的寡聚物的鉴定的参数(如对来自良好表征的已知序列,诸如含有或不含修饰的均聚核苷酸的训练集测定的)用于构建机器学习模型(例如朴素-贝叶斯(
-Bayes)模型,其基于新数据点属于特定的组的贝叶斯概率分类先前定义的组)。在
该模型中,假定(单纯地)参数:它们是彼此独立的并且将它们与参考相比较。然后,计算每一个组中相关的总分数或概率,将其提供为输出。来自某个组的最高分值/概率被定义为作为参考的调用组。随后,处理未知的谱以提取参数,并将这些参数与训练集相比较以鉴定每一个个别的组来自训练集的概率。将具有最高概率的组分配给原始谱和用于序列比对。该方法允许同时鉴定序列和结构。可使用的用于数据分类(监督机器学习)的其它机器学习过程或算法包括:分析学习人工神经网络、反向传播、提升法(boosting)(元算法)、贝叶斯统计、基于案例的推理、决策树学习、归纳逻辑编程、高斯过程回归、数据处理的分类法、核估计、学习自动化、最小消息长度(决策树、决策图表等)、多线性子空间学习,朴素-贝叶斯分类器、最近邻算法,可能近似正确学习(PAC)学习、波纹规则、知识获取方法、符号机器学习算法、子符号机器学习算法,支撑向量机器、随机森林、分类器集成、有序分类、数据预处理、处理不平衡数据集、统计关系学习、Proaftn和多标准分类算法。
[0160] 在其它实施方案中,鉴定从隧穿电流数据导出的参数的值,例如,HOMO、LUMO、带隙、转变电压(正和负)、电子/空穴有效质量的比率、电子和空穴的 以及 在各种环境中鉴定未修饰的或修饰的(利用NMIA或DMS)寡聚物的这些值。称为“训练集”的这些鉴定的参数获自良好表征的已知序列,诸如含有或不含修饰的均聚核苷酸。随后将来自训练集的参数值用于构建作为参考的机器学习模型。可使用各种机器学习模型,例如朴素-贝叶斯模型,其基于新数据点属于特定的组的贝叶斯概率分类先前定义的组。在该模型中,假定(单纯地)参数是彼此独立的并且将它们与参考相比较。然后,计算新数据点属于每一个组的总分值或概率,将其提供为输出。来自某一组的最高分值/概率被定义为调用组。
[0161] 随后,收集未知核碱基的隧穿电流数据。处理该隧穿电流数据以测定各种参数的值:HOMO、LUMO、能带隙Vtrans,e-、Vtrans,h+、Φ0,e-、Φ0,h+、ΔΦ和meffe-/meffh+。随后将这些值与获自训练集的值相比较以鉴定未知核碱基属于来自训练集的个别组的概率。将调用组(具有最高的匹配未知核碱基的组的概率的组)分配给该核碱基,并且将其用于序列比对。该方法允许同时鉴定序列和结构。可使用的用于数据分类(监督机器学习)的其它机器学习过程包括:分析学习、人工神经网络、反向传播、提升法(元算法)、贝叶斯统计、基于案例的推理、决策树学习、归纳逻辑编程、高斯过程回归、数据处理的分类法、核估计、学习自动化、最小消息长度(决策树、决策图表等)、多线性子空间学习,朴素贝叶斯分类器、最近邻算法,可能近似正确学习(PAC)学习、波纹规则、知识获取方法、符号机器学习算法、子符号机器学习算法,支撑向量机器、随机森林、分类器集成、有序分类、数据预处理、处理不平衡数据集、统计关系学习、Proaftn和多标准分类算法。
[0162] 实施例3-转变电压值
[0163] 还进行来自单个分子(此处为核苷酸)的隧穿电流数据的详细分析,以在测序应用中进一步帮助核碱基的鉴定。对于这些实验,使用福勒-诺德汉(F-N)曲线分析隧穿电流。进行该分析以鉴定控制贯穿单个核苷酸的电荷隧穿的基础生物物理参数。可将隧穿电流(I)-电压(V)数据绘制为ln(I/V2)对比(1/V),以提取转变电压(Vtrans)和隧穿方案(对于三角形势垒)的斜率。该分析的实例示于图4e中的T的F-N曲线。转变电压Vtrans,e-代表从隧穿至场发射方案的转变,以及斜率S为隧穿势垒(此处对于电子)的量度。
[0164] 关于隧穿参数如从隧穿至场发射的转变电压和表示电荷隧穿的势垒的仔细分析,可提取3个生物物理参数/常数。这些隧穿常数(Vtrans,h+、Vtrans,e-、S=Se+Sh)可以是可将电子隧穿通过其的分子的特征,并且被分别用于开发针对HOMO-LUMO和带隙的另外的品质因数。例如,关于使用Vtrans,h+分析空穴隧穿概率的变化,观察到可在不同pH条件下与核苷酸的HOMO能级一样使用其(图21,表III)。类似地,Vtrans,e-代表电子隧穿(较低的值显示更容易的电子隧穿)的易化,与LUMO能级一样。斜率S模拟在这些生物分子中观察到的带隙。关于更仔细的分析,对于这些福勒-诺德汉(F-N)转变电压(Vtrans)观察到类似行为(图21,表III)。
Vtrans代表电子或空穴的从三角形隧穿至场发射的转变。Vtrans显示与确认应用于生物分子如DNA的F-N隧穿背后的生物物理学理论的HOMO(Vtrans,h+)和LUMO(Vtrans,e-)能级相同的与pH相关的模式。因此,这些隧穿参数可用作本工作中开发的另外的新的QM-Seq特征/品质因数。
[0165] 通过在生物分子中使用从直接隧穿至福勒-诺德汉隧穿的转变(通过测量转变电压(Vtrans)),我们估计隧穿势垒高度(金属尖端的费米能级(EF)与前沿分子轨道之间的能量偏差,即HOMO或LUMO)。当所施加的偏压(偏置)小于势垒高度时,直接隧穿被分配给主导传输机制。在零偏限制中,势垒被假定为矩形的,并且可被近似化,因为当为有效电子质量时,为势垒高度,d为隧穿距离,并且 为普朗克常数。在高偏压下,传导机制以福勒-
诺德汉隧穿或场发射为主,并且三角形势垒可被近似化。因此,从直接隧穿(F-N曲线上的对数)至福勒-诺德汉隧穿(F-N曲线上的线性)的转变展现了F-N曲线(ln(I/V2)对比1/V)上的拐点(Vtrans)。随着偏压升高,可看到隧穿曲线的形状从矩形(V=0V)至梯形(V<ΦB/e)随后至三角形(V<ΦB/e)的转变。因此,Vtrans提供了测量从矩形至三角形势垒的转变,从而测量与生物分子中的隧穿运输相关的原始矩形势垒的高度的实验方法。
[0166] 这些实验表明,贯穿核苷酸序列的电子(Vtrans,e-)和空穴(Vtrans,h+)隧穿的参数代表特征组分,并且可类似地用于HOMO-LUMO和带隙值以表征和鉴定序列。关于提取个别核苷酸的这些参数,如图4f中显示的,可观察到酸性条件下的Vtrans,e-和空穴Vtrans,h+的值的分离(表III,和上文中讨论的)。还观察到不同pH条件下的电子和空穴转变电压的类似转变,如图21和表Ⅲ中显示的。因此,通过使用HOMO-LUMO能级、Vtrans和斜率(S)作为鉴定特征(或参数)的组分,可使用电荷(电子和空穴)隧穿数据分离核苷酸。
[0167] 实施例4-AmpR测序
[0168] 例如,和如下文中更彻底描述的,将所公开的技术用于测定关于ampR基因的85和700nt区域和HIV-1RNA酶序列的350nt区域的序列的电子指纹(或隧穿数据),ampR基因编码对β-内酰胺抗生素的抗性。目前公开的技术在单次量子分子测序/读取中以超过95%的成功率在这些测序项目中获得成功,其中成功被定义为将未知核苷酸的身份与已知序列的身份匹配。在许多实施例中,成功率可大于约96%、97%、98%或99%。
[0169] 通过使用上述生物物理和生物化学研究,已确定酸性pH可以用于促进可区分的异构体(A、G、T和C的pKa分别为4.1、3.3、9.9和4.4)的形成,并且这些可区分的异构体可用于对单个核苷酸进行可再现地测序(使用带隙、HOMO-LUMO、Vtrans和S,图4a、4b、4e、4f)。
[0170] 在这些实验中,单次STM-STS测量(在酸性pH下)被用于对单分子DNA(使用STM)和单个核苷酸(使用STS数据,如图5a(对于A)和图22(对于T、G、C)中显示的)进行测序。这可在分钟的时间范围内实现。
[0171] 为了证明该方法的简单性以及研究药物抗性和突变病原体的潜在应用,进行细菌抗生素抗性基因ampR的测序。ampR基因用于病原治疗,因为其编码抑制青霉素衍生抗生素的β-内酰胺酶。抑制青霉素衍生抗生素氨苄抗性基因是致病治疗是有用的。以低浓度(1-5nM)制备ssDNA溶液制备以模拟生理水平(见下文,图24)。
[0172] 在两个步骤中获得氨苄青霉素抗性基因(ampR)的单链DNA。首先,使用Phusion高保真PCR试剂盒(Thermo Scientific,USA),通过进行聚合酶链式反应(PCR)从质粒pZ12LUC质粒(Expressys,Germany)扩增双链ampR DNA。使用genejet质粒小量制备试剂盒(Thermo Scientific,USA)从大肠杆菌(Escherichia coli)菌株DH5α-Z1提取质粒pZ12LUC。将正向(CGAGCTCGTAAACTTGGTCTGA)和反向引物(GTGAAGACGAAAGGGCCTCG)(Invitrogen,USA)用于扩增ampR基因的1091bp。使用双链ampR作为模板DNA和仅正向或反向引物通过第二轮PCR获得单链ampR DNA。使用利用ZymoClean凝胶DNA回收试剂盒(Zymo Research,USA)的凝胶提取纯化每一个反应的产物,并将产物在0.1M Na2SO4中稀释至5nM(1.7ng/μL)(以模拟生理浓度,图25)。使用NanoDrop 2000分光光度计(Thermo Scientific,USA)测量DNA浓度。
[0173] 使用上述三步挤压沉积技术,将ssDNA的细长线性链的单分子可再现地沉积在基片上(图6b和图23)。进行ampR DNA的单链的同时STM成像和STS光谱学(如图6b、6c、6d中显示的)。STS扫描测量设置具有1nm的横向分辨率(受我们的压电扫描仪的分辨率和设置限
制,见下文)。通过使用STS扫描,在每一个测量上正确地鉴定核苷酸,并且也使用二次鉴定技术(参见方法),以超过95%的准确度鉴定相邻的核碱基(图6c)。整体上,在ampR基因上的
85个碱基的区域内成功地鉴定了总共40个核苷酸(图6c、6d).
[0174] 图36举例说明了根据本发明的一些实施方案的测序仪100(多核苷酸序列测定装置)的一个实例。正如图36中显示的,将读取头106置于样品108的上方。如先前所讨论的,样品108是一个或多个核苷酸被置于基片上的DNA或RNA样品的单链,基片可以是扁平(111)取向的金。在一些实施方案中,将样品108置于平移平台110上,并且固定读取头106。在一些其它实施方案中,可固定样品108,同时将读取头106安装在平移平台上。读取头106可以是如上讨论的单个尖端读取头,和是如图1a和3b中举例说明的,或可以是如图27(a)-(c)中所举例说明的尖端的阵列。可如例如上文实施例1-3中所讨论的以及如图3b和27(c)中所显示
的,制备样品108。在例如图1a、3b和27a至图27c中举例说明读取头106在样品108上方的排列。在图3a中举例说明以及在上文中详细地讨论样品108的制备的说明。
[0175] 如在图36中进一步显示的,通过偏压发生器104在样品108与读取头106之间产生偏压V,并且通过电流传感器116测量电流I。偏压发生器104可由处理器102控制来扫描一系列偏压V,并且通过电流传感器116读取每一个偏压V上的电流I,并且将电流I提供至处理器
102。这样,处理器102可收集样品108上方的读取头106的每一个x-y位置的I/V曲线(另外地被称为谱,隧穿数据)。如在图36进一步显示的,将处理器102耦接以控制被耦接至平移平台
110的扫描仪112。平移平台110可以例如是能够如由扫描仪112所指导的,相对于读取头106移动样品108的压电x-y-z平台。然而,可使用能够以精确的方式移动样品108的任何平移平台。
[0176] 处理器102因而可控制样品108相对于读取头106的两个位置,并且还可被耦接于数据骨干104,从而被耦接于数据存储器126、内存124、接口122和用户接口120。数据存储器
126可以是固定的存储器,诸如存储硬盘驱动器、快闪驱动器、磁盘驱动器等。内存124可以是能够存储数据和软件指令的易失性或非易失性存储器。接口122可以是连接至外部设备或网络的任何接口。接口122可以例如,用于将测序仪100耦接于外部计算系统,计算系统进行通过测序仪100获取的电子特征数据的分析。用户接口120可以是,例如,电视屏幕、音频设备、键盘指针设备、触摸屏或允许处理器102与用户进行通信的其它设备。
[0177] 图37举例说明可在测序装置如图36中所示的测序仪100上被执行以提供DNA或RNA的一个或多个链的测序的流程200。如图37中显示的,流程100始于在步骤202中定位读取头
106。如图36中显示的,定位读取头106可通过相对于的读取头106移动样品108来实现。扫描定位可通过在起始位置(任意地指定为(x,y)=(0,0))上定位尖端来实现。进一步反复可通过根据模式的x,y位置。z位置(读取头106与样品108之间的距离)可通过在流程200的执行之前使用金的隧穿信息进行校准步骤来调整和固定。在步骤204中,在当前(x,y)位置上获取读取头106上每一个读取尖端的I/V数据。在步骤206中,可存储隧穿数据或I/V数据以用于以后分析。在一些实施方案中,可将隧穿数据或I/V数据的分析与数据采集同时进行。
[0178] 在步骤208,处理器102检查以看扫描是否完成。如果隧穿数据在基板上的每一个x-y位置上被收集则扫描结束。在一些实施方案中,用户可以选择一个亚组的x-y位置用于分析。如果扫描未完成,则处理器102返回至步骤202,在该步骤中读取头106被定位在样品108止方的下一个x-y位置。如果扫描完成,则在步骤210开始数据分析。在一些实施例中,可在测序仪100上通过处理器102进行数据分析,并且测序仪100可发送所获得的隧穿数据以在单独的计算机上进行进一步分析。因此,在一些实施方案中,处理器102可向其中完成该过程的其余部分的分析计算机(未显示)提供数据。
[0179] 在步骤210中,基于所获取的隧穿数据或I/V数据,可获得个别核苷酸的x-y位置。在上文中例如根据图10a至图10b举例说明和讨论该过程。具体地,可分析dI/dV数据以鉴定LUMO和HOMO峰值,其可表示读取头106被定位在样品108中的核苷酸的上方。如果只获得低电压峰值,则读取头106被定位在金基片的上方。在多尖端阵列中,可单独分析来自每一个尖端的数据以测定个别核苷酸在样品108中的位置。
[0180] 在步骤212中,在每一个经鉴定位于核苷酸的上方的x-y位置上使用隧穿数据或I/V数据计算个别参数。参数(如在整个说明书中讨论的)可包括dI/dV、I/V2、HOMO、LUMO、能带隙Vtrans,e-、Vtrans,h+、Φ0,e-、Φ0,h+、ΔΦ和meff e-/meff h。(如上所讨论的,和图36和37中所举例说明的)。核苷酸的3个或更多个参数值的集合包含未知核苷酸的电子特征。
[0181] 在步骤214中,基于步骤212中获得的核苷酸的特征与在相同环境中收集的已知核苷酸的参数值的数据库的比较鉴定未知核苷酸。为进行比较,将被选择用于测定未知核碱基的特征的参数(例如HOMO、LUMO、带隙、Vtrans,e-和Vtrans,h+)的值与来自已知核碱基的相同参数(在该情况下为HOMO、LUMO、带隙、Vtrans,e-和Vtrans,h+)的值比较(如上文实施例2中描述的)。对于各种实施方案,在表VIII-X中提供了已知核碱基的参数的值。在一些实施方案中,已知核碱基(经修饰的和未修饰的)的这些值被称为值的“参考文库”并且可作为电子数据存储在数据库中。
[0182] 将来自个别经修饰的或未修饰的寡聚物的鉴定的参数(如对来自良好表征的已知序列,诸如含有或不含修饰的均聚核苷酸的训练集测定的)用于构建机器学习模型(例如朴素-贝叶斯模型,其基于新数据点属于特定的组的贝叶斯概率分类先前定义的组)。在该模型中,假定(单纯地)参数:它们是彼此独立的并且将它们与参考相比较。然后,计算参数指纹在每一个组中的总分值或概率,并将其提供为输出。确定参数指纹来自某个组的最高分值/概率。随后,将未知的参数指纹与该模型比较以鉴定参数指纹属于来自该模型的训练集的每一个个别的组的概率。将具有最高概率的组分配给原始谱和用于序列比对。该方法允许同时鉴定序列和结构。在一些实施方案中,可将参数指纹添加至模型,因为核碱基被鉴定。
[0183] 可使用的用于数据分类(监督机器学习)的其它机器学习过程包括:分析学习、人工神经网络、反向传播、提升法(元算法)、贝叶斯统计、基于案例的推理、决策树学习、归纳逻辑编程、高斯过程回归、数据处理的分类法、核估计、学习自动化、最小消息长度(决策树、决策图表等)、多线性子空间学习,朴素贝叶斯分类器、最近邻算法,可能近似正确学习(PAC)学习、波纹规则、知识获取方法、符号机器学习算法、子符号机器学习算法,支撑向量机器、随机森林、分类器集成、有序分类、数据预处理、处理不平衡数据集、统计关系学习、Proaftn和多标准分类算法。
[0184] 如上所讨论的,鉴定从隧穿电流数据所导出的参数的值,例如,HOMO、LUMO、带隙、转变电压(正和负)、电子/空穴有效质量的比率、电子和空穴的 以及 在各种环境中鉴定未修饰的或修饰的(用NMIA或DMS)均寡聚物的这些值。称为“训练集”的这些鉴定的参数获自良好表征的已知序列,诸如含有或不含修饰的均聚核苷酸。随后将来自训练集的参数值用于构建作为参考的机器学习模型。可使用各种机器学习模型,例如朴素-贝叶斯模型,其基于新数据点属于特定的组的贝叶斯概率分类先前定义的组。在该模型中,假定(单纯地)参数是彼此独立的并且将它们与参考相比较。然后,计算新数据点属于每一个组的总分值或概率,将其提供为输出。来自某一组的最高分值/概率被定义为调用组。
[0185] 随后,收集未知核碱基的隧穿电流数据。处理该隧穿电流数据以测定各种参数的值:HOMO、LUMO、能带隙Vtrans,e-、Vtrans,h+、Φ0,e-、Φ0,h+、ΔΦ和meff e-/meff h+。随后将这些值与获自训练集的值相比较以鉴定未知核碱基属于来自训练集的个别的组的概率。将调用组(具有最高的匹配未知核碱基的组的概率的组)分配给该核碱基,并且将其用于序列比对。
该方法允许同时鉴定序列和结构。可使用的用于数据分类(监督机器学习)的其它机器学习过程包括:分析学习、人工神经网络、反向传播、提升法(元算法)、贝叶斯统计、基于案例的推理、决策树学习、归纳逻辑编程、高斯过程回归、数据处理的分类法、核估计、学习自动、最小消息长度(决策树、决策图表等)、多线性子空间学习,朴素贝叶斯分类器、最近邻算法,可能近似正确学习(PAC)学习、波纹规则、知识获取方法、符号机器学习算法、子符号机器学习算法,支撑向量机器、随机森林、分类器集成、有序分类、数据预处理、处理不平衡数据集、统计关系学习、Proaftn和多标准分类算法。
[0186] 在步骤216中,如果数据分析不完全(例如,如果每一个鉴定的核碱基位点上的数据未被完全分析),则处理返回到步骤212。然而,如果所有数据已被分析,则过程在步骤218中展示测定的序列。
[0187] 表VII:用于测定用于碱基调用的DNA核苷酸(A、T、G、C)的电子指纹的生物物理参数的“参考库”。在表中所列的pH环境中于涂覆(多聚赖氨酸,如上所述的)或未涂覆的Au(111)基片上测定该值。
[0188]
[0189]
[0190] 表VIII:用作用于碱基调用的经修饰的(甲基化的)DNA核苷酸(A、T、G、C)的电子指纹的生物物理参数的"参考文库"
[0191]
[0192] 表IX:用作用于碱基调用的经修饰的(甲基化的)RNA核苷酸(A、U、G、C)的电子指纹的生物物理参数的"参考文库"
[0193]
[0194]
[0195] 表X:用作用于碱基调用的经修饰的RNA修饰(A、U、G、C)的电子指纹的生物物理参数的"参考文库"
[0196]
[0197] 实施例5–经修饰的核碱基的检测
[0198] 对于这些实验,用硫酸二甲酯(DMS)修饰DNA寡聚物(图8a)。甲基化对于表观遗传学基因沉默是特别重要的修饰,并且可潜在地用于检测疾病如癌症的早期发作。DNA甲基化导致甲基化的核苷酸相较于非甲基化的核酸的生化结构的变化(图8b、8c、24a)。已知硫酸二甲酯与DNA反应以甲基化单链区域上的鸟嘌呤和腺嘌呤,然而已知胞嘧啶在有限范围内进行反应。在体内,DNA可含有甲基化的胞嘧啶碱基,具体而言,5-甲基胞嘧啶。其它潜在的甲基化的碱基包括5-羟甲基胞嘧啶、7-甲基鸟苷、N6-甲基腺苷。
[0199] 甲基可以改变电荷隧穿的概率,进行了STS测量以研究所得频谱的变化。如所观察到的(图8、24,表VI),嘌呤或嘧啶环的化学修饰影响缀合,并减少电子和空穴的隧穿概率。
[0200] 表VI:经修饰的金表面上的甲基化和未甲基化的A、C和G的LUMO、HOMO、带隙能级的概述。值对应于平均值±标准偏差
[0201]
[0202] DNA的甲基化
[0203] 在于甲醇中稀释至800μM后使用硫酸二甲酯(DMS)(SPEX CertiPrep,USA)进行DNA甲基化。将10μL的DNA寡聚体(20μM)与10μL的800μM DMS(相当于相对于DNA寡聚物2.6倍过量)混合,并在室温下孵育24小时。使用标准乙醇沉淀来沉淀甲基化的DNA。用无菌双蒸水将溶液稀释至90μL,随后加入10μL醋酸钠(3M,pH 5.5)和200μL冷无水乙醇。将溶液混合并在-20℃孵育至少20分钟。之后,将其以13,000rpm离心15分钟,除去上清。用500μL和1000μL70%乙醇洗涤所得的DNA沉淀2次,随后离心。随后将清洁的DNA重悬浮于无菌水中,并使用NanoDrop测定其浓度。使用0.1M Na2SO4将所获得的甲基化DNA稀释一半,以用于在STM中进行测量。
[0204] 鸟嘌呤和腺嘌呤核苷酸的甲基化(图8b、8c)导致LUMO和HOMO能级的增加,从而也增加了各自的HOMO/LUMO能隙(图8d、8e)。观察到的电子能级的变化可归因于导致缀合的损失的嘌呤的甲基化,如图8b、8c中的异构体中显示的。缀合的损失可导致电子和空穴的隧穿的较大势垒(图8d、8e,表VI)。也在嘧啶中研究了甲基化(图9a、9b,表VI),并且观察到相应的电子转变。在这些研究后,甲基化DNA的单链。来自这些研究的结果表明,可以以单个核碱基的分辨率区分甲基化和未甲基化的核苷酸(图8a)。这些结果指向该技术用于检测单DNA分子以及它们中的单核苷酸修饰的适用性。
[0205] 实施例6-大规模并行测序
[0206] 可以以各种方式来实现使用所公开的方法进行的大规模并行测序。在一个实施例中,将1兆像素(或1megatip)2cmX2cm芯片用于与CCD或照相机芯片类似的处理。例如,可向多个尖端同时施加电压,收集和存储电流,并且可同时(与CCD类似)读取来自多个尖端的所有电流值。在读取电流后,可施加另一个偏压(诸如此类)以在大规模2cmX2cm基片上方重建整个电流-电压曲线。从而可同时放置和读取数千个基因组。压电体可用于将样品移动数埃,以允许对下一核碱基进行测序-并重复该过程来分析其它核碱基。因此,在单次2微米的扫描运动(或压电扫描)中,设置为大规模并行测序仪的所公开的方法可在使用简单微流体装置图案化的相对大的样品芯片上对所有可能的核碱基进行测序。在不同实施方案中,可将多核苷酸挤出至具有不同尺寸(诸如小于约1.0cm)的基片上。
[0207] 图27a是使用简单光学光刻,随后各向异性KOH蚀刻光学产生的尖端图案的厘米级的图像。将使用兆像素尖端阵列(使用改进的模板脱模法(Nagpal等,Science,325,594,2009)制造的)制造多尖端测序仪。通过在另有保护的硅(100)表面中圆形或方形孔的光学光刻,我们利用自限性各向异性氢氧化钾蚀刻(KOH蚀刻)工艺来在光滑的硅晶片产生图案化的倒金字塔凸起。倒金字塔尖端是周期性的,并且周期性地,使用暴露的硅晶片的光学光刻来容易地改变包装和构图。然后用金、银或铜金属涂覆这些倒金字塔,随后用环氧树脂或厚电解-沉积的金属层衬里回填以允许产生机械稳定的膜。由于这些贵金属不具有至硅模板的粘附,因此这些图案化的兆像素尖端阵列被剥离,并且该兆像素尖端阵列将被用于制造图案化的量子测序读取器(使用读取器阵列和CCD型兆像素读取)。微流体装置的尺寸与兆像素尖端读取器的周期性匹配,以使得能够进行核苷酸序列、修饰和结构的大规模并行数据获取和检测。图27b是显示从金制造的高保真和周期性图案化的STM尖端的SEM图像。通过在超光滑基片上使用大面积(cmXcm)规模的STM芯片,可扫描2μmx2μm的表面,并且通过从芯片的大规模并行扫描和简单读出(与图中显示的那些类似),产生超过厘米级的整个序
列。
[0208] 本文中公开的所有参考文献,无论是专利还是非专利,都通过引用并入本文,就如同每一个以其引文整体被包括。
[0209] 虽然本公开已用一定程度的特殊性进行了描述,但应理解本公开已通过示例的方式提出,并且可在不背离如所附权利要求书中定义的本公开的精神的情况下进行细节或结构的变化。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈