首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 寡核苷酸指导和记录的编码探针分子的组合合成

寡核苷酸指导和记录的编码探针分子的组合合成

申请号 CN201780035706.3 申请日 2017-06-08 公开(公告)号 CN109312492A 公开(公告)日 2019-02-05
申请人 哈斯达克科学公司; 发明人 理查德·爱德华·瓦特斯;
摘要 本公开涉及多官能分子,其包括式(I)的分子:(I)([(B1)M-D-L1]Y-H1)O-G-(H2-[L2-E-(B2)K]W)P,其中G、H1、H2、D、E、B1、B2、M、K、L1、L2、O、P、Y和W在本文中定义。本公开还涉及制备这些多官能分子的方法和使用这些多官能分子来鉴定能够结合靶分子的编码分子的方法。
权利要求

1.一种式(I)的分子,
(I)([(B1)M—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)K]W)P
其中
G是寡核苷酸,所述寡核苷酸包含至少两个编码区和至少一个末端编码区,其中所述至少两个编码区是单链的并且所述至少一个末端编码区是单链或双链的;
H1是包含寡核苷酸的发夹结构,其中H1终止于5'端并连接到所述寡核苷酸G的一端;
H2是包含寡核苷酸的发夹结构,其中H2终止于3'端并连接到所述寡核苷酸G的一端;
D是第一结构单元;
E是第二结构单元,其中D和E相同或不同;
B1是位置结构单元并且M表示1至20的整数;
B2是位置结构单元并且K表示1至20的整数,其中B1和B2相同或不同,其中M和K相同或不同;
L1是将H1可操作地连接到D的接头;
L2是将H2可操作地连接到E的接头;
O是0至1的整数;
P是0至1的整数;
条件是O和P中的至少一个是1;
Y是1至5的整数;
W是1至5的整数;并且
其中每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个通过所述编码区之一来鉴定,并且其中所述第一结构单元D和第二结构单元E中的至少一个通过所述至少一个末端编码区来鉴定。
2.根据权利要求1所述的分子,其中G包含由式(CN—(ZN—CN+1)A)表示的序列,其中C是编码区,Z是非编码区,N是1至20的整数,并且A是1至20的整数;
其中每个非编码区含有4至50个核苷酸并且任选是双链的。
3.根据权利要求1至2中任一项所述的分子,其中O或P之一是0。
4.根据权利要求1至3中任一项所述的分子,其中Y和W中的至少一个是1至2的整数。
5.根据权利要求1至4中任一项所述的分子,其中每个编码区含有6至50个核苷酸。
6.根据权利要求1至5中任一项所述的分子,其中H1和H2中的至少一个包含20至90个核苷酸。
7.根据权利要求1至6中任一项所述的分子,其中每个编码区含有12至40个核苷酸。
8.根据权利要求1至7中任一项所述的分子,其中P是0,Y是1至2的整数,并且每个编码区含有12至40个核苷酸。
9.根据权利要求1至8中任一项所述的分子,其中O是0,W是1至2的整数,并且每个编码区含有12至40个核苷酸。
10.一种鉴定能够结合或选择靶分子的探针分子的方法,其包括:
使所述靶分子暴露于探针分子池,其中所述探针分子是根据权利要求1所述的分子,去除不结合所述靶分子的至少一个探针分子,
从未从所述靶分子去除的所述至少一个探针分子扩增至少一个寡核苷酸G以形成拷贝序列,
对所述拷贝序列的至少一个寡核苷酸G进行测序以鉴定所述探针分子的至少两个编码区以进一步鉴定每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个,并且鉴定所述拷贝分子的所述至少一个末端编码区以进一步鉴定所述探针分子的第一结构单元D和第二结构单元E中的至少一个。
11.一种形成式(I)分子的方法,其包括:
提供至少一个杂交阵列,所述至少一个杂交阵列包含固定在所述至少一个杂交阵列上的至少一个单链反密码子寡聚物,其中固定在所述至少一个杂交阵列上的所述至少一个单链反密码子寡聚物能够与式(II)分子的编码区杂交:
(II)([(B1)(M-1)—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)(K-1)]W)P
其中
G是寡核苷酸,所述寡核苷酸包含至少两个编码区和至少一个末端编码区,其中所述至少两个编码区是单链的并且所述至少一个末端编码区是单链或双链的;
H1是包含寡核苷酸的发夹结构,其中H1终止于5'端并连接到所述寡核苷酸G的一端;
H2是包含寡核苷酸的发夹结构,其中H2终止于3'端并连接到所述寡核苷酸G的一端;
D是第一结构单元;
E是第二结构单元,其中D和E相同或不同;
B1是位置结构单元并且M表示1至20的整数;
B2是位置结构单元并且K表示1至20的整数,其中B1和B2相同或不同,其中M和K相同或不同;
L1是将H1可操作地连接到D的接头;
L2是将H2可操作地连接到E的接头;
O是0至1的整数;
P是0至1的整数;
条件是O和P中的至少一个是1;
Y是1至5的整数;
W是1至5的整数;并且
其中每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个通过所述编码区之一来鉴定,并且其中第一结构单元D和第二结构单元E中的至少一个通过所述至少一个末端编码区来鉴定;
通过将式(II)分子的子池的编码区与固定在所述至少一个杂交阵列上的至少一个单链反密码子寡聚物杂交,将式(II)分子池分选成子池;
任选地将所述式(II)分子的子池从所述至少一个杂交阵列释放到单独的容器中的步骤;
提供结构单元B1和B2中的至少一个;以及
使所述结构单元B1和B2中的至少一个与所述式(II)分子反应,以形成式(I)分子的子池:
(I)([(B1)M—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)K]W)P,
其中
G是寡核苷酸,所述寡核苷酸包含至少两个编码区和至少一个末端编码区,其中每个编码区是单链的并且所述至少一个末端编码区是单链或双链的;
H1是包含寡核苷酸的发夹结构,其中H1终止于5'端并连接到所述寡核苷酸G的一端;
H2是包含寡核苷酸的发夹结构,其中H2终止于3'端并连接到所述寡核苷酸G的一端;
D是第一结构单元;
E是第二结构单元,其中D和E相同或不同;
B1是位置结构单元并且M表示1至20的整数;
B2是位置结构单元并且K表示1至20的整数,其中B1和B2相同或不同,其中M和K相同或不同;
L1是将H1可操作地连接到D的接头;
L2是将H2可操作地连接到E的接头;
O是0至1的整数;
P是0至1的整数;
条件是O和P中的至少一个是1;
Y是1至5的整数;
W是1至5的整数;并且
其中每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个通过所述编码区之一来鉴定,并且其中第一结构单元D和第二结构单元E中的至少一个通过所述至少一个末端编码区来鉴定。
12.根据权利要求11所述的方法,其中所述式(II)分子通过以下来制备:
提供寡核苷酸池,所述寡核苷酸G'包含至少两个编码区和至少一个末端编码区,其中所述至少两个编码区是单链的,所述至少一个末端编码区是单链的,并且在所述寡核苷酸G'的5'和/或3'端的所述至少一个末端编码区是不同的;
提供至少一个装载体反密码子,所述至少一个装载体反密码子具有式([(B1)(M-1)—D—L1]Y—H1)和/或(H2—[L2—E—(Β2)(K-1)]W);
将所述寡核苷酸G'池与所述至少一个装载体反密码子组合;
将所述至少一个寡核苷酸G'的5'端与H1的3'端键合,和/或将所述至少一个寡核苷酸G'的3'端与H2的5'端键合,以形成式(II)分子池:
(II)([(B1)(M-1)—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)(K-1)]W)P,
其中G、H1、H2、D、E、B1、B2、L1、L2、O、P、Y和W如权利要求11中所定义的,并且M和K是1。
13.根据权利要求11至12中任一项所述的方法,其还包括:
从式(I)或(II)分子的所述至少一个末端编码区去除一部分寡核苷酸。
14.根据权利要求11至13中任一项所述的方法,其还包括:
将H1连接到G和将H2连接到G中的至少一个。
15.根据权利要求11至14中任一项所述的方法,其中G包含由式(CN—(ZN—CN+1)A)表示的序列,其中C是编码区,Z是非编码区,N是1至20的整数,并且A是1至20的整数;
其中每个非编码区含有4至50个核苷酸并且任选是双链的。
16.根据权利要求11至15中任一项所述的方法,其中O或P之一是0。
17.根据权利要求11至16中任一项所述的方法,其中Y和W中的至少一个是1至2的整数。
18.根据权利要求11至17中任一项所述的方法,其中H1和H2中的至少一个包含20至90个核苷酸。
19.根据权利要求11至18中任一项所述的方法,其中P是0,Y是1至2的整数,并且每个编码区含有12至40个核苷酸;或者
O是0,W是1至2的整数,并且每个编码区含有12至40个核苷酸。

说明书全文

寡核苷酸指导和记录的编码探针分子的组合合成

[0001] 交叉引用
[0002] 本申请要求2017年6月16日提交的美国临时申请序列号62/351,046的优先权,所述临时申请通过引用整体并入本文。

技术领域

[0003] 本发明涉及多官能分子,以及这些多官能分子的制备和使用方法。本发明还提供了使用所述多官能分子来鉴定能够结合靶分子或具有其它所需特性如靶分子选择性或细胞渗透性的编码分子的方法。

背景技术

[0004] 基本上有三种方法来发现具有所需功能的分子如药物。它们在自然界中被发现,它们是合理设计的,以及通过试错法(trial and error)找到它们。在许多情况下,试错法可以说是最有希望的,但它可能效率极低。使试错法更有效的关键是创建可以大量合成并针对是否具有所需特性进行测试的分子的组合文库。通过试错法有效发现新分子的需要引起了组合化学领域的兴起。
[0005] 合成并测试组合文库有三个主要问题。首先,许多从组合文库制备探针分子的方法受到可以组装的连续化学亚基或结构单元的类型和数量的限制。其次,许多用于组装连续结构单元的方法受到每个步骤的反应效率的限制。第三,应理解,为了保持效率,应同时测试大量的探针分子是否具有所需特性。还应理解,具有足够多样性的分子形状的文库可能仅具有任何给定分子的几个拷贝。低拷贝数量阻碍了具有所需特性的探针分子的鉴定。因此,每个探针分子都应标记有独一的标识物,以便研究人员能够鉴定到所需的探针分子。
[0006] 研究人员已开发了DNA编码探针分子来解决这些问题中的一些。一些研究人员使用DNA寡核苷酸作为模板来指导组合合成的一个或多个步骤。其他人使用DNA寡核苷酸来记录组合合成并独一地标记探针分子,使得可使用PCR(聚合酶链反应)扩增来鉴定与靶分子保持结合的分子探针。此外,其他研究人员还使用DNA寡核苷酸来指导组合合成的一个或多个步骤,并用独一的标识物标记探针分子。
[0007] 尽管这些方法中的许多取得了成功,但仍存在一些问题。现有方法仍然受到合成探针分子的连续反应步骤的低效率的影响。现有方法也难以检测紧密结合靶分子但以低数量存在的探针分子。这种困难可能导致假阴性。需要一种提高连续反应步骤的反应效率的生产寡核苷酸探针分子的方法。还需要能够鉴定结合靶分子的探针分子,即使这些探针分子可能以低数量存在。

发明内容

[0008] 本公开涉及编码分子。在某些实施方案中,所述编码分子是式(I)的分子,[0009] (I)([(B1)M—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)K]W)P
[0010] 其中
[0011] G是寡核苷酸,所述寡核苷酸包含至少两个编码区和至少一个末端编码区,其中所述至少两个编码区是单链的并且所述至少一个末端编码区是单链或双链的;
[0012] H1是包含寡核苷酸的发夹结构,其中H1终止于5'端并连接到所述寡核苷酸G的一端;
[0013] H2是包含寡核苷酸的发夹结构,其中H2终止于3'端并连接到所述寡核苷酸G的一端;
[0014] D是第一结构单元;
[0015] E是第二结构单元,其中D和E相同或不同;
[0016] B1是位置结构单元并且M表示1至20的整数;
[0017] B2是位置结构单元并且K表示1至20的整数,其中B1和B2相同或不同,其中M和K相同或不同;
[0018] L1是将H1可操作地连接到D的接头;
[0019] L2是将H2可操作地连接到E的接头;
[0020] O是0至1的整数;
[0021] P是0至1的整数;
[0022] 条件是O和P中的至少一个是1;
[0023] Y是1至5的整数;
[0024] W是1至5的整数;并且
[0025] 其中每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个通过所述编码区之一来鉴定,并且其中所述第一结构单元D和第二结构单元E中的至少一个通过所述至少一个末端编码区来鉴定。
[0026] 在式(I)分子的某些实施方案中,G包含由式(CN—(ZN—CN+1)A)表示的序列,其中C是编码区,Z是非编码区,N是1至20的整数,并且A是1至20的整数;其中每个非编码区含有4至50个核苷酸并且任选是双链的。在式(I)分子的某些实施方案中,O或P之一是0。在式(I)分子的某些实施方案中,Y和W中的至少一个是1至2的整数。在式(I)分子的某些实施方案中,每个编码区含有6至50个核苷酸。在式(I)分子的某些实施方案中,H1和H2中的至少一个包含20至90个核苷酸。在式(I)分子的某些实施方案中,每个编码区含有12至40个核苷酸。在式(I)分子的某些实施方案中,P是0,Y是1至2的整数,并且每个编码区含有12至40个核苷酸。在式(I)分子的某些实施方案中,O是0,W是1至2的整数,并且每个编码区含有12至40个核苷酸。
[0027] 本公开涉及一种鉴定能够结合或选择靶分子的探针分子的方法,其包括将所述靶分子暴露于探针分子池,其中所述探针分子是上述式(I)的分子,去除不结合所述靶分子的至少一个探针分子,从未从所述靶分子去除的至少一个探针分子扩增至少一个寡核苷酸G以形成拷贝序列,对所述拷贝序列的至少一个寡核苷酸G进行测序以鉴定所述探针分子的至少两个编码区以进一步鉴定每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个,以及鉴定所述拷贝分子的至少一个末端编码区以进一步鉴定所述探针分子的第一结构单元D和第二结构单元E中的至少一个。
[0028] 本公开涉及一种形成式(I)分子的方法。在某些实施方案中,所述形成式(I)分子的方法包括:
[0029] 提供至少一个杂交阵列,所述至少一个杂交阵列包含固定在所述至少一个杂交阵列上的至少一个单链反密码子寡聚物,其中固定在所述至少一个杂交阵列上的所述至少一个单链反密码子寡聚物能够与式(II)分子的编码区杂交:
[0030] (II)([(B1)(M-1)—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)(K-1)]W)P
[0031] 其中
[0032] G是寡核苷酸,所述寡核苷酸包含至少两个编码区和至少一个末端编码区,其中所述至少两个编码区是单链的并且所述至少一个末端编码区是单链或双链的;
[0033] H1是包含寡核苷酸的发夹结构,其中H1终止于5'端并连接到所述寡核苷酸G的一端;
[0034] H2是包含寡核苷酸的发夹结构,其中H2终止于3'端并连接到所述寡核苷酸G的一端;
[0035] D是第一结构单元;
[0036] E是第二结构单元,其中D和E相同或不同;
[0037] B1是位置结构单元并且M表示1至20的整数;
[0038] B2是位置结构单元并且K表示1至20的整数,其中B1和B2相同或不同,其中M和K相同或不同;
[0039] L1是将H1可操作地连接到D的接头;
[0040] L2是将H2可操作地连接到E的接头;
[0041] O是0至1的整数;
[0042] P是0至1的整数;
[0043] 条件是O和P中的至少一个是1;
[0044] Y是1至5的整数;
[0045] W是1至5的整数;并且
[0046] 其中每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个通过所述编码区之一来鉴定,并且其中所述第一结构单元D和第二结构单元E中的至少一个通过所述至少一个末端编码区来鉴定;
[0047] 通过将式(II)分子的子池的编码区与固定在所述至少一个杂交阵列上的所述至少一个单链反密码子寡聚物杂交,将式(II)分子池分选成子池;
[0048] 任选地将所述式(II)分子的子池从所述至少一个杂交阵列释放到单独的容器中的步骤;
[0049] 提供结构单元B1和B2中的至少一个;以及
[0050] 使所述结构单元B1和B2中的至少一个与所述式(II)分子反应,以形成式(I)分子的子池:
[0051] (I)([(B1)M—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)K]W)P,
[0052] 其中
[0053] G是寡核苷酸,所述寡核苷酸包含至少两个编码区和至少一个末端编码区,其中每个编码区是单链的并且所述至少一个末端编码区是单链或双链的;
[0054] H1是包含寡核苷酸的发夹结构,其中H1终止于5'端并连接到所述寡核苷酸G的一端;
[0055] H2是包含寡核苷酸的发夹结构,其中H2终止于3'端并连接到所述寡核苷酸G的一端;
[0056] D是第一结构单元;
[0057] E是第二结构单元,其中D和E相同或不同;
[0058] B1是位置结构单元并且M表示1至20的整数;
[0059] B2是位置结构单元并且K表示1至20的整数,其中B1和B2相同或不同,其中M和K相同或不同;
[0060] L1是将H1可操作地连接到D的接头;
[0061] L2是将H2可操作地连接到E的接头;
[0062] O是0至1的整数;
[0063] P是0至1的整数;
[0064] 条件是O和P中的至少一个是1;
[0065] Y是1至5的整数;
[0066] W是1至5的整数;并且
[0067] 其中每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个通过所述编码区之一来鉴定,并且其中所述第一结构单元D和第二结构单元E中的至少一个通过所述至少一个末端编码区来鉴定。
[0068] 在形成式(I)分子的方法的某些实施方案中,所述式(II)分子通过以下来制备:
[0069] 提供寡核苷酸池,所述寡核苷酸G'包含至少两个编码区和至少一个末端编码区,其中所述至少两个编码区是单链的,所述至少一个末端编码区是单链的,并且在所述寡核苷酸G'的5'和/或3'端的所述至少一个末端编码区是不同的;
[0070] 提供至少一个装载体反密码子(charged carrier anti-codon),所述至少一个装载体反密码子具有式([(B1)(M-1)—D—L1]Y—H1)和/或(H2—[L2—E—(Β2)(K-1)]W);
[0071] 将所述寡核苷酸G'池与所述至少一个装载体反密码子组合;
[0072] 将至少一个寡核苷酸G'的5'端与H1的3'端键合,和/或将至少一个寡核苷酸G'的3'端与H2的5'端键合,以形成式(II)分子池:
[0073] (II)([(B1)(M-1)—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)(K-1)]W)P,其中G、H1、H2、D、E、B1、B2、L1、L2、O、P、Y和W如上文式(I)中所定义的,并且M和K是1。
[0074] 在形成式(I)分子的方法的某些实施方案中,所述方法还包括从式(I)或(II)分子的至少一个末端编码区去除一部分寡核苷酸。在形成式(I)分子的方法的某些实施方案中,所述方法还包括将H1连接到G和将H2连接到G中的至少一个。在形成式(I)分子的方法的某些实施方案中,G包含由式(CN—(ZN—CN+1)A)表示的序列,其中C是编码区,Z是非编码区,N是1至20的整数,并且A是1至20的整数;其中每个非编码区含有4至50个核苷酸并且任选是双链的。在形成式(I)分子的方法的某些实施方案中,O或P之一是0。在形成式(I)分子的方法的某些实施方案中,Y和W中的至少一个是1至2的整数。在形成式(I)分子的方法的某些实施方案中,H1和H2中的至少一个包含20至90个核苷酸。在形成式(I)分子的方法的某些实施方案中,P是0,Y是1至2的整数,并且每个编码区含有12至40个核苷酸;或者O是0,W是1至2的整数,并且每个编码区含有12至40个核苷酸。附图说明
[0075] 当结合附图阅读时,将更好地理解前述发明内容以及实施方案的以下详细描述。出于说明目的,在附图中示出了一些实施方案,这些实施方案可能是优选的。应理解,所描绘的实施方案不限于所示的精确细节。
[0076] 图1是制备多官能分子的方法的一个实施方案的图示。
[0077] 图2是制备多个多官能分子的方法的一个实施方案的图示。
[0078] 图3是说明形成式(I)分子的方法的一个实施方案的流程图
[0079] 图4是说明形成式(I)分子的方法的一个实施方案的流程图。

具体实施方式

[0080] 除非另有说明,否则所有测量结果均以标准公制单位计。
[0081] 除非另有说明,否则词语“一”或“所述”的所有情况都可以指一个或多于一个被它们所修饰的词语。
[0082] 除非另有说明,否则短语“至少一个”是指一个或多于一个的对象。例如,“H1和H2中的至少一个”是指H1、H2或两者。
[0083] 除非另有说明,否则术语“约”是指所描述并四舍五入到最接近整数的非百分比数的±10%。例如,约100mm将包括90至110mm。除非另有说明,否则术语“约”是指百分数的±5%。例如,约20%将包括15%至25%。当关于范围讨论术语“约”时,则该术语是指小于下限且大于上限的适当量。例如,约100至约200mm将包括90至220mm。
[0084] 除非另有说明,否则术语“杂交”和“杂交的”包括Watson-Crick配对,其对于DNA来说包括嘌呤-胞嘧啶和腺嘌呤-胸腺嘧啶(G-C和A-T)配对,以及对于RNA来说包括鸟嘌呤-胞嘧啶和腺嘌呤-尿嘧啶(G-C和A-U)配对。对于称为反密码子或反编码区的核苷酸互补链,这些术语用于核苷酸链选择性识别的情形。
[0085] 短语“选择性杂交”和“选择性分选”是指互补链相对于非互补链的选择性为5:1至100:1以上。
[0086] 术语“多官能分子”是指含有寡核苷酸和至少一个编码部分的本公开的分子。
[0087] 术语“编码部分”是指多官能分子的一个或多个部分,其仅含有结构单元,例如第一结构单元、第二结构单元和位置结构单元B1和B2。术语“编码部分”不包括发夹结构或接头,即使这些结构可以作为编码部分的合成过程的一部分添加。
[0088] 术语“编码分子”是指在多官能分子的编码部分从多官能分子的其余部分去除或分离时会形成或形成的分子。
[0089] 术语“探针分子”是指用于确定多官能分子的哪个编码部分或哪个编码分子能够结合靶分子或选择所需特性如靶分子选择性或细胞渗透性的分子。
[0090] 术语“靶分子”是指分子或结构。例如,结构包括多聚大分子复合物,例如核糖体和脂质体。
[0091] 术语“探针分子”可包括多官能分子。
[0092] 术语“编码探针分子”可与术语多官能分子互换使用。
[0093] 术语“多重显示(polydisplay)”是指具有至少两个编码部分的多官能分子。
[0094] 在本公开中,分子式中的连字符或短划线表示该式的各部分通过共价键或杂交彼此直接连接。
[0095] 除非另有说明,否则核苷酸和整数值的所有范围都包括所有中间整数以及端点。例如,5至10个寡核苷酸的范围应理解为包括5、6、7、8、9和10个核苷酸。
[0096] 在某些实施方案中,本公开涉及含有至少一个寡核苷酸部分和至少一个编码部分的多官能分子,其中所述寡核苷酸部分使用组合化学指导或编码所述至少一个编码部分的合成。在某些实施方案中,多官能分子的寡核苷酸部分可以鉴定多官能分子的至少一个编码部分。在某些实施方案中,多官能分子含有连接到多官能分子的至少一端的发夹结构,其中发夹结构允许多官能分子的多个编码部分的多重显示。不希望受理论束缚,据信多个编码部分的多重显示允许本公开的多官能分子更有效地选择为具有所需特性,即使多官能分子可以低数量、低浓度、相对于其它探针分子的低相对浓度存在,或具有较小程度的所需特性。在某些实施方案中,本公开的多官能分子含有至少一个寡核苷酸或寡核苷酸部分,所述寡核苷酸或寡核苷酸部分含有至少两个编码区和至少一个末端编码区,其中所述至少两个编码区和至少一个末端编码区对应于并且可用于鉴定编码部分中的结构单元的序列。在某些实施方案中,可以通过PCR扩增至少一个寡核苷酸或寡核苷酸部分以产生至少一个寡核苷酸或寡核苷酸部分的拷贝,并且可以对原始物或拷贝进行测序以确定多官能分子的至少两个编码区和至少一个末端编码区的身份。在某些实施方案中,至少两个编码区和至少一个末端编码区的身份可以与用于合成PCR拷贝所对应的多官能分子的编码部分的组合化学步骤系列相关。
[0097] 在某些实施方案中,本公开还涉及形成多官能分子的方法,以及将靶分子暴露于多官能分子以鉴定哪个编码部分以及因此哪个编码分子表现出所需特性的方法,所述特性包括但不限于结合一种或多种靶分子的能,不结合其它抗靶标分子的能力,抵抗由酶造成的化学变化的能力,易于被酶化学改变的能力,具有溶性程度的能力以及可细胞渗透的能力。
[0098] 在某些实施方案中,所述式(I)分子是多官能分子。在式(I)分子的某些实施方案中,G是指导或选择用于编码部分合成的寡核苷酸。在式(I)分子的某些实施方案中,(B1)M—D和E—(Β2)K各自表示编码部分。在式(I)分子的某些实施方案中,所述分子含有寡核苷酸部分和至少一个编码部分。应理解,本文在指导或编码式(I)分子的至少一个编码部分的合成方面讨论了寡核苷酸G的许多结构特征。应理解,在寡核苷酸G或其PCR拷贝鉴定用于制备式(I)分子的合成步骤以及因此结构单元的序列和/或身份和用于形成式(I)分子的编码部分的化学反应的能力方面讨论了式(I)分子的寡核苷酸G的许多结构特征。
[0099] 在式(I)分子的某些实施方案中,G包括寡核苷酸或者是寡核苷酸。在某些实施方案中,所述寡核苷酸含有至少两个编码区,其中约1%至约100%,包括约50%至约100%,包括约90%至约100%的编码区是单链的。在某些实施方案中,寡核苷酸G含有至少一个末端编码区,其中一个或两个末端编码区是单链的。在某些实施方案中,寡核苷酸G含有至少一个末端编码区,其中一个或两个末端编码区是双链的。
[0100] 在式(I)分子的某些实施方案中,寡核苷酸G含有至少两个编码区,包括2至约21个编码区,包括3至10个编码区,包括3至5个编码区。在某些实施方案中,如果编码区的数量低于2,则可以合成的可能编码部分的数量变得太小而不实用。在某些实施方案中,如果编码区的数量超过20,则合成效率低下干扰了准确合成。
[0101] 在式(I)分子的某些实施方案中,至少两个编码区含有约6至约50个核苷酸,包括约12至约40个核苷酸,包括约8至约30个核苷酸。在某些实施方案中,如果编码区含有少于约6个核苷酸,则编码区不能准确地指导编码部分的合成。在某些实施方案中,如果编码区含有超过约50个核苷酸,则编码区可以变得具有交叉反应性。这种交叉反应性会干扰编码区准确地指导和鉴定用于合成式(I)分子的编码部分的合成步骤的能力。
[0102] 在式(I)分子的某些实施方案中,寡核苷酸G的目的是通过与互补的反编码链选择性杂交来指导式(I)分子的至少一个编码部分的合成。在某些实施方案中,编码区是单链的以促进与互补链的杂交。在某些实施方案中,70%至100%,包括80%至99%,包括80%至95%的编码区是单链的。应理解,编码区的互补链(如果存在的话)可以在合成期间编码式(I)分子的编码部分的步骤之后添加。
[0103] 在某些实施方案中,寡核苷酸可含有天然和非天然的核苷酸。合适的核苷酸包括DNA(脱核糖核酸)的天然核苷酸,包括腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T),以及RNA(核糖核酸)的天然核苷酸,包括腺嘌呤(A)、尿嘧啶(U)、鸟嘌呤(G)和胞嘧啶(C)。其它合适的碱基包括天然碱基,例如脱氧腺苷、脱氧胸苷、脱氧鸟苷、脱氧胞苷、肌苷、二基嘌呤;碱基类似物,例如2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、C5-丙炔基胞苷、C5-丙炔基尿苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-甲基胞苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤、4-((3-(2-(2-(3-氨基丙氧基)乙氧基)乙氧基)丙基)氨基)嘧啶-2(1H)-、4-氨基-5-(庚-1,5-二炔-1-基)嘧啶-2(1H)-酮、6-甲基-3,7-二氢-2H-吡咯并[2,3-d]嘧啶-2-酮、3H-苯并[b]嘧啶并[4,5-e][1,4] 嗪-2(10H)-酮和2-硫代胞苷;修饰核苷酸,例如2'-取代核苷酸,包括2'-O-甲基化碱基和2'-氟碱基;和修饰糖,例如2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖;和/或修饰磷酸酯基团,例如硫代磷酸酯和5'-N-亚磷酰胺键。应理解,寡核苷酸是核苷酸的聚合物。术语“聚合物”和“寡聚物”在本文中可互换使用。在某些实施方案中,寡核苷酸不一定含有连续碱基。在某些实施方案中,寡核苷酸可以散布有接头部分或非核苷酸分子。
[0104] 在式(I)分子的某些实施方案中,寡核苷酸G含有约60%至100%,包括约80%至99%,包括约80%至95%DNA核苷酸。在某些实施方案中,寡核苷酸含有约60%至100%,包括约80%至99%,包括约80%至95%RNA核苷酸。
[0105] 在式(I)分子的某些实施方案中,寡核苷酸G含有至少两个编码区,其中至少两个编码区重叠以共同延伸,条件是重叠的编码区仅共用约30%至1%,包括约20%至1%,包括约10%至2%的相同核苷酸。在式(I)分子的某些实施方案中,除了末端编码区之外,寡核苷酸G中约40%至100%,包括约60%至100%,包括约80%至100%是单链的。在式(I)分子的某些实施方案中,寡核苷酸G含有至少两个编码区,其中至少两个编码区是相邻的。在式(I)分子的某些实施方案中,寡核苷酸G含有至少两个编码区,其中至少两个编码区由不指导或记录式(I)分子的编码部分合成的核苷酸区域隔开。
[0106] 术语“非编码区”当存在时是指不能与核苷酸的互补链杂交以指导式(I)分子的编码部分的合成或者不对应于用于在合成期间分选式(I)分子的任何反编码寡核苷酸的寡核苷酸区域。在某些实施方案中,非编码区是任选的。在某些实施方案中,寡核苷酸含有1至约20个非编码区,包括2至约9个非编码区,包括2至约4个非编码区。在某些实施方案中,非编码区含有约4至约50个核苷酸,包括约12至约40个核苷酸,以及包括约8至约30个核苷酸。
[0107] 在式(I)分子的某些实施方案中,非编码区的一个目的是将编码区隔开以避免或减少交叉杂交,因为交叉杂交会干扰式(I)分子的编码部分的准确编码。在某些实施方案中,非编码区的一个目的是向式(I)分子添加除了仅仅杂交或编码之外的功能。在某些实施方案中,一个或多个非编码区可以是用标记物如荧光标记物或放射性标记物修饰的寡核苷酸区域。这些标记物可以促进式(I)分子的可视化或量化。在某些实施方案中,一个或多个非编码区用促进加工的官能团或系链修饰。在某些实施方案中,一个或多个非编码区是双链的,这减少了交叉杂交。在某些实施方案中,应理解,非编码区是任选的。在某些实施方案中,合适的非编码区不会干扰寡核苷酸的PCR扩增。
[0108] 在某些实施方案中,编码区或末端编码区中的一个或多个可以是用标记物如荧光标记物或放射性标记物修饰的寡核苷酸G的区域。这些标记物可以促进式(I)分子的可视化或量化。在某些实施方案中,编码区或末端编码区中的一个或多个用促进加工的官能团或系链修饰。
[0109] 在式(I)分子的某些实施方案中,G包括由式(CN—(ZN—CN+1)A)表示的序列,其中C是编码区,Z是非编码区,N是1至20的整数,并且A是1至20的整数。在某些实施方案中,约70%至100%,包括约80%至99%,包括约80%至95%的非编码区含有4至50个核苷酸。在某些实施方案中,G包括约70%至100%,包括约80%至99%,包括约80%至95%的非编码区是双链的。
[0110] 在式(I)分子的某些实施方案中,寡核苷酸含有至少一个,包括一至两个末端编码区。在某些实施方案中,末端编码区是不直接结合发夹结构并终止于5'端或3'端的核苷酸序列。在某些实施方案中,末端编码区是直接结合发夹结构的核苷酸序列。应理解,基于核苷酸的潜在取向,寡核苷酸将具有5'和3'方向,即使寡核苷酸的两端都被发夹结构结合。
[0111] 在某些实施方案中,末端编码区的一个目的是在式(I)分子的合成期间促进含有互补序列的发夹结构与寡核苷酸的末端的选择性杂交。在某些实施方案中,末端编码区含有约6至约50个核苷酸,包括约12至约40个核苷酸,以及包括约8至约30个核苷酸。在某些实施方案中,如果末端编码区含有少于约6个核苷酸,则可用的非交叉反应性序列的数量太少,这会干扰式(I)分子的编码部分的准确编码。在某些实施方案中,如果末端编码区含有超过约50个核苷酸,则末端编码区可能变得具有交叉反应性并且失去太多的特异性以致于不能选择性地仅与一个发夹结构杂交。这种交叉反应性会干扰编码区准确编码第一结构单元D和/或第二结构单元E添加的能力。在式(I)分子的某些实施方案中,末端编码区是单链或双链的。
[0112] 在式(I)分子的某些实施方案中,H1和H2各自独立地是发夹结构。如本公开中所用的术语“发夹结构”是指以质量百分比计含有60%至100%核苷酸并且可以与寡核苷酸G的末端编码区杂交的分子结构。在发夹结构的某些实施方案中,发夹结构形成单个连续的聚合物链,并且含有至少一个重叠部分(通常称为“茎”),其中重叠部分含有与同一发夹结构的互补序列杂交的核苷酸序列。在发夹结构的某些实施方案中,桥结构连接两个独立的寡核苷酸链;所述桥结构可以包含2至20个PEG单元的聚乙二醇(PEG)聚合物,包括3至15个PEG单元,包括6至12个PEG单元。在发夹结构的某些实施方案中,桥结构可以包含至多30个的烷链或至多20个单元的聚甘氨酸链,或者包含带有反应性官能团的一些其它链。在式(I)分子的某些实施方案中,H1和/或H2的重叠部分结合或连接到寡核苷酸G的末端编码区。在某些实施方案中,H1和H2各自独立地含有一个、两个、三个或四个环。
[0113] 在式(I)分子的某些实施方案中,H1和H2各自独立地包括约20至约90个核苷酸,包括约32至约80个核苷酸,包括约45至约80个核苷酸。在某些实施方案中,H1和H2各自独立地含有1、2、3、4、5、6、7、8、9或10个,包括1至5个,包括2至4个,包括2至3个用合适的官能团修饰以促进与接头分子或任选地与结构单元反应的核苷酸,包括如下情况,其中H1和H2各自独立地使用碱基来合成,所述碱基如但不限于5'-二甲氧基三苯甲基-5-乙炔基-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为5-乙炔基-dU-CE亚磷酰胺,购自Glen Research,Sterling VA)。在某些实施方案中,H1和H2各自独立地包括具有合适的官能团以促进与接头分子或任选地与结构单元反应的非核苷酸,包括但不限于3-二甲氧基三苯甲基氧基-2-(3-(5-己炔酰胺基)丙酰胺基)丙基-1-O-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为炔烃修饰剂丝氨醇亚磷酰胺,来自Glen Research,Sterling VA),和无碱基炔烃CEP(来自IBA GmbH,Goettingen,Germany)。在某些实施方案中,H1和H2各自独立地包括具有已带有接头的修饰碱基的核苷酸,例如H1和H2各自独立地可使用碱基来合成,所述碱基如但不限于5'-二甲氧基三苯甲基-N6-苯甲酰基-N8-[6-(三氟乙酰基氨基)-己-1-基]-8-氨基-2'-脱氧腺苷-3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为氨基修饰剂C6dA,购自Glen Research,Sterling VA),5'-二甲氧基三苯甲基-N2-[6-(三氟乙酰基氨基)-己-1-基]-2'-脱氧鸟苷-3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为氨基修饰剂C6dG,购自Glen Research,Sterling,VA),5'-二甲氧基三苯甲基-5-[3-甲基-丙烯酸酯]-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为羧基dT,购自Glen Research,Sterling VA),5'-二甲氧基三苯甲基-5-N-((9-芴基甲氧基羰基)-氨基己基)-3-丙烯酰亚胺基]-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为Fmoc-氨基修饰剂C6dT,Glen Research,Sterling,VA),5'-二甲氧基三苯甲基-5-(辛-1,7-二炔基)-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为C8炔烃dT,Glen Research,Sterling VA),5'-(4,4'-二甲氧基三苯甲基)-5-[N-(6-(3-苯甲酰基硫代丙酰基)-氨基己基)-3-丙烯酰胺基]-2'脱氧尿苷,3'-[(2-氰基乙基)-(Ν,Ν-二异丙基)]-亚磷酰胺(也称为S-Bz-硫醇修饰剂C6-dT,Glen Research,Sterling VA)和5-羧基dC CEP(来自IBA GmbH,Goettingen,Germany),N4-TriGl-氨基2'脱氧胞苷(来自IBA GmbH,Goettingen,Germany)。适用于H1和H2中的修饰核苷酸和非核苷酸的官能团包括但不限于伯胺,仲胺,羧酸,伯醇,酯,硫醇,异氰酸酯,氯甲酸酯,磺酰氯,硫代碳酸酯,杂芳基卤化物,,氯乙酸酯,芳基卤化物,卤化物,酸,炔烃,叠氮化物和烯烃。
[0114] 在某些实施方案中,发夹结构H1和H2中的一个或多个可以用标记物如荧光标记物或放射性标记物修饰。这些标记物可以促进式(I)分子的可视化或量化。在某些实施方案中,发夹结构H1和H2中的一个或多个用促进加工的官能团或系链修饰。
[0115] 在式(I)分子的某些实施方案中,H1和H2的发夹结构的益处在于,一个或两个可以允许在式(I)分子的一端或两端的多个编码部分的多重显示。不希望受理论束缚,据信在本公开的多官能分子的一端或两端的多个编码部分的多重显示在某些条件下提供改进的选择特性。
[0116] 在式(I)分子的某些实施方案中,Y和W各自独立地是1、2、3、4或5。在某些实施方案中,如果O是0,则W是2-5的整数,包括2、3、4或5。在某些实施方案中,如果P是0,则Y是2-5的整数,包括2、3、4或5。在某些实施方案中,如果O和P各自是1,则W和Y各自独立地是1-5的整数,包括1、2、3、4或5。在某些实施方案中,W和Y各自独立地是式(I)分子的编码部分的多重显示的量度或指示,其中所述编码部分应理解为单元(B1)M—D和E—(Β2)K。一般来说,Y和W的聚集值越高,式(I)分子的多重显示越高。
[0117] 在式(I)分子的某些实施方案中,D是第一结构单元。在某些实施方案中,当存在D时,D由直接连接到H1的G的末端编码区编码或被直接连接到H1的G的末端编码区选择。在某些实施方案中,最靠近D定位的G的末端编码区对应于并且可用于鉴定第一结构单元D。
[0118] 在式(I)分子的某些实施方案中,E是第二结构单元。在某些实施方案中,当存在E时,E由直接连接到H2的G的末端编码区编码或被直接连接到H2的G的末端编码区选择。在某些实施方案中,最靠近E定位的G的末端编码区对应于并且可用于鉴定第一结构单元E。在某些实施方案中,第一结构单元D和第二结构单元E可以相同或不同。应理解,第一结构单元和第二结构单元都是结构单元。
[0119] 在式(I)分子的某些实施方案中,B表示位置结构单元。如本公开中所用的短语“位置结构单元”是指结合在一起作为形成较大分子的亚基的一系列单独结构单元中的一个单元。在某些实施方案中,(B1)M和(Β2)K各自独立地表示结合在一起以分别形成具有M和K数量的单元的聚合物链的一系列单独结构单元。例如,其中M是10,则(B)10是指以下结构单元链:B10—B9—B8—B7—B6—B5—B4—B3—B2—B1。例如,在M是3并且K是2的情况下,则式(I)可以精确地由下式表示:
[0120] ([((B1)3—(B1)2—(B1)1—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)1—(B2)2]W)P。
[0121] 应理解,M和K各自独立地充当B的每个单独单元的位置标识物。
[0122] 本公开中的术语“结构单元”的准确定义取决于其上下文。“结构单元”是能够与其它化学结构单元化学连接的化学结构单元。在某些实施方案中,结构单元具有一个、两个或更多个反应性化学基团,其允许结构单元进行将结构单元与其它化学结构单元连接起来的化学反应。应理解,当结构单元经历反应形成化学键时,结构单元的部分或全部的反应性化学基团可能会丢失。例如,溶液中的结构单元可具有两个反应性化学基团。在该实例中,溶液中的结构单元可以与作为结构单元链的一部分的结构单元的反应性化学基团反应,以增加链的长度,或从链延伸分支。当在溶液的上下文中或作为反应物提及结构单元时,则结构单元将被理解为含有至少一个反应性化学基团,但可含有两个或更多个反应性化学基团。当在聚合物、寡聚物或大于结构单元本身的分子的上下文中提及结构单元时,则结构单元将被理解为具有作为较大分子的(单体)单元的结构单元的结构,即使一个或多个化学反应性基团已经反应。
[0123] 可以用作结构单元的分子或化合物的类型通常不受限制,只要一个结构单元能够与另一个结构单元一起反应以形成共价键即可。在某些实施方案中,结构单元具有一个化学反应性基团以充当末端单元。在某些实施方案中,结构单元具有1、2、3、4、5或6个合适的反应性化学基团。在某些实施方案中,第一结构单元D、第二结构单元E和位置结构单元B各自独立地具有1、2、3、4、5或6个合适的的反应性化学基团。适用于结构单元的反应性化学基团包括伯胺,仲胺,羧酸,伯醇,酯,硫醇,异氰酸酯,氯甲酸酯,磺酰氯,硫代碳酸酯,杂芳基卤化物,醛,卤代乙酸酯,芳基卤化物,叠氮化物,卤化物,三氟甲磺酸酯,二烯,亲二烯体,硼酸,炔烃和烯烃。
[0124] 任何偶联化学可用于连接结构单元,只要偶联化学与寡核苷酸的存在相容即可。示例性的偶联化学包括通过胺(例如DNA连接的胺)与Fmoc保护的氨基酸或其它各种取代羧酸的反应形成酰胺;通过胺(包括DNA连接的胺)与异氰酸酯和另一种胺的反应(脲化)形成脲;通过胺(包括DNA连接的胺)与氯甲酸酯(氨基甲酰化)和醇的反应形成氨基甲酸酯;通过胺(包括DNA连接的胺)与磺酰氯的反应形成磺酰胺;通过胺(包括DNA连接的胺)与硫代碳酸酯和另一种胺的反应(硫脲化)形成硫脲;通过胺(包括DNA连接的胺)与杂芳基卤化物(SNAr)的反应形成苯胺;通过胺(包括DNA连接的胺)与醛的反应,然后还原(还原胺化),形成仲胺;通过用氯乙酸酯将胺(包括DNA连接的胺)酰化,然后用另一种胺置换氯化物(SN2反应),形成类肽(peptoid);通过用被芳基卤化物取代的羧酸将胺(包括DNA连接的胺)酰化,然后用取代炔烃置换卤化物(Sonogashira反应),形成含炔化合物;通过用芳基卤化物取代的羧酸将胺(包括DNA连接的胺)酰化,然后用取代硼酸置换卤化物(Suzuki反应),形成联芳基化合物;通过胺(包括DNA连接的胺)与氰尿酰氯反应,然后与另一种胺、酚或硫醇反应(氰脲酰化、芳香取代),形成取代的三嗪;通过用被适当的离去基团如卤素或三氟甲磺酸酯基团取代的羧酸将胺(包括DNA连接的胺)酰化,然后用另一种胺置换离去基团(SN2/SN1反应),形成仲胺;以及通过用带有烯烃或炔烃的化合物取代胺并使产物与叠氮化物或烯烃反应(Diehls-Alder和Huisgen反应),形成环状化合物。在反应的某些实施方案中,与胺基反应的分子,包括伯胺、仲胺、羧酸、伯醇、酯、硫醇、异氰酸酯、氯甲酸酯、磺酰氯、硫代碳酸酯、杂芳基卤化物、醛、氯乙酸酯、芳基卤化物、烯烃、卤化物、硼酸、炔烃和烯烃,其分子量为约30至约330道尔顿。
[0125] 在偶联反应的某些实施方案中,可以通过使用任何上述化学用带有二级反应性基团的分子如胺、硫醇、卤化物、硼酸、炔烃或烯烃取代胺(包括DNA连接的胺)来添加第一结构单元。然后,所述二级反应性基团可以与带有适当反应性基团的结构单元反应。示例性的二级反应性基团偶联化学包括用Fmoc-氨基酸将胺(包括DNA连接的胺)酰化,然后去除保护基团并用醛和硼氢化物将最新脱保护的胺还原胺化;用醛和硼氢化物将胺(包括DNA连接的胺)还原胺化,然后使由此变成取代的胺与氰尿酰氯反应,然后用硫醇、苯酚或另一种胺从三嗪中置换另一种氯化物;用被杂芳基卤化物取代的羧酸将胺(包括DNA连接的胺)酰化,然后与另一种胺或硫醇进行SNAr反应以置换卤化物并形成苯胺或硫醚;以及用被卤代芳族基团取代的羧酸将胺(包括DNA连接的胺)酰化,然后在Sonogashira反应中用炔烃取代卤化物;或在硼酸酯介导的Suzuki反应中用芳基基团取代卤化物。
[0126] 在某些实施方案中,偶联化学是基于本领域已知的合适的成键反应。参见例如March,Advanced Organic Chemistry(高等有机化学),第四版,纽约:John Wiley and Sons(1992),第10至16章;Carey和Sundberg,Advanced Organic Chemistry(高等有机化学),第B部分,Plenum(1990),第1-11章;以及Coltman等,Principles and Applications of Organotransition Metal Chemistry(有机过渡金属化学的原理与应用),University Science Books(大学科学书籍),加利福尼亚州米尔谷(1987),第13至20章;其各自通过引用整体并入本文。
[0127] 在某些实施方案中,除了用于连接结构单元的一个或多个反应性基团之外,结构单元还可包括一个或多个官能团。可以保护这些另外的官能团中的一个或多个以防止这些官能团的不希望的反应。本领域已知适用于各种官能团的保护基团(Greene和Wuts,Protective Groups in Organic Synthesis(有机合成中的保护基团),第二版,纽约:John Wiley and Sons(1991),其通过引用整体并入本文)。特别有用的保护基团包括叔丁基酯和醚,缩醛,三苯甲基醚和胺,乙酰基酯,三甲基甲烷基醚,三氯乙基醚和酯和氨基甲酸酯。
[0128] 结构单元的类型通常不受限制,只要结构单元可与能够和其它结构单元形成共价键的一个或多个反应性基团相容即可。合适的结构单元包括但不限于肽,糖类,糖脂,脂质,蛋白多糖,糖肽,磺酰胺,核蛋白,脲,氨基甲酸酯,插烯多肽(vinylogous polypeptide),酰胺,插烯磺酰胺肽,酯,糖类,碳酸酯,肽基膦酸酯,多酰基酰肼(azatide),类肽(寡聚N取代甘氨酸),醚,乙氧基甲缩醛寡聚物,硫醚,乙烯,乙二醇,二硫化物,亚芳基硫化物,核苷酸,吗啉,亚胺,吡咯烷酮,乙烯亚胺,乙酸酯,苯乙烯,乙炔,乙烯基,磷脂,硅氧烷,异氰化物,异氰酸酯和甲基丙烯酸酯。在某些实施方案中,式(I)的(B1)M或(Β2)K各自独立地分别表示具有M或K个单元的这些结构单元的聚合物,包括多肽,多糖,聚糖脂,聚脂质,多聚蛋白聚糖,聚糖肽,聚磺酰胺,多核蛋白,聚脲,聚氨基甲酸酯,聚插烯多肽,聚酰胺,聚插烯磺酰胺肽,聚酯,多糖,聚碳酸酯,聚肽基膦酸酯,聚多酰基酰肼,聚类肽(寡聚N取代甘氨酸),聚醚,聚乙氧基缩甲醛寡聚物,聚硫醚,聚乙烯,聚乙二醇,聚二硫化物,聚芳硫醚,多核苷酸,聚吗啉,聚亚胺,聚吡咯烷酮,聚乙烯亚胺,聚乙酸酯,聚苯乙烯,聚乙炔,聚乙烯,聚磷脂,聚硅氧烷,聚异氰化物,聚异氰酸酯和聚甲基丙烯酸酯。在式(I)分子的某些实施方案中,约50%至约100%,包括约60%至约95%,以及包括约70%至约90%的结构单元具有约30至约500道尔顿,包括约40至约350道尔顿,包括约50至约200道尔顿的分子量。
[0129] 应理解,具有两个反应性基团的结构单元将形成线性寡聚或聚合结构,或线性非聚合分子,其含有每个结构单元作为单元。还应理解,具有三个或更多个反应性基团的结构单元可以形成在每个具有三个或更多个反应性基团的结构单元处具有分支的分子。
[0130] 在式(I)分子的某些实施方案中,L1和L2各自独立地表示接头。术语“接头分子”是指能够反应形成接头的具有两个或更多个反应性基团的分子。术语“接头”是指将发夹结构可操作地连接或共价键合到结构单元的分子部分。术语“可操作地连接”是指两个或更多个化学结构以这样的方式连接或共价键合在一起,以便在多官能分子预期经历的各种操作(包括PCR扩增)中保持连接。
[0131] 在式(I)分子的某些实施方案中,L1是将H1可操作地连接到D的接头。在式(I)分子的某些实施方案中,L2是将H2可操作地连接到E的接头。在某些实施方案中,L1和L2各自独立地是通过使L1的一个反应性官能团与H1的反应性基团反应和使L1的另一反应性官能团与D的反应性官能团反应而将H1与D连接以及通过使L2的一个反应性官能团与H2的反应性基团反应和使L2的另一反应性官能团与E的反应性官能团反应而将H2与E连接的双官能分子。在式(I)分子的某些实施方案中,L1和L2各自独立地是通过使H1和D或H2和E的化学反应性基团与市售接头分子反应而形成的接头,所述市售接头分子包括PEG(例如,叠氮基-PEG-NHS,或叠氮基-PEG-胺,或二叠氮基-PEG),或烷烃酸链部分(例如,5-叠氮基戊酸、(S)-2-(叠氮基甲基)-1-Boc-吡咯烷、4-叠氮基苯胺或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯);硫醇反应性接头,例如作为PEG的那些(例如,SM(PEG)n NHS-PEG-来酰亚胺),烷烃链(例如,3-(吡啶-2-基二硫基)-丙酸-Osu或6-(3'-[2-吡啶基二硫代]-丙酰胺基)己酸磺基琥珀酰亚胺酯));以及用于寡核苷酸合成的亚酰胺(amidite),例如氨基修饰剂(例如,6-(三氟乙酰基氨基)-己基-(2-氰基乙基)-(N,N-二异丙基)-亚磷酰胺),硫醇修饰剂(例如,5-三苯甲基-6-巯基己基-1-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺,或化学共反应对修饰剂(例如,6-己炔-1-基-(2-氰基乙基)-(N,N-二异丙基)-亚磷酰胺,3-二甲氧基三苯甲基氧基-2-(3-(3-炔丙基氧基丙酰胺基)丙酰胺基)丙基-1-O-琥珀酰基,长链烷基氨基CPG,或4-叠氮基-丁-1-酸N-羟基琥珀酰亚胺酯));以及其相容性组合。
[0132] 在某些实施方案中,所述多官能分子是式(I-A)分子,其是式(I)分子的亚种:
[0133] (I-A)[(B1)M—D—L1]Y—H1—G,
[0134] 其中G、H1、D、B1、M、L1和Y如上文关于式(I)所定义的。在某些实施方案中,所述多官能分子是式(I-B)分子,其是式(I)分子的亚种:
[0135] (I-B)[(B1)M—D—L1]Y—H1—G—H2,
[0136] 其中G、H1、H2、D、B1、M、L1和Y如上文关于式(I)所定义的。在某些实施方案中,所述多官能分子是式(I-C)分子,其是式(I)分子的亚种:
[0137] (I-C)[(B1)M—D—L1]Y—H1—G—H2—[L2]W,
[0138] 其中G、H1、H2、D、B1、M、L1、L2、W和Y如上文关于式(I)所定义的。在某些实施方案中,所述多官能分子是式(I-D)分子,其是式(I)分子的亚种:
[0139] (I-D)[(B1)M—D—L1]Y—H1—G—H2—[L2—E]W,
[0140] 其中G、H1、H2、D、B1、E、M、L1、L2、W和Y如上文关于式(I)所定义的。在某些实施方案中,所述多官能分子是式(I-E)分子,其是式(I)分子的亚种:
[0141] (I-E)G—H2—[L2—E—(B2)K]W,
[0142] 其中G、H2、E、B2、K、L2和W如上文关于式(I)所定义的。在某些实施方案中,所述多官能分子是式(I-F)分子,其是式(I)分子的亚种:
[0143] (I-F)H1—G—H2—[L2—E—(B2)K]W
[0144] G、H1、H2、E、B2、K、L2、P和W如上文关于式(I)所定义的。在某些实施方案中,所述多官能分子是式(I-G)分子,其是式(I)分子的亚种:
[0145] (I-G)[L1]Y—H1—G—H2—[L2—E—(B2)K]W,
[0146] 其中G、H1、H2、E、B2、K、L1、L2、Y和W如上文关于式(I)所定义的。在某些实施方案中,所述多官能分子是式(I-H)分子,其是式(I)分子的亚种:
[0147] (I-H)[D—L1]Y—H1—G—H2—[L2—E—(B2)K]W,
[0148] 其中G、H1、H2、D、E、B、M、L1、L2、P、Y和W如上文关于式(I)所定义的。
[0149] 本公开涉及合成多官能分子的方法,所述多官能分子包括式(I)分子。在所述方法的某些实施方案中,寡核苷酸例如G'上的至少一个末端编码区能够与至少一个装载体反密码子杂交,所述装载体反密码子包括:
[0150] [(B1)(M-1)—D—L1]Y—H1和/或H2—[L2—E—(B2)(K-1)]W,
[0151] 以形成式(II)分子:
[0152] (II)([(B1)(M-1)—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)(K-1)]W)P,
[0153] 其中B1、M、D、L1、Y、H1、O、H2、L2、E、B2、K、W和P如上文关于式(I)所定义的,并且G'是包含至少两个编码区和至少一个末端编码区的寡核苷酸或含有包含至少两个编码区和至少一个末端编码区的寡核苷酸,其中所述至少两个编码区是单链的,所述至少一个末端编码区是单链的,并且在寡核苷酸G'的5'和/或3'端的至少一个末端编码区是不同的。
[0154] 应理解,[(B1)(M-1)—D—L1]Y—H1是(D—L1)Y—H1,其中M是1。应理解,H2—[L2—E—(B2)(K-1)]W是H2—(L2—E)W,其中K是1。
[0155] 如图1和图3所示,在某些实施方案中,形成式(II)分子的这种方法的益处在于,G'的末端编码区可以编码或指导分子的编码部分的第一部分(包括第一结构单元D和/或第二结构单元E)的添加。例如,式(I)分子中的每个末端编码区将独一地鉴定第一结构单元D和/或第二结构单元E,因为能够选择性地与末端编码区杂交的装载体反密码子的第一结构单元D和/或第二结构单元E的身份是已知的。
[0156] 如图2所示,在合成式(I)分子的方法的某些实施方案中,所述方法使用一系列“分选和反应”步骤,其中通过多官能分子的一个或多个编码区与固定在杂交阵列上的反编码寡聚物的选择性杂交将含有编码区的不同组合的多官能分子的混合物分选成子池。在所述方法的某些实施方案中,将多官能分子分选成子池的益处在于,该分离允许每个子池与位置结构单元B(包括B1和/或B2)在单独的反应条件下反应,然后将多官能分子的子池合并或混合用于进一步化学加工。在所述方法的某些实施方案中,可以重复该分选和反应过程以添加一系列位置结构单元。在所述方法的某些实施方案中,使用分选和反应方法添加结构单元的益处在于,分子的编码部分的每个位置结构单元的身份可以与在添加结构单元之前用于选择性地分离或分选多官能分子的编码区相关。在某些实施方案中,每个编码区根据其位置独一地鉴定结构单元,因为编码区的身份可以与用于添加每个结构单元的反应过程的身份(其将包括添加的位置结构单元的身份)相关。在某些实施方案中,所述方法可以合成多官能分子,包括式(I)分子,其中第一结构单元D和第二结构单元E中的至少一个通过至少一个末端编码区来鉴定或对应于至少一个末端编码区,并且每个在位置M处的位置结构单元B1和在位置K处的位置结构单元B2中的至少一个通过一个编码区来鉴定或对应于一个编码区。应理解,式(I)和(II)的分子可以包括一个或多个编码区和末端编码区,它们在池中的不同分子之间是相同的,但是也应理解,池中的绝大多数(若非全部)分子都具有编码区和末端编码区的不同组合。在所述方法的某些实施方案中,具有编码区和末端编码区的不同组合的分子池的益处在于,不同组合可以编码具有多个不同编码部分的多官能分子。
[0157] 在合成式(I)分子的方法的某些实施方案中,所述方法包括提供至少一个装载体反密码子的步骤,其中所述至少一个装载体反密码子具有式:
[0158] ([(B1)(M-1)—D—L1]Y—H1)和/或(H2—[L2—E—(B2)(K-1)]W),
[0159] 其中B1、M、D、L1、Y、H1、H2、L2、E、B2、K和W如关于式(I)分子所定义的。术语“提供”通常不受限制,并且可包括合成或商购这些分子。术语“装载体反密码子”是指通过接头可操作地连接到第一结构单元或第二结构单元并且具有能够与寡核苷酸G'或G的至少一个末端编码区选择性结合的寡核苷酸反编码区的发夹结构。在所述方法的某些实施方案中,装载体反密码子的目的是允许末端编码区编码、指导或选择第一结构单元和/或第二结构单元的添加。在所述方法的某些实施方案中,装载体反密码子的目的是将包括第一或第二结构单元的结构单元结合或连接到寡核苷酸G'的至少一个末端上,以形成式(II)分子,其将允许寡核苷酸G编码或指导位置结构单元B1和/或B2的合成。
[0160] 在合成式(I)分子的方法的某些实施方案中,组合步骤通常不受限制,只要允许寡核苷酸G'池和至少一个装载体反密码子在允许选择性杂交的条件下相互作用或混合即可。
[0161] 在合成式(I)分子的方法的某些实施方案中,将至少一个寡核苷酸G'的5'端键合到H1的3'端的步骤包括使G'的5'端的末端编码区与H1的反密码子选择性杂交。在合成式(I)分子的方法的某些实施方案中,将至少一个寡核苷酸G'的3'端键合到H2的5'端的步骤包括使G'的3'端的末端编码区与H2的反密码子选择性杂交。
[0162] 在合成式(I)分子的方法的某些实施方案中,所述方法包括将至少一个寡核苷酸G的5'端连接到H1的3'端以形成共价键,和/或将至少一个寡核苷酸G的3'端连接到H2的5'端。该连接步骤可以在式(II)分子的形成期间或之后进行。在所述方法的某些实施方案中,在键合步骤期间或之后形成共价键的益处包括在其它化学加工步骤期间改进的处理。
[0163] 在合成式(I)分子的方法的某些实施方案中,所述方法可以进一步包括在式(II)分子形成期间或之后,从式(I)或(II)的分子的至少一个末端编码区去除所有或部分的寡核苷酸的步骤。在合成式(I)分子的方法的某些实施方案中,所述方法可以进一步包括从式(I)或(II)的分子的至少一个末端编码区去除所有或部分的寡核苷酸的步骤,其中至少一个末端编码区是双链的并且寡核苷酸可以从H1和/或H2的发夹结构中去除,包括从H1和/或H2的发夹结构的反密码子去除,或从G或G'的末端编码区去除。在一个特定实施方案中,从式(I)或(II)的分子的至少一个末端编码区去除所有或部分的寡核苷酸的益处可包括改善后续步骤期间的化学处理。
[0164] 如图3和图4中示意性描绘的,在形成式(I)分子的方法的某些实施方案中,式(I)分子可以通过改变加工步骤的顺序通过多种合成路线来合成。例如,在图3中,可以在同一步骤中添加两个装载体反密码子。然后,可以进行随后的分选和反应步骤以在相同的反应条件下添加结构单元B1和B2。在该实施方案中,(B1)M和(B2)K的编码区可能是相同的,其中B1=B2且M=K。
[0165] 或者,在图4中,一个装载体反密码子([(B1)(M-1)—D—L1]Y—H1)可以与G'组合并键合以形成式(I)分子,其中P为0。然后,可以进行后续的分选和反应步骤以添加结构单元B1。一旦完成(B1)M的编码部分的形成,则可以将第二装载体反密码子(H2—[L2—E—(B2)(K-1)]W)与G组合并键合以形成不同的式(I)分子,其中P为1。然后,可以使用相同或不同的位置结构单元和反应条件,进行后续的分选和反应步骤以添加结构单元B2。在某些实施方案中,(B1)M和(B2)K不同,因为用于分别选择和分选式(II)和(I)分子池的反应的类型和顺序是不同的。
应理解,在某些实施方案中,可以首先添加装载体反密码子(H2—[L2—E—(B2)(K-1)]W)以形成(B2)K,然后添加([(B1)(M-1)—D—L1]Y—H1)以形成(B1)M。
[0166] 还应理解,不需要在(B1)M或(B2)K的完全形成或编码之后添加后来添加的装载体反密码子。相反,可以在将B1或B2中的至少一个添加到先前添加的装载体反密码子之后进行装载体反密码子的随后添加。在添加第二装载体反密码子之后,可以进行后续的分选和反应步骤以添加结构单元B1和B2以形成(B1)M或(B2)K。在这些实施方案中,第一编码部分的至少一部分将匹配后来添加的编码部分,但是两个编码部分(B1)M或(B2)K的差异将至少在于在键合后来添加的装载体反密码子之前添加的位置结构单元。
[0167] 在某些实施方案中,形成式(I)分子的方法包括使式(II)分子:
[0168] (II)([(B1)(M-1)—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)(K-1)]W)P,
[0169] 与位置结构单元B1和/或B2中的一个或多个反应,以形成式(I)分子:
[0170] (I)([(B1)M—D—L1]Y—H1)O—G—(H2—[L2—E—(B2)K]W)P,
[0171] 其中H1、H2、D、E、B1、M、B2、K、L1、L2、O、P、Y和W如关于式(I)所定义的。
[0172] 在某些实施方案中,所述方法包括提供至少一个杂交阵列。提供杂交阵列的步骤通常不受限制,并且包括使用本领域已知的技术来制造杂交阵列或商购杂交阵列。在所述方法的某些实施方案中,杂交阵列包括在其表面上具有固定的反密码子寡聚物的至少两个单独区域的基底。在某些实施方案中,杂交阵列的每个区域含有不同的固定的反密码子寡聚物,其中所述反密码子寡聚物是能够与式(I)或(II)分子的一个或多个编码区杂交的寡核苷酸序列。在所述方法的某些实施方案中,杂交阵列使用两个或更多个腔室。在所述方法的某些实施方案中,杂交阵列的腔室含有颗粒,例如珠粒,其在颗粒表面上具有固定的反密码子寡聚物。在所述方法的某些实施方案中,将式(I)或(II)的分子固定在阵列上的益处在于,该步骤允许基于每个编码区的特定寡核苷酸序列将分子分选或选择性地分离成分子子池。在某些实施方案中,分离的分子子池然后可以单独地从阵列中释放或移除到反应腔室中以进行进一步的化学加工。在某些实施方案中,释放步骤是任选的,通常不受限制,并且可以包括通过加热、使用变性剂或者使分子暴露于pH≥12的缓冲液中使分子去杂交。在某些实施方案中,含有不同的固定化寡核苷酸的阵列的腔室或区域可以定位成允许每个腔室或区域的内容物流入一系列孔中以进行进一步的化学加工。
[0173] 在某些实施方案中,所述方法包括使包括B1和/或B2的至少一个结构单元B与式(II)分子反应以形成式(I)或(II)分子的子池,其中B1和/或B2如上文关于式(I)所定义的。在某些实施方案中,结构单元B1和/或B2可以在式(I)或(II)的分子之前、期间或之后添加到容器中。应理解,容器可以在酸性、碱性或中性条件下含有溶剂和共反应物,这取决于用于使结构单元B1和/或B2与式(II)或(I)的分子反应的偶联化学。
[0174] 公开了一种鉴定能够结合或选择靶分子的探针分子的方法。在某些实施方案中,所述方法包括使靶分子暴露于多官能分子(例如式(I)分子)池中,以确定所述多官能分子中的一种是否能够结合靶分子。在某些实施方案中,术语“暴露”包括使靶分子与探针分子(包括式(I)分子)接触的任何方式。在某些实施方案中,通过去除方法去除不结合靶分子的探针分子,所述去除方法包括使用过量溶剂将未结合的探针分子从靶分子上洗掉。在某些实施方案中,靶分子被固定在表面上。在某些实施方案中,靶分子包括蛋白质、酶、脂质、低聚糖和具有三级结构的核酸。
[0175] 在所述方法的某些实施方案中,扩增步骤包括使用本领域已知的PCR技术来产生式(I)的寡核苷酸G的拷贝序列。在所述方法的某些实施方案中,拷贝序列含有式(I)的至少两个编码区和式(I)的至少一个末端编码区的拷贝。在某些实施方案中,从至少一个探针分子扩增寡核苷酸G的一个益处包括检测多官能分子的哪个编码部分能够结合靶分子的能力,即使多官能分子不能从靶分子容易地去除。在某些实施方案中,扩增的益处在于它允许产生具有巨大多样性的分子的文库。这种巨大多样性是以任何给定的式(I)分子数量较低为代价的。通过PCR扩增允许通过增加这些数量直至达到容易检测的数量来鉴定以非常少的数量存在的寡核苷酸序列。然后,拷贝序列的DNA测序和分析可以鉴定能够结合靶标的式(I)的多官能分子的编码部分或与能够结合靶标的式(I)的多官能分子的编码部分相关。
[0176] 关于挑战的更多细节
[0177] 药物发现的高成本以及发现具有用于医学、研究、生物技术、农业、食品生产和工业的独特和期望特性的分子的日益增长的需求已经引起组合化学领域的兴起。
[0178] 对于特定的所需应用,发现具有高度期望特性的分子可能并不总是直接的。例如,结合靶蛋白或生物大分子或多分子结构的分子可能非常难以合理设计。当面临发现分子的挑战时时(对于所述分子来说,从第一原理确定的结构设计是不可能或低效的),组合化学本身已经成为一种可行的工具。组合化学通过以下一般过程实现发现:(a)研究人员作出关于分子可能具有的更一般性质和结构的可用最佳假设,以符合所需应用的标准,(b)研究人员设计并合成非常大量的具有假设的一般性质或结构的分子,称为文库,(c)对所述文库进行测试以确定任何文库成员是否具有用于所需应用的特性。
[0179] 在信息有限的情况下,与存在大量知识来告知这些假设的情况相比,可以做出的关于期望分子的结构的那些假设将更宽松且定义不太明确。当更多的数据告知结构假设4 7
时,具有较小的复杂性或多样性的文库,例如1e-1e个独一的成员,紧密关注假设在所需结构中富含的化学形状空间区域,可能更成功。在存在很少或没有数据的情况下,可能需要具有远远更大复杂性并且可以对更大的形状空间区域进行采样并对其进行更深入采样的文库(例如1e5-1e14个独一的成员)以获得成功。
[0180] 组合化学允许通过分离-汇集或分选和反应化学合成方法以这种规模合成化合物文库。典型的分离-汇集文库从并入聚合物固体支撑物如聚苯乙烯珠粒的链中的官能团开始。将数千至数百万个珠粒组分到一系列容器中,并且每个容器中的珠粒与不同的化学亚基或结构单元反应。当反应完成时,汇集所有珠粒,充分混合,并重新分到一系列新的反应容器中,以进行使用相同或不同组的结构单元的化学合成的第二步骤。重复分离-汇集反应过程直至合成完成。通过该方法制备的化合物的数量仅受到在该过程中可处理的珠粒数量以及在每个步骤中使用的结构单元数量的限制。这两个参数将限定这种文库的复杂性。例如,如果在4个步骤的每个步骤中有5个化学亚基,则54=625个成员将构成文库。类似地,如果在第一步骤中有52个结构单元,第二步骤中有3个,第三步骤中有384个,并且第四步骤中有96个,则将产生52×5×384×96=3,833,856个文库成员。
[0181] 然后可以测试分子文库以确定它们中的哪一个具有用于所选应用的所需特性。这些分子的鉴定可能具有挑战性,因为在单个珠粒上产生的分子量可能非常小,因此难以鉴定。在组合化学界通常理解的是,对于针对可用于指导文库设计的结构数据量适当定制的文库,预期更大的文库会更有可能拥有高度期望的成员。但是,对于产生的任何给定量的文库,复杂性越大,或者文库中独特分子的数量越多,则拷贝数或每个成员的拷贝数就越低。因此,随着文库的复杂性和具有成功成员的概率增加,所述成功成员的总量以及组合化学家正确鉴定它的能力减小。
[0182] 组合化学家随后面临的约束优化是使文库具有足够的复杂性以拥有所需的成员,同时还制备每个文库成员的足够拷贝以确保准确地鉴定所需成员。通常,随着文库的复杂性增加,固体支撑物的尺寸也必须减小;随着所述支撑物尺寸减小,可用于分析和鉴定的样品量也减少。
[0183] 通常,给定足够的资源,可以在单珠粒-单化合物文库中的聚苯乙烯珠粒上合成1010个独一成员的非常大的组合文库。但如果每个聚苯乙烯珠粒是体积为0.1微升的球体,则1010个成员文库的体积将>1立方米,足以填满普通的热水浴缸或水疗池,或许会溢出。虽然工业化学过程通常以这种规模进行,但这种复杂性的过程很少以这种规模进行。这种规模的文库也提出了对这种文库进行测试并对于这些测试产生分子靶标的问题。这样的测试可能很容易需要一千克的纯化蛋白质,生产这么多药物靶蛋白的成本对于许多药物靶蛋白来说是天文数字。
[0184] DNA编码的组合化学文库试图改善这种情况。PCR可以非常准确地大量扩增单个DNA模板链的事实,以及扩增链可以很容易地测序的事实,使得有可能将固体支撑物的大小降到单个DNA分子。因此,通过以在DNA序列与文库成员身份之间建立对应关系的方式将组合化学文库成员栓系到DNA链上,可以实现制备极大文库(例如,106-1014个独一成员)以及从该群体中鉴定成功分子的能力。然后进行选择实验。“选择”是将文库群体中具有所需性状的那些成员与不具有所需性状的成员物理隔离的实验。然后通过PCR扩增编码性状阳性文库成员的DNA,并且DNA的测序鉴定了性状阳性文库成员。以这种方式,可以合成具有巨大复杂性的文库,并且从非常小的样本大小中鉴定到性状阳性个体。
[0185] 能够返回106-108个独一序列的新DNA测序技术有助于显著改善DNA编码文库的分析。“深度测序”数据使得能够对非常复杂的化学文库进行稳健的统计分析。这些类型的分析不仅可以鉴定适合所选应用的文库的特定个体成员,而且可以揭示以前未知的一般性状,这些性状对文库成员赋予应用“适合性”。通常,在选择实验之前对DNA文库进行深度测序,所述选择实验被设计成物理地分离附近更适合于应用的个体与不太适合的个体。对实验后的群体进行深度测序,并且两个数据集的比较显示出哪些个体因为其在群体中的相对频率增加而更适合。那些不太适合的个体将被鉴定出来,因为它们在群体中的相对频率减少。然而,DNA编码的组合化学方法可以使文库具有远远超过目前最强大的深度测序技术的复杂性。尽管深度测序能够大大提高DNA编码组合文库的实用性和成功率,但它仍然只能提供理论上可用的数据的统计欠采样。
[0186] 由于并非组合化学过程中的每个步骤都以完美的效率进行这一事实,这种数据欠采样的问题更加复杂。观察到失去保真度,因为一些反应没有完成,并且一些反应形成副产物。因此,通过深度测序返回的DNA序列代表其编码的实际分子并不总是完全明确,但有时可能代表截短产物或由副反应改变的产物。
[0187] 使欠采样问题复杂化是合成保真度的问题。并非每个用于制备组合文库的反应都是完全有效的。这意味着DNA编码文库中的一些DNA不会栓系到它们编码的分子上,而是栓系到由一个或多个结构单元的不完全并入所产生的截短产物,或者它们被栓系到由于并入副产物或副反应而产生的类似化合物。因此,数据分析受到影响,因为观察到选择中幸存的一些基因型代表并非它们所编码的分子。
[0188] 定向进化
[0189] 本公开的目的是通过生成具有巨大复杂性和高保真度的DNA编码文库来鉴定适合于期望应用的分子,以使当前测序技术最大化,并通过多代选择来克服欠采样问题。本公开的另一个目的是通过允许纯化文库合成的第一步骤来实现更准确的合成。
[0190] 通常,本公开的方法如下工作。分子群体被编码在DNA基因(寡核苷酸G或G')池中。DNA序列(寡核苷酸G或其拷贝)然后作为模板进行小分子文库成员(编码部分)的合成或翻译,在DNA基因型与其相应的小分子表型之间建立共价栓系(接头)。基因型-表型融合群体(式(I)分子文库)然后可以经受选择压力,并且在选择中幸存的这些个体的DNA(至少两个编码区和至少两个末端编码区)通过PCR扩增。该第二代幸存者群体(拷贝序列)可以(a)进行深度测序和分析以鉴定适合的个体(具有所需特性的编码部分),和/或(b)群体被重新翻译,进行第二轮针对相同特性或不同特性的更严格选择。然后对第二代选择的幸存者进行(a)深度测序和分析以鉴定适合的个体和/或(b)重新翻译并进行更多轮的选择、测序和分析,直到获得具有合适适合性的分子。
[0191] 本公开的方法产生可以多代重新翻译和重新选择的式(I)分子的文库的能力是一个显著优点,因为它允许定向的多代“进化”。虽然具有足够复杂性的初始群体和第一轮选择后的幸存者群体通过当前最好的、负担得起的深度测序方法可能采样不足,并且尽管用于鉴定适合个体的测序数据的统计分析可能采样不足,但是多代选择可以实现群体的完全分析。由于许多独一的、不太适合的个体将通过每一轮连续选择从群体中消除,因此群体的实际复杂性将随着它富集更加适合的个体而减小。因此,每轮测序将需要越来越重要的采样,并将实现非常稳健的计算分析。执行多代选择的能力极大地改善了这种分析。
[0192] 构成文库的DNA‘基因’或寡核苷酸G具有稍微熟悉的结构。与细胞中的基因一样,信息沿线性序列排列。然而,与典型基因不同,在该合成生物系统中,“密码子”或编码区通常长约20个碱基。在天然系统中,密码子以线性顺序从基因的一端开始并前进到另一端读取。在本公开的一个实施方案中,包含基因的编码区可以任何顺序读取,只要(a)顺序以末端密码子开始,(b)是预定的,并且(c)在该选择活动的所有连续后代中保持预定的顺序即可。此外,基因还任选地在每个编码区之间并入非编码区。如果非编码区具有独一的限制性位点,则这些非编码区促进了文库的准确翻译,以及文库的诱变或基因改组。给定文库中的寡核苷酸G通常将都具有相似排列的相同数量的密码子。
[0193] 在某些实施方案中,对于给定的寡核苷酸G文库,通常会有在每个编码区使用的预定组和数量的序列。在某些实施方案中,在一个编码区处使用的编码序列不用于任何其它编码区。在一些实施方案中,编码序列以组合方式组装成基因,从而表示编码序列的所有可能组合。在其它实施方案中,编码序列的组合数量在初始基因文库中将显著减少,并且在选择事件后,一部分群体将经历基因改组或交叉程序以实现新的表型的进化和选择。
[0194] 在某些实施方案中,通过在非编码区内安置独一的限制性位点来促进这些“交叉”事件。群体在一个或多个非编码区的部分消化,然后重新连接,将允许在进行消化的两个编码区之间进行编码序列的组合重新分类。这种改组或交叉事件可以在一对编码区之间或在多对编码区之间进行,或者该文库可以被分成池,并且每个池在编码区的不同组合之间经历交叉事件。在某些实施方案中,这种能力实际上允许通过选择中幸存而证明适合性的两名个体进行遗传重组以编码不同于任一亲本的后代表型。通常,通过适合基因型的重组,产生新的更适合的后代表型用于选择。
[0195] 编码部分的鉴定
[0196] 在一些实施方案中,本公开提供了多官能分子,其是在寡核苷酸G中的DNA基因序列与所述基因编码的编码部分或分子的身份之间具有对应关系的分子探针。
[0197] 在一些实施方案中,如下建立对应关系。以使得编码区是单链的并且任何非编码区是双链的方式制备基因文库。
[0198] 独立地,制备反应位点衔接子。下面将更详细地描述反应位点衔接子(发夹结构)。简而言之,在某些实施方案中,反应位点衔接子通常是用反应性官能团官能化的DNA发夹,并且包括茎区和反编码区。在某些实施方案中,因为文库中存在末端编码区,将提供和制备具有许多不同反编码序列的许多反应位点衔接子。在某些实施方案中,将制备具有与每个末端编码区序列互补的反编码序列的反应位点衔接子。在某些实施方案中,具有自身序列的每个反应位点衔接子上的反应性官能团反应位点将与第一结构单元反应以产生装载反应位点衔接子(装载体反密码子),并且将任选地纯化以去除未反应的反应位点衔接子,在翻译保真度方面提供显著优点。因此,反应位点衔接子的反编码序列对应于特定的结构单元。下面将更详细地描述该化学。可以将装载反应位点衔接子池与基因文库一起温育,以使装载反应位点衔接子(装载体反密码子)特异性地退火到与其互补的末端编码序列。然后可以将退火的衔接子/文库复合物连接在一起,例如使用T4 DNA连接酶。以这种方式,基因的末端编码区将对应于特定的结构单元。
[0199] 在某些实施方案中,通过基于所选编码区的编码序列将文库分选成子池来实现建立下一个所选编码区序列与下一个结构单元之间的对应关系。在某些实施方案中,这种分选是通过将单链编码序列与固定在固体支撑物阵列(称为杂交阵列)上的互补寡核苷酸进行序列特异性杂交来实现的。
[0200] 杂交阵列的构建如下所述。简言之,在某些实施方案中,杂交阵列是含有固体支撑物的空间分离特征的阵列。在某些实施方案中,在这些支撑物上共价栓系ssDNA寡核苷酸,其中与编码区序列互补的序列被分选。在某些实施方案中,通过使带有多个编码序列的式(I)或式(II)的分子文库流过或流经带有给定反编码序列的固体支撑物,具有互补编码序列的文库成员可以被特异性地固定化。在某些实施方案中,使文库流过或流经固体支撑物阵列(每个固体支撑物带有不同的固定化反编码序列),会基于编码序列将文库分选成子池。在某些实施方案中,每个序列特异性子池然后可以独立地与特定结构单元(位置结构单元)反应,以建立序列与结构单元的对应关系。该合成将在下面更详细地描述,并且可以在杂交阵列上进行,或者在子池中将子池从阵列中洗脱到合适的环境(例如单独的容器)中之后进行反应。
[0201] 对于所有其它内部非末端编码区建立编码序列与结构单元的对应关系可以相同的方式实现,唯一的区别是适当时使用带有不同组反编码序列的不同杂交阵列。
[0202] 寡核苷酸G中的编码区也可以编码其它信息。在某些实施方案中,在完成文库的翻译之后,可能需要基于索引编码区序列对文库进行分选。在某些实施方案中,索引编码区序列可以编码预期目的,或者其文库相应子池的选择历史。例如,多个靶标的文库可以一起同时翻译,然后通过索引编码区分选成子池。因此,预期用于不同靶标和/或用于在不同条件下选择的子池可以彼此分离并且准备好用于其相应应用中。因此,可以在索引区域中记录针对各种特性经历多轮选择的文库成员的选择历史。
[0203] 反应位点衔接子的一个预期目的是建立寡核苷酸G的基因文库中的序列与特定结构单元之间的对应关系。笼统地说,这是如上所述实现的。通常,反应位点衔接子的关键要素是允许衔接子与寡核苷酸G的特定编码区杂交的反编码序列,第一或第二结构单元D或E可以共价连接的反应性官能团,将这些结构单元共价栓系到反应位点衔接子的接头,以及将负载有结构单元的反应位点衔接子或装载反应位点衔接子直接或间接地共价连接到基因(寡核苷酸G)的机构。在一些实施方案中,反应位点衔接子是包含茎、环和本身包含反编码序列的3'或5'悬端的DNA发夹。在一些实施方案中,茎可含有一个或多个独特的限制性位点,其在用限制性酶切割后可以促进非常紧密的结合剂从靶标上释放,或者含有良好的引发序列以使得能够通过PCR更纯净地扩增基因。
[0204] 在某些实施方案中,环区执行以下任务:产生反应位点衔接子链的方向性变化以匹配寡核苷酸G链的方向性,使得其可以连接至寡核苷酸G的末端。由于DNA的性质,寡核苷酸G中的编码序列将具有与反应位点衔接子中的反编码序列相反的方向性。DNA连接仅发生在具有相同方向性的核酸链的两端之间。也就是说,从5'到3'取向的链可以连接到另一个5'到3'取向的链。环区执行以下任务:产生反应位点衔接子链的方向性变化以匹配寡核苷酸G链的方向性,使得其可以连接到寡核苷酸G的末端。在一些实施方案中,发夹结构H1和/或H2的环包括3至12个DNA碱基。在一些实施方案中,它是包含6-12个PEG单元的聚乙二醇接头。在一些实施方案中,反应位点衔接子将与寡核苷酸G酶促连接。在一些实施方案中,寡核苷酸G的末端将用叠氮化物或炔烃官能化,并且反应位点衔接子的末端将用炔烃或叠氮化物官能化,并且连接将通过介导的“点击”化学来实现。本领域技术人员将理解,众多等效化学适用于将反应位点衔接子共价栓系到寡核苷酸G。
[0205] 在一些实施方案中,反应性位点包含通过PEG接头或烷基链接头或通过均聚物或杂聚物链接头而栓系到修饰核碱基的游离胺。当连接在反应位点衔接子发夹上的任何点处时,反应性位点可以起作用。在一些实施方案中,反应性位点连接在茎上的环的5'位置处。在一些实施方案中,反应性位点连接在环的3'。在一些实施方案中,反应性位点连接在与反编码序列相同的环的一侧并接近反编码序列的初始碱基。在一些实施方案中,反应性位点连接在与反编码序列相对的环的另一侧并且沿着茎远离它。在一些实施方案中,多于一个反应性位点连接在衔接子上。具有多于一个反应性位点的一个优点是正确合成的编码部分的概率增加。具有多于一个反应性位点的另一个优点是在选择期间,编码部分的多样性可以产生亲合力,允许在选择中找到较弱的结合剂。在具有两个或更多个反应性位点的一些实施方案中,反应性位点将连接在环的同一侧并接近茎的相对端。在一些实施方案中,反应性位点将位于环的相对侧并接近茎的相对端。在具有多于一个反应性位点的一些实施方案中,两个反应性位点都将位于环区中。在一些实施方案中,反应位点衔接子将包含多于一个茎和多于一个环。在这样的实施方案中,多个反应性位点可以沿着茎或在环上或以两者的组合连接。在一些实施方案中,反应性位点的布置和定位被设计成促进更好的选择结果,这通过根据所讨论靶标的大小调整反应性位点之间的距离以促进更好的亲合力来实现。
[0206] 在一些实施方案中,反应位点衔接子将具有容易破碎成较小片段的机构。这种片段化可以促进文库的更好的下游加工,例如,在模板文库链的一端或两端存在连接的发夹可能通过干扰引物与式(I)分子的正确退火的能力而使PCR扩增复杂化。在另一个实施例中,在连接后装载反应位点衔接子的片段化可以降低反应性位点附近的空间体积并改善化学性质或提高杂交期间的产率。片段化方法包括但不限于在茎区的独一限制性位点处进行限制性消化,或在反应位点衔接子的合成中并入dU碱基,然后用尿嘧啶DNA糖基化酶处理以产生无嘧啶位点,随后进行链的碱性水解。片段化方法可以使反应性位点直接或间接地栓系到模板链,或者可以将其从模板链中去除。
[0207] 在一些实施方案中,装载反应位点衔接子将被特异性杂交并连接到模板链两端的末端编码区。在末端编码区编码相同的第一结构单元和第二结构单元的情况下,这些实施方案具有为待合成的正确编码部分提供多种可能性的优点。此外,这些实施方案可以提供多种编码部分产生亲合力并提高选择效率的机会,特别是对于较弱结合剂来说。在第一结构单元和第二结构单元不同的情况下,这些实施方案允许相同数量的基因模板链合成两倍数量的独一编码部分。在第一结构单元和第二结构单元对于某些式(I)分子是相同的并且对于其他式(I)分子是不同的情况下,它允许分析两个不同结构单元在整个编码部分赋予的对总体适合性的相对贡献。
[0208] 许多种化学可用于本发明。理论上,可以使用不会化学改变DNA的任何化学反应。已知与DNA相容的反应包括但不限于:Wittig反应,Heck反应,homer-Wads-worth-Emmons反应,Henry反应,Suzuki偶联,Sonogashira偶联,Huisgen反应,还原胺化,还原烷基化,肽键反应,类肽键形成反应,酰化,SN2反应,SNAr反应,磺酰化,脲化,硫脲化,氨基甲酰化,形成苯并咪唑、咪唑烷酮、喹唑啉酮、异吲哚啉酮、噻唑、咪唑并吡啶,二醇裂解形成乙二醛,Diels-Alder反应,吲哚-苯乙烯偶联,Michael加成,烯烃-炔烃氧化偶联,醛醇反应,Fmoc脱保护,三氟乙酰胺脱保护,Alloc脱保护,Nvoc脱保护和Boc脱保护。(参见Handbook for DNA-Encoded Chemistry(DNA编码化学手册)(Goodnow R.A.,Jr.编)第319-347页,
2014Wiley,纽约;March,Advanced Organic Chemistry(高等有机化学),第四版,纽约:
John Wiley and Sons(1992),第10至16章;Carey和Sundberg,Advanced Organic Chemistry(高等有机化学),第B部分,Plenum(1990),第1-11章;以及Coltman等,
Principles and Applications of Organotransition Metal Chemistry(有机过渡金属化学的原理与应用),University Science Books,Mill Valley,Calif.(1987),第13至20章;其各自通过引用整体并入本文。)
[0209] 本领域技术人员将理解,可以将大量不同的组合支架并入到本公开的多官能分子中。一般类型的支架种类的实例包括但不限于以下:(a)端到端连接的双官能结构单元的链,肽和类肽是这种支架的两个实例;应理解,并非链中的每个双官能结构单元都具有相同的一对官能团,并且一些结构单元可以仅具有一个官能团,例如末端结构单元,(b)双官能结构单元的支链,其包括一些三官能结构单元,并且可能包括或可能不包括单官能结构单元,(c)包含单一多官能结构单元和一组单官能结构单元的分子;在一个实施方案中,这样的分子可以具有作为中心核的多官能结构单元,其中添加其它单官能结构单元作为多样性元件,(d)包含两个或更多个多官能结构单元的分子,其上连接有一组单官能或双官能结构单元作为多样性元件,(e)任何上述支架,其包括通过使在较早步骤中安装的接头或结构单元上的部分与在稍后步骤中安装的结构单元或接头上的部分反应而形成环。也可以并入其它支架或化学结构,并且这些通用结构支架仅受到从业者在设计合成它们的化学途径中的独创性的限制。
[0210] 在某些实施方案中,离子交换色谱法有助于以两种方式对与DNA栓系的基质进行化学反应。对于在水性溶剂中进行的反应,可以通过将反应物倒在离子交换树脂如DEAE-或 SuperQ 650M上来容易地实现纯化。在某些实施方案中,DNA将通过离子交换与树脂结合,并且可以用水性缓冲液、有机溶剂或两者的混合物洗去未使用的反应物、副产物和其它反应组分。对于在有机溶剂中作用最好的反应,存在一个真正的问题:DNA在有机溶剂中的溶解性非常差,并且这些反应具有低产率。在这些情况下,可以将文库DNA固定在离子交换树脂上,通过水混溶性有机溶剂洗去残留的水,并且在可能与水混溶或可能不与水混溶的有机溶剂中进行反应。参见例如R.M.Franzini等,
Bioconjugate Chemistry 2014 25(8),1453-1461,以及其中的参考文献。存在许多类型和种类的离子交换介质,它们都具有可能更适合或不太适合不同的化学或应用的不同性质,并且其可从许多公司如 SIGMA
和 等商购。应理解,存在许多可能的手段和介质,通过这些手段和介质可
以固定或溶解文库DNA,以进行化学反应来安装结构单元,或去除保护基团,或激活部分用于进一步修饰,这里没有列出。
[0211] 在某些实施方案中,杂交阵列包括用于通过ssDNA序列与以位置可寻址形式固定的互补寡核苷酸的序列特异性杂交来分选ssDNA序列的异质混合物的装置。参见例如美国专利No.5,759,779。应理解,杂交阵列可以采取许多物理形式。在某些实施方案中,杂交阵列具有使异源样品或ssDNA(即,式(I)化合物文库)与固定在阵列表面上的互补寡核苷酸接触的能力。互补寡核苷酸以能够实现、允许或促进ssDNA与固定化寡核苷酸的序列特异性杂交的方式固定在阵列的表面上,从而也固定ssDNA。在某些实施方案中,可以从阵列中独立地去除通过共同序列固定的ssDNA以形成子池。
[0212] 在一些实施方案中,杂交阵列是包括0.1至100mm厚的矩形塑料片的底盘,其中已经切割了一系列孔,称为“特征”。在某些实施方案中,在片材的下面和顶部粘附过滤膜。在某些实施方案中,在特征中,被截留在过滤膜之间的是固体表面或固体表面的集合,称为“固体支撑物”。在某些实施方案中,在任何给定特征中,寡核苷酸的单个序列被固定在固体支撑物上。
[0213] 在某些实施方案中,通过使文库的水溶液流过和流经这些特征,可以在阵列上分选式(I或II)分子文库。在某些实施方案中,当文库成员与带有互补序列的特征中的寡核苷酸接触时,它们变得固定在特征内。在某些实施方案中,在杂交完成后,阵列的特征可以被定位在接收容器如96孔板或384孔板上。在某些实施方案中,可以将导致DNA去杂交的碱性溶液添加到每个特征中,并且该溶液将携带由此变成移动的文库进入接收容器。其它去杂交方法也是可能的,如使用热缓冲剂或变性剂。因此,在某些实施方案中,分子文库可以序列特异性方式分选成子池。
[0214] 应理解,上述底盘可以包含塑料、陶瓷、玻璃、聚合物或金属。应理解,固体支撑物可包含树脂、玻璃、金属、塑料、聚合物或陶瓷,并且支撑物可以是多孔的或无孔的。应理解,固体支撑物上的较高表面积允许固定更大量的互补寡核苷酸,并且可以在特征中捕获更大量的文库子池。应理解,固体支撑物可以通过由尼龙、塑料、布、聚合物、玻璃、陶瓷或金属制成的过滤膜保持在它们各自的特征中。应理解,固体支撑物可以通过除过滤膜之外的方式保持在它们各自的特征内,所述方式如胶水,粘合剂,或支撑物与底盘和/或其它支撑物的共价键合。应理解,这些特征可以是或可以不是底盘中的孔,而是可以从底盘中取出或放置在底盘中的独立结构体。应理解,底盘的形状不需要是具有以二维布置的特征的矩形,而是可以是具有以一维或三维布置的特征的圆柱形或矩形棱柱。参见例如美国专利No.5,759,779。
[0215] 式(I)分子的文库可以被认为是栓系到其各自基因型的表型群体。这样的群体可以经受选择压力,其从群体中去除不太适合的个体,并允许更适合的成员幸存。第二代群体的寡核苷酸G基因型,即选择中幸存的那些,可以通过PCR扩增,重新翻译,并且针对相同的性状进行另一种更严格的选择,或者对于一些正交性状进行选择。通常也可以使用深度测序或下一代测序技术,对选择中幸存的亚群进行测序,并且可以分析测序数据以鉴定最适合的编码部分(表型)。
[0216] 可以进行许多种选择。进行最典型的选择以找出群体中能够结合靶蛋白的个体。在某些实施方案中,进行这种选择的方法是将靶蛋白固定在固体支撑物上,如NUNC板中的孔的表面,或通过将靶标生物素化并固定在链亲和素包被的磁珠上。
在某些实施方案中,在靶标固定后,将式(I)分子群体与支撑物上的靶标一起温育。所有那些能够结合靶标的个体都会这样,并且本身被固定。用适当的缓冲液洗涤固体支撑物,去除了非结合剂。在某些实施方案中,编码结合剂的DNA可以通过PCR扩增,并送去测序以重新翻译并进行另一轮选择。
[0217] 在某些实施方案中,可以以选择结合一种靶蛋白的个体以排除不同的抗靶蛋白或一组抗靶蛋白的方式进行选择。在这种情况下,一种选择方法需要将靶标和抗靶标固定在分开的容器中的固体支撑物上。在某些实施方案中,文库首先与抗靶标一起温育,并且可以结合抗靶标的个体也是如此。在某些实施方案中,小心地从容器中取出非结合剂并转移到含有靶标的容器中。以这种方式,针对结合靶标的能力被选择的群体在能够结合抗靶标的个体中首先被耗尽,并且选择产生其适合性被表征为结合靶标或排除抗靶标的能力的个体。
[0218] 在某些实施方案中,鉴定相比于另一靶标选择性地结合一个靶标的编码部分的第二种方法是对两个靶标进行并行选择,然后在分析测序数据期间消除表现出对两个靶标的亲和性的编码部分。
[0219] 在某些实施方案中,还可以通过使用固定化靶标和游离靶标的混合物进行选择具有低解离速率的结合剂的选择。在某些实施方案中,将该文库与固定化靶标一起温育,从而允许结合剂结合。然后加入过量的游离靶标并温育预定量的时间。在此期间,从固定化靶标释放并在之后重新结合的任何结合剂具有重新结合到游离靶标的高概率。洗去非结合剂后,游离靶标和与其结合的任何物质也将被洗去。在游离靶标之后留下的唯一结合剂是解离速率比游离靶标的预定温育时间长的那些结合剂。
[0220] 前述段落中描述的选择方法可见于关于噬菌体展示、核糖体展示和mRNA展示的文献中。参见例如Amstutz,Patrick等,Cell biology:a laboratory handbook(细胞生物学:实验室手册),第3版.ELSEVIER,Amsterdam(2006):497-509,以及其中的参考文献。
[0221] 原则上,可以对任何特性进行选择,条件是可以构建对群体中具有所述特性的个体相比于不具有所述特性的那些个体进行选择性扩增的机构。原则上可选择除靶标结合之外的药理学相关性质,并且实例包括但不限于对于水溶性、细胞膜外显率和无毒性的选择。
[0222] 还应理解,以足够的量合成文库可以允许在给定的一轮中进行多于一次的选择。在某些实施方案中,在针对靶标亲和性进行选择之后的幸存者亚群可以分离,任选地纯化,并且关于对相同或不同靶标的亲和性进行第二次选择,或者对于正交特性进行选择。在某些实施方案中,然后通过PCR扩增幸存者子池并测序,或者它被扩增并重新翻译以供进一步选择。
[0223] 在某些实施方案中,通过比较选择之前和之后群体中的文库成员的表现来分析测序数据。在某些实施方案中,在选择后较少表现的成员通常被认为不太适合,并且在选择后更多表现的成员被认为更适合。另外,任选地分析数据以确定哪个单独的结构单元赋予适合性,当在相同编码部分中结合时哪些结构单元对赋予适合性,以及哪些结构单元的三元组赋予适合性。在某些实施方案中,任选地分析数据以确定不同结构单元内和不同编码部分内的哪些结构元件向所选文库成员赋予适合性。在某些实施方案中,这些分析告知应合成哪些成员用于独立测试,并建议应该制备和测试的类似分子,其可能不是文库的原生成员。在某些实施方案中,三维对接算法也可以告知这些过程。
[0224] 在某些实施方案中,在数据分析中鉴定的文库成员可以在存在或不存在寡核苷酸部分的情况下合成,通常使用与制备文库中所用相同或相似的合成条件。在某些实施方案中,这些独立合成的样品然后可以进行各种测试,所述测试表征其物理和化学性质并表明其对所需任务的一般适合性。在某些实施方案中,这些性质包括但不限于测量文库成员与其靶标结合的紧密度的解离常数或KD,如通过水:辛醇分配所测量的水溶性,以及在CaCo细胞中测量的细胞外显率。
[0225] 在某些实施方案中,所鉴定的结合生物分子的文库成员可用于确定该生物分子的生物学功能。在某些实施方案中,许多蛋白质的功能尚不清楚,并且本公开的方法提供了一种发现分子探针以帮助阐明这些功能的现成途径。在某些实施方案中,通过本公开方法鉴定的文库成员可用于帮助确定生物分子是否特别适合于小分子发现和靶向以进行药物干预。
[0226] 在某些实施方案中,可以在体外测定中或在体内测定中,在基于细胞的测定中或在基于非细胞的测定中测定其对结合文库成员的生物分子功能的影响。对于具有已知功能的生物分子,可以评估所鉴定的文库成员对该功能的影响。如果生物分子是酶,则可以评估对其活性率的影响。如果它是信号蛋白,则可以评估对细胞功能的影响,包括细胞活力、细胞基因表达或细胞表型表达。如果靶标是病毒蛋白,则可以评估文库成员对病毒增殖和活力的影响。
[0227] 在某些实施方案中,还可以评估通过选择鉴定的文库成员在体内实验中对动物和人类和植物健康的影响。
[0228] 在某些实施方案中,通过选择鉴定的文库成员也可以用作亲和试剂,以用于纯化生物分子靶标。在某些实施方案中,所鉴定的编码部分可以被固定在固体支撑物上,并且含有靶标的异质溶液可以流过固体支撑物。在某些实施方案中,靶标与编码部分结合,并被固定化。在某些实施方案中,混合物的所有其它组分可以被洗去,留下纯化靶标样品。
[0229] 通过以下实施例说明本发明,但不限于此。本领域技术人员将认识到许多用于实现本文列举的步骤或步骤部分的等同技术。
[0230] 实施例
[0231] 如下构建式(I)分子的一个实施方案。
[0232] 实施例1:构建8×109个成员的基因文库
[0233] 提供用于基因文库的密码子。提供96个双链DNA("dsDNA")序列或购自基因合成公司,如Piscataway NJ的Genscript,Monmouth Junction NJ的Synbio Technologies,Wilmington DE的Biomatik,Sugarland TX的Epoch Life Sciences等。这些序列包含5个编码区,每个编码区各有20个碱基。每个编码区的两侧具有20个碱基的非编码区(制造总共6个非编码区)。所有编码区序列都是独一的,并且被选择成不与其它编码区和非编码区交叉反应。DNA分子中的5个非编码区具有不同的序列,但每个位置的序列在所有DNA中都是保守的。所有编码和非编码区都被设计为具有相似的熔融温度(介于58℃与62℃之间)。编码区和非编码区的计算机设计如下。DNA序列在计算机中随机产生。
[0234] 一旦产生,使用最近邻法计算序列熔融温度和热力学性质(熔融的ΔH、ΔS和ΔG)。如果所计算的Tm和其它热力学性质不在文库所需的预定范围内,则排除该序列。通过序列相似性算法对可接受的序列进行分析。由算法预测为足够非同源的序列被认为是非交叉反应的并且被保持。其它被排除。编码和非编码区有时选自显示为非交叉杂交的寡核苷酸的经验列表。参见Giaever G,Chu A,Ni L,Connelly C,Riles L等,(2002)Functional profiling of the Saccharomyces cerevisiae genome(酿酒酵母基因组的功能谱分析).Nature 418:387-391。该参考文献列出了10,000个非交叉反应性寡核苷酸。计算各自的Tm,并通过序列同源性算法分析落在预定范围内的那些。保留足够非同源的那些。
[0235] 每个非编码区含有独一的限制性位点。模板链5'端的非编码区含有从5'端起第13-18位碱基处的SacI识别位点。编码链3'端的非编码区含有从模板链3'端起第14-19碱基处的EcoRI限制性位点。从模板链5'端起第二、第三、第四和第五非编码区分别在第8-13位碱基处具有HindIII、NcoI、NsiI和SphI识别位点。
[0236] 对DNA进行限制性消化以使所有密码子彼此解偶联。将DNA序列汇集并溶于来自New England Biolabs(NEB,Massachusetts)的 缓冲液中,浓度为约20μg/ml。加入来自NEB的内部限制酶 和
并根据制造商的方案在37℃下酶消化1小时。将酶在80℃下热灭活20分钟。灭活后,反应在
60℃下保持30分钟,然后冷却至45℃并保持30分钟,然后冷却至16℃。
[0237] 对密码子进行组合重新分类以产生基因文库。为了将消化反应中产生的各个密码子重新组装成全长基因,根据制造商的方案,将来自NEB的T4 DNA连接酶加入到反应中至50U/ml,加入二硫苏糖醇(DTT,Thermo Fisher Scientific,Massachusetts)至10mM,并且加入5'-三磷酸腺苷(ATP,来自NEB)至1mM。连接反应进行2小时,并且通过琼脂糖凝胶电泳纯化产物。因为通过消化在所提供基因的一个位点处产生的粘性末端将与同一位点处的所有其它消化产物的粘性末端退火,所以将发生完全的组合重新分类。因此,所提供的各自包含5个密码子的96个基因将产生965个基因。因为在5个编码位置的每一个处有96个编码序列,所以存在965=8×109个组合或文库成员。
[0238] 制备基因文库用于翻译。
[0239] 通过PCR扩增基因文库。通过延伸PCR将T7启动子附加到非模板链的5'端,所述PCR对于50μL反应使用这些反应物: 高保真度DNA聚合酶(“ 聚合酶”,NEB),10μL;脱氧核苷酸(dNTP)溶液混合物,200μΜ最终浓度;正向引物,最终浓度
750nM;反向引物,最终浓度750nM;模板(应使用足够的模板来对文库进行充分的过采样);
二甲亚砜(DMSO),2.5μL;“ 聚合酶”,2μL。使用57℃的退火温度和72℃的延伸温度进行PCR。每个循环退火5秒;每个循环延伸5秒。通过琼脂糖凝胶电泳分析产物。
[0240] 将DNA转录成RNA。在PCR产物未经纯化的情况下,利用以下反应物进行250μL转录反应:PCR产物,25μL;无RNA酶的水,90μL;三磷酸核苷(NTP),各自最终浓度为6mM;5xT7缓冲液,50μL;NEB  T7RNA聚合酶250单位;任选地,可以加入 核糖核酸酶抑制剂(Promega Corporation,WI)至200U/ml;任选地,可以加入焦磷酸酶至10μg/ml。5xT7缓冲液含有:1M HEPES-KOH(4-(2-羟基乙基)-1-哌嗪乙磺酸)pH 7.5;150mM乙酸镁;10mM亚精胺;
200mMDTT。反应在37℃下进行4小时。通过氯化锂沉淀来纯化RNA。用1体积的水稀释转录反应。加入LiCl至3M。在4℃下在最高g下旋转至少1小时。倒出上清液并保留。洁净的球粒将是透明的玻璃状凝胶,其难以溶解。温和加热(在70℃下一分钟)和温和涡旋的交替将导致球粒重新悬浮。通过琼脂糖凝胶电泳分析,尽可能快地定量和冷冻以避免降解。参见例如Analytical Biochemistry 195,第207-213页.(1991);和Analytical Biochemistry 220,第420-423页,(1994)。
[0241] 将RNA逆转录为DNA。使用来自Thermo Fisher Scientific的III逆转录酶和所提供的第一链缓冲液,以2步骤程序逆转录单链RNA("ssRNA")。第一步骤是使用这些最终浓度的以下组分来进行的:dNTP,各660μM;RNA模板,~5μM;引物,5.25μM。
将步骤1组分加热至65℃持续5分钟,然后冻至少2分钟。步骤2组分的最终浓度为:第一链缓冲液,1x;DTT,5mM;RNA酶抑制剂(NEB),0.01U/μL, III逆转录酶,0.2U/
μl。将步骤2组分合并,温热至37℃,并且在将步骤1组分冰冻2分钟后,将步骤2混合物加入到步骤1混合物中。将合并部分在37℃下反应12小时。反应后进行琼脂糖凝胶电泳。对已知原料RNA和已知产物或已知产物类似物如PCR产物文库的反应取样。向所有样品中加入乙二胺四乙酸("EDTA"),加热至65℃,2分钟,快速冷却,然后在琼脂糖凝胶上电泳。ssRNA应从互补DNA("cDNA")产物中解析。通过以下来纯化cDNA产物:加入1.5体积的异丙醇和乙酸铵至
2.5M,然后以48,000g离心1小时。将cDNA球粒重悬于蒸馏水("dH2O")中,并且通过加入LiOH至pH 13使RNA链水解。将溶液加热至95℃持续10分钟。加入1.05当量的非编码区特异性引物,用三(羟基甲基)氨基甲烷("Tris")和乙酸使pH达到中性,并使反应缓慢冷却至室温,然后将其浓缩并进行缓冲交换到 缓冲液中。
[0242] 去除末端非编码区。将具有使非编码区为双链的互补寡核苷酸的逆转录ssDNA产物以100μg/ml的浓度悬浮于NEB 缓冲液中。将来自NEB的限制酶和 加入浓度为1μg的DNA中。将消化物在37℃下温育1小时,然后将酶在65℃下
热灭活20分钟。
[0243] 制备反应位点衔接子用于翻译。
[0244] 提供反应位点衔接子。提供两组96个反应位点衔接子,每个衔接子包含发夹环、茎和包含反编码序列的悬端。一组具有3'悬端反编码序列,其与去除3'末端非编码区后出现的模板链的3'末端编码区特异性杂交;另一组具有5'悬端反编码序列,其与去除5'末端非编码区后出现的模板链的5'末端编码区特异性杂交。带有3'悬端的组具有5'磷酰基基团。在该实施例中,每组的茎区具有先前通过限制性消化去除的相应末端非编码区的相同序列。每组的环区带有用连接的反应性位点N4-TriGl-氨基2'脱氧胞苷(来自IBA,
Goettingen,Germany)修饰的碱基。这里描述的衔接子可以购自DNA寡核苷酸合成公司,如Sigma Aldrich,Coralville,IA的Integrated DNA Technologies或Louisville,KY的Eurofins MWG。
[0245] 反应位点衔接子的装载。将两组96个反应位点衔接子提供在单独的孔中,并溶解在TE缓冲液(Promega,MA)中。将15μl的 SuperQ-650M(Sigma-Aldrich,St.Louis,MO)离子交换树脂置于过滤板的每个孔中,并用100μl的10mM HOAc洗涤。将与模板链的量成比例的每个反应位点衔接子的等分试样转移到过滤板的单独孔中,其中它们被固定在树脂上。固定在树脂上的衔接子用dH2O洗涤,然后用哌啶洗涤,然后用二甲基甲酰胺("DMF")洗涤。分别制备96种反应溶液,每种溶液含有:50μl的DMF,75mM的Fmoc保护的氨基酸,75mM的4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉鎓四氟硼酸盐,90mM的N-甲基吗啉。使这些混合物在室温下活化酸十分钟,然后加入到树脂中并反应30分钟。然后用4×
100μl DMF洗涤树脂,并用新制备的反应混合物重复偶联步骤,再次用DMF洗涤,并且通过向每个孔中加入50μl的20%哌啶的DMF溶液并在室温下温育2小时来去除Fmoc保护基团。用4×100μl DMF再次洗涤树脂,然后用3×100μl dH2O洗涤。用1.5M NaCl、50mM KOH、0.01%TRITONTM X-100将装载反应位点衔接子从树脂上洗脱下来。通过加入Tris至15mM和HOAc至pH 7.4来中和溶液。然后将装载反应位点衔接子汇集并通过经过ZEBATM 7K MWCO(Thermo Fisher Scientific,MA)脱盐筒来脱盐。
[0246] 文库的翻译
[0247] 将装载反应位点衔接子与文库连接。在25℃下,使用ZEBATM 30K MWCO(Thermo Fisher Scientific,MA)离心浓缩器对限制性消化的模板文库进行缓冲交换至50mM Tris-HCl、10mM MgCl2、25mM NaCl(pH 7.5)。加入1.1当量的对模板链3'端具特异性的装载反应位点衔接子;加入1.1当量的对模板链5'端具特异性的装载反应位点衔接子,并用相同的缓冲液将混合物稀释至1μM的模板链浓度。将反应温热至65℃保持10分钟,并在1小时内冷却至45℃,并在45℃保持4小时。冷却至室温后,加入DTT至10mM,加入ATP至1mM,并且加入T4 DNA连接酶至50U/mL。连接反应在室温下进行12小时,然后将酶在65℃下热灭活10分钟,并将反应缓慢冷却至室温。将反应物进行缓冲交换并用30K分子量截留(MWCO)离心浓缩器浓缩至150mM NaCl、20mM柠檬酸盐、15mM Tris、0.02%十二烷基硫酸钠("SDS")、0.05%Tween20(来自Sigma-Aldrich),pH 7.5。
[0248] 杂交阵列的制备。杂交阵列由~2mm厚的TECAFORMTM(乙缩醛共聚物)底盘构成,具有由计算机数控机器切割的孔。使用来自Nitto  Denko的NP200双面胶将来自ELKO FILTERING的尼龙40微米网粘附在底盘底部。然后用已经用叠氮基团官能化的CM树脂(Sigma Aldrich)的固体支撑物填充孔。使用购自Broadpharm(San 
Diego,CA)的具有8个PEG单元的叠氮基-PEG-胺将树脂官能化。将45ml的包装的CM
装入烧结漏斗中并用DMF洗涤。然后将树脂悬浮在90ml DMF中,并与4.5mM
叠氮基-PEG-胺、75mMEDC、7.5mM HOAt在室温下反应12小时。用DMF、水、异丙醇洗涤树脂,并在4℃下储存在20%乙醇中。然后将尼龙40微米网粘附到底盘的顶部。叠氮基团允许使用点击化学将炔烃连接的寡核苷酸栓系到固体支撑物上。将阵列放置在阵列-孔板衔接子中并将衔接子固定在孔板上使得捕获寡核苷酸能够互相对准地“点击”到叠氮基-
上。将含有1nmol炔基寡核苷酸、硫酸铜、625μM三(3-羟基-丙基-三唑基-甲
基)胺("THPTA")(配体)、3.1mM氨基-胍、12.5mM抗坏血酸盐、12.5mM磷酸盐缓冲液pH 7的30μl溶液(100mM)加入到阵列-孔板衔接子的每个孔中,并使其吸附到 支撑物
上。10分钟后,将溶液在离心机中从阵列中旋出并进入板中,然后将其互相对准地重新吸移回到阵列上,在反应时进行第二轮。在第二次10分钟反应后,将反应溶液旋入孔板中,并将孔板放在一边。用1mMEDTA充分洗涤阵列,并储存在含有0.05%叠氮化钠的磷酸盐缓冲溶液("PBS")中。将反应溶液各自用dH2O稀释至100μl,加载到二乙基氨基乙基(DEAE)离子交换树脂上,用dH2O洗涤以去除除了任何未并入的寡核苷酸之外的所有试剂和反应副产物。通过高效液相色谱法(HPLC)分析这些溶液,以确定原料消失引起的并入程度。一个阵列带有与模板文库中的一个编码位置互补的寡核苷酸。对每个编码位置制造单独的阵列。
[0249] 通过序列特异性杂交对文库进行分选。将准备好杂交的文库在1x杂交缓冲液(2x盐水柠檬酸钠(SSC),+15mM Tris pH7.4+ X100,0.02%SDS,0.05%叠氮化钠)中稀释至13ml。加入10μg转移RNA("tRNA")以阻断非特异性核酸结合位点。选择对应于模板文库中所需编码位置的阵列。将阵列置于腔室中,所述腔室在两侧提供1-2mm的间隙,并倒入13ml文库溶液。将腔室密封并在37℃下轻轻摇动48小时。任选地,将阵列放置在允许包含文库的溶液被定向送通过预先图案化的路径中的各种特征的装置中,作为更快地对阵列上的文库进行分选的手段。
[0250] 从杂交阵列洗脱出分选的文库。通过开启腔室并用新鲜的1x杂交缓冲液替换杂交溶液,然后在37℃下摇动30分钟来洗涤阵列。用杂交缓冲液重复洗涤3次,然后用1/4x杂交缓冲液重复洗涤2次。然后从阵列中洗脱出文库。将阵列置于阵列-孔板衔接子中,并向每个孔中加入30μl的10mM NaOH、0.005% X-100并温育2分钟。将溶液在离心机中旋转通过阵列进入孔板中。洗脱程序进行3次。通过向每个孔中依次添加9μl的1M Tris pH 
7.4和9μl的1M HOAc来中和所分选的文库溶液。
[0251] 在分选的文库上进行类肽偶联化学步骤。将15μl的SuperQ 650M树脂等分试样加入到过滤板的每个孔中,并用100μl的10mM HOAc洗涤。将分选的文库从孔板中互相对准地转移,所述文库是在从杂交阵列洗脱出来的过程中被旋转到带有离子交换树脂的孔板中的。将树脂和文库用1x90μl的10mM HOAc、2x90μl dH2O、2x90μl DMF、1x90μl哌啶洗涤。另外,制备含有100mM氯乙酸钠和150mM 4-(4,6-二甲氧基-1,3,5-三嗪-2-基)-4-甲基吗啉鎓氯化物的甲醇溶液。向每个树脂孔中加入40μl的该溶液,并在室温下反应30分钟。用3x90μl甲醇洗涤树脂,然后重复偶联并用3x90μl甲醇、3x90μl DMSO洗涤。另外,制备2M(或在必要时饱和)伯胺的DMSO溶液。向每个树脂孔中加入40μl的一种伯胺溶液,并在37℃下反应12小时。用3x90μl DMSO、3x90μl 10mM乙酸(HOAc)、3x90μl dH2O洗涤树脂。用1.5M NaCl、50mM NaOH、0.005% X-100以3×30μl份洗脱出离子交换树脂中的DNA文库。汇集所有反应物,并通过加入Tris至15mM和HOAc至pH 7.4来中和溶液。浓缩并缓冲交换到1X杂交缓冲液中。
[0252] 完成文库的合成。使用上文关于杂交阵列上的文库分选的方案,以及使用上文关于进行肽或类肽化学的方案,或者下文在实施例10-32中进行其它化学步骤的方案,进行另外三个分选和合成步骤,并且将文库完全翻译。
[0253] 制备文库以供选择。一旦文库的翻译完成,通过将小于或等于1.0μM的作为模板的文库,1x DREAMT AQTM缓冲液,1000x dNTP[模板],0.2U/μl的DREAMTAQTM聚合酶和对于每种dNTP来说等摩尔量的MgCl2补充物组合在dH2O中而任选地使单链区域成为双链的。应注意,3'端的反应位点衔接子将作为该反应的引物。将混合物加热至95℃持续2分钟,然后在57℃退火10秒并在72℃下延伸10分钟。通过乙醇沉淀来纯化反应。
[0254] 选择与目标蛋白靶标结合的配体。将100μl  PBS中的5μg链亲和素固定在TMMAXISORP 板的4个孔中,在4℃下摇动过夜。用PBST4x340μl洗涤孔。两个孔用200μl酪蛋白封闭,并且另外两个孔用5mg/ml BSA在室温下封闭2小时。用4x340μl PBST洗涤孔。将100μlPBS中的5μg生物素化靶蛋白加入到用酪蛋白封闭的孔中,并加入用BSA封闭的孔中,并在室温下摇动温育1小时(关于蛋白质生物素化的方案,参见Elia,G.2010.Protein 
Biotinylation(蛋白质生物素化).Current Protocols in Protein Science(蛋白质科学中的当前方案).60:3.6:3.6.1-3.6.21)。将含有Tween 20的PBS(PBST)中的100μl翻译文库等分试样加入到未接受靶蛋白的每个孔中,并将100μl PBST加入到接受靶蛋白的两个孔中。将样品在室温下摇动温育1小时。从仅含有固定化靶蛋白和PBST的孔中小心吸出缓冲液。将不含靶标的孔中含有文库的缓冲液小心地转移到含靶标的孔中。将100μl PBST加入到不含靶标的孔中。全部在室温下摇动温育4小时。用移液管小心地移出文库并储存。用
4x340μl PBST洗涤孔。为了洗脱与靶蛋白紧密结合的文库成员,将100μl PBST中过量的生物素加入到孔中并在37℃下温育1小时。小心吸出缓冲液并用作PCR反应的模板。
[0255] 分析选择结果。来自选择之前和之后的文库的PCR产物使用DNA测序服务供应商所要求的引物和方案进行深度测序。供应商包括Fremont CA的Seqmatic和Hay ward,CA的Elim BioPharm。分析每个测序链的末端和内部编码区的编码序列,以推导出用于合成编码部分的结构单元。在选择之前和之后鉴定的文库成员的相对频率表明通过选择使文库成员在群体中富集的程度。对包含选择中幸存的文库成员的各种化学亚组的分析显示了这些部分向文库成员赋予适合性的程度,并且用于进化更适合的分子或预测用于独立合成和分析的类似分子。
[0256] 实施例2:制备和翻译具有单个反应位点衔接子的文库。
[0257] 完全按照实施例1制备具有单个反应位点衔接子的文库,区别在于省略了以下步骤:(a)去除一个末端非编码区,和(b)连接相应的反应位点衔接子。
[0258] 实施例2a:制备和翻译在G的5'端具有单个反应位点衔接子的文库。为了制备在G的编码链的5'端具有单个反应位点衔接子的文库,可以完全按照实施例1制备文库,区别在于在步骤“去除末端非编码区”中,所添加的唯一限制性核酸内切酶应该是SacI。这样做将去除5'末端非编码区,使得5'装载反应位点衔接子可以适当地杂交并连接到模板链。仅使用对5'末端非编码区中的识别位点具有特异性的限制性核酸内切酶,并省略对3'末端非编码区中的识别位点具有特异性的限制性核酸内切酶,会将3'末端非编码区留在原位,从而禁止3'反应位点衔接子连接到该末端。如实施例1中那样在步骤“将装载反应位点衔接子与文库连接”中添加5'装载反应位点衔接子。省略在该步骤中添加3'装载反应位点衔接子。如实施例3、实施例4a和实施例4b中所述,该实施例中的反应位点衔接子可含有大于一个的茎、大于一个的环和大于一个的接头。本领域技术人员应理解,可以使用实施例6a和6b中描述的方法去除如上所述的5'末端非编码区。本领域技术人员应理解,可以在5'末端编码区中设计其它限制性位点,并且可以将不同的限制酶用于此目的。
[0259] 实施例2b:制备和翻译在G的3'端具有单个反应位点衔接子的文库。为了制备在G的编码链的3'端具有单个反应位点衔接子的文库,可以完全按照实施例1制备文库,区别在于在步骤“去除末端非编码区”中,所添加的唯一限制性核酸内切酶应该是EcoRI。这样做将去除3'末端非编码区,使得3'装载反应位点衔接子可以适当地杂交并连接到模板链。仅使用对3'末端非编码区中的识别位点具有特异性的限制性核酸内切酶,并省略对5'末端非编码区中的识别位点具有特异性的限制性核酸内切酶,会将5'末端非编码区留在原位,从而禁止将5'反应位点衔接子连接到该末端。如实施例1中那样,在步骤“将装载反应位点衔接子与文库连接”中添加3'装载反应位点衔接子。省略在该步骤中添加5'装载反应位点衔接子。如实施例3、实施例4a和实施例4b中所述,该实施例中的反应位点衔接子可含有大于一个的茎、大于一个的环和大于一个的接头。本领域技术人员将理解,可以使用实施例6b中描述的方法来如上所述去除3'末端非编码区。本领域技术人员将理解,可以在3'末端编码区中设计其它限制性位点,并且可以将不同的限制酶用于此目的。
[0260] 实施例2c.制备和翻译在合成期间在不同点处连接有反应位点衔接子的文库。可以制备具有2个反应位点衔接子的文库,其中将一个反应位点衔接子连接到模板寡核苷酸G上,在其上安装一些位置结构单元,然后将第二反应位点衔接子连接到G上。首先,使用实施例2a或实施例2b的方法进行。其次,使用实施例1步骤“通过序列特异性杂交对文库进行分选,和从杂交阵列洗脱出分选的文库”,以及如实施例1中所述的安装位置结构单元的任何化学步骤,如肽偶联或类肽偶联,或实施例10-32中描述的任何化学步骤,来安装1个或多个位置结构单元。第三,将第二反应位点衔接子连接到G上。本领域技术人员将理解,可以在连接第二反应位点衔接子之前立即去除第二末端非编码区,或者安装位置结构单元的化学步骤可介于去除第二末端非编码区与连接第二反应位点衔接子之间。
[0261] 实施例3:制备和翻译每个反应位点衔接子具有2个或更多个反应位点的文库。
[0262] 在单个衔接子上具有多个反应位点的文库可以完全按照实施例1或实施例4a制备,区别在于提供带有2个(或更多个)如实施例1或4a中所述用反应性位点修饰的碱基的反应位点衔接子发夹。反应性位点修饰碱基的几种安置是可能的,包括在茎的任一端附近安置具有反应性位点的碱基,或在环区中安置两个反应性位点。当只使用一个衔接子时,或者当使用两个衔接子时,可以在衔接子上安置多个反应性位点。这样的反应位点衔接子是合成的或购自DNA寡核苷酸合成公司,如Coralville,IA的IDT,或Louisville,KY的Eurofins MWG。
[0263] 实施例4a:制备和翻译在反应位点衔接子中具有替代发夹的文库。
[0264] 可以使用实施例1中描述的相同方案在各种情形中制造和使用众多形式的发夹。在较小发夹有利的情况下,茎可以包含少至5个碱基对。此外,在互补茎序列之间包含6-PEG接头的发夹可以代替较大的DNA环。参见Durand,M.等,"Circular dichroism studies of an oligodeoxyribonucleotide containing a hairpin loop made of a hexaethylene glycol chain:conformation and stability(含有由六乙二醇链构成的发夹环的寡脱氧核糖核苷酸的圆二色谱研究:构象和稳定性)."Nucleic acids research 18.21(1990):
6353-6359。对于多重显示有利的情况,给定发夹上的多个编码部分之间的距离以及那些编码部分的安置可能是重要的。
[0265] 编码部分之间的距离是可变的,并且与各个项目的需求相协调。通过在发夹的环区中或附近安装一个接头,并且在反编码序列中或附近或在双链茎区的任一链中的反编码序列附近安装第二个接头,通过增加或减少构成茎的碱基的数量使编码部分之间的距离变大或变小。类似地,通过在环区中或附近安置一个接头,保持茎中的核苷酸数量恒定,但是改变第二接头沿着茎长度的位置,使得编码部分之间的距离变大或变小。任选地,如果两个接头都安置在茎区中,则改变将它们隔开的核苷酸的数量以适合项目的需求。两个接头可以任选地安置在环区中,并且它们之间的碱基数量可以变化以适合项目。
[0266] 如果发夹上编码部分的安置是重要的,例如,如果沿着茎安置的编码部分与安置在环中的编码部分相比对靶分子的接近性不同,则使用具有多个环和茎的发夹。在一个实施方案中,发夹可具有2或3个环和2个茎。该发夹可包含连接到第一茎区的第一链的反编码区,所述第一茎区连接到第一环区,所述第一环区连接到第二茎区的第一链,所述第二茎区连接到第二环区,所述第二环区连接到第二茎区的第二链,所述第二茎区任选连接到第三环区,然后连接到第一茎区的第二链,或者直接连接到第一茎区的第二链。按照特定项目所需,一个或多个接头被安置在一个或多个环中,以及安置在一个或多个茎区中。
[0267] 本领域技术人员将理解,大量的发夹三级结构是可能的,其合并了许多二级结构,包括但不限于内环、凸起和十字形结构,如以下所述:Svoboda,P.等,Cellular and Molecular Life Sciences CMLS,2006年4月,第63卷,第7期,第901-908页;Bikard等,Microbiology And Molecular Biology Reviews,2010年12月,第570-588页;Kari等,DNA Computing Volume 3892of the series Lecture Notes in Computer Science(计算机科学系列讲义的第3892卷,DNA计算)第158-170页;Domaratzki,Theory Comput Syst(2009)44:432-454;Brazda等,BMC Molecular Biology 2011 12:33。本领域技术人员将理解,合并有这种二级和三级结构的发夹寡核苷酸序列由许多DNA合成公司合成,如Sigma-Aldrich、Integrated DNA Technologies(Coralville,Iowa)、Eurofins MWG(Louisville,KY)。应理解,带有用于安装接头的反应性位点或带有接头和反应性位点的修饰碱基可以在合成过程期间安置在发夹中的任何所需位置。本领域技术人员将理解,具有更多二级结构和/或更多信息的发夹将倾向于包含更长的核苷酸序列。
[0268] 实施例4b:制备和翻译在反应位点衔接子中具有替代发夹的文库。
[0269] 利用实施例1中描述的相同方案在各种情形中制造和使用众多形式的发夹。反应位点衔接子的茎区序列可含有一个或多个限制性位点,以允许在茎区中或附近切割。在这些位点处的限制性消化可以释放与固定化的靶标非常紧密的结合剂,并通过去除环区促进PCR扩增,这将使引物能够适当退火。其它信息也可以编码在反应位点衔接子发夹DNA中。一个实例是并入环区中的一系列不同的碱基。当在选择后扩增时,这些不同的碱基将有助于鉴定由于扩增偏差或作为人工产物而在选择中富集的文库成员。另一个实例是指示关于分子的选择或合成历史的信息的特定序列,其类似于实施例7中描述的索引序列。发夹还可以包含荧光标记的碱基或碱基类似物,放射性标记的碱基或碱基类似物,用于定量和分析文库的各个方面及其合成或性能。发夹还可含有碱基或带有促进加工的官能团如生物素的修饰碱基。这样的发夹可以购自定制DNA寡核苷酸的信誉良好的供应商,如Coral ville,IA的IDT,Sigma Aldrich或Louisville,KY的Eurofins MWG。
[0270] 实施例4c.利用其它化学将反应位点衔接子连接到模板链。按照实施例1将反应位点衔接子与模板基因的末端编码区退火并用T4 DNA连接酶连接。可以使用共价栓系反应位点衔接子的其它方法,包括化学或酶促方法。装载反应位点衔接子通过化学方法使用试剂如水溶性碳化二亚胺和溴化氰连接,如以下中所做的:Shabarova等,(1991)Nucleic Acids Research,19,4247-4251;Fed-erova等,(1996)Nucleosides and Nucleotides,15,1137-1147;GryaZnov,Sergei M.等,J.Am.Chem.Soc,第115卷:3808-3809(1993);以及Carriero和Damlia(2003)Journal of Organic Chemistry,68,8328-8338。任选地使用5M溴化氰的乙腈溶液,以与5'磷酸化DNA 1:10v/v比率,在含有1M MES和20mM MgCl2的缓冲液(pH 7.6)中进行化学连接,反应在0℃下进行5分钟。也可以使用制造商的方案通过拓扑异构酶、聚合酶和连接酶进行连接。
[0271] 实施例5:制备和翻译具有单链末端编码区的文库。
[0272] 通过从反应位点衔接子的末端编码区去除寡核苷酸以使末端编码区和任选地全部或部分的茎区是单链的,来制备具有较小空间体积的文库。这完全按照实施例1进行,但有以下例外。在反编码序列中的位置处和反编码区的末端与最近的接头之间的茎中的位置处,将脱氧尿苷并入所提供的反应位点衔接子中。在序列特异性杂交并将装载反应位点衔接子与模板链连接后,对文库进行缓冲交换至来自NEB的1xUDG反应缓冲液中,以20U/ml的浓度加入尿嘧啶-DNA糖基化酶("UDG")并根据制造商的方案在37℃温育30分钟。随后在pH 12下加热至95℃持续20分钟,水解发夹中的无嘧啶位点。通过利用保持在65℃的缓冲液执行的尺寸排阻去除产生的小ssDNA片段。
[0273] 实施例5a.在实施例1的执行期间任选在几个点处从反应位点衔接子的末端编码区去除寡核苷酸。可以任选地完全根据实施例1去除寡核苷酸,区别在于在装载反应位点衔接子连接后,但在添加第一位置结构单元之前,进行实施例5中的程序。可以任选地完全根据实施例1去除寡核苷酸,区别在于在添加第一位置结构单元之后,但在添加任何后续的位置结构单元之前,进行实施例5中的程序。可以任选地完全根据实施例1去除寡核苷酸,区别在于在添加所有位置结构单元之后,进行实施例5中的程序。本领域技术人员将理解,在所需位置切割DNA链的任务是以多种方式实现的,并且存在大量可商购的酶和公开方案以促进该任务;例如,New England Biolabs销售至少10种切口核酸内切酶并公开其使用方案。这里给出的具体实例是示例性的,并且不排除实现使末端编码区和任选地部分发夹是单链的任务的其它方法。
[0274] 实施例6a:使用UDG去除5'末端非编码区。
[0275] 在实施例1中用于去除5'末端非编码区的限制性消化被消除,并用UDG处理和随后的无嘧啶位点的碱性水解来代替。完全按照实施例1制备文库,但其中引发逆转录的寡核苷酸在引物的3'端处或附近并入dU碱基。在逆转录和RNA链的碱基水解后,UDG可以去除尿嘧啶,产生无嘧啶位点,所述无嘧啶位点随后通过热和碱来切割掉(关于UDG的使用和反应条件,参见实施例5),产生准备用于连接装载反应位点衔接子的末端编码区。本领域技术人员将理解,存在多种在所需位置切割单链或双链DNA的方法,并且存在大量可商购的酶和公开方案以促进该任务。这里给出的具体实例是示例性的,并且不排除实现去除5'末端非编码区的任务的其它方法。
[0276] 实施例6b:使用限制酶NdeI去除5'末端非编码区或3'末端非编码区。
[0277] 用于去除5'末端编码区或3'末端编码区或两者的限制性消化是通过在末端非编码区中包括NdeI的识别位点并在逆转录步骤后进行限制性消化来实现的。NdeI具有切割RNA/DNA杂合体以及切割单链DNA的能力。因此,NdeI用于在RNA链的碱水解之前或之后或者在RNA链的碱水解之前和之后切割。
[0278] 实施例6c:使用逆转录引物中的RNA碱基去除5'末端非编码区。使用实施例1的确切方案去除5'末端非编码区,区别在于在步骤“将RNA逆转录成DNA”中使用的引物含有RNA碱基。根据实施例1,在逆转录产物的RNA链水解后,DNA引物中的RNA碱基也将水解,从而去除作为RNA碱基5'的DNA引物的部分。
[0279] 实施例7:式(I)的索引分子。
[0280] 预留或添加编码区以用作索引区域。在根据实施例1制备和翻译文库之后,通过预留用于索引的编码区在杂交阵列上对文库进行分选。通过这种分选生成的子池用于不同目的,针对不同特性、针对不同靶标或针对不同条件下的相同靶标进行选择。任选地,通过PCR独立地扩增不同选择的产物,与其它子池重新汇集,并如实施例1中那样重新翻译。
[0281] 实施例8a:通过替代方法制备基因文库。
[0282] 实施例1描述了通过在提供的文库基因序列的所有内部非编码区处进行限制性消化,然后连接,同时对所有密码子进行组合重新分类。该过程任选地以逐步方式而不是同时进行的。使用实施例1中在步骤“对DNA进行限制性消化以使所有密码子彼此解偶联”中存在的相同反应条件,区别在于加入单个限制性核酸内切酶,而不是所有核酸内切酶。然后使用实施例1中在步骤“对密码子进行组合重新分类以产生基因文库”中存在的相同反应条件,将限制性消化产物重新连接在一起。通过琼脂糖凝胶电泳纯化连接产物,通过PCR扩增,然后用下一个限制酶切割。重复该过程直到基因文库完成。
[0283] 实施例8b:通过替代方法制备基因文库。
[0284] 实施例1和8a描述了通过在所有内部非编码区处进行限制性消化然后连接的所有密码子的组合重新分类。在一些实施方案中,密码子的不完全组合重新分类以产生具有显著更低复杂性的群体将是有利的。通过以下来产生这种基因文库:将实施例1中描述的96种基因序列的混合物分成几个等分试样。然后使用实施例1中在步骤“对DNA进行限制性消化以使所有密码子彼此解偶联”中或在实施例8a中存在的反应条件,通过1-3种限制酶的不同组合对每个等分试样进行限制性消化。在限制酶的热灭活后,按照实施例1的步骤“对密码子进行组合重新分类以产生基因文库”中的方案重新连接独立的消化产物。汇集产物并通过琼脂糖凝胶电泳纯化,通过PCR扩增,并且按照实施例1进行其余的文库制备和翻译和选择。
[0285] 实施例8c:对文库进行基因改组或交叉反应。在如实施例1或实施例8a或实施例8b中描述的文库经过翻译和选择之后,进行基因改组将产生先前在文库中不存在的新的后代表型,或产生对选择中幸存的表型重新取样的后代表型。通过PCR扩增选择后的文库。将PCR产物分成许多等分试样,并对每个等分试样进行实施例8中描述的方案,或者任选地进行实施例1在步骤“对DNA进行限制性消化以使所有密码子彼此解偶联,以及对密码子进行组合重新分类以产生基因文库”中描述的方案。如实施例1或8b所述汇集、纯化和扩增消化/再连接产物,并且按照实施例1进行后续轮次的文库制备、翻译和选择。
[0286] 实施例9:制备和翻译具有替代反应性位点官能团和接头的文库。
[0287] 使用来自游离胺的不同初始反应性位点的文库以几种方式制备。一种方法是用带有所需初始反应性位点官能团的双官能分子封闭现有的初始反应性位点官能团。完全按照实施例1制备文库,区别在于在步骤“反应位点衔接子的装载”中,使用该步骤中列出的肽偶联反应条件,每个反应位点衔接子需要不同的初始反应位点,利用带有羧酸和所需初始反应性位点官能团的双官能化合物,对初始反应性位点官能团胺形成肽键。例如,5-羟基戊酸可与游离胺反应形成肽键,并且建立羟基官能团作为用于合成文库的初始反应性位点。
[0288] 第二种方法是并入用不同反应性位点修饰的不同碱基,其能够或便于安装其它所需的初始反应性位点官能团。一种这样的碱基是由弗吉尼亚州的Glen Research出售的5-乙炔基-dU-CE亚磷酰胺(“乙炔基-dU”)。任选用带有叠氮化物和所需初始反应性位点官能团的双官能接头化合物进行修饰。例如,5-叠氮基戊酸可以在实施例25中存在的条件下在“点击”反应(Huisgen反应)中与炔基部分反应,从而建立羧酸作为初始反应性位点官能团。作为另一个代表性但非包括性的实例,5-叠氮基1-戊醛可以在“点击”反应(Huisgen反应)中与炔基部分反应,从而建立醛作为初始反应性位点官能团。作为另一个代表性实例,4-叠氮基,1-溴甲基苯可以在“点击”反应(Huisgen反应)中与炔基部分反应,从而建立苄基卤化物作为初始反应性位点官能团。该碱基任选地用作文库合成的炔基初始反应性位点,所述文库合成使用选自实施例10-33的适合于炔烃的化学。理想的初始反应性位点包括但不限于胺、叠氮化物、羧酸、醛、烯烃、丙烯酰基团、苄基卤化物、α-羰基卤化物和1,3-二烯。
[0289] 第三种方法是在合成反应位点衔接子发夹期间并入用接头和初始反应性位点官能团两者修饰的碱基。例如,在发夹合成期间在关键位置并入5'-二甲氧基三苯甲基-N6-苯甲酰基-N8-[6-(三氟乙酰基氨基)-己-1-基]-8-氨基-2'-脱氧腺苷-3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为氨基修饰剂C6dA,购自Glen Research,Sterling VA)将建立游离胺作为初始反应性位点官能团和6碳烷基链作为接头,并入5'-二甲氧基三苯甲基-N2-[6-(三氟乙酰基氨基)-己-1-基]-2'-脱氧鸟苷-3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为氨基修饰剂C6dG,购自Glen Research,Sterling,VA)也会如此。在发夹合成期间在关键位置并入5'-二甲氧基三苯甲基-5-[3-甲基-丙烯酸酯]-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为羧基dT,购自Glen Research,Sterling VA)将建立羧酸作为初始反应性位点官能团和2碳链作为接头。在发夹合成期间在关键位置并入5'-二甲氧基三苯甲基-5-N-((9-芴基甲氧基羰基)-氨基己基)-3-丙烯酰亚胺基]-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为Fmoc-氨基修饰剂C6 dT,Glen Research,Sterling,VA)将建立Fmoc保护的胺作为初始反应性位点官能团和6碳烷基链作为接头。在发夹合成期间在关键位置并入5'-二甲氧基三苯甲基-5-(辛-1,7-二炔基)-2'-脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为C8炔烃dT,Glen Research,Sterling VA)将建立炔烃作为初始反应性位点官能团和8碳链作为接头。在发夹合成期间在关键位置并入5'-(4,4'-二甲氧基三苯甲基)-5-[N-(6-(3-苯甲酰基硫代丙酰基)-氨基己基)-3-丙烯酰胺基]-2'脱氧尿苷,3'-[(2-氰基乙基)-(N,N-二异丙基)]-亚磷酰胺(也称为S-Bz硫醇修饰剂C6-dT,Glen Research,Sterling VA)将建立硫醇作为初始反应性位点官能团和14个原子链作为接头。在发夹合成期间在关键位置并入N4-TriGl-氨基2'脱氧胞苷(来自IBA GmbH,Goettingen,Germany)将建立胺作为初始反应性位点官能团和3-乙二醇单元链作为接头。
[0290] 合适的接头执行两个关键功能:(i)它们将发夹共价栓系至结构单元,和(ii)它们不干扰式(I)分子的合成或使用中的其它关键功能。因此,在一些实施方案中,接头是烷基链或PEG链,因为(a)它们是高度柔性的,允许在选择期间适当且自由地将编码部分展示给靶分子,和(b)因为它们是相对化学惰性的并且在式(I)分子的合成期间通常不发生副反应。为了充分执行大多数但不是所有的任务,接头无需包含大于约8个PEG单元的总长度。本领域技术人员将理解,当其中文库DNA必须尽可能远离靶分子或靶结构或靶表面进行选择时,长得多的接头和/或硬得多的接头如肽α螺旋将是有用且有吸引力的。其它期望的接头可包括聚甘氨酸、聚丙氨酸或多肽。还使用以与编码部分结合正交或者与编码部分结合互补的的方式并入荧光团、放射性标记物或用于结合式(I)分子的功能部分的接头。例如,在某些情况下,可能需要在接头中并入生物素以固定文库。将已知配体并入靶分子的一个结合口袋也可能是有用的,作为对可以结合相同靶分子的第二结合口袋的编码部分进行选择的手段。
[0291] 可以任选地使用不同的接头和不同的反应位点衔接子上的不同化学来制备文库。5'反应位点衔接子上的一个或多个接头可以带有一种类型的接头和一种类型的反应性位点官能团,而3'反应位点衔接子带有不同的接头和相同的反应性位点官能团,或者不同的接头和不同的反应性位点官能团。本文所述的任何接头和官能团都适用于本实施例,条件是后续安装位置结构单元所需的化学与第一结构单元D和第二结构单元E上的官能团相容,所述官能团与其相应发夹上的反应性位点官能团反应。
[0292] 该相容性具有两种模式。在第一种模式中,使用不同的化学来装载反应位点衔接子,但第一结构单元D和第二结构单元E都能够在下一步或后续的下游步骤中进行相同的化学转化。在第二种模式中,使用不同的化学来装载反应位点衔接子,并且后续的下游步骤需要不同的化学。该第二种模式要求新生5'编码部分上的官能团、5'端的进入位置结构单元上的官能团以及用于该偶联的化学,与新生3'编码部分上存在的官能团不发生反应。同样,该第二种模式要求新生3'编码部分上的官能团、3'端的进入位置结构单元上的官能团以及用于该偶联的化学,与新生5'编码部分上存在的官能团不发生反应。在3'和5'反应位点衔接子上使用正交化学安装结构单元的步骤可以按任何顺序进行。此外,本领域技术人员将理解,在给定合成步骤中安装的多样性结构单元中,不执行任何结构单元的安装是重要的多样性元件。用于这些步骤的适当化学包括但不限于实施例10-32和实施例1中描述的化学。
[0293] 实施例10:使用Suzuki偶联化学来合成编码部分。
[0294] 将带有芳基碘作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于水中。向其中加入50当量的呈200mM二甲基乙酰胺储备溶液形式的硼酸,300当量的呈200mM水溶液形式的碳酸钠,0.8当量的呈10mM二甲基乙酰胺储备溶液形式的乙酸钯和预混合的20当量的呈100mM水溶液形式的3,3',3"膦烷三基三(苯磺酸)三钠盐。混合物在65℃反应1小时,然后通过乙醇沉淀来纯化。将DNA文库溶解在缓冲液中至1mM并且加入120当量的呈400mM水溶液形式的硫化钠,然后在65℃下反应1小时。用dH2O将产物稀释至200μl并通过离子交换色谱法纯化(参见Gouliaev,A.H.,Franch,T.P.O.,Godskesen,M.A.和Jensen,K.B.(2012)Bi-functional Complexes and methods for making and using such complexes(双官能复合物以及这种复合物的制备和使用方法).专利申请WO 2011/127933 A1)。
[0295] 实施例11:使用Sonogashira偶联化学来合成编码部分。
[0296] 将带有芳基碘作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于水中。向其中加入100当量的呈200mM二甲基乙酰胺储备溶液形式的炔烃,300当量的呈200mM二甲基乙酰胺储备溶液形式的吡咯烷,0.4当量的呈10mM二甲基乙酰胺储备溶液形式的乙酸钯,2当量的呈100mM水溶液形式的3,3',3"膦烷三基三(苯磺酸)三钠盐。反应在65℃下进行2小时,然后通过乙醇沉淀或通过离子交换色谱法进行纯化。(参见(1)Liang,B.,Dai,M.,Chen,J.和Yang,Z.(2005)Cooper-free sonogashira coupling reaction with PdCl2 in water under aerobic conditions(在无氧条件下在水中与PdCl2的不含铜的sonogashira偶联反应)
.J.Org.Chem.70,391-393;(2)Li,N.,Lim,R.K.V.,Edwardraja,S.和Lin,Q.(2011)Copper-free Sonogashira cross-coupling for functionalization of alkyne encoded proteins in aqueous medium and in bacterial cells(用于在水性介质中和细菌细胞中炔烃编码的蛋白质的官能化的不含铜的Sonogashira交叉偶联).J.Am.Chem.Soc.133,
15316-15319;(3)Marziale,A.N.,Schlüter,J.和Eppinger,J.(2011)An efficient protocol for copper-free palladium-catalyzed Sonogashira crosscoupling in aqueous media at low temperatures(在水性介质中在低温下不含铜的钯催化的
Sonogashira交叉偶联的有效方案).Tetrahedron Lett.52,6355-6358;(4)Kanan,M.W.,Rozenman,M.M.,Sakurai,K.,Snyder,T.M.和Liu,D.R.(2004)Reaction discovery enabled by DNA-templated synthesis and in vitro selection(通过DNA模板合成和体外选择实现反应发现).Nature 431,545-549。)
[0297] 实施例12:使用氨基甲酰化来合成编码部分。
[0298] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于水中。向其中加入1:4v/v三乙胺,50当量的呈200mM二甲基乙酰胺储备溶液形式的二-2-吡啶基碳酸酯。反应在室温下进行2小时,然后在室温下加入40当量的呈200mM二甲基乙酰胺储备溶液形式的胺,持续2小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见(1)Artuso,E.,Degani,I.和Fochi,R.(2007)Preparation of mono-,di-,and trisubstituted ureas by carbonylation of aliphatic amines with S,S-dimethyl dithiocarbonate(通过用S,S-二甲基二硫代碳酸酯将脂族胺羰基化来制备单、二和三取代的脲).Synthesis 22,3497-3506;(2)Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for 
efficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)
[0299] 实施例13:使用硫脲化来合成编码部分。
[0300] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于水中。在室温下向其中加入20当量的呈200mM二甲基乙酰胺储备溶液形式的2-吡啶基硫代碳酸酯,持续30分钟。然后在室温下加入
40当量的呈200mM二甲基乙酰胺储备溶液形式的胺,并缓慢升温至60℃并反应18小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Deprez-Poulain,R.F.,Charton,J.,Leroux,V.和Deprez,B.P.(2007)Convenient synthesis of 4H-1,2,4-triazole-3-thiols using di-2-pyridylthionocarbonate(使用二-2-吡啶基硫代碳酸酯方便地合成4H-1,2,4-三唑-
3-硫醇).Tetrahedron Lett.48,8157-8162。)
[0301] 实施例14:使用胺的还原性单烷基化来合成编码部分。
[0302] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于水中。向其中加入40当量的呈200mM二甲基乙酰胺储备溶液形式的醛,并在室温下反应1小时。然后加入40当量的呈200mM乙腈储备溶液形式的硼氢化钠,并在室温下反应1小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Abdel-Magid,A.F.,Carson,K.G.,Harris,B.D.,Maryanoff,C.A.和Shah,R.D.(1996)Reductive amination of  aldehydes and ketones with  sodium triacetoxyborohydride(用三乙酰氧基硼氢化钠对醛和酮进行还原胺化)
.J.Org.Chem.61,3849-3862。)
[0303] 实施例15:使用杂芳基化合物的SNAr来合成编码部分。
[0304] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于水中。向其中加入60当量的呈200mM二甲基乙酰胺储备溶液形式的杂芳基卤化物,并在60℃下反应12小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for efficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)
[0305] 实施例16:使用Horner-Wadsworth-Emmons化学来合成编码部分。
[0306] 将带有醛作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入50当量的呈200mM二甲基乙酰胺储备溶液形式的2-(二乙氧基磷酰基)乙酸乙酯和50当量的呈200mM水溶液形式的碳酸铯,并在室温下反应16小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Manocci,L.,Leimbacher,M.,Wichert,M.,Scheuermann,J.和Neri,D.(2011)
20years of  DNA-encoded chemical  libraries(20年的DNA编码化学库)
.Chem.Commun.47,12747-12753。)
[0307] 实施例17:使用磺酰化来合成编码部分。
[0308] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入40当量的呈200mM二甲基乙酰胺储备溶液形式的磺酰氯,并在室温下反应16小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for efficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)
[0309] 实施例18:使用三氯-硝基-嘧啶来合成编码部分。
[0310] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。在5℃下向其中加入20当量的呈200mM二甲基乙酰胺储备溶液形式的三氯-硝基-嘧啶(TCNP)。将反应物经一小时升温至室温并通过乙醇沉淀来纯化。将DNA文库以1mM溶解于pH9.4的硼酸盐缓冲液中,并且加入40当量的呈200mM二甲基乙酰胺储备溶液形式的胺,100当量的纯三乙胺,并在室温下反应2小时。通过乙醇沉淀来纯化文库。将DNA文库立即溶解在硼酸盐缓冲液中以立即反应,或者将其汇集,在阵列上重新分选,然后溶解在硼酸盐缓冲液中,随后使其与50当量的呈200mM二甲基乙酰胺储备溶液形式的胺和100当量的三乙胺反应并在室温下反应24小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Roughley,S.D.和Jordan,A.M.(2011)The medicinal chemist's toolbox:an analysis of reactions used in the pursuit of drug candidates(药物化学家的工具箱:用于寻求药物候选物的反应的分析).J.Med.Chem.54,3451-3479。)
[0311] 实施例19:使用三氯嘧啶来合成编码部分。
[0312] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入50当量的呈200mM DMA储备溶液形式的2,4,6-三氯嘧啶,并在室温下反应3.5小时。将DNA在乙醇中沉淀,然后以1mM重新溶解在pH 9.4的硼酸盐缓冲液中。向其中加入40当量的呈
200mM乙腈储备溶液形式的胺,并在60-80℃下反应16小时。通过乙醇沉淀来纯化产物,然后将DNA文库立即溶解在硼酸盐缓冲液中以立即反应,或者将其汇集,在阵列上重新分选,然后溶解在硼酸盐缓冲液中,随后使其与60当量的呈200mM二甲基乙酰胺(DMA)储备溶液形式的硼酸和200当量的呈500mM水溶液形式的氢氧化钠、2当量的呈10mM DMA储备溶液形式的乙酸钯和20当量的呈100mM水溶液形式的三(3-磺基苯基)膦三钠盐(TPPTS)反应,并在75℃下反应3小时。将DNA在乙醇中沉淀,然后以1mM溶解于水中,并与120当量的呈400mM水储备溶液形式的硫化钠在65℃下反应1小时。通过乙醇沉淀或离子交换色谱法纯化产物。
[0313] 实施例20:使用Boc脱保护来合成编码部分。
[0314] 将带有Boc保护的胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以0.5mM溶解于pH 9.4的硼酸盐缓冲液中,并加热至90℃持续16小时。通过乙醇沉淀、尺寸排阻色谱法或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for efficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)
[0315] 实施例21:使用叔丁酯的水解来合成编码部分。
[0316] 将带有叔丁酯作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于硼酸盐缓冲液中,并在80℃下反应2小时。通过乙醇沉淀、尺寸排阻色谱法或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for 
efficient synthesis of large libraries(用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)
[0317] 实施例22:使用Alloc脱保护来合成编码部分。
[0318] 将带有Alloc保护的胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入10当量的呈10mM DMA储备溶液形式的四(三苯基膦)钯和10当量的呈200mM乙腈储备溶液形式的硼氢化钠,并在室温下反应2小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Beugelmans,R.,Neuville,M.B.-C,Chastanet,J.和Zhu,J.(1995)Palladium catalyzed reductive deprotection of Alloc:Transprotection and peptide bond formation(钯催化的Alloc还原脱保护:转保护和肽键形成).Tetrahedron Lett.36,3129。)
[0319] 实施例23:使用甲酯/乙酯的水解来合成编码部分。
[0320] 将带有甲酯或乙酯作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于硼酸盐缓冲液中,并在60℃下与100当量的NaOH反应2小时。通过乙醇沉淀、尺寸排阻色谱法或离子交换色谱法纯化产物。(参见Franch,T.,Lundorf,M.D.,Jacobsen,S.N.,Olsen,E.K.,Andersen,A.L.,Holtmann,A.,Hansen,A.H.,Sorensen,A.M.,Goldbech,A.,De Leon,D.等,Enzymatic encoding methods for efficient synthesis of large libraries (用于有效合成大型文库的酶促编码方法).WIPO WO 2007/062664 A2,2007。)
[0321] 实施例24:使用硝基的还原来合成编码部分。
[0322] 将带有硝基作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于水中。向其中加入10%体积当量的Raney镍浆料、10%体积当量的呈400mM水溶液形式的肼,并在室温下在摇动下反应2-24小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Balcom,D.和Furst,A.(1953)Reductions with hydrazine hydrate catalyzed by Raney nickel(Raney镍催化的水合肼的还原).J.Am.Chem.Soc.76,4334-4334。)
[0323] 实施例25:使用“点击”化学来合成编码部分。
[0324] 将带有炔烃或叠氮基团作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于100mM磷酸盐缓冲液中。向其中加入硫酸铜至625μM,THPTA(配体)至3.1mM,氨基胍至12.5mM,抗坏血酸盐至12.5mM,和叠氮化物至1mM(如果DNA带有炔烃的话)或炔烃至1mM(如果DNA带有叠氮化物的话)。反应在室温下进行4小时。通过乙醇沉淀、尺寸排阻色谱或离子交换色谱法纯化产物。(参见Hong,V.,Presolski,Stanislav I.,Ma,C.和Finn,M.G.(2009),Analysis and 
Optimization of Copper-Catalyzed Azide-Alkyne Cycloaddition  for 
Bioconjugation(用于生物共轭的铜催化叠氮化物-炔烃环加成的分析与优化)
.Angewandte Chemie International Edition,48:9879-9883。)
[0325] 实施例26:合成合并有苯并咪唑的编码部分。
[0326] 将带有芳基邻二胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入60当量的呈200mMDMA储备溶液形式的醛,并在60℃下反应18小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见(1)Mandal,P.,Berger,S.B.,Pillay,S.,Moriwaki,K.,Huang,C,Guo,H.,Lich,J.D.,Finger,J,Kasparcova,V.,Votta,B.等,(2014)RIP3induces apoptosis independent of pronecrotic kinase activity(RIP3诱导凋亡而不依赖于促坏死的激酶活性).Mol.Cell 56,481-495;(2)Gouliaev,A.H.,Franch,T.P.-O.,Godskesen,M.A.和Jensen,K.B.(2012)Bi-functional Complexes and methods for making and using such complexes(双官能复合物以及这种复合物的制备和使用方法).专利申请WO 2011/127933 A1;(3)Mukhopadhyay,C和Tapaswi,P.K.(2008)Dowex 50W:A highly efficient and recyclable green catalyst for the construction of the 2-substituted benzimidazole moiety in aqueous medium(Dowex 50W:一种用于在水性介质中构建2-取代的苯并咪唑部分的高效且可再循环的绿色催化剂).Catal.Commun.9,
2392-2394。)
[0327] 实施例27:合成合并有咪唑烷酮的编码部分。
[0328] 将带有α-氨基-酰胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的1:3甲醇:硼酸盐缓冲液中。向其中加入60当量的呈200mM DMA储备溶液形式的醛,并在60℃下反应18小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见(1)Barrow,J.C,Rittle,K.E.,Ngo,P.L.,Selnick,H.G,Graham,S.L.,Pitzenberger,S.M.,McGaughey,G.B.,Colussi,D.,Lai,M.-T.,Huang,Q.等,(2007)Design and synthesis of 2,3,5-substituted imidazolidin-4-one inhibitors of BACE-1(BACE-1的2,3,5-取代的咪唑烷-4-酮抑制剂的设计和合成).Chem.Med.Chem.2,995-999;(2)Wang,X.-J,Frutos,R.P.,Zhang,L.,Sun,X.,Xu,Y.,Wirth,T.,Nicola,T.,Nummy,L.J,Krishnamurthy,D.,Busacca,C.A.,Yee,N.和
Senanayake,C.H.(2011)Asymmetric synthesis of LFA-1inhibitor BIRT2584on metric ton scale(公吨规模的LFA-1抑制剂BIRT2584的不对称合成).Org.Process Res.Dev.15,
1185-1191;(3)Blass,B.E.,Janusz,J.M.,Wu,S.,Ridgeway,J.M.II,Coburn,K.,Lee,W.,Fluxe,A.J.,White,R.E.,Jackson,C.M.和Fairweather,N.4-Imidazolidinones as KV 
1.5Potassium channel inhibitors(作为KV 1.5通道抑制剂的4-咪唑烷酮).WIPO WO2009/079624 A1,2009。)
[0329] 实施例28:合成合并有喹唑啉酮的编码部分。
[0330] 将带有2-苯胺基-1-苯甲酰胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入200当量的呈1M水溶液形式的NaOH和呈200mM DMA储备溶液形式的醛,并在90℃下反应14小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Witt,A.和Bergmann,J.(2000)Synthesis and reactions of some 2-vinyl-3H-quinazolin-4-ones(一些2-乙烯基-3H-喹唑啉-4-酮的合成和反应).Tetrahedron 56,7245-7253。)
[0331] 实施例29:合成合并有异吲哚啉酮的编码部分。
[0332] 将带有胺作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入呈200mM DMA储备溶液形式的4-溴,2-烯甲酯,并在60℃下反应2小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Chauleta,C,Croixa,C,Alagillea,D.,Normand,S.,Delwailb,A.,Favotb,L.,Lecronb,J.-C和Viaud-Massuarda,M.C.(2011)Design,synthesis and biological evaluation of new thalidomide analogues as TNF-αand IL-6production inhibitors(作为TNF-α和IL-6产生抑制剂的新型沙利度胺类似物的设计、合成和生物学评估).Bioorg.Med.Chem.Lett.21,1019-1022。)
[0333] 实施例30:合成合并有噻唑的编码部分。
[0334] 将带有硫脲作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入50当量的呈200mM DMA储备溶液形式的溴酮,并在室温下反应24小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见Potewar,T.M.,Ingale,S.A.和Srinivasan,K.V.(2008)Catalyst-free efficient synthesis of 2-aminothiazoles in water at ambient temperature(在环境温度下在水中在无催化剂条件下有效合成2-氨基噻唑).Tetrahedron 64,5019-5022。)
[0335] 实施例31:合成合并有咪唑并吡啶的编码部分。
[0336] 将带有芳基醛作为反应位点衔接子上的反应性位点,作为装载反应位点衔接子上的结构单元或作为部分翻译分子的DNA文库以1mM溶解于pH 9.4的硼酸盐缓冲液中。向其中加入50当量的呈200mMDMA储备溶液形式的2-氨基吡啶,和2500当量的呈1M水溶液形式的NaCN,并在90℃下反应10小时。通过乙醇沉淀或离子交换色谱法纯化产物。(参见(1)Alexander Lee Satz,Jianping Cai,Yi Chen,Robert Goodnow,Felix Gruber,Agnieszka Kowalczyk,Ann Petersen,Goli Naderi-Oboodi,Lucja Orzechowski和Quentin Strebel.DNA Compatible Multistep Synthesis and Applications to DNA Encoded libraries(DNA相容性多步骤合成及其在DNA编码文库中的应用)Bioconjugate Chemistry 
2015 26(8),1623-1632;(2)Beatch,G.N.,Liu,Y.和Plouvier,B.M.C.PCT国际申请
2001096335,2001年12月20日;(3)Inglis,S.R,Jones,R.K.,Booker,G.W.和Pyke,S.M.(2006)Synthesis of N-benzylated-2-aminoquinolines as ligands for the Tec SH3domain(作为Tec  SH3结构域的配体的N-苄基化-2-氨基喹啉的合成)
.Bioorg.Med.Chem.Lett.16,387-390。)
[0337] 实施例32:使用各种其它化学来合成编码部分。
[0338] 在Handbook for DNA-Encoded Chemistry(DNA编码化学手册)(Goodnow R.A.,Jr.编)第319-347页,2014Wiley,纽约中参考列出了31种类型的相容化学反应。它们包括三氯三嗪的SNAr反应,二醇氧化成乙二醛化合物,Msec脱保护,Ns脱保护,Nvoc脱保护,戊烯酰基脱保护,吲哚-苯乙烯偶联,Diels-Alder反应,Wittig反应,Michael加成,Heck反应,Henry反应,硝酮与活化烯烃的1,3-偶极环加成, 唑烷的形成,三氟乙酰胺脱保护,烯烃-炔烃氧化偶联,闭环复分解和醛醇反应。在该参考文献中公开了具有在DNA存在下起作用的潜力并且适合使用的其它反应。
[0339] 实施例33:在文库制备中使用不同的限制酶。
[0340] 应理解,在其它实施例中提及的限制酶是代表性的,并且其它限制酶可以在平等或有利的情况下提供相同的目的。
[0341] 实施例34.另一种制备基因文库的方法。用约4至约40个核苷酸的编码区制备文库。按照实施例1制备和翻译该文库,但有以下例外。通过购买两组寡核苷酸即寡核苷酸的编码链组和寡核苷酸的反编码链组来构建文库。每个组包含与存在的编码区同样多的子集,并且每个子集中存在与编码区的不同编码序列同样多的不同序列。编码链寡核苷酸的每个子集中的每个寡核苷酸包含编码序列和任选地5'非编码区。反编码链寡核苷酸的每个子集中的每个寡核苷酸包含反编码序列和任选地5'非编码区互补序列。为了促进该过程下游的连接,除编码和反编码链的5'末端之外的所有寡核苷酸以5'磷酸化购买,或者根据制造商的方案用来自NEB的T4PNK磷酸化。将具有编码链5'末端编码序列的寡核苷酸子集与具有3'末端反编码序列的子集组合在来自NEB的T4DNA连接酶缓冲液中,并允许两组杂交。这样做产生的产物包括编码链上的单链5'悬端非编码区,双链编码区,和反编码链上的任选的单链5'悬端非编码区。对于寡核苷酸子集的每个编码/反编码对,分别进行该杂交程序。例如,将编码从5'端起的第二编码区的序列子集与其互补反编码子集杂交,将编码从5'端起的第三编码区的子集与其互补子集杂交,等等。将杂交的子集对汇集,并任选通过琼脂糖凝胶电泳来纯化。如果文库中的基因具有长度为1个碱基以上的非编码区,并且如果编码区之间的非编码区是独一的,则将等摩尔量的每个杂交的子集对添加到单个容器中。单链非编码区杂交,并使用制造商的方案通过来自NEB的T4 DNA连接酶彼此连接。如果非编码区的长度是1个碱基以上,但不是独一的,则将两个相邻的杂交子集添加到一个容器中,单链非编码区退火,并用T4 DNA连接酶进行连接。在反应完成后,任选通过琼脂糖凝胶电泳纯化产物,并加入与连接产物的一个末端相邻的第三杂交子集,退火并连接。重复该过程直到完成文库的构建。应理解,通过该方法构建了包含任意数量的编码区的文库。对于当前的目的,由于与文库构建无关的原因,超过20个编码区的文库可能是不切实际的。应理解,本领域技术人员通常进行钝端连接,并且编码区在不插入非编码区的情况下进行连接,但是对于在任一端不具有非编码区的杂交子集,连接提供正义和反义产物两者。通过制备文库并在所有杂交阵列上依次分选,将具有正确的正义的产物从具有反义的产物中提纯出来。在每个杂交步骤中在阵列上捕获的文库的部分具有正确的正义。应理解,仅包含独一限制性位点序列的非编码区是该方法的有吸引力的选择。
[0342] 实施例34.构建具有相应末端编码区的基因文库。构建其中5'末端编码区和3'末端编码区编码相同的结构单元或相同的一对不同的结构单元的文库。如果具有给定5'末端编码序列的基因文库的每个成员仅具有一个3'末端编码序列,则可以实现这一点。使用实施例33的方法构造这样的文库,区别在于不汇集用于5'末端编码区的杂交子集对,并且不汇集3'末端编码区。按照实施例33汇集并连接所有内部编码区。将连接所有内部编码区的产物分成等分试样,并将一个等分试样添加到每个5'末端杂交的子集序列并连接。每个孔中的连接产物具有单个5'末端编码序列,但具有所有内部编码区处的所有序列的组合混合物。将具有单个5'末端编码序列的这些连接产物独立地转移到含有单个3'末端杂交子集序列的孔中并连接。每个孔中的产物是包含单个5'末端编码序列、单个3'末端编码序列和所有内部编码区处的所有序列的组合混合物的基因。应理解,存在产生相同所得文库的其它方式。
[0343] 实施例35.使用替代方法来执行对于结合靶分子的选择。根据实施例1进行鉴定能够结合靶分子的文库成员的选择,区别在于靶分子被固定在塑料板如 板、板或通常用于固定生物大分子以进行ELISA的其它板的表面上,或者靶分子
被生物素化并固定在链亲和素包被的表面或中性亲和素包被的表面或亲和素包被的表面上,包括磁珠,由合成聚合物制成的珠粒,由多糖或修饰多糖制成的珠粒,板孔,管和树脂。
应理解,鉴定具有所需性状的文库成员的选择将在与DNA相容、与保持任何靶分子处于天然构象相容、与选择或扩增过程中使用的任何酶相容、且与性状阳性文库成员的鉴定相容的缓冲液中进行。这些缓冲液包括但不限于用磷酸盐、柠檬酸盐和TRIS制成的缓冲液。此类缓冲液还可包括但不限于钾、钠、铵、、镁和其它阳离子以及氯离子、碘离子、乙酸根离子、磷酸根离子、柠檬酸根离子和其它阴离子的盐。此类缓冲液可包括但不限于表面活性剂,如TRITONTM和Chaps(3-[(3-胆酰胺基丙基)二甲基铵基]-1-丙磺酸盐)。
[0344] 实施例36.选择具有低解离速率的结合剂。如实施例1中所述,进行选择以鉴定具有结合靶分子能力的文库群体中的个体。如下选择以低解离速率结合靶分子的个体。靶分子通过生物素化被固定,并与链亲和素包被的表面一起温育,或任选在未经生物素化的情况下固定在塑料表面如 板或一些适合于结合蛋白质的其它板上以进行ELISA样测定,或通过实施例35中所述的方法,或通过另一种方法。将文库群体与固定的靶标在适当的缓冲液中温育0.1至8小时。温育的持续时间取决于样品中每个单独文库成员的估计拷贝数和固定的靶分子数。随着个体拷贝数越高和靶分子负载越高,持续时间可能会缩短。随着拷贝数越小和/或靶分子负载越小,持续时间可能会延长。目标是确保群体中的每名个体都有机会与靶标完全相互作用。在将文库与固定的靶标温育后,假定文库中的结合剂与靶标结合。此时,将过量的未固定化靶标加入到系统中,并继续温育约1至约24小时。
具有高解离速率的与固定化靶标结合的任何个体可以从固定化靶标释放,并且在重新结合后分成被游离靶标结合和被固定化靶标结合。以低解离速率结合的个体将保持与固定化靶标结合。洗涤固定化表面优先去除非结合剂和具有快速解离速率的结合剂,从而选择具有低解离速率的个体。根据实施例1进行编码低解离速率结合剂的DNA的扩增。
[0345] 实施例37.用移动靶标进行选择。进行选择,其中靶分子被生物素化,然后与文库一起温育适当的持续时间。然后将混合物固定在例如链亲和素表面上,于是靶标被固定,并且与靶标结合的任何文库成员也被固定。洗涤表面去除了非结合剂。根据实施例1进行编码结合剂的DNA的扩增。
[0346] 实施例38.针对靶标特异性进行选择。进行选择以鉴定文库群体中与所需靶分子结合的个体,以排除其它抗靶标分子。抗靶标分子(或多个抗靶标分子,如果存在多于一个的话)被生物素化并固定在链亲和素包被的表面上,或任选地固定在塑料表面如板或一些适合于结合蛋白质的其它板上以进行ELISA样测定。在单独的容器
中,靶分子通过生物素化被固定,并与链亲和素包被的表面一起温育,或任选地固定在塑料表面如 板或一些适合于结合蛋白质的其它板上以进行ELISA样测定。首先将
文库与抗靶标一起温育。这耗尽了结合抗靶标分子的个体群体。在与抗靶标温育后,将文库转移到具有所需靶标的容器中并温育适当的持续时间。洗涤去除了非结合剂。根据实施例1进行编码低解离速率结合剂的DNA的扩增。所鉴定的靶标结合剂与抗靶标相比选择性结合靶标的概率提高。任选地,通过固定靶标,过量添加游离的移动抗靶标,然后添加文库并温育适当的持续时间来进行对靶标的亲和性的选择。在该方案下,对抗靶标具有亲和性的个体优先被抗靶标结合,因为它过量存在,因此可以在表面洗涤期间去除。根据实施例1进行编码结合剂的DNA的扩增。
[0347] 实施例39.基于差异迁移率的选择。基于文库成员当在靶分子或聚大分子结构与文库成员相互作用时形成的复合物中的迁移率差异,基于文库群体中的个体与靶分子或聚大分子结构相互作用的能力进行选择。允许靶分子或结构和文库成员相互作用,然后使混合物通过尺寸排阻介质导致不与靶分子或结构相互作用的文库成员与发生相互作用的文库成员物理分离,因为相互作用的文库成员和靶分子或结构的复合物将大于非相互作用的文库成员,因此以不同的迁移率移动通过介质。应理解,在不存在尺寸排阻介质的情况下,迁移率的差异可以是扩散的函数,可以通过各种手段诱导迁移率,包括但不限于重力流、电泳和扩散。
[0348] 实施例40.其它选择的一般策略。本领域技术人员将理解,对于几乎任何特性进行选择,条件是所设计的测定法(a)将具有所需特性的文库群体中的个体与不具有所需特性的个体物理分离,或(b)允许具有所需特性的文库群体中的DNA编码个体相比于不具有所述特性的DNA编码文库成员优先被扩增。本领域已知许多靶分子固定化方法,包括用His标签标记靶分子并固定在镍表面上,用flag标签标记靶分子并用抗flag抗体固定,或用接头标记靶分子并将其共价固定在表面上。应理解,允许文库成员结合靶标并且允许靶标被固定的事件的顺序是按照所使用的固定化方法所指示或能够实现的各种顺序进行的。应理解,进行选择,其中不需要固定化或物理分离性状阳性个体与性状阴性个体。例如,性状阳性个体募集能够扩增其DNA的因子,而性状阴性的成员则不会。性状阳性个体用PCR引物标记,而性状阴性个体则不标记。差异扩增性状阳性个体的任何过程都适合使用。
[0349] 实施例41a.用于装载反应位点衔接子的化学。应理解,实施例10-32中描述的任何化学都适用于装载反应位点衔接子。在水溶液中,在水性/有机混合物中或者当固定在固体支撑物上时,向反应位点衔接子装载结构单元。用于向反应位点衔接子装载结构单元的化学不限于在反应位点衔接子固定在固体支撑物如DEAE或Super Q650M上时进行的反应;也不限于在溶液相中进行的反应。
[0350] 实施例41b.结构单元的缺失是可编码的多样性元件。在文库合成过程中,当多个结构单元独立地安装在具有不同序列的各种文库子池上时,产生多样性。结构单元的缺失是任选的多样性元件。结构单元的缺失完全按照实施例1编码,区别在于在所需的化学步骤中,文库的一个或多个序列特异性子池不用任何化学处理以安装结构单元。在这种情况下,那些子池的序列由此对结构单元缺失进行编码。
[0351] 实施例42.包含其它材料的杂交阵列。杂交阵列可以完成2项关键任务:(a)它们可以通过序列特异性杂交对至少部分单链DNA的异质混合物进行分选,并且(b)阵列可以实现或允许从阵列中独立去除所分选的子池。其中反编码寡核苷酸被固定化的阵列的特征可以以满足上述标准的任何三维取向排列,但是二维矩形网格阵列目前最具吸引力,因为大量可商购的实验室器具已经以该格式大量生产(例如96孔板、384孔板)。
[0352] 固定有反编码寡核苷酸的阵列特征中的固体支撑物可以实现4个任务:(a)它可以永久地固定反编码寡核苷酸,(b)它可以实现或允许通过与固定寡核苷酸的序列特异性杂交来捕获文库DNA,(c)它可以具有文库DNA的低背景或非特异性结合,和(d)它对于加工条件可以是化学稳定的,包括在高pH下进行的步骤。CM 已经通过在叠氮基-PEG-胺的胺与CM 树脂表面上的羧基基团之间形成肽键而用叠氮基-PEG-胺
(具有9个PEG单元)官能化。带有炔基修饰剂的反编码寡核苷酸在铜介导的1,3-偶极环加成(Huisgen)中被“点击”到叠氮化物上。
[0353] 其它合适的固体支撑物包括亲水性珠粒,或具有亲水性表面涂层的聚苯乙烯珠粒,具有亲水性表面涂层的聚甲基丙烯酸甲酯珠粒,以及具有也带有反应性官能团如羧酸酯、胺或环氧化物的亲水性表面的其它珠粒,适当官能化的反编码寡核苷酸被固定在其上。其它合适的支撑物包括整料和水凝胶。参见例如J Chromatogr A.2002年6月14日;959(1-
2):121-9;J Chromatogr A.2011年4月29日;1218(17):2362-7;J Chromatogr A.2011年12月9日;1218(49):8897-902;Trendsin Microbiology,第16卷,第11期,543-551;
J.Polym.Sci.A Polym.Chem,35:1013-1021;J.Mol.Recognit.2006;19:305-312;
J.Sep.Sci.2004,27,828-836。通常,具有较大表面积的固体支撑物捕获更大量的文库DNA,并且具有较小直径的珠粒产生高得多的背压和抗流动性。通过使用具有非常高的表面积但背压较低的多孔支撑物或水凝胶,部分地改善了这些限制。通常,具有正电荷的珠粒产生更大程度的DNA的非特异性结合。
[0354] 杂交阵列的底盘可以完成3个任务:(a)它必须保持特征之间的物理分离,(b)实现或允许文库流过或流经特征,以及(c)实现或允许从不同特征独立去除所分选的文库DNA。底盘由具有足够刚性、在加工条件下化学稳定并且与在特征内固定支撑物所需的任何手段相容的任何材料构成。底盘的典型材料包括塑料如 或聚醚醚
酮(PEEK),陶瓷和金属如或不锈
[0355] 实施例43.基因文库参数。基因文库可以包含2至20个编码区。每个内部编码区的可用编码序列的数量仅受带有可用固定化反编码序列的特征数量的限制。由于存在这么多的24孔、96孔和384孔格式的行业标准耗材实验室器具,因此在编码区使用这些数量的编码序列很方便,但具有例如768或1536个编码序列的编码区也是实用的。末端编码序列不在阵列上分选,因此在末端编码区使用的序列数量较少需要符合工业标准板和实验室器具中的孔数。原则上,在末端编码区使用96或960个或更多个不同的编码序列将是实用的。
QQ群二维码
意见反馈