首页 / 专利库 / 人工智能 / 人工神经网络 / 玻尔兹曼机 / 通过并行评估分类器输出校正第一分类器中的误差的系统和方法

通过并行评估分类器输出校正第一分类器中的误差的系统和方法

阅读:1009发布:2020-06-28

专利汇可以提供通过并行评估分类器输出校正第一分类器中的误差的系统和方法专利检索,专利查询,专利分析的服务。并且提供了用于对测试对象进行分类的系统和方法。对于多个目标对象中的每个相应目标对象执行第一过程,该第一过程包括:(a)将所述测试对象贴靠相应的目标摆放,从而获得所述测试与所述目标之间的相互作用,以及(b)使用第一分类器对所述相互作用进行评分。跨所述多个目标的每个这样的分数形成了测试向量,所述测试向量被输入到第二分类器中,从而获得目标对象的指示。所述第二分类器在训练向量上训练,每个训练向量都是在根据所述第一过程输入多个训练对象中的对应训练对象之后来自所述第一分类器的示例的输出。所述训练对象的一个子集中的每个对象都与所述目标之一唯一地相关联。所述训练对象的另一个子集与所述目标无关。,下面是通过并行评估分类器输出校正第一分类器中的误差的系统和方法专利的具体信息内容。

1.一种用于对测试对象进行分类的计算机系统,所述计算机系统包括:
至少一个处理器;以及
可由所述至少一个处理器寻址的非暂时存储器,所述非暂时存储器存储一个或多个程序以供所述至少一个处理器执行,所述一个或多个程序包括用于以下操作的指令:
(A)获得对所述测试对象的描述;
(B)对于第一多个目标对象中的每个相应目标对象,执行包括以下步骤的第一过程:
(i)将对所述测试对象的所述描述贴靠所述相应的目标对象摆放,从而获得对所述测试对象与所述相应目标对象之间的相互作用的描述,以及
(ii)将对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述输入第一分类器,从而从所述第一分类器获得所述测试对象与所述相应目标对象之间的所述相互作用的对应分数,其中
所述测试对象与跨所述第一多个目标对象的相应目标对象之间的所述相互作用的每个对应分数形成了所述测试对象的测试向量;以及
(C)将所述测试对象的所述测试向量输入第二分类器,从而从所述第二分类器获得对所述测试向量的变换作为输出,其中
所述变换提供所述第一多个目标对象中的单个目标对象的指示,
所述第二分类器在多个训练向量上训练,
所述多个训练向量中的每个相应训练向量都是在根据所述第一过程输入第一多个训练对象中的对应训练对象作为测试对象之后来自所述第一分类器的所述输出,所述第一多个训练对象的第一子集中的每个训练对象都与所述第一多个目标对象中的对应目标对象唯一地相关联,并且
所述第一多个训练对象的第二子集中的每个训练对象都不与所述第一多个目标对象中的任一个目标对象相关联。
2.根据权利要求1所述的计算机系统,其中
所述将对所述测试对象的所述描述贴靠所述相应的目标对象摆放从而获得对所述测试对象与所述相应目标对象之间的相互作用的描述通过第二过程执行,所述第二过程包括:
在多个不同姿势中的每个姿势下使用所述相应目标对象对所述测试对象建模,从而创建多个体素图,其中所述多个体素图中的每个相应体素图包括处于所述多个不同姿势中的相应姿势的所述测试对象,以及
将所述多个体素图中的每个体素图展开成对应的第一分类器输入向量,从而创建多个第一分类器输入向量,其中所述多个第一分类器输入向量中的每个第一分类器输入向量都具有相同的大小,并且其中
所述将对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述输入第一分类器包括:
将所述多个第一分类器输入向量中的每个相应的第一分类器输入向量输入所述第一分类器。
3.根据权利要求2所述的计算机系统,其中
所述第一分类器包括网络架构,所述网络架构包括:(i)用于按顺序接收所述多个第一分类器输入向量中的相应第一分类器输入向量的输入层,(ii)多个卷积层,以及(iii)评分器,其中
所述多个卷积层包括初始卷积层和最终卷积层,
所述多个卷积层中的每个层都与不同的权重集相关联,并且
响应于将所述多个第一分类器输入向量中的相应第一分类器输入向量输入所述第一分类器,所述输入层把第一多个值馈送到所述初始卷积层中,作为所述相应第一分类器输入向量中的值的第一函数,
除所述最终卷积层之外的每个相应卷积层将中间值馈送到所述多个卷积层中的另一个卷积层中,作为以下各项的相应第二函数:(i)与所述相应卷积层相关联的所述不同权重集,以及(ii)由所述相应卷积层接收的输入值,并且
所述最终卷积层将最终值馈送到所述评分器中,作为以下各项的第三函数:(i)与所述最终卷积层相关联的所述不同权重集,以及(ii)由所述最终卷积层接收的输入值;
其中所述第二过程还包括:
从所述评分器获得多个分数,其中所述多个分数中的每个分数对应于所述多个第一分类器输入向量中的第一分类器输入向量输入到所述输入层中,以及
使用所述多个分数获得对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述。
4.根据权利要求3所述的计算机系统,其中
所述评分器包括多个全连接层和评估层,并且
所述多个全连接层中的全连接层馈送到所述评估层中。
5.根据权利要求3所述的计算机系统,其中
所述评分器包括实施以下各项:决策树、多重累计回归树、聚类算法、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、调优法、投影寻踪、逻辑回归或它们的集合。
6.根据权利要求2所述的计算机系统,其中所述多个第一分类器输入向量中的每个第一分类器输入向量都是一维的。
7.根据权利要求2所述的计算机系统,其中所述多个不同姿势包括2个或更多个姿势、
10个或更多个姿势、100个或更多个姿势或者1000个或更多个姿势。
8.根据权利要求2所述的计算机系统,其中所述多个不同姿势是在尔可夫链蒙特卡罗采样、模拟退火、拉马克遗传算法、遗传算法或深度卷积神经网络采样之一中使用对接评分函数而获得的。
9.根据权利要求2所述的计算机系统,其中所述多个不同姿势是通过使用贪婪算法的增量搜索而获得的。
10.根据权利要求1至9中任一项所述的计算机系统,其中所述第一多个不同目标对象中的每个目标对象都是聚合物
11.根据权利要求10所述的计算机系统,其中所述聚合物是蛋白质、多肽、多核酸、多核糖核酸、多糖或它们的任意组合的组合体。
12.根据权利要求1至11中任一项所述的计算机系统,其中
所述第一多个目标对象中的相应目标对象是聚合物,并且
所述将对所述测试对象的所述描述贴靠所述相应目标对象摆放包括将对所述测试对象的所述描述贴靠所述相应目标对象的空间坐标摆放,所述空间坐标为所述聚合物的以或更佳的分辨率解析的晶体结构的一组三维坐标{x1,…,xN}的形式。
13.根据权利要求1至11中任一项所述的计算机系统,其中
所述第一多个目标对象中的相应目标对象是聚合物,并且
所述将对所述测试对象的所述描述贴靠所述相应目标对象摆放包括将对所述测试对象的所述描述贴靠所述相应目标对象的空间坐标摆放,所述空间坐标为所述聚合物的以或更佳解析的晶体结构的一组三维坐标{x1,…,xN}的形式。
14.根据权利要求1至11中任一项所述的计算机系统,其中
所述第一多个目标对象中的相应目标对象是聚合物,并且
所述将对所述测试对象的所述描述贴靠所述相应目标对象摆放包括将对所述目标对象的所述测试对象的所述描述贴靠所述相应目标对象的空间坐标摆放,所述空间坐标为所述聚合物的由核磁共振中子衍射或低温电子显微镜确定的三维坐标的集合的形式。
15.根据权利要求2所述的计算机系统,其中
所述第二过程还包括:
从所述第一分类器获得多个分数,其中所述多个分数中的每个分数对应于所述多个第一分类器输入向量中的第一分类器输入向量输入到所述第一分类器中,以及使用所述多个分数获得对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述,并且其中
所述测试对象是化合物,并且
所述使用所述多个分数来获得对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述包括获取所述多个分数的集中趋势的度量,其中
当集中趋势的所述度量满足预定阈值或预定阈值范围时,对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述被认为属于第一分类,并且
当集中趋势的所述度量不满足所述预定阈值或所述预定阈值范围时,对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述被认为属于第二分类。
16.根据权利要求2所述的计算机系统,其中
所述第二过程还包括:
从所述第一分类器获得多个分数,其中所述多个分数中的每个分数对应于所述多个第一分类器输入向量中的第一分类器输入向量输入到所述第一分类器中,以及使用所述多个分数获得对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述,并且其中
所述使用所述多个分数来获得对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述包括获取所述多个分数的加权平均值,其中
当所述加权平均值满足预定阈值或预定阈值范围时,认为所述测试对象属于第一分类,并且
当所述加权平均值不满足所述预定阈值或所述预定阈值范围时,认为所述测试对象属于第二分类。
17.根据权利要求16所述的计算机系统,其中所述加权平均值是所述多个分数的玻尔兹曼平均值。
18.根据权利要求16所述的计算机系统,其中
所述第一分类是高于第一结合值的所述测试对象相对于所述相应目标对象的IC50、EC50、Kd、KI或抑制百分比,并且
所述第二分类是低于所述第一结合值的所述测试对象相对于所述相应目标对象的IC50、EC50、Kd、KI或抑制百分比。
19.根据权利要求16所述的计算机系统,其中所述第一结合值是1微摩尔。
20.根据权利要求16所述的计算机系统,其中所述第一结合值是10微摩尔。
21.根据权利要求1至20中任一项所述的计算机系统,其中
所述第一多个目标对象中的每个相应目标对象都是具有活性位点的聚合物,所述测试对象是化学组合物,并且
所述将对所述测试对象的所述描述贴靠所述相应目标对象摆放包括将所述测试对象的原子表示对接到所述聚合物的所述活性位点的原子表示中。
22.根据权利要求3所述的计算机系统,其中
所述多个卷积层中的卷积层具有多个滤波器,并且
3
所述多个滤波器中的每个滤波器用步幅Y对立方输入空间N进行卷积,其中N是2或更大的整数,且Y是正整数。
23.根据权利要求22所述的计算机系统,其中与所述卷积层相关联的所述不同权重集与所述多个滤波器中的相应滤波器相关联。
24.根据权利要求3所述的计算机系统,其中
所述评分器包括多个全连接层和逻辑回归成本层,并且
所述多个全连接层中的全连接层馈送到所述逻辑回归成本层中。
25.根据权利要求2所述的计算机系统,其中
所述第一多个目标对象中的相应目标对象是具有活性位点的聚合物,
所述测试对象是化学组合物,
所述在多个不同姿势中的每个姿势下使用所述相应目标对象对所述测试对象建模包括对所述测试对象的结合到所述相应目标对象的原子表示的原子表示执行分子动学运行,从而形成所述测试对象和所述相应目标对象一起随时间推移的轨迹,并且通过在一段时间内拍摄所述轨迹的快照来获得所述多个不同姿势的至少子集。
26.根据权利要求3所述的计算机系统,其中
所述计算机系统还包括具有图形处理存储器的图形处理单元,并且
所述图形处理存储器包括所述网络架构。
27.根据权利要求15所述的计算机系统,其中
所述第一分类是对所述测试对象以低于第一结合值的IC50、EC50、Kd、KI或抑制百分比与所述相应目标对象结合的预测,并且
所述第二分类是对所述测试对象以高于所述第一结合值的IC50、EC50、Kd、KI或抑制百分比与所述相应目标对象结合的预测。
28.根据权利要求27所述的计算机系统,其中所述第一结合值是1微摩尔。
29.根据权利要求27所述的计算机系统,其中所述第一结合值是10微摩尔。
30.根据权利要求1所述的计算机系统,其中所述第一分类器包括多个权重,所述方法还包括在所述获得(A)之前:
(a)采集训练数据集,所述训练数据集包括:
第二多个训练对象,
第二多个目标对象,以及
多个由实验确定的分数,其中在所述多个由实验确定的分数中的每个相应的由实验确定的分数用于所述第二多个训练对象中的对应训练对象与所述第二多个目标对象中的对应目标对象之间的所述相互作用,
(b)对于所述第二多个训练对象中的每个相应训练对象,执行包括以下步骤的第二过程:
(i)将对所述相应训练对象的描述贴靠所述第二多个目标对象中的对应目标对象摆放,从而获得对所述训练对象与所述对应目标对象之间的相互作用的描述,(ii)将对所述相应训练对象与所述对应目标对象之间的所述相互作用的所述描述输入所述第一分类器,从而从所述第一分类器获得所述训练对象与所述对应目标对象之间的所述相互作用的对应分数,
(iii)确定(1)与(2)之间的差值,其中(1)为来自所述第一分类器的对所述相应训练对象与所述对应目标对象之间的所述相互作用的所述描述的所述对应分数,(2)为所述由实验确定的来自所述训练数据集的所述相应训练对象与所述对应目标对象之间的所述相互作用的分数,以及
(iv)将所述差值应用于所述多个权重。
31.根据权利要求30所述的计算机系统,其中所述第二多个目标对象与所述第一多个目标对象相同。
32.根据权利要求30所述的计算机系统,其中所述第二多个目标对象与所述第一多个目标对象之间仅存在部分重叠。
33.根据权利要求30所述的计算机系统,其中所述第二多个目标对象与所述第一多个目标对象之间没有重叠。
34.根据权利要求30所述的计算机系统,其中所述第一多个目标对象是所述第二多个目标对象的子集。
35.根据权利要求30所述的计算机系统,其中所述第二多个目标对象是50个或更多个目标对象。
36.根据权利要求30所述的计算机系统,其中所述第二多个目标对象是100个或更多个目标对象。
37.根据权利要求30所述的计算机系统,其中所述第二多个目标对象是250个或更多个目标对象。
38.根据权利要求30所述的计算机系统,其中所述第一多个训练对象与所述第二多个训练对象相同。
39.根据权利要求30所述的计算机系统,其中所述第一多个训练对象与所述第二多个训练对象不同。
40.根据权利要求1至39中任一项所述的计算机系统,其中
所述第一多个训练对象的所述第一子集包括1000个训练对象,
所述第一多个目标对象包括100个目标对象,
对于所述第一多个目标对象中的每个相应目标对象,所述第一多个训练对象的所述第一子集包括与所述相应目标对象唯一地相关联的至少5个训练对象,并且
所述第一多个训练对象的所述第二子集包括10000个训练对象。
41.根据权利要求1至40中任一项所述的计算机系统,其中所述第一多个训练对象中的每个相应训练对象是具有对应分子指纹的化合物,所述对应分子指纹与所述第一多个训练对象中的不与和所述相应训练对象相同的目标对象唯一地相关联的任何训练对象的所述分子指纹都不同。
42.根据权利要求41所述的计算机系统,其中所述对应分子指纹是所述相应训练对象的Daylight指纹、BCI指纹、ECFP指纹、ECFC指纹、MDL指纹、APFP指纹、TTFP指纹或UNITY2D指纹。
43.根据权利要求41所述的计算机系统,其中当所述相应训练对象与所述第一多个训练对象中的另一个训练对象的所述分子指纹之间的Tanimoto系数小于0.70时,认为所述相应训练对象的所述对应分子指纹与所述另一个训练对象的所述分子指纹不同。
44.根据权利要求41所述的计算机系统,其中当所述相应训练对象与所述第一多个训练对象中的另一个训练对象的所述分子指纹之间的Tanimoto系数小于0.50时,认为所述相应训练对象的所述对应分子指纹与所述另一个训练对象的所述分子指纹不同。
45.根据权利要求1至44中任一项所述的计算机系统,其中所述第一分类器包括神经网络或支持向量机。
46.根据权利要求1至45中任一项所述的计算机系统,其中所述第二分类器包括逻辑回归算法、随机森林、非线性回归模型、线性回归算法、核方法、决策树、多元样条(MARS)或多重累计回归树。
47.根据权利要求1至46中任一项所述的计算机系统,其中所述测试对象是分子量小于
2000道尔顿的化合物。
48.根据权利要求1至47中任一项所述的计算机系统,其中所述测试对象是满足Lipinski五规则标准的化合物。
49.根据权利要求1至48中任一项所述的计算机系统,其中
所述测试对象是化合物,并且
对所述测试对象的所述描述包括所述化合物的建模原子坐标。
50.根据权利要求1至47中任一项所述的计算机系统,其中
所述测试对象是化合物,
所述相应目标对象包括具有结合口袋的聚合物,并且
所述将对所述测试对象的所述描述贴靠所述相应目标对象摆放包括将所述化合物的建模原子坐标对接到所述结合口袋的原子坐标中。
51.根据权利要求1至50中任一项所述的计算机系统,其中从所述第一分类器获得的所述测试对象与所述相应目标对象之间的所述相互作用的所述对应分数是数字分数。
52.根据权利要求1至51中任一项所述的计算机系统,其中从所述第一分类器获得的所述测试对象与所述相应目标对象之间的所述相互作用的所述对应分数是介于0与1之间的数字分数。
53.根据权利要求1至52中任一项所述的计算机系统,其中所述第一多个目标对象包括
100个目标对象,并且所述测试对象的所述测试向量包括100个元素,每个元素都用于从所述第一分类器获得的所述测试对象与所述第一多个目标对象中的相应目标对象之间的所述相互作用的所述分数。
54.一种用于对测试对象进行分类的方法,所述方法包括:
(A)获得对所述测试对象的描述;
(B)对于第一多个目标对象中的每个相应目标对象,执行包括以下步骤的第一过程:
(i)将对所述测试对象的所述描述贴靠所述相应的目标对象摆放,从而获得对所述测试对象与所述相应目标对象之间的相互作用的描述,以及
(ii)将对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述输入第一分类器,从而从所述第一分类器获得所述测试对象与所述相应目标对象之间的所述相互作用的对应分数,其中
所述测试对象与跨所述第一多个目标对象的相应目标对象之间的所述相互作用的每个对应分数形成了所述测试对象的测试向量;以及
(C)将所述测试对象的所述测试向量输入第二分类器,从而从所述第二分类器获得对所述测试向量的变换作为输出,其中
所述变换提供所述第一多个目标对象中的单个目标对象的指示,
所述第二分类器在多个训练向量上训练,
所述多个训练向量中的每个相应训练向量都是在根据所述第一过程输入第一多个训练对象中的对应训练对象作为测试对象之后来自所述第一分类器的所述输出,所述第一多个训练对象的第一子集中的每个训练对象都与所述第一多个目标对象中的对应目标对象唯一地相关联,并且
所述第一多个训练对象的第二子集中的每个训练对象都不与所述第一多个目标对象中的任一个目标对象相关联。
55.一种上面存储有指令的非暂时计算机可读存储介质,所述指令在由用于对测试对象进行分类的系统中的处理器执行时,致使所述处理器执行以下操作:
(A)获得对所述测试对象的描述;
(B)对于第一多个目标对象中的每个相应目标对象,执行包括以下步骤的第一过程:
(i)将对所述测试对象的所述描述贴靠所述相应的目标对象摆放,从而获得对所述测试对象与所述相应目标对象之间的相互作用的描述,以及
(ii)将对所述测试对象与所述相应目标对象之间的所述相互作用的所述描述输入第一分类器,从而从所述第一分类器获得所述测试对象与所述相应目标对象之间的所述相互作用的对应分数,其中
所述测试对象与跨所述第一多个目标对象的相应目标对象之间的所述相互作用的每个对应分数形成了所述测试对象的测试向量;以及
(C)将所述测试对象的所述测试向量输入第二分类器,从而从所述第二分类器获得对所述测试向量的变换作为输出,其中
所述变换提供所述第一多个目标对象中的单个目标对象的指示,
所述第二分类器在多个训练向量上训练,
所述多个训练向量中的每个相应训练向量都是在根据所述第一过程输入第一多个训练对象中的对应训练对象作为测试对象之后来自所述第一分类器的所述输出,所述第一多个训练对象的第一子集中的每个训练对象都与所述第一多个目标对象中的对应目标对象唯一地相关联,并且
所述第一多个训练对象的第二子集中的每个训练对象都不与所述第一多个目标对象中的任一个目标对象相关联。

说明书全文

通过并行评估分类器输出校正第一分类器中的误差的系统和

方法

[0001] 相关申请的交叉引用
[0002] 本申请要求2017年3月30日提交的名称为“Systems and Methods  for Correcting Error in a First Classifier by Evaluating Classifier Output in 
Parallel”的美国申请号15/473,980的优先权,该申请据此以引用方式并入。

技术领域

[0003] 以下内容整体涉及通过以并行方式评估来自分类器的连续输出而校正分类器的误差(诸如偏差),其中分类器的任务是对测试对象进行分类。

背景技术

[0004] 分类器的应用(诸如深度学习技术)可以用于由大量数据产生相关的见解。正在对分类器跨多个领域的用途加以探索。具体地讲,在医疗保健方面,2009年的美国复苏与再投资法案(American Recovery and Reinvestment Act)和2015年的精准医疗计划(Precision Medicine Initiative)已广泛认可医疗数据在医疗保健领域的价值。由于有几项此类举措的推动,预期到2020年医疗大数据将增长约50倍,达到25,000PB。参见Roots Analysis在2017年2月22日发表的“Deep Learning in Drug Discovery and 
Diagnostics,2017-2035”,这篇文章可以在互联网上获得,网址为rootsanalysis.com。
[0005] 分类器可以用于使用常规的数据挖掘技术产生有价值/有意义的见解。应用的实例包括:药物研发中先导化合物的识别与最优化、对临床试验的患者招募提供支持、医学图像分析生物标志物识别、药物功效分析、药物依从性评估、测序数据分析、虚拟筛选、分子谱分析、代谢组学数据分析、EMR分析和医疗装置数据评估、脱靶副作用预测、毒性预测、效价优化、老药新用、耐药性预测、个性化药物、药物试验设计、农业化学设计、材料科学与模拟,目前正在这些应用中探索分类器的用途,诸如基于深度学习的解决方案。
[0006] 在上面提到的领域中使用基于分类器的解决方案可能带来的好处估计价值数十亿美元。例如,众所周知的示例是,深度学习模型已加快了药物研发过程,并且已为精准医疗提供了多项解决方案。随着分类器在老药新用和临床前研究方面得到应用,分类器势必有大好的机会应用于药物研发中。在诊断中,基于分类器提高诊断速度很可能在患医比大的地区产生深远的影响。实施此类解决方案将提高医生的效率,从而减轻不堪重负的全球医疗保健系统的负担。
[0007] 分类器的一个缺点是存在误差。分类器误差的两个主要来源是偏差和方差。偏差引起的误差被视为分类器的预期(或平均)预测值与该分类器试图预测的正确值之间的差值。由于在应用中通常只使用一个分类器,所以该分类器的预期或平均预测值的概念是与直觉相反的。但如果要不止一次重复分类器训练过程,每次都使用新的训练数据,并且要运行新的分析来创建新的分类器,则由于基础数据集中的随机性,得到的分类器将具有一系列预测值。偏差衡量这些分类器的预测值与正确值大体上的距离。例如,使用电话簿来选择用于训练分类器的调查中的参与者是偏差的一个来源。由于仅调查了某些类别的人员(那些拥有已注册电话号码的人员),所以如果我们重复进行构建整个分类器的练习,则该行为会以一种可能始终不变的方式使结果发生偏斜。类似地,没有跟进调查对象是偏差的另一个来源,原因是该行为持续不断地改变所获得响应的混合体。
[0008] 由方差引起的分类器误差被视为给定数据点的分类器预测值的可变性。同样,如果构建整个分类器的过程重复多次,则方差是给定点的预测值在分类器的不同实现值之间变化的程度。训练群体的样本量小是方差的一个来源。如果样本量增加,则每次在训练分类器期间重复调查和预测时,结果会更加一致。由于偏差的来源很多,结果仍然可能非常不准确,但预测值的方差会减小。
[0009] 在本领域中,通过仔细平衡偏差和方差,已使模型的总误差最小化。然而,由于分类器(诸如深度学习分类器)变得更加复杂并且应用于更多类型的数据,诸如非结构化数据和/或在训练集中可以很少重复使用的数据,所以误差变得越来越难以检测,更不用说被正确地检测了。鉴于上述背景,需要开发在分类器中除去诸如偏差之类的误差的解决方案,以便提供更准确的结果。除去或改善这种误差将在下列各方面得到应用:药物研发中先导化合物的识别与最优化、对临床试验的患者招募提供支持、医学图像分析、生物标志物识别、药物功效分析、药物依从性评估、测序数据分析、虚拟筛选、分子谱分析、代谢组学数据分析、EMR分析、医疗装置数据评估、脱靶副作用预测、毒性预测、效价优化、老药新用、耐药性预测、个性化药物、药物试验设计、农业化学设计、材料科学与模拟,举几个实际应用,其中使用经改进的分类器具有价值。发明内容
[0010] 本公开通过提供用于改善分类器误差(诸如偏差)以便对测试对象进行分类的系统和方法,克服了背景技术中识别的种种缺陷。对于多个目标对象中的每个相应目标对象执行第一过程。该第一过程包括将测试对象贴靠相应的目标对象摆放,从而获得测试对象与目标对象之间的相互作用。该第一过程还使用第一分类器对所述相互作用进行评分。跨多个目标对象的每个这样的分数形成了测试向量,该测试向量被输入到第二分类器中,从而获得来自多个目标对象中的目标对象的指示。第二分类器在训练向量上训练,每个训练向量都是在根据第一过程输入多个训练对象中的对应训练对象之后来自第一分类器的示
例的输出。训练对象的一个子集中的每个对象都与目标之一唯一地相关联。训练对象的另一个子集与目标无关。以这种方式,第一分类器中的误差(诸如偏差)得到第二分类器校正。
[0011] 本公开的一个方面提供了一种用于对测试对象进行分类的计算机系统。该计算机系统包括至少一个处理器和可由至少一个处理器寻址的非暂时存储器。该非暂时存储器存储一个或多个程序,以供至少一个处理器执行。所述一个或多个程序包括用于获得对测试对象的描述的指令。
[0012] 对于第一多个目标对象中的每个相应目标对象,所述一个或多个程序包括用于执行第一过程的指令。该第一过程包括将对测试对象的描述贴靠相应的目标对象摆放,从而获得对测试对象与相应目标对象之间的相互作用的描述。该第一过程包括将对测试对象与相应目标对象之间的相互作用的描述输入第一分类器,从而从第一分类器获得测试对象与相应目标对象之间的相互作用的对应分数。以这种方式,测试对象与跨第一多个目标对象的相应目标对象之间的相互作用的每个对应分数形成了测试对象的测试向量。将测试对象的测试向量输入第二分类器,从而从第二分类器获得对测试向量的变换作为输出。该变换提供第一多个目标对象中的单个目标对象的指示。
[0013] 根据本公开的该方面,第二分类器在多个训练向量上训练。多个训练向量中的每个相应训练向量都是在根据第一过程输入第一多个训练对象中的对应训练对象作为测试对象之后来自第一分类器的输出。第一多个训练对象的第一子集中的每个训练对象都与第一多个目标对象中的对应目标对象唯一地相关联。第一多个训练对象的第二子集中的每个训练对象都不与第一多个目标对象中的任一个目标对象相关联。
[0014] 在一些实施方案中,将对测试对象的描述贴靠相应目标对象摆放从而获得对测试对象与相应目标对象之间的相互作用的描述通过第二过程执行,该第二过程包括:在多个不同姿势中的每个姿势下使用相应目标对象对测试对象建模,从而创建多个体素图,其中多个体素图中的每个相应体素图包括处于多个不同姿势中的相应姿势的测试对象。将多个体素图中的每个体素图展开成对应的第一分类器输入向量,从而创建多个第一分类器输入向量,其中多个第一分类器输入向量中的每个第一分类器输入向量都具有相同的大小。在此类实施方案中,将对测试对象与相应目标对象之间的相互作用的描述输入第一分类器包括将多个第一分类器输入向量中的每个相应的第一分类器输入向量输入第一分类器。
[0015] 在一些此类实施方案中,第一多个目标对象中的相应目标对象是具有活性位点的聚合物,测试对象是化学组合物,并且在多个不同姿势中的每个姿势下使用相应目标对象对测试对象建模包括对测试对象的结合到相应目标对象的原子表示的原子表示执行分子动学运行,从而形成测试对象和相应目标对象一起随时间推移的轨迹。在此类实施方案中,通过在一段时间内拍摄轨迹的快照来获得多个不同姿势的至少子集。
[0016] 在一些此类实施方案中,第一分类器包括网络架构,该网络架构包括:(i)用于按顺序接收多个第一分类器输入向量中的相应第一分类器输入向量的输入层,(ii)多个卷积层,以及(iii)评分器。另外,多个卷积层包括初始卷积层和最终卷积层,并且多个卷积层中的每个层都与不同的权重集相关联。响应于将多个第一分类器输入向量中的相应第一分类器输入向量输入第一分类器,输入层把第一多个值馈送到初始卷积层中,作为相应第一分类器输入向量中的值的第一函数。除最终卷积层之外的每个相应卷积层将中间值馈送到多个卷积层中的另一个卷积层中,作为以下各项的相应第二函数:(i)与相应卷积层相关联的不同权重集,以及(ii)由相应卷积层接收的输入值。最终卷积层将最终值馈送到评分器中,作为以下各项的第三函数:(i)与最终卷积层相关联的不同权重集,以及(ii)由最终卷积层接收的输入值。在此类实施方案中,第二过程还包括从评分器获得多个分数,其中多个分数中的每个分数对应于多个第一分类器输入向量中的第一分类器输入向量输入到输入层中;以及使用多个分数来获得对测试对象与相应目标对象之间的相互作用的描述。
[0017] 在一些此类实施方案中,该计算机系统还包括具有图形处理存储器的图形处理单元,并且该图形处理存储器包括网络架构。
[0018] 在一些此类实施方案中,评分器包括多个全连接层和评估层,并且多个全连接层中的全连接层馈送到该评估层中。
[0019] 在一些此类实施方案中,评分器包括实施以下各项:决策树、多重累计回归树、聚类算法、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、调优法、投影寻踪、逻辑回归或它们的集合。
[0020] 在一些此类实施方案中,多个卷积层中的卷积层具有多个滤波器,并且多个滤波器中的每个滤波器用步幅Y对立方输入空间N3进行卷积,其中N是2或更大的整数,和Y是正整数。在一些实施方案中,与该卷积层相关联的不同权重集与多个滤波器中的相应滤波器相关联。
[0021] 在一些实施方案中,评分器包括多个全连接层和逻辑回归成本层,并且多个全连接层中的全连接层馈送到该逻辑回归成本层中。
[0022] 在一些此类实施方案中,多个第一分类器输入向量中的每个第一分类器输入向量都是一维的。在一些实施方案中,多个不同姿势包括2个或更多个姿势、10个或更多个姿势、100个或更多个姿势或者1000个或更多个姿势。在一些实施方案中,多个不同姿势是在尔可夫链蒙特卡罗采样(Markov chain Monte Carlo sampling)、模拟退火、拉马克遗传算法(Lamarckian Genetic Algorithm)、遗传算法或深度卷积神经网络采样之一中使用对接评分函数而获得的。在一些实施方案中,多个不同姿势是通过使用贪婪算法的增量搜索而获得的。
[0023] 在一些实施方案中,第二过程还包括从第一分类器获得多个分数,其中多个分数中的每个分数对应于多个第一分类器输入向量中的第一分类器输入向量输入到第一分类器中。多个分数用于获得对测试对象与相应目标对象之间的相互作用的描述。在此类实施方案中,测试对象是化合物。使用多个分数来获得对测试对象与相应目标对象之间的相互作用的描述包括获取多个分数的集中趋势的度量。当集中趋势的度量满足预定阈值或预定阈值范围时,对测试对象与相应目标对象之间的相互作用的描述被认为属于第一分类。当集中趋势的度量不满足预定阈值或预定阈值范围时,对测试对象与相应目标对象之间的相互作用的描述被认为属于第二分类。在一些此类实施方案中,第一分类是对测试对象以低于第一结合值的IC50、EC50、Kd、KI或抑制百分比与相应目标对象结合的预测,和第二分类则是对测试对象以高于第一结合值(例如,1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔、或1毫摩尔等等)的IC50、EC50、Kd、KI或抑制百分比与相应目标对象结合的预测。
[0024] 在替代性实施方案中,第二过程还包括从第一分类器获得多个分数,其中多个分数中的每个分数对应于多个第一分类器输入向量中的第一分类器输入向量输入到第一分类器中;以及使用多个分数来获得对测试对象与相应目标对象之间的相互作用的描述。使用多个分数来获得对测试对象与相应目标对象之间的相互作用的描述包括获取多个分数
的加权平均值。当该加权平均值满足预定阈值或预定阈值范围时,认为测试对象属于第一分类。当该加权平均值不满足预定阈值或预定阈值范围时,认为测试对象属于第二分类。在一些此类实施方案中,加权平均值是多个分数的玻尔兹曼(Boltzman)平均值。在一些此类实施方案中,第一分类是高于第一结合值的测试对象相对于相应目标对象的IC50、EC50、Kd、KI或抑制百分比,和第二分类则是低于第一结合值的测试对象相对于相应目标对象的IC50、EC50、Kd、KI或抑制百分比(第一结合值例如,1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔、或1毫摩尔等等)。在一些此类实施方案中,第一分类是对测试对象以低于第一结合值的IC50、EC50、Kd、KI或抑制百分比与相应目标对象结合的预测,和第二分类则是对测试对象以高于第一结合值(例如,1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、
100微摩尔、或1毫摩尔等等)的IC50、EC50、Kd、KI或抑制百分比与相应目标对象结合的预测。
[0025] 在一些实施方案中,第一多个不同目标对象中的每个目标对象都是聚合物(例如,蛋白质、多肽、多核酸、多核糖核酸、多糖或它们的任意组合的组合体)。
[0026] 在一些实施方案中,第一多个目标对象中的相应目标对象是聚合物,并且将对测试对象的描述贴靠相应目标对象摆放包括将对测试对象的描述贴靠相应目标对象的空间坐标摆放,空间坐标为该聚合物的以 或更佳、 或更佳、或者 或更佳的分辨
率解析的晶体结构的一组三维坐标{x1,…,xN}的形式。
[0027] 在一些实施方案中,第一多个目标对象中的相应目标对象是聚合物,并且将对测试对象的描述贴靠相应目标对象摆放包括将对目标对象的测试对象的描述贴靠相应目标对象的空间坐标摆放,空间坐标为该聚合物的由核磁共振中子衍射或低温电子显微镜确定的三维坐标的集合的形式。
[0028] 在一些实施方案中,第一多个目标对象中的每个相应目标对象都是具有活性位点的聚合物,测试对象是化学组合物,并且将对测试对象的描述贴靠相应目标对象摆放包括将测试对象的原子表示对接到该聚合物的活性位点的原子表示中。
[0029] 在一些实施方案中,第一分类器包括多个权重,并且该方法还包括:在获得对测试对象的描述之前,采集训练数据集。该训练数据集包括第二多个训练对象、第二多个目标对象以及多个由实验确定的分数。在多个由实验确定的分数中的每个相应的由实验确定的分数用于第二多个训练对象中的对应训练对象与第二多个目标对象中的对应目标对象之间的相互作用。对于第二多个训练对象中的每个相应训练对象,执行第二过程包括将对相应训练对象的描述贴靠第二多个目标对象中的对应目标对象摆放,从而获得对训练对象与对应目标对象之间的相互作用的描述。该第二过程还包括将对相应训练对象与对应目标对象之间的相互作用的描述输入第一分类器,从而从第一分类器获得训练对象与对应目标对象之间的相互作用的对应分数。第二过程还包括(iii)确定(1)与(2)之间的差值,其中(1)为来自第一分类器的对相应训练对象与对应目标对象之间的相互作用的描述的对应分数,
(2)为由实验确定的来自训练数据集的相应训练对象与对应目标对象之间的相互作用的分数。第二过程还包括(iv)将该差值应用于多个权重。在一些此类实施方案中,第二多个目标对象与第一多个目标对象相同。在一些此类实施方案中,第二多个目标对象与第一多个目标对象之间仅存在部分重叠。在一些此类实施方案中,第二多个目标对象与第一多个目标对象之间没有重叠。在一些此类实施方案中,第一多个目标对象是第二多个目标对象的子集。在一些此类实施方案中,第二多个目标对象是50个或更多个目标对象。在一些此类实施方案中,第二多个目标对象是100个或更多个目标对象。在一些此类实施方案中,第二多个目标对象是250个或更多个目标对象。在一些此类实施方案中,第一多个训练对象与第二多个训练对象相同。在一些此类实施方案中,第一多个训练对象与第二多个训练对象不同。
[0030] 在一些实施方案中,第一多个训练对象的第一子集包括1000个训练对象,第一多个目标对象包括100个目标对象,并且对于第一多个目标对象中的每个相应目标对象,第一多个训练对象的第一子集包括与相应目标对象唯一地相关联的至少5个目标对象,并且第一多个训练对象的第二子集包括10000个训练对象。
[0031] 在一些实施方案中,第一多个训练对象中的每个相应训练对象是具有对应分子指纹的化合物,该对应分子指纹与第一多个训练对象中的不与和相应训练对象相同的目标对象唯一地相关联的任何训练对象的分子指纹不同。在一些此类实施方案中,对应分子指纹是相应训练对象的Daylight指纹、BCI指纹、ECFP指纹、ECFC指纹、MDL指纹、原子对指纹(APFP指纹)、拓扑扭转指纹(TTFP指纹)或UNITY2D指纹。在一些实施方案中,当相应训练对象与第一多个训练对象中的另一个训练对象的分子指纹之间的Tanimoto系数小于0.70或小于0.60时,认为相应训练对象的对应分子指纹与另一个训练对象的分子指纹不同。
[0032] 在一些实施方案中,第一分类器包括神经网络或支持向量机。
[0033] 在一些实施方案中,第二分类器包括逻辑回归算法、随机森林、非线性回归模型、线性回归算法、核方法、决策树、多元样条(MARS)或多重累计回归树。
[0034] 在一些实施方案中,测试对象是分子量小于2000道尔顿的化合物。在一些实施方案中,测试对象是满足Lipinski五规则标准的化合物。在一些实施方案中,测试对象是化合物,并且对该测试对象的描述包括该化合物的建模原子坐标。
[0035] 在一些实施方案中,测试对象是化合物,相应目标对象包括具有结合口袋的聚合物,并且将对测试对象的描述贴靠相应目标对象摆放包括将该化合物的建模原子坐标对接到结合口袋的原子坐标中。
[0036] 在一些实施方案中,从第一分类器获得的测试对象与相应目标对象之间的相互作用的对应分数是数字分数。在一些实施方案中,从第一分类器获得的测试对象与相应目标对象之间的相互作用的对应分数是介于0与1之间的数字分数。
[0037] 在一些实施方案中,第一多个目标对象包括100个目标对象,测试对象的测试向量包括100个元素,并且每个元素都用于从第一分类器获得的测试对象与第一多个目标对象中的相应目标对象之间的相互作用的分数。
[0038] 本公开的另一个方面提供了一种用于对测试对象进行分类的方法。该方法包括执行本文所公开方法中的任一种。
[0039] 本公开的另一个方面提供了一种用于对测试对象进行分类的方法。该方法包括获得对该测试对象的描述。对于第一多个目标对象中的每个相应目标对象,该方法包括执行第一过程。该第一过程包括将对测试对象的描述贴靠相应的目标对象摆放,从而获得对测试对象与相应目标对象之间的相互作用的描述。该第一过程还包括将对测试对象与相应目标对象之间的相互作用的描述输入第一分类器,从而从第一分类器获得测试对象与相应目标对象之间的相互作用的对应分数。测试对象与跨第一多个目标对象的相应目标对象之间的相互作用的每个对应分数形成了该测试对象的测试向量。该方法还包括将测试对象的测试向量输入第二分类器,从而从第二分类器获得对该测试向量的变换作为输出。该变换提供第一多个目标对象中的单个目标对象的指示。第二分类器在多个训练向量上训练。多个训练向量中的每个相应训练向量都是在根据第一过程输入第一多个训练对象中的对应训练对象作为测试对象之后来自第一分类器的输出。第一多个训练对象的第一子集中的每个训练对象都与第一多个目标对象中的对应目标对象唯一地相关联。第一多个训练对象的第二子集中的每个训练对象都不与第一多个目标对象中的任一个目标对象相关联。
[0040] 本公开的另一个方面提供了一种上面存储有指令的非暂时计算机可读存储介质,指令在由用于对测试对象进行分类的系统中的处理器执行时,致使该处理器执行本文所公开方法中的任一种方法的操作。
[0041] 本公开的另一个方面提供了一种上面存储有指令的非暂时计算机可读存储介质,指令在由用于对测试对象进行分类的系统中的处理器执行时,致使该处理器执行获得对测试对象的描述的操作。对于第一多个目标对象中的每个相应目标对象,指令还致使处理器执行第一过程,该第一过程包括将对测试对象的描述贴靠相应目标对象摆放,从而获得对测试对象与相应目标对象之间的相互作用的描述。该第一过程还包括将对测试对象与相应目标对象之间的相互作用的描述输入第一分类器,从而从第一分类器获得测试对象与相应目标对象之间的相互作用的对应分数。测试对象与跨第一多个目标对象的相应目标对象之间的相互作用的每个对应分数形成了该测试对象的测试向量。指令还致使处理器将测试对象的测试向量输入第二分类器,从而从第二分类器获得对该测试向量的变换作为输出。该变换提供第一多个目标对象中的单个目标对象的指示。第二分类器在多个训练向量上训练。多个训练向量中的每个相应训练向量都是在根据第一过程输入第一多个训练对象中的对应训练对象作为测试对象之后来自第一分类器的输出。第一多个训练对象的第一子集中的每个训练对象都与第一多个目标对象中的对应目标对象唯一地相关联。另外,第一多个训练对象的第二子集中的每个训练对象都不与第一多个目标对象中的任一个目标对象相
关联。
附图说明
[0042] 在附图中,通过实例展示了本公开的系统和方法的实施方案。应当清楚地理解,说明书和附图仅用于举例说明的目的并且有助于理解,而并不旨在对本公开的系统和方法的范围进行限定。
[0043] 图1A根据一些实施方案展示了通过以并行方式评估来自分类器的连续输出而校正分类器的误差(诸如偏差)的计算机系统,其中分类器的任务是对测试对象进行分类。
[0044] 图1B根据一些实施方案展示了通过以并行方式评估来自分类器的连续输出而校正分类器的误差(诸如偏差)的计算机系统,其中分类器的任务是对测试对象进行分类。
[0045] 图2A、图2B、图2C、图2D、图2E、图2F、图2G和图2H根据一些实施方案展示了通过以并行方式评估来自分类器的连续输出而校正分类器的误差(诸如偏差)的方法,其中分类器的任务是对测试对象进行分类,并且其中可选步骤由虚线框指示。
[0046] 图3是根据实施方案的相对于目标对象处于两个不同姿势的示例测试对象的示意图。
[0047] 图4是根据实施方案的呈体素三维网格(体素图)形式的输入特征几何表示的示意图。
[0048] 图5和图6是根据实施方案的编码到体素二维网格上的两个对象的视图。
[0049] 图7是根据实施方案的图6的可视化视图,其中体素已进行编号。
[0050] 图8是根据实施方案的呈原子中心坐标位置形式的输入特征几何表示的示意图。
[0051] 图9是根据实施方案的具有一系列位置的图8的坐标位置的示意图。
[0052] 图10根据实施方案描绘了将多个函数计算元素(g1,g2,…)应用于体素输入(x1,x2,…,x100)并且使用g()将函数计算元素输出组合在一起。
[0053] 纵观附图的若干个视图,相同的附图标记指代对应的零件。

具体实施方式

[0054] 现在将详细地参考实施方案,实施方案的实例在附图中展示。在以下的详细描述中,阐述了许多具体细节以便提供对本公开的透彻理解。然而,对于本领域的普通技术人员明显的是,可以在没有这些具体细节的情况下实践本公开。在其他情况下,并未详细描述众所周知的方法、过程、部件、电路和网络,以免不必要地使实施方案的各方面晦涩难懂。
[0055] 还应当理解,尽管本文可以使用术语第一、第二等来描述各种元件,但是这些元件却不应受到这些术语的限制。这些术语只是用来将一个元件与另一个元件区分开。例如,在不脱离本公开范围的前提下,第一主题可以被称为第二主题,且类似地,第二主题可以被称为第一主题。第一主题和第二主题都是主题,但它们并不是同一主题。
[0056] 本公开中使用的术语仅用于描述具体实施方案的目的,而并非旨在限制本发明。如在本发明的描述和所附权利要求中所用,单数形式“一(a)”、“一(an)”和“该”旨在也包括复数形式,除非上下文另外明确指出并非如此。还应当理解,如本文所用的术语“和/或”是指、并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。还应当理解,术语“包括(comprises)”和/或“包括(comprising)”当在本说明书中使用时,是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件,但并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或它们的分组。
[0057] 如本文所用,术语“如果”可以被解释为意味着“当……时”或“在……时”或“响应于确定……”或“响应于检测到……”,取决于上下文。类似地,短语“如果确定”或“如果检测到[所陈述的状况或事件]”可以被解释为意味着“在确定……时”或“响应于确定……”或“在检测到[所陈述的状况或事件]时”或“响应于检测到[所陈述的状况或事件]”,取决于上下文。
[0058] 本公开提供了使用第一分类器和第二分类器对测试对象进行分类的系统和方法。第二分类器用于最小化或减小第一分类器中的误差(诸如偏差)。第一分类器和第二分类器针对多个目标对象将测试对象分类,且最终第一分类器和第二分类器都选择了目标对象中与测试对象相关联的那一个目标对象。作为实例,在一些实施方案中,测试对象是小分子化合物,且每个目标对象则是具有活性位点的蛋白质(例如,酶)。第一分类器和第二分类器使用每个目标对象的原子坐标和测试对象的原子坐标来确定测试对象与之结合的那个目标
对象(如果有的话)。在本公开中,该过程如下进行。对于多个目标对象中的每个相应目标对象执行第一过程。在第一过程中,将测试对象贴靠相应的目标摆放,从而获得测试与目标之间的相互作用。例如,在上述小分子实例中,小分子以某种取向对接在相应目标对象的活性位点中。第一过程的下一步是使用第一个分类器对测试对象与目标对象之间的相互作用进行评分。使用多个目标对象中的每个目标对象对测试对象独立地执行第一过程,以便针对每个这样的目标对象与测试对象获得分数。跨多个目标对象的每个这样的分数形成了测试向量。该测试向量的每个元素都是从第一分类器获得的测试对象与相应目标对象之间的相互作用的分数。将该测试向量输入到第二分类器中,从而获得目标对象的指示。用测试对象执行第一过程之前,在训练向量上训练第二分类器。每个这样的训练向量都是在根据第一过程输入多个训练对象中的对应训练对象之后来自第一分类器的示例的输出。也就是说,根据第一过程将已知与一个或多个目标对象具有亲和力的训练对象输入到第一分类器中。
因此,对于训练对象与目标对象之间的亲和力对于其是已知的一个或多个目标对象中的每一个,第一分类器评估训练对象与目标对象之间的相互作用,并且与实际亲和力进行比较。
然后使用这些比较来训练第一分类器。训练对象的一个子集中的每个对象都与目标之一唯一关联。例如,在与蛋白质结合的小分子化合物的实例中,该小分子与目标蛋白质之一结合,却没有与其他目标蛋白质可察觉的结合。训练对象的另一个子集与目标无关。
[0059] 图1展示了实施本公开中所描述方法的计算机系统100。例如,该计算机系统可以用作结合亲和力预测系统,以产生关于一个或多个测试对象(例如,化合物)与一组一个或多个目标对象(例如,聚合物)的结合亲和力的准确预测。
[0060] 参见图1A和图1B,在典型的实施方案中,分析计算机系统100包括一个或多个计算机。出于在图1A和图1B中进行举例说明的目的,分析计算机系统100被表示为包括所公开的分析计算机系统100的所有功能的单个计算机。但本公开却不限于此。分析计算机系统100的功能可以分布在任意数量的联网计算机上和/或驻留在若干个联网计算机中的每一个上。本领域的技术人员将会知道,分析计算机系统100可以有各种各样不同的计算机拓扑结构,并且所有此类拓扑结构都在本公开的范围之内。
[0061] 考虑上述内容看图1A和图1B,分析计算机系统100A/100B包括一个或多个处理单元(CPU)74、网络或其他通信接口84、用户界面78(例如,包括显示器82和键盘80或其他形式的输入装置)、存储器92(例如,随机存取存储器)、任选地由一个或多个控制器88访问的一个或多个磁盘存储装置和/或永久性/非易失性装置90、用于互连前述部件的一根或多根通信总线12以及用于为前述部件供电的电源76。存储器92中的数据可以使用诸如高速缓存之类的已知计算技术与非易失性存储器90无缝地共享。存储器92和/或存储器90可以包括相对于一个或多个中央处理单元74远程定位大容量存储装置。换句话讲,存储在存储器92和/或存储器90中的一些数据实际上可以托管在分析计算机系统100A/100B外部但可以由
分析计算机系统使用网络接口84通过互联网、内联网或其他形式的网络或电子缆线以电子方式访问的计算机上。
[0062] 转到图1A,分析计算机系统100A的存储器92存储着下列各项:
[0063] ·操作系统54,该操作系统包括用于处理各种基本系统服务的过程;
[0064] ·分类器偏差评估模56,该模块使用第一分类器102和第二分类器108针对目标对象58对测试对象72(以及图1B的训练对象66)进行分类;
[0065] ·第一分类器102,该第一分类器用于评估测试/训练对象72/66与相应目标对象58/65之间的相互作用;
[0066] ·一个或多个测试向量104,测试向量104的每个元素都包括从第一分类器102获得的测试对象72与跨多个目标对象的相应目标对象58之间的相互作用的对应分数106;
[0067] ·第二分类器108,该第二分类器用于将测试向量104变换为多个目标对象中的单个目标对象(58)的指示110;
[0068] ·测试对象72的信息,包括对测试对象的描述73;
[0069] ·一个或多个目标对象58的数据,包括对目标对象的描述,诸如结构数据60和任选地活性位点信息62;以及
[0070] ·第二分类器108的对象训练库112,对于每个相应的训练对象113,该对象训练库包括训练向量116形式的相应训练对象113的训练对象关联114,其中该训练向量包括从第一分类器102获得的一个或多个对应分数118,每个这样的对应分数118都是相应训练对象113与对应目标对象58之间的相互作用的分数。
[0071] 转到图1B,分析计算机系统100B还包括具有GPU 52的图形处理单元(GPU)50。分析计算机系统100B的存储器92存储着下列各项:
[0072] ·操作系统54,该操作系统包括用于处理各种基本系统服务的过程;
[0073] ·分类器偏差评估模块56,该模块使用(图1A的)第一分类器102和第二分类器108针对目标对象58对测试对象72(以及图1B的训练对象66)进行分类;
[0074] ·测试对象72的信息,信息对于每个相应目标对象58包括测试对象72相对于相应目标对象58的一个或多个姿势120以及对于每个这种姿势包括体素图40(第一分类器输入
向量122由该体素图针对第一分类器导出)和来自第一分类器的针对第一分类器输入向量
122的对应分数106;以及
[0075] ·用于第一分类器102的训练数据集63,该训练数据集包括多个目标对象65、多个训练对象66,以及对于每个这样的相应训练对象66,针对训练对象66与目标对象之间的相互作用测得的相互作用数据(例如,结合数据)68。
[0076] 分析计算机系统100B的存储器52或可选地存储器92存储着卷积神经网络形式的第一分类器24,该第一分类器包括输入层26、一个或多个卷积层28、和终端评分器30。因此,在一些实施方案中,分析计算机系统100B利用卷积神经网络形式的第一分类器102,该卷积神经网络从与一个或多个图形处理单元50相关联的存储器52运行,以便提高系统的速度和性能。在一些替代性实施方案中,分析计算机系统100B利用从存储器92而不是与图形处理单元50相关联的存储器运行的卷积神经网络。
[0077] 在一些具体实施中,分析计算机系统100A/100B的上文识别的数据元素或模块中的一个或多个存储在前面提及的存储器装置中的一个或多个中,并且对应于用于执行上述功能的一组指令。上文识别的数据、模块或程序(例如,指令集)不必被实现为独立的软件程序、过程或模块,且因此这些模块的各种子集可以在各种具体实施中进行组合或以其他方式重新布置。在一些具体实施中,存储器92和/或90(以及任选地52)任选地存储上文识别的模块和数据结构的子集。另外,在一些实施方案中,存储器92和/或90存储上文未描述的附加模块和数据结构。
[0078] 由于系统通过以并行方式评估来自分类器的连续输出而校正分类器的误差(诸如偏差),其中分类器的任务是对测试对象进行分类,所以参考图2详细地描述并且在下文讨论用于校正这种误差的方法。
[0079] 框202。参见框202以及图1A和图1B,提供了计算机系统(例如,图1A的系统100A或图1B的系统100B)和用于对测试对象72进行分类的方法。计算机系统100包括至少一个处理器74和可由至少一个处理器寻址的非暂时存储器90/92。该非暂时存储器存储一个或多个程序,以供至少一个处理器执行。一个或多个程序包括用于实施该方法的指令。
[0080] 参见图2A的框204,获得对测试对象72的描述。在一些实施方案中,测试对象72是分子量小于2000道尔顿的化合物(框206)。在一些实施方案中,测试对象72是分子量小于2000道尔顿、小于4000道尔顿、小于6000道尔顿、小于8000道尔顿、小于10000道尔顿、或小于20000道尔顿的任何有机化合物。
[0081] 在一些实施方案中,测试对象72是满足Lipinski五规则标准的化合物(框208)。在一些实施方案中,测试对象72是满足Lipinski五规则中的两条或更多条规则、三条或更多条规则、或所有以下四条规则的有机化合物:(i)不超过五个氢键供体(例如,OH基团和NH基团),(ii)不超过十个氢键受体(例如N和O),(iii)分子量低于500道尔顿,以及(iv)LogP低于5。之所以称为“五规则”,是因为这四项标准中有三项涉及数字五。参见Lipinski,1997,Adv.Drug Del.Rev.23,3,该文献据此全文以引用方式并入本文。在一些实施方案中,测试对象72还满足除Lipinski五规则之外的一项或多项标准。例如,在一些实施方案中,测试对象72具有五个或更少的芳环、四个或更少的芳环、三个或更少的芳环、或者两个或更少的芳环。在一些实施方案中,测试对象72是化合物,并且对该测试对象的描述包括该化合物的建模原子坐标(框209)。
[0082] 在本公开中,训练对象66用于训练第一分类器102。在一些实施方案中,这些训练对象具有本文针对测试对象公开的特征中的任一种(例如,在一些实施方案中,训练对象66是分子量小于2000道尔顿、小于4000道尔顿、小于6000道尔顿、小于8000道尔顿、小于10000道尔顿、或小于20000道尔顿的任何有机化合物)。在一些实施方案中,训练对象与从湿实验室测定获得的结合数据68相关联。
[0083] 框210至258。参见图2A的框210,在所公开的方法中,对于第一多个目标对象中的每个相应目标对象58执行第一过程。在一些此类实施方案中,存在10个或更多个目标对象、100个或更多个目标对象、或者1000个或更多个目标对象。在第一过程中,将对测试对象72的描述贴靠相应的目标对象58摆放,从而获得对测试对象与相应目标对象之间的相互作用的描述(框212)。然后,将对测试对象与相应目标对象之间的相互作用的描述输入第一分类器102,从而从该第一分类器获得测试对象与相应目标对象之间的相互作用的对应分数。由于已经提供了对第一过程的概述,所以参考框214到258提供了第一过程的各种实施方案的更多细节。
[0084] 在一些实施方案中,第一多个不同目标对象中的每个目标对象58都是聚合物。聚合物的实例包括但不限于蛋白质、多肽、多核酸、多核糖核酸、多糖或它们的任意组合的组合体(框214)。聚合物(诸如使用所公开的系统和方法的一些实施方案研究的聚合物)是由重复残基组成的大分子。在一些实施方案中,聚合物是天然材料。在一些实施方案中,聚合物是合成材料。在一些实施方案中,聚合物是弹性体、虫胶、琥珀、天然或合成橡胶纤维素、酚塑料、尼龙、聚苯乙烯、聚乙烯、聚丙烯、聚丙烯腈、聚乙二醇或多糖。
[0085] 在一些实施方案中,目标对象58是异聚物(共聚物)。共聚物是衍生自两种(或更多种)单体物质的聚合物,这与其中仅使用了一种单体的均聚物相反。共聚是指用于化学合成共聚物的方法。共聚物的实例包括但不限于ABS塑料、SBR、丁腈橡胶、苯乙烯-丙烯腈、苯乙烯-异戊二烯-苯乙烯(SIS)和乙烯-醋酸乙烯酯。由于共聚物由至少两种类型的组成单元(也称结构单元或粒子)组成,因而可以基于这些单元沿链排列的方式来对共聚物进行分
类。这些包括具有规则交替的A单元和B单元的交替共聚物。参见例如Jenkins,1996,
“Glossary of Basic Terms in Polymer Science,”Pure Appl.Chem.68(12):2287–2311,该文献据此全文以引用方式并入本文。共聚物的其他实例是具有以重复序列排列的A单元和B单元(例如,(A-B-A-B-B-A-A-A-A-B-B-B)n)的周期共聚物。共聚物的其他实例是统计共聚物,其中共聚物中单体残基的序列遵循统计规律。参见例如Painter,1997,Fundamentals of Polymer Science,CRC Press,1997,p 14,该文献据此全文以引用方式并入本文。可以使用所公开的系统和方法评估的共聚物的还有一些其他实例是包含两个或更多个通过共
价键连接的均聚物亚单元的嵌段共聚物。均聚物亚单元联合可能需要中间的非重复亚单元(称为接合嵌段)。具有两个或三个不同嵌段的嵌段共聚物分别称为二嵌段共聚物和三嵌段共聚物。
[0086] 在一些实施方案中,目标对象58实际上是多种聚合物,在这种情况下,多种聚合物中的相应聚合物并非都具有相同的分子量。在一些此类实施方案中,多种聚合物中的聚合物落入具有对应链长分布的重量范围内。在一些实施方案中,聚合物是支链聚合物分子,该分子包含具有一个或多个取代基侧链或支链的主链。支链聚合物的类型包括但不限于星形聚合物、梳形聚合物、刷状聚合物、树枝状聚合物、梯形聚合物和树枝状体。参见例如Rubinstein等人,2003,Polymer physics,Oxford;New York:Oxford University 
Press.p.6,该文献据此全文以引用方式并入本文。
[0087] 在一些实施方案中,目标对象58是多肽。如本文所用,术语“多肽”意味着通过肽键连接的两个或更多个基酸或残基。术语“多肽”和“蛋白质”在本文中可互换使用,且包括寡肽和肽。“氨基酸”、“残基”或“肽”是指如本领域已知的20种蛋白质标准结构单元中的任一种,包括亚氨基酸,诸如脯氨酸和羟脯氨酸。氨基酸异构体的名称可以包括D、L、R和S。氨基酸的定义包括非天然氨基酸。因此,硒代半胱氨酸、吡咯赖氨酸、羊毛硫氨酸、2-氨基异丁酸、γ-氨基丁酸、脱氢丙氨酸、氨酸、瓜氨酸和高半胱氨酸都被认为是氨基酸。氨基酸的其他变体或类似物是本领域已知的。因此,多肽可以包括合成的拟肽结构,诸如类肽。参见Simon等人,1992,Proceedings of the National Academy of Sciences USA,89,9367,该文献据此全文以引用方式并入本文。还参见Chin等人,2003,Science 301,964;以及Chin等人,2003,Chemistry&Biology 10,511,这些文献中的每一者都全文以引用方式并入本文。
[0088] 根据所公开的系统和方法的一些实施方案评估的目标对象58也可以具有任意数量的翻译后修饰。因此,目标对象包括通过下列各项加以修饰的那些聚合物:酰化、烷基化、酰胺化、生物素化、甲酰化、γ-羧化、谷氨酰化、糖基化、甘氨酰化、羟基化、碘化、异戊二烯化、脂酰化、添加辅因子(例如,血红素、黄素、金属等的辅因子添加)、添加核苷及其衍生物、化、还原、聚乙二醇化、添加磷脂酰肌醇、磷酸泛酰巯基乙胺化、磷酸化、形成焦谷胺酸、外消旋化、通过tRNA添加氨基酸(例如,精氨酸化)、硫酸化、硒化、ISG化、SUMO化、泛素化、化学修饰(例如,瓜氨酸化和脱酰胺作用)以及用其他酶(例如,蛋白酶、磷酸酶和激酶)处理。其他类型的翻译后修饰在本领域中是已知的,并且也包括在内。
[0089] 在一些实施方案中,目标对象58是有机金属络合物。有机金属络合物是含有与金属之间的键的化合物。在一些情况下,有机金属化合物通过前缀“有机-”来区分,例如有机钯化合物。
[0090] 在一些实施方案中,目标对象58是表面活性剂。表面活性剂是降低液体表面张力、两种液体之间的界面张力、或者液体与固体之间的界面张力的化合物。表面活性剂可以充当洗涤剂、润湿剂、乳化剂、发泡剂和分散剂。表面活性剂通常是两亲性的有机化合物,这意味着它们既含有疏基团(它们的尾部)、又含有亲水基团(它们的头部)。因此,表面活性剂分子既含有水不溶性(或油溶性)组分,又含有水溶性组分。在水与油混合的情况下,表面活性剂分子将在水中扩散,并吸附在空气与水之间的界面处或者油与水之间的界面处。不溶性疏水基团可以延伸出本体水相,进入空气或进入油相,而水溶性头部基团则保留在水相中。表面活性剂分子在表面处的这种对齐方式改变了水在水/空气界面或水/油界面处的表面性质。
[0091] 离子型表面活性剂的实例包括离子表面活性剂,诸如阴离子表面活性剂、阳离子表面活性剂或两性离子(两性)表面活性剂。在一些实施方案中,目标对象58是反胶束或脂质体。
[0092] 在一些实施方案中,目标对象58是富勒烯。富勒烯是完全由碳组成的任何分子,呈空心球体、椭圆体或管的形式。球形富勒烯也被称为巴基球,且它们类似于英式足球中所使用的球。圆柱形富勒烯被称为碳纳米管或巴基管。富勒烯在结构上类似于石墨,是由连接的六环的堆叠石墨烯片组成的;但它们也可以包含五角(或有时是七角)环。
[0093] 在一些实施方案中,第一多个目标对象中的相应目标对象58是聚合物,并且将对测试对象72的描述贴靠相应目标对象58摆放包括将对测试对象58的描述贴靠相应目标对象的空间坐标摆放,这些空间坐标为该聚合物的(例如,通过X射线晶体学技术)以 或
更佳、 或更佳、 或更佳、 或更佳、 或更佳、 或更佳、 或更
佳、 或更佳、 或更佳、 或更佳、 或更佳、或者 或更佳的分辨
率解析的晶体结构的一组三维坐标{x1,…,xN}的形式(框216)。
[0094] 在一些实施方案中,第一多个目标对象中的相应目标对象58是聚合物,并且将对测试对象的描述贴靠相应目标对象摆放包括将对目标对象的测试对象的描述贴靠相应目标对象的空间坐标摆放,这些空间坐标为该聚合物的通过核磁共振确定的十个或更多个、二十个或更多个、或者三十个或更多个三维坐标的集合的形式,其中该集合的主干RMSD为或更佳、 或更佳、 或更佳、 或更佳、 或更佳、 或更佳、
或更佳、 或更佳、或者 或更佳。在一些实施方案中,通过中子衍射或低温
电子显微镜确定空间坐标(框218)。
[0095] 在一些实施方案中,目标对象58包括两种不同类型的聚合物,诸如与多肽结合的核酸。在一些实施方案中,目标对象58包括彼此结合的两种多肽。在一些实施方案中,目标对象58包括一种或多种金属离子(例如具有一个或多个锌原子的金属蛋白酶)。在此类情况下,金属离子和或有机小分子可以被包括在目标对象58的空间坐标60中。
[0096] 在一些实施方案中,目标对象58是聚合物,并且该聚合物中存在十个或更多个、二十个或更多个、三十个或更多个、五十个或更多个、一百个或更多个、介于一百个与一千个之间、或少于500个的残基。
[0097] 在一些实施方案中,使用诸如从头算方法、密度函数方法、半经验方法和经验方法、分子力学、化学动力学或分子动力学之类的建模方法来确定目标对象58的空间坐标60。
[0098] 在一个实施方案中,空间坐标60由包括目标对象的原子的中心的笛卡尔坐标表示。在一些替代性实施方案中,目标对象58的空间坐标60由目标对象的如例如通过X射线晶体学测得的电子密度表示。例如,在一些实施方案中,空间坐标60包括使用目标对象58的计算的原子坐标计算出来的2F观察-F计算电子密度图,其中F观察是目标对象的观察到的结构因子振幅,且Fc则是由目标对象58的计算的原子坐标计算出来的结构因子振幅。因此,可以从多种来源接收目标对象的空间坐标60作为输入数据,这些来源诸如但不限于:由溶液NMR产生的结构集合、如由X射线晶体学解释的共复合体、中子衍射、或者低温电子显微镜、由计算模拟采样、同源建模或旋转异构体文库采样以及这些技术的组合。
[0099] 在一些实施方案中,第一多个目标对象中的每个相应目标对象72都是具有活性位点的聚合物,测试对象是化学组合物,并且将对测试对象的描述贴靠相应目标对象摆放包括将测试对象的原子表示对接到该聚合物的活性位点的原子表示中(框220)。这种对接的非限制性实例公开在下列文献中:Liu和Wang,1999,“MCDOCK:A Monte Carlo simulation approach to the molecular docking problem,”Journal of Computer-Aided Molecular Design 13,435-451;Shoichet等人,1992,“Molecular docking using shape descriptors,”Journal of Computational Chemistry 13(3),第380-397页;Knegtel等人,1997“Molecular docking to ensembles of protein structures,”Journal of 
Molecular  Biology 266,第424-440页;Morris等人,2009,“AutoDock4  and 
AutoDockTools4:Automated Docking with Selective Receptor Flexibility,”
J.Comput.Chem.30(16),第2785-2791页;Sotriffer等人,2000“, Automated docking of ligands to antibodies:methods and applications,”Methods:A Companion to 
Methods in Enzymology 20,第280-291页;Morris等人,1998“, Automated Docking Using a Lamarckian Genetic Algorithm and Empirical Binding Free Energy Function,”
Journal of Computational Chemistry 19:第1639-1662页;以及Rarey等人,1996,“A 
Fast Flexible Docking Method Using an Incremental Construction Algorithm,”
Journal of Molecular Biology 261,第470-489页,这些文献中的每一者都据此以引用方式并入。在一些此类实施方案中,测试对象是化合物,相应目标对象包括具有结合口袋的聚合物,并且将对测试对象的描述贴靠相应目标对象摆放包括将该化合物的建模原子坐标对接到结合口袋的原子坐标中(框222)。
[0100] 在一些实施方案中,第一分类器102包括神经网络或支持向量机(框224)。参见Duda等人,Pattern Classification,第二版,2001,John Wiley&Sons,Inc.,New York,第6章,第282-349页,该文献据此以引用方式并入,例如获得关于神经网络的公开内容。参见Duda等人,Pattern Classification,第二版,2001,John Wiley&Sons,Inc.,New York,第
259-265页,该文献据此以引用方式并入,例如获得关于支持向量机的公开内容。在一些实施方案中,第一分类器102是卷积神经网络。参见Wallach等人,2015,“AtomNet:A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based 
Drug Discovery,”arXiv:1510.02855,该文献据此以引用方式并入。
[0101] 参见图2B的框226,一旦已得到了对测试对象72与相应目标对象58之间的相互作用的描述,就将其输入第一分类器102,从而从该第一分类器获得测试对象与相应目标对象之间的相互作用的对应分数106。在一些实施方案中,该分数106是标量分数,例如,介于0与
1之间的实数。在一些实施方案中,分数106是分类分数。例如,在一些实施方案中,分数106是两个可能值(例如,“0”或“1”)中的一个。在一些实施方案中,分数106是两种可能类别(“不结合”或“结合”)中的一种。在一些实施方案中,分数106是三种可能类别(“不结合”、“中等强度结合”和“强结合”)中的一种。设想了分数106的任意数量的类别,且所有这些类别都在本公开的范围之内。
[0102] 参见图2B的框228,在一些实施方案中,将对测试对象72的描述贴靠相应目标对象摆放,从而获得对测试对象72与相应目标对象58之间的相互作用的描述由第二过程执行,该第二过程包括:在多个不同姿势中的每个姿势102下使用相应目标对象58对测试对象72建模。在一些实施方案中,目标对象58是具有活性位点的聚合物,测试对象72是化合物,并且将对测试对象72的描述贴靠相应目标对象58摆放包括将测试对象对接到该聚合物的活性位点中。
[0103] 在一些实施方案中,通过将测试对象多次对接到目标对象58上以形成多个姿势,来确定测试对象与目标对象之间的相互作用。在一些此类实施方案中,测试对象72被对接到目标对象58上两次、三次、四次、五次或更多次、十次或更多次、五十次或更多次、100次或更多次、或者1000次或更多次(框232)。每次这样的对接都表示测试对象72被摆放到目标对象58上的不同姿势。在一些实施方案中,目标对象58是具有活性位点的聚合物,并且测试对象72以多种不同方式中的每一种对接到该活性位点中,每种这样的方式都表示不同的姿势。预期这些姿势中的许多姿势是不正确的,这意味着此类姿势并不代表测试对象72与目标对象58之间天然产生的真实相互作用。在此类实施方案中,首先使用训练对象65以相同的方式训练第一分类器,对于这些训练对象来说,针对目标对象的结合数据68是已知的。也就是说,每个训练对象66都多次贴靠目标对象对接,并且多次对接的相互作用被输入到第一分类器中以获得第一分类器结果。第一分类器结果与训练对象针对目标对象的实际结合数据68之间的差值用于细化第一分类器。因此有利的是,在用训练对象66训练期间,第一分类器102将能够过滤掉(减小其权重)不正确的姿势(不正确的对接),因为在不正确的姿势与训练对象结合数据之间不会出现一致的模式。不希望受任何特定理论的限制,预期在不正确的姿势之中观察到的对象间(例如,分子间)相互作用会像白噪声一样相互抵消,而由训练对象66形成的正确姿势所形成的对象间相互作用则会相互加强,且从而随时间推移训练网络的权重。因此,在关于不正确姿势的训练模式期间,第一分类器102会找不到解释活动训练对象66与非活动训练对象66之间的差异(例如,以区分训练对象的结合数据68)的模式。相对于不正确的姿势,第一分类器102会学习训练对象66的权重、它们的大小以及类似的全局概要描述符,却不会学习在训练对象与测试对象之间天然形成的任何真实的分子间相互作用。因此,有利的是,所公开的系统和方法对不正确的姿势不敏感,特别是在针对每个训练对象66采取超过10个姿势、针对每个训练对象66采取超过100个姿势、或者针对每个训练对象66采取超过1000个姿势时。同样,在此类实施方案中,当对测试对象72进行采样时,也采取了多个姿势。因此,即使在一个测试对象或训练对象中,也预期错误的姿势会相互抵消,并且足够接近的姿势用于暗示存在与天然出现的对象间相互作用(例如,分子间键合)的种类接近的相互作用,此类姿势会是对由针对单个测试对象或训练对象的多个姿势产生的最终信号有贡献的姿势。
[0104] 在一些实施方案中,训练对象66和测试对象72通过随机姿势生成技术或通过偏置姿势生成来对接。
[0105] 在一些实施方案中,多个不同姿势是在马尔可夫链蒙特卡罗采样、模拟退火、拉马克遗传算法、遗传算法或深度卷积神经网络采样之一中使用对接评分函数而获得的(框234)。通过使用贪婪算法的增量搜索来获得多个不同姿势(框236)。例如,在一些实施方案中,训练对象66和/或测试对象72通过马尔可夫链蒙特卡罗采样对接。在一些实施方案中,这种采样允许在对接计算和评分函数中的训练对象和/或测试对象具有充分的灵活性,其中该评分函数是训练(或测试)对象与目标对象58之间的相互作用能量以及训练(或测试)
对象的构象能量的总和。参见例如Liu和Wang,1999,“MCDOCK:A Monte Carlo simulation approach to the molecular docking problem,”Journal of Computer-Aided 
Molecular Design 13,435-451,该文献据此以引用方式并入。在一些实施方案中,使用诸如DOCK(Shoichet、Bodian和Kuntz,1992,“Molecular docking  using shape 
descriptors,”Journal of Computational Chemistry 13(3),第380-397页;以及
Knegtel、Kuntz和Oshiro,1997“Molecular docking to ensembles of protein 
structures,”Journal of Molecular Biology 266,第424-440页,这些文献中的每一者都据此以引用方式并入)之类的算法来针对目标对象58中的每一个找到用于测试对象72的多个姿势。此类算法将目标对象和测试(或训练)对象建模为刚性体。使用表面互补来搜索对接的构象以找到姿势。在一些实施方案中,使用了算法诸如AutoDOCK(Morris等人,2009,“AutoDock4 and AutoDockTools4:Automated Docking with Selective Receptor 
Flexibility,”J.Comput.Chem.30(16),第2785-2791页;Sotriffer等人,2000“,Automated docking of ligands to antibodies:methods and applications,”Methods:A 
Companion to Methods in Enzymology 20,第280-291页;以及“Morris等人,1998,
“Automated Docking Using a Lamarckian Genetic Algorithm and Empirical Binding Free Energy Function,”Journal of Computational Chemistry 19:第1639-1662页,这些文献中的每一者都据此以引用方式并入)来发现测试对象72和/或训练对象66中的每一
者贴靠目标对象58中的每一者的多个姿势。AutoDOCK使用配体的运动学模型,并且支持蒙特卡罗、模拟退火、拉马克遗传算法和遗传算法。因此,在一些实施方案中,使用对接评分函数,通过马尔可夫链蒙特卡罗采样、模拟退火、拉马克遗传算法或遗传算法获得多个不同姿势(对于给定的测试对象-目标对象对,或给定的训练对象-测试对象对)。在一些实施方案中,使用诸如FlexX(Rarey等人,1996“, A Fast Flexible Docking Method Using an 
Incremental Construction Algorithm,”Journal of Molecular Biology 261,第470-
489页,该文献据此以引用方式并入)之类的算法来找到测试对象72和/或训练对象66中的每一者针对目标对象58中的每一者的多个姿势。FlexX使用贪婪算法在目标对象58的活性位点处执行对测试对象72和/或训练对象66的增量构造。因此,在一些实施方案中,通过贪婪算法获得多个不同姿势(对于给定的测试对象-目标对象对,或给定的训练对象-测试对象对)。
[0106] 在一些实施方案中,使用诸如GOLD(Jones等人,1997,“Development and Validation of a Genetic Algorithm for flexible Docking,”Journal Molecular 
Biology 267,第727–748页,该文献据此以引用方式并入)之类的算法来找到测试对象72和/或训练对象66中的每一者针对目标对象58中的每一者的多个姿势。GOLD代表用于配体对接的遗传优化。GOLD在测试对象72和/或训练对象66与目标对象58之间构建遗传优化的氢键合网络。
[0107] 在一些实施方案中,所述摆放包括对目标对象和测试对象执行分子动力学运行。在分子动力学运行期间,允许目标对象的原子和测试对象的原子相互作用固定的时间段,从而给出系统动态演化的视图。目标对象和测试对象(或训练对象)这两者中的原子轨迹是通过数值求解相互作用粒子的系统的顿运动方程来确定的,其中,粒子之间的力和它们的势能是使用原子间势或分子力学力场计算的。参见Alder和Wainwright,1959“, Studies in Molecular Dynamics.I.General Method,”.J.Chem.Phys.31(2):459;Bibcode,1959,J.Ch.Ph.31,459A,doi:10.1063/1.1730376,以及Brooks,1983“, CHARMM:A program for Macromolecular Energy,Minimization,and Dynamics Calculations,”Journal of 
Computational Chemistry 4,187-217,这些文献中的每一者都据此以引用方式并入。因此,以这种方式,分子动力学运行产生目标对象和测试对象在一起随时间推移的轨迹。该轨迹包括目标对象和测试对象这两者中的原子轨迹。在一些实施方案中,通过在一段时间内拍摄该轨迹的快照来获得多个不同姿势的子集。
[0108] 在一些实施方案中,从若干条不同轨迹的快照获得姿势,其中每条轨迹都包括目标对象与测试对象相互作用的不同分子动力学运行。在一些实施方案中,在分子动力学运行之前,首先使用对接技术将测试对象(或训练对象)对接到目标对象的活性位点中。
[0109] 不管使用的是何种建模方法,对于任何给定的测试对象72/训练对象66-目标对象58对所实现的是测试对象/训练对象与目标对象的一组多样的姿势,期望姿势中的一个或多个足够接近天然存在的姿势,以证明给定测试对象72/训练对象66-目标对象58对之间的一些相关的分子间相互作用。
[0110] 在一些实施方案中,使用上述技术中的任一种生成测试对象或训练对象在目标对象58的活性位点中的初始姿势,然后通过对X、Y和Z这三个平面的任意组合中的操作符应用旋转、平移和镜像操作的某种组合来生成附加姿势。可以随机选择(在某个范围内,例如距原点+或- )、或者以某个预先指定的增量(例如,围绕圆圈的所有5度增量)均匀地生成测试对象或训练对象的旋转和平移。图3提供了在目标对象58的活性位点中处于两个不同姿势302的测试对象72的样例图示。
[0111] 继续参见图2B的框228,在一些实施方案中,使用每种这样的姿势来创建体素图40,从而创建多个体素图,其中多个体素图中的每个相应体素图40包括处于多个不同姿势中的相应姿势120的测试对象72。在一些实施方案中,通过包括以下步骤的方法来创建多个体素图中的每个相应体素图40:(i)基于三维网格对处于多个不同姿势中的相应姿势的测试对象72(或训练对象68)、以及目标对象58进行采样,从而形成对应的三维均匀空间填充蜂窝体,该三维均匀空间填充蜂窝体包括对应的多个空间填充(三维)多面体单元,以及
(ii)针对对应的多个三维单元中的每个相应的三维多面体单元,基于相应的三维多面体单元的性质(例如,化学性质)在相应的体素图40中填充体素(一组离散的规则间隔开的多面体单元)。因此,如果特定测试对象相对于目标对象具有十个姿势,则创建十个对应的体素图,如果特定测试对象相对于目标对象具有一百个姿势,则创建一百个对应的体素图,如此等等。空间填充蜂窝体的实例包括具有平行六面体单元的立方蜂窝体、具有六角棱柱单元的六角棱柱蜂窝体、具有菱形十二面体单元的菱形十二面体、具有细长十二面体单元的细长十二面体以及具有截顶八面体单元的截顶八面体。
[0112] 在一些实施方案中,该空间填充蜂窝体是具有立方单元的立方蜂窝体,并且此类体素的尺寸决定了它们的分辨率。例如,可以选择 的分辨率,这意味着在此类实施方案中,每个体素都代表着具有 尺寸的几何数据的对应立方体(例如,在相应单元的相应高度、宽度和深度上为 )。然而,在一些实施方案中,使用了更细的网格间距
(例如, 或甚至 )或更粗的网格间距(例如, ),其中该间距产生整数个体素以
覆盖输入的几何数据。在一些实施方案中,采样以介于 与 之间的分辨率进行
(227)。作为举例说明,对于分辨率为 的 输入立方体,这样的布置将产生40*40*40
=64,000个输入体素。
[0113] 在一些实施方案中,测试对象72(或训练对象66)是第一化合物,且目标对象58是第二化合物,采样(i)中引起的原子的特征通过填充(ii)而被放置在相应体素图中的单个体素中,并且多个体素中的每个体素都表示最多一个原子的特征。在一些实施方案中,原子的特征由对原子类型的枚举组成。作为一个实例,对于生物数据来说,所公开的系统和方法的一些实施方案被配置成将在体素图40的给定体素中存在的每个原子表示为该条目的不同数字,例如,如果碳在一个体素中,则将值6分配给该体素,因为碳的原子数是6。然而,这种编码方式可能意味着具有接近的原子数的原子将表现得相似,所以视应用而定可能不是特别有用。此外,元素行为在组内(周期表中的列)可能更加相似,且因此这种编码方式为第一分类器解码造成了额外的负担。
[0114] 在一些实施方案中,原子的特征在体素中被编码为二进制分类变量。在此类实施方案中,原子类型以称作“独热”编码的方式(即,每个原子类型都具有单独的通道)进行编码。因此,在此类实施方案中,每个体素都具有多个通道,并且多个通道的至少子集表示原子类型。例如,每个体素内的一个通道可以表示碳,而每个体素内的另一个通道可以表示氧。当在对应于给定体素的三维网格元素中找到给定的原子类型时,给定体素内用于该原子类型的通道被分配二进制分类变量的第一值,诸如“1”,而当在对应于该给定体素的三维网格元素中未找到该原子类型时,给定体素内用于该原子类型的通道则被分配二进制分类变量的第二值,诸如“0”。
[0115] 虽然有超过100个元素,但大多数都没有在生物学中遇到过。然而,即便表示最常见的生物元素(即,H、C、N、O、F、P、S、Cl、Br、I、Li、Na、Mg、K、Ca、Mn、Fe、Co、Zn),对于每个体素也可以产生18个通道、或者对受体字段也可以产生10,483*18=188,694个输入。因此,在一些实施方案中,多个体素图中的体素图40中的每个相应体素都包括多个通道,并且多个通道中的每个通道都表示可以在对应于相应体素的三维空间填充多面体单元中出现的不同性质。给定体素的可能通道的数量在这些实施方案中甚至更高,在这种情况下,原子的附加特征(例如,部分电荷、配体相对蛋白质靶标的存在、电负性、或SYBYL原子类型)另外作为每个体素的独立通道呈现,从而必需更多的输入通道来区分原本等同的原子。
[0116] 在一些实施方案中,每个体素具有五个或更多个输入通道。在一些实施方案中,每个体素具有十五个或更多个输入通道。在一些实施方案中,每个体素具有二十个或更多个输入通道、二十五个或更多个输入通道、三十个或更多个输入通道、五十个或更多个输入通道或者一百个或更多个输入通道。在一些实施方案中,每个体素都具有五个或更多个选自下表1中找到的描述符的输入通道。例如,在一些实施方案中,每个体素都具有五个或更多个通道,每个通道都被编码为二进制分类变量,在这种情况下,每个这样的通道都表示选自下表1的SYBYL原子类型。例如,在一些实施方案中,体素图40中的每个相应体素都包括用于C.3(sp3碳)原子类型的通道,这意味着如果由相应体素表示的用于给定测试对象-目标对象(或训练对象-目标对象)复合体的空间网格涵盖sp3碳,则该通道采用第一值(例如,“1”),否则采用第二值(例如,“0”)。
[0117] 表1—SYBYL原子类型
[0118]
[0119]
[0120] 在一些实施方案中,每个体素都包括选自上表1中找到的描述符的十个或更多个输入通道、十五个或更多个输入通道或者二十个或更多个输入通道。在一些实施方案中,每个体素都包括用于卤素的通道。
[0121] 在一些实施方案中,针对给定测试对象(或训练对象)到目标对象的每个姿势生成结构蛋白-配体相互作用指纹(SPLIF)分数,然后将该SPLIF分数用作对基础神经网络的额外输入或者在体素图中对其单独编码。有关SPLIF的描述,请参见Da和Kireev,2014,J.Chem.Inf.Model.54,第2555-2561页,“Structural Protein-Ligand Interaction 
Fingerprints(SPLIF)for Structure-Based Virtual Screening:Method and Benchmark Study”,该文献据此以引用方式并入。SPLIF隐含地编码可以在测试(或训练)对象与目标对象这两者的相互作用片段(例如,π-π、CH-π等)之间出现的所有可能的相互作用类型。在第一步中,检查测试(或训练)对象-目标对象复合体(姿势)的分子间接触。如果两个原子之间的距离在指定阈值之内(例如, 之内),则认为它们发生接触。对于每个这样的分子间
原子对,相应的测试(或训练)原子和目标对象原子被扩展成圆形片段,例如,包括所考虑的原子以及它们的一直到特定距离的连续邻域的片段。为每种类型的圆形片段分配标识符。
在一些实施方案中,此类标识符被编码在相应体素中的各个通道内。在一些实施方案中,可以使用如Pipeline Pilot软件中所限定的扩展连接指纹一直到第一最近邻(ECFP2)。参见Pipeline Pilot,第8.5版,Accelrys Software Inc.,2009,该程序据此以引用方式并入。
ECFP保留有关所有原子/键类型的信息,并且使用一个唯一的整数标识符来表示一个子结构(即,圆形片段)。SPLIF指纹对所有找到的圆形片段标识符进行编码。在一些实施方案中,SPLIF指纹不是编码的单个体素,而是在下文讨论的第一分类器中用作单独的独立输入。
[0122] 在一些实施方案中,代替SPLIF或者除SPLIF之外,针对给定测试对象(或训练对象)到目标对象的每个姿势计算结构相互作用指纹(SIFt),并且作为输入独立地提供到下文讨论的第一分类器中或者在体素图中进行编码。对于计算SIFt,参见Deng等人,2003,
“Structural Interaction Fingerprint(SIFt):A Novel Method for Analyzing Three-Dimensional Protein-Ligand Binding Interactions,”J.Med.Chem.47(2),第337-344
页,该文献据此以引用方式并入。
[0123] 在一些实施方案中,代替SPLIF和SIFT、或者除SPLIF和SIFT之外,针对给定测试对象(或训练对象)到目标对象的每个姿势计算基于原子对的相互作用片段(APIF),并且作为输入独立地提供到第一分类器中或者在体素图中单独地编码。对于计算APIF,参见Perez-Nueno等人,2009“, APIF:a new interaction fingerprint based on atom pairs and its application to virtual screening,”J.Chem.Inf.Model.49(5),第1245-1260页,该文献据此以引用方式并入。
[0124] 该数据表示可以采用使能够表达例如与分子/蛋白质相关联的各种结构关系的方式与生物数据一起编码。根据各种实施方案,该几何表示可以采用多种方式和拓扑图实现。
该几何表示用于对数据进行可视化和分析。例如,在一个实施方案中,可以使用布置在各种拓扑图上的体素来表示几何形状,拓扑图诸如2-D、3-D笛卡尔/欧几里德空间、3-D非欧几里德空间、流形等。例如,图4展示了根据实施方案的包括一系列子容器的样例三维网格结构
400。每个子容器402都可以对应于一个体素。可以为该网格限定坐标系,使得每个子容器都具有一个标识符。在所公开的系统和方法的一些实施方案中,坐标系是三维空间中的笛卡尔坐标系,但是在系统的其他实施方案中,该坐标系可以是任何其他类型的坐标系,诸如扁球坐标系、柱面或球面坐标系、极坐标系、为各种流形和向量空间设计的其他坐标系,等等。
在一些实施方案中,体素可以具有与它们相关联的特定值,特定值可以例如通过应用标签、和/或确定它们的定位等来表示。
[0125] 因为某些形式的第一分类器102(诸如神经网络)需要固定的输入大小,所以公开的系统和方法的一些实施方案对几何数据(目标对象-测试对象复合体或目标对象-训练对象复合体)进行剪裁,以装配在适当的边界框内。例如,可以使用边为 的立方
体。在目标对象和/或测试对象已被对接到目标对象58的活性位点中的一些实施方案中,该活性位点的中心用作该立方体的中心。
[0126] 尽管在一些实施方案中,使用在目标对象的活性位点上居中的固定尺寸方形立方体来将空间划分为体素网格,但是所公开的系统却不限于此。在一些实施方案中,使用多种形状中的任一种来将该空间划分为体素网格。在一些实施方案中,使用多面体(诸如矩形棱柱、多面体形状等)来划分该空间。
[0127] 在一个实施方案中,该网格结构可以被配置成类似于体素的布置方式。例如,每个子结构都可以与正被分析的每个原子的通道相关联。另外,可以提供编码方法以便用数字表示每个原子。
[0128] 在一些实施方案中,该体素图考虑了时间因素,且因此可以是四维的(X、Y、Z和时间)。
[0129] 在一些实施方案中,可以使用诸如像素、点、多边形形状、多面体、或多维度的任何其他类型的形状(例如,三维、四维等维度的形状)等其他具体实施来代替体素。
[0130] 在一些实施方案中,通过选择X、Y和Z坐标的原点作为目标对象的结合位点的质心(如通过腔体泛洪算法所确定的)来对几何数据进行归一化。关于此类算法的代表性细节,请参见Ho和Marshall,1990“, Cavity search:An algorithm for the isolation and display of cavity-like binding regions,”Journal of Computer-Aided Molecular Design 4,第337-354页;以及Hendlich等人,1997,“Ligsite:automatic and efficient detection of potential  small  molecule-binding sites  in proteins,”
J.Mol.Graph.Model 15,第6期,这些文献中的每一者都据此以引用方式并入。作为替代,在一些实施方案中,体素图的原点以整个共复合体(测试对象结合到目标对象的共复合体、或者训练对象结合到目标对象的共复合体、或者仅仅是目标对象的共复合体、或者仅仅是测试对象或训练对象的共复合体)的质心为中心。基向量可以任选地被选择为整个共复合体的(仅仅是目标对象的、或者仅仅是测试对象/训练对象的)主要惯性矩。在一些实施方案中,目标对象58是具有活性位点的聚合物,并且对下列样品进行采样:处于用于测试对象72(或训练对象66)的多个不同姿势中的相应姿势中的每种姿势的测试对象72(或训练对象
66),以及三维网格基础上的活性位点,其中该活性位点的质心被当作原点,并且用于采样的对应三维均匀蜂窝体表示在该质心上居中的该聚合物以及测试对象72(或训练对象66)
的一部分。在一些实施方案中,该均匀蜂窝体是规则立方蜂窝体,并且聚合物和测试对象的这部分是具有预定的固定尺寸的立方体。在此类实施方案中,使用具有预定的固定尺寸的立方体确保使用该几何数据的相关部分并且每个体素图都具有相同的大小。在一些实施方案中,该立方体的预定的固定尺寸是 其中N是介于5与100之间的整数或
实数值、介于8与50之间的整数、或者介于15与40之间的整数。在一些实施方案中,该均匀蜂窝体是矩形棱柱蜂窝体,并且聚合物和测试对象的这部分是具有预定的固定尺寸
的矩形棱柱,其中Q是介于5与100之间的第一整数、R是介于5与100之间
的第二整数、S是介于5与100之间的第三整数或实数值,并且集合{Q,R,S}中的至少一个数不等于该集合{Q,R,S}中的另一个值。
[0131] 在一个实施方案中,每个体素都具有一个或多个输入通道,通道可以具有与它们相关联的各种值、在简单的具体实施中可以是开/关,并且可以被配置成对一种类型的原子进行编码。原子类型可以代表原子的元素,或者可以进一步细化原子类型以区分其他原子特征。然后可以在每个体素中编码存在的原子。可以使用各种技术和/或方法来利用各种类型的编码方式。作为示例的编码方法,可以利用原子的原子数,从而针对每个体素产生一个值,范围从氢的1到Og的118(或任何其他元素)。
[0132] 然而,如上所讨论的,可以利用其他编码方法,诸如“独热编码”,其中每个体素都具有许多并行输入通道,这些输入通道中的每一个都要么打开要么关闭,并且编码一种类型的原子。原子类型可以代表原子的元素,或者可以进一步细化原子类型以区分其他原子特征。例如,SYBYL原子类型将单键碳与双键碳、三键碳或芳香碳区分开。有关SYBYL原子类型,请参见Clark等人,1989“, Validation of the General Purpose Tripos Force Field,1989,J.Comput.Chem.10,第982-1012页,该文献据此以引用方式并入。
[0133] 在一些实施方案中,每个体素还包括一个或多个通道,用于区分作为目标对象58或辅因子的一部分的原子与测试对象72或训练对象66的一部分的原子。例如,在一个实施方案中,每个体素还包括用于目标对象58的第一通道和用于测试对象72或训练对象66的第二通道(238)。当由体素表示的空间部分中的原子来自目标对象58时,第一通道被设置为诸如“1”、否则为0的值(例如,因为由体素表示的空间部分不包括原子,或包括来自测试对象72或训练对象66的一个或多个原子)。此外,当由体素表示的空间部分中的原子来自测试对象72或训练对象66时,第二通道被设置为诸如“1”、否则为0的值(例如,因为由体素表示的空间部分不包括原子,或包括来自目标对象58的一个或多个原子)。同样,其他通道可以另外地(或替代地)指定进一步的信息,诸如部分电荷、极化率、电负性、溶剂可及空间和电子密度。例如,在一些实施方案中,目标对象的电子密度图覆盖在这组三维坐标之上,并且创建该体素图进一步对电子密度图进行采样。合适的电子密度图的实例包括但不限于多个同晶置换图、具有反常信号的单个同晶置换图、单波长反常色散图、多波长反常色散图和2Fo-Fc图(260)。参见McRee,1993,Practical Protein Crystallography,Academic Press,该文献据此以引用方式并入。
[0134] 在一些实施方案中,根据所公开的系统和方法的体素编码方式可以包括附加的可选编码细化。下面提供了两个实例。
[0135] 在第一编码细化中,可以基于大多数元素在生物系统中很少出现,通过减小由体素表示的原子集(例如,通过减少由体素表示的通道的数量)来减少所需的存储器。可以映射原子,以便要么通过组合稀有原子(因而可能对系统的性能影响很小)、要么通过组合具有相似性质的原子(因而可以最小化来自该组合的不准确性),而在体素中共享相同的通道。
[0136] 编码细化是通过部分激活相邻体素而使体素表示原子位置。这导致后续神经网络中相邻神经元被部分激活,并且从独热编码移动到“数温(several-warm)”编码。例如,可以说明性地考虑氯原子,氯原子的范德瓦尔斯(van der Waals)直径为 且因此在安置网格时其体积为 氯原子内部的体素将被完全填充,并且该原子的边缘上的体
素只会被部分填充。因此,表示被部分填充的体素中的氯的通道将与落在氯原子内部的此类体素的量成比例地打开。例如,如果体素体积的百分之五十落在氯原子内,则表示氯的体素中的通道将被激活百分之五十。这可以导致相对于离散的独热编码的“加以平滑”和更准确的表示。因此,在一些实施方案中,测试对象是第一化合物并且目标对象是第二化合物,采样中引起的原子的特征分布在相应体素图40中的体素子集上,并且该体素子集包括两个或更多个体素、三个或更多个体素、五个或更多个体素、十个或更多个体素、或者二十五个或更多个体素。在一些实施方案中,原子的特征由对原子类型(例如,SYBYL原子类型之一)的枚举组成。
[0137] 因此,已经编码的几何数据(将测试对象或训练对象对接到目标对象上)的体素化(光栅化)以应用于输入数据的各种规则为基础。
[0138] 图5和图6提供了根据一些实施方案的编码到体素的二维网格500上的两个分子502的视图。图5提供了叠加在二维网格上的两个分子。图6提供了独热编码,该编码方式使用不同的遮蔽图案来分别编码存在的氧、氮、碳和空白空间。如上文指出的,这种编码可以称为“独热”编码。图6示出了图5的网格500,其中省去了分子502。图7提供了图6的体素的二维网格的视图,其中体素已被编号。
[0139] 在一些实施方案中,特征几何形状以体素以外的形式表示。图8提供了各种表示的视图,其中特征(例如,原子中心)被表示为0-D点(表示802)、1-D点(表示804)、2-D点(表示806)或3-D点(表示808)。最初,可以随机选择点与点之间的间距。然而,随着对预测模型的训练,点可以移动得更为靠近、或者更为分开。图9展示了每个点的一系列可能位置。
[0140] 再次参见图2B的框228,在创建体素图的一些实施方案中,将多个体素图中的每个体素图展开成对应的第一分类器输入向量122,从而创建多个第一分类器输入向量。在一些实施方案中,多个第一分类器输入向量中的每个第一分类器输入向量122都是一维的(框230)。换句话讲,在一些实施方案中,多个向量中的每个向量都是一维向量。例如,在一些实施方案中,每条边为 的立方体在目标对象58的活性位点上居中,并且以 的三维固定
网格间距进行采样,以形成体素图的对应体素,对应体素保持在体素结构特征的相应基础通道中,其中体素结构特征诸如原子类型,以及可选地,如上所讨论的更复杂的测试对象-目标对象描述符。在一些实施方案中,该三维体素图的体素被展开成一维浮点向量。
[0141] 在一些实施方案中,体素图在被输入到第一分类器102中之前不被向量化。
[0142] 在一些此类实施方案中,多个第一分类器输入向量中的每个第一分类器输入向量都具有相同的大小。在此类实施方案中,将对测试对象与相应目标对象之间的相互作用的描述输入第一分类器包括将多个第一分类器输入向量中的每个相应的第一分类器输入向量输入到第一分类器102中。
[0143] 参见图2C的框238,当针对给定测试对象72对多个姿势进行采样时,框228所示第二过程还包括从第一分类器102获得多个分数,其中多个分数中的每个分数106对应于多个第一分类器输入向量122中的第一分类器输入向量输入到第一分类器中。该多个分数用于获得对测试对象72与相应目标对象58之间的相互作用的描述。在一些此类实施方案中,测试对象72是化合物。
[0144] 在一些实施方案中,通过获取多个分数的集中趋势的度量(例如,算术平均数、加权平均数、中列数、中轴数、三均值、缩尾均值、中位数、或者多个经滤波信号测量结果中的剩余经滤波信号测量结果的模式),使用这多个分数来获得对测试对象与相应目标对象之间的相互作用的描述。在一些此类实施方案中,当集中趋势的度量满足预定阈值或预定阈值范围时,对测试对象与相应目标对象之间的相互作用的描述被认为属于第一分类。当集中趋势的度量不满足预定阈值或预定阈值范围时,对测试对象与相应目标对象之间的相互作用的描述被认为属于第二分类。在一些实施方案中,第一分类是对测试对象以低于第一结合值的IC50、EC50、Kd、KI或抑制百分比与相应目标对象结合的预测,且第二分类则是对测试对象以高于第一结合值(例如,1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔、或1毫摩尔)的IC50、EC50、Kd、KI或抑制百分比与相应目标对象结合的预测(框239)。在一些此类实施方案中,集中趋势的度量未被分类,并且最终以测试向量104中的元素(分数106)的形式传递给第二分类器。在一个实施方案中,对集中趋势的度量进行分类,且最终将该分类(而不是来自第一分类器102的原始分数)以测试向量104中的元素(分数106)的形式传递给第二分类器。
[0145] 在第一分类器具有多个输出(诸如一些卷积神经网络)的实施方案中,可以使用本文所述的已知或开发的激活函数中的任一种来组合输出。实例包括但不限于非饱和激活函数f(x)=max(0,x)、饱和双曲正切函数f(x)=tanh、f(x)=│tanh(x)│、S形曲线函数f(x)=(1+e-x)-1、逻辑(或S形曲线)、softmax、高斯、玻尔兹曼加权平均(Boltzmann-weighted averaging)、绝对值、线性、线性整流、有界线性整流、软线性整流、参数化线性整流、平均函数、最大值、最小值、某向量范数LP(对于p=1、2、3、...、∞)、符号、平方、平方根、多二次、逆二次、逆多二次、多重调和样条和薄板样条。在本公开的一些实施方案中,利用玻尔兹曼分布来组合输出,因为如果输出被解释为指示结合能,则该组合与姿势的物理概率相匹配。在本发明的其他实施方案中,max()函数还可以提供对玻尔兹曼的合理近似,并且计算效率高。
[0146] 在第一分类器的输出不是数值的实施方案中,第一分类器可以被配置成利用各种集合投票方案来组合输出,方案可以作为说明性、非限制性实例包括多数投票、加权平均投票、孔多塞投票法(Condorcet method)、波达计数法(Borda count)等等。
[0147] 在一个实施方案中,系统可以被配置成应用第一分类器的集合来生成结合亲和力的指标。
[0148] 在一些实施方案中,使用多个分数来表征测试对象72(或训练对象66)包括获取多个分数(来自针对测试对象或训练对象的多个姿势)的加权平均值。当该加权平均值满足预定阈值或预定阈值范围时,认为测试对象属于第一分类。当该加权平均值不满足预定阈值或预定阈值范围时,认为测试对象属于第二分类。在一些实施方案中,加权平均值是多个分数的玻尔兹曼平均值。
[0149] 参见图2D的框240,在一些实施方案中,框228所示第二过程还包括从第一分类器102获得多个分数,其中多个分数中的每个分数106对应于多个第一分类器输入向量中的第一分类器输入向量输入到第一分类器中。使用多个分数来获得对测试对象与相应目标对象之间的相互作用的描述包括获取多个分数的加权平均值。当该加权平均值满足预定阈值或预定阈值范围时,认为测试对象属于第一分类。当该加权平均值不满足预定阈值或预定阈值范围时,认为测试对象属于第二分类。
[0150] 在根据框240的一些此类实施方案中,第一分类是对测试对象72以低于第一结合值的IC50、EC50、Kd、KI或抑制百分比与相应目标对象58结合的预测,且第二分类则是对测试对象72以高于第一结合值(例如,1微摩尔、10微摩尔)的IC50、EC50、Kd、KI或抑制百分比与相应目标对象58结合的预测(框241)。
[0151] 在根据框240的一些实施方案中,第一结合值是1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔、或1毫摩尔(框241)。
[0152] 在根据框240的一些实施方案中,加权平均值是多个分数的玻尔兹曼平均值(框242)。
[0153] 在根据框240的一些实施方案中,第一分类是高于第一结合值的测试对象相对于相应目标对象的IC50、EC50、Kd、KI或抑制百分比,且第二分类则是低于第一结合值的测试对象相对于相应目标对象的IC50、EC50、Kd、KI或抑制百分比(第一结合值例如,1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔、或1毫摩尔)(框244)。
[0154] 在根据框240的一些实施方案中,第一多个目标对象中的相应目标对象58是具有活性位点的聚合物。测试对象72是化学组合物。在多个不同姿势中的每个姿势120下使用相应目标对象对测试对象建模包括对测试对象72的结合到相应目标对象的原子表示的原子
表示执行分子动力学运行,从而形成测试对象和相应目标对象一起随时间推移的轨迹。通过在一段时间内拍摄轨迹的快照来获得多个不同姿势的至少子集(框246)。
[0155] 参见框248,在根据框226的一些实施方案中,第一分类器102包括网络架构,该网络架构包括:(i)用于按顺序接收多个第一分类器输入向量中的相应第一分类器输入向量的输入层26,(ii)多个卷积层28,以及(iii)评分器30。多个卷积层包括初始卷积层和最终卷积层。多个卷积层中的每个层都与不同的权重集相关联。响应于将多个第一分类器输入向量中的相应第一分类器输入向量122输入第一分类器102,输入层把第一多个值馈送到初始卷积层中,作为相应第一分类器输入向量22中的值的第一函数。除最终卷积层之外的每个相应卷积层28将中间值馈送到多个卷积层中的另一个卷积层中,作为以下各项的相应第二函数:(i)与相应卷积层相关联的不同权重集,以及(ii)由相应卷积层接收的输入值。最终卷积层20将最终值馈送到评分器中,作为以下各项的第三函数:(i)与最终卷积层相关联的不同权重集,以及(ii)由最终卷积层接收的输入值。在此类实施方案中,第二过程还包括从评分器30获得多个分数,其中多个分数中的每个分数对应于多个第一分类器输入向量中的第一分类器输入向量122输入到输入层26中;以及使用多个分数来获得对测试对象72与相应目标对象58之间的相互作用的描述。
[0156] 在一些实施方案中,参见图1B,相应的第一分类器输入向量22(例如为体素图22的向量化表示的形式)连同第一分类器102(例如,卷积神经网络)一起存储在图形处理单元的存储器52中。这提供了以更快的速度通过第一分类器处理第一分类器输入向量的优点。然而,在其他实施方案诸如图1A的实施方案中,第一分类器输入向量22和第一分类器102中的任一者或全部位于系统100A的存储器92中,或者仅仅是在网络上可由系统100A寻址。在一些实施方案中,第一分类器输入向量22、第一分类器102、第二分类器108和分类器偏差消除模块56中的任一者或全部位于计算环境中。
[0157] 在一些实施方案中,参见图1B,将多个第一分类器输入向量122提供给图形处理单元存储器52,其中该图形处理单元存储器包括网络架构,该网络架构包括卷积神经网络形式的第一分类器102,该卷积神经网络包括用于按顺序接收多个向量的输入层26、多个卷积层28和评分器30(框254)。多个卷积层包括初始卷积层和最终卷积层。在一些实施方案中,卷积神经网络24不在GPU存储器中,而是在系统100的通用存储器中。
[0158] 上文已经描述了用针对测试对象72(或训练对象66)与目标对象58之间的复合体从神经网络获得评分器分数的细节。如上所讨论的,测试对象72(或训练对象66)对接到相对于目标对象的多个姿势中。为了将所有这些姿势立即呈现给卷积神经网络,可能需要非常大的输入字段(例如,大小等于体素数量*通道数量*姿势数量的输入字段)。虽然在一些实施方案中,所有姿势被同时呈现给网络24,但是在优选的实施方案中,每个这样的姿势都被处理成体素图、被向量化且用作卷积神经网络的顺序输入。以这种方式,从评分器30获得多个分数,其中多个分数中的每个分数对应于多个向量中的向量输入到评分器30的输入层
26中。在一些实施方案中,将给定测试对象72(或训练对象66)相对于给定目标对象58的姿势中的每一种的分数组合在一起,以产生整个测试对象72(或训练对象66)的最终分数106。
从这里开始
[0159] 在一些实施方案中,多个卷积层中的卷积层28包括一组可学习的滤波器(也称为内核)。每个滤波器都具有固定的三维大小,该三维大小在卷积层的输入体积的深度、高度和宽度上卷积(以预定的步进率步进),从而计算滤波器的条目(权重)与输入之间的点积
(或其他函数),由此创建该滤波器的多维激活图。在一些实施方案中,滤波器的步进率是输入空间的一个元素、两个元素、三个元素、四个元素、五个元素、六个元素、七个元素、八个元
3
素、九个元素、十个元素或多于十个元素。因此,考虑其中滤波器的大小为5的情况。在一些实施方案中,该滤波器将针对每个体素通道125个输入空间值的总数,计算具有五个元素的深度、五个元素的宽度和五个元素的高度的连续立方体输入空间之间的点积(或其他数学函数)。
[0160] 到初始卷积层的输入空间(例如,来自输入层26的输出)由体素图40、或体素图22的向量化表示形成。在一些实施方案中,体素图的向量化表示是体素图的一维向量化表示,该表示用作初始卷积层的输入空间。然而,当滤波器对其输入空间进行卷积并且输入空间是体素图的一维向量化表示时,滤波器仍然从该一维向量化表示获得表示目标对象-测试(或训练)对象复合体中的固定空间的对应连续立方体的那些元素。在一些实施方案中,滤波器使用标准的薄记技术从一维向量化表示之内选择那些元素,这些元素在目标对象-测试(或训练)对象复合体中形成对应的固定空间连续立方体。因此,在一些情况下,这必然涉及在一维向量化表示中获取元素的非连续子集,以便在目标对象-测试(或训练)对象复合体中获得对应的固定空间连续立方体的元素值。
[0161] 在一些实施方案中,滤波器被初始化(例如,初始化为高斯噪声)或被训练为具有125个对应的权重(每个输入通道),其中采用125个输入空间值的点积(或者某一其他形式的数学运算,诸如图10中公开的函数),以便计算对应于该滤波器的激活层的第一单一值(或一组值)。在一些实施方案中,对由滤波器计算的值进行求和、加权和/或偏置。为了计算对应于滤波器的激活层的附加值,然后通过与该滤波器相关联的步进率(步幅),在输入体积的三个维度之一上对滤波器进行步进(卷积),此时在该输入体积中的新位置处获取滤波器权重与125个输入空间值(每个通道)之间的点积(或者某一其他形式的数学运算,诸如图
10中公开的数学函数)。重复该步进(卷积),直到滤波器已根据步进率对整个输入空间进行采样为止。在一些实施方案中,输入空间的边界由零填充,以控制由卷积层产生的输出空间的空间体积。在典型的实施方案中,卷积层的滤波器中的每一个都以这种方式绘制整个三维输入体积,从而形成对应的激活图。来自卷积层的滤波器的一批激活图共同形成一个卷积层的三维输出体积,且从而用作后续卷积层的三维(三个空间维度)输入。因此,该输出体积中的每个条目也可以被解释为单个神经元(或一组神经元)的输出,该单个神经元观察输入空间到卷积层中的小区域、并且与同一激活图中的神经元共享参数。因此,在一些实施方案中,多个卷积层中的卷积层具有多个滤波器,并且多个滤波器中的每个滤波器(在三个空间维度上)用步幅Y对立方输入空间N3进行卷积,其中N是2或更大的整数(例如,2、3、4、5、6、
7、8、9、10或大于10),且Y是正整数(例如1、2、3、4、5、6、7、8、9、10或大于10)。
[0162] 在一些实施方案中,多个卷积层28中的每个层都与不同的权重集相关联。更具体地讲,多个卷积层中的每个层都包括多个滤波器,并且每个滤波器都包括独立的多个权重(270)。在一些实施方案中,卷积层具有128个尺寸为53的滤波器,且因此该卷积层针对体素图中的每个通道具有128x5x5x5或16,000个权重。因此,如果体素图中有五个通道,则卷积层将具有16,000x5个权重,或80,000个权重。在一些实施方案中,给定卷积层中的每个滤波器的一些或所有这样的权重(以及任选地,偏差)可以绑在一起,即被约束为相同的。
[0163] 响应于在多个向量中相应向量122的输入,输入层26将第一多个值作为相应向量中的值的第一函数馈送到初始卷积层中,其中第一函数任选地使用图形处理单元50来计
算。
[0164] 除最终卷积层之外的每个相应卷积层28将中间值馈送到多个卷积层中的另一个卷积层中,作为以下各项的相应第二函数:(i)与相应卷积层相关联的不同权重集,以及(ii)由相应卷积层接收的输入值,其中第二函数使用图形处理单元50来计算。例如,相应卷积层28的每个相应滤波器根据卷积层的特征三维步幅且在每个相应的滤波器位置处针对
卷积层绘制输入体积(在三个空间维度上),在相应的滤波器位置处获取相应滤波器的滤波器权重与输入体积(为总输入空间的子集的连续立方体)的值的点积(或某一其他数学函
数),从而在与相应滤波器位置相对应的激活层上产生计算的一个点(或一组点)。相应卷积层的滤波器的激活层共同表示相应卷积层的中间值。
[0165] 最终卷积层将最终值馈送到评分器中,作为以下各项的第三函数:(i)与最终卷积层相关联的不同权重集,以及(ii)由最终卷积层接收的输入值,该第三函数任选地使用图形处理单元50来计算。例如,最终卷积层28的每个相应滤波器根据卷积层的特征三维步幅且在每个相应的滤波器位置处针对最终卷积层绘制输入体积(在三个空间维度上),在相应的滤波器位置处获取滤波器的滤波器权重与输入体积的值的点积(或某一其他数学函数),从而在与相应滤波器位置相对应的激活层上计算一个点(或一组点)。最终卷积层的滤波器的激活层共同表示馈送给评分器30的最终值。
[0166] 在一些实施方案中,卷积神经网络具有一个或多个激活层。在一些实施方案中,激活层是应用非饱和激活函数f(x)=max(0,x)的一层神经元。该激活层增加了决策函数和整个网络的非线性性质,又不影响卷积层的接受域。在其他实施方案中,该激活层具有用于增加非线性的其他函数,例如,饱和双曲正切函数f(x)=tanh、f(x)=│tanh(x)│和S形曲线函数f(x)=(1+e-x)-1。在针对神经网络的一些实施方案中,在其他激活层中发现的其他激活函数的非限制性实例可以包括但不限于:逻辑(或S形曲线)、softmax、高斯、玻尔兹曼加权平均、绝对值、线性、线性整流、有界线性整流、软线性整流、参数化线性整流、平均、最大值、最小值、某向量范数LP(对于p=1、2、3、...、∞)、符号、平方、平方根、多二次、逆二次、逆多二次、多重调和样条和薄板样条。
[0167] 卷积神经网络学习卷积层28内的滤波器,滤波器当在输入中的某一空间位置处看到某特定类型的特征时激活。在一些实施方案中,通过针对第一分类器的训练数据集63训练卷积神经网络来获得卷积层中的每个滤波器的初始权重。因此,卷积神经网络的操作可以产生比历史上用于进行结合亲和力预测的特征更复杂的特征。例如,用作氢键检测器的网络的给定卷积层中的滤波器不仅可以能够识别氢键供体和受体处于给定的距离和角度,而且还能够识别供体和受体周围的生化环境加强或削弱了该键。另外,可以训练网络内的滤波器,以便有效地将基础数据中的结合剂与非结合剂区分开。
[0168] 在一些实施方案中,卷积神经网络被配置成适合于动态系统,诸如当目标对象和测试对象都移动时可能遇到的替代性位置。在这样的目标对象-测试对象复合体中,可以采用许多不同的配置,其中相对比例以每种形状的自由能的玻尔兹曼分布为基础。目标对象-测试对象复合体的自由能的分量和熵分量都可以取决于对象所采用的姿势(ΔG=ΔH-TΔS)。可以发现最终的结合亲和力是目标对象-测试对象复合体可用的姿势集的能量的加权平均值的函数。为了对这种物理现象进行建模,卷积神经网络可以被配置成由于目标对象与测试对象的运动而对大量替代性位置进行采样,并且将其结合亲和力预测建立在该复合体的该采样配置集上(例如,通过取这些各种替代性位置的所有网络24分数的加权平均值)。
[0169] 如上所述,在一些实施方案中,该神经网络被配置成开发三维卷积层。到最低级卷积层28的输入区域可以是来自接受域的体素通道的立方体(或其他连续区域)。较高卷积层评估来自较低卷积层的输出,同时它们的输出仍然是靠在一起(在三维欧几里德距离中)的体素的有界区域的函数。
[0170] 生物活性在旋转以及平移下可以是不变的,因此网络可以任选地被配置成生成利用空间划分的旋转对称性的旋转特征图。例如,如果系统被配置成使用立方体来对输入数据进行划分,则该系统可以被配置成通过在90度旋转之后将函数计算的权重捆绑在一起而生成旋转的特征图。
[0171] 可以说明性地考虑顺时针旋转的立方体:一个滤波器的顶面中的权重变得与不同滤波器的右面中的权重捆绑在一起;换句话讲,权重可以被约束为相同的。对于XY/XZ/YZ这三个平面中的每个平面,旋转可以通过顺时针旋转90度、180度、270度来生成24个特征图。这种布置方式将参数的数量减少到没有旋转权重捆绑时的1/24,因为在没有权重捆绑的情况下,每个滤波器都具有其自身的权重。
[0172] 作为替代性实例,如果系统被配置成使用其他多面体来划分输入数据,则该系统可以被配置成使用其他旋转来到达适合于其对称群的等距变换。例如,在已使用截顶八面体划分空间的情况下,将会存在3条90度旋转对称的轴、4条120度旋转对称的轴和6条180度对称的轴。
[0173] 在一个实施方案中,卷积神经网络被配置成应用正则化技术以减弱模型过度拟合训练对象66和训练结合数据68的趋势。
[0174] 卷积神经网络中的零个或多个网络层可以由池化层组成。如在卷积层中一样,池化层也是一组函数计算,函数计算在不同的空间局部输入补丁上应用相同的函数。对于池化层,输出是由若干个体素上的池化操作符给出的,操作符例如某向量范数LP(对于p=1、2、3、...、∞)。池化典型地是按通道完成的,而不是跨通道完成的。池化将输入空间划分为一组三维框,并且对于每个这样的子区域输出最大值。池化操作提供了一种平移不变性的形式。池化层的功能是逐渐减小表示的空间大小,便于减小网络中的参数量和计算量,且因此也便于控制过度拟合。在一些实施方案中,在卷积神经网络中的连续卷积层28之间插入池化层。这样的池化层在输入的每个深度切片上独立操作,并且在空间上调整它的大小。除了最大池化之外,池化单元还可以执行其他函数,诸如平均池化,或甚至L2-范数池化。
[0175] 卷积神经网络中的零个或多个层可以由归一化层组成,诸如局部响应归一化或局部对比归一化,归一化可以在相同的位置跨通道应用、或者跨若干个位置应用于特定通道。这些归一化层可以促使若干个函数计算对同一输入的响应发生变化。
[0176] 全连接层中的神经元与前一层中的所有激活完全连接,如常规神经网络中所见。因此,可以使用矩阵乘法、之后进行偏置偏移来计算它们的激活。在一些实施方案中,每个全连接层都具有512个隐藏单元、1024个隐藏单元或2048个隐藏单元。在一些实施方案中,评分器中没有全连接层、有一个全连接层、有两个全连接层、有三个全连接层、有四个全连接层、有五个全连接层、有六个或更多个全连接层或者有十个或更多个全连接层。
[0177] 在一些实施方案中,评分器包括多个全连接层和一个评估层,并且多个全连接层中的全连接层馈送到该评估层中。在一些实施方案中,评估层是逻辑回归成本层(框258)。在一些实施方案中,评估层区分多个活性级别。在一些实施方案中,评估层包括在两个活性级别、三个活性级别、四个活性级别、五个活性级别、或者六个或更多个活性级别上的逻辑回归成本层。在一些实施方案中,评估层包括在多个活性级别上的逻辑回归成本层。在一些实施方案中,评估层包括在两个活性级别、三个活性级别、四个活性级别、五个活性级别、或者六个或更多个活性级别上的逻辑回归成本层。
[0178] 参见图2E的框250,在框248的一些实施方案中,评分器30包括多个全连接层和一个评估层。多个全连接层中的全连接层将信息馈送到评估层中。例如,在一些实施方案中,评估层包括在两个活性级别上的逻辑回归成本层,并且第一活性级别(第一分类)表示高于第一结合值的测试对象72(或训练对象)相对于相应目标对象58的IC50、EC50、KD或KI,且第二活性级别(第二分类)则是低于第一结合值的测试对象(或训练对象)相对于相应目标对象58的IC50、EC50、KD或KI。在一些此类实施方案中,第一结合值是1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔、或毫摩尔。
[0179] 参见图2E的框252,在框248的一些实施方案中,评分器30包括实施以下各项:决策树、多重累计回归树、聚类算法、主成分分析、最近邻分析、线性判别分析、二次判别分析、支持向量机、调优法、投影寻踪、逻辑回归或它们的集合。
[0180] 在一些实施方案中,评分器30包括全连接的单层或多层感知器。在一些实施方案中,该评分器包括支持向量机、随机森林、最近邻点。在一些实施方案中,评分器30分配数字分数,该数字分数指示将输入分类为各种输出类别的强度(或置信度或概率)。在一些情况下,类别是结合剂和非结合剂,或者作为替代,是效价水平(例如<1摩尔、<1毫摩尔、<100微摩尔、<10微摩尔、<1微摩尔、<100纳摩尔、<10纳摩尔、<1纳摩尔的IC50、EC50或KI效价)。
[0181] 在一些实施方案中,该评估层区分三个活性级别,和第一活性级别(第一分类)表示高于第一结合值的测试对象(或训练对象)相对于目标对象的IC50、EC50或KI,第二活性级别(第二分类)是介于第一结合值与第二结合值之间的测试对象(或训练对象)相对于目标对象的IC50、EC50或KI,和第三活性级别(第三分类)则是低于第二结合值的测试对象(或训练对象)相对于目标对象的IC50、EC50或KI,其中第一结合值不同于第二结合值。
[0182] 在一些实施方案中,该评估层包括在三个活性级别上的逻辑回归成本层,和第一活性级别(第一分类)表示高于第一结合值的测试对象(或训练对象)相对于目标对象的IC50、EC50或KI,第二活性级别(第二分类)是介于第一结合值与第二结合值之间的测试对象(或训练对象)相对于目标对象的IC50、EC50或KI,和第三活性级别(第三分类)则是低于第二结合值的测试对象(或训练对象)相对于目标对象的IC50、EC50或KI,其中第一结合值不同于第二结合值。
[0183] 参见图2F的框256,在框248的一些实施方案中,多个卷积层中的卷积层28具有多个滤波器,并且多个滤波器中的每个滤波器用步幅Y对立方输入空间N3进行卷积,其中N是2或更大的整数,和Y是正整数(例如,与卷积层相关联的不同权重集与多个滤波器中的相应滤波器相关联)。
[0184] 参见框260,测试对象72与跨第一多个目标对象的相应目标对象58之间的相互作用的每个对应分数106形成了测试对象的测试向量104。例如,考虑存在100个目标对象的情况。在这种情况下,使用第一分类器102评估测试对象与每个目标对象之间的相互作用。为此,使用本公开中提供的任何技术将测试对象与第一目标对象之间的相互作用输入到第一分类器中,从而从第一分类器获得该相互作用的第一对应分数106-1。接下来,使用本公开中提供的任何技术将测试对象与第二目标对象之间的相互作用输入到第一分类器中,从而从第一分类器获得该相互作用的第二对应分数106-2。按顺序重复该过程,直到第一分类器已经计算出测试对象相对于每个目标对象58的相互作用的分数为止。这组对应分数106构成了测试向量,该测试向量可以展示为:
[0185]
[0186] 也就是说,测试向量的每个元素都用于测试对象与目标对象之间的对应分数106。如上所讨论的,每个对应的分数可以是数字或分类。另外,每个对应的分数都可以是测试对象相对于特定目标对象的多个姿势的集中趋势的度量。因此,在一些实施方案中,从第一分类器102获得的测试对象72与相应目标对象58之间的相互作用的对应分数106是数字分数
(框262)。参见框264,在一些实施方案中,从第一分类器102获得的测试对象72与相应目标对象58之间的相互作用的对应分数106是介于0与1之间的数字分数。参见框266,在一些实施方案中,第一多个目标对象58包括50个或更多个目标对象、100个或更多个目标对象、或者200个或更多个目标对象,并且测试对象的测试向量104包括50个或更多个对应元素、100个或更多个对应元素、或者200个或更多个对应元素,每个这样的元素都用于从第一分类器
102获得的测试对象与第一多个目标对象中的相应目标对象之间的相互作用的分数。
[0187] 参见图2F的框270,该方法继续将测试对象72的测试向量104输入到第二分类器108中,从而从第二分类器获得对该测试向量的变换作为输出。该变换提供第一多个目标对象中的单个目标对象的指示110。参见框272,在一些实施方案中,第二分类器108包括逻辑回归算法、随机森林、非线性回归模型、线性回归算法、核方法、决策树、多元样条(MARS)或多重累计回归树。
[0188] 第二分类器的好处,以及测试向量104从第一分类器输入到第二分类器中是用于校正第一分类器中的误差(诸如偏差)。因此,本公开的一个方面是针对第一分类器的输出训练第二分类器,使得第二分类器可以校正第一分类器中的误差。
[0189] 参见图2G的框274,在一些实施方案中出现的这样训练第二分类器的一种方式是针对第二分类器112在对象训练库112上训练第二分类器104。对象训练库包括多个训练对象113。训练对象113可以具有本公开中针对目标对象公开的特征中的任一种。例如,在一些实施方案中,每个训练对象113都是化合物。为对象训练库112中的每个训练对象113生成训练向量116。根据上文在框210至258中概述的第一过程,在输入对应的训练对象113作为测试对象之后,多个训练向量中的每个相应训练向量116都是来自第一分类器102的输出。也就是说,在上述框210至258中的任一个中,使用训练对象113,而不是使用测试对象。因此,对于给定的训练对象113,创建以下形式的训练向量:
[0190]
[0191] 在该测试向量中,每个元素都对应于第一分类器对训练对象113与目标对象58的相互作用的评分。在一些实施方案中,每个分数118都是标量分数,例如,介于0与1之间的实数。在一些实施方案中,分数118是分类分数。例如,在一些实施方案中,分数118是两个可能值(例如,“0”或“1”)中的一个。在一些实施方案中,分数118是两种可能类别(“不结合”或“结合”)中的一种。在一些实施方案中,分数118是三种可能类别(“不结合”、“中等强度结合”与“强结合”)中的一种。设想了分数118的任意数量的类别,且所有这些类别都在本公开的范围之内。
[0192] 为了针对所有可能的目标对象训练第一分类器,在一些实施方案中,对象训练库对于每个相应的目标对象包括与相应的目标对象相关联的训练对象113的子集。例如,考虑存在五个目标对象并且第一分类器在输入训练对象与目标对象之间的相互作用时输出分类“结合”或“不结合”的情况。在这种情况下,目标对象的第一子集将包括第一分类器认为仅结合到第一目标的目标对象,目标对象的第二子集将包括第一分类器认为仅结合到第二目标的目标对象,目标对象的第三子集将包括第一分类器认为仅结合到第三目标的目标对象,目标对象的第四子集将包括第一分类器认为仅结合到第四目标的目标对象,并且目标对象的第五子集将包括第一分类器认为仅结合到第五目标的目标对象。因此,用于第二分类器的对象训练库中的多个训练对象的第一部分中的每个训练对象113唯一地与第一多个目标对象中的对应目标对象相关联。
[0193] 此外,为了进一步训练第二分类器,用于第二分类器的对象训练库中的训练对象的另一部分将包括不与任何目标对象58相关联的训练对象113。例如,在上文的实例中,在存在五个目标对象并且第一分类器在输入训练对象与目标对象之间的相互作用时输出分类“结合”或“不结合”的情况下,库112中的训练对象的该第二部分中的每个目标对象都将引起第一分类器对所有五个目标对象调用“不结合”。在一些实施方案中,图1A的训练对象关联114用作每个训练对象的种类标签。在典型的实施方案中,该种类标签仅用于薄记目的,而不用于训练第二分类器。例如,对象关联(标签)114可以用于指定目标对象58中给定的训练对象113与之相关联的那个目标对象。在一些实施方案中,训练对象最多仅与单个目标对象相关联,并且不与其他目标对象相关联。
[0194] 如这里所用的,术语“相关联”依赖于上下文,并且该术语意味着相关联或不相关联的内容的确切数量值会有所不同。在一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是1纳摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于1纳摩尔时,认为该目标对象不与目标对象相关联。在另一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是10纳摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于10纳摩尔时,认为该目标对象不与目标对象相关联。在另一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是100纳摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于100纳摩尔时,认为该目标对象不与目标对象相关联。在另一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是1微摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于10微摩尔时,认为该目标对象不与目标对象相关联。在另一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是1微摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于1微摩尔时,认为该目标对象不与目标对象相关联。在另一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是10微摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于10微摩尔时,认为该目标对象不与目标对象相关联。在另一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是100微摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于100微摩尔时,认为该目标对象不与目标对象相关联。在另一个实例中,当训练对象113相对于目标对象的IC50、EC50、Kd、KI或抑制百分比是1毫摩尔或更小时,认为该训练对象与目标对象相关联;而当训练对象相对于目标对象的IC50大于1毫摩尔时,认为该目标对象不与目标对象相关联。
[0195] 在一些实施方案中,参见图2G的框276作为说明性实例,在一些实施方案中,第一多个训练对象的第一子集(其中每个训练对象仅与一个目标对象相关联而不与其他目标对象相关联的子集)包括1000个训练对象113,并且第一多个目标对象72包括100个目标对象。对于第一多个目标对象中的每个相应目标对象,第一多个训练对象的第一子集包括与相应目标对象唯一地相关联的至少5个训练对象,并且第一多个训练对象的第二子集(其中每个训练对象不与任一个目标对象相关联的子集)包括10000个训练对象。
[0196] 参见框278,在一些实施方案中,努力确保训练库不会错误地训练特定的训练对象类型。在一个这样的实施方案中,第一多个训练对象中的每个相应训练对象113(其中每个训练对象仅与一个目标对象相关联而不与其他目标对象相关联的子集)是具有对应的分子指纹(例如,Daylight指纹、BCI指纹、ECFP指纹、ECFC指纹、MDL指纹、APFP指纹、TTFP指纹或UNITY 2D指纹)的化合物,该分子指纹与用于第二分类器的对象训练库112中的不与和相应训练对象相同的目标对象唯一地相关联的任何训练对象的分子指纹都不同(框278)。参见Franco,2014,“The Use of 2D fingerprint methods to support the assessment of structural similarity in orphan drug legislation,”J.Cheminform 6,第5页;以及Rensi和Altman,2017,“Flexible Analog Search with Kernel PCA Embedded Molecule Vectors,”Computational and Structural Biotechnology Journal,doi:10.1016/j.csbj.2017.03.003,这些文献中的每一者都据此以引用方式并入。例如,考虑一些训练对象与第一目标对象相关联并且一些训练对象与第二目标对象相关联的情况。在此类实施方案中,注意确保与第一目标对象相关联的训练对象中没有一个训练对象的分子指纹与和第二目标对象相关联的任何训练对象的分子指纹相似。在一些实施方案中,当相应训练对象与对象训练库112中的另一训练对象的分子指纹之间的Tanimoto系数小于0.70、小于0.60或小于0.50时,认为一个训练对象的分子指纹与另一个训练对象的分子指纹不同(框280)。
[0197] 参见图2G的框274,本公开的一些实施方案还涵盖训练第一分类器102。在一些此类实施方案中,第一分类器102包括多个权重,例如,在卷积神经网络或经典神经网络的情况下,等等。在运行框204获得之前,采集用于第一分类器102的训练数据集63,该训练数据集包括第二多个训练对象66、第二多个目标对象65和多个由实验确定的分数68,其中多个由实验确定的分数中的每个相应的由实验确定的分数用于第二多个训练对象中的对应训练对象66与第二多个目标对象中的对应目标对象65之间的相互作用。在一些实施方案中,由实验确定的分数68包括针对目标对象58中的一个或多个的结合数据。例如,在一些实施方案中,该结合数据是从湿实验室实验获得的,在实验中测量了训练对象66相对于目标对象65的IC50、EC50、Kd、KI或抑制百分比。可以用于获取结合数据68的示例结合测定在Khan和Findlay,2010,Ligand-Binding Assays,2010,John Wiley&Sons,Inc.,New York中公开,该文献据此以引用方式并入。
[0198] 对于第二多个训练对象中的每个相应训练对象66执行第二过程,该第二过程包括:(i)将对相应训练对象66的描述贴靠第二多个目标对象中的对应目标对象65摆放,从而获得对训练对象与对应目标对象之间的相互作用的描述,(ii)将对相应训练对象与对应目标对象之间的相互作用的描述输入第一分类器102,从而从第一分类器102获得训练对象66与对应目标对象65之间的相互作用的对应分数106,(iii)确定(1)与(2)之间的差值,其中(1)为来自第一分类器102的对相应训练对象66与对应目标对象65之间的相互作用的描述
的对应分数106,(2)为由实验确定的来自训练数据集63的相应训练对象66与对应目标对象
65之间的相互作用的分数68,以及(iv)将该差值应用于多个权重。不要求训练对象66包括针对所有目标对象63的结合数据68。在一些实施方案中,使用第一分类器102仅针对具有结合数据68的那些目标对象评估相应训练对象66与目标对象之间的相互作用。
[0199] 在一些实施方案中,训练数据集63中的目标对象65与上文结合框210至258讨论的第一多个目标对象58相同(框284)。在一些实施方案中,用于第一分类器的训练数据集63中的多个目标对象65与上文结合框210至258讨论的第一多个目标对象之间仅存在部分重叠(框286)。在一些实施方案中,训练数据集63的第二多个目标对象与上文结合框210至258讨论的第一多个目标对象之间没有重叠(框288)。在一些实施方案中,上文结合框210至258讨论的第一多个目标对象是用于第一分类器的训练数据集63中的多个目标对象65的子集(框
290)。在一些实施方案中,用于第一分类器的训练数据集63中的第二多个目标对象65包括
50个或更多个目标对象、100个或更多个目标对象、250个或更多个目标对象(框292)。在一些实施方案中,用于第一分类器的训练数据集63中的第二多个目标对象65是250个或更多个目标对象(框294)。
[0200] 在一些实施方案中,用于第二分类器的对象训练库112中的第一多个训练对象113与用于第一分类器的训练数据集63中的第二多个训练对象66相同(框296)。在一些实施方案中,用于第二分类器的对象训练库112中的第一多个训练对象113与用于第一分类器的训练数据集63中的第二多个训练对象66不同(框298)。
[0201] 在一些实施方案中,第一分类器102被视为受过训练的黑匣子,并且除了通过本文未公开的方法对第一分类器进行常规训练之外,不对第一分类器执行进一步训练。在此类实施方案中,受过训练的黑匣子仍然用于训练第二分类器,使得第二分类器可以减小第一分类器中的误差。
[0202] 在一些此类实施方案中,第一分类器针对给定目标对象输出每个训练对象的两个可能活性级别中的一个。例如,第一分类器为每个相应训练对象提供的单个值在低于预定阈值时处于第一活性级别(例如,结合剂),并且在该数字高于预定阈值时处于第二活性级别(例如,非结合剂)。将由第一分类器分配的活性级别与如由训练对象结合数据68表示的实际活性级别进行比较。在典型的非限制性实施方案中,这种训练对象结合数据68来自独立的网络实验室结合测定。然后,由第一分类器做出的活性级别分配中的误差(如针对结合数据68验证)通过第一分类器的权重反向传播,以便训练该第一分类器。例如,在第一分类器是卷积神经网络(诸如图1B所展示的卷积神经网络)的情况下,在这种反向传播中调整该网络的卷积层28中的相应滤波器的滤波器权重。在示例性实施方案中,针对由第一分类器进行的活性级别分配中的误差,鉴于结合数据68,通过随机梯度下降与AdaDelta自适应学习方法(Zeiler,2012“ADADELTA:an adaptive learning rate method,”'CoRR,第abs/1212.5701卷,该文献据此以引用方式并入)、以及Rumelhart等人,1988,“Neurocomputing:
Foundations of research,”ch.Learning Representations by Back-propagating 
Errors,第696-699页,Cambridge,MA,USA:MIT Press(该文献据此以引用方式并入)中提供的反向传播算法来训练第一分类器。在一些此类实施方案中,两种可能的活性级别分别是大于给定阈值量的结合常数(例如,训练对象相对于目标对象的IC50、EC50或KI大于1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔或1毫摩尔)和低于给定阈值量的结合常数(例如,训练对象相对于目标对象的IC50、EC50或KI小于1纳摩尔、10纳摩尔、100纳摩尔、1微摩尔、10微摩尔、100微摩尔或1毫摩尔)。在一些此类实施方案中,每个训练对象针对给定目标对象的多个姿势通过第一分类器按顺序运行,并且将这些姿势的如由第一分类器计算的分数的加权平均值与通过湿实验室结合测定获取的结合数据68进行比较。
[0203] 在一些此类实施方案中,第一分类器针对给定目标对象输出每个训练对象的多个可能活性级别(例如,三个或更多个活性级别、四个或更多个活性级别、五个或更多个活性级别)中的一个。例如,由第一分类器为每个相应训练对象提供的单个值(例如,多个姿势的加权平均值或来自单个姿势的单个值)在数字落入第一范围中时处于第一活性级别、在数字落入第二范围中时处于第二活性级别、在数字落入第三范围中时处于第三活性级别,以此类推。将由第一分类器分配的活性级别与如由训练对象结合数据68表示的实际活性级别进行比较。然后,使用上文讨论的技术,使用由第一分类器做出的活性级别分配中的误差(如针对结合数据68验证)来训练第一分类器。在一些实施方案中,多个分类中的每个相应分类是训练对象相对于目标对象的IC50、EC50或KI范围。
[0204] 在一些实施方案中,每个相应训练对象针对给定目标对象的单个姿势通过第一分类器运行,并且将由第一分类器为每个相应训练对象分配的所得相应分数与相应训练对象的已经通过一种或多种湿实验室结合测定技术单独获取的结合数据68进行比较。然后,使用上文讨论的技术,使用由第一分类器针对训练对象做出的活性级别分配中的误差(如针对训练对象的结合数据68验证)来训练第一分类器。
[0205] 在一些实施方案中,将训练对象的一个或多个姿势针对由分类器使用本文所公开的技术评估的多个目标对象65中的每一个目标对象的加权平均值与相应训练对象的通过一种或多种湿实验室结合测定技术单独获取的结合数据68进行比较。例如,在一些实施方案中,多个目标对象65取自分子动力学运行,其中多个目标对象中的每个目标对象在该分子动力学运行期间的不同时间步骤表示同一种聚合物。然后使用上文讨论的技术,使用第一分类器的目标对象分类与湿实验室结合测定的对象分类之间的差异来训练第一分类器。
[0206] 在一些实施方案中,使用非参数技术将第一分类器对多个训练对象的分类与结合数据68进行比较。例如,使用分类器对多个训练对象66相对于给定性质(例如,针对给定目标对象65结合)进行等级排序,然后将该等级排序与由通过湿实验室结合测定对于多个训练对象获取的结合数据68所提供的等级排序进行比较。这使得能够使用上文讨论的第一分类器误差校正技术来在计算出的等级排序中的误差上训练第一分类器102。在一些实施方案中,使用Wilcoxon Mann Whitney函数(Wilcoxon符号秩测试)或其他非参数测试来计算由第一分类器102对训练对象的排序与如由结合数据68确定的训练对象排序之间的误差(差异),然后通过第一分类器对该误差进行反向传播,以便使用上文讨论的第一分类器误差校正技术进一步训练该网络。
[0207] 在第一分类器是卷积神经网络的实施方案中,第一分类器可以被配置成得到训练,以通过修改卷积层28中的滤波器中的权重以及网络层中的偏差而提高其预测准确性。
权重和偏差可以进一步受到各种形式的正则化(诸如L1、L2、权重衰减和丢弃)的约束。在一些此类实施方案中,卷积神经网络形式的第一分类器可以任选地被配置成调整网络的权
重,以通过使用对比散度算法针对训练对象进行逐层贪婪的生成式预训练,从而对训练数据的输入分布进行建模。
[0208] 在一个实施方案中,在训练数据被标记(例如,利用结合数据68)的情况下,第一分类器可以任选地调整第一分类器内的权重,以便潜在地最小化神经网络的预测结合亲和力和/或分类与训练数据的报告结合亲和力和/或分类之间的误差。可以使用各种方法来最小化误差函数,诸如梯度下降方法,方法可以包括但不限于对数损失方法、误差平方和方法、铰链损耗方法。这些方法可以包括二阶方法或近似方法,诸如momentum法、无Hessian估计法、Nesterov加速梯度法、adagrad法等。未标记的生成式预训练和标记的判别式训练也可以进行组合。
[0209] 输入几何数据可以被分组成训练实例。例如,通常情况是单组分子、辅因子和蛋白质具有多个几何测量值,其中每个“快照”都描述目标对象和训练对象(或测试对象)可以采用的替代性构象和姿势。类似地,在目标对象是蛋白质的情况下,也可以对蛋白质侧链、辅因子和训练(或测试)对象的不同互变异构体进行采样。由于这些状态都对生物系统的行为有贡献,所以根据玻尔兹曼分布,可以将用于预测结合亲和力的系统配置成一起考虑这些状态(例如通过采用这些采样的加权平均值)。任选地,可以用结合信息来标记这些训练实例。如果可获得定量结合信息(例如,结合数据68),则标签可以是数字结合亲和力。作为替代,训练实例可以被分配来自一组两个或更多个有序类别(例如,两个类别的结合剂和非结合剂,或将配体描述为效价<1摩尔、<1毫摩尔、<100微摩尔、<10微摩尔、<1微摩尔、<100纳摩尔、<10纳摩尔、<1纳摩尔的结合剂的几个可能重叠的类别)的标签。结合数据68可以从多个来源得到或接收,来源诸如实验测量值、计算估计值、专家见解、或推测(例如,随机的一对分子和蛋白质极不可能结合)。
[0210] 实施例1—使用案例。
[0211] 以下是仅出于说明性目的而提供的样例使用案例,案例描述了本公开的一些实施方案的一些应用。可以考虑其他用途,且下面提供的实施例是非限制性的,而且可以进行变化、省略,或者可以包含附加的元素。
[0212] 虽然下面的每个实施例都展示了结合亲和力预测,但是可以发现实施例在下列各方面有所不同:预测是在单个分子、一组还是一系列迭代修饰的分子上进行的;预测是针对单个目标还是多个目标进行的,是需要还是避免针对目标的活性,以及重要的量是具有绝对活性还是相对活性;或者,是否明确地选择分子或目标集(例如,对于分子,将其选择为现有的药物或杀虫剂;对于蛋白质,则将其选择为具有已知的毒性或副作用)。
[0213] 靶点发现。制药公司花费数百万美元来筛选化合物,以发现新的有前景的药物先导化合物。测试大的化合物集合,以发现与感兴趣的疾病靶标具有任何相互作用的少量化合物。但不幸的是,湿实验室筛选遭受实验误差,并且除了执行测定实验所需花费的成本和时间之外,采集大的筛选集合由于存储约束、货架稳定性或化学成本方面的因素而面临重大挑战。即便是最大的制药公司也只拥有数十万种到数百万种化合物,这与数以千万计的市售分子和数以亿计的模拟分子形成对比。
[0214] 物理实验的潜在更有效的替代方案是虚拟高通量筛选。与物理模拟可以帮助航空工程师在对模型进行物理测试之前评估可能的机翼设计的方式相同,对分子的计算筛选可以将实验测试集中在较小子集的高可能性分子上。这可以降低筛选成本并缩短筛选时间、减少假阴性、提高成功率并且/或者覆盖更广泛的化学空间。
[0215] 在该应用中,可以提供蛋白质目标作为该系统的输入。还可以提供一组数量很多的分子。对于每种分子,使用所公开的方法预测针对蛋白质目标的结合亲和力。来自第二分类器的所得分数可以用于对分子进行排序,得分最高的分子最有可能与目标蛋白质结合。任选地,可以分析经排序的分子列表以寻找相似分子的簇;可以使用大的簇作为对分子结合的更强预测,或者可以跨簇选择分子以确保验证性实验中的多样性。
[0216] 脱靶副作用预测。可能发现许多药物都有副作用。通常,这些副作用是与除了负责药物治疗效果的那个生物途径之外的生物途径相互作用而造成的。这些脱靶副作用可能引起不适或带来危险,并且限制了药物对其使用安全的患者群体。因此,脱靶副作用是评估进一步开发的药物候选物的重要标准。尽管表征药物与许多替代性生物靶标的相互作用很重要,但是此类测试的开发和运行可能既昂贵又耗时。计算预测可以使这个过程更有效率。
[0217] 在应用本发明的实施方案时,可以构建与明显的生物反应和/或副作用相关联的一组生物靶标。该系统然后可以被配置成依次预测对这组靶标中的每种蛋白质的结合。如由第二分类器确定的针对特定目标的强活性(即,与已知用于激活脱靶蛋白质的化合物具有同等效力的活性)可以暗示分子由于脱靶效应而产生副作用。
[0218] 毒性预测。毒性预测是脱靶副作用预测的一种特别重要的特殊情况。在晚期临床试验中,大约一半的药物候选物由于不可接受的毒性而不合格。作为新药审批流程的一部分(且在药物候选物可以在人体中进行测试之前),FDA要求针对一组目标的毒性测试数据,目标包括细胞色素P450肝酶(抑制这些酶可能导致源于药物相互作用的毒性)或hERG通道(与该通道结合可能导致QT延长,从而导致室性心律失常和其他不良的心脏效应)。
[0219] 在毒性预测中,系统可以被配置成将脱靶蛋白质限制为关键的抗靶标(例如,CYP450、hERG或5-HT2B受体)。然后可以针对这些蛋白质预测药物候选物的结合亲和力。任选地,可以分析分子以预测一组代谢物(在原始分子的代谢/降解过程中由身体产生的后续分子),也可以分析这组代谢物针对抗靶标的结合。有疑问的分子可以由第二分类器识别并且经修饰以避免毒性,或者可以停止对系列分子的开发以避免浪费额外的资源。
[0220] 效价优化。药物候选物的关键要求之一是针对其疾病靶标发生强结合。筛选很少能够发现结合强度足以在临床上有效的化合物。因此,初始化合物经历了很长的优化过程,期间药物化学工作者反复修饰分子结构,以提出具有增大的靶标结合强度的新分子。合成并测试每个新分子,以确定变化是否成功地改善了结合。该系统可以被配置成通过用计算预测替代物理测试来促进该过程。
[0221] 在该应用中,可以将疾病靶标和一组先导化合物分子输入到系统中。第二分类器可以被配置成针对这组先导化合物产生结合亲和力预测结果。任选地,第二分类器可以突出候选分子之间的差异,这可以有助于告知在结合亲和力上出现预测的差异的原因。药物化学工作者用户可以使用该信息来提出新的一组分子,希望能够改善针对靶标的活性。可以按相同的方式来分析这些新的替代性分子。
[0222] 选择性优化。如上所讨论的,分子倾向于以多种强度结合许多种蛋白质。例如,蛋白激酶(流行的化疗靶标)的结合口袋非常相似,并且大多数激酶抑制剂影响许多不同的激酶。这意味着同时修饰各种生物途径,从而产生“不干净的”药物图谱和许多副作用。因此,设计许多药物的严峻挑战并不在于活性本身,而在于特异性:选择性地靶向一组可能密切相关的蛋白质中的一种蛋白质(或蛋白质子集)的能力。
[0223] 我们的系统可以缩短优化药物候选物选择性的时间并且降低该过程的成本。在该应用中,用户可以输入两组蛋白质。一组描述了化合物针对其应当有活性的蛋白质,另一组则描述了化合物针对其应当无活性的蛋白质。该系统可以被配置成使得第二分类器针对这两组中的所有蛋白质对分子作出预测,从而建立起相互作用强度的分布图。任选地,可以分析这些分布图以提出蛋白质中的解释性模式。用户可以使用该系统产生的信息来考虑对分子的结构修饰(这将改善与不同蛋白质组的相对结合),并且设计出具有更好特异性的新候选分子。任选地,该系统可以被配置成突出候选分子之间的差异,这可以有助于告知在选择性上出现预测的差异的原因。可以迭代地分析所提出的候选分子,以进一步细化其活性谱的特异性。
[0224] 用于自动化分子设计的适应函数:用于执行前述优化的自动化工具非常有用。成功的分子需要在效价、选择性和毒性之间进行优化和平衡。“骨架迁越”(当先导化合物的活性得以保留,化学结构却显著改变时)可以产生改善的药代动力学、药效动力学、毒性或知识产权特征。存在迭代地提出新分子的算法,诸如随机生成分子、分子片段生长以填充给定的结合位点、用于使分子群体“突变”和“杂交”的遗传算法以及用生物电子等排取代交换分子的片段。由这些方法中的每一种产生的药物候选物必须针对上述多个目标(效价、选择性、毒性)进行评估,并且该技术可以按相同的方式提供关于前述手动设置(结合预测、选择性、副作用和毒性预测)中的每一项设置的信息,该技术可以纳入自动化分子设计系统。
[0225] 老药新用。所有药物都有副作用,并且这些副作用有时还是有益的。最有名的例子可能是阿司匹林,它通常用来治疗头痛,但也用于维护心血管健康。药物重新定位可以显著降低药物研发的成本、时间和险,因为药物已被证明在人体中是安全的、并且已针对患者体内的快速吸收和良好的稳定性加以优化。但不幸的是,药物重新定位一直以来在很大程度上都是偶然发现的。例如,西地那非(伟哥)是作为高血压药物开发的,却被意外地观察到可有效地治疗勃起功能障碍。对脱靶效应的计算预测可以在老药新用的背景中使用,以识别可以用于治疗其他疾病的化合物。
[0226] 在该应用中,如在脱靶副作用预测中那样,用户可以组装一组可能的目标蛋白质,其中每种蛋白质都与疾病相关。也就是说,抑制每种蛋白质会治疗(可能是不同的)疾病;例如,环氧合酶-2的抑制剂可以缓解炎症,而因子Xa的抑制剂可以用作抗凝剂。为这些蛋白质加上经批准药物的结合亲和力的注释(如果存在)。我们随后组装了一组分子,从而将这组分子限制为已被批准在人体内使用或已得到在人体内使用的调查研究的分子。最后,对于每对蛋白质和分子,用户可以使用包括第二分类器在内的系统来预测结合亲和力。如果预测的分子结合亲和力接近有效药物对蛋白质的结合亲和力,则可以识别出老药新用的候选物。
[0227] 耐药性预测。耐药性是使用药物的必然结果,它给快速分裂和突变病原体群体带来了选择压力。在诸如病毒(HIV)、外源微生物(MRSA)和失调宿主细胞(癌症)等的多种疾病因子中可以见到耐药性。随时间推移,无论给定的药物是抗生素还是化疗药物,该药物都会变得无效。在那时,干预可以转向不同的有希望仍然有效的药物。在HIV中,存在众所周知的疾病进展途径,所述途径由患者在接受治疗期间病毒将累积的突变来限定。
[0228] 人们对预测疾病因子如何适应医疗干预有相当大的兴趣。一种方法是表征在治疗期间将在疾病因子中出现哪些突变。具体地讲,药物的蛋白质目标需要突变以避免结合所述药物,同时继续结合其天然底物。
[0229] 在该应用中,可以提出目标蛋白质中的一组可能的突变。对于每种突变,都可以预测得到的蛋白质形状。对于这些突变蛋白质形式中的每一种,该系统可以被配置成预测对天然底物和药物这两者的结合亲和力。导致蛋白质不再与药物结合、但还继续与天然底物结合的突变是赋予耐药性的候选物。这些突变的蛋白质可以用作针对其设计药物的目标,例如,通过使用这些蛋白质作为这些其他预测使用案例之一的输入。
[0230] 个体化药物。不应当施用无效的药物。除了既花钱又麻烦之外,所有的药物都有副作用。出于道德和经济方面的考虑,只有在利大于弊时才有必要给药。能够预测药物何时会是有用的可能很重要。人与人之间由于存在少量突变而彼此不同。然而,小突变可能产生深远的影响。当这些突变出现在疾病靶标的活性(正构)位点或调节(变构)位点时,它们可以阻止药物结合,从而阻断药物的活性。当具体某个人的蛋白质结构是已知的(或得到预测),系统可以被配置成预测药物是否会是有效的,或者系统可以被配置成预测药物何时不会起作用。
[0231] 对于该应用,系统可以被配置成接收药物的化学结构和特定患者的具体表达蛋白质作为输入。该系统可以被配置成预测药物与蛋白质之间的结合,且如果药物预测的结合亲和力使得具体患者的蛋白质结构太弱而不具有临床效果,则临床医生或执业医生可以避免向患者徒劳地开具该药物的处方
[0232] 药物试验设计。该应用将上述个体化药物使用案例概括为患者群体的案例。当系统可以预测药物是否会对具体的患者表型有效时,该信息可以用于帮助设计临床试验。通过排除其具体的疾病靶标不会受到药物充分影响的患者,临床试验可以使用较少的患者获得统计检力。较少的患者直接降低了临床试验的成本和复杂性。
[0233] 对于该应用,用户可以将可能的患者群体分成以表达不同蛋白质(由于例如突变或同种型)为特征的亚群。该系统可以被配置成预测药物候选物针对不同蛋白质类型的结合强度。如果针对具体蛋白质类型的预测结合强度表明必要的药物浓度降到临床可实现的患者体内浓度(如基于例如试管、动物模型或健康志愿者中的物理表征)以下,则预测药物候选物对于该蛋白质亚群会没有效果。然后就可以将具有该蛋白质的患者排除在药物试验之外。
[0234] 农业化学设计。除制药应用之外,农业化学行业也在新杀虫剂的设计中使用结合预测。例如,对杀虫剂的一个迫切需求是阻止单个感兴趣的物种,却不会对任何其他物种产生不利影响。出于生态安全的考虑,某个人可能希望在不杀死大黄蜂的前提下将象鼻虫杀死。
[0235] 对于该应用,用户可以将来自在考虑之中的不同物种的一组蛋白质结构输入到该系统中。可以将一个子组的蛋白质指定为分子针对其有活性的蛋白质,而将其余蛋白质指定为分子针对其应当无活性的蛋白质。与以前的使用案例一样,一些组的分子(无论是在现有数据库中、还是从头生成)将被视为针对每个目标,并且该系统将返回针对第一组蛋白质具有最大效力、同时避免对第二组蛋白质发挥作用的分子。
[0236] 材料科学。为了预测新材料的行为和性质,分析分子相互作用可能是有用的。例如,为了研究溶剂化,用户可以输入给定小分子的重复晶体结构并评估该小分子的另一个示例在晶体表面上的结合亲和力。为了研究聚合物强度,可以类似地将一组聚合物链输入蛋白质目标结构,并且可以将该聚合物的低聚物作为小分子输入。因此,该系统可以预测聚合物链之间的结合亲和力。
[0237] 在一个具体实施例中,该系统可以用于通过例如预测氢键和π键堆叠的强度来预测诸如Kevlar之类的材料的强度。因此,如本文所公开的结合亲和力预测可以用于促进开发经改进的材料(诸如KEVLAR)。
[0238] 模拟。模拟器通常测量分子与蛋白质的结合亲和力,因为分子停留在该蛋白质的区域中的倾向与它在那里的结合亲和力相关。对支配结合的特征的准确描述可以用于识别具有特别高或特别低的结合能的区域和姿势。该能量描述可以折叠到蒙特卡罗模拟中,以描述分子的运动和蛋白质结合区的占用情况。类似地,用于对系统生物学进行研究和建模的随机模拟器可以得益于准确预测分子浓度的微小变化如何影响生物网络。
[0239] 结论
[0240] 出于解释的目的,前面的描述是参考具体的实施方式来描述的。然而,上面的说明性论述并非旨在是穷举性的,也并非将实施方式限制为所公开的精确形式。根据以上教导内容,很多修改形式和变型形式都是可能的。选择和描述实施方式是为了最佳地阐明原理及其实际应用,从而使得本领域的其他技术人员能够最佳地利用实施方式以及具有适合于所设想的特定用途的各种修改的各种实施方式。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈