首页 / 国际专利分类库 / 化学;冶金 / 组合化学 / 组合化学;化合物库,如化学库、虚拟库 / 库本身,如阵列、混合物 / 表示多维空间中的接近性数据的系统、方法和计算机程序产品

表示多维空间中的接近性数据的系统、方法和计算机程序产品

申请号 CN99807596.5 申请日 1999-05-07 公开(公告)号 CN1306650A 公开(公告)日 2001-08-01
申请人 三维药物公司; 发明人 迪米特里斯·K·阿格费奥蒂斯; 维克托·S·洛班弗; 弗朗西斯·R塞勒姆;
摘要 一种以表现对象的多维空间中的点之间的距离的形式,表示对象之间的相似性/非相似性(关系)的精确或不精确量度的系统,方法和 计算机程序 产品。通过利用随机关系/距离误差,自组织原理被用于 迭代 修正点的初始构型(随机的或者部分排序的)。数据可以是完整的或者不完整的(即。对象之间的一些关系未知),精确或不精确的(即,可能用 许可 的范围或限度来给出一些或所有关系),对称的或不对称的(即,对象A与对象B的关系可能不同于对象B与对象A的关系),并且可能含有系统或随机误差。可通过观察,测量,现有知识或者直觉,直接得到对象之间的关系,或者利用获得接近性(关系)数据的任何适当技术,间接地确定对象之间的关系。本 发明 迭代分析对象子集,以便在表现对象之间的关系的多维空间中表示对象子集。在一个例证 实施例 中,本发明利用常规的多维定标或非线性映射 算法 ,迭代分析对象子集。在另一例证实施例中,关系被定义为各对对象之间的成对关系或者成对相似性/非相似性,本发明每次迭代分析一对对象。最好,以双重嵌套循环的形式,成对评估子集。
权利要求

1.一种以显示图上对象间距离的形式,表示对象之间关系的方法, 该方法包括下述步骤:
(1)把对象放置在显示图上;
(2)选择对象子集,其中选择的对象子集包括选择的子集中的对 象间的相关关系;
(3)根据对象之间的关系和距离,修正显示图上对象间的距离;
(4)对选自对象集合的其它对象子集重复步骤(2)和(3)。
2.按照权利要求1所述的方法,其中步骤(2)包括下述步骤:
(a)选择一对具有相关的成对关系的对象。
3.按照权利要求2所述的方法,其中一对或多对对象之间的关系 是未知的,该方法还包括下述步骤:
(4)只对相关关系已知的成对对象执行步骤(2)-(4);和
(5)允许在步骤(2)-(4)的执行过程中,修改显示图上关系 未知的对象之间的距离。
4.按照权利要求2所述的方法,其中一对或多对对象由有限的不 确定性联系起来,该方法还包括下述步骤:
(5)只有当显示图上,由具有规定为一组许可的关系值范围的有 限不确定性的关系联系起来的一对对象之间的距离位于规定范围之外 时,才修正该距离。
5.按照权利要求2所述的方法,其中一对或多对对象由有限的不 确定性联系起来,该方法还包括下述步骤:
(5)只有当显示图上,由具有规定为许可的关系值的上限的有限 不确定性的关系相联系的一对对象之间的距离高于规定的上限时,才 修正该距离。
6.按照权利要求2所述的方法,其中一对或多对对象由有限的不 确定性联系起来,该方法还包括下述步骤:
(5)只有当显示图上,由具有规定为许可的关系值的下限的有限 不确定性的关系相联系的一对对象之间的距离位于规定范围之外时, 才修正该距离。
7.按照权利要求2所述的方法,其中一对或多对对象由无限的不 确定性相联系,该方法还包括下述步骤:
(5)识别对应的关系含有无限的不确定性的一对对象;
(6)除去含有无限不确定性的关系;
(7)在步骤(2)-(4)的执行过程中,允许修正对应的关系已 被除去的对象之间的距离。
8.按照权利要求2所述的方法,其中步骤(3)包括下述步骤:
(a)根据学习率,修正距离。
9.按照权利要求2所述的方法,其中步骤(3)包括下述步骤:
(a)根据固定的学习率,修正距离。
10.按照权利要求2所述的方法,其中步骤(3)包括下述步骤:
(a)根据自适应学习率,修正距离。
11.按照权利要求2所述的方法,其中步骤(3)包括下述步骤:
(a)根据动态学习率,修正距离。
12.按照权利要求2所述的方法,其中步骤(3)包括下述步骤:
(a)根据为选择的一对对象之间的关系的函数的学习率,修正距 离。
13.按照权利要求2所述的方法,其中步骤(3)包括下述步骤:
(a)根据为一个或多个选择对象的函数的学习率,修正距离。
14.按照权利要求2所述的方法,其中步骤(3)包括下述步骤:
(a)根据为选择的一对对象的函数的学习率,修正距离。
15.按照权利要求1所述的方法,其中步骤(3)包括下述步骤:
(a)利用常规的多维定标技术,修正距离。
16.按照权利要求1所述的方法,其中步骤(3)包括下述步骤:
(a)利用常规的非线性定标技术,修正距离。
17.按照权利要求l所述的方法,其中步骤(3)包括下述步骤:
(a)利用常规技术,计算误差函数;和
(b)利用梯度下降程序,修正距离。
18.按照权利要求1所述的方法,以所述对象不是化学对象为条 件。
19.一种以显示图上对象间距离的形式,表示对象之间关系的方 法,该方法包括下述步骤:
(1)把对象放置在显示图上;
(2)选择对象子集,其中选择的对象子集包括选择的子集中的对 象间的相关关系;
(3)从选择的子集中选择一对对象,该对对象具有相关的成对关 系;
(3)根据该对对象之间的关系和显示图上该对对象之间的距离, 修正显示图上该对对象间的距离;
(4)对选自所选对象子集的其它各对对象重复步骤(3)和(4)。
20.按照权利要求19所述的方法,还包括下述步骤:
(5)选择另一对象子集;和
(6)对选择的另一对象子集中的各对对象,迭代重复步骤(3) 和(4)。
21.一种以显示图上相互间距离的形式,表示一组对象中的对象 之间关系的系统,包括:
把对象放置在显示图上的坐标模
选择对象之间距离要进行修正的对象子集的子集选择器;
根据距离和对应的关系,修正选择的子集中的对象之间的距离的 坐标修正模块。
22.按照权利要求21所述的系统,还包括:
选择对象之间距离要进行修正的各对对象的子集选择器。
23.按照权利要求21所述的系统,还包括:
选择其间的距离要进行修正的两个以上的对象的子集选择器;和
利用常规技术,修正选择的子集中的对象之间的距离的坐标修正 模块。
24.按照权利要求23所述的系统,还包括:
利用常规技术计算误差函数值,并利用梯度下降程序修正距离的 坐标修正模块。
25.按照权利要求23所述的系统,还包括:
利用常规的多维定标技术,计算误差函数值的坐标修正模块。
26.按照权利要求23所述的系统,还包括:
利用常规的非线性定标技术,计算误差函数值的坐标修正模块。

说明书全文

发明涉及数据分析,更具体地说,涉及多维空间中接近性数据 的表现。

多维定标(MDS)和非线性映射(NLM)是用于产生对象的显示 图,包括非线性图的技术,其中对象之间的距离描述对象之间的关系。

Torgerson,Phychometrika,17:401(1952);Kruskal, Psychometrika,29:115(1964);和Sammon,IEEE Trans.Comput C-18:401(1969)把MDS和NLM介绍为一种产生心理数据的低维 表示的手段。在Schiffman,Reynolds和Young的“多维定标导论”, Academic Press,New York(1981);Young和Hamer的“多维定标: 历史,理论和应用”,Erlbaum Associates,IncHillsdale,NJ(1987); 和Cox与Cox的,“多维定标”,Number 59 in Mohographs in Statistics and Applied Probability,Chapman-Hall(1994)中评述了多维定标 和非线性映射。这些出版物的内容整体上作为参考包括于此。

MDS和NLM(通常它们是相同的,下文总体地称为MDS)代表 一批借助低维Euclidean空间中点的距离,显现对象的接近关系的方 法。在Hartigan的J.Am.Statist.Ass62:1140(1967)中评述了 接近性度量,该文献整体上作为参考包含于此。

特别地,已知有限的一组矢量样本或者其它样本A={ai,i=l,…,k, 测量A中的第i个对象和第j个对象之间的相似性或非相似性的关系 函数rij=r(ai,aj),这里ai,aj∈A,和A在m维显示平面上的一组图象 X={xi,…xk,xi∈Rm(Rm为实数的所有m维矢量的空间),目的是以这样 一种方式把xi放到显示平面上,以致它们的Euclidean距离dih=‖xi-xj‖ 尽可能精密地近似于相应的值rij。通过使测量原始矢量组和投影矢量 组的原始rij和投影dij。之间的差别的误差函数达到最小,以迭代的方式 进行在大多数情况下只能近似完成的这种投影。

已提出了几种这样的误差函数,这些误差函数的大多数都是最小 二乘方类型的误差函数,包括Kruskal“应”:

Sammon的误差标准:

和Lingoes的不相关系统:

这里dij=‖xi-xj‖是显示平面上,图象xi和xj之间的Euclidean距离。

通常,通过下述步骤以迭代的方式找到解答:

(1)计算或者从数据库取回关系rij;

(2)初始化图象xi;

(3)计算图象dij的距离和误差函数的值(例如上面的方程1-3中 的S,E或K);

(4)利用梯度下降程序,例如Kruskal的线性回归或者Guttman 的秩-图象排列(rank-image permutation)计算图象xi的新构象;和

(5)重复步骤3和4,直到在规定的容限内使误差达到最小为止。

例如,通过利用方程4,迭代校正坐标xi,Sammon算法使方程达 到最小:

xpq(m+1)=xpq(m)-λ△pq(m)    方程4

这里m是迭代次数,xpq是第p个图象xp的第q个坐标,λ是学习 率(learning rate),

方程5中的偏导数由下式给出:

借助方程2的重复估算,之后利用方程4和5修正坐标,直到在 规定的容限内使误差达到最小,得到映射图象。

上面的常规修正范例适用于相对较小的数据集,但是具有一个重 要的局限性,该局限性使得上述修正范例不能用于较大的数据集。这 种局限性起源于计算梯度的计算工作(即,上面的步骤(4))和数据 集的大小的平方成比例的事实。对于相对较大的数据集来说,这种二 次时间复杂性造成即使局部的修正也是难以处理的。

于是需要一种表示多维空间中接近性数据的系统,方法和计算机 程序产品,它和对象的数目成比例,并可应用于较小和较大的数据集。 此外,还需要一种在漏失数据和/或数据含有的有界或无界不确定性方 面可行的系统,方法和计算机程序产品。

本发明是用于表示对象之间的相似性/非相似性(关系)的精确或 不精确度量的系统,方法和计算机程序产品,最好以表现对象的多维 空间中点之间的距离的形式,描述对象之间的相似性/非相似性(关 系)。通过利用随机关系/距离误差,算法使用自组织原理,迭代修正 点的初始构型(随机或部分排序)。数据可以是完整的或者不完整的 (即,对象之间的某些关系可能未知),精确或者不精确的(即,可能 用许可的范围或限度来给出一些或所有关系),对称的或不对称的(即, 对象A与对象B的关系可能不同于对象B与对象A的关系),并可能 含有系统或随机误差。

可通过观察,测量,现有知识或者直觉,直接得到对象之间的关 系,或者利用获得接近性(关系)数据的任何适当技术,直接或者间 接地确定对象之间的关系。

本发明迭代分析对象子集,以便在表现对象之间的关系的多维空 间中表示对象子集。

在一个例证实施例中,本发明利用常规的多维定标或非线性映射 算法,迭代分析对象子集。

在另一例证实施例中,关系被定义为各对对象之间的成对关系或 者成对相似性/非相似性,本发明每次迭代分析一对对象。最好,以双 重嵌套循环的形式,成对评估子集。

在下面的说明中,术语“关系”,“相似性”或“非相似性”被用 于表示一对对象之间的关系。术语“显示图”被用于表示表现初始对 象的n维空间上的一批图象。术语“距离”被用于表示显示图上,对 应于对象的图象之间的距离。

这里提供了本发明的例子,包括利用化合物数据和关系实现的本 发明的例子。但是应明白,本发明并不局限于这里给出的例子。可以 各种应用的形式实现本发明。

例如,虽然这里描述的具体实施例利用点之间的距离来表示对象 间的相似性/非相似性,不过打算并适于使用任意显示属性来表示对象 间的相似性/非相似性,包括,但不局限于字体,大小,颜色,灰度, 斜体字,下划线,粗体,边框,边界等等。例如,可用表现对象的点 的相对大小,表示两个对象之间的相似性/非相似性。

下面将参考附图,详细说明本发明的其它特征和优点,以及本发 明的各种实施例的结构和实施。

本发明的文件含有至少一个彩色附图。当申请并支付必要的费用 时,专利和商标局将提供本专利的带有彩色附图的复制件。

下面将参考附图说明本发明,其中:

图1图解说明了根据本发明的一个实施例的计算环境的方框图

图2是可用于实现本发明的组件的计算机的方框图;

图3是表示根据本发明的一个实施例,在显现并交互式处理显示 图方面,本发明的操作的流程图

图4是表示根据本发明的一个实施例产生显示图的方式的流程 图;

图5从原理上图解说明了对象之间的关系,其中在一定的容限内, 关系是已知的;

图6是表示对象之间的关系的系统的方框图;

图7是图解说明表示对象之间的关系的方法的过程流程图。

在附图中,相同的附图标记表示相同或功能相似的部件。另外, 附图标记最左侧的数字确定在其中相关部件被首次介绍的附图。

Ⅰ.本发明的概述

本发明是把对象之间的相似性/非相似性(关系)的精确或不精确 度量看作表现对象的多维空间中的点之间的距离(或者使用其它显示 属性或技术)的系统,方法和计算机程序产品。通过利用随机关系/距 离误差,算法使用自组织原理迭代修正点的初始(随机或部分有序) 构型。数据可以是完整或者不完整的(即,对象之间的一些关系可能 未知),准确或者不准确的(即,可能依据允许的范围或限度给出某些 或者所有关系),对称的或者不对称的(即,对象A与对象B的关系 可能不同于对象B与对象A的关系),并且可能含有系统或随机误差。

可通过观察,测量,现有知识或者直觉,直接得到对象之间的关 系,或者利用获得接近性(关系)数据的任何适当技术,直接或者间 接地确定对象之间的关系。

本发明迭代分析对象的子集,以便在表现对象的多维空间中表示 对象的子集。

在例证实施例中,本发明利用常规的多维定标或非线性映射算法, 迭代分析对象的子集。

在另一例证实施例中,关系被定义为多对对象之间的成对关系或 者成对相似性/非相似性,本发明每次迭代分析一对对象。最好,以双 重嵌套循环的形式,成对估算子集。

在备选实施例中,关系被定义为多个对象之间的N状(N-wise) 关系或N状相似性/非相似性,本发明每次迭代分析多个对象,这里N 最好大于1。对于相关领域中的技术人员来说,该备选实施例的实现 将是显而易见的。

术语“对象”指的是任意实体,数据,性质,属性,成分,要素, 组分,项目等,它应该可用于表示任意的这种实体,数据,性质,属 性,成分,要素,组分,项目等的实例之间或者不同的同一对象之间 的相似性/非相似性。不是进行限制,而只是作为例子,对象包括,例 如化合物,过程,机械,物质的组成,制成品,电气设备,金融数据, 金融工具,金融趋势,和金融相关的特性和特征,软件产品,人的特 点和特征,科学性质、特点和特征等。在一个实施例中,本发明作用 于除化合物之外的任意实体,数据,性质,属性,成分,要素,组分, 项目等。

Ⅱ.子集选择

本发明迭代分析对象的子集,以便在表现对象之间的关系的多维 空间中表示对象的子集。在一个例证实施例中,本发明通过利用常规 的多维定标或非线性映射算法,迭代分析对象的子集。在该实施例中, 利用常规的算法,例如上面说明的那些算法(但不局限于此),成组地 分析选择的子集中的对象。特别地,利用常规的多维定标,非线性映 射或者任意其它适当的算法,或者下面说明的成对修正算法,修正对 应于包含该子集的对象的图象的坐标。

在该实施例中,可随机地,半随机地,系统地,部分系统地选择 对象的子集。当分析对象的子集,并且修正它们的距离时,该组对象 往往引起自组织。这样,可利用常规的多维定标或非线性映射算法处 理较大的数据集。

在另一例证实施例中,关系被定义为多对对象之间的成对关系或 者成对相似性/非相似性,本发明每次迭代分析一对对象。可随机地, 半随机地,系统地,部分系统地等等,选择多对对象。在下面的章节 中,提供了用于成对分析的新算法和新技术。出于举例说明的目的描 述该实施例,而不是对本发明的限制。

在一个备选实施例中,关系被定义为多个对象之间的N状关系或 N状相似性/非相似性,本发明每次迭代分析多个对象,这里N最好大 于1。对于相关领域中的技术人员来说,该备选实施例的实现将是显 而易见的。

Ⅲ.不具有不定性的完整的成对关系矩阵

这里采用的优选途径是使用基于随机或瞬时误差的迭代修正。本 节中的讨论假定所有的成对关系都是已知的,并且都是准确的。如同 常规的MDS中一样,该方法开始于随机产生的,或者由其它一些方 法(参看下文)产生的点的初始构型。随后通过随机地反复选择两个 点i,j,并根据方程8修改它们在显示图上的坐标,连续地修正该初 始构型:

xi(t+1)=f(t,xi(t),xj(t),rij)    方程8

这里t是当前的迭代,xi(t)和xj(t)是第i个点和第j个点在显示图 上的当前坐标,xi(t+1)是第i个点在显示图上的新坐标,rij是我们试图 在显示图上近似表示的第i个对象和第j个对象之间的成对关系(参见 上文)

上面的方程8中的f(·)可采取任意函数形式。理论上,该函数应试 图使第i个点和第j个点之间的实际距离和目标距离之间的差别达到最 小。例如,f(·)可由方程9给出:

这里,t是迭代序号,dij=‖xi(t)-xj(t)‖,λ(t)是一个可调节的参数, 借鉴于神经网络术语,下面将其称为“学习率”。重复该过程固定的循 环次数,或者重复该过程,直到在一些规定的容限内,使一些全局误 差标准达到最小为止。为了获得统计精度,通常需要进行大量的迭代。

上面描述的方法使人想起神经网络后反向传播训练(back- propagation training)(Werbos,Beyond Regression:“用于行为科 学的新预测和分析工具”,PhD Thesis,Harvard University, Cambridge,MA(1974),和Rumelhart和McClelland,Eds“平 行分布处理:识别微结构研究”,Vol.1,MIT Press,Cambridge,MA (1986))和Kohonen的自组织原理(Kohonen,Biological Cybernetics,43:59(1982))。

方程9的学习率λ(t)在确保收敛方面,起到关键的作用。如果λ太 小,坐标修改较小,收敛缓慢。另一方面,如果λ太大,可使学习率 加速,但是显示图会变得不稳定(即,摆动的)。通常,λ在区间[0,1] 内变化,可以是固定值,或者在修正过程中,λ可单调递减。此外,λ 也可以是i,j和/或rij的函数,可被用于向某些对象和/或关系施加不同 的加权。例如,可依据下面的方程计算λ:

或者

这里λmax和λmin是(未加权的)起始和终止学习率,以致λmax, λmin∈[0,1],t是修正步骤(迭代)的总数,t是当前的迭代序号,a是比 例因数。方程10和11的效果是以较大的间距减少修正,从而产生和 长程相互作用相比,更如实地保持短程相互作用的显示图。后面将更 详细地讨论加权。

这种方法的一个主要优点在于使局部的修正成为可能。通常只需 要近似地表示成对关系,以显示数据的大体结构和拓扑就足够了。和 传统的MDS不同,这种方法允许非常精细地控制修正过程。此外, 由于显示图自组织的缘故,成对修正变得合作,这部分减轻了问题的 二次性质。

上面描述的嵌入程序并不保证收敛于全局最小值(即,最小二乘 方意义上的最可靠的嵌入)。如果需要这样,可以从不同的起始构型和 /或随机数种子(seed)开始,使修正过程重复若干次。通常,显示图 中的绝对坐标不带有任何物理意义。重要的是点之间的相对距离,以 及数据的大体结构和拓扑(群的存在,密度和分离等)。

上面描述的方法理论上适用于公制定标和非公制定标。当成对关 系不遵守距离假定,尤其是三不方程时,后者特别有用。虽然只有 当成对关系矩阵是正定矩阵时,“精确”投影才是可能的,但是即使当 这一标准不被满足时,仍然可以获得有意义的映射图。如上面提及的 一样,投影的整体质量由如方程1-3中所示的平方和误差函数确定。

当成对关系矩阵是不完整的,即当一些成对关系未知时,当一些 成对关系不确定或者被破坏时,或者上述两种情况都存在时,也可采 用上面说明的一般算法。下面将分别讨论这些情况。

Ⅳ.不具有不确定性的稀疏成对关系矩阵

当成对关系矩阵不完整时,即当一些成对关系未知时,也可使用 上面描述的一般算法。这种情况下,可使用和上面描述的算法类似的 算法,除了该算法在关系已知的成对点范围内进行迭代之外。这种情 况下,该算法识别空间中满足已知的成对关系的构型;在修正过程中, 未知的成对关系采用并最终采取导致已知关系的满意嵌入的值。

根据漏失数据的数目,可存在初始关系矩阵的一个以上的令人满 意的嵌入(映射)。这种情况下,不同的构型(映象)可源于不同的起 始构型或随机数种子。在一些应用中,例如搜索分子的构象空间的应 用中,和一些备选技术相比,这种特征提供意义重大的优点。在这种 情况下,可使用初始算法的所有变型(参见下面的章节)。

Ⅴ.具有有限不定性的成对关系矩阵

当成对关系含有有限不定性时,即,当只知道一结成对关系位于 一定的固定容限内(例如,知道关系位于具有规定的上边界和下边界 的一组范围内)时,也可采用上面描述的一般算法。这种情况下,可 使用和上面描述的算法类似的算法,除了只有当相应的点位于规定的 边界外时,才修正显示图上的距离之外。例如,假定分别利用上边界 和下边界rmax和rmin给出两个对象i和j之间的关系。当在修正过程中选 择这对对象时,计算显示图上对应图象的距离,并将其表示为dij。如 果dij大于rmax则通过把rmax用作目标距离,修正图象的坐标(方程12):

xi(t+1)=f(t,xi(t),xj(t),rmax)    方程12

相反,如果dij小于rmin,则通过把rmin用作目标距离,修正图象的坐 标(方程13):

xi(t+1)=f(t,xi(t),xj(t),rmin)    方程13

如果dij位于上边界和下边界之间(即,如果rmin≤dij≤rmax),则不进 行任何修正。换句话说,如果图象之间的当前距离大于上边界,则算 法设法匹配上边界,如果图象之间的当前距离小于下边界,则算法设 法匹配下边界。如果图象之间的距离位于上边界和下边界之间,则不 进行任何修正。

在一些成对关系由一组有限的容许离散值,或者由一组值的范围, 或者由它们的组合给出的情况下,可扩展该算法。为了便于下面的讨 论,我们把离散值看作是零宽度的区间(例如,为2的离散值可被表 示为区间[2,2])。

图5中举例说明了单个假定成对关系和显示图上的相应图象的当 前距离的各种可能性,阴影区510,512和514表示给定的成对关系的 容许范围。距离d1-d5图解表示了显示图上,对应图象之间的当前距 离的5种不同可能性。箭头516,518,520和522表示在显示图上, 应在图象上施加的修正的方向。箭头5187和522指向左方,表示显示 图上相关图象的坐标应被修正,以使图象更靠近。箭头516和520指 向右方,表示相关图象的坐标应被修正,以使图象间距更远。

和单一区间的情况一样,如果在显示图上,选择的一对图象之间 的当前距离位于任意规定区间内,则不进行任何修正(即图5中的情 况d1)。如果不是,则通过把最近的区间边界作为目标距离,进行修 正(即,图5中的情况d2-d5)。例如,如果一对给定的对象之间的关 系位于区间[1,2],[3,5]和[6,7]之间,并且相应图象的当前距离是 2.9(图5中的d5),则通过在方程8中,把3作为目标距离(rij),进 行修正。但是,如果当前距离为2.1,则通过在方程8中,把2作为目 标距离(rij),修正坐标。

可用随机地或者以借助概率选择目标距离的随机或概率准则代替 这种确定准则,概率取决于当前距离和两个最近的区间边界之间的差 值。在上面描述的例子中(图5中的d5),可分别以,例如0.1和0.9 的概率,在作为目标距离的2和3之间进行概率选择(即,可以0.1 的概率把2选为目标距离,以0.9的概率把3选为目标距离)。可使用 得出这种概率的任意方法。或者,可随机地把2或3选择为目标距离。

例如,成对关系中的有限不定性意味着随机误差或系统误差,或 者与物理测量相关的噪声,并且通常可使一个成对关系不同于另一成 对关系。典型的例子是多维核磁共振光谱测定法中的核极化效应 (NOE)。

一种对付不定性的备选算法是降低其关系被认为是不确定的成对 对象的修正幅度。在这种方案中,降低被认为是不确定的成对关系的 修正幅度,修正幅度由,例如方程9中的学习率确定。修正幅度取决 于和对应的成对关系相关的不确定性的程度(例如,修正幅度可能反 比于和对应的成对关系相关的不确定性)。如果误差的存在和/或大小 是未知的,则可由算法自动确定该误差(参见下面的章节Ⅴ)。

Ⅵ.具有无限不定性的成对关系矩阵(损坏的数据)

当一些成对关系被认为含有损坏的数据时,即当一些成对关系是 不正确的,并且基本上和实际值无关时,可应用在前面的章节中描述 的想法。在这种情况下,可在算法过程中,检测“有问题的”关系, 并从后续的处理中删除。换句话说,目的是识别出损坏的项目,并把 它们从关系矩阵中删除。这种处理导致稀疏的关系矩阵,可利用上面 的章节2.1中的算法,修正该关系矩阵。

Ⅶ.基本算法的修改

在许多情况下,通过利用适当的统计方法,对数据进行预排序, 可加速上面描述的算法。例如,如果接近性来源于可呈矢量形式或二 进制形式的数据,则可利用主分量分析,计算显示图上点的初始构型。 在一个优选实施例中,初始构型可由特征矩阵的最初3个主分量构成 (即,对数据中的大多数方差负责的3个潜在变量)。实际上,该技术 在修正速度方面具有深远的作用。实际上,如果使用随机的初始构型, 大部分的训练时间花在建立显示图的大体结构和拓扑上,显示图的结 构和拓扑通常由大量的重新排列表征。另一方面,如果输入构型部分 有序,则可相当快地把误差标准降低到可接受的平。

如果数据高度成群,借助于抽样过程,低密度区域的修正效率低 于高密度区域的修正效率。在例证实施例中,通过对增大低密度区域 中的抽样概率的初始算法进行修改,可部分补偿这种趋向。在一个实 施例中,识别显示图的质心,并构造以该点为中心的同心轮廓。随后 执行一系列规则的修正迭代,每次从这些轮廓内或者轮廓之间选择点。 使该过程重复规定次数的循环。该阶段之后,是使用全局抽样的规则 修正阶段,并且重复该过程。

基本算法一般不区分短程距离和长程距离。方程10和11描述了 一种通过使用加权,确保比起长程距离来,更可靠地保持短程距离的 方法。

一种备选(和互补的)方法是确保比起间隔较大距离的点来,更 大范围地对间隔较小距离的点进行采样。例如,可采用类似于上面所 述的一系列交替的全局和局部修正循环。在该实施例中,一开始进行 全局修正阶段,之后,把得到的显示图划分成规则的网格。随后对每 个网格单元中的点(对象)进行局部修正阶段(即,只比较并修正来 自于同一单元中的点)。最好,每个单元中的抽样步骤的数目应正比于 该单元中所含的点的数目。该过程可并行进行。在该局部修正阶段之 后,接着进行另一全局修正阶段,重复该过程规定次数的循环,或者 直到在规定容限内,使嵌入误差达到最小为止。或者,可用识别邻近 的点的另一适当方法,例如k-d树,代替网格方法。

这里描述的方法可用于进行增量修正。即,从一组点的组织显示 图开始,在不修改初始显示图的情况下,可加入一组新的点。严格地 讲,如果新的一组点显著小于初始的一组点,这在统计上是可接受的。 在一个例证实施例中,可利用上面描述的基本算法的变型,可把新的 一组点“散布”到已有的显示图中。特别地,方程8和9可用于只更 新输入的点。另外,抽样程序确保选择对含有来自于输入组的至少一 个点。即,随机地选择两个点,以便这些点的至少之一属于输入组。 或者,可利用上面描述的途径,独立地散布每个新的点。

Ⅷ.评估性质(特征),关系和距离测量

在一个例证实施例中,对象之间的关系可表示为显示图上,对象 之间的相似性/非相似性,并可由与对象相关的性质或特征而得出。任 何相似性量度可用于构造显示图。这里,有时把用于评估相似性或非 相似性的性质或特征统称为“评估性质”。

例如,如果对象是化合物,对象之间的相似性可建立在结构相似 性、化学相似性、物理相似性、生物相似性和/或可由化合物的结构或 本性导出的其他类型的相似性的基础上。

A.具有连续或离散实值的评估性质

相似性量度可由与一组对象相关的评估性质列表得出。例如,如 果对象是化合物,评估性质可以是与一组化合物相关的物理、化学和/ 或生物性质。在这种形式下,对象可被表示为多元性质空间中的矢量, 并且可依据一些几何距离量度,计算它们的相似性。

在一个例证实施例中,利用一个或多个特征或描述符,确定性质 空间。对于化合物例子来说,可利用一个或多个分子特征或描述符, 确定性质空间。这种分子特征可包括拓扑指数,物化性质,静电场参 数,体积和表面参数等。这些特征包括,但不局限于,分子体积和表 面积,偶极矩,辛醇-水分配系数,摩尔折射系数,形成热,总能量, 电离电位,分子连通指数,2D和3D自相关矢量,3D结构和/或药效 参数,电场等。

但是应明白,本发明并不限于该实施例。例如,分子特征可包括 对照一系列的生物目标,例如酶或受体(也称为亲合性酶解图谱),观 察到的一组化合物的生物活性。事实上,在本发明中,可使用化学数 据的任何矢量表示。

另外还应明白,本发明并不限于在化合物对象方面的应用。相反, 可利用任意数据集或对象,包括与具有连续或离散实值的评估性质相 关的对象,实现本发明。

1.评估性质的值是连续或离散实数情况下的关系或距离量度

“距离量度”是用于根据选择的评估性质,确定对象之间的关系 的一些算法或技术。在任意给定情况下使用的特定距离量度依赖于(至 少部分依赖于)评估性质可采用的该组值。

例如,在评估性质可采用实数作为值的情况下,则适当的距离量 度是方程14中所示的Minkowski量度:

这里k用于索引性质矢量的元素,并且r∈[1,∞)。r=1.0,方程14 是城市街区(city-block)或Manhattan量度。r=2.0,方程14是普通 的Euclidean量度。r=∞,方程14是绝对坐标距离的最大值,也称为 “显性”量度,“sup”量度或者“超量度”距离。对于r∈[1,∞)的任意 值,可证明Minkowski量度是真实量度,即它遵守距离公设,尤其是 三角不方程。

B.具有二进制值的评估性质

另一方面,可以二进制形式表示对象的评估性质,这里二进制位 被用于表示特征或特性是否存在,或者是否可能存在。

例如,如果对象是化合物,可利用子结构密钥对对象编码,这里 每个二进制位表示目标分子中,特定的结构特征或模式的存在与否。 这种特征可包括,但不限于,特定元素的存在与否,或者特定元素的 最小出现次数(例如,至少1,2或3个氮原子的存在),异常的或重 要的电子构型和原子类型(例如,双键键合的氮或芳香),诸如乙醇, 胺等的常见功能团,某些简单的或者复合的环,三维空间中间距特定 距离的一对或三个一组的药效基团,和非常少见,不足以使用一个单 独的二进制位,但是当其产生时却极端重要的异常特征的“分离”。通 常,这些异常特征被分配一个共用的二进制位,如果任意之一模式存 在于目标分子中,则设置该共用二进制位。

或者,可以二进制指纹的形式,对化合物的评估性质编码,二进 制指纹执行二进制分配并不依赖于预先确定的片断或特征字典。相反, 分子中多达预定限度的每种模式被系统地列举,并用作散列算法的输 入,该散列算法“打开”位图中伪随机位置处的少量二进制位。虽然 可以想象得到,两个不同分子可具有完全相同的指纹,除了最简单的 情况之外,对于其它所有情况,发生这种情况的概率非常小。经验表 示这些指纹含有足够多的关于分子结构的信息,足以允许进行有意义 的相似性比较。

1.评估性质的值是二进制值的距离量度

许多关系量度可和二进制描述符一起使用(即,评估性质是二进 制或二进帛指纹的地方)。使用最频繁的是测量x和y之间,不同的二 进制位的数目的归一化Hamming距离:

Tanimoto或Jaccard系数:

它是以它们所能够共有的子结构为基准,两个分子共享的子结构 的数目的量度,以及Dice系数:

在上面列举的方程中,AND(x,y)是二进制集合x和y的交集 (在两个集合中均处于“on”状态的二进制位),IOR(x,y)是x和 y的并集或者是x和y的“或”(在x或y中处于“on”状态的二进制 位),XOR是x和y的“异或”(在x或y中处于“on”状态,但不是 在两者中都处于“on”状态的二进制位),|x|是在x中处于“on”状态 的二进制位的数目,N是以二进制位为单位测得的二进制集合的长度 (常数)

另一种通用的量度是Euclidean距离,在二进制集合的情况下, 它可改写为下述形式:

这里,NOT(y)表示y的二进制补码。表达式|XOR(x,NOT(y))︳表示 x和y中,相同的二进制位的数目(或者为1或者为0)。当二进制集 合中的集合元素相对较多时,Euclidean距离是较好的相似性量度,并 且主要用在相对地测量相似性的情况中。

在化合物例子中,可利用二进制或多元表示法确定对象之间的距 离。但是,本发明并不局限于该实施例。

例如,可通过利用适当的三维对准方法,比较分子的形状,确定 两个化合物之间的相似性,或者可依据根据规定的程序确定的相似性 模型,推断两个化合物之间的相似性。例如,一种这样的相似性模型 可以是,训练成在已知一对适当代码化的化合物的条件下,预测相似 性系数的神经网络。可利用一组训练结构对,和由用户输入确定的每 对这种结构的已知相似性系数,训练这种神经网络。

C.评估性质的定标

参见方程14,在评定化合物之间的关系时,可对特征(即评估性 质)进行不同的缩放,以反映它们的相对重要性。例如,可对性质A 赋予为2的加权值,对性质B赋予为10的加权值。这样,性质B对 关系计算的影响将为性质A的5倍。

因此,方程可下方程19代替:

这里,wk是第k个性质的加权值。这种加权因子的一个例子是归 一化系数。但是,也可使用其它加权方案。

在整个显示图内,定标(加权值)不必统一,即,最后得到的显 示图不必是同构的。下面,将把源于统一加权值的显示图称为全局加 权(同构)显示图,而把源于不统一加权值的显示图称为局部加权(非 同构)显示图。在局部加权显示图上,显示图上的关系(距离)反映 相似性的局部量度。即,在显示图的一个区域中确定相似性的要素不 必和在显示图的另一区域中确定相似性的要素相同。

例如,局部加权显示图可用于反映源于基于局部加权的学习算法 的相似性。局部加权学习算法使用局部加权训练求训练数据的平均值, 在训练数据之间插值,从训练数据外推,或者组合训练数据。大多数 学习方法(也称为建模或预测方法)构造符合所有训练数据的单个模 型。另一方面,局部模型试图符合查询位置附近的局部区域中的训练 数据。局部模型的例子包括最近的邻近值,加权平均值,和局部加权 回归。在Vapnik的“神经信息处理系统进展”,4:831,Morgan- Kaufman,San Mateo,CA(1982);Bottou和Vapnik的“神经计算”, 4(6):888(1992);和Vapnik和Bottou的“神经计算”,5(6):893 (1993)中评述了局部加权学习,所有这些文献整体上作为参考包含 于此。

显示图还可由不是严格对称的关系矩阵,即rij≠rji的关系矩阵构 成。这种方法可用在通过利用基于点的局部距离函数,局部地,例如 以局部加权模型确定关系(即关系函数)的情况中。在这种实施例中, 每种训练情况与距离函数和对应参数的值有关。最好,构造反映这些 局部距离关系的显示图,最好利用相应点的局部距离函数,对点之间 的距离进行两次计算。对得到的距离求平均值,并将其用作上面描述 的显示映射算法的输入。如果在整个特征空间中,基于点的局部距离 函数以某些连续或半连续的方式变化,则这种方法可能导致有意义的 投影。

Ⅸ.本发明的实现

A.概述

可利用多种算法,以多种方式实现本发明,可利用硬件,软件, 固件或它们的任意组合实现本发明。参见图6,图6是图解说明可包 括在实现本发明的系统610中的模和数据流的示意方框图。图6的 方框图是用于帮助理解本发明。本发明并不局限于图6的方框图中图 解说明的例证实施例。

系统610包括存储与对象相关的关系数据630的关系数据库612。 关系数据库612可容纳的数据的类型和相关关系是没有限制的,因为 本发明可借助对于其可定义关系的任意类型数据而实现。

关系数据630可由各种数据源中的一个或多个数据源提供。例如, 关系630a来由外部数据源632提供,关系630b可由其它数据源640 提供,关系数据630n可由可选的关系发生器模块634,根据评估性质 636产生。可选的关系发生器模块634可包括用于执行一个或多个算 法,例如方程14-19中的一个或多个方程的硬件、软件、固件或它们 的任意组合。

关系数据630被提供给坐标模块616。在一个例证实施例中,关 系数据630以关系矩阵614的形式被提供给坐标模块616,关系矩阵614 最好是存储来自于关系数据库612的任意数量的关系数据630的矩阵。

坐标模块616向由关系数据630联系的数据点或对象分配初始坐 标。可随机地,或者借助任意其它技术分配初始坐标。例如,数据可 被预排序或者被部分排序。坐标构成显示图。显示图可以是线性或影 象显示图。显示图是n维显示图。

关系/坐标子集618和相关的关系620被提供给坐标修正模块622。 在一个例证实施例中,每次向坐标修正模块622提供一个关系/坐标子 集618。

子集选择器模块636用于选择要提供给坐标修正模块622的关系/ 坐标子集618。子集选择器模块636可随机地,或者借助任何其它适 当的方法,包括上面描述的一种或多种方法,选择关系/坐标子集618。

坐标修正模块622根据相似性/非相似性(关系620)的精确或非 精确测量,修正显示图上对象的位置(即,修正坐标618)。更具体地 说,坐标修正模块622测量显示图上对象之间的距离,并把测得的距 离与相关关系620比较。随后坐标修正模块622根据比较结果,修正 坐标618。这种距离可被直接使用,或者说用于修改其它显示属性。

坐标修正模块622可包括用于执行如上描述的一种或多种常规多 维定标或非线性映射算法的硬件、软件、固件或者它们的任意组合。 另外,或者另一方面,坐标修正模块622可包括用于执行关于例如方 程8-13中的一个或多个方程,或者它们的变型的成对分析的一种或多 种新算法的硬件、软件、固件或它们的任意组合。

当坐标修正模块622执行如上所述的成对分析时,它可采用学习 率λ,以确保关系/坐标子集618中的坐标和相关关系620之间的距离 的收敛。坐标修正模块622可被设计成表示相似性/非相似性(关系 620)的精确或非精确测量。例如,可程序控制坐标修正模块622处理 不具有不确定性的完整的成对矩阵,不具有洋确定性的稀疏成对矩阵, 包括有限不确定性的成对矩阵和包括无限不确定性(即损坏的数据) 的成对矩阵,或者它们的任意组合。还可程序控制坐标修正模块622, 如上所述把另外的对象或数据点散布到一组对象中。

坐标修正模块622产生修正后的坐标624,修正后的坐标624被 返回给坐标模块616。为附加的坐标子集618和相关关系620重复该 过程,并且最好如同对于关系/坐标子集618和相关关系620那样,重 复该过程,直到满足规定的容限或者其它一些标准为止。

在需要对象之间的关系的可视化的一个例证实施例中,坐标626 可被提供给可选的可视化模块628,以便进行显示。当本发明的迭代 过程继续时,修正后的坐标626被提供给可选的可视化模块628。

B.本发明以计算机程序产品的形式的实现

可利用一个或多个计算机实现本发明。参见图2,例证的计算机202 包括一个或多个处理器,例如处理器204。处理器204与通信总线206 相连。在本例计算机系统方面,描述了各种软件实施例。在阅读该说 明之后,对于相关领域中的技术人员来说,如何利用其它计算机系统 和/或计算机体系结构实现本发明,将是显而易见的。

计算机202还包括主存储器208,最好是随机存取存储器(RAM), 并且还包括一个或多个辅助存储器件210。辅助存储器件210可包括, 例如,硬盘驱动器212和/或可卸存储驱动器214,代表软盘驱动器, 磁带驱动器,光盘驱动器等。可卸存储驱动器214以一种众所周知的 方式对可卸存储单元216进行读和/或写。可卸存储单元216代表软盘, 磁带,光盘等,它由可卸存储驱动器214读写。可卸存储单元216包 括其中存储有计算机软件和/或数据的计算机可用存储介质。

在备选实施例中,计算机202可包括使计算机程序或其它指令能 被载入计算机202中的其它类似装置。这种装置可包括,例如,可卸 存储单元220和接口218。它们的例子可包括程序盒式存储器和盒式 存储器接口(可在视频游戏设备中找到),可卸存储芯片(例如 EPROM,或PROM)和相关的插槽,和使软件和数据可从可卸存储 单元220传送到计算机202的其它可卸存储单元220和接口218。

计算机202还可包括通信接口222。通信接口222使得能够在计 算机202和外部设备之间传送软件和数据。通信接口222的例子包括, 但不局限于,通信端口,PCMCIA插槽和PCMCIA卡等。通过通信 接口222传送的软件和数据采取信号的形式(一般为载体上的数据), 信号可以是电信号,电磁信号,光信号或能够被通信接口222接收的 其它信号。

在本说明书中,术语“计算机程序产品”用于统称诸如可卸存储 单元216,220,可从计算机202中取出的硬盘驱动器212,携带由通 信接口222接收的软件的信号之类的介质。这些计算机程序产品是用 于向计算机202提供软件的装置。

计算机程序(也称为计算机控制逻辑)被存储在主存储器和/或辅 助存储器件210中。还可通过通信接口222接收计算机程序。这种计 算机程序被执行时,使计算机202能够实现这里描述的本发明的特征。 特别地,当计算机程序被执行时,将使处理器204能够实现本发明的 特征。因此,这种计算机程序代表计算机202的控制器

在利用软件实现本发明的实施例中,软件可被存储在计算机程序 产品中,并通过利用可卸存储驱动器214,硬盘驱动器212和/或通信 接口222,被载入计算机202中。当被处理器204执行时,控制逻辑 (软件)使处理器204实现如上所述的本发明的功能。

在另一实施例中,利用,例如诸如专用集成电路(ASIC)之类的 硬件组件,主要或者整体地以硬件形式实现本发明的自动化部分。对 于相关领域中的技术人员来说,硬件状态机的实现,从而实现这里描 述的功能将是显而易见的。

在又一实施例中,利用硬件和软件两者的组合,实现本发明。

计算机202可以是任何适当的计算机,例如运行支持图形用户界 面和窗口环境的操作系统的计算机系统。恰当的计算机系统是Silicon Graphic,Inc.(SGI)工作站/服务器,Sun工作站/服务器,DEC工 作站/服务器,IBM工作站/服务器,IBM兼容PC,Apple Macintosh, 或者任何其它适当的计算机系统,例如使用来自于Intel Pentium家族 的一个或多个处理器,例如Pentium Pro或Pentium Ⅱ的计算机系统。 恰当的操作系统包括,但不局限于,IRIX,OS/Solaris,Digital Unix, AIX,Microsoft Windows 95/NT,Apple Mac OS,或者任何其它操 作系统。例如,在一个例证实施例中,程序可被实现,并可在运行IRIX6.4 操作系统,并使用基于X窗口系统的Motif图形用户界面的Silicon Graphics Octane工作站上运行。

C.本发明的实施

参见图7,图中以过程流程图700的形式图解说明了本发明的实 施。图中图解说明了在关系矩阵614为不具有不确定性的完整成对关 系矩阵的普通情况下,本发明的实施。基于上面的说明和过程流程图 700,相关领域中的技术人员能够修改过程流程图700,以适应其它情 况,例如:关系矩阵614是不具有不确定性的稀疏的n-wise或成对关 系矩阵的情况;关系矩阵614是具有有限不确定性的n-wise或成对关 系矩阵的情况;关系矩阵614是具有无限不确定性(即,损坏的数据) 的成对关系矩阵的情况;等等。

在关系矩阵614是不具有不确定性的完整成对关系矩阵的普通情 况下的过程开始于步骤702,这里坐标模块616从关系数据库612接 收关系矩阵614。

在步骤704,坐标模块616向与关系矩阵614中的关系相关的对 象分配初始坐标。初始坐标的分配可随机地完成。或者,初始坐标可 被预先排序或者被部分排序。

在步骤706,从关系矩阵614选择关系/坐标子集618,以供修正。 子集618可由子集选择器638随机地,半随机地,系统地,部分系统 地选择。

在步骤708,选择的子集618和相关关系620被提供给坐标修正 模块622。坐标修正模块622根据相关的关系620,修正关系/坐标子 集618中的坐标。

在步骤710,确定是否选择另一子集进行坐标修正。如果将修正 另一关系/坐标子集618,处理返回步骤706,选择另一关系/坐标子集 618。否则,在步骤712停止处理。

在一个可选的例证实施例中,坐标626在步骤714被提供给可选 的可视化模块628,以供显示。可在步骤706-712的一个或多个步骤中 的任意时刻,执行步骤714。

在另一可选的例证实施例中,在步骤702之前,产生关系数据630。 在该可选的例证实施例中,在步骤716接收评估性质636。在步骤718, 关系发生器634根据评估性质产生关系数据630。在步骤720,关系数 据630被提供给关系数据库612。

处理继续进行到步骤702,在该步骤,关系数据630以关系矩阵614 的形式被提供给坐标模块。

Ⅹ.本发明的例子

可以各种应用的形式,并利用各种类型的数据实现本发明。在一 个例证实施例中,本发明可被实现为显现并交互式分析与化合物相关 的数据的系统,方法和/或计算机程序产品,这里多维空间中对象之间 的距离表示依据一些规定的方法计算的对应化合物的相似性和/或非相 似性(相对于所选择的化合物性质或特征)。可在适当的图形装置(例 如图形终端)上显示得到的显示图,并对其进行交互式分析,以揭示 数据之间的关系,并启动和这些化合物相关的一系列任务。

用户可选择多个化合物进行映射,并选择一种评估选择的化合物 之间的相似性/非相似性的方法。可按照选择的化合物和选择的方法, 产生显示图。显示图具有对应于每个选择的化合物的点,其中任意两 点之间的距离表示对应化合物之间的相似性/非相似性。随后显示一部 分显示图。用户能够交互式地分析显示图中表现的化合物。或者,所 有的pints可分别对应于多个化合物或对象。

图1是根据本发明的一个例证实施例的计算环境102的方框图。

化学数据可视化和交互式分析模块104包括显示图生成模块106 和一个或多个辅助用户界面组件108。显示图生成模块106相对于化 合物的一个或多个选择性质或特征(这里有时称为评估性质或特征), 确定化合物之间的相似性。显示图生成模块106通过从一个或多个数 据库120检索出关于化合物和试剂的数据,并对其进行分析,实现上 述功能。

化学数据可视化和交互式分析模块104通过通信媒体118与一个 或多个数据库120通信。通信媒体118最好是任意类型的数据通信装 置,例如数据总线计算机网络等。

用户界面模块108最好在恰当的图形装置上显示2D或3D显示 图。用户界面模块108使操作人员能够交互式地分析并处理显示图中 的信息,以便揭示数据之间的关系,并启动与对应的化合物相关的一 系列任务。

用户界面模块108使用户能够以集合的形式组织化合物(代表, 例如组合对象库)。和化合物集合有关的信息最好被存储在一个或多个 数据库120。

输入装置114接收来自于操作人员的输入(例如数据,命令,查 询等),并把经过通信媒体118把这种输入转送给,例如,化学数据可 视化和交互式分析模块104。任意众所周知的,适当的输入装置可用 在本发明中,例如键盘,指示器(鼠标,滚轮球,轨迹球,光笔等), 触摸屏语音识别等。用户输入也可被存储,并且随后根据需要从数 据/命令文件中取出。

输出装置116把信息输出给操作人员。任何众所周知的,适当的 输出装置可用在本发明中,例如监视器,打印机,软盘驱动器或其它 存储器件,正文-语音合成器等。

化学数据可视化和交互式分析模块104可经过通信媒体118与一 个或多个计算模块122交互作用。

可利用一个或多个计算机,例如图2中所示的例证计算机202, 实现在图1的计算环境102中所示的组件(例如化学数据可视化和交 互式分析模块104)。

A.例证实施例的实施

下面将参考图3中所示的流程图302,说明以在显示图中显现并 交互式处理化合物的形式实现的本发明的实施。除非特别说明,下面 描述的和用户的交互作用是通过用户界面模块108(图1)的操作实现 的。

在步骤304,用户选择将在新的显示图中映射的一个或多个化合 物。用户可通过从文件取回化合物列表,通过手动键入化合物列表, 和/或通过使用图形用户接口,选择要映射的化合物。本发明预想使用 户能够指定要在显示图中显示的化合物的其它手段。

在步骤306,用户选择用于评估在步骤304选择的化合物之间的 分子相似性或非相似性的方法。在一个实施例中,根据一组规定的评 估性质,确定(在步骤308)在步骤304选择的化合物之间的相似性/ 非相似性。如上所述,评估性质可以是与在步骤304选择的化合物的 结构,功能或本体相关的任意性质。评估性质包括,但不限于,在步 骤304选择的化合物的结构性质,功能性质,化学性质,物理性质, 生物性质等等。

在本发明的一个实施例中,可对选择的评估性质进行不同的缩放, 以反映在评价两个化合物之间的接近性(即,相似性或非相似性)方 面的相对重要性。因此,在步骤306,用户还为每个选择的评估性质 选择一个比例因子。注意比例因子的这种选择是可选的。用户不必为 每个选择的评估性质选择比例因子。如果用户没有为给定的评估性质 选择比例因子,则评估性质被赋予默认的比例因子,例如1。

或者在步骤306中,用户可选择从诸如数据库之类的数据源,恢 复和在步骤304中选择的化合物相关的相似性/非相似性值。数据库中 的这些相似性/非相似性值事先被生成。在另一实施例中,在步骤306, 用户可选择利用任何众所周知的技术或程序,确定相似性/非相似性 值。

在步骤308,显示图生成模块106产生新的显示图。该新的显示 图包括对应于在步骤304选择的每种化合物的点。另外,在该新的显 示图中,任意两点之间的距离表示对应化合物的相似性/非相似性。下 面将参考图4中的流程图402,进一步描述显示图生成模块106产生 新的显示图的方式。

在步骤404,对应于在步骤304中选择的化合物的点在新显示图 上的坐标被初始化。

在步骤406,选择在步骤304选择的化合物中的两个化合物i,j 进行处理。

在步骤408,根据用户在步骤306选择的方法,确定化合物i,j 之间的相似性/非相似性rij。

在步骤410,根据在步骤408中确定的相似性/非相似性rij,获得 在该显示图上,对应于化合物i,j的点的坐标。

在步骤412,更新训练/学习参数。

在步骤414,确定是否终止处理过程。如果确定此时不终止处理 过程,则控制返回步骤406。否则,执行步骤416。

在步骤416,输出显示图(即,完成显示图的产生过程)。

上面说明了关于流程图402的步骤的细节。再次参见图3,在步 骤312,显示图浏览器112在输出装置116(例如计算机图形监视器) 上显示新的显示图。

在步骤314,用户界面模块108使操作人员能够交互式地分析并 处理在显示的显示图中表现的化合物。

本发明使用户能够修改已有的化合物可视化显示图(这里使用的 术语“化合物可视化显示图”指的是着色显示图)。例如,用户可向图 中加入其它化合物,从图中删除化合物,在图上突出显示化合物,等 等。在这种情况下,流程图302的有关功能步骤被重复。例如,当用 户选择向现有的显示图中加入新的化合物时,重复步骤304(选择要 映射的化合物),310(产生显示图)和312(显示该显示图)。但是, 根据本发明的一个实施例,当向已有的化合物可视化显示图中加入化 合物时,在步骤310和312中逐渐递增地修正并显示该显示图(前面 说明了这种递增修正)。

上面提供的化合物例子可用于显现并交互式处理任何化学个体, 包括,但不局限于(不过可用于)小分子,聚合物,缩酸,蛋白质 等。它还可用于显示这些化合物之间的不同相似性关系。

Ⅺ.结论

上面已借助图解说明规定功能的性能和它们的关系的功能结构单 元,说明了本发明。为了便于进行说明,这里任意地确定了这些功能 结构单元的边界。也可规定其它备选边界,只要规定的功能和它们的 关系被恰当地实现即可。这样,任何这样的备选边界在本发明的范围 和精神之内,并且对于相关领域中的技术人员来说,是显而易见的。

可借助离散的组件,专用集成电路,执行恰当的软件的处理器等 等,或者它们的任意组合,实现这些功能结构单元。研制恰当的电路 和/或软件,实现这些功能结构单元,正好在相关领域的技术人员的能 力范围之内。

根据上面的说明和例子,相关领域中的技术人员能够以各种各样 应用的形式,实现本发明,所有这些应用都在本发明的范围之内。

虽然上面已说明了本发明的各种实施例,但是应明白上述各种实 施例只是用于举例说明本发明,而不是对本发明进行限制。这样,本 发明的宽度和范围不应受到上面描述的任何例证实施例的限制,而只 应由以下的权利要求及其等效物所限定。

QQ群二维码
意见反馈