用于产生库什结构专利权利要求内的虚拟化合物链接库的方法

申请号 CN200980154516.9 申请日 2009-12-07 公开(公告)号 CN102282560B 公开(公告)日 2015-08-19
申请人 狄克雷佩特公司; 发明人 A·弗利里; E·穆瓦桑; M·诺尔特;
摘要 一种机器实施方法,其产生展示与例示性化合物具有特定程度的结构相似性的化学结构集库。从 专利 提取特定实例。分子结构指纹是针对特定实例进行计算的。从专利 数据库 取得 马 库什结构拓朴信息。使用从该专利数据库所提取的马库什结构拓朴信息来列举虚拟链接库。例示性化合物的分子结构指纹相似性是通过将指纹与由随机列举的化合物集合计算的分子指纹进行对比予以识别的。然后选出经随机列举的化学结构的子集合,其展示在针对由例示性化合物计算的指纹使用者所预定的相似性范围内的相似性范围。
权利要求

1.一种计算机实施的方法,其用于产生展示与例示性化合物具有预定程度的结构相似性的化学结构集库,该方法包括:
(a)提取与示例性化合物相关的化学结构的特定实例;
(b)通过计算机装置针对特定实例来计算分子结构指纹;
(c)从储存于计算机可读媒介中的数据库提取库什结构拓朴信息;
(d)通过计算机装置使用从所述数据库提取的马库什结构拓朴信息来列举虚拟链接库;
(e)通过计算机装置由列举的化学结构集合计算分子指纹;
(f)通过将特定实例的指纹与所列举的化学结构集合的指纹进行对比来识别所述例示性化合物的分子结构指纹相似性;以及
(g)通过计算机装置选出所列举的化学结构的子集合,其展示在针对所述特定实例的指纹的预定的相似性范围内的相似性范围。
2.如权利要求1所述的方法,其用于建构化合物的链接库。
3.如权利要求2所述的方法,其用于实行结构/分子特性关系的分析。
4.如权利要求1所述的方法,其用于实行专利数据库建构的品质控制分析。
5.如权利要求1所述的方法,其用于确定物质专利的先有技术组成对于新发明而言的相关性。

说明书全文

用于产生库什结构专利权利要求内的虚拟化合物链接库

的方法

技术领域

[0001] 本发明涉及一般化学结构描述的分析、表征及比较,且更特别涉及化合物识别,所述化合物展示相似于物质专利的组成中特别要求的化合物的特性或者相似于例示一般化学结构描述的范围的化合物的特性。技术背景
[0002] 世界各地所进行的并且每天在许多外语期刊所刊登的研究活动正延展当前专利审查系统的容量。为响应此,许多国内以及国际专利系统主动评估当前专利实务的改变。在这些改变中,建议专利申请人不仅应当承担识别且提交针对可专利性视为先有技术的材料的责任,还应当指出发明为何相对于先有技术文献具有可专利性。例如:美国专利及商标局考虑过在提交信息公开声明(IDS)之外附加额外要求,并且是要求专利申请人具体指出针对该发明可专利性的材料在先有技术文献中的相关段落。尽管这类计划的规则改变目前尚未生效,然而该现象的开始将实质上新的分析负担强加于试图使信息得到国内以及国际专利审查机关注意的专利申请人。
[0003] 据此,对于基于研究的投资活动,预期与保护基于知识产权的投资活动相关的先有技术分析的重要性将增加。此外对于具有长期产品研发周期的化学和生化产业,建立产品的稳固知识产权保护是特别重要的。为符合公开的要求,此产业部面临解读经通用化学结构表示方式(经常又被称为马库什(Markush)结构)编码的先有技术的问题。不幸地是,当前用于基于先有技术信息分析马库什结构的方法是耗费时间并且容易出错。针对这些缺点,美国专利申请公开案第2009-0132464号描述了一种马库什结构列举技术。本发明结合该技术改善确定出现在物质专利的化学组成和专利数据库中的以马库什结构表示方式和/或其它表示方式的衍生形式为形式的知识产权信息的速度和准确性。

发明内容

[0004] 简言之,一种机器实施方法,其产生展示与例示性化合物具有特定程度的结构相似性的化学结构集库。从专利提取特定实例。分子结构指纹是针对特定实例进行计算的。从专利数据库取得马库什结构拓朴信息。使用从该专利数据库所提取的马库什结构拓朴信息来列举虚拟链接库。例示性化合物的分子结构指纹相似性是通过将指纹与由随机列举的化合物集合计算的分子指纹进行对比予以识别。然后选出经随机列举的化学结构的子集合,其展示在针对由例示性化合物计算的指纹使用者所预定的相似性范围内的相似性范围。附图说明
[0005] 图1是用于确定一般化学结构描述的内容的程序的概略流程图;以及[0006] 图2是用于产生展示结构相似性的化合物集库的系统的示意图。

发明内容

[0007] 在常规实践描述与物质组成相关的特性或实用信息中使用一般化学结构的表示方式。这些表像、表征物质组成的一般化学结构通常由改变以下事项的描述组成:
[0008] 1.化学结构主干(类)的原子构成,和/或
[0009] 2.接合至常见结构核心的具有不同特性(取代基团)的结构片段
[0010] 因为这些一般化学结构的描述提供一种用于叙述具有相似特性的物质组成的变体的有效方法,所以这些一般化学结构表像是经常被使用在专利申请案中、并且更普遍地还用于捕捉与结构上相关的化学组成相关的结构特性关系信息。参看例如于1924年8月26日所公开的Markush E.A的美国专利案第1,506,316号。
[0011] 取决于给定属中的接合点数目,此方法通常产生起始点的多样性,每一个起始点均具有各自独立的分子架构。然后依据专利权利要求语言通过连续地将片段接合于特定分子拓扑,由这些起始点的任一个能够产生各自独立的种属(单种化合物)。此方法在各个接合点重复进行,直到用尽由专利权利要求语言所定义的所有条件(参看例如John M.Barnard、Geoff M.Downs、Annette von Scholley-Pfab和Robert D.Brown,Journal of Molecular Graphics and Modeling,Volume 18,Issues 4-5,2000,第452-463页)。
[0012] 此评估频繁要求对用于叙述具有相似物理化学特性的化学结构片段集库的开放式且不明确术语进行解读。例如:上位术语“烷基”描述了在链长和原子排列上具有变化的无限数目个碳原子(每个碳原子潜在承载取代基的四个不同组合)之间的无限数目种排列。同样地,上位术语“杂芳基”编码了其中每一个环系统包含一个或多个杂原子的近乎无限数目个芳香族碳基环系统。(参看例如Burton A.Leland等人,J.Chem.Inf.Comput.Sci.;Volume 3,Issue,1997,第62-70页)。
[0013] 除了解读这些化学拓扑描述符的含义的复杂度之外,专利中权利要求文字经常通过以非标准化方式定义这些术语的各自独立的子集合来限制这些不明确术语的范畴。这些子集合的定义再度可能不仅受到发明人针对识别特定结构特性关系的动机的影响,并且还受到专利法所强加的要求的影响。此外,为了用于制造由一般化学结构表示方式所编码的各种实施例提供有效的实验细节,发明人在专利权利要求中为通常反映较广义马库什结构权利要求的结构多样性的有限数目个特定结构实例提供化学结构信息。
[0014] 由于在比较由不同马库什结构权利要求所定义的化学物质中所牵涉的复杂度,所以这些比较时常牵涉特定结构实例的检视以供取得马库什结构权利要求的可能解读的线索。然而因为一般化学结构描述经常编码大量的不同结构片段组合、并且以可能甚至模糊其编码内容的结构差异的形式构成,所以化学专利中具体要求的各个和每个化学结构的检视,以及用于理解由相应马库什结构所编码的结构特性关系的信息的应用,是非常耗时且容易出错。因此,与物质专利申请案的化学组成相关的先有技术分析是分析化学专利信息中最耗费资源的活动之一。此外,由于心智列举的产生造成累人、耗时且易错的过程,众所周知的是在审查物质专利的化学组成期间产生错误不仅影响所主张的知识产权还影响提取的结构功能信息的品质和价值。
[0015] 为了针对该分析化学专利信息中的瓶颈,先前提到的′464专利申请公开案揭示了一种用于确定一般化学结构描述的内容的方法。参考图1的一般流程图,识别出与查询相关的专利文件。在这些文件中所叙述的化学结构是使用以下事项表征并进行对比的:
[0016] (1)用于在诸如例如Derwent、MMS和Marpat数据库的商用专利数据库中所储存的马库什结构(MKST)的取代基定义中辨别开放式且不明确术语的方法;
[0017] (2)用于以专利权利要求的范畴内有限且明确定义结构片段替代在MKST定义中开放式且不明确变量的方法及策略;
[0018] (3)用于辨别商用专利数据库中所储存MKST的取代基定义中的接合点的价变化或结构片段的价变化的方法;
[0019] (4)用于以专利权利要求的一般范畴内的化学结构片段集库替代这些可变接合点的方法;
[0020] (5)用于列举MKST的方法;
[0021] (6)用于将经列举的结构实例转换成表征经列举化合物的确切化学结构的分子指纹的方法;
[0022] (7)用于计算经列举化合物的化学结构指纹相似性的方法;以及
[0023] (8)用于将化学结构指纹相似性与所关注的发明和先有技术参考专利文献相关联的方法。
[0024] 关于这些方法的每一种的进一步细节,参看美国专利申请公开案第2009/0132464号,其公开内容以引用方式纳入本文中的。
[0025] 因此,使用诸如由末端使用者所提供的专利号数的先有技术搜寻结果,先前所公开的方法是从Questel、Derwent和/或Marpat数据库找回相应的马库什信息,并且使用随机列举策略以供产生结构实例来表示所输入的专利列表的MKST权利要求中所特定的结构多样性。此列举方法的输出结果是以SDF格式的化学结构档案,其能使用诸如或窗口兼容平台MPX的标准统计软件可视化软件包进行分析。
[0026] 尽管先前所公开的方法方便一般化学结构描述的内容比较,然而所使用的随机列举方法在许多情况中产生极大的数据集合。此外,非常大量的经随机列举的分子所展示的分子特性与由发明人在专利中所提供特定实例所展示的分子特性非常不相似。由于针对展示特性与由特定主张的化合物所展示特性最相似的分子解读的与专利信息相关的结构功能和先有技术关系是最准确的,所以希望将物质专利的组成中所述的结构功能信息分析局限到相比特定主张的(例示性)化合物展示高度的分子特性或结构相似性的分子集库。因此,本发明的一个方面是用于产生展示与例示性化合物具有特定程度的结构相似性的化学结构集库的机器实施方法。
[0027] 更具体的是,本发明包括下述步骤:
[0028] (1)从专利数据库提取发明人所提供的与专利相关的特定实例;
[0029] (2)对特定实例计算分子结构指纹,例如依据′464号公开申请案的运算法则;
[0030] (3)从专利数据库提取马库什结构拓扑信息;
[0031] (4)通过计算机技术使用提取自专利数据库的马库什结构拓扑信息来列举虚拟链接库,例如依据′464号公开申请案的程序;
[0032] (5)通过将指纹与由随机列举的化合物集合计算的分子指纹进行对比以识别例示性化合物的分子结构指纹相似性;以及
[0033] (6)然后选出经随机列举的化学结构的子集合,其展示在针对由例示性化合物计算的指纹使用者所预定的相似性范围内的相似性范围。
[0034] 预期与特定主张的化合物相比展示结构相似性高于特定临界值(诸如80%)的经列举的化合物集库具有落入专利权利要求的边界内的最高机率。据此,通过确定指纹的相似性程度而使得下述变为可行:通过确定展示与相关专利权利要求中例示性结构具有特定程度的结构相似性的经列举化学结构的数目来核查专利数据库中的马库什结构拓扑信息的品质及马库什结构列举方法的品质。例如,假如展示与特定主张的化合物相比小于80%的结构相似性的经列举化合物的数目低于某临界值,例如当小于0.1%的经列举分子展示与对比标准小于80%的相似性时,则相应马库什结构或相关列举结果的检查可能是适当的。此外,展示与特定主张的化合物的高度化学结构相似性的化合物集库具有用于精确分析物质专利权利要求的化学组成中由马库什结构所编码的化合物的结构特性关系的功效。据此,与特定例示性化合物相比而具有“高”分子特性相似性的经列举的化合物集库具有用于识别及选出上位分子主干(scaffold)的功效,上位分子主干在列举上是能够产生落入某些分子特性边界的分子。
[0035] 图2中所描述的是一种用于选出结构上相似于给定化合物集合的化学结构集库的系统。对于该系统的输入包括两个指纹集合。这些指纹典型上是基于化学结构片段的。例如,它们可能是“Isis”结构键、“Scitegic”结构键、或任何公开的“原子对”或化学结构或分子特性指纹。一个指纹集合构成对比标准且对应所关注的示范性化合物,例如给定专利中所揭示的特定实例。第二指纹集合是从化学结构集库中产生的那些,例如,通过在诸如Derwent或Marpat数据库的数据库中马库什结构拓扑描述符衍生的,或它们的衍生物,依照′464号公开申请案的计算机执行的程序。
[0036] 确定对比标准的指纹与集库中成员的指纹之间的相似性。此确定着手于选出适当的相似性测量,诸如例如“余弦相关性、Euclidean距离”、Tanimoto系数、或任何其它相似性数值。该对比标准的化学结构指纹的每个元素与参考取样的化学结构指纹中的每个元素进行对比。这些对比使用适当相似性测量并且通过考量所有指纹元素之间的距离以计算“平均”距离来确定各个指纹元素之间的距离。能用于这些计算的运算法则是取决于所选出相似性测量而变化的。已知数据分析及可视化程序能被用来计算指纹之间的相似程度。能用来计算这些数值的商购可得的程序的一个实例是由Tibco Software公司所发布的 因此,本发明程序是能被实施在经程序设计以执行这样的数据分析和可视化程序的计算机上。
[0037] 同样的,用于表达指纹相似性的测量的标度取决于所选出的相似性测量。例如,在这些计算中使用相似性测量“余弦相关性”,输出数值的范围将在0与1之间。数值1识别在两个取样的指纹之间的最高相似性数值。在此案例中,两个取样是相同且相似性是100%。相似性测量数值0将被用来表达最小相似性。针对指纹比较使用“余弦相关性”来说,一个典型观察为:共享远大于0.8(80%的指纹相似性)的相似性数值的化学品能被识别成具有相似的化学架构,而具有少于0.5的相似性数值的化学品能被指定成具有不相似的化学架构。一旦已对化合物集合确定了相似性结果,因此该结果能与该计算机内的预定临界数值(例如:0.8)进行对比。具有相等于或超过该数值的高百分比的相似性结果的集库,例如大于99%的结果符合该临界数值,可以被标示成结构上相似于对比标准,所述对比标准例如在给定专利中的主张的特定化合物或者具有希望用途、功效或特性的化合物。该集库可以分开地储存于内存中作为具有注释了特性的化合物链接库。
[0038] 据此,使用适当的指纹相似性测量允许对化学品在取样集库中的分子特性或化学结构关系进行评估。例如,含有共享远大于0.8(如由“余弦相关性”所确定)的相似性数值的结构的取样集库能被指定成含有结构上相关的分子。通常亦观察到:结构上相关的分子具有相似物理化学及生物特性。据此,化学结构之间的指纹相似性对化合物集库之间的特性相似性提供评估。当然,不同临界数值例如0.75或0.85取决于待用化合物的应用和/或所希望的特性相似性而可能进行挑选。
[0039] 据此,化学结构指纹相似性测量能被用于评估先有技术在物质专利的化学组成中的相关性。例如:假如化合物集库(X)中的化学品与对比参考专利中所主张化合物的指纹共享远大于0.8(如由“余弦相关性”所确定)的指纹相似性数值,则化合物集库(X)包含具有相似的化学架构且由此很可能具有相似的物理化学和生物特性的分子。据此,与参考专利中所主张化合物相关的特性能被用来预期集库(X)中的化合物特性。据此,化合物集库与先有技术专利之间的指纹相似性的确定能被用于评估发明的可专利性。此外,通过使用具有高商业价值的已知化合物集库作为对比标准,化合物集库之间超过远大于0.8(如由“余弦相关性”所确定)的数值的指纹相似性能被用于识别新化合物集库是否具有商业价值。
[0040] 据此,所公开的方法对于表像可对比的以一般化学结构描述形式公开的分子特性信息是有用的。将对于本领域技术人员显而易见的是此方法能够表像专利数据库(诸如例如国内及国际专利数据库、MMS数据库、Marpat数据库或处于可比较形式的这些数据库中的衍生)中所公开的分子特性信息。还将显明的是这些对比还可通过使用末端使用者定义的化合物集库作为对比标准而实行。此方法对于通过能够利用专利数据库中以一般化学结构描述形式编码的结构功能信息来增加新分子结构设计的效率是有用的。还提供用于执行数据库构建的品质控制分析,用以确保具有相似特性的化合物被适宜地彼此分组。
QQ群二维码
意见反馈