用于筛选新冠肺炎候选药物的方法及装置专利检索-相似性得分人工智能专利检索查询-专利查询网

用于筛选新冠肺炎候选药物的方法及装置

阅读：894发布：2020-05-08

专利汇可以提供用于筛选新冠肺炎候选药物的方法及装置专利检索，专利查询，专利分析的服务。并且本发明公开用于筛选新冠肺炎药物的方法及装置。本发明在获得病毒之间的序列相似信息和药物化学结构之间的结构相似信息基础上，通过构建基于病毒序列相似性和药物相似性的异构网络，并利用随机游走算法在构建的数据集上进行训练从而得到新冠肺炎药物筛选模型。基于该药物筛选模型能有效地筛选与新冠肺炎相关的药物。本发明的方法能够降低新冠肺炎药物研发成本，而且在新冠肺炎药物筛选的速度和准确率上均超过应用于其他生物信息学领域的代表性方法。，下面是用于筛选新冠肺炎候选药物的方法及装置专利的具体信息内容。

权利要求

1.一种用于筛选抗RNA病毒药物的方法，其特征在于，其为利用病毒全基因组序列相似性、药物化学结构相似性以及病毒-药物关联数据基于机器学习的筛选方法，其包括以下步骤：
(1) 建立病毒-药物关联数据库的步骤，其包括在病毒数据库中筛选出与目标病毒相似的病毒，由所述目标病毒及其相似的病毒组成病毒库，从已知药物数据库中筛选与所述病毒库中除目标病毒外的各病毒关联的药物组成药物库，由病毒库中的各病毒和对应的药物库中的药物构成病毒-药物关联数据库；
(2) 计算病毒全基因组序列相似性和药物化学结构相似性的步骤，其包括获取病毒库中各病毒的全基因组序列，通过多序列比对计算所述病毒中各病毒之间的序列相似性，根据药物的化学结构计算所述药物库中各药物之间的扩展连通性指纹，进而计算药物化学结构相似性；
(3) 确定筛选模型的步骤，其包括利用全基因组序列相似性、药物化学结构相似性和病毒-药物关联数据，基于带重启的随机游走模型建立筛选模型，通过训练得到最优模型参数；
(4) 利用得到的最优模型参数，运行带重启的随机游走模型获得目标病毒与所述药物库中各药物的目标病毒-药物对分数排名，根据所述分数排名筛选目标病毒的候选药物。
2.根据权利要求1所述的用于筛选抗RNA病毒药物的方法，其特征在于，步骤(3)的训练包括下述交叉验证步骤来计算包括敏感度、特异度、精确度和AUC的评价指标值：
a. 将所述病毒库中的病毒数据随机地分成n份，选择其中的1份作为测试集，其余的n-
1份作为训练集，利用所述训练集训练模型，并对所述测试集进行测试，由此完成一次验证；
b. 将所述药物库中的药物数据随机地分成n份，选择其中的1份作为测试集，其余的n-
1份作为训练集；利用所述训练集训练模型，并对所述测试集进行测试，由此完成一次验证；
c. 将所述病毒-药物关联数据库中的关联数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述训练集训练模型，并对所述测试集进行测试，由此完成一次验证；
d．重复步骤a-c，分别进行n次实验验证，从而完成交叉验证，其中n为2以上的自然数。
3.根据权利要求1所述的用于筛选抗RNA病毒药物的方法，其特征在于，所述目标病毒为新冠肺炎病毒、SARS-CoV或MERS-CoV。
4.根据权利要求1所述的用于筛选抗RNA病毒药物的方法，其特征在于，所述筛选是指从病毒出发挖掘与病毒关联的药物，其包括根据病毒相似性、药物化学结构相似性和病毒-药物关联数据构建异构网络，设置病毒的随机游走初始概率为1，药物的随机游走初始概率为1/药物总数，在此异构网络上进行带重启的随机游走，获得药物-病毒对的关联概率，若前后两次游走获得的关联概率之差高于预期值，则重复运行药物筛选模型直至低于预期值，然后由关联概率得到药物对所述病毒的得分，由所述得分对药物进行排序。
5.根据权利要求1所述的用于筛选抗RNA病毒药物的方法，其特征在于，所述筛选是指从药物出发挖掘与药物关联的病毒，其包括根据病毒相似性、药物化学结构相似性和病毒-药物关联数据构建异构网络，设置药物的随机游走初始概率为1，病毒的随机游走初始概率为1/病毒总数，在此异构网络上进行带重启的随机游走，获得药物-病毒对的关联概率，若前后两次游走获得的关联概率差高于预期值，则重复运行病毒筛选模型直至低于预期值，然后由关联概率得到病毒对所述药物的得分，由所述得分对病毒进行排序，从而实现对药物的重新定位。
6.根据权利要求1所述的用于筛选抗RNA病毒药物的方法，其特征在于，步骤(1)包括以下步骤：
(1-1)从DrugBank数据库中以病毒为“indications”搜索与其关联的药物；
(1-2)从NCBI数据库中搜索与病毒关联的药物；
(1-3)从PubMed数据库中搜索相关文献，查找与病毒关联的药物。
7.根据权利要求1所述的用于筛选抗RNA病毒药物的方法，其特征在于，进一步包括对候选药物进行打分的步骤和/或对筛选模型进行验证的步骤。
8.一种用于筛选抗RNA病毒药物的装置，其特征在于，其为用于执行根据权利要求1-7任一项所述的方法的装置，所述装置包括：
数据获取模块，其设置为能够从存储装置或网络获取病毒信息以及与这些病毒相对应的已知药物信息；
数据处理模块，其设置为能够计算病毒全基因组之间的序列相似性和药物之间的化学结构相似性；
筛选模块，其设置为能够利用序列相似性、药物化学结构相似性和病毒-药物关联数据，基于带重启的随机游走模型对药物或病毒进行筛选；
交叉验证模块，其设置为能够将数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集，以所述训练集训练筛选模型，并对所述测试集进行测试，由此完成一次验证，通重复测序进行n次验证，从而完成所述交叉验证，并计算包含敏感度、特异度、精确度和AUC的评价指标值，其中n为2以上的自然数。
9.根据权利要求8所述的用于筛选抗RNA病毒药物的装置，其特征在于，所述数据包括病毒全基因组的序列相似性数据、药物化学结构相似性数据和病毒-药物关联数据。

说明书全文

用于筛选新冠肺炎候选药物的方法及装置

技术领域

[0001] 本发明涉及病毒药物筛选领域，具体涉及基于病毒全基因组序列和药物化学结构的新冠肺炎候选药物筛选方法。

背景技术

[0002] 自2019年12月底以来，在中国武汉等多地发现重症肺炎患者，2020年2月11日，世界卫生组织宣布将新型冠状病毒感染的肺炎命名为“新冠肺炎”(COVID-19)。新型冠状病毒的名称则由国际病毒分类委员会正式命名为2019-nCoV。该病毒具有极强的传播能力，有证据表明该病毒在潜伏期就有人传人的风险，潜伏期可长达24天。COVID-19已经对人民群众身心健康和国民经济发展都造成了极大地影响。世界卫生组织最近宣布COVID-19为国际关注的突发公共卫生事件。我国多省份也启动重大突发公共卫生事件I级响应。

[0003] COVID-19重症患者与非典的临床表现比较相似。最新文献表明，各个年龄阶段(婴幼儿、青壮年和老年)的人群都为易感人群。确诊患者最常见的症状是发烧(87.9%)和咳嗽(67.7%)，肺部CT显示毛玻璃样病变，少数有腹泻(3.7%)和呕吐(5.0%)现象。重症患者多在发病一周后，出现呼吸困难和/低血氧症；严重的快速进展为呼吸窘迫综合征、脓毒症休克、代谢性酸中毒、凝血障碍，甚至死亡。轻型患者仅表现出低热、轻微乏力等，并无肺炎表现。但轻症患者甚至无症状患者也具有传染性。这为控制疾病的传播带来了极大的挑战。

[0004] 目前已知2019-nCoV是一种有包膜的，正义单链RNAβ冠状病毒。高通量测序结果显示该病毒的基因组结构与此前爆发的SARS和MERS结构类似，编码四种非结构蛋白(3-胰凝乳蛋白酶，木瓜蛋白酶，解旋酶和RNA依赖性RNA聚合酶)、结构蛋白(刺突糖蛋白，也就是S蛋白)以及辅助蛋白。上述四种非结构蛋白是病毒生命周期的关键酶。刺突糖蛋白与细胞受体相互作用是病毒侵染细胞的过程中必不可少的。在SARS和MERS中，这些蛋白已经作为研发抗病毒药物的靶标。序列分析表明，2019-nCoV的这四种非结构蛋白的催化位点高度保守。蛋白质结构分析也表明，在2019-nCoV、SARS和MERS这三种病毒中，病毒酶中关键的药物结合部位很可能是保守的。

[0005] 众所周知，新药研发是一项耗时耗资的庞大的系统工程。即便顺利，从头研发新药通常也需要10年左右。疫苗从研发到生产应用也需要较长的时间。从头研发新药或疫苗现实意义较小。因此，在已经上市或已经开展临床实验中的药物中筛选对抗2019-nCoV的有效药物是极其重要的。

[0006] 近些年，高通量测序技术、结构生物学和互联网技术的飞速发展使得人们可以便捷地获得海量病毒、药物的相关数据。如何快速分析利用这些数据，发现新的作用靶点，减少新药研发的时间和费用，对于2019-nCoV的新药发现是非常重要的。

[0007]

发明内容

[0008] 鉴于现有技术中存在的技术问题，本发明提供一种使用机器学习算法进行病毒候选药物筛选的方法及模型，该药物筛选方法及模型特别适用于新冠肺炎病毒(2019-nCoV)的药物筛选。本发明的方法降低了成本并提高了预测的准确性。另外，基于本发明的方法挑选出对病毒具有重要作用的多个候选药物。具体地，本发明包括以下内容。

[0009] 一种用于筛选抗RNA病毒药物的方法，其包括以下步骤：(1) 建立病毒-药物关联数据库的步骤，其包括在病毒数据库中筛选出与目标病毒相似的病毒，由所述目标病毒及其相似的病毒组成病毒库，从已知药物数据库中筛选与所述病毒库中除目标病毒外的各病毒关联的药物组成药物库，由病毒库中的各病毒和对应的药物库中的药物构成病毒-药物关联数据库；
(2) 计算病毒相似性和药物相似性的步骤，其包括获取病毒库中各病毒的基因组序列，通过多序列比对计算所述病毒中各病毒之间的序列相似性，根据药物的化学结构计算所述药物库中各药物之间的扩展连通性指纹，进而计算药物化学结构相似性；
(3) 确定筛选模型的步骤，其包括利用序列相似性、药物化学结构相似性和病毒-药物关联数据，基于带重启的随机游走模型建立筛选模型，通过训练得到最优模型参数；
(4) 利用得到的最优模型参数，运行带重启的随机游走模型获得目标病毒与所述药物库中各药物的目标病毒-药物对分数排名，根据所述分数排名筛选目标病毒的候选药物。

[0010] 根据本发明的用于筛选抗RNA病毒药物的方法，优选地，步骤(3)的训练包括下述交叉验证步骤来计算包括敏感度、特异度、精确度和AUC的评价指标值：a. 将所述病毒库中的病毒序列相似性数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集，利用所述训练集训练模型，并对所述测试集进行测试，由此完成一次验证；b. 将所述药物库中的药物化学结构相似性数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；利用所述训练集训练模型，并对所述测试集进行测试，由此完成一次验证；c. 将所述病毒-药物关联数据库中的关联数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述训练集训练模型，并对所述测试集进行测试，由此完成一次验证；d．重复步骤a-c，分别进行n次实验验证，从而完成交叉验证，其中n为2以上的自然数，且步骤a、b和c中的n可以相同，也可以不同。

[0011] 根据本发明的用于筛选抗RNA病毒药物的方法，优选地，所述目标病毒为新冠肺炎病毒、SARS-CoV或MERS-CoV。

[0012] 根据本发明的用于筛选抗RNA病毒药物的方法，优选地，所述筛选是指从病毒出发挖掘与病毒关联的药物，其包括根据病毒相似性、药物化学结构相似性和病毒-药物关联数据构建异构网络，设置病毒的随机游走初始概率为1，药物的随机游走初始概率为1/药物总数，在此异构网络上进行带重启的随机游走，获得药物-病毒对的关联概率，若前后两次游走获得的关联概率之差高于预期值，则重复运行药物筛选模型直至低于预期值，然后由关联概率得到药物对所述病毒的得分，由所述得分对药物进行排序。

[0013] 根据本发明的用于筛选抗RNA病毒药物的方法，优选地，所述筛选是指从药物出发挖掘与药物关联的病毒，其包括根据病毒相似性、药物化学结构相似性和病毒-药物关联数据构建异构网络，设置药物的随机游走初始概率为1，病毒的随机游走初始概率为1/病毒总数，在此异构网络上进行带重启的随机游走，获得药物-病毒对的关联概率，若前后两次游走获得的关联概率差高于预期值，则重复运行病毒筛选模型直至低于预期值，然后由关联概率得到病毒对所述药物的得分，由所述得分对病毒进行排序，从而实现对药物的重新定位。

[0014] 根据本发明的用于筛选抗RNA病毒药物的方法，优选地，步骤(1)包括以下步骤：(1-1)从DrugBank数据库中以病毒为“indications”搜索与其关联的药物；
(1-2)从NCBI数据库中搜索与病毒关联的药物；
(1-3)从PubMed数据库中搜索相关文献，查找与病毒关联的药物。

[0015] 根据本发明的用于筛选抗RNA病毒药物的方法，优选地，其进一步包括对候选药物进行打分的步骤和/或对筛选模型进行验证的步骤。

[0016] 本发明的另一方面，提供一种用于筛选抗RNA病毒药物的装置，其包括：数据获取模块，其设置为能够从存储装置或网络获取病毒信息以及与这些病毒相对应的已知药物信息；数据处理模块，其设置为能够计算病毒全基因组之间的序列相似性和药物之间的化学结构相似性；筛选模块，其设置为能够利用序列相似性、药物化学结构相似性和病毒-药物关联数据，基于带重启的随机游走模型对药物或病毒进行筛选；交叉验证模块，其设置为能够将数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集，以所述训练集训练筛选模型，并对所述测试集进行测试，由此完成一次验证，通重复测序进行n次验证，从而完成所述交叉验证，并计算包含敏感度、特异度、精确度和AUC的评价指标值。

[0017] 根据本发明的用于筛选抗RNA病毒药物的装置，优选地，所述数据包括病毒全基因组的序列相似性数据、药物化学结构相似性数据和病毒-药物关联数据。

[0018] 本发明的候选药物筛选方法基于病毒全基因组序列和药物化学结构的新冠肺炎候选药物筛选在降低药物研发成本的同时加快药物研发速度，而且具有精度高、灵敏度高和特异性高的特点。在算法速度、精度、分析结果的准确率上均超过传统方法。本发明的方法针对新冠肺炎候选药物筛选的准确率可达82%以上。

[0019]附图说明

[0020] 图1为本发明的筛选方法的一种示例性流程图。

[0021] 图2为本发明带重启的随机游走模型的展示图。

[0022] 图3为一种示例性病毒-药物数据矩阵。

[0023] 图4为一种示例性病毒序列相似性矩阵。

[0024] 图5为一种示例性药物化学结构相似性矩阵，其中图5A-5G分别为矩阵的一部分，由此构成整个矩阵。

[0025]

具体实施方式

[0026] 现详细说明本发明的多种示例性实施方式，该详细说明不应认为是对本发明的限制，而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。

[0027] 应理解本发明中所述的术语仅仅是为描述特别的实施方式，并非用于限制本发明。另外，对于本发明中的数值范围，应理解为具体公开了该范围的上限和下限以及它们之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。

[0028] 除非另有说明，否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料，但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入，用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时，以本说明书的内容为准。除非另有说明，否则“%”或“量”均为基于重量的百分数。

[0029] 本发明中，术语“病毒相似性”是指采用各种技术手段获得这些病毒的序列后，通过多序列比对得到的序列相似性，多序列比对可通过已知软件例如MAFFT来进行。

[0030] 本发明中，术语“药物相似性”是指采用各种技术手段获得这些病毒的关联药物后，根据药物的化学结构，利用例如RDKit等计算药物的扩展连通性指纹(ECFPs)，并根据ECFPs计算得到药物的化学结构相似性。

[0031] 本发明中，术语“机器学习”是指利用机器学习模型和算法来处理数据。优选的机器学习算法为带重启的随机游走算法[Valdeolivas A， Tichit L， Navarro C， et al. Random walk with restart on multiplex and heterogeneous biological networks[J]. Bioinformatics，2019，35(3): 497-505.]。

[0032] 本发明提供用于筛选抗RNA病毒药物的方法，其为基于病毒全基因组序列、药物化学结构及两者的关联数据的药物筛选方法，其至少包括以下四个步骤：(1) 建立病毒-药物关联数据库的步骤，其包括在病毒数据库中筛选出与目标病毒相似的病毒，由所述目标病毒及其相似的病毒组成病毒库，从已知药物数据库中筛选与所述病毒库中的各病毒关联的药物组成药物库，由病毒库中的各病毒和对应的药物库中的药物构成病毒-药物关联数据库；
(2) 计算病毒相似性和药物相似性的步骤，其包括获取病毒库中各病毒的基因组序列，通过多序列比对计算所述病毒中各病毒之间的序列相似性，根据药物的化学结构计算所述药物库中各药物之间的扩展连通性指纹，进而计算药物化学结构相似性；
(3) 确定筛选模型的步骤，其包括利用序列相似性、药物化学结构相似性和病毒-药物关联数据，基于带重启的随机游走模型建立筛选模型，通过训练得到最优模型参数；
(4) 利用得到的最优模型参数，运行带重启的随机游走模型获得目标病毒与所述药物库中各药物的目标病毒-药物对分数排名，根据所述分数排名筛选目标病毒的候选药物。

[0033] 可选地，本发明的方法还包括对候选药物进行打分的步骤和预测药物有效性的步骤。下面详细说明各步骤。

[0034] 步骤(1)本发明的步骤(1)为建立病毒-药物关联数据库的步骤，其利用了现有公共数据资源中的病毒及对应的药物数据。病毒-药物数据库可来自于已知的任何数据库，只要其收录了足够量的病毒-药物数据库即可。在示例性实施方案中，本发明的病毒-药物数据库可以是根据例如相关文献报道和从公开渠道收集的已知数据构建的数据库。在示例性实施方案中，本发明的病毒的序列数据是从公开渠道收集的已知数据构建的数据库。本发明的药物数据是从公开渠道收集的已知数据构建的数据库。

[0035] 在某些实施方案中，本发明的步骤(1)具体包括：(1-1) 从ICTV病毒数据中挖掘与2019-nCoV相似的病毒，初始统计为11种，分别为包括A-H1N1、A-H5N1与A-H7N9在内的流感病毒，慢性丙型肝炎病毒(HCV)、艾滋病毒HIV-1和HIV-
2、亨得拉病毒、人巨细胞病毒、MERS病毒、SARS病毒和呼吸道合胞体病毒。

[0036] (1-2)从DrugBank数据库中以病毒为“indications”搜索与其关联的药物；(1-3)从NCBI数据库中搜索与病毒关联的药物；
(1-4)从PubMed数据库中搜索相关文献，查找与病毒关联的药物。

[0037] 本发明中，药物数据可以是与某一种病毒相关的数据。也可以是与多种病毒，优选3种以上病毒，更优选5种以上病毒，特别优选10种以上病毒关联的药物数据。关联药物数据包括处于临床试验1阶段的数据，也包括处于临床试验2、3、4阶段的数据，还包括相关文献给定有确切关联的数据。

[0038] 本发明中，病毒的类型不特别限定，只需要具有全基因组序列即可。在示例性实施方案中，本发明的病毒为2019-nCoV。

[0039] 本发明中，与所研究病毒相关药物的数量不定，一般为5种以上，优选为10种以上，更优选30种以上，进一步优选为50种以上。关联药物越多，模型筛选准确性越高。

[0040] 步骤(2)本发明的步骤(2)为病毒相似性和药物相似性计算步骤。从NCBI数据库下载病毒的全基因组序列，利用多序列比对软件MAFFT计算病毒的序列相似性；从DrugBank下载药物的化学结构，利用RDKit计算药物的ECFPs，根据ECFPs计算药物的化学结构相似性。

[0041] 步骤(3)本发明的步骤(3)为药物筛选模型确定步骤，其包括利用序列相似性、药物化学结构相似性和病毒-药物关联数据，基于带重启的随机游走模型建立筛选模型，通过训练得到最优模型参数。

[0042] 在某些实施方案中，本发明的步骤(3)包括药物筛选模型再确定步骤，其包括根据从病毒出发，根据病毒相似性和药物相似性及病毒-药物关联网络构建异构网络，设置病毒的随机游走初始概率为1，药物的随机游走初始概率为1/药物总数，在此异构网络上进行带重启的随机游走，从而根据药物对此病毒关联的得分对药物进行排序。在该情况下，若前后两次获得的关联概率差高于某一预期值，则重复药物筛选模型再确定步骤直至低于预期值的步骤。

[0043] 在某些实施方案中，本发明的步骤(3)包括病毒筛选模型再确定步骤，其包括根据从药物出发，根据病毒相似性和药物相似性及病毒-药物关联网络构建异构网络，设置药物的随机游走初始概率为1，病毒的随机游走初始概率为1/病毒总数，在此异构网络上进行带重启的随机游走，从而根据病毒对此药物关联的得分对病毒进行排序。在该情况下，若前后两次获得的关联概率差高于某一预期值，则重复病毒筛选模型再确定步骤直至低于预期值的步骤。特别地，挖掘现有药物对就的新的病毒，以实现对现在药物的重新定位，发现其新的治疗线索。

[0044] 本发明的步骤(3)通过对病毒-药物关联得分进行计算，可输出所有病毒与药物的关联概率。得分越高，病毒与药物关联的概率越大，药物成为病毒的候选治疗线索的可能性越高。

[0045] 在示例性实施方案中，本发明的步骤(3)包括使用带重启的随机游走模型，设置初始概率矩阵、重启概率和转移概率，整合病毒相似性、药物相似性和病毒-药物关联数据构建异构网络，在此网络上进行随机游走。

[0046] 本发明中，步骤(3)包括对模型进行交叉验证的步骤，其中交叉验证可以包括以下子步骤：a. 将所述病毒－药物关联数据中的病毒数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中n为2以上的自然数；b. 将所述病毒-药物关联数据中的药物数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中n为2以上的自然数；c. 将所述病毒－药物关联数据中的病毒－药物关联数据随机地分成n份，选择其中的1份作为测试集，其余的n-1份作为训练集；以所述n-1份训练集训练模型，并对所述测试集进行测试，由此完成一次验证，其中n为2以上的自然数，例如3、5、7、10或15等；d．分别重复步骤a-c，每个进行n次实验验证，从而完成交叉验证。通过交叉验证可计算得到评价指标值，例如敏感度、特异度、精确度和AUC值。

[0047] 本发明中，当通过交叉验证得到的评价指标值达到或高于预期值时，可将该药物筛选模型直接用于后续的步骤(4)。当通过交叉验证得到的评价指标值低于预期值时，可进一步进行药物筛选模型再确定步骤，直到得到具有或高于预期值的药物筛选模型。根据需要，药物筛选模型再确定步骤可重复一次至多次。再确定步骤可以与骤(3)相同。在步骤(3)得到的药物筛选模型为第一药物筛选模型的情况下，通过药物筛选模型再确定步骤可得到第二药物筛选模型、第三药物筛选模型，依次类推，可能得到更多的药物筛选模型。通过计算可得到这些药物筛选模型的评价指标值。选择具有达到或高于预期值的评价指标值的药物筛选模型进行后续的步骤(4)。

[0048] 本发明中，确定药物筛选模型包括可利用临床样本数据进行进一步验证，从而计算评价指标值的步骤。其中，评价指标可包括敏感度、特异度、精确度和AUC值。本发明通过验证可大大提升分型的准确率和AUC值，从而使本发明的方法更具优越性。

[0049] 步骤(4)本发明的步骤(4)为药物筛选步骤，其包括利用步骤(3)得到的最优模型参数，输入目标病毒的全基因组序列运行带重启的随机游走模型，获得目标病毒与药物库中各药物的目标病毒-药物对分数排名，根据所述分数排名筛选目标病毒的候选药物。

[0050] 除上述步骤(1)-(4)外，本发明的方法还可包括可选的其他步骤。例如，候选药物进行打分的步骤。在示例性候选药物打分步骤中，其包括：确定病毒突刺蛋白(S蛋白)和药物结构域结合力(docking)确定步骤。本发明中，S蛋白的结构通过从pdb等数据库下载病毒S蛋白的结晶结构，并用Swiss-model等软件基于最小自由能等算法进行预测。结合力可通过从DrugBank等网站下载药物结构数据，并与S蛋白的结构进行判断。

[0051] 药物与人体细胞受体蛋白结合力确定步骤。本发明中，筛选可以和病毒S蛋白结合的细胞表面蛋白，从pdb下载细胞表面蛋白结构，再与病毒S蛋白结合，检测结合能力。本发明中，通过Swiss-model等软件预测受体蛋白和药物结构域的结合能力。

[0052] 最终药物打分模型确定步骤。计算药物与病毒S蛋白的结合能力，计算药物与细胞受体的结合能力。本发明中，最终打分为两部分的加权平均。本发明中，关于模型系数，可以通过已知其它病毒药物的交叉验证得到。

[0053] 除了上述步骤(1)-(4)外，本发明的方法还可包括对筛选模型验证的步骤。验证包括孤立验证、文献验证、生物通路验证和/或细胞实验验证。

[0054] 本发明中，孤立验证包括对于一个病毒，删除与其关联的所有候选药物，基于随机游走为代表的机器学习方法对其关联进行预测。

[0055] 本发明中，文献验证包括通过PubMed数据库搜索出现2019-nCoV及预测的候选药物的文献，在下载这些文献后，阅读文献，以发现文献中是否对 2019-nCoV与某药物是否存在关联。

[0056] 本发明中，生物通路验证包括某一药物的反应性是体内多通路、多基因相互整合的结果。考虑在通路基因、炎症基因、易感性基因及药代动力学基因影响下新冠肺炎候选药物的生物通路多态性位点分析。

[0057] 本发明中，细胞实验验证包括获得相关病毒的数据，然后在细胞系上做实验，验证筛选药物对于2019-nCoV有效性。

[0058] 需要说明的是，除了上述步骤(1)-(4)及其他步骤外，在不违背本发明的目的的前提下，本发明还可包括其他步骤。此类其他步骤可以在步骤(1)-(4)任何两者之间，或者在步骤(1)之前或在步骤(4)之后。只要能够实现本发明的目的，此类步骤的位置或顺序并不特别限定。此外，两个以上的步骤可合并同时进行。

[0059] 实施例1一、样本信息
选择来自NCBI数据库的12个RNA病毒的全基因组序列及DrugBank数据库及PubMed数据库的78个药物的化学结构作为样本。

[0060] 二、实验步骤1. 预处理：
1.1从ICTV病毒数据中挖掘与2019-nCoV相似的病毒，初始统计为11种，分别为包括A-H1N1、A-H5N1与A-H7N9在内的流感病毒，慢性丙型肝炎病毒(HCV)、艾滋病毒HIV-1和HIV-2、亨得拉病毒、人巨细胞病毒、中东呼吸综合症冠状病毒(MERS病毒)、严重急性呼吸综合征(SARS)病毒和呼吸道合胞体病毒。

[0061] 1.2 从DrugBank数据库中下载11种病毒的关联药物。

[0062] 1.3 从PubMed数据库中搜索11种病毒的关联药物。

[0063] 1.4 构建病毒-药物关联数据库，并构建图3所示矩阵。

[0064] 相似性计算：2.1 从NCBI数据库中下载12种病毒(2019-nCoV及其相似病毒)的全基因组序列。

[0065] 2.2 利用多序列比对软件MAFFT计算12种病毒的序列相似性。结果如图4所示。

[0066] 2.3 从DrugBank数据库下载药物的化学结构。

[0067] 2.4 利用RDKit软件计算药物的ECFPs，由ECFPs计算药物的化学相似性。结果如图5所示。

[0068] 基于带重启的随机游走3.1 设置初始值
从病毒出发，根据病毒相似性和药物相似性及病毒-药物关联网络构建异构网络，设置病毒的随机游走初始概率为1，药物的随机游走初始概率为1/药物总数，从而获得初始概率。

[0069] 3.2 在此异构网络上进行带重启的随机游走，从而根据药物对此病毒关联的得分对药物进行排序。

[0070] 其中，，Wvv/Wdd分别表示病毒之间/药物之间的游走，Wvd表示病毒网络到药物网络之间的游走，Wdv表示药物网络到病毒网络之间的游走。W由病毒相似性、药物相似性和转移概率计算而得。

[0071] 3.3 若前后两次获得的关联概率差高于某一预期值，即，则重复药物筛选模型再确定步骤直至低于预期(1e-11)的步骤。

[0072] 算法性能本实施例基于3种5折交叉验证方式对算法性能进行评估：
5折交叉验证情形1：从12个病毒中随机挑选20%作为测试集，其他80%作为验证集，依此重复进行5轮，直至所有病毒都经过测试；进行上述实验100次，所得性能取100次实验的平均值。其结果如下：
表1-1 5折交叉验证情形1下的性能
5折交叉验证情形2：从78个药物中随机挑选20%作为测试集，其他80%作为验证集，依此重复进行5轮，直至所有药物都经过测试；进行上述实验100次，所得性能取100次实验的平均值。其结果如下：
表1-2 5折交叉验证情形2下的性能
5折交叉验证情形3：从病毒-药物关联对中随机挑选20%作为测试集，其他80%作为验证集，依此重复进行5轮，直至所有关联对都经过测试；进行上述实验100次，所得性能取100次实验的平均值。其结果如下：
表1-3 5折交叉验证情形3下的性能
三、信息分析
本实施例在确定模型的性能后，获得所有药物与2019-nCoV的关联得分并根据得分进行排序。所有这些小分子药物都是FDA批准的。在预测的与2019-nCoV关联得分最高的10个药物中有5个被相关工作证明与2019-nCoV有关。在预测的与2019-nCoV关联得分最高的20个药物中有8个被相关工作证明与2019-nCoV有关。

[0073] 表1-4使用随机游走算法筛选与 2019-nCoV关联的药物排序本实施例预测结果中，瑞德西韦与2019-nCoV相关性最高。瑞德西韦是一种正在进行临床试验的小分子化合物。这种小分子药物对许多RNA病毒具有良好的抗病毒活性。Sheahan等［Sheahan T P， Sims A C， Leist S R,et al. Comparative therapeutic efficacy of remdesivir and combination lopinavir， ritonavir， and interferon beta against MERS-CoV[J]. Nature Communications，2020，11(1):1-14.］研究发现瑞德西韦可以改善小鼠肺功能，降低严重的肺病理改变。同时，2019-nCoV与埃博拉病毒和SARS病毒都可能导致严重呼吸疾病，而瑞德西韦已应用于埃博拉和SARS的治疗。另外，许多文献报道瑞德西韦在控制2019-nCoV感染方法效果良好，已应用于新冠肺炎的治疗。

[0074] 预测结果中，奥司他韦是另一种与2019-nCoV相关性次高的药物。Huang等人［Huang C，Wang Y， Li X， et al. Clinical features of patients infected with 2019 novel coronavirus in Wuhan，China[J]. The Lancet，2020.］已经用奥司他韦治疗38个补 2019-nCoV感染的患者，到其报道时截止，已有28个患者被治愈出院。台湾医生结合奥司他韦、洛匹那韦和利托那韦，成功治愈一名感染者［Letchumanan V，Ser H L，Law J W F，et al. The rising fear of Wuhan Virus ‘2019-nCoV’[J]. Progress In Microbes & Molecular Biology，2020，3(1).］。因而，奥司他韦可能对治疗新冠肺炎有效。

[0075] 得分排名第三的是利巴韦林，提示其对新冠肺炎的治疗具有效果，可进一步进行开发或验证。

[0076] 实施例2在未特别说明的情况下，实施例2的其他步骤与实施例1相同。本实施例的样本信息为选择来自NCBI数据库的11个RNA病毒的全基因组序列及DrugBank数据库及PubMed数据库的
63个药物的化学结构作为样本。其中，病毒为SARS病毒及其相似病毒A-H1N1、A-H5N1、A-H7N9、HCV、HIV-1、HIV-2、亨得拉病毒、人巨细胞病毒、MERS病毒和呼吸道合胞体病毒。

[0077] 本实施例在确定模型的性能后，把SARS视为一种新的病毒，将与其关联的药物信息全部掩盖，用带重启的随机游走算法对与SARS关联的药物进行预测。表2-4给出了与SARS关联的63个药物及其排名。所有这些小分子药物都是FDA批准的。

[0078] 表2-4 与SARS关联的药物及其排名在本实施例预测结果中，奥司他韦被预测为与SARS具有最高的关联得分，文献［Virupakshaiah D B M，Kelmani C，Patil R，et al. Computer aided docking studies on antiviral drugs for SARS[C]//Proceedings of world academy of science， engineering and technology. 2007， 24: 307-6886.］已报道奥司他韦可用于SARS的治疗。文献［Virupakshaiah D B M， Kelmani C， Patil R， et al. Computer aided docking studies on antiviral drugs for SARS[C]//Proceedings of world academy of science，engineering and technology. 2007，24: 307-6884.］已报道洛匹那韦可用于SARS的治疗。本实施例还预测伐昔洛韦也可用于SARS的治疗。

[0079] 通过交叉验证，对SARS药物筛选方法进行训练和测试，获得不同交叉验证情形下的敏感度、特异度、精确度和AUC值(见表2-1至2-3)。根据模型结果，可对SARS候选药物进行筛选。本实施例中发现奥司他韦、伐昔洛韦和洛匹那韦可能对SARS的治疗具有效果。

[0080] 实施例3在未特别说明的情况下，实施例3的其他步骤与实施例1相同。

[0081] 本实施例的样本信息为选择来自NCBI数据库的11个病毒的全基因组序列及DrugBank数据库和PubMed数据库的69个药物的化学结构作为样本。病毒为MERS病毒及其相似病毒A-H1N1、A-H5N1、A-H7N9、HCV、HIV-1、HIV-2、亨得拉病毒、人巨细胞病毒、SARS病毒与呼吸道合胞体病毒。

[0082] 本实施例在确定模型的性能后，把MERS视为一种新的病毒，将与其关联的药物信息全部掩盖，用带重启的随机游走算法对与MERS关联的药物进行预测。表3-4给出了与SARS关联的69个药物及其排名。所有这些小分子药物都是FDA批准的。

[0083] 表3-4 与MERS关联的药物及其排名在本实施例预测结果中，奥司他韦被预测为与MERS具有最高的关联得分。由于MERS与SARS和新型冠状病毒都属于严重呼吸症疾病，而奥司他韦被证明可用于SARS和新型冠状病毒的治疗，故奥司他韦也可能用于MERS的治疗。

[0084] 通过交叉验证，对MERS药物筛选方法进行训练和测试，获得不同交叉验证情形下的敏感度、特异度、精确度和AUC值(见表3-1至3-3)。根据模型结果，可对MERS候选药物进行筛选。本实施例中，发现奥司他韦可能对MERS的治疗具有效果。

标题	发布/更新时间	阅读量
一种基于相似度度量的人脸确认方法	2020-05-11	463
一种知识图谱驱动型的法律智能咨询系统	2020-05-14	582
软件相似性度量方法及装置	2020-05-12	466
一种学术资源推荐服务系统与方法	2020-05-12	322
一种基于物品时间流行性的推荐方法	2020-05-08	846
基于语义指导与记忆机制的视频描述方法	2020-05-12	422
编码医学词汇的映射	2020-05-11	640
一种基于隔离森林的海量数据异常值检测算法	2020-05-13	628
使用来自正交行和列的全局机器学习特征的表头部检测	2020-05-15	917
一种基于事理推荐的逻辑图谱构建及预警方法和装置	2020-05-13	921

用于筛选新冠肺炎候选药物的方法及装置

用于筛选新冠肺炎候选药物的方法及装置

技术领域

背景技术

发明内容

具体实施方式

该功能需要专业版企业版VIP权限，您可以：