首页 / 专利库 / 电脑零配件 / 固件 / 软件 / 软件包 / 一种化合物毒性预测模型建模方法、装置及其应用

一种化合物毒性预测模型建模方法、装置及其应用

阅读:13发布:2020-05-13

专利汇可以提供一种化合物毒性预测模型建模方法、装置及其应用专利检索,专利查询,专利分析的服务。并且本 发明 提供一种化合物毒性 预测模型 的建模方法,至少包括以下步骤:步骤S101,提供各候选建模化合物的毒性分类标签;步骤S102,提供各候选建模化合物的分子描述符;步骤S103,提供各候选建模化合物的靶蛋白描述符;步骤S104,提供各候选建模化合物的定量高通量筛选分析描述符,所述定量高通量筛选分析描述符是 指定 量高通量筛选的PubChem活动评分;步骤S105,构建并训练化合物毒性预测模型。本发明能够充分利用药物候选化合物的理化性质、 生物 活性、靶蛋白作用性质,同时利用基于 集成学习 的 机器学习 算法 的统计建模优势,构建药物毒性的预测系统,使模型兼具可解释性和预测性能,具有更好的理化和生物学意义和研究价值。,下面是一种化合物毒性预测模型建模方法、装置及其应用专利的具体信息内容。

1.一种化合物毒性预测模型的建模方法,至少包括以下步骤:
步骤S101,提供各候选建模化合物的毒性分类标签;
步骤S102,提供各候选建模化合物的分子描述符;
步骤S103,提供各候选建模化合物的靶蛋白描述符;
步骤S104,提供各候选建模化合物的定量高通量筛选分析描述符,所述定量高通量筛选分析描述符是指定量高通量筛选的PubChem活动评分;
步骤S105,构建并训练化合物毒性预测模型:保留同时具有全部描述符和毒性分类标签的各候选建模化合物,作为建模化合物,构建模型输入训练数据集,所述输入训练数据集包含建模化合物的全部描述符特征和毒性分类标签,利用基于集成学习机器学习算法构建并训练化合物毒性预测模型;所述全部描述符是指分子描述符、靶蛋白描述符和定量高通量筛选分析描述符。
2.如权利要求1所述的化合物毒性预测模型的建模方法,其特征在于,还包括以下特征中的一项或多项:
a.所述毒性分类标签包括两种,其中,GHS毒性分类标签1-4定义为有毒类标签,GHS毒性分类标签5或6定义为无毒类标签;
b.所述分子描述符的数据源为Tox21公共数据库的ToxCast-DSSTox数据集;
c.所述定量高通量筛选分析描述符来源于PubChem数据库;
d.步骤S103中,应用内部随机森林配体-目标预测算法计算靶蛋白描述符;
e.步骤S105中,应用CatBoost算法构建和训练毒性预测模型。
3.如权利要求2所述的化合物毒性预测模型的建模方法,其特征在于,所述分子描述符采用下列方法获得:将各候选建模化合物的结构转化为pH=7.4时稳定存在的互变异构体,应用开源药物分子描述符计算工具计算获得分子描述符。
4.如权利要求3所述的化合物毒性预测模型的建模方法,其特征在于,还包括以下特征中的一项或多项:步骤S105中,
f.应用基于集成学习的机器学习算法CatBoost,通过预测值更改方法对输入训练数据集计算特征重要性,删除重要性为零的描述符特征,并以通过递归特征消除RFE算法筛选出的特征作为模型最终输入训练数据集的特征;
g.应用基于贝叶斯优化软件包,对采用CatBoost算法构建预测模型时涉及到的模型参数进行超参数优化,获得最优模型参数集合。
5.如权利要求4所述的化合物毒性预测模型的建模方法,其特征在于,应用CatBoost算法构建化合物毒性预测模型,以模型最终输入训练数据集的特征及最优模型参数拟合、训练预测模型,并在输入训练集内采用五倍交叉验证程序来确定最佳概率阈值作为决策边界。
6.一种化合物毒性预测模型的建模装置,至少包括以下模
毒性分类标签提供模块:用于提供各候选建模化合物的毒性分类标签;
分子描述符提供模块:用于提供各候选建模化合物的分子描述符;
靶蛋白描述符提供模块:用于提供各候选建模化合物的靶蛋白描述符;
定量高通量筛选分析描述符提供模块:用于提供各候选建模化合物的定量高通量筛选分析描述符,所述定量高通量筛选分析描述符是指定量高通量筛选的PubChem活动评分;
化合物毒性预测模型构建与训练模块:用于保留同时具有全部描述符和毒性分类标签的各候选建模化合物,作为建模化合物,构建模型输入训练数据集,所述输入训练数据集包含建模化合物的全部描述符特征和毒性分类标签,利用基于集成学习的机器学习算法构建并训练化合物毒性预测模型;所述全部描述符是指分子描述符、靶蛋白描述符和定量高通量筛选分析描述符。
7.如权利要求5所述的化合物毒性预测模型的建模装置,其特征在于,还包括以下特征中的一项或多项:
a.所述毒性分类标签包括两种,其中,GHS毒性分类标签1-4定义为有毒类标签,GHS毒性分类标签5或6定义为无毒类标签;
b.所述分子描述符的数据源为Tox21公共数据库的ToxCast-DSSTox数据集;
c.所述定量高通量筛选分析描述符来源于PubChem数据库;
d.靶蛋白描述符计算模块中,应用内部随机森林配体-目标预测算法计算靶蛋白描述符;
e.化合物毒性预测模型构建与训练模块中,应用CatBoost算法构建和训练毒性预测模型。
8.如权利要求6所述的化合物毒性预测模型的建模装置,其特征在于,所述分子描述符采用下列方法获得:将各候选建模化合物的结构转化为pH=7.4时稳定存在的互变异构体,应用开源药物分子描述符计算工具计算获得分子描述符。
9.如权利要求6-8任一所述的化合物毒性预测模型的建模装置,其特征在于,所述化合物毒性预测模型构建与训练模块中,还包括以下特征中的一项或多项子模块:
f.最终输入训练数据集的特征筛选子模块,用于应用基于集成学习的机器学习算法CatBoost,通过预测值更改方法对输入训练数据集计算特征重要性,删除重要性为零的描述符特征,并以通过递归特征消除RFE算法筛选出的特征作为模型最终输入训练数据集的特征;
g.超参数优化子模块,用于应用基于贝叶斯优化软件包,对采用CatBoost算法构建预测模型时涉及到的模型参数进行超参数优化,获得最优模型参数集合。
10.权利要求9所述的化合物毒性预测模型的建模装置,其特征在于,所述化合物毒性预测模型构建与训练模块,还用于应用CatBoost算法构建化合物毒性预测模型,以模型最终输入训练数据集的特征及最优模型参数拟合、训练预测模型,并在输入训练集内采用五倍交叉验证程序来确定最佳概率阈值作为决策边界。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一所述的化合物毒性预测模型的建模方法。
12.一种计算机处理设备,包括处理器及权利要求11所述的计算机可读存储介质,其特征在于,所述处理器执行所述计算机可读存储介质上的计算机程序,实现权利要求1-5任一所述的化合物毒性预测模型的建模方法的步骤。
13.一种电子终端,其特征在于,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行权利要求1-5任一所述的化合物毒性预测模型的建模方法。
14.一种药物毒性预测方法,包括如下步骤:应用化合物毒性预测模型对待测药物进行毒性预测,所述化合物毒性预测模型通过权利要求1-5任一所述的化合物毒性预测模型的建模方法或权利要求6-10任一所述的化合物毒性预测模型的建模装置构建获得。

说明书全文

一种化合物毒性预测模型建模方法、装置及其应用

技术领域

[0001] 本发明涉及化学信息学和生物信息学领域,特别是涉及一种化合物毒性预测模型建模方法、装置及其应用。

背景技术

[0002] 现代药物的研发过程是一种探索能够与特异治疗标靶相互作用并具有良好的吸收、分布、代谢和排泄性质化合物的过程。据统计,新药研发失败约有30%是由于存在安全性问题而导致的。为了有效提高药物开发的率和成功率,需要在药物研发的早期阶段对化合物的毒性进行评价并将毒性较强的化合物尽早排除。传统的药物毒性预测方法主要使用基于动物活体实验的毒理学实验方法对药物毒性进行预测。由于需要在活体动物上验证药物的实际应用效果,所以传统方法存在着周期长、花费高且需要耗费大量活体动物等缺点。此外,安全、环保、动物保护等方面的法规要求日益严格,全球化的市场竞争也使得药物开发周期不断缩短,药物开发的资源投入越来越大。传统药物毒性预测方法所存在的缺点,以及当前社会发展所体现出的特点,都为药物的药物开发人员提出了挑战。因此,研究基于计算机应用技术的高效准确的药物毒性预测方法,对于提高新药研发的成功率,降低研发成本具有重要的意义,并已经成为当今毒理学、药物分析学、计算化学和系统生物学等多个学科共同关注的前沿命题。

发明内容

[0003] 鉴于以上所述现有技术的缺点,本发明的目的在于提供一种化合物毒性预测模型建模方法、装置及其应用。
[0004] 本发明第一方面提供一种化合物毒性预测模型的建模方法,至少包括以下步骤:
[0005] 步骤S101,提供各候选建模化合物的毒性分类标签;
[0006] 步骤S102,提供各候选建模化合物的分子描述符;
[0007] 步骤S103,提供各候选建模化合物的靶蛋白描述符;
[0008] 步骤S104,提供各候选建模化合物的定量高通量筛选分析描述符,所述定量高通量筛选分析描述符是指定量高通量筛选的PubChem活动评分;
[0009] 步骤S105,构建并训练化合物毒性预测模型:保留同时具有全部描述符和毒性分类标签的各候选建模化合物,作为建模化合物,构建模型输入训练数据集,所述输入训练数据集包含建模化合物的全部描述符特征和毒性分类标签,利用基于集成学习机器学习算法构建并训练化合物毒性预测模型;所述全部描述符是指分子描述符、靶蛋白描述符和定量高通量筛选分析描述符。
[0010] 本发明第二方面提供一种化合物毒性预测模型的建模装置,至少包括以下模
[0011] 毒性分类标签提供模块:用于提供各候选建模化合物的毒性分类标签;
[0012] 分子描述符提供模块:用于提供各候选建模化合物的分子描述符;
[0013] 靶蛋白描述符提供模块:用于提供各候选建模化合物的靶蛋白描述符;
[0014] 定量高通量筛选分析描述符提供模块:用于提供各候选建模化合物的定量高通量筛选分析描述符,所述定量高通量筛选分析描述符是指定量高通量筛选的PubChem活动评分;
[0015] 化合物毒性预测模型构建与训练模块:用于保留同时具有全部描述符和毒性分类标签的各候选建模化合物,作为建模化合物,构建模型输入训练数据集,所述输入训练数据集包含建模化合物的全部描述符特征和毒性分类标签,利用基于集成学习的机器学习算法构建并训练化合物毒性预测模型;所述全部描述符是指分子描述符、靶蛋白描述符和定量高通量筛选分析描述符。
[0016] 本发明第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述化合物毒性预测模型的建模方法。
[0017] 本发明第四方面提供一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述化合物毒性预测模型的建模方法的步骤。
[0018] 本发明第五方面提供一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行前述的化合物毒性预测模型的建模方法。
[0019] 本发明第六方面提供一种药物毒性预测方法,包括如下步骤:应用化合物毒性预测模型对待测药物进行毒性预测,所述化合物毒性预测模型通过前述的药物毒性预测模型的建模方法或前述化合物毒性预测模型的建模装置构建获得。
[0020] 如上所述,本发明的化合物毒性预测模型建模方法、装置及其应用,具有以下有益效果:
[0021] 1)本发明能够利用分子描述符,靶蛋白描述符和定量高通量筛选分析特征作为毒性预测评估指标,能够从理化性质、靶蛋白作用,生物活性等多个方面为药物毒性预测结果提供解释,利用相关人员理解药物毒性机理,进行后续改进研发。
[0022] 2)本发明以三种独立的特征指标对药物毒性进行评估,从而估算得到更可靠的毒性预测结果,降低了假阳率和假阴率。
[0023] 3)本发明利用先进的基于集成学习的机器学习算法,通过进行特征筛选工程和预测模型的超参数优化工程,构建了高效率,高性能的药物毒性预测系统。
[0024] 本发明提供了一种整合化合物多种理化和生物性质,利用基于集成学习的机器学习算法预测药物毒性的方法。提高了药物毒性预测系统的预测效率、预测精度,适应了制药行业的未来发展需求,能为制药行业带来开发周期和开发成本的更有效控制。
[0025] 本发明能够充分利用药物候选化合物的理化性质、生物活性、靶蛋白作用性质,同时利用基于集成学习的机器学习算法的统计建模优势,构建药物毒性的预测系统,使模型兼具可解释性和预测性能,具有更好的理化和生物学意义和研究价值。附图说明
[0026] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0027] 图1是本发明实施例的方法的流程图
[0028] 图2是本发明实施例的装置图。
[0029] 图3是本发明实施例中电子终端示意图。
[0030] 图4是根据发明方法所述,统计各分子描述符和整合后的预测模型接收者操作特征曲线下面积值,平均精度,特异度,灵敏度和正确分类率的统计结果。
[0031] 图5是根据发明方法所述,统计各分子描述符和整合后的预测模型平均精度结果。
[0032] 图6是根据发明方法所述,统计各分子描述符和整合后的预测模型接收者操作特征曲线下面积值结果。
[0033] 图7是根据发明方法所述,药物毒性预测模型的特征重要性排序结果。

具体实施方式

[0034] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
[0035] 此外应理解,本发明中提到的一个或多个方法步骤并不排斥在所述组合步骤前后还可以存在其他方法步骤或在这些明确提到的步骤之间还可以插入其他方法步骤,除非另有说明;还应理解,本发明中提到的一个或多个步骤之间的组合连接关系并不排斥在所述组合步骤前后还可以存在其他步骤或在这些明确提到的两个步骤之间还可以插入其他步骤,除非另有说明。而且,除非另有说明,各方法步骤的编号仅为鉴别各方法步骤的便利工具,而非为限制各方法步骤的排列次序或限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容的情况下,当亦视为本发明可实施的范畴。
[0036] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和展示的本发明实施例的组件可以以各种不同的配置来设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0037] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0038] 如图1所示,本发明的化合物毒性预测模型的建模方法,至少包括以下步骤:
[0039] 步骤S101,提供各候选建模化合物的毒性分类标签;
[0040] 步骤S102,提供各候选建模化合物的分子描述符;
[0041] 步骤S103,提供各候选建模化合物的靶蛋白描述符;
[0042] 步骤S104,提供各候选建模化合物的定量高通量筛选分析描述符,所述定量高通量筛选分析描述符是指定量高通量筛选的PubChem活动评分;
[0043] 步骤S105,构建并训练化合物毒性预测模型:保留同时具有全部描述符和毒性分类标签的各候选建模化合物,作为建模化合物,构建模型输入训练数据集,所述输入训练数据集包含建模化合物的全部描述符特征和毒性分类标签,利用基于集成学习的机器学习算法构建并训练化合物毒性预测模型;所述全部描述符是指分子描述符、靶蛋白描述符和定量高通量筛选分析描述符。
[0044] 本发明所述的化合物毒性预测模型,以建模化合物的全部描述符特征作为输入,最终输出毒性分类标签,预测化合物毒性。
[0045] 所述毒性分类标签包括二种,其中,GHS毒性分类标签1-4定义为有毒类标签,GHS毒性分类标签5或6定义为无毒类标签。
[0046] 所述GHS毒性分类标签来源于欧洲化学品管理局(European Chemicals Agency,ECHA),新西兰教育合作者协会(New Zealand Education Partners Association Limited,NZEPA),日本技术与评价研究所(Japan’s National Institute of Technology and Evaluation,JPNITE),澳大利亚安全工作署(Safe Work Australia,SWA)的公共数据库,获取化合物对应的GHS(Globally Harmonized System of Classification and Labeling of Chemicals,全球化学品统一分类和标签制度)下的毒性分类标签。
[0047] 所述分子描述符的数据源为Tox21公共数据库的ToxCast-DSSTox数据集。
[0048] 具体的,DSSTox(Distributed Structure-Searchable Toxicity)数据库将与化学物相关的生物测试数据和物理化学性质数据精确地映射到相应的化学结构上。DSSTox为支持改进的预测毒理学提供了高质量的公共化学资源。DSSTox数据库结合了最新的化学信息学工作流程,为EPA的安全化学品研究提供了化学基础设施,包括ToxCast和Tox21高通量毒理学工作。
[0049] Tox21联盟(Tox21 consortium)是一个联邦项目,包括美国国家毒理学计划(NTP)、美国国家转化科学促进中心(National Center for Advancing Translational Sciences)、美国食品药品监督管理局(FDA),旨在关注并加速这一发现的进程。ToxCast是毒性预报(ToxicityForecaster)的缩写,该项目是EPA对Tox21联盟协同合作的主要贡献之一。ToxCast项目采用高通量的体外筛选方式来标示有潜在毒性迹象的化合物。之后将这些化合物优先进行深入研究。自美国环境保护署(EPA)于2007年启动ToxCastTM项目以来,这一化学筛选项目已产生了海量的数据。
[0050] 从美国环境保护署的官方网站(https://epa.figshare.com/articles/)下载已经公开的ToxCast-DSSTox数据集。
[0051] 首先进行数据填补。清洗关键数据缺失的化合物条目,清洗部分化合物类型,填补缺失数据(利用PubChem包和QC细节注释文件填补缺失的SMILES数据)。
[0052] 再进行数据标准化。化合物结构数据的标准化通过外部工具Chemaxon JCHEM完成,用以数据整合,备用工具为:eTox(python包“standardiser”),模块输出为四列数据:SMILES、ID、登记号,分子分析。
[0053] 步骤S102中,将各候选建模化合物的结构转化为pH=7.4时稳定存在的互变异构体,应用开源药物分子描述符计算工具计算分子描述符。
[0054] 具体的,可以应用ChemAxon JChem 17.25.0工具将化合物结构转化为pH=7.4时稳定存在的互变异构体,以SMILES、ID、登记号,分子分析为输入数据,应用开源药物分子描述符计算工具PaDEL-Descriptor和RDKit计算分子描述符。
[0055] 分子描述符包括了机器学习方法建立药物毒性预测模型中最常用理化性质,包括脂分配系数、表观分配系数、分子溶解度、分子量、氢键供体数、氢键受体数、可旋转键的数目、环的数目、芳香环的数目、原子和氢原子的数目之和、极性表面积、分子部分极性表面积和分子表面积等等。
[0056] 所有分子描述符的计算均可以通过开源软件工具PaDEL-Descriptor或RDKit软件工具完成;应用ChemAxon JChem 17.25.0工具将化合物结构转化为pH=7.4时存在的主要互变异构体,应用开源药物分子描述符计算工具PaDEL-Descriptor和RDKit计算2D分子描述符;删除其中全为零值或零方差的分子描述符。
[0057] 步骤S103中,应用内部随机森林配体-目标预测算法计算靶蛋白描述符。在一种实施方式中,所述内部随机森林配体-目标预测算法为PIDGIN v2。
[0058] PIDGIN v2(https://github.com/lhm30/PIDGINv2)是应用随机森林算法在PubChem(21/06/16)和ChEMBL 21上训练的蛋白质靶预测工具,它为每个输入化合物提供了一个对每个目标具有亲和的Platt比例概率。应用内部随机森林配体-目标预测算法PIDGINv2计算候选建模化合物靶蛋白的靶蛋白描述符。并根据召回率大于0.5,和Tanimoto相似系数大于0.25筛选靶蛋白质对应关系,保留109种靶蛋白描述符。
[0059] 步骤S104中,所述定量高通量筛选分析描述符来源于PubChem数据库。具体是指PubChem发布的Tox21定量高通量筛选(quantitative High-Throughput Screening,qHTS)分析数据(https://pubchem.ncbi.nlm.nih.gov/assay)。高通量定量筛选是计算毒理学数据的主要来源,可以在七种或者更多的浓度水平检测化学化合物的生物活性,这些浓度水平跨越四个数量级。初步得到192种测试方法的所有PubChem化验数据。利用过滤分析类型为counter-screening assays,autofluorescence assays,other的结果,删除与药物毒性预测不太相关的分析方法,剩下76项。在这些化验测试中,PubChem活动评分(qHTS activity score)提供一个定量高通量筛选分析特征,评分是一个连续的数值描述符,总结了一个化合物相对于分析记录的特性。活性评分范围从0到100,非活性化合物的得分为0,活性化合物的得分为40至100,非决定性化合物的得分介于两者之间。如果由于重复测量而有多次分,则采用中位数评分。缺失值被认为是不活动的,并分配了分数0。
[0060] 步骤S105中,可通过化合物标号的对应关系整合三组描述符数据和毒性分类标签,并保留同时具有四类数据的化合物,作为建模化合物。所述的化合物标号可以是ToxCast数据库的CHID、PubChem数据库的CID和化学物质登记号CAS等多种化合物标号。
[0061] 例如,所述GHS毒性分类标签为GHS急性口服毒性毒性分类标签。
[0062] 步骤S105中,应用CatBoost算法构建和训练毒性预测模型。
[0063] 为了检验构建的化合物毒性预测模型的可靠性,步骤S105中,可以将同时具有四类数据的化合物中的一部分作为测试化合物,此时,可先构建包含三类描述符特征和毒性分类的初步数据集;应用开源软件工具Scikit-Learn的model_selection模块的train_test_split函数对初步数据集随机划分输入训练数据集和测试数据集。其中,测试数据集可在模型构建后,用于检验化合物毒性预测模型的可靠性。例如,测试集比例设为20%,随机种子设为2019,并以随机种子0-19随机20次进行数据集划分,得到模型验证实验的20个训练数据集以及对应的测试数据集。
[0064] 步骤S105中,应用基于集成学习的机器学习算法CatBoost,通过预测值更改方法对输入训练数据集计算特征重要性,删除重要性为零的描述符特征,并以通过递归特征消除RFE算法筛选出的特征作为模型最终输入训练数据集的特征。
[0065] 所述特征是指建模化合物的分子描述符、靶蛋白描述符和定量高通量筛选分析描述符的特征。
[0066] 对应的,当构建了测试数据集时,对测试数据集特征进行同样的删减处理。
[0067] 具体的,应用基于集成学习的机器学习算法CatBoost,通过预测值更改方法对输入训练数据集计算特征重要性,如图7所示。删除重要性为零的描述符特征,通过递归特征消除(Recursive Feature Elimination,RFE)算法筛选特征作为模型最终输入训练数据集的特征,并对测试数据集特征进行同样的删减处理。CatBoost是俄罗斯的搜索巨头Yandex在2017年开源的机器学习库,是Gradient Boosting(梯度提升)+Categorical Features(类别型特征),也是基于梯度提升决策树的机器学习框架。CatBoost采用了一种有效的策略,降低过拟合的同时也保证了全部数据集都可用于学习。也就是对数据集进行随机排列,计算相同类别值的样本的平均标签值时,只是将这个样本之前的样本的标签值纳入计算。
[0068] 步骤S105中,构建化合物毒性预测模型之前,应用基于贝叶斯优化的Hyperopt开源软件包,对采用CatBoost算法构建预测模型时涉及到的模型参数进行超参数优化,获得最优模型参数集合。以验证集的平均AUC最大化,输出获取输入训练数据集的最优模型参数集合,作为构建化合物毒性预测模型的参数。
[0069] 具体的,首先,将训练集进一步分为优化训练集和优化验证集,设置iterations,learning_rate,depth,l2_leaf_reg等参数的数值范围,通过hyperopt函数,以优化验证集的平均AUC最大化,输出获取适合的输入训练数据集的最优模型参数集合,作为构建化合物毒性预测模型的参数。Hyperopt是一种通过贝叶斯优化来调整参数的工具,该方法有较快的速度,并有较好的效果。此外,Hyperopt结合MongoDB工具可以进行分布式调参,快速找到相对较优的参数。指定的dev版本可使用模拟退火调参,也支持暴力调参、随机调参等策略。贝叶斯优化,又叫序贯模型优化(Sequential model-based optimization,SMBO),是最有效的函数优化方法之一。与共轭梯度下降法等标准优化策略相比,SMBO的优势有:利用平滑性而无需计算梯度;可处理实数、离散值、条件变量等;可处理大量变量并行优化。
[0070] 步骤S105中,应用CatBoost算法构建化合物毒性预测模型,以模型最终输入训练数据集的特征及最优模型参数拟合、训练预测模型,并在输入训练集内采用五倍交叉验证程序来确定最佳概率阈值作为决策边界。所述最佳概率阈值是指能够使正确分类率CCR最大化的阈值。
[0071] 进一步的 ,以模型最终输入训练数据集的特征及最优模型参数和CatBoostClassifier函数拟合、训练预测模型。并在输入训练集内采用五倍交叉验证程序来确定最佳概率阈值作为决策边界(Decision Boundary)。所述最佳概率阈值是指能够使正确分类率CCR(CorrectClassification Rate,CCR)最大化的阈值。
[0072] 如图2所示,本发明的化合物毒性预测模型的建模装置,至少包括以下模块:
[0073] 毒性分类标签提供模块:用于提供各候选建模化合物的毒性分类标签;
[0074] 分子描述符提供模块:用于提供各候选建模化合物的分子描述符;
[0075] 靶蛋白描述符提供模块:用于提供各候选建模化合物的靶蛋白描述符;
[0076] 定量高通量筛选分析描述符提供模块:用于提供各候选建模化合物的定量高通量筛选分析描述符,所述定量高通量筛选分析描述符是指定量高通量筛选的PubChem活动评分;
[0077] 化合物毒性预测模型构建与训练模块:用于保留同时具有全部描述符和毒性分类标签的各候选建模化合物,作为建模化合物,构建模型输入训练数据集,所述输入训练数据集包含建模化合物的全部描述符特征和毒性分类标签,利用基于集成学习的机器学习算法构建并训练化合物毒性预测模型;所述全部描述符是指分子描述符、靶蛋白描述符和定量高通量筛选分析描述符。
[0078] 所述毒性分类标签包括两种,其中,GHS毒性分类标签1-4定义为有毒类标签,GHS毒性分类标签5或6定义为无毒类标签。
[0079] 所述分子描述符的数据源为Tox21公共数据库的ToxCast-DSSTox数据集。
[0080] 所述分子描述符采用下列方法获得:将各候选建模化合物的结构转化为pH=7.4时稳定存在的互变异构体,应用开源药物分子描述符计算工具计算获得分子描述符。
[0081] 所述定量高通量筛选分析描述符来源于PubChem数据库。
[0082] 靶蛋白描述符计算模块中,应用内部随机森林配体-目标预测算法计算靶蛋白描述符。
[0083] 化合物毒性预测模型构建与训练模块中,应用CatBoost算法构建和训练毒性预测模型。
[0084] 化合物毒性预测模型构建与训练模块中,还包括最终输入训练数据集的特征筛选子模块,应用基于集成学习的机器学习算法CatBoost通过预测值更改方法对输入训练数据集计算特征重要性,删除重要性为零的描述符特征,并以通过递归特征消除RFE算法筛选出的特征作为模型最终输入训练数据集的特征。
[0085] 化合物毒性预测模型构建与训练模块中,还包括超参数优化子模块,用于应用基于贝叶斯优化软件包,对采用CatBoost算法构建预测模型时涉及到的模型参数进行超参数优化,获得最优模型参数集合。
[0086] 化合物毒性预测模型构建与训练模块中,还可用于应用CatBoost算法构建化合物毒性预测模型,以模型最终输入训练数据集的特征及最优模型参数拟合、训练预测模型,并在输入训练集内采用五倍交叉验证程序来确定最佳概率阈值作为决策边界。所述最佳概率阈值是指能够使正确分类率CCR最大化的阈值。
[0087] 由于本实施例中的装置与前述方法实施例的原理基本相同,在上述方法和装置实施例中,对相同特征的定义、计算方法、实施方式的列举及优选实施方式的列举阐述可以互用,不再重复赘述。
[0088] 需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,获取模块可以为单独设立的处理元件,也可以集成在某一个芯片中实现,此外,也可以以程序代码的形式存储于存储器中,由某一个处理元件调用并执行以上获取模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
[0089] 例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程阵列(FieldProgrammable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
[0090] 在本发明的一些实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述化合物毒性预测模型的建模方法。
[0091] 在本发明的一些实施例中,还提供了一种计算机处理设备,包括处理器及前述的计算机可读存储介质,所述处理器执行所述计算机可读存储介质上的计算机程序,实现前述化合物毒性预测模型的建模方法的步骤。
[0092] 在本发明的一些实施例中,还提供了一种电子终端,包括:处理器、存储器、及通信器;所述存储器用于存储计算机程序,所述通信器用于与外部设备进行通信连接,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行实现前述化合物毒性预测模型的建模方法。
[0093] 如图3所示,展示本发明提供的一种电子终端的示意图。所述电子终端包括处理器31、存储器32、通信器33、通信接口34和系统总线35;存储器32和通信接口34通过系统总线
35与处理器31和通信器33连接并完成相互间的通信,存储器32用于存储计算机程序,通信器34、通信接口34用于和其他设备进行通信,处理器31和通信器33用于运行计算机程序,使电子终端执行如上图像分析方法的各个步骤。
[0094] 上述提到的系统总线可以是外设部件互连标准(PeripheralPomponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture,简称EISA)总线等。该系统总线可以分为地址总线数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
[0095] 上述的处理器可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0096] 本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
[0097] 在具体实现上,所述计算机程序为执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。
[0098] 本发明提供的药物毒性预测方法,包括如下步骤:应用化合物毒性预测模型对待测药物进行毒性预测,所述化合物毒性预测模型通过前述的化合物毒性预测模型的建模方法或前述化合物毒性预测模型的建模装置构建获得。
[0099] 进一步的,应用构建好的预测模型对测试集的特征数据进行计算,预测对应药物候选化合物的毒性分类标签,并绘制统计接收者操作特征(Receiveroperating Characteristic,ROC)曲线下面积值(Area under Curve,AUC),平均精度(Average Precision),特异度(specificity),灵敏度(sensitivity)和正确分类率的直方图。
[0100] 将整合三种描述符的预测模型与只利用一种描述符进行药物毒性预测的结果进行比较,如图4所示,mc_tp_qHTS代表整合三种描述符的预测模型,molecular代表仅利用分子描述符的预测模型,target protein仅利用靶蛋白描述符的预测模型,qHTS代表仅利用定量高通量筛选分析数据的预测模型,接收者操作特征曲线的比较结果如图5所示,平均精度折线的比较结果如图6所示。为进一步验证本发明构建预测模型方法的可靠性,对20个随机划分输入数据集重复以上数据集划分之后的方法流程,统计接收者操作特征曲线下面积值,平均精度,特异度,灵敏度和正确分类率各自的平均值,如表1所示。可以很明显的看出整合三种描述符的预测模型在各项性能指标上的优势,本方法的实施例在保证了拥有较高预测性能的同时,还提高了预测结果的可解释性。
[0101] Descriptors AUC of ROC Average precision Sensitivity Specificity CCRmc_tp_qHTS 0.92 0.83 0.90 0.81 0.84molecular 0.92 0.83 0.89 0.76 0.83
target protein 0.85 0.71 0.69 0.75 0.78
qHTS 0.60 0.40 0.58 0.58 0.58
[0102] 综上所述,本发明提供了一种整合化合物多种理化和生物性质,利用基于集成学习的机器学习算法预测药物毒性的方法。所述方法流程包括:获取药物对应化合物的理化结构数据,靶蛋白数据,定量高通量筛选分析数据和对应的GHS(全球化学品统一分类和标签制度)毒性分类标签;分别处理和计算对应的描述符数据;通过多种化合物标号整合三组描述符数据;应用基于集成学习的机器学习算法CatBoost和递归特征消除算法对描述符数据进行特征筛选;进行模型超参数优化后应用CatBoost算法构建并训练毒性预测模型;待测药物数据获取后进行类似处理,应用预设的毒性预测模型进行分类,所述分类结果表示所述待测药物数据的毒性。本方法整合了分子描述符,靶蛋白描述符和定量高通量筛选分析特征,模型兼具可解释性和预测性能,有更好的化学和生物学意义和价值。
[0103] 上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈