首页 / 专利库 / 疗法 / 连续性肾脏替代治疗 / 一种连续性肾脏替代治疗过程中肝素剂量的预测方法

一种连续性肾脏替代治疗过程中肝素剂量的预测方法

阅读:414发布:2020-05-14

专利汇可以提供一种连续性肾脏替代治疗过程中肝素剂量的预测方法专利检索,专利查询,专利分析的服务。并且本 发明 涉及 机器学习 技术领域,一种连续性 肾脏替代 治疗 过程中肝素剂量的预测方法,包括以下步骤:(1)安装相关 软件 及库,(2)分析和了解由医院收集的数据集的相关信息,(3)数据预处理,(4)特征提取,(5)划分训练集和测试集及 不平衡 数据的处理,(6)模型预测及评估,(7)预测值的异常值处理。本发明使用梯度提升回归模型等机器学习 算法 预测CRRT过程中肝素剂量,能够根据训练出的模型,再经过对预测值的进一步处理,可以在CRRT过程中,给出合理可靠的肝素剂量参考值,辅助医生工作,提高手术 质量 ,经济可靠。,下面是一种连续性肾脏替代治疗过程中肝素剂量的预测方法专利的具体信息内容。

1.一种连续性肾脏替代治疗过程中肝素剂量的预测方法,其特征在于包括以下步骤:
步骤1、安装相关软件及库,安装Sublime Text 3软件及一个开源的Python 3.5,另外安装科学计算基础库即numpy、数据分析库即pandas、2D绘图库即matplotlib和缺失数据可视化库即missingno,具体安装步骤为,在windows 10系统下,首先安装Python 3.5,按win+R键快速启动命令窗口,输入cmd,点击确定,输入pip install+所需要的库,按enter键,进行相关库的安装,pip install matplotlib,按enter键,进行matplotlib库的安装,然后下载Sublime Text3软件;
步骤2、分析和了解由医院收集的数据集的相关信息,了解每个数据代表的含义及各自变量所占权重,分析自变量与目标变量即首剂剂量之间的关系,分析首剂剂量的类型,判断其是带分类标签的离散数据还是连续数据,以此作为选择回归模型还是分类模型的依据;
步骤3、数据预处理,首先对完全相同的行数据进行去重,其次分析各属性的数值是不是存在缺失值的情况,如果存在缺失值,要先进行处理,常见的缺失值处理方法有:个案剔除法即Listwise Deletion、均值替换法即Mean Imputation、热卡填充法即Hotdecking、聚类填充法即Clustering imputation、多重替代法即Multiple Imputation,然后采用z-score算法和范围缩放方法相结合的方式,对自变量进行标准化和归一化处理,z-score算法通过公式(1)进行描述,
式中x为样本的某一属性的值,u为该属性的均值,σ为该属性的标准差,X为标准化后的该属性值,范围缩放方法通过公式(2)进行描述,
式中min为该属性的最小值,max为该属性的最大值,Y为归一化后的该属性值;
步骤4、特征提取,利用随机森林遗传算法相结合的方法进行特征提取,随机森林利用自助法重采样技术和节点随机分支技术,构建多棵决策树,通过投票得到最终分类结果,遗传算法是一种借鉴生物界自然选择和生物体遗传机制的随机搜索算法,其基本原理是进化机制和自然选择法则,其特点是采用简单的二进制编码技术表示复杂结构,即遗传算法中的个体由0和1组成,其中,对应个体为1的属性是要提取的属性,对应个体为0的属性是要舍弃的属性,选取18列属性做为自变量;
步骤5、划分训练集和测试集及不平衡数据的处理,具体包括以下子步骤:
(a)利用机器学习技术领域中的10折交叉验证法划分训练集和测试集,具体做法为,将给定的数据集C,划分成k个大小相似的互斥子集,然后进行k次训练,每次训练将k-1个子集的并集作为训练集,余下的作为测试集,最终返回k个测试结果的均值,在10折交叉验证法中k取值为10;
(b)利用集成学习中的EasyEnsemble算法处理不平衡数据,具体做法为,从多数样本集中,进行n次有放回的随机采样,每次选取与少数类数目近似相等的样本集,于是得到n个样本集合,记作{S1,S2,...,Sn},然后将其中的每一个样本集合与少数类样本集合,结合组成n个样本集合,记作{C1,C2,...,Cn},之后用这n个样本集合分别进行训练和测试,得到n个模型,最后取由这n个模型预测出的值的均值;
步骤6、模型预测及评估,在选择模型之前,先对首剂剂量取ln变换,具体做法是,用python语言np.log()对首剂剂量进行取ln变换,然后用np.exp()对预测出的首剂剂量进行逆变换,以此来保证数据的不变性,在选择模型时,分别对决策树回归模型和梯度提升回归模型进行训练,并采用平均绝对误差MAE、均方误差MSE和R2评估模型,这些评价指标分别用Python语言实现方式是:mean_absolute_error(y_test,y_pred),mean_squared_error(y_test,y_pred),clf.score(X_test,y_test),其中y_test为测试集的实际首剂剂量,y_pred为利用训练模型预测的首剂剂量,X_test为训练集的自变量,平均绝对误差MAE通过公式(3)进行描述,
均方误差MSE通过公式(4)进行描述,
R2评估模型通过公式(5)进行描述,
式(3)、(4)和(5)中,n是测试集的样本集数量,yi是测试集的真实值,fi是测试集的预测值, 是测试集的均值,经验告诉我们,R2大于0.4时,模型拟合效果好,就可以采用此模型预测肝素剂量的首剂剂量,MSE和MAE的取值越小越好,决策树回归模型MSE的取值为0.045-
0.095,MAE的取值为0.126-0.213,梯度提升回归模型MSE的取值为0.053-0.087,MAE的取值为0.166-0.212,在评价回归模型中,主要依据是R2评估模型,依据这些评价指标,通过对比决策树回归模型和梯度提升回归模型,最终选择梯度提升回归模型做为预测肝素剂量的首剂剂量模型;
步骤7、预测值的异常值处理,对用梯度提升回归模型预测出的12个数值进行异常值处理,具体做法是,一、将异常值看作缺失值处理,常见的缺失值处理方法见步骤3,二、剔除异常数据,常用方法有,(1)拉依达准则,此算法适用于大数据样本集,(2)肖维勒准则,此算法适用于小数据样本集,(3)格拉布斯准则,此算法使用普遍,(4)狄克逊准则,此算法适用于小数据样本集。

说明书全文

一种连续性肾脏替代治疗过程中肝素剂量的预测方法

技术领域

[0001] 本发明涉及一种连续性肾脏替代治疗过程中肝素剂量的预测方法,属于机器学习技术领域。

背景技术

[0002] 现阶段对于CRRT过程中抗凝剂剂量研究相对较少,其结果针对性较弱,局限性较强,不易于推广。2009年,Tolwani等人给出的首剂剂量参考为25U/KG;2016年,Karakala等人给出了一个更为宽松的范围,首剂剂量可以在25-50U/KG之间。在抗凝剂剂量施加时,往往只考虑体重这一因素,一方面,浪费了医学数据,另一方面,不符合实际过程。因此,在考虑抗凝剂的施加时,应综合考虑病人的多项指标。同时,现实中面对大量的临床化验数据,首剂剂量往往是根据医生的经验给出的,此方法对医生的经验要求较高,存在一定的危险。
[0003] 在临床医疗中,机器学习技术的引入,可以借助其强大的数据分析和建模能,有效地利用医院的历史数据来建立模型。在新来一个患者的时候,可以在不受外界干扰的情况下,客观地进行智能医疗决策或辅助医生决策,减少医生的主观误判。因此,利用机器学习技术领域预测连续性肾脏替代治疗过程中的肝素剂量是必要的。

发明内容

[0004] 为了克服已有技术中存在的不足,本发明目的是提供一种连续性肾脏替代治疗过程中肝素剂量的预测方法。该预测方法使用梯度提升回归模型等机器学习算法预测CRRT过程中的肝素剂量,能够根据训练出的模型,再经过对预测值的进一步处理,可以在CRRT过程中,给出合理可靠的肝素剂量参考值,辅助医生工作,提高手术质量,经济可靠。
[0005] 为了实现上述发明目的,解决已有技术中所存在的问题,本发明采用的技术方案是:一种连续性肾脏替代治疗过程中肝素剂量的预测方法,包括以下步骤:
[0006] 步骤1、安装相关软件及库,安装Sublime Text 3软件及一个开源的Python 3.5,另外安装科学计算基础库即numpy、数据分析库即pandas、2D绘图库即matplotlib和缺失数据可视化库即missingno,具体安装步骤为,在windows 10系统下,首先安装Python 3.5,按win+R键快速启动命令窗口,输入cmd,点击确定,输入pip install+所需要的库,按enter键,进行相关库的安装,pip install matplotlib,按enter键,进行matplotlib库的安装,然后下载Sublime Text3软件;
[0007] 步骤2、分析和了解由医院收集的数据集的相关信息,了解每个数据代表的含义及各自变量所占权重,分析自变量与目标变量即首剂剂量之间的关系,分析首剂剂量的类型,判断其是带分类标签的离散数据还是连续数据,以此作为选择回归模型还是分类模型的依据;
[0008] 步骤3、数据预处理,首先对完全相同的行数据进行去重,其次分析各属性的数值是不是存在缺失值的情况,如果存在缺失值,要先进行处理,常见的缺失值处理方法有:个案剔除法即Listwise  Deletion、均值替换法即Mean Imputation、热卡填充法即Hotdecking、聚类填充法即Clustering imputation、多重替代法即Multiple Imputation,然后采用z-score算法和范围缩放方法相结合的方式,对自变量进行标准化和归一化处理,z-score算法通过公式(1)进行描述,
[0009]
[0010] 式中x为样本的某一属性的值,u为该属性的均值,σ为该属性的标准差,X为标准化后的该属性值,范围缩放方法通过公式(2)进行描述,
[0011]
[0012] 式中min为该属性的最小值,max为该属性的最大值,Y为归一化后的该属性值;
[0013] 步骤4、特征提取,利用随机森林遗传算法相结合的方法进行特征提取,随机森林利用自助法重采样技术和节点随机分支技术,构建多棵决策树,通过投票得到最终分类结果,遗传算法是一种借鉴生物界自然选择和生物体遗传机制的随机搜索算法,其基本原理是进化机制和自然选择法则,其特点是采用简单的二进制编码技术表示复杂结构,即遗传算法中的个体由0和1组成,其中,对应个体为1的属性是要提取的属性,对应个体为0的属性是要舍弃的属性,选取18列属性做为自变量;
[0014] 步骤5、划分训练集和测试集及不平衡数据的处理,具体包括以下子步骤:
[0015] (a)利用机器学习技术领域中的10折交叉验证法划分训练集和测试集,具体做法为,将给定的数据集C,划分成k个大小相似的互斥子集,然后进行k次训练,每次训练将k-1个子集的并集作为训练集,余下的作为测试集,最终返回k个测试结果的均值,在10折交叉验证法中k取值为10;
[0016] (b)利用集成学习中的EasyEnsemble算法处理不平衡数据,具体做法为,从多数样本集中,进行n次有放回的随机采样,每次选取与少数类数目近似相等的样本集,于是得到n个样本集合,记作{S1,S2,...,Sn},然后将其中的每一个样本集合与少数类样本集合,结合组成n个样本集合,记作{C1,C2,...,Cn},之后用这n个样本集合分别进行训练和测试,得到n个模型,最后取由这n个模型预测出的值的均值;
[0017] 步骤6、模型预测及评估,在选择模型之前,先对首剂剂量取ln变换,具体做法是,用python语言np.log()对首剂剂量进行取ln变换,然后用np.exp()对预测出的首剂剂量进行逆变换,以此来保证数据的不变性,在选择模型时,分别对决策树回归模型和梯度提升回归模型进行训练,并采用平均绝对误差MAE、均方误差MSE和R2评估模型,这些评价指标分别用Python语言实现方式是:mean_absolute_error(y_test,y_pred),mean_squared_error(y_test,y_pred),clf.score(X_test,y_test),其中y_test为测试集的实际首剂剂量,y_pred为利用训练模型预测的首剂剂量,X_test为训练集的自变量,平均绝对误差MAE通过公式(3)进行描述,
[0018]
[0019] 均方误差MSE通过公式(4)进行描述,
[0020]
[0021] R2评估模型通过公式(5)进行描述,
[0022]
[0023] 式(3)、(4)和(5)中,n是测试集的样本集数量,yi是测试集的真实值,fi是测试集的预测值, 是测试集的均值,经验告诉我们,R2大于0.4时,模型拟合效果好,就可以采用此模型预测肝素剂量的首剂剂量,MSE和MAE的取值越小越好,决策树回归模型MSE的取值为0.045-0.095,MAE的取值为0.126-0.213,梯度提升回归模型MSE的取值为0.053-0.087,MAE的取值为0.166-0.212,在评价回归模型中,主要依据是R2评估模型,依据这些评价指标,通过对比决策树回归模型和梯度提升回归模型,最终选择梯度提升回归模型做为预测肝素剂量的首剂剂量模型;
[0024] 步骤7、预测值的异常值处理,对用梯度提升回归模型预测出的12个数值进行异常值处理,具体做法是,一、将异常值看作缺失值处理,常见的缺失值处理方法见步骤3,二、剔除异常数据,常用方法有,(1)拉依达准则,此算法适用于大数据样本集,(2)肖维勒准则,此算法适用于小数据样本集,(3)格拉布斯准则,此算法使用普遍,(4)狄克逊准则,此算法适用于小数据样本集。
[0025] 本发明有益效果是:一种连续性肾脏替代治疗过程中肝素剂量的预测方法,包括以下步骤:(1)安装相关软件及库,(2)分析和了解由医院收集的数据集的相关信息,(3)数据预处理,(4)特征提取,(5)划分训练集和测试集及不平衡数据的处理,(6)模型预测及评估,(7)预测值的异常值处理。与已有技术相比,本发明使用梯度提升回归模型等机器学习算法预测CRRT过程中肝素剂量,能够根据训练出的模型,再经过对预测值的进一步处理,可以在CRRT过程中,给出合理可靠的肝素剂量参考值,辅助医生工作,提高手术质量,经济可靠。附图说明
[0026] 图1是本发明方法步骤流程图
[0027] 图2是本发明缺失值处理图像图。
[0028] 图3是本发明10折交叉验证法的算法原理示意图。
[0029] 图4是本发明特征提取过程的示意图。

具体实施方式

[0030] 下面结合附图对本发明作进一步说明。
[0031] 如图1所示,一种连续性肾脏替代治疗过程中肝素剂量的预测方法,包括以下步骤:
[0032] 步骤1、安装相关软件及库,安装Sublime Text 3软件及一个开源的Python 3.5,另外安装科学计算基础库即numpy、数据分析库即pandas、2D绘图库即matplotlib和缺失数据可视化库即missingno,具体安装步骤为:在windows 10系统下,首先安装Python 3.5,按win+R键快速启动命令窗口,输入cmd,点击确定,输入pip install+所需要的库,按enter键,进行相关库的安装,pip install matplotlib,按enter键,进行matplotlib库的安装,然后下载Sublime Text3软件;
[0033] 步骤2、分析和了解由医院收集的数据集的相关信息,了解每个数据代表的含义及各自变量所占权重,分析自变量与目标变量即首剂剂量之间的关系,分析首剂剂量的类型,判断其是带分类标签的离散数据还是连续数据,以此作为选择回归模型还是分类模型的依据,由医院收集的数据集的相关信息如表1和表2示,其中:表1是CRRT过程中的各参数指标,表2是首剂肝素剂量不同剂量的统计表。
[0034] 表1
[0035]
[0036] 表2
[0037]
[0038] 本发明是利用表1中的前22列预测肝素剂量,也就是说本发明中的目标变量是首剂剂量,自变量是前22列。
[0039] 步骤3、数据预处理,首先对完全相同的行数据进行去重,其次分析各属性的数值是不是存在缺失值的情况,如果存在缺失值,要先进行处理,常见的缺失值处理方法有:个案剔除法即Listwise  Deletion、均值替换法即Mean Imputation、热卡填充法即Hotdecking、聚类填充法即Clustering imputation、多重替代法即Multiple Imputation。如图2所示,是本发明中缺失值处理图像,由图2可知本发明所用的数据集不存在缺失值,因此不需作缺失值处理,然后采用z-score算法和范围缩放方法相结合的方式,对自变量进行标准化和归一化处理,z-score算法通过公式(1)进行描述,
[0040]
[0041] 式中x为样本的某一属性的值,u为该属性的均值,σ为该属性的标准差,X为标准化后的该属性值,范围缩放方法通过公式(2)进行描述,
[0042]
[0043] 式中min为该属性的最小值,max为该属性的最大值,Y为归一化后的该属性值;
[0044] 步骤4、特征提取,利用随机森林和遗传算法相结合的方法进行特征提取,随机森林利用自助法重采样技术和节点随机分支技术,构建多棵决策树,通过投票得到最终分类结果,遗传算法是一种借鉴生物界自然选择和生物体遗传机制的随机搜索算法,其基本原理是进化机制和自然选择法则,其特点是采用简单的二进制编码技术表示复杂结构,即遗传算法中的个体由0和1组成。如图4所示,其中,对应个体为1的属性是要提取的属性,对应个体为0的属性是要舍弃的属性,由图4可知,本发明选取18列属性做为自变量。
[0045] 步骤5、划分训练集和测试集及不平衡数据的处理,具体包括以下子步骤:
[0046] (a)利用机器学习技术领域中的10折交叉验证法划分训练集和测试集,具体做法为,将给定的数据集C,划分成k个大小相似的互斥子集,然后进行k次训练,每次训练将k-1个子集的并集作为训练集,余下的作为测试集,最终返回k个测试结果的均值,在10折交叉验证法中k取值为10;
[0047] (b)利用集成学习中的EasyEnsemble算法处理不平衡数据,具体做法为,从多数样本集中,进行n次有放回的随机采样,每次选取与少数类数目近似相等的样本集,于是得到n个样本集合,记作{S1,S2,...,Sn},然后将其中的每一个样本集合与少数类样本集合,结合组成n个样本集合,记作{C1,C2,...,Cn},之后用这n个样本集合分别进行训练和测试,得到n个模型,最后取由这n个模型预测出的值的均值;
[0048] 步骤6、模型预测及评估,在选择模型之前,先对首剂剂量取ln变换,具体做法是,用python语言np.log()对首剂剂量进行取ln变换,然后用np.exp()对预测出的首剂剂量进行逆变换,以此来保证数据的不变性,在选择模型时,分别对决策树回归模型和梯度提升回归模型进行训练,并采用平均绝对误差MAE、均方误差MSE和R2评估模型,这些评价指标分别用Python语言实现方式是:mean_absolute_error(y_test,y_pred),mean_squared_error(y_test,y_pred),clf.score(X_test,y_test),其中y_test为测试集的实际首剂剂量,y_pred为利用训练模型预测的首剂剂量,X_test为训练集的自变量,平均绝对误差MAE通过公式(3)进行描述,
[0049]
[0050] 均方误差MSE通过公式(4)进行描述,
[0051]
[0052] R2评估模型通过公式(5)进行描述,
[0053]
[0054] 式(3)、(4)和(5)中,n是测试集的样本集数量,yi是测试集的真实值,fi是测试集的预测值, 是测试集的均值,实验结果如表3和表4所示,表3是梯度提升回归模型评价指标,表4是决策树回归模型评价指标,经验告诉我们,R2大于0.4时,模型拟合效果好,就可以采用此模型预测肝素剂量的首剂剂量,MSE和MAE的取值越小越好,决策树回归模型MSE的取值为0.045-0.095,MAE的取值为0.126-0.213,梯度提升回归模型MSE的取值为0.053-0.087,MAE的取值为0.166-0.212,在评价回归模型中,主要依据是R2评估模型,依据这些评价指标,通过对比决策树回归模型和梯度提升回归模型,最终选择梯度提升回归模型做为预测肝素剂量的首剂剂量模型;
[0055] 表3
[0056]
[0057] 表4
[0058]
[0059] 步骤7、预测值的异常值处理,对用梯度提升回归模型预测出的12个数值进行异常值处理,具体做法是,一、将异常值看作缺失值处理,常见的缺失值处理方法见步骤3,二、剔除异常数据,常用方法有,(1)拉依达准则,此算法适用于大数据样本集,(2)肖维勒准则,此算法适用于小数据样本集,(3)格拉布斯准则,此算法使用普遍,(4)狄克逊准则,此算法适用于小数据样本集。
[0060] 本发明优点在于:一种连续性肾脏替代治疗过程中肝素剂量的预测方法,能够根据训练出的模型,再经过对预测值的进一步处理,可以在CRRT过程中,给出合理可靠的肝素剂量参考值,辅助医生工作,提高手术质量,经济可靠。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈