首页 / 专利库 / 诊断设备和程序 / 红细胞压积 / 基于梯度迭代树的疾病预测模型建立方法及装置

基于梯度迭代树的疾病预测模型建立方法及装置

阅读:922发布:2020-05-27

专利汇可以提供基于梯度迭代树的疾病预测模型建立方法及装置专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于梯度 迭代 树的 疾病 预测模型 建立方法,包括:对采集的临床数据进行预处理,采用基本信息和血常规检测指标构造特征;基于GBDT 算法 构建第一预测模型,对第一预测模型的数据集标记标签,利用训练集训练第一预测模型,利用网格搜索进行参数调优,对第一预测模型进行优化,所述第一预测模型用于预测疾病和健康;基于GBDT算法构建第二预测模型,对第二预测模型的数据集标记标签,利用训练集训练第二预测模型,利用网格搜索进行参数调优,对第二预测模型进行优化,所述第二预测模型用于预测具体病种。可以对数据快速标记标签,得到的疾病预测模型的预测准确率高,预测时间短。,下面是基于梯度迭代树的疾病预测模型建立方法及装置专利的具体信息内容。

1.一种基于梯度迭代树的疾病预测模型建立方法,其特征在于,包括以下步骤:
S01:对采集的临床数据进行预处理,采用基本信息和血常规检测指标构造特征;
S02:基于GBDT算法构建第一预测模型,对第一预测模型的数据集标记标签,利用训练集训练第一预测模型,利用网格搜索进行参数调优,对第一预测模型进行优化,所述第一预测模型用于预测疾病和健康;
S03:基于GBDT算法构建第二预测模型,对第二预测模型的数据集标记标签,利用训练集训练第二预测模型,利用网格搜索进行参数调优,对第二预测模型进行优化,所述第二预测模型用于预测具体病种。
2.根据权利要求1所述的基于梯度迭代树的疾病预测模型建立方法,其特征在于,所述临床数据包括患病者的医疗数据和健康者的体检数据,所述医疗数据包括患者入院前的诊检查数据、治疗期间的检查数据以及出院检查数据。
3.根据权利要求1所述的基于梯度迭代树的疾病预测模型建立方法,其特征在于,所述步骤S01中的预处理包括以下步骤:
S11:将不同类型的数据转化为同一类型;
S12:删除数据缺失值大的数据样本,将缺失值分别进行平均值填充;
S13:根据业务场景和规则识别异常点,并将异常点删除;
S14:将数据按照一定的比例进行整合,生成完整的数据集。
4.根据权利要求1所述的基于梯度迭代树的疾病预测模型建立方法,其特征在于,所述步骤S02中的特征包括:
性别、年龄、白细胞计数、红细胞计数、平均血红蛋白浓度、单核细胞计数、红细胞压积、中性粒细胞计数、红细胞平均体积、血小板计数、血红蛋白、淋巴细胞计数、淋巴细胞百分比、单核细胞百分比、中性粒细胞百分比、红细胞分布宽度、嗜性粒细胞百分比、平均血红蛋白、嗜酸性粒细胞计数、嗜碱性粒细胞计数、嗜酸性粒细胞百分比、平均血小板体积、血小板压积、血小板分布宽度。
5.根据权利要求1所述的基于梯度迭代树的疾病预测模型建立方法,其特征在于,所述第一预测模型和第二预测模型的损失函数为:
L(y,f(x))=log(1+exp(-yf(x)))
其中y为真实结果,y∈{-1,+1},f(x)为预测函数,则第t轮的第i个样本的负梯度误差为:
对于生成的决策树,回归树t的叶子节点j的最佳残差拟合值为:
其中,Rij为叶子节点集合;不断更新,得到最终的第一预测模型和第二预测模型。
6.一种基于梯度迭代树的疾病预测方法,其特征在于,采用权利要求1-5中任一项所述的疾病预测模型建立方法生成的第一预测模型和第二预测模型串联在一起,对疾病数据进行处理,得出预测结果。
7.一种基于梯度迭代树的疾病预测模型建立装置,其特征在于,包括:
第一处理单元,对采集的临床数据进行预处理,采用基本信息和血常规检测指标构造特征;
第一构建单元,基于GBDT算法构建第一预测模型,对第一预测模型的数据集标记标签,利用训练集训练第一预测模型,利用网格搜索进行参数调优,对第一预测模型进行优化,所述第一预测模型用于预测疾病和健康;
第二构建单元,基于GBDT算法构建第二预测模型,对第二预测模型的数据集标记标签,利用训练集训练第二预测模型,利用网格搜索进行参数调优,对第二预测模型进行优化,所述第二预测模型用于预测具体病种。
8.一种基于梯度迭代树的疾病预测装置,其特征在于,包括:
采用权利要求7所述的疾病预测模型建立装置生成第一预测模型和第二预测模型;
疾病预测单元:将第一预测模型和第二预测模型串联在一起,对疾病数据进行处理,得出预测结果。

说明书全文

基于梯度迭代树的疾病预测模型建立方法及装置

技术领域

[0001] 本发明涉及机器学习算法数据处理技术领域,具体地涉及一种基于梯度迭代树的疾病预测模型建立方法。

背景技术

[0002] 疾病预测是目前一个非常重要的课题,通过对医疗数据进行分析,得出预测模型,可以更好的对疾病数据进行利用,帮助医生和个人进行疾病判断。目前采用的数据建模方法主要为有监督学习方法,即根据已知的用例进行数据建模,并利用模型对未标记的数据进行标记。然而主要存在以下缺陷
[0003] 1、有监督学习方法一般对有标签数据进行数据建模,但现在有效数据量非常有限,而海量的无标签数据数目庞大,造成许多的数据模型并未很好的拟合数据甚至过拟合数据。
[0004] 2、现有的预测模型预测疾病的准确率较低。

发明内容

[0005] 针对上述存在的技术问题,本发明目的是:提供了一种基于梯度迭代树的疾病预测模型建立方法,可以对数据快速标记标签,得到的疾病预测模型的预测准确率高,预测时间短。
[0006] 本发明的技术方案是:
[0007] 一种基于梯度迭代树的疾病预测模型建立方法,包括以下步骤:
[0008] S01:对采集的临床数据进行预处理,采用基本信息和血常规检测指标构造特征;
[0009] S02:基于GBDT算法构建第一预测模型,对第一预测模型的数据集标记标签,利用训练集训练第一预测模型,利用网格搜索进行参数调优,对第一预测模型进行优化,所述第一预测模型用于预测疾病和健康;
[0010] S03:基于GBDT算法构建第二预测模型,对第二预测模型的数据集标记标签,利用训练集训练第二预测模型,利用网格搜索进行参数调优,对第二预测模型进行优化,所述第二预测模型用于预测具体病种。
[0011] 优选的技术方案中,所述临床数据包括患病者的医疗数据和健康者的体检数据,所述医疗数据包括患者入院前的诊检查数据、治疗期间的检查数据以及出院检查数据。
[0012] 优选的技术方案中,所述步骤S01中的预处理包括以下步骤:
[0013] S11:将不同类型的数据转化为同一类型;
[0014] S12:删除数据缺失值大的数据样本,将缺失值分别进行平均值填充;
[0015] S13:根据业务场景和规则识别异常点,并将异常点删除;
[0016] S14:将数据按照一定的比例进行整合,生成完整的数据集。
[0017] 优选的技术方案中,所述步骤S02中的特征包括:
[0018] 性别、年龄、白细胞计数、红细胞计数、平均血红蛋白浓度、单核细胞计数、红细胞压积、中性粒细胞计数、红细胞平均体积、血小板计数、血红蛋白、淋巴细胞计数、淋巴细胞百分比、单核细胞百分比、中性粒细胞百分比、红细胞分布宽度、嗜性粒细胞百分比、平均血红蛋白、嗜酸性粒细胞计数、嗜碱性粒细胞计数、嗜酸性粒细胞百分比、平均血小板体积、血小板压积、血小板分布宽度。
[0019] 优选的技术方案中,所述第一预测模型和第二预测模型的损失函数为:
[0020] L(y,f(x))=log(1+exp(-yf(x)))
[0021] 其中y为真实结果,y∈{-1,+1},f(x)为预测函数,则第t轮的第i个样本的负梯度误差为:
[0022]
[0023] 对于生成的决策树,回归树t的叶子节点j的最佳残差拟合值为:
[0024]
[0025] 其中,Rij为叶子节点集合;不断更新,得到最终的第一预测模型和第二预测模型。
[0026] 本发明还公开了一种基于梯度迭代树的疾病预测方法,采用疾病预测模型建立方法生成的第一预测模型和第二预测模型串联在一起对疾病数据进行处理,得出预测结果。
[0027] 本发明又公开了一种基于梯度迭代树的疾病预测模型建立装置,包括:
[0028] 第一处理单元,对采集的临床数据进行预处理,采用基本信息和血常规检测指标构造特征;
[0029] 第一构建单元,基于GBDT算法构建第一预测模型,对第一预测模型的数据集标记标签,利用训练集训练第一预测模型,利用网格搜索进行参数调优,对第一预测模型进行优化,所述第一预测模型用于预测疾病和健康;
[0030] 第二构建单元,基于GBDT算法构建第二预测模型,对第二预测模型的数据集标记标签,利用训练集训练第二预测模型,利用网格搜索进行参数调优,对第二预测模型进行优化,所述第二预测模型用于预测具体病种。
[0031] 本发明又公开了一种基于梯度迭代树的疾病预测装置,包括:
[0032] 采用疾病预测模型建立装置生成第一预测模型和第二预测模型;
[0033] 疾病预测单元:将第一预测模型和第二预测模型串联在一起,对疾病数据进行处理,得出预测结果。
[0034] 与现有技术相比,本发明的优点是:
[0035] 可以对数据快速标记标签,得到完整的数据集。将多种预测模型串联在一起使得预测疾病的准确率大大高,而且可以预测具体的病种。此外该预测模型处理数据非常高效,预测时间短。附图说明
[0036] 下面结合附图及实施例对本发明作进一步描述:
[0037] 图1为本发明的方法的流程图
[0038] 图2为本发明实施例的处理流程图。

具体实施方式

[0039] 以下结合具体实施例对上述方案做进一步说明。应理解,这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整,未注明的实施条件通常为常规实验中的条件。
[0040] 实施例:
[0041] 如图1所示,一种基于梯度迭代树的疾病预测模型建立方法,包括以下步骤:
[0042] S01:对采集的临床数据进行预处理,采用基本信息和血常规检测指标构造特征;
[0043] S02:基于GBDT算法构建第一预测模型,对第一预测模型的数据集标记标签,利用训练集训练第一预测模型,利用网格搜索进行参数调优,对第一预测模型进行优化,所述第一预测模型用于预测疾病和健康;
[0044] S03:基于GBDT算法构建第二预测模型,对第二预测模型的数据集标记标签,利用训练集训练第二预测模型,利用网格搜索进行参数调优,对第二预测模型进行优化,所述第二预测模型用于预测具体病种。
[0045] 本实施例的疾病的具体病种以冠心病为例进行说明。
[0046] 本实施例采集中国东部长三地区冠心病患者、健康体检者以及其他疾病患者共计16860例,其中冠心病患者5060例,健康体检者5051例,其他疾病患者5075例。
[0047] 如图2所示,本发明具体步骤包括,临床数据采集、临床数据预处理、特征工程,然后根据标签将数据归并为健康集、患病集、冠心病集和其它疾病集等,接下来进行机器学习算法模型训练、模型评估以及特征重要度以及相关性分析。
[0048] 临床数据采集:针对目标人群,从相关信息系统收集冠心病患者的医疗数据,其中包括患者入院前的门诊检查数据、治疗期间的检查数据以及出院检查数据。另外采集了健康人群的健康体检数据以及其他疾病患者的检查数据。这些数据涵盖了患者的基本信息、检测检验、诊断数据等。
[0049] 临床数据预处理:由于采集来的医疗数据通常情况下具有纬度高、稀疏度大、数据类型多样等特点,所以需要进行数据的预处理。具体步骤如下:
[0050] a.数据类型转化,针对不同类型的数据转化为同一类型,其中包括将性别数据中的“男”转化为1,“女”转化为0。
[0051] b.数据标记,原始数据分为三类:冠心病患者数据、其他疾病患者数据以及健康人群数据,分别标记为“1”、“-1”、“0”。
[0052] c.数据缺失值处理,由于采集的医疗数据稀疏度较高,因此先将缺失程度大的数据样本进行删除,以提高数据的有效性。再将缺失值分别进行平均值填充,将冠心病患者的数据平均值填充到冠心病患者样本缺失处,将其他疾病患者的数据平均值填充到其他疾病患者样本缺失处,将健康人群的数据平均值填充到健康人群样本缺失处。
[0053] d.异常点删除,数据在产生或者传输的过程中会产生异常的情况,结合业务场景和特定的规则进行识别,并将异常点删除。
[0054] e.数据整合,经过上述步骤,剩余数据总计15033条。为了保证训练数据的平衡性,分别从冠心病患者数据、其他疾病患者数据以及健康人群数据中随机抽取5000条数据,以1:1:1的比例进行数据的整合,生成完整数据集。
[0055] 特征工程:在数据缺失值未被填充前统计各特征的缺失程度,由于健康人群进行的是健康体检,导致健康人群数据完整度最高的特征为血常规22 项检测指标,其他数据大多缺失,因此采用基本信息和血常规检测指标构造特征,特征包括:性别、年龄、白细胞计数、红细胞计数、平均血红蛋白浓度、单核细胞计数、红细胞压积、中性粒细胞计数、红细胞平均体积、血小板计数、血红蛋白、淋巴细胞计数、淋巴细胞百分比、单核细胞百分比、中性粒细胞百分比、红细胞分布宽度、嗜碱性粒细胞百分比、平均血红蛋白、嗜酸性粒细胞计数、嗜碱性粒细胞计数、嗜酸性粒细胞百分比、平均血小板体积、血小板压积、血小板分布宽度。当然不限于上述22项指标。
[0056] 实验模型分为两层,第一层为健康与患病二分类模型,第二层为冠心病与其他疾病二分类模型,利用Mathieu Blondel等人开发的sklearn库进行模型训练的实现,具体过程如下:
[0057] a.第一层模型数据集标记:
[0058] 对整合好的15000条数据进行标记,将健康人群样本标记为“-1”,将患病人群标记为“1”(包括冠心病患者以及其它疾病患者)。
[0059] b.第一层数据集分割:
[0060] 在已标记好的15000条数据中,健康人群5000条与随机抽取5000条患病人群合并为一个数据集,然后随机抽取其中70%的数据作为训练集训练模型,剩下的30%作为预测集用以模型效果评估。
[0061] c.第二层模型数据集标记:
[0062] 将整合好的15000条数据中的5000条健康人群数据剔除,将剩余10000 条数据中的冠心病患者样本标记为“1”,将其它疾病患者标记为“-1”。
[0063] d.第二层数据集分割:
[0064] 在已标记好的10000条数据中,随机抽取其中70%的数据作为训练集训练模型,剩下的30%作为预测集用以模型效果评估。
[0065] e.模型优化,模型对具体数据适应程度不同,因此利用网格搜索进行参数调优,使预测效果达到最优。
[0066] f.模型评估:为了综合评价模型的性能采用了诊断的正确率、灵敏度和特异度指标来衡量,这几个指标可以从不同角度反映诊断结果好坏。利用本模型诊断预测集得到的结果,该结果与已知的诊断结果进行对比,获得本诊断模型的正确率、灵敏度和特异度指标,这几个指标的具体含义如图和表所示。
[0067] 如下表为三种模型进行训练调优后得出的实验评估结果。
[0068] 第一层模型三种不同算法的性能指标比较:
[0069]模型 正确率 灵敏度 特异度
LR 84% 84% 83%
SVM 86% 87% 85%
GBDT 93% 93% 91%
[0070] 第二层模型三种不同算法的性能指标比较:
[0071]模型 正确率 灵敏度 特异度
LR 85% 84% 84%
SVM 88% 87% 86%
GBDT 91% 93% 90%
[0072] 三种模型无论从正确率、灵敏度还是特异度上来看,都是GBDT更胜一筹。
[0073] 在数据方面,SVM对数据更加敏感,很难找到一个合适的核函数,而 GBDT不需考虑这一问题。
[0074] 在拟合效果方面,GBDT是由弱分类器组合而成,不容易发生 overfitting,而LR容易underfitting。
[0075] 在效率方面,SVM费时最多,效率最低,GBDT效率最高。
[0076] 综上所述,两个模型均选择GBDT算法。
[0077] 对于二元GBDT,如果用类似于逻辑回归的对数损失函数,则损失函数为:
[0078] L(y,f(x))=log(1+exp(-yf(x)));
[0079] 其中y为真实结果,y∈{-1,+1},f(x)为预测函数,则第t轮的第i个样本的负梯度误差为:
[0080]
[0081] 对于生成的决策树,回归树t的叶子节点j的最佳残差拟合值为:
[0082]
[0083] 其中,Rij为叶子节点集合;不断更新,得到最终的第一预测模型和第二预测模型。
[0084] 利用网格搜索进行参数调优,其中GBDT在学习率learning_rate=0.23,最大迭代次数n_estimators=70时,预测效果达到最优。
[0085] GBDT在分类、回归等各种机器学习任务中都具有非常好的效果。它也在实践中被证明是一个很高效的模型,被广泛应用。
[0086] 将训练好的两个GBDT二分类模型串联在一起,便可以组合成健康、冠心病与其他疾病的三分类模型。当然也可以使用GBDT三分类模型直接进行训练和评估,但是考虑到便于分析分类有效的原因,将机器学习的黑盒子一程度的打开,获取血常规及其相关数据项的关联规律以进一步理解血常规检测数据的病理生理学意义,同时也便于将来扩展对其它疾病的分类评估,因此我们选择将两个GBDT二分类模型串联组成的三分类模型,实验结果表明两个GBDT二分类模型串联组成的三分类模型与GBDT三分类模型在分类效果上是大致相同的。
[0087] 在上述两个GBDT二分类模型中,其具体评估结果如下:
[0088]
[0089] 本发明将分类过程分解成两次二分类,将两种预测模型串联在一起,第一预测模型用于预测健康和患病,正确率达93%左右;第二预测模型用于预测患者是否为冠心病,正确率达91%左右。
[0090] 上述实例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈