首页 / 专利库 / 林业机械与工程 / 森林健康 / 一种心血管疾病非计划再住院风险预测方法

一种心血管疾病非计划再住院险预测方法

阅读:937发布:2020-05-18

专利汇可以提供一种心血管疾病非计划再住院险预测方法专利检索,专利查询,专利分析的服务。并且本 发明 提供了一种心 血管 疾病 非计划再住院 风 险预测方法,基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,应用基于 深度神经网络 的多模型集成 算法 ,构建非计划再住院风险 预测模型 。本发明可以准确分析外部环境变化对患者非计划再住院的影响,同时应用 文本挖掘 技术提取非结构化数据的关键信息,全面挖掘患者健康影响因子。本发明解决了 现有技术 中缺乏外部环境变化对患者健康的影响分析、非结构化数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心 血管疾病 患者非计划再住院的预测准确性。,下面是一种心血管疾病非计划再住院险预测方法专利的具体信息内容。

1.一种心血管疾病非计划再住院险预测方法,其特征在于,包括如下步骤:
S1、获取与患者健康相关的结构化数据以及非结构化数据;
S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合;
S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵;
S4、根据所述分词处理后的文本数据构建LAD主题模型,并根据所述LAD主题模型以及词频矩阵计算患者的特征向量
S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险。
2.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S1中所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;
所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。
3.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S2具体为:
根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。
4.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S3中对所述文本数据进行文本分词处理包括如下步骤:
S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;
S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;
S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。
5.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S4包括如下步骤:
S401、根据所述分词处理后的文本数据构建LAD主题模型;
S402、根据所述分词处理后的文本数据利用所述LAD主题模型以及困惑度计算得到最优主题模型数;
S403、将所述最优主题模型数输入至所述LAD主题模型进行训练,得到训练后的LAD主题模型;
S404、根据所述训练后的LAD主题模型以及词频矩阵计算患者的特征向量。
6.根据权利要求5所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S403中训练后的LAD主题模型Topicu的表达式为:
Topicu=αu1*wordu1+…+αuv*worduv+…+αuq*worduq
其中,u为第u个主题模型,αuv为主题模型中关键词worduv的权重,v=1,2,...q,q为构成主题模型的关键词数量,worduv表示主题模型中的关键词。
7.根据权利要求1所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S5包括如下步骤:
S501、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述的患者特征向量获取交叉验证数据子集;
S502、根据所述交叉验证数据子集利用逻辑回归算法LR、支持向量机算法SVM、朴素贝叶斯算法NB、随机森林算法RF以及极端梯度提升算法XGBoost五种算法构建第一阶段分类预测模型,并根据所述第一阶段分类预测模型分别得到第一阶段分类预测模型的再住院风险预测结果;
S503、根据患者的ID合并所述第一类阶段分类预测结果及患者的再住院标签集合,形成新的数据集;
S504、利用所述新的数据集构建深度神经网络模型,并通过5折交叉验证优化深度神经网络模型的参数,得到训练后的深度神经网络模型;
S505、将所述新的数据集输入至所述训练后的深度神经网络模型,并根据所述训练后的深度神经网络模型输出心血管疾病患者非计划再住院风险的预测值。
8.根据权利要求7所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S501包括如下步骤:
S5011、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量构建数据集D;
S5012、将所述数据集D划分为5个独立同分布的数据子集Dk={Xk,Yk},从而获取交叉验证数据子集,其中,Xk为患者的特征集合,Yk为患者的再住院标签集合,k为数据子集的个数,且k=1,2,...5。
9.根据权利要求7所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述步骤S504中的构建深度神经网络模型包括定义所述深度神经网络模型的目标函数以及所述深度神经网络模型的激活函数。
10.根据权利要求9所述的心血管疾病非计划再住院风险预测方法,其特征在于,所述深度神经网络模型的目标函数J(W,b)的表达式如下:
其中,λ为正则项系数,x′r为患者的特征,yr为患者的再住院标签,m为样本量,nl为神经网络层数,sl为在l层的神经元数量,W和b均为深度神经网络模型的参数,且和 为连接第l-1层神经元j与第l层神经元i的关
联权重,且j=1,2,…,sl-1,i=1,2,…,sl l=2,3,…,nl, 为第l层神经元i的偏倚,hW,b表示激活函数;
所述深度神经网络输出层的激活函数hW,b(x′)的表达式如下:
其中, 为第nl层第i个神经元的输出,f(·)为激活函数, 为连接第nl-2层神经元sl-1与第nl-1层神经元i的关联权重, 为第nl-1层神经元i的偏倚。

说明书全文

一种心血管疾病非计划再住院险预测方法

技术领域

[0001] 本发明属于风险预测技术领域,尤其涉及一种心血管疾病非计划再住院风险预测方法。

背景技术

[0002] 统计数据显示,心血管疾病是全球的头号死因。心血管疾病严重威胁人类健康,特别是50岁以上中老年人健康,具有高患病率、高致残率和高死亡率的特点。心血管疾病的预后管理已成为医学界和专家学者的重要研究方向,也是精准医疗的一个重要研究内容。
[0003] 非计划再住院风险预测作为精准医疗的一个重要研究内容,是衡量医疗质量的重要依据。非计划再住院是指病人出院31天内因相同疾病或相关疾病非计划再入院。精准预测心血管疾病患者的非计划再住院风险,有利于患者及医生提前采取预防措施,针对性地调整康复项目,提升康复效果。结合医疗健康大数据的特点及非计划再入院风险预测研究基础,目前工作还存在一些问题有待研究,主要体现在以下几个方面:(1)心血管疾病的复发除了与患者自身特征相关,还与外界环境息息相关;(2)医疗健康大数据包含大量非结构化数据,如影像信息、文本信息,对这部分的信息挖掘不足;(3)非计划再住院分类样本具有非平衡性,需采用更有效的机器学习算法,提升对非平衡样本的预测准确率。
[0004] 鉴于此,本发明将探索外部环境变化对心血管疾病患者非计划再住院风险的影响,挖掘非结构化数据的深层信息,运用混合集成学习算法构建非计划再住院风险预测模型,提升非平衡性分类样本的预测准确率。

发明内容

[0005] 针对现有技术中的上述不足,本发明提供的一种心血管疾病非计划再住院风险预测方法解决了现有技术中缺乏外部环境变化对患者健康的影响分析、非结构化数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心血管疾病患者非计划再住院的预测准确性。
[0006] 为了达到以上目的,本发明采用的技术方案为:
[0007] 本方案提供一种心血管疾病非计划再住院风险预测方法,包括如下步骤:
[0008] S1、获取与患者健康相关的结构化数据以及非结构化数据;
[0009] S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合;
[0010] S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵;
[0011] S4、根据所述分词处理后的文本数据构建LAD主题模型,并根据所述LAD主题模型以及词频矩阵计算患者的特征向量
[0012] S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险。
[0013] 进一步地,所述步骤S1中所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;
[0014] 所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。
[0015] 再进一步地,所述步骤S2具体为:
[0016] 根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。
[0017] 再进一步地,所述步骤S3中对所述文本数据进行文本分词处理包括如下步骤:
[0018] S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;
[0019] S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;
[0020] S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。
[0021] 再进一步地,所述步骤S4包括如下步骤:
[0022] S401、根据所述分词处理后的文本数据构建LAD主题模型;
[0023] S402、根据所述分词处理后的文本数据利用所述LAD主题模型以及困惑度计算得到最优主题模型数;
[0024] S403、将所述最优主题模型数输入至所述LAD主题模型进行训练,得到训练后的LAD主题模型;
[0025] S404、根据所述训练后的LAD主题模型以及词频矩阵计算患者的特征向量。
[0026] 再进一步地,所述步骤S403中训练后的LAD主题模型Topicu的表达式为:
[0027] Topicu=αu1*wordu1+…+αuv*worduv+…+αuq*worduq
[0028] 其中,u为第u个主题模型,αuv为主题模型中关键词worduv的权重,v=1,2,...q,q为构成主题模型的关键词数量,worduv表示主题模型中的关键词。
[0029] 再进一步地,所述步骤S5包括如下步骤:
[0030] S501、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述的患者特征向量获取交叉验证数据子集;
[0031] S502、根据所述交叉验证数据子集利用逻辑回归算法LR、支持向量机算法SVM、朴素贝叶斯算法NB、随机森林算法RF以及极端梯度提升算法XGBoost五种算法构建第一阶段分类预测模型,并根据所述第一阶段分类预测模型分别得到第一阶段分类预测模型的再住院风险预测结果;
[0032] S503、根据患者的ID合并所述第一类阶段分类预测结果及患者的再住院标签集合,形成新的数据集;
[0033] S504、利用所述新的数据集构建深度神经网络模型,并通过5折交叉验证优化深度神经网络模型的参数,得到训练后的深度神经网络模型;
[0034] S505、将所述新的数据集输入至所述训练后的深度神经网络模型,并根据所述训练后的深度神经网络模型输出心血管疾病患者非计划再住院风险的预测值。
[0035] 再进一步地,所述步骤S501包括如下步骤:
[0036] S5011、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量构建数据集D;
[0037] S5012、将所述数据集D划分为5个独立同分布的数据子集Dk={Xk,Yk},从而获取交叉验证数据子集,其中,Xk为患者的特征集合,Yk为患者的再住院标签集合,k为数据子集的个数,且k=1,2,...5。
[0038] 再进一步地,所述步骤S504中的构建深度神经网络模型包括定义所述深度神经网络模型的目标函数以及所述深度神经网络模型的激活函数。
[0039] 再进一步,所述深度神经网络模型的目标函数J(W,b)的表达式如下:
[0040]
[0041] 其中,λ为正则项系数,xr′为患者的特征,yr为患者的再住院标签,m为样本量,nl为神经网络层数,sl为在l层的神经元数量,W和b均为深度神经网络模型的参数,且和 为连接第l-1层神经元j与第l层神经元i的关联权重,且j=1,2,…,sl-1,i=1,2,…,sl l=2,3,…,nl, 为第l层神经元i的偏倚,hW,b表示激活函数;
[0042] 所述深度神经网络输出层的激活函数hW,b(x′)的表达式如下:
[0043]
[0044] 其中, 为第nl层第i个神经元的输出,f(·)为激活函数, 为连接第nl-2层神经元sl-1与第nl-1层神经元i的关联权重, 为第nl-1层神经元i的偏倚。
[0045] 本发明的有益效果:
[0046] (1)本发明基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,构建非计划再住院风险预测模型,准确分析外部环境变化对患者非计划再住院的影响,同时应用文本挖掘技术提取电子病历非结构化数据的关键信息,全面挖掘患者健康影响因子;
[0047] (2)本发明构建Bi-LSTM-CRF模型,捕获文本中词的上下文语义关系,同时学习标签间的顺序性,提升文本信息分词的准确性;
[0048] (3)本发明运用主题模型LDA,对潜在主题分类的相关特征进行分析和甄别,确定相关主题,将文本信息转化为机器学习算法能识别的特征向量,同时降低了特征的稀疏性;
[0049] (4)本发明构建基于深度神经网络的多模型集成算法,有助于提升非平衡分类样本的预测准确率和样本外推广能附图说明
[0050] 图1为本发明的方法流程图
[0051] 图2为本实施例中文本分词的流程图。
[0052] 图3为本实施例中利用LDA主题模型对所述分词处理后的文本数据的流程图。
[0053] 图4为本实施例中基于深度神经网络的多模型集成算法流程图。

具体实施方式

[0054] 下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0055] 实施例
[0056] 本发明基于与患者健康相关的结构化数据以及非结构化数据构成的多源异构医疗健康数据,构建非计划再住院风险预测模型。本发明分析外部环境变化对心血管疾病患者非计划再住院风险的影响,挖掘非结构化数据的深层信息,运用基于深度神经网络的多模型集成算法构建非计划再住院风险预测模型,提升非平衡分类样本的预测准确率。
[0057] 如图1所示,本发明公开了一种心血管疾病非计划再住院风险预测方法,其实现方法如下:
[0058] S1、获取与患者健康相关的结构化数据以及非结构化数据,其中,
[0059] 所述与患者健康相关的结构化数据包括:与患者相关的人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息以及患者所处的外部环境信息;
[0060] 所述与患者健康相关的非结构化数据包括:与患者相关的医嘱、病程进展以及影像信息的检查结果。
[0061] 在具体实施例中,本发明基于与患者相关的结构化数据以及文本数据构成的多源异构医疗健康数据,其具体如下:
[0062] (1)获取与患者健康相关的结构化数据:
[0063] 针对患者个体,提取与患者健康相关的结构化数据,包括:人口统计信息、常规检查信息、临床诊疗信息、药物治疗信息、家族史信息。针对患者所处外部环境,提取与患者健康相关的结构化数据,包括:气象信息,如平均温度相对湿度;空气污染信息,如PM2.5、PM10、SO2、NO2、O3、CO浓度。根据人群在室外暴露情况不同,选择交通高峰期的空气污染物平均浓度作为衡量患者所处外部环境的空气污染情况,即选择各空气污染物在时间段07:00--09:00、11:00--13:00、17:00--19:00的平均值作为当天的空气污染物浓度。
[0064] (2)获取与患者健康相关的非结构化数据:
[0065] 在具体实施例中,获取与心血管疾病相关的非结构化数据,包括影像信息、医嘱、病程进展等。影像信息,如超声心动图、放射性核素心肌显像、选择性冠状动脉造影和冠状动脉血管镜等检查,提取影像信息的诊断结果,该信息主要采用自然语言文字描述,因此,本发明的非结构化数据主要指文本数据。
[0066] S2、根据患者的ID、入院时间、出院时间以及出院主诊断构建患者的再住院标签集合,具体为:
[0067] 根据患者的ID、入院时间、出院时间以及出院主诊断判断患者第t次因心血管疾病住院与第t+1次因心血管疾病住院的入院时间间隔是否小于31天,若是,则该患者的第t次非计划再住院标签为1,否则该患者的第t次非计划再住院标签为0,从而完成对患者再住院标签集合的构建。
[0068] 在具体实施例中,基于心血管疾病患者住院记录时间序列,对每个患者是否因心血管疾病31天内再住院打标签。对患者a的na条住院记录xa,t表示患者a的第t次住院记录,若患者第t次因心血管疾病住院,第t+1次也因心血管疾病住院,且第t次的出院时间与第t+1次的入院时间间隔小于31天,则该患者的第t次非计划再住院标签为1,否则,患者的非计划再住院标签为0,患者前t次住院记录作为非计划再住院风险预测模型特征集合。
[0069] S3、利用文本分词模型Bi-LSTM-CRF对所述非结构化数据的文本数据进行文本分词处理,并根据所述分词处理后的文本数据生成词频矩阵,如图2所示,其实现方法如下:
[0070] S301、利用双向长短期记忆网络模型Bi-LSTM对所述非结构化数据的文本数据进行处理,得到初始文本分词标签;
[0071] S302、将所述初始文本分词标签输入至条件随机场模型CRF进行学习得到所述文本分词标签的状态转移矩阵;
[0072] S303、利用维特比算法Viterbi对所述状态转移矩阵进行解码,输出文本分词标签序列,从而完成对所述文本数据的分词处理。
[0073] 在具体实施例中,电子病例中的文本数据通常为短语或句子,不能直接作为特征输入再住院风险预测模型中。针对患者文本数据,先通过中文分词技术提取关键信息,再构建主题模型,将文本数据转化为机器学习算法能识别的特征向量,并降低文本信息的稀疏性。为提升电子病例文本信息分词准确性,本发明构建了Bi-LSTM-CRF模型,双向长短期记忆网络模型(Bi-directional LongShort Term Memory,Bi-LSTM)能捕获到句子中一个词的上下文信息,而条件随机场模型(Conditional Random Fields,CRF)能学习到状态转移矩阵使输出标签时的抉择前后相互关联,从而网络结构能更好地理解语义并实现正确分词。
[0074] 在具体实施例中,输入患者电子病例文本信息,构建Bi-LSTM模型,使模型通过前向过程提取和后向过程提取学习文本的上下文信息,拼接模型输出的2个患者电子病例文本分词标签,得到隐藏状态序列。假设最开始的一层按照时间的顺序,接下来的一层按照时间的倒序顺序,在时刻为t的隐藏状态定义为 和 则有:
[0075]
[0076]
[0077]
[0078] 其中, 表示向量拼接操作,U(1)、V(1)、β(1)分别为隐藏状态 的可学习网络参数,U(2)、V(2)、β(2)分别为隐藏状态 的可学习网络参数,xt为患者电子病例文本信息当前时刻的输入。
[0079] 将Bi-LSTM模型输出的电子病例文本数据初始为分词标签,并连接到CRF模型,CRF将Bi-LSTM在每个t时刻在第c个标签上的输出作为特征函数中的点函数,使原本的CRF中引入非线性,通过Viterbi算法(维特比算法)快速对CRF学习到的状态转移矩阵解码,获得输出分词标签序列,Viterbi算法是目前应用最广的动态规划算法,利用动态规划,可以解决任何一个图中的最短路径问题。
[0080] S4、根据所述分词处理后的文本数据构建LAD主题模型,并根据所述LAD主题模型以及词频矩阵计算患者的特征向量,如图3所示,其实现方法如下:
[0081] S401、根据所述分词处理后的文本数据构建LAD主题模型;
[0082] S402、根据所述分词处理后的文本数据利用所述LAD主题模型以及困惑度计算得到最优主题模型数;
[0083] S403、将所述最优主题模型数输入至所述LAD主题模型进行训练,得到训练后的LAD主题模型;
[0084] S404、根据所述训练后的LAD主题模型以及词频矩阵计算患者的特征向量。
[0085] 在具体实施例中,鉴于电子病例文本信息分词结果存在严重的稀疏性,因此构建主题模型,将文本信息转化为机器学习算法能识别的特征向量,同时降低文本信息维度,主题模型从文本挖掘度,快速提取文本有效特征,发现和识别文档里的主题,挖掘语料里的隐藏信息。隐含狄利克雷分布模型(LatentDirichlet Allocation,LDA)是一种常用的主题模型,通过LDA主题模型,对文本进行语义分析,对潜在主题分类的相关特征进行分析和甄别,确定相关主题。将研究期间每个患者电子病例的文本信息分词结果作为一个文档,运用LDA模型计算文档之间的语义相似度,寻找字符间的语义主题。
[0086] 其中,所述训练后的LAD主题模型Topicu的表达式为:
[0087] Topicu=αu1*wordu1+…+αuv*worduv+…+αuq*worduq
[0088] 其中,u为第u个主题模型,αuv为主题模型中关键词worduv的权重,v=1,2,...q,q为构成主题模型的关键词数量,worduv表示主题模型中的关键词。
[0089] 最优主题模型数l通过LAD主题模型以及困惑度计算得到,其中,困惑度的计算公式为:
[0090]
[0091] 其中,M是语料库的大小,Nd为第d篇文本的大小,即单词个数,p(w)指训练集中每个词出现的概率,p(w)=p(z|d)*p(wz),p(z|d)表示一个文档中每个主题出现的概率,p(wz)表示词典中每一个词在某个主题下出现的概率。
[0092] S5、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述患者的特征向量,并利用基于深度神经网络的多模型集成算法预测心血管疾病患者非计划再住院风险,如图4所示,其实现方法如下:
[0093] S501、根据患者的ID合并所述患者的再住院标签集合、与患者健康相关的结构化数据以及所述的患者特征向量获取交叉验证数据子集;
[0094] S502、根据所述交叉验证数据子集利用逻辑回归算法LR、支持向量机算法SVM、朴素贝叶斯算法NB、随机森林算法RF以及极端梯度提升算法XGBoost五种算法构建第一阶段分类预测模型,并根据所述第一阶段分类预测模型分别得到第一阶段分类预测模型的再住院风险预测结果;
[0095] S503、根据患者的ID合并所述第一类阶段分类预测结果及患者的再住院标签集合,形成新的数据集;
[0096] S504、利用所述新的数据集构建深度神经网络模型,并通过5折交叉验证优化深度神经网络模型的参数,得到训练后的深度神经网络模型,其中,构建深度神经网络模型包括定义所述深度神经网络模型的目标函数以及所述深度神经网络模型的激活函数;
[0097] S505、将所述新的数据集输入至所述训练后的深度神经网络模型,并根据所述训练后的深度神经网络模型输出预测心血管疾病患者非计划再住院风险的预测值。
[0098] 在具体实施例中,心血管疾病患者的文本数据经Bi-LSTM-CRF模型、主题模型处理得到结构化数据,按患者ID合并患者的再住院标签集合、与患者相关的结构化数据,构成数据集D。将数据集D划分为5个独立同分布的子集{D1,D2,…,D5},其中,Dk={Xk,Yk},Xk为患者的特征集合,Yk为患者的再住院标签集合,k为数据子集的个数,且k=1,2,...5。
[0099] 在具体实施例中,选择以下五种分类算法作为第一阶段分类预测模型,即逻辑回归(Logistics Regression,LR)、支持向量机(Support Vector Machines,SVM)、朴素贝叶斯(Naive Bayes,NB)、随机森林算法(Random Forests,RF)、极端梯度提升算法(eXtreme Gradient Boosting,XGBoost)。给定数据子集{D1,D2,…,D5},选择其中4个子集作为训练集,另外1个子集作为测试集,基于训练集分别训练第一阶段分类预测模型LR、SVM、NB、RF、XGBoost参数,重复五次,得到最优第一阶段分类预测模型参数,将测试集输入训练后的第一阶段分类预测模型,从而得到第一阶段分类预测模型的再住院风险预测结果Zk={z1(Xk),z2(Xk),…,z5(Xk)},其中,Zk为二分类变量。合并预测结果Zk={z1(Xk),z2(Xk),…,z5(Xk)}和对应的患者标签集合Yk,形成新的数据集Dk′,作为深度神经网络模型的输入,其中,Dk′={Zk,Yk}。输入新数据集{D1′,D2′,…,D5′},构建深度神经网络(Deep Neural Networks,DNN),并通过5折交叉验证优化模型参数,最后输出患者非计划再住院风险预测结果。
[0100] 在具体实施例中,神经网络模型容易发生过拟合现象,而正则化可以防止过拟合,提高泛化能力。对新数据集{D1′,D2′,…,D5′},选择其中4个子集作为训练集,另外1个子集作为测试集,基于训练集训练深度神经网络模型的参数,重复5次,得到最优深度神经网络模型参数。新数据集的训练集记为{(x1′,y1),(x2′,y2),…,(x′m,ym)},其中,xr′为输入特征,yr为再住院标签,m为样本量,深度神经网络的目标函数定义为:
[0101]
[0102] 其中,第一项为均方误差项,第二项为正则化项,λ为正则项系数,权衡均方误差项与正则化项的比重,nl为神经网络层数,sl为在l层的神经元数量,W和b均为深度神经网络模型的参数,且 和 为连接第l-1层神经元j与第l层神经元i的关联权重,且j=1,2,…,sl-1,i=1,2,…,sl,l=2,3,…,nl, 为第l层神经元i的偏倚,hW,b表示激活函数。
[0103] 深度神经网络输出层hW,b(x′)定义为:
[0104] hW,b(x′)=f(WTx′+b)
[0105] 其中,f(·)为激活函数,在具体实施例中,采用Sigmoid函数作为激活函数,即[0106] 定义第l层第i个神经元的输出为 则:
[0107]
[0108] 对输入层L1,有
[0109] 因此,所述深度神经网络模型的激活函数hW,b(x′)可表示为:
[0110]
[0111] 其中, 为第nl层第i个神经元的输出,f(·)为激活函数, 为连接第nl-2层神经元sl-1与第nl-1层神经元i的关联权重, 为第nl-1层神经元i的偏倚。
[0112] 本发明通过以上设计可以准确分析外部环境变化对患者非计划再住院的影响,同时应用文本挖掘技术提取电子病历非结构化数据的关键信息,全面挖掘患者健康影响因子。本发明解决了现有技术中缺乏外部环境变化对患者健康的影响分析、文本数据信息挖掘不足以及非平衡分类样本预测准确率较低的问题,提升了心血管疾病患者非计划再住院的预测准确性。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈