首页 / 专利库 / 电脑零配件 / 手持设备 / 移动电话 / 一种基于风险因素概率组合分析的慢性疾病早期预警方法

一种基于险因素概率组合分析的慢性疾病早期预警方法

阅读:859发布:2020-05-08

专利汇可以提供一种基于险因素概率组合分析的慢性疾病早期预警方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 风 险因素概率组合分析的慢性 疾病 早期预警方法,包括以下步骤:收集数据,确定该慢性疾病的风险因素的基准组合RFx,确定对该慢性疾病影响最大的x个风险因素,进一步确定最佳的风险因素组合。本发明的有益之处在于:(1)综合考虑了生理 指征 、环境因素、病史记录、生活习惯等多维数据,与目前疾病模型的构建越来越趋向多维度的研究趋势相符;(2)数据集包含不同类型人的记录,实验结果非常具有代表性;(3)选取与慢性疾病相关的风险因素的概率组合方法,具有很好的通用性,并且可以推广到其他国家和地区;(4)对未来可能发展成慢性疾病的大部分患者给予预警,对 预防 和控制慢性疾病具有重要意义。,下面是一种基于险因素概率组合分析的慢性疾病早期预警方法专利的具体信息内容。

1.一种基于险因素概率组合分析的慢性疾病早期预警方法,其特征在于,包括以下步骤:
步骤1:收集数据
通过可穿戴技术收集某一慢性疾病患者和其亲属以及其他健康人的各种生理体征和各类可能与该慢性疾病有关的风险因素信息,并通过移动终端或电话线将收集的数据上传到端;
步骤2:确定该慢性疾病的风险因素的基准组合RFx
将可能与该慢性疾病有关的每个风险因素定义为rf,首先在可能与该慢性疾病有关的全部风险因素中随机取i个不同的风险因素进行组合,i=1,2,...,N,N是rf的总数,得到个集合,每个集合用 表示,j=1,...,i+1,然后求这 个集合的平均值,平均值用RFi表示, 最后针对不同的RFi对测试数据进行评估,绘出其ROC曲线,选择AUC较大且i较小的那一个集合作为该慢性疾病的风险因素的基准组合RFx;
步骤3:确定对该慢性疾病影响最大的x个风险因素
在确定了基准组合RFx之后,我们需要从 个集合 中找到最佳的那一个集合,针对不同的 对测试数据进行评估,绘出其ROC曲线,选择AUC最大的那一个
集合作为最佳的集合
步骤4:进一步确定最佳的风险因素组合
向最佳的集合 中逐个添加其他的风险因素,得到的新集合记为Rx+m,m=1,2,...,N-x,并计算ROC曲线的对数值,最终确定AUC最大的那一个新集合为最佳的风险因素组合。
2.根据权利要求1所述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤1中,所述生理体征包括:心率、血压和血糖。
3.根据权利要求1所述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤2和步骤3中,绘制ROC曲线时,灵敏度和1-特异性使用不同的阈值

说明书全文

一种基于险因素概率组合分析的慢性疾病早期预警方法

技术领域

[0001] 本发明涉及一种慢性疾病早期预警方法,具体涉及一种基于风险因素概率组合分析的慢性疾病早期预警方法,属于大数据人工智能应用技术领域。

背景技术

[0002] 世界卫生组织《2014年非传染性疾病国家概况》统计数据显示,慢性病已成为中国头号健康威胁,从2000年至2012年,我国肿瘤、II型糖尿病、心血管疾病这三种慢性病死亡总数达近700万,占所有死亡人数的70%,远高于全球平均占比(45%)。《柳叶刀》提出“中国主要的健康挑战是控制慢性病”。《柳叶刀》预测:如不积极应对,慢性病泛滥将对中国经济和社会产生巨大的负面影响。可见,慢性病已经成为一个重大的公共卫生问题,造成了相当高的发病率和死亡率。研究发现,如果能够提供慢性病的早期预警,通过改变生活方式和药物干预等,可以有效延缓慢性病的发展。因此,如何做好慢性病的早期预警成为亟待解决的问题。
[0003] 对疾病进展进行建模已经引起了学术界的广泛关注。现有的研究工作可大概分为两种:低层模型和高层模型,下面分别进行阐述。
[0004] 1、低层模型
[0005] 现有的大部分研究工作只是简单地模拟了影响疾病进展的各项生理变化指标,并且只集中于某种特定的疾病,如肾病、心脏病。Hiragi等人提出了基于肾功能的微观模拟,并设计了慢性肾病模型。文献Discrepancies between the Cockcroft-Gault and Chronic Kidney Disease Epidemiology(CKD-EPI)Equations:Implications for Refining Drug Dosage Adjustment Strategies(Delanaye P,Guerber F,Scheen A,et al.Clinical Pharmacokinetics,2017,56(2):193-205.)应用递归约束和区域控制的红细胞生成刺激性剂量,对慢性肾脏病贫血进行建模。Lausser等人利用生物功能基因组学的语义生物标记,构建了心衰竭模型。文献Data mining for censored time-to-event data:a Bayesian network model for predicting cardiovascular risk from electronic health record data(Sunayan B,Wolfson J,Vock D,et al.Data Mining and Knowledge Discovery,2015,29(4):1033-1069.)从细胞分析的度构建了心力衰竭模型。文献A study ofgeneralizability ofrecurrent neural network-based predictive models for heart failure onset  risk using  a large and heterogeneous EHR data set(Bekhet L,WuY,Wang N,et al.Journal ofBiomedical Informatics,2018,84:11-16.)基于递归神经网络,提出了心力衰竭发作风险模型。
[0006] 2、高层模型
[0007] 另外一部分研究工作从医学实践所观察到的“高层”入手,直接对疾病发展趋势以及不同并发症的相互作用进行建模。苗等人使用改进的随机存活森林,构建了心力衰竭患者的医院死亡率模型。文献Multiple disease risk assessment withuniform model based on medical clinical notes(Shi X,Hu Y,Zhang Y,et al.IEEE Access,2017,4(99):7074-7083.)提出了多疾病风险统一模型。Nozomi Nori等人开发了一种预测多种疾病死亡率的同步模型,将多种死亡率预测作为一项多任务问题来制定。文献Illness-death model in chronic disease epidemiology:characteristics of a related,differential equation and an inverse problem(Ralph B.Computational and Mathematical Methods in Medicine,2018,5091096:1-6.)提出了慢性病流行病学中的疾病-死亡模型。文献Searching for biomarkers ofchronic obstructive pulmonary disease using proteomics:The current state(Maddalena C,Salvini R,BardoniA,et al.Electrophoresis,2019,40(1):151-164.)利用电子健康档案的文本数据,构建慢性病预测模型。李等人提出了一种社会网络启发的乳腺癌分层预防风险评估模型。文献Disease progression timeline estimation for Alzheimer's disease using discriminative event basedmodeling(Vikram V,Esther E,Wiro J,et al.NeuroImage,2019,186:518-
532.)提出预测慢性病症状的建模方法。这些模型大多没有考虑数据样本的跨模态问题。
[0008] 综上,现有方法存在以下不足:
[0009] (i)这些模型仅限于某种特定疾病,而不能很好地处理具有不同病因的病症;
[0010] (ii)这些建模方法通常只限于单个条件,当包含大量条件时,建模系统的复杂性就会急剧增加,而实际上大多数疾病经常伴随和引起多种并发症;
[0011] (iii)只有那些已经充分研究和实证的疾病才可以较准确地设定模型中的自由参数。
[0012] 通过已有研究工作可知,疾病模型的构建越来越趋向多维度的考虑。我们都知道,海量的医疗数据具有实时高频、多源异构、关系复杂、个性随机等特点,这些特点使得及时发现异常、准确发出预警信号变得非常困难。
[0013] 目前,在医学领域,已经发现了疾病相似性的作用,即某个人与某类慢性病患者的风险因素(rf)相似性越大,则其患上该类慢性病的风险就越高。
[0014] 另外,研究发现,生活习惯、个人病史、精神压力等因素都和慢性病的发病概率息息相关。
[0015] 基于此,本发明旨在找到一组相关的风险因素,从而对某类慢性病的发病概率做出早期预警。

发明内容

[0016] 为解决现有技术的不足,本发明将医养健康与信息技术交叉融合,目的在于提供一种准确率较高、异常指标主动感知的基于风险因素概率组合分析的慢性疾病早期预警方法。
[0017] 为了实现上述目标,本发明采用如下的技术方案:
[0018] 一种基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,包括以下步骤:
[0019] 步骤1:收集数据
[0020] 通过可穿戴技术收集某一慢性疾病患者和其亲属以及其他健康人的各种生理体征和各类可能与该慢性疾病有关的风险因素信息,并通过移动终端或电话线将收集的数据上传到端;
[0021] 步骤2:确定该慢性疾病的风险因素的基准组合RFx
[0022] 将可能与该慢性疾病有关的每个风险因素定义为rf,首先在可能与该慢性疾病有关的全部风险因素中随机取i个不同的风险因素进行组合,i=1,2,...,N,N是rf的总数,得到 个集合,每个集合用 表示,j=1,...,i+1,然后求这 个集合的平均值,平均值用RFi表示, 最后针对不同的RFi对测试数据进行评估,绘出其ROC曲线,选择AUC较大且i较小的那一个集合作为该慢性疾病的风险因素的基准组合RFx;
[0023] 步骤3:确定对该慢性疾病影响最大的x个风险因素
[0024] 在确定了基准组合RFx之后,我们需要从 个集合 中找到最佳的那一个集合,针对不同的 对测试数据进行评估,绘出其ROC曲线,选择AUC最大的那一个集合作为最佳的集合
[0025] 步骤4:进一步确定最佳的风险因素组合
[0026] 向最佳的集合 中逐个添加其他的风险因素,得到的新集合记为Rx+m,m=1,2,...,N-x,并计算ROC曲线的对数值,最终确定AUC最大的那一个新集合为最佳的风险因素组合。
[0027] 前述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤1中,前述生理体征包括:心率、血压和血糖。
[0028] 前述的基于风险因素概率组合分析的慢性疾病早期预警方法,其特征在于,在步骤2和步骤3中,绘制ROC曲线时,灵敏度和1-特异性使用不同的阈值
[0029] 本发明的有益之处在于:
[0030] (1)本发明综合考虑了生理指征、环境因素、病史记录、生活习惯等多维数据,与目前疾病模型的构建越来越趋向多维度的研究趋势相符;
[0031] (2)数据集包含不同类型人的记录,实验结果非常具有代表性;
[0032] (3)选取与慢性疾病相关的风险因素的概率组合方法,具有很好的通用性,并且可以推广到其他国家和地区;
[0033] (4)对未来可能发展成慢性疾病的大部分患者给予预警,对预防和控制慢性疾病具有重要意义。附图说明
[0034] 图1是不同RFi的ROC曲线图;
[0035] 图2是Rx和不同Rx+m的ROC曲线的对数值图;
[0036] 图3是本发明提供的方法与已有方法的效率的比较图。

具体实施方式

[0037] 以下结合附图和具体实施例对本发明作具体的介绍。
[0038] 以慢性心力衰竭为例。
[0039] 一、收集数据
[0040] 通过可穿戴技术收集慢性心力衰竭患者和其亲属以及其他健康人的各种生理体征(例如:心率、血压、血糖等)和各类可能与慢性心力衰竭有关的风险因素信息(例如:感染情况,饮食习惯,心律失常,个人病史,精神压力,长期吸烟和酗酒,肥胖,过度体力消耗,心力衰竭家族史,运动习惯,环境因素),然后通过移动终端或电话线将收集的数据上传到云端。
[0041] 在本具体实施例中,数据来自于我们的一个真实的科研项目——HeartCarer,这是一个面向家庭的远程监控系统,基于云平台,专用于监控慢性心力衰竭患者并及时进行干预。该远程监控系统通过可穿戴技术监测慢性心力衰竭患者的各种生理体征(具体有:心率、血压、血糖等)和各类可能与慢性心力衰竭有关的风险因素信息(具体有:感染情况,饮食习惯,心律失常,个人病史,精神压力,长期吸烟和酗酒,肥胖,过度体力消耗,心力衰竭家族史,运动习惯,环境因素),并通过移动终端或电话线将监测到的数据上传到云端。
[0042] 该远程监控系统已经应用于中国6家医疗机构的1026名慢性心力衰竭患者的临床观察研究中,这些慢性心力衰竭患者分别在2015年至2018年期间接受了护理。这些慢性心力衰竭患者多数超过60岁(63.8±12岁),并且大部分是男性(占70%)。
[0043] 由于该远程监控系统中的可穿戴设备是分角色的,可供全家人使用,因此,这些患者的亲属的相关数据(各种生理体征和各类可能与慢性心力衰竭有关的风险因素信息)也包括在内,参与进来的患者的亲属大约有7500人,这些亲属的年龄从10岁到90岁不等。
[0044] 另外,发起该科研项目的公司下属的所有分支机构的客户数据(各种生理体征和各类可能与慢性心力衰竭有关的风险因素信息)也被纳入了该项研究中,大约有105239人,这些人都不是慢性心力衰竭患者,都是健康的。
[0045] 综上,我们收集的数据来自于1026名慢性心力衰竭患者、7500名慢性心力衰竭患者的亲属和105239名健康人,共计113765人,这些人的各类信息数据量超过100GB。
[0046] 我们使用OrientDB Cluster来存储大规模矩阵图,使用HBase作为顶点属性,使用Hadoop MR进行数据分析和计算。随着人数的增加,将导致CPU和内存需求的高负载,从而降低处理速度,因此,我们将这113765人随机分为50组进行测试,每组约2275人,包括慢性心力衰竭患者和健康人。该集群包括8台运行CentOS 7.4操作系统服务器,配备12核(24线程)Intel Xeon CPU,运行频率为2.80GHz,内存为64GB。
[0047] 二、确定慢性心力衰竭的风险因素的基准组合RFx
[0048] 将可能与慢性心力衰竭有关的每个风险因素(即候选风险因素)定义为rf。在本具体实施例中,可能与慢性心力衰竭有关的风险因素共有11个,其中,rf1=感染情况,rf2=饮食习惯,rf3=心律失常,rf4=个人病史,rf5=长期吸烟和酗酒,rf6=精神压力,rf7=肥胖,rf8=过度体力消耗,rf9=心力衰竭家族史,rf10=运动习惯,rf11=环境因素。
[0049] 首先,在可能与慢性心力衰竭有关的全部风险因素中随机取i个不同的风险因素进行组合,i=1,2,...,N,N是rf的总数(在本具体实施例中,N=11),得到 个集合,每个集合用 表示,j=1,...,i+1。
[0050] 例如:i=5,则从可能与慢性心力衰竭有关的全部(11个)风险因素中随机取5个不同的风险因素进行组合,得到 个集合,每个集合分别用 表示,表1列出了这 个随机集合的一部分。
[0051] 表1 个不同的风险因素rf的组合选择
[0052]
[0053] 得到 个集合 后,求这 个集合的平均值,平均值用RFi表示,则有:
[0054]
[0055] RFi可以用来表示某个人的健康指标,并将该人表示为各类风险因素的概率组合。
[0056] 最后,针对不同的RFi,i=1,2,...,N,对测试数据进行评估,绘出其ROC曲线,其中灵敏度和1-特异性使用不同的阈值。通过ROC曲线下面积(AUC)来判断评估方法的优劣,AUC越大,该方法的评估值越好,从而确定慢性心力衰竭的风险因素的基准组合。在本具体实施例中,我们针对不同的RFi,对50组测试数据进行了评估,并绘出了其ROC曲线,绘出的ROC曲线如图1所示。从图1中可以看出:
[0057] (1)RF1、RF2、RF3和RF4的ROC曲线下面积(AUC)很小,RF5的ROC曲线下面积(AUC)比RF1、RF2、RF3、RF4的ROC曲线下面积(AUC)大,可见,RF5的评估结果明显比RF1、RF2、RF3、RF4的评估结果更好;
[0058] (2)RF6、RF7、RF8、RF9、RF10和RF11的ROC曲线下面积(AUC)与RF5的ROC曲线下面积(AUC)相近,可见,进一步增加的风险因素对评估结果并没有明显改善。
[0059] 考虑到矩阵计算非常耗时,因此,我们选择RF5作为慢性心力衰竭的风险因素的基准组合。
[0060] 我们将通过绘制ROC曲线得到的基准组合记为RFx,1≤x≤N,在本具体实施例中,x=5。
[0061] 三、确定对慢性心力衰竭影响最大的x个风险因素
[0062] 在确定了基准组合RFx之后,我们需要从 个集合 中找到最佳的那一个集合,从而确定对慢性心力衰竭影响最大的x个风险因素,具体的:
[0063] 针对不同的 j=1,2,..., 对测试数据进行评估,绘出其ROC曲线,其中灵敏度和1-特异性使用不同的阈值。
[0064] 在本具体实施例中,x=5,所以j=1,2,3,…, 我们需要从 个集合中找到最佳的那一个集合,具体的,针对 个集合对测试数据进行评估,分别绘出 的
ROC曲线,通过比较可以看出, 对应的ROC曲线的AUC最大,其评估效果最好,所以我们选定 是最佳的那一个集合,从表1可知, 这个集合中含有感染情况、饮食习惯、心律失常、个人病史、精神压力这5个可能与慢性心力衰竭有关的风险因素。也就是说,与其他风险因素相比,感染情况、饮食习惯、心律失常、个人病史和精神压力对慢性心力衰竭的影响更大。
[0065] 我们将从 个集合 中找到的最佳的那一个集合记为 在本具体实施例中,y=2。
[0066] 四、进一步确定最佳的风险因素组合
[0067] 为了使该方法具有最佳评估值,我们向集合 中逐个添加其他的风险因素,得到的新集合记为Rx+m,m=1,2,...,N-x,并计算ROC曲线的对数值,从而可以更清楚地看到结果的差异,以便发现最佳的风险因素组合。
[0068] 在本具体实施例中,
[0069] 向集合 中逐个添加其他的风险因素后,得到的新集合Rx+m的组成,具体见表2。
[0070] 表2.不同RFs的组合选择
[0071]
[0072]
[0073] 针对集合 和新集合Rx+m,我们对相应的测试数据进行了评估,计算了每一个集合的ROC曲线的对数值,计算结果如图2所示。由图2可知,当使用R9时,评估结果最佳,明显优于 而R10和R11的ROC曲线的对数值与R9非常接近。因此,通过ROC曲线的对数值我们确定R9是预测慢性心力衰竭的最佳的风险因素组合,即感染情况、饮食习惯、心律失常、个人病史、精神压力、长期吸烟和酗酒、肥胖、过度体力消耗、心力衰竭家族史这9个风险因素是预测慢性心力衰竭的最佳的风险因素组合。
[0074] 我们通过使用不同的训练验证比例重新采样,在不同的训练集和验证集上对本发明提供的方法进行了整体性能的验证。不失一般性,我们使用的训练数据百分比分别为40%、50%和60%。我们用CorrectRatei表示包含i个风险因素的组合的准确率,实验验证结果见表3。
[0075] 表3性能对比
[0076]
[0077] 由表3可知:
[0078] (1)使用60%的数据进行训练时,准确率最高,分别为0.7180、0.7641、0.7953、0.8391和0.8394,也就是说,本发明提供的方法最佳精度可达到84%左右,接近90%;
[0079] (2)使用50%的数据进行训练时,准确率分别为0.7069、0.7532、0.7832、0.8027和0.8046;
[0080] (3)使用40%的数据进行训练时,准确率最低,分别为0.6943、0.7346、0.7803、0.7986和0.7992;
[0081] (4)在同一训练数据百分比下,CorrectRate11大于CorrectRate1、CorrectRate3、CorrectRate5和CorrectRate9,并且CorrectRate11与CorrectRate9十分接近,这再一次认证了对于慢性心力衰竭而言,选择R9是最合适的。
[0082] 此外,我们将本发明提供的方法与现有的传统方法——SVM法和ANN法的效率进行了比较,比较结果见图3。从图3中我们可以看到:
[0083] (1)当训练数据百分比几乎为0时,所有方法的效率都非常低;
[0084] (2)随着训练数据百分比的增加,三种方法的效率均有所提高,当训练数据百分比小于50%时,效率提高的速度较快,当训练数据百分比超过50%时,效率提高的速度放缓;
[0085] (3)当训练数据百分比小于50%时,SVM法的效率大于ANN法,当训练数据百分比大于50%时,SVM法的效率小于ANN法,这是因为SVM法适用于小样本学习,当涉及到大数定律时,SVM法的计算和存储性能不能满足要求;
[0086] (4)在这三种方法中,在相同训练数据百分比下,本发明提供的方法效率始终是最好的,随着训练数据百分比的增加,这个效率约为90%。
[0087] 需要说明的是,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈