专利汇可以提供一种基于机器学习的2型糖尿病预测预警方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种基于 机器学习 的2型糖尿病预测预警方法,通过K-means 算法 和Logistic Regression算法建立先聚类再分类的糖尿病双层 预测分析 模型,对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型。本方法包括数据收集模 块 、数据预处理模块、预测分析模块、预警分级模块和日常管理模块等五大模块。主要应用在糖尿病早期预测分析、高危人群预警分级以及糖尿病日常健康管理等三大方面。本方法在实际应用中具有更高的预测准确性,更加专注每个实例的健康参数,同 时针 对非糖尿病实例进行预警分级,能起到更好的防范作用,做到 疾病 的提早 预防 。,下面是一种基于机器学习的2型糖尿病预测预警方法专利的具体信息内容。
1.一种基于机器学习的2型糖尿病预测预警方法,该方法通过K-means算法和Logistic Regression算法建立先聚类再分类的糖尿病双层预测分析模型,对非糖尿病的分类结果通过C4.5算法和K-means算法分析出的规则进行预警分级,对糖尿病数据集通过日常数据收集管理后并进行更新维护以优化原始糖尿病双层预测分析模型;本方法包括数据收集模块、数据预处理模块、预测分析模块、预警分级模块和日常管理模块,数据收集模块与数据预处理模块连接,数据预处理模块与预测分析模块连接,预测分析模块与预警分级模块连接,预警分级模块和日常管理模块连接;
其特征在于:本方法包括以下步骤:
(1)基于现有的健康大数据,获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,健康数据包括年龄、身高、体重、腰围、臀围、收缩压、舒张压、心率、血糖、血氧、睡眠质量和饮食习惯等;首先对每一个实例以糖尿病和非糖尿病进行标记;
(2)对糖尿病参数数据库中的原始数据做数据预处理;预处理包括确定统一的数据项以及每一项的具体格式,具体格式为枚举型或数值型等,然后通过数据清洗和数据标准化提高原始数据的质量;
(3)使用K-means算法和Logistic Regression算法的双层预测分析模型分析处理过的数据集,对每个实例属于糖尿病或是非糖尿病进行预测分类;
(4)使用C4.5算法和K-means算法结合的分析模型结合现有高危人群划分标准对非糖尿病进行预警分级,提出无风险、低风险和高风险三类标识;
(5)通过引入最新的糖尿病参数数据,对所有糖尿病参数数据以统一规范的数据格式进行存储并及时反馈至数据收集模块以进行进一步优化;在丰富数据集的基础上,反复步骤(2)、(3)、(4)进行训练以优化本方法的实际应用效果;
所述的数据收集模块是基于现有的健康大数据,通过获取医院、社康、体检中心等医疗单位内与糖尿病相关的健康数据以建立糖尿病参数数据库,对每一个实例以糖尿病和非糖尿病进行标记;
所述的数据预处理模块分为两个基本步骤,分别是数据清洗和数据标准化;数据清洗包括一致性检查和缺失值处理,一致性检查是根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据;缺失值处理即将数据集中缺少的值使用平均值进行替代;数据标准化是在数据清洗完成后,为避免计算过程中数值复杂度,以及避免大数值区间的属性过分支配小数值区间的属性,将所有糖尿病参数中的属性进行Normalize,规范到数值区间[0,1],使用公式:
其中x'表示糖尿病参数属性的平均值,s表示糖尿病参数属性的标准偏差,Value即糖尿病参数原属性值value进行标准化计算得到的结果;
所述的预测分析模块分为两部分,分别是K-means聚类处理和LogisticRegression模型处理;使用K-means聚类算法对剔除了分类标签结果的数据集进行一级处理,设定聚类数目为2,将结果与原始数据集进行对比,剔除聚类错误的数据项,以提供更加准确的数据集进入下一阶段的处理;使用LogisticRegression模型对上述处理过的数据集进行有监督的分类处理,分析结果可得预测准确性;
预警分级模块针对糖尿病数据集中的参数,根据C4.5算法和K-means算法基于现有数据分析糖尿病风险层级的规则并与糖尿病分级标准进行对比,以制定更加直接有效的预警分级标准;在此基础上,针对新数据的录入通过新的分级标准进行风险层级判断;
所述的日常管理模块包含血糖记录和体征记录;血糖记录针对糖尿病用户,通过引入最新的血糖记录针记录血糖参数数据以更新糖尿病数据库;体征记录针对所有用户,管理的糖尿病参数包括心率、血压、血氧、身高体重和腰臀比数据;所有参数均以统一规范的数据格式进行存储并及时反馈至数据收集模块进行优化。
2.根据权利要求1所述的一种基于机器学习的2型糖尿病预测预警方法,其特征在于:
预测分析模块和预警分级模块是本方法的两大核心模块;
所述的预测分析模块由K-means算法和LogisticRegression算法组成;
K-means算法是典型的基于距离的聚类算法,采用距离作为相似度的度量指标,即规定对象间的距离值越小,其相似度越大;K-means算法所产生的簇都是由距离相近的对象组成,故其最终目标是找到这些紧凑且独立的簇;在K-means算法中,K值代表的是初始聚类中心的个数,聚类中心即簇,故K值的选取对聚类结果影响大;
针对包含n个糖尿病实例的初始数据集,n为糖尿病实例的个数且取正整数,对应的算法过程如下:
1)在给出数据集中的n个糖尿病实例里任意选取2个对象作为初始聚类中心;由于最终的分类结果为两类,将K值定为2;
2)对剩余的每个糖尿病实例分别计算与每个中心的距离,并根据剩余的每个糖尿病实例与各个簇中心的距离把剩余的每个糖尿病实例归到最近的中心的簇;
3)重新计算每个聚类的中心,判断中心是否发生变化;
4)循环步骤2)~3)步直至新的中心与原中心相等或小于指定阈值,即已收敛,则算法结束;通过误差函数判断收敛: 其中x表示糖尿病参数中的每
个实例,μ(Ci)表示聚类Ci的中心,d(x,μ(Ci))表示x和μ(Ci)之间的欧几里德距离,k的值为
2;
在对糖尿病数据集使用K-means算法进行分析时,选取K值为2,将分析结果与数据集原始的分类标签进行比较,剔除错误的噪声数据,将剩余的数据集作为下一级LogisticRegression算法的输入;由于起初K-means算法的Seed值是随机选取的,在剔除数据过程中可能造成错误聚类数量过大,故在每次聚类分析结束后计算数据集剩余比;若比值大于75%,则进入下一步;若比值小于75%,则进入循环重新选取新的Seed值开始聚类;
以此方法降低人工选取Seed值导致错误分析的风险,并且能够有效控制原始数据集的不必要损失;
对高质量的数据集使用LogisticRegression算法进入第二级处理;
Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域;探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等;
针对糖尿病参数进行分析研究,采用LogisticRegressionModels,其定义如下:
估计概率公式为:
其中P表示时间Y发生的概率,即分类结果为糖尿
病或非糖尿病的概率;p(Y=1)=p/(1-p)表示让步比;Ln[p/(1-p)]是让步比的log值;每一个独立的糖尿病参数X分配相应的系数值β代表该参数对分类结果占有的权重;
在本方法中,最终结果的标签为两类,糖尿病和非糖尿病;数据集中的属性值提供了分类依据;通过LogisticRegression算法分析,得到每一项属性值的权重,从而确定糖尿病参数中的危险因素,进一步分析得到的分类结果即为整体算法模型的预测结果;
在本方法中,使用10折交叉验证方法对预测分析结果进行验证,将初始采样分割成10个子样本,一个单独的子样本被保留作为验证模型的数据,其他9个样本用来训练;交叉验证重复10次,每个子样本验证一次,平均10次的结果或者使用其它结合方式,最终得到一个单一估测;这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次;
一种预测过程会有四个不同的结果,分别为TP、TN、FT和FN;在混淆矩阵中显示四种结果相应的数据,TP和TN是分类正确的结果,FT是将原本属于Negative的结果错误分类至Positive类,FN是将原本属于Positive的结果错误分类至Negative类;Precision查准率,是衡量检索系统拒受非相关信息的能力;Recall查全率,是衡量检索系统检出相关信息的能力;MCC,这是一个针对二元分类的有趣性能指标,特别是各个类别在数量上不平衡时;
预警分级模块由C4.5算法和K-means算法组成;
决策树是一个树结构;其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别;使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果;C4.5是决策树算法的一种,其主要特点是优化信息增益的缺点,提出信息增益率的概念,其定义为 信息增益率
使用“分裂信息”值将信息增益规范化,分裂信息定义如下:
其中D1到DV是V个值的属性A分割D而形成的V个样例子集,分裂信息就是D关于属性A的各值的熵;
选择具有最大增益率的属性作为分裂属性;
在本模块中,首先使用C4.5算法对原始数据集做分类分析,将原始数据集分为糖尿病和非糖尿病两类,分类结果分析得出的分类规则是一系列对属性数值区间的规约,将这些规则应用于下一步的分级定义当中;
K-means算法可以对数据集进行无标签的聚类分析;针对仅包含非糖尿病实例参数的数据集,使用K-means算法进行聚类,将K值设为3,结果生成三个属于不同范围内的类别;通过将结果与现有糖尿病预警分级标准以及上一步生成的若干规则进行对比分析,分别针对高风险、低风险和无风险三个级别得出有实际效用的预警分级规则。
高效检索全球专利专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。
我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。
专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。