首页 / 专利库 / 病理 / 认知障碍 / 判别轻度认知障碍的模型选择处理方法及装置

判别轻度认知障碍的模型选择处理方法及装置

阅读:221发布:2020-05-15

专利汇可以提供判别轻度认知障碍的模型选择处理方法及装置专利检索,专利查询,专利分析的服务。并且本 申请 公开了一种判别轻度 认知障碍 的模型选择处理方法及装置。其中,方法包括:获取所有样本的个体信息并得到 训练数据 集;并获得所述样本的认知障碍症结果;分别通过多个模型对所述测试集中的样本进行 机器学习 ;通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并分别得到所述多个模型的参数;通过独立选取的检测样本集确定所述多个判别结果的准确度;确定并选择准确度最高的所述判别结果对应的模型。从而实现了样本量获取简单,同时数据获得成本低的特点;此外,具有能够有效降低样本参数的不确定性的技术效果。,下面是判别轻度认知障碍的模型选择处理方法及装置专利的具体信息内容。

1.一种判别轻度认知障碍的模型选择处理方法,其特征在于,包括:
获取所有样本的个体信息并得到训练数据集;并获得所述样本的认知障碍症结果;所述训练数据集包括:测试集和验证集;
分别通过多个模型对所述测试集中的样本进行机器学习
通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并根据所述样本的认知障碍症结果分别得到所述多个模型的参数;
通过独立选取的检测样本集确定所述多个判别结果的准确度;
确定并选择准确度最高的所述判别结果对应的模型。
2.根据权利要求1所述的处理方法,其特征在于,所述分别通过多个模型对所述测试集中的样本进行机器学习;包括:
分别通过逻辑回归模型、决策树模型、随机森林模型和SVM模型对所述测试集中的样本进行机器学习;其中,所述训练数据集中个体信息包括:所述样本的性别、年龄、身高、体重、BMI和受教育程度,BMI为体重除以身高的平方。
3.根据权利要求2所述的处理方法,其特征在于,所述通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并分别得到所述多个模型的参数,包括:
得到每个所述模型对所述验证集中的每个样本的预测结果;以及
通过所述每个样本的预测结果的确定每个模型的参数;所述参数包括:模型敏感性、模型特异性、正向预测值、负向预测值和模型准确度。
4.根据权利要求2所述的处理方法,其特征在于,通过所述逻辑回归模型对所述测试集中的样本进行机器学习,包括:
对所述测试集中的样本的个体信息进行逻辑回归运算,并得到模型TC:
对所述模型TC进行ROC曲线分析,得到阈值Y,当一测试集中的样本的个体信息在模型TC中计算的值大于所述阈值Y时,为轻度认知障碍,而小于阈值Y时为正常。
5.根据权利要求2所述的处理方法,其特征在于,通过所述决策树模型对所述测试集中的样本进行机器学习,包括:
通过对性别、年龄、身高、体重、受教育程度和BMI按照一顺序进行决策树设定;
按照所述决策树对所述测试集中的样本进行预测判定;
通过年龄(year)进行第一分支,如果年龄小于24岁,直接判定为CK人群;
如果年龄大于24岁,进行HEIGHT(身高)分类,如果身高小于164的,直接判定为CK人群,如果身高大于164的,继续进行分类;
如果受教育时间小于9.5年,直接判定为BD,即轻度认知障碍人群;如果大于9.5年内,继续分类。
6.根据权利要求2所述的处理方法,其特征在于,通过所述随机森林模型对所述测试集中的样本进行机器学习,包括:
通过对性别、年龄、身高、体重、受教育程度和BMI按照不同顺序及组合设定多个不同的决策树;
按照所述多个不同的决策树分别对所述测试集中的每个样本进行预测判定;
确定每个所述测试集中的样本在所有的决策树下输出的数量最多的结果。
7.根据权利要求2所述的处理方法,其特征在于,通过所述SVM模型对所述测试集中的样本进行机器学习,包括:
对所述测试集进行SVM模型建设;
确定建设的所述SVM模型的预测区域;所述预测区域用于划分出有轻度认知障碍的区域。
8.一种判别轻度认知障碍的模型选择处理装置,其特征在于,包括:
训练数据集获取单元,用于获取所有样本的个体信息并得到训练数据集;并获得所述样本的认知障碍症结果;所述训练数据集包括:测试集和验证集;
学习单元,用于分别通过多个模型对所述测试集中的样本进行机器学习;
判别单元,用于通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并根据所述样本的认知障碍症结果分别得到所述多个模型的参数;
准确度计算单元,用于通过独立选取的检测样本集确定所述多个判别结果的准确度;
模型选定单元,用于确定并选择准确度最高的所述判别结果对应的模型。
9.根据权利要求8所述的处理装置,其特征在于,所述学习单元具体用于:
分别通过逻辑回归模型、决策树模型、随机森林模型和SVM模型对所述测试集中的样本进行机器学习;其中,所述训练数据集中个体信息包括:所述样本的性别、年龄、身高、体重、BMI和受教育程度,BMI为体重除以身高的平方。
10.根据权利要求9所述的处理装置,其特征在于,所述判别单元,包括:
预测结果确定模,用于得到每个所述模型对所述验证集中的每个样本的预测结果;
准确率确定模块,用于通过所述每个样本的预测结果的确定每个模型的参数;所述参数包括:模型敏感性、模型特异性、正向预测值、负向预测值和模型准确度。

说明书全文

判别轻度认知障碍的模型选择处理方法及装置

技术领域

[0001] 本申请涉及数据分析处理技术领域,具体而言,涉及一种判别轻度认知障碍的模型选择处理方法及装置。

背景技术

[0002] 迄今为止,我国被认为患老年痴呆人口最多的国家,截至到2010年,国内已有920万耆英不幸罹患老年痴呆症。老年痴呆,又称阿尔兹海默症,是一个逐渐发展变化的疾病进程,经常由于自身和家人的粗心导致发现较晚,失去了延缓疾病发展的机会。在目前还没有特异性治疗药物之前,预防老年痴呆是最好的办法。
[0003] 研究表明,在老年痴呆的早期,会出现轻度认知性障碍,这个时期是治疗和防治老年痴呆的关键时期。研究表明,以下指标与老年痴呆前期有关:
[0004] 1.生物标记。梅奥诊所的医学家发现,有几种生物标记与认知障碍症有关,包括脊髓液或血液中的某些蛋白质和大脑成像所检测到的突变。在这种疾病发作25年前,大脑就会产生相应的变化。
[0005] 2.高血压。特别是在中年时期患上高血压会让人患认知障碍症的险增加;有心脏病史的人也是如此,曾经有过心脏病发作的人患上认知障碍症的风险会增加2倍。
[0006] 3.糖尿病和肥胖症。糖尿病患者得认知障碍症的可能性增加2~4倍。肥胖症也会增加人们患上认知障碍症的风险,特别是女性。与身材较瘦的同龄人相比,肥胖女性患上认知障碍症的可能性会增加3倍;肥胖男性患此病的风险会增加30%。
[0007] 4.受教育程度低,智锻炼少。接受正规教育的年限较少和对智力功能缺乏训练,也会增加人们患认知障碍症的风险。经常参加志愿者活动、旅行和猜字谜的人智力平较高,较少患上认知障碍症。
[0008] 5.饮食中缺乏果蔬和香料。
[0009] 6.年龄与意外伤害。
[0010] 尽管有这些指标的报道,但目前还对老年痴呆前期进行准确预测的模型。归结起来有以下原因:第一,生物标志物,需要提供血液或者尿液,并进行生理生化检测,样本量获取困难,同时数据获得成本高。第二,日常饮食调查无法准确,同时有非常多的不确定性。第三,血压的数值偏离很大,无法获得客观值。
[0011] 但是相关技术中,无法针对前期的轻度认知性障碍时期,进行老年痴呆进行判断,进而提前预防并治疗老年痴呆症。发明内容
[0012] 本申请的主要目的在于提供一种判别轻度认知障碍的模型选择处理方法及装置,以解决相关技术中存在的问题。
[0013] 为了实现上述目的,根据本申请的一个方面,提供了一种判别轻度认知障碍的模型选择处理方法。
[0014] 根据本申请的判别轻度认知障碍的模型选择处理方法包括:
[0015] 一种判别轻度认知障碍的模型选择处理方法,包括:
[0016] 获取所有样本的个体信息并得到训练数据集;并获得所述样本的认知障碍症结果;所述训练数据集包括:测试集和验证集;
[0017] 分别通过多个模型对所述测试集中的样本进行机器学习
[0018] 通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并根据所述样本的认知障碍症结果分别得到所述多个模型的参数;
[0019] 通过独立选取的检测样本集确定所述多个判别结果的准确度;
[0020] 确定并选择准确度最高的所述判别结果对应的模型。
[0021] 进一步的,如前述的处理方法,所述分别通过多个模型对所述测试集中的样本进行机器学习;包括:
[0022] 分别通过逻辑回归模型、决策树模型、随机森林模型和SVM模型对所述测试集中的样本进行机器学习;其中,所述训练数据集中个体信息包括:所述样本的性别、年龄、身高、体重、BMI和受教育程度,BMI为体重除以身高的平方。
[0023] 进一步的,如前述的处理方法,所述通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并分别得到所述多个模型的参数,包括:
[0024] 得到每个所述模型对所述验证集中的每个样本的预测结果;以及
[0025] 通过所述每个样本的预测结果的确定每个模型的参数;所述参数包括:模型敏感性、模型特异性、正向预测值、负向预测值和模型准确度。
[0026] 进一步的,如前述的处理方法,通过所述逻辑回归模型对所述测试集中的样本进行机器学习,包括:
[0027] 对所述测试集中的样本的个体信息进行逻辑回归运算,并得到模型TC:
[0028] 对所述模型TC进行ROC曲线分析,得到阈值Y,当一测试集中的样本的个体信息在模型TC中计算的值大于所述阈值Y时,为轻度认知障碍,而小于阈值Y时为正常。
[0029] 进一步的,如前述的处理方法,通过所述决策树模型对所述测试集中的样本进行机器学习,包括:
[0030] 通过对性别、年龄、身高、体重、受教育程度和BMI按照一顺序进行决策树设定;
[0031] 按照所述决策树对所述测试集中的样本进行预测判定;
[0032] 通过年龄(year)进行第一分支,如果年龄小于24岁,直接判定为CK人群;
[0033] 如果年龄大于24岁,进行HEIGHT(身高)分类,如果身高小于164的,直接判定为CK人群,如果身高大于164的,继续进行分类;
[0034] 如果受教育时间小于9.5年,直接判定为BD,即轻度认知障碍人群;如果大于9.5年内,继续分类。
[0035] 进一步的,如前述的处理方法,通过所述随机森林模型对所述测试集中的样本进行机器学习,包括:
[0036] 通过对性别、年龄、身高、体重、受教育程度和BMI按照不同顺序及组合设定多个不同的决策树;
[0037] 按照所述多个不同的决策树分别对所述测试集中的每个样本进行预测判定;
[0038] 确定每个所述测试集中的样本在所有的决策树下输出的数量最多的结果。
[0039] 进一步的,如前述的处理方法,通过所述SVM模型对所述测试集中的样本进行机器学习,包括:
[0040] 对所述测试集进行SVM模型建设;
[0041] 确定建设的所述SVM模型的预测区域;所述预测区域用于划分出有轻度认知障碍的区域。
[0042] 为了实现上述目的,根据本申请的另一方面,提供了一种判别轻度认知障碍的模型选择处理装置。
[0043] 根据本申请的判别轻度认知障碍的模型选择处理装置包括:
[0044] 训练数据集获取单元,用于获取所有样本的个体信息并得到训练数据集;并获得所述样本的认知障碍症结果;所述训练数据集包括:测试集和验证集;
[0045] 学习单元,用于分别通过多个模型对所述测试集中的样本进行机器学习;
[0046] 判别单元,用于通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并根据所述样本的认知障碍症结果分别得到所述多个模型的参数;
[0047] 准确度计算单元,用于通过独立选取的检测样本集确定所述多个判别结果的准确度;
[0048] 模型选定单元,用于确定并选择准确度最高的所述判别结果对应的模型。
[0049] 进一步的,如前述的处理装置,所述学习单元具体用于:
[0050] 分别通过逻辑回归模型、决策树模型、随机森林模型和SVM模型对所述测试集中的样本进行机器学习;其中,所述训练数据集中个体信息包括:所述样本的性别、年龄、身高、体重、BMI和受教育程度,BMI为体重除以身高的平方。
[0051] 进一步的,如前述的处理装置,所述判别单元,包括:
[0052] 预测结果确定模,用于得到每个所述模型对所述验证集中的每个样本的预测结果;
[0053] 准确率确定模块,用于通过所述每个样本的预测结果的确定每个模型的参数;所述参数包括:模型敏感性、模型特异性、正向预测值、负向预测值和模型准确度。
[0054] 在本申请实施例中,采用利用长期稳定的指标进行模型设置的方式,通过获取所有样本的个体信息并得到训练数据集;并获得所述样本的认知障碍症结果;分别通过多个模型对所述测试集中的样本进行机器学习;通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并分别得到所述多个模型的参数;通过独立选取的检测样本集确定所述多个判别结果的准确度;确定并选择准确度最高的所述判别结果对应的模型。从而实现了样本量获取简单,同时数据获得成本低的特点;此外,具有能够有效降低样本参数的不确定性的技术效果。
附图说明
[0055] 构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0056] 图1是根据本申请一种实施例的方法流程示意图;
[0057] 图2是根据本申请一种实施例的装置结构流程示意图;
[0058] 图3是根据本申请一种实施例中实施逻辑回归模型后得到的曲线图;
[0059] 图4是根据本申请一种实施例的通过决策树模型进行轻度认知障碍判断的示意图;
[0060] 图5是根据本申请一种实施例中实施随机森林模型时随机森林模型树的数目以及错误率的曲线图;以及
[0061] 图6是根据本申请一种实施例中SVM模型的轻度认知障碍的预测区域示意图。

具体实施方式

[0062] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0063] 需要说明的是,本申请的说明书权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0064] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0065] 根据本申请的一个实施例,提供了一种判别轻度认知障碍的模型选择处理方法。如图1所示,该方法包括如下的步骤S1至步骤S5:
[0066] S1.获取所有样本的个体信息并得到训练数据集;并获得所述样本的认知障碍症结果;所述训练数据集包括:测试集和验证集;
[0067] S2.分别通过多个模型对所述测试集中的样本进行机器学习;
[0068] S3.通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并根据所述样本的认知障碍症结果分别得到所述多个模型的参数;优选的,模型建设的时候选择了168个人,包括有轻度认知障碍的人和没有问题的人,随机选择50%有轻度认知障碍的人和50%没有问题的人,形成测试数据集;另外一半为所述若干个样本并构成验证集;其中,测试集来训练模型;验证集来得到模型的参数;
[0069] S4.通过独立选取的检测样本集确定所述多个判别结果的准确度;
[0070] S5.确定并选择准确度最高的所述判别结果对应的模型。
[0071] 在一些实施例中,如前述的处理方法,所述分别通过多个模型对所述训练数据集进行机器学习;包括:
[0072] 分别通过逻辑回归模型、决策树模型、随机森林模型和SVM模型对所述测试集中的样本进行机器学习;其中,所述训练数据集中个体信息包括:所述样本的性别、年龄、身高、体重、BMI和受教育程度,BMI为体重除以身高的平方。
[0073] 在一些实施例中,如前述的处理方法,所述通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并分别得到所述多个模型的参数,包括:
[0074] 得到每个所述模型对所述验证集中的每个样本的预测结果;以及
[0075] 通过所述每个样本的预测结果的确定每个模型的参数;所述参数包括:模型敏感性、模型特异性、正向预测值、负向预测值和模型准确度。
[0076] 在一些实施例中,如前述的处理方法,通过所述逻辑回归模型对所述测试集中的样本进行机器学习,包括:
[0077] 对所述测试集中的样本的个体信息进行逻辑回归运算,并得到模型TC:
[0078] TC=17.86+1.35*性别-0.053*年龄+0.065*受教育时间-0.089*身高+0.123*体重-0.473*BMI;其中,当性别为男时为1,性别为女时为2,所述受教育时间从小学开始;
[0079] 对所述模型TC进行ROC曲线分析,得到阈值Y,当一测试集中的样本的个体信息在模型TC中计算的值大于所述阈值Y时,为轻度认知障碍,而小于阈值Y时为正常[0080] 在一些实施例中,如前述的处理方法,通过所述决策树模型对所述训练数据集进行机器学习,包括:
[0081] 通过对性别、年龄、身高、体重、受教育程度和BMI按照一顺序进行决策树设定;
[0082] 按照所述决策树对所述训练数据集进行预测判定。
[0083] 通过年龄(year)进行第一分支,如果年龄小于24岁,直接判定为CK人群。
[0084] 如果年龄大于24岁,进行HEIGHT(身高)分类,如果身高小于164的,直接判定为CK人群,如果身高大于164的,继续进行分类。
[0085] 如果受教育时间小于9.5年,直接判定为BD,即轻度认知障碍人群。如果大于9.5年内,继续分类。
[0086] 在一些实施例中,如前述的处理方法,通过所述随机森林模型对所述训练数据集进行机器学习,包括:
[0087] 通过对性别、年龄、身高、体重、受教育程度和BMI按照不同顺序及组合设定多个不同的决策树;
[0088] 按照所述多个不同的决策树分别对所述测试集中的每个样本进行预测判定;
[0089] 确定每个所述测试集中的样本在所有的决策树下输出的数量最多的结果。
[0090] 在一些实施例中,如前述的处理方法,通过所述SVM模型对所述训练数据集进行机器学习,包括:
[0091] 对所述训练数据集进行SVM模型建设;
[0092] 确定建设的所述SVM模型的预测区域;所述预测区域用于划分出有轻度认知障碍的区域。
[0093] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0094] 根据本发明实施例,还提供了一种用于实施上述判别轻度认知障碍的模型选择处理方法的装置,如图2所示,该装置包括:
[0095] 训练数据集获取单元1,用于获取所有样本的个体信息并得到训练数据集;并获得所述样本的认知障碍症结果;所述训练数据集包括:测试集和验证集;
[0096] 学习单元2,用于分别通过多个模型对所述测试集中的样本进行机器学习;
[0097] 判别单元3,用于通过进行机器学习后的所述多个模型对所述验证集中的样本分别进行判别,并根据所述样本的认知障碍症结果分别得到所述多个模型的参数;
[0098] 准确度计算单元4,用于通过独立选取的检测样本集确定所述多个判别结果的准确度;
[0099] 模型选定单元5,用于确定并选择准确度最高的所述判别结果对应的模型。
[0100] 在一些实施例中,如前所述的处理装置,所述学习单元2具体用于:
[0101] 分别通过逻辑回归模型、决策树模型、随机森林模型和SVM模型对所述测试集中的样本进行机器学习;其中,所述训练数据集中个体信息包括:所述样本的性别、年龄、身高、体重、BMI和受教育程度,BMI为体重除以身高的平方。
[0102] 在一些实施例中,如前所述的处理装置,所述判别单元3,包括:
[0103] 预测结果确定模块,用于得到每个所述模型对所述验证集中的每个样本的预测结果;
[0104] 准确率确定模块,用于通过所述每个样本的预测结果的确定每个模型的参数;所述参数包括:模型敏感性、模型特异性、正向预测值、负向预测值和模型准确度。
[0105] 实验例:
[0106] 选取了168人作为样本,记录每个样本的性别,年龄,身高,体重,BMI,受教育程度,作为模型训练组。其中,64人通过MMSE(mini-mental state examination,简短精神状态测试量表)以及记忆力测试训练归类为早期认知性障碍(即老年痴呆早期),另外104人测试为正常。我们利用这168人进行模型建设,并且自动将患者和正常人各选择50%,分别作为训练组和验证组,每组各84人。通过训练组,完成模型训练,通过验证组来得到模型的评价参数。
[0107] 模型建设完毕后,独立于模型的体系,通过另外招募的56人,来测试模型应用的实际准确率。
[0108] 机器模型建设:利用R语言,对模型进行机器学习。具体使用到:逻辑回归模型(回归方程以及ROC曲线),决策树模型,随机森林模型和SVM(support vector machine,支持向量机)模型。
[0109] 模型评价体系如下表所示:
[0110]  预测G1 预测G2
实际G1 tn fp
实际G2 fn tp
[0111] 通过对模型验证(84人),得到上述的的预测结果和实际值,因此:
[0112] Sensitivity,模型敏感度=tp/(tp+fn)
[0113] Specificity,模型特异性=tn/(tn+fp)
[0114] positive predictive value,模型正向预测值=tp/(tp+fp)
[0115] Negative predictive valuet,模型负向预测值=fn/(tn+fn)
[0116] Accuracy模型整体准确率=(tp+tn)/(tp+tn+fp+fn)
[0117] 采用本发明方法进行建模:
[0118] 根据上述84个样本进行SVM模型建设:FIT.MCI.SVM。
[0119] 采用其它方法进行建模:
[0120] 1.逻辑回归模型
[0121] 对84人的训练集进行逻辑回归运算,得到以下公式:
[0122] TC=17.86+1.35*性别(男为1,女为2)-0.053*年龄(单位:年)+0.065*受教育时间(从小学开始,单位:年))-0.089*身高(单位:厘米)+0.123*体重(单位:公斤)-0.473*BMI(体重除以身高的平方)。
[0123] 如图3所示,将模型进行ROC曲线分析,AUC(area under curve)的值为0.716。将变量带入模型系统,当TC>0.5的时候,认为有患病倾向。
[0124] 2.决策树模型
[0125] 对84人进行决策树分类。分类决策树是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习
[0126] 通过决策树,对84个样本进行分类,其中CK代表正常人,BD代表轻度认知障碍人群。如图4所示:
[0127] 通过年龄(year)进行第一分支,如果年龄小于24岁,直接判定为CK人群。
[0128] 如果年龄大于24岁,进行HEIGHT(身高)分类,如果身高小于164的,直接判定为CK人群,如果身高大于164的,继续进行分类。
[0129] 如果受教育时间小于9.5年,直接判定为BD,即轻度认知障碍人群。如果大于9.5年内,继续分类。
[0130] 以此类推,最终获得针对84个正常和轻度认知障碍人群的分类决策树。
[0131] 3.随机森林模型
[0132] 随机森林是一种多功能的机器学习算法,能够执行回归和分类的任务。在随机森林中,将生成很多的决策树,并不像在CART模型里一样只生成唯一的树。当在基于某些属性对一个新的对象进行分类判别时,随机森林中的每一棵树都会给出自己的分类选择,并由此进行“投票”,森林整体的输出结果将会是票数最多的分类选项;而在回归问题中,随机森林的输出将会是所有决策树输出的平均值。
[0133] 将84个样本进行随机森林建模分析,如下表所示:
[0134]项目 GINI
Sex性别 2.24385
Teayear受教育年龄 8.681
HEIGHT身高 14.11623
WEIGHT体重 14.38554
BMI肥胖指数 18.01395
Year年龄 19.3678
[0135] 首先,得到变量重要性关系,利用gini指数来反映。gini指数表示节点的纯度,gini指数越大纯度越低。对于变量重要度衡量,gini指数变化的均值作为变量的重要程度度量,gini值越小,变量重要性越大。通过表格可以看出,变量的重要性为:
[0136] 性别>受教育年龄>身高>体重>肥胖指数>年龄。
[0137] 如图5所示,获得随机森林模型树的数目(trees)以及错误率的曲线图,来判断森林的规模。黑线是外袋错误率(Out-of-Bag error rate),即用决策树(decision trees)预测没有包括在袋子(bagging)里样本的错误。其他两条线为的两类样本。通过上图发现,曲线都趋于稳定,所以森林规模为500棵树,完成模型。
[0138] 4.SVM模型
[0139] 在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个标记为属于两类,一个SVM训练算法建立了一个模型,分配新的实例为一类或其他类,使其成为非概率二元线性分类。
[0140] 对84个样进行SVM模型建设:FIT.MCI.SVM。
[0141] 图6所示,深灰色是CK(正常人),模型预测区域;浅灰色是有轻度认知障碍的预测区域。在不同的年龄和BMI条件下,CK(×)和BD(0)分布情况。
[0142] 具体的SVM模型的获得,可以通过R语言软件包e1071计算的来的。具体实施的主要程序是:
[0143] library(e1071)#调用R语言e1071的程序包
[0144] fit.svm=svm(TC~.,data=dr.train)#fit.svm建立模型,其中data使用训练的数据集,TC表示数据集中对是否具有轻度认知障碍的判断。
[0145] svm.pred=predict(fit.svm,data=dr.validate)#svm.pred用验证的数据集,来判别模型的效果。其中,data使用验证集数据,fit.svm就是上一部建设的模型。
[0146] 验证:
[0147] 按照前文所述的预测方法,通过验证集的84个样本对本发明方法及其余三种方法得出的模型进行判别,然后计算模型的敏感性,特异性,准确度等,具体如下:
[0148] [1]"logit model"逻辑回归模型
[0149] sensitivity模型敏感性=0.75;
[0150] Specificity模型特异性=0.33;
[0151] Positive Predictive Value正向预测值=0.6;
[0152] Negative Predictive Value负向预测值=0.5;
[0153] Accuracy模型准确度=0.57。
[0154] [2]"dtree model"决策树模型
[0155] sensitivity模型敏感性=0.66;
[0156] Specificity模型特异性=0.42;
[0157] Positive Predictive Value正向预测值=0.6;
[0158] Negative Predictive Value负向预测值=0.48;
[0159] Accuracy模型准确度=0.55。
[0160] [3]"forest model"随机森林模型
[0161] sensitivity模型敏感性=0.72;
[0162] Specificity模型特异性=0.5;
[0163] Positive Predictive Value正向预测值=0.66;
[0164] Negative Predictive Value负向预测值=0.57;
[0165] Accuracy模型准确度=0.62。
[0166] [4]"svm model"支持向量机模型,本发明方法:
[0167] sensitivity模型敏感性=0.78;
[0168] Specificity模型特异性=0.76;
[0169] Positive Predictive Value正向预测值=0.67;
[0170] Negative Predictive Value负向预测值=0.14;
[0171] Accuracy模型准确度=0.77。
[0172] 由此可知:
[0173] 从模型准确性上,淘汰了逻辑回归和决策树模型。考察随机森林和支持向量机,发现SVM在准确度,敏感性和特异性这三个重要的指标上高于随机森林模型。
[0174] 因此,认为SVM模型是最适合进行轻度认知性障碍(即老年痴呆前期)预测的模型。为了考察数据驱动的SVM老年痴呆前期预测模型的实际应用准确率,又独立于样本中168人之外选取了56位测试者进行模型的测试。具体的数据如下,SVM的预测结果详细结果也如下表所示:
[0175]
[0176]
[0177]
[0178] 从结果上看,56位测试人群,其中14位预测错误,42位预测正确,准确率高达75%。实际的预测准确率与模型的计算准确率相匹配,证明该模型未来的应用的有效性。
[0179] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0180] 以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈