首页 / 专利库 / 林业机械与工程 / 森林健康 / 一种老年人热舒适预测方法

一种老年人热舒适预测方法

阅读:496发布:2020-05-13

专利汇可以提供一种老年人热舒适预测方法专利检索,专利查询,专利分析的服务。并且一种老年人热舒适预测方法,包括以下步骤:确定老年人热舒适影响因素,构建原始训练样本数据集;对原始训练样本数据集进行预处理,构建老年人热舒适预测特征数据集;针对老年人热舒适预测特征数据集,判断C4.5 节点 分裂 算法 用于老年人热舒适预测的适用性,得出基于C4.5分裂算法构建 决策树 用于老年人热舒适预测的准确率P1;针对老年人热舒适预测特征数据集,判断CART节点分裂算法的适用性,得出将CART节点分裂算法应用于老年人热舒适预测的准确率P2;将P1和P2按照其在算术和中占的比例分别赋予C4.5节点分裂算法和CATR节点分裂算法权重β1和β2,β1+β2=1;基于算法适用性混合分裂决策树构建老年人热舒适预测 随机森林 ;采用训练好的随机森林进行老年人热舒适预测。,下面是一种老年人热舒适预测方法专利的具体信息内容。

1.一种老年人热舒适预测方法,其基于算法适用性混合分裂决策树随机森林,包括以下步骤:
步骤1,确定老年人热舒适影响因素,构建原始训练样本数据集O;
步骤2,对原始训练样本数据集O进行预处理,构建老年人热舒适预测特征数据集SO;
步骤3,针对老年人热舒适预测特征数据集SO,判断C4.5节点分裂算法用于老年人热舒适预测的适用性,得出基于C4.5分裂算法构建决策树用于老年人热舒适预测的准确率P1;
步骤4,针对老年人热舒适预测特征数据集SO,判断CART节点分裂算法的适用性,得出将CART节点分裂算法应用于老年人热舒适预测的准确率P2;
步骤5,将P1和P2按照其在算术和中占的比例分别赋予C4.5节点分裂算法和CATR节点分裂算法权重β1和β2,β1+β2=1;
步骤6,基于步骤5的算法适用性混合分裂决策树构建老年人热舒适预测随机森林;
步骤7,采用训练好的随机森林进行老年人热舒适预测。
2.如权利要求1所述的一种老年人热舒适预测方法,其特征在于:步骤1中老年人热舒适影响因素包括:老年人个体信息、室内外物理参数、建筑本体特征、热环境可调节性;其中老年人个体信息包括:年龄、性别、健康状况、平均代谢率、服装热阻、老年人热舒适调节行为偏好;室内外物理参数包括:室内外干球温度、室内外相对湿度、室内速、室内表面辐射温度;建筑本体特征包括:建筑所在气候分区、建筑所在住区规划特征、建筑围护结构热工性能、房间楼层、房间朝向等;热环境可调节性包括:窗户的可开启性、窗帘的可调节性、加热设备可调节性、降温设备可调节行。
3.如权利要求2所述的一种老年人热舒适预测方法,其特征在于:假设步骤1中一共确定M个影响因素,采用向量Xi(i=1,2,...,M)表示;按照确定的影响因素收集相应因素的原始数据及老年人热舒适评价结果,每一次调查测试得到一行原始数据,即得到了一个训练样本;假设做了N次调查测试,则一共得到N个训练样本,组成原始训练样本数据集O(yj,Xij)(i=1,2,...,M;j=1,2,...,N),其中:yj表示第j个训练样本的老年人热舒适评价结果,Xij中的元素xij表示第j个训练样本的第i个因素的原始数据。
4.如权利要求3所述的一种老年人热舒适预测方法,其特征在于:步骤2中的预处理指将影响因素中的连续变量进行离散化处理,预处理结果组成了老年人热舒适预测特征数据集SO(syj,SXij),其中:syj(j=1,2,...,N)表示第j个样本的老年人热舒适评价结果的预处理值,SXij(i=1,2,...,M;j=1,2,...,N)中的元素sxij表示第j个样本的第i个因素的预处理后的因素值,老年人热舒适预测特征数据集SO可表示为如下矩阵:
5.如权利要求1至4任意一项所述的一种老年人热舒适预测方法,其特征在于:步骤3、步骤4的具体步骤均包括以下子步骤:
子步骤1,随机抽取老年人热舒适预测特征数据集SO中15%的样本数据作为决策树分裂算法适用性赋权数据集C,85%的样本数据作为训练数据集D;
子步骤2,随机选取训练数据集D的二分之一样本作为决策树的试探数据集Ds;
子步骤3,基于C4.5节点分裂算法和基于CART算法分别构建决策树;
子步骤4,将数据集C分别输入构建完成的决策树进行仿真测试,得出基于C4.5分裂算法构建决策树用于老年人热舒适预测的准确率P1和将CART节点分裂算法应用于老年人热舒适预测的准确率P2。
6.如权利要求5所述的一种老年人热舒适预测方法,其特征在于:基于C4.5节点分裂算法构建决策树包括以下子步骤:
子步骤3.3.1,根节点数据集S等于试探数据集Ds;
子步骤3.3.2,根据式1计算S的信息熵:
式中:Info(S)表示数据集S的信息熵,|Sk|表示数据集S中老年人热舒适等于第k个类别的样本数,|S|表示数据集S的样本数,K是老年人热舒适类别总数;
子步骤3.3.3,将S根据因素xi的因素值分类,分类子集数目等于因素xi的因素值的个数,根据式2计算按照因素xi对S进行热舒适分类的信息熵:
式中:Info_xi(S)表示按照因素xi对S进行热舒适分类的信息熵;R表示数据集S中因素xi所具有的因素值的个数;r表示因素xi的第r个因素值;|Sr|表示数据集S中因素xi的因素值等于第r个因素值的样本数;Info(Sr)表示数据集S中因素xi的因素值等于第r个因素值的数据集的信息熵;
子步骤3.3.4,根据式3计算按照因素xi对S进行热舒适分类的信息增益量:
Gain(xi)=Info(S)-Info_xi(S)                (式3)
式中:Gain(xi)表示按照因素xi对S进行热舒适分类的信息增益量;
子步骤3.3.5,根据式4计算按照因素xi对S进行热舒适分类的分裂信息比率:
式中:SplitInfo(xi)表示按照因素xi对S进行热舒适分类的分裂信息比率;
子步骤3.3.6,根据式5计算按照因素xi对S进行热舒适分类的信息增益率:
式中:GainRatio(xi)表示按照因素xi对S进行热舒适分类的信息增益率;
子步骤3.3.7,选择信息增益率值GainRatio(xi)最大的因素作为决策树分裂规则,将S按照分裂因素的因素值个数分裂为多个子节点
子步骤3.3.8,将子节点数据集作为根节点数据集S,采用子步骤3.3.2~子步骤3.3.7的方法通过迭代进行决策树分裂,直到完整的决策树构建完成为止。
7.如权利要求5所述的一种老年人热舒适预测方法,其特征在于:基于CART算法构建决策树,包括以下子步骤:
子步骤4.3.1,根节点数据集S等于试探数据集Ds;
子步骤4.3.2,采用式6计算数据集S的基尼指数:
式中:Gini(S)表示数据集S的基尼指数;|Sk|表示数据集S中老年人热舒适等于第k个类别的样本数;|S|表示数据集S的样本数;K是老年人热舒适类别总数;
子步骤4.3.3,将数据集S根据因素xi是否等于第r个因素值划分成S1和S2两个部分,S1为S中因素xi等于第r个因素值的数据集,S2=S-S1;
子步骤4.3.4,采用式7计算将数据集S根据因素xi是否等于第r个因素值进行划分的基尼指数:
式中:Ginisplit(S,xi(r))表示将数据集S根据因素xi是否等于第r个因素值进行划分的基尼指数,|S1|表示数据集S1的样本数,|S2|表示数据集S2的样本数,|S|表示数据集S的样本数;Gini(S1)表示数据集S1的基尼指数,Gini(S2)表示数据集S2的基尼指数;
子步骤4.3.5,选择划分基尼指数Ginisplit(S,xi(r))最小值的因素及对应的因素值作为决策树的分裂规则,将S分裂为两个子节点;
子步骤4.3.6,将子节点数据集作为根节点数据集S,采用子步骤4.3.2~子步骤4.3.5的方法通过迭代进行决策树分裂,直到完整的决策树构建完成为止。
8.如权利要求1至4任意一项所述的一种老年人热舒适预测方法,其特征在于:步骤6的具体步骤包括以下子步骤:
子步骤6.1,随机抽取老年人热舒适预测特征数据集SO中85%样本作为决策树构建数据集D1,15%样本作为决策树赋权数据集D2;
子步骤6.2,生成行采样数据集 采用Bootstrap方法有放回地对决策树构建数据集D1实施行采样,随机抽取数据样本,抽取的样本数与构建数据集D1样本数相同,得到决策树构建子数据集
子步骤6.3,生成列采样数据集DL,对数据集 进行列采样,从M-1个因素中随机不放回的抽取m(m<<M-1,m为 的取整值)个因素,得到列采样数据集DL;
子步骤6.4,将列采样数据集DL作为根节点数据集S;
子步骤6.5,根据式8计算混和分裂指标Φ(S,xi(r));
Φ(S,xi(r))=β2Ginisplit(S,xi(r))-β1GainRatio(xi)      (式8)
式中,Φ(S,xi(r))为依据因素xi是否等于第r个因素值将S进行分类的混合分裂指标;
子步骤6.6,选取混合分裂指标Φ(S,xi(r))最小值的因素和因素值将S分裂为两个子节点;
子步骤6.7,将子节点数据集作为根节点数据集S,采用子步骤6.5~子步骤6.6的方法通过迭代进行决策树分裂,直到构建完整的决策树T1为止;
子步骤6.8,重复子步骤6.2~子步骤6.7,假设重复P次,形成P棵决策树T1,T2,…,TP,以此组成基于算法适用性混合分裂决策树的老年人热舒适预测随机森林;
子步骤6.9,对决策树棵数进行优化,保持m值不变,调整随机森林棵树P,当随机森林的泛化误差减少且趋于稳定时,对应的决策树棵数为最佳决策数棵树Q;
子步骤6.10,决策树的赋权,将决策树赋权数据集D2中的样本分别输入到Q棵决策树中,得到每棵决策树的老年人热舒适分类正确率wq,将每棵决策树的分类正确率作为权值赋予每棵决策树。
9.如权利要求8所述的一种老年人热舒适预测方法,其特征在于:步骤7的具体步骤包括:将待测老年人热舒适预测样本v(x1,x2,...,xm)输入到每棵决策树,根据式9计算老年人热舒适的最终预测结果:
其中,k表示老年人热舒适等级的类别;K表示老年人热舒适等级的类别总数,fqtree(v)=k表示第q决策树输出的老年人热舒适预测结果为第k个类别,wq为第q棵决策树的权值。

说明书全文

一种老年人热舒适预测方法

技术领域

[0001] 本发明属于建筑热湿环境仿真领域,具体涉及一种基于算法适用性混合分裂决策树随机森林的老年人热舒适预测方法。

背景技术

[0002] 我国人口老龄化速度持续加快,养老建筑的需求量正在逐年增加。随着人民生活平的不断提高,人们对室内环境热舒适的要求越来越来高,老年人也在不断的追求理想的养老居住环境。老年人是一个生理和心理具有特殊性的群体,健康舒适的室内环境对老年人来说显得尤为重要。老年人生活的室内热环境直接影响老年人的身心健康和生活质量。老年人的心理和生理与中青年人有很大的不同,老年人随着年龄的增长,生理机能逐渐退化,新陈代谢减缓,对热环境的敏感度变差,以及老年疾病的普遍性,使得老年人对热环境变化的适应能逐渐减弱。因此,老年人室内热环境的热舒适状况不仅影响到室内热舒适,而且还是影响老年人健康的重要因素。郭飞等人对大连市老年人和非老年人的热适应性进行对比研究,结果表明老年人的热中性温度和可接受的操作温度都低于非老年人。
[0003] 由于老年人的生理心理的特殊性,老年人热舒适预测涉及的因素远多于经典室内热舒适评价涉及的因素,将传统的热舒适评价用于老年人热舒适评价出现明显偏差,评价中信息处理不完整等不足。刘红等研究表明,采用目前的室内热环境评价标准来评价和预测老年人的热舒适性存在明显偏差。如何多维度并且准确地评价老年人居室的热环境及预测老年人的热舒适性,已经成为营造良好养老建筑热环境亟需解决的问题。
[0004] 在处理多维度信息热舒适评价及提高热舒适预测精度方面,国内外学者们开展了一些研究。由于机器学习具有高维信息处理能力强、处理数据量大、预测精度高等优点,基于机器学习的数据挖掘方法被用于热舒适预测。目前,被应用于多维度热舒适预测建模的数据挖掘方法有支持向量机SVM、BP神经网络、离散小波变换算法、贝叶斯网络等。
[0005] 机器学习中的决策树方法以其速度快、精度高、生成模式简单易懂以及容易转化成分类规则等优点,在数据挖掘领域被广泛地研究和应用。杜晨秋等采用决策树进行热舒适预测,对夏热冬冷地区自由运行居住建筑中的人员热舒适及影响因素和权重进行了预测分析
[0006] 随机森林算法是由Breiman提出的一种比较新的统计学习理论,采用决策树作为基分类器,随机生成多棵决策树进行预测。该算法以其预测精度高、抗噪能力强、适应范围广等优点,在数据挖掘领域被广泛地研究和应用。Tanaya Chaudhuri等人从生理参数信息出发,研究不同热状态下生理反应的性别差异,并利用随机森林进行统计分析和预测建模。Siliang Lu等人基于ASHRAE RP884数据集开发了随机森林热舒适模型来模拟温度设定点控制系统。Joyce Kim等人基于居住者的冷热行为开发随机森林模型预测个人的热偏好,并发现与传统模型相比,随机森林算法预测的准确率较高。
[0007] 随着随机森林应用越来越广泛,其不足之处随之显现。一是节点分裂算法与数据集的适用性未得到深入研究,同一节点分裂算法应用于不同数据集其预测不尽相同,针对同一数据集应用不同的节点分裂算法会也得到不同的决策树,使其预测也存在差异;二是随机森林的分类结果投票中,每棵决策树对各自的分类结果投出一票,生长效果差的决策树和生长效果好的决策树拥有同样的投票能力,这不利于得到客观科学的预测结果;而且随机森林在投票过程中未考虑到出现相同票数的情况,不利于分类。

发明内容

[0008] 本发明提供了一种提高了随机森林的分类正确率的基于算法适用性混合分裂决策树随机森林的老年人热舒适预测方法。
[0009] 本发明采用的技术方案是:
[0010] 一种老年人热舒适预测方法,其基于算法适用性混合分裂决策树随机森林,包括以下步骤:
[0011] 步骤1,确定老年人热舒适影响因素,构建原始训练样本数据集O;
[0012] 步骤2,对原始训练样本数据集O进行预处理,构建老年人热舒适预测特征数据集SO;
[0013] 步骤3,针对老年人热舒适预测特征数据集SO,判断C4.5节点分裂算法用于老年人热舒适预测的适用性,得出基于C4.5分裂算法构建决策树用于老年人热舒适预测的准确率P1;
[0014] 步骤4,针对老年人热舒适预测特征数据集SO,判断CART节点分裂算法的适用性,得出将CART节点分裂算法应用于老年人热舒适预测的准确率P2;
[0015] 步骤5,将P1和P2按照其在算术和中占的比例分别赋予C4.5节点分裂算法和CATR节点分裂算法权重β1和β2,β1+β2=1;
[0016] 步骤6,基于步骤5的算法适用性混合分裂决策树构建老年人热舒适预测随机森林;
[0017] 步骤7,采用训练好的随机森林进行老年人热舒适预测。
[0018] 进一步,步骤1中老年人热舒适影响因素包括:老年人个体信息、室内外物理参数、建筑本体特征、热环境可调节性;其中老年人个体信息包括:年龄、性别、健康状况、平均代谢率、服装热阻、老年人热舒适调节行为偏好;室内外物理参数包括:室内外干球温度、室内外相对湿度、室内速、室内表面辐射温度;建筑本体特征包括:建筑所在气候分区、建筑所在住区规划特征、建筑围护结构热工性能、房间楼层、房间朝向等;热环境可调节性包括:窗户的可开启性、窗帘的可调节性、加热设备可调节性、降温设备可调节行。
[0019] 进一步,假设步骤1中一共确定M个影响因素,采用向量Xi(i=1,2,...,M)表示;按照确定的影响因素收集相应因素的原始数据及老年人热舒适评价结果,每一次调查测试得到一行原始数据,即得到了一个训练样本;假设做了N次调查测试,则一共得到N个训练样本,组成原始训练样本数据集O(yj, )(i=1,2,...,M;j=1,2,...,N),其中:yj表示第j个训练样本的老年人热舒适评价结果,Xij中的元素xij表示第j个训练样本的第i个因素的原始数据。
[0020] 进一步,步骤2中的预处理指将影响因素中的连续变量进行离散化处理,预处理结果组成了老年人热舒适预测特征数据集SO(syj,SXij),其中:syj(j=1,2,...,N)表示第j个样本的老年人热舒适评价结果的预处理值,SXij(i=1,2,...,M;j=1,2,...,N)中的元素sxij表示第j个样本的第i个因素的预处理后的因素值,老年人热舒适预测特征数据集SO可表示为如下矩阵:
[0021]
[0022] 进一步,步骤3、步骤4的具体步骤均包括以下子步骤:
[0023] 子步骤1,随机抽取老年人热舒适预测特征数据集SO中15%的样本数据作为决策树分裂算法适用性赋权数据集C,85%的样本数据作为训练数据集D;
[0024] 子步骤2,随机选取训练数据集D的二分之一样本作为决策树的试探数据集Ds;子步骤3,基于C4.5节点分裂算法和基于CART算法分别构建决策树;
[0025] 子步骤4,将数据集C分别输入构建完成的决策树进行仿真测试,得出基于C4.5分裂算法构建决策树用于老年人热舒适预测的准确率P1和将CART节点分裂算法应用于老年人热舒适预测的准确率P2。
[0026] 进一步,基于C4.5节点分裂算法构建决策树包括以下子步骤:
[0027] 子步骤3.3.1,根节点数据集S等于试探数据集Ds;
[0028] 子步骤3.3.2,根据式1计算S的信息熵:
[0029]
[0030] 式中:Info(S)表示数据集S的信息熵,|Sk|表示数据集S中老年人热舒适等于第k个类别的样本数,|S|表示数据集S的样本数,K是老年人热舒适类别总数;子步骤3.3.3,将S根据因素xi的因素值分类,分类子集数目等于因素xi的因素值的个数,根据式2计算按照因素xi对S进行热舒适分类的信息熵:
[0031]
[0032] 式中:Info_xi(S)表示按照因素xi对S进行热舒适分类的信息熵;R表示数据集S中因素xi所具有的因素值的个数;r表示因素xi的第r个因素值;|Sr|表示数据集S中因素xi的因素值等于第r个因素值的样本数;Info(Sr)表示数据集S中因素xi的因素值等于第r个因素值的数据集的信息熵;
[0033] 子步骤3.3.4,根据式3计算按照因素xi对S进行热舒适分类的信息增益量:
[0034] Gain(xi)=Info(S)-Info_xi(S)  (式3)
[0035] 式中:Gain(xi)表示按照因素xi对S进行热舒适分类的信息增益量;
[0036] 子步骤3.3.5,根据式4计算按照因素xi对S进行热舒适分类的分裂信息比率:
[0037]
[0038] 式中:SplitInfo(xi)表示按照因素xi对S进行热舒适分类的分裂信息比率;
[0039] 子步骤3.3.6,根据式5计算按照因素xi对S进行热舒适分类的信息增益率:
[0040]
[0041] 式中:GainRatio(xi)表示按照因素xi对S进行热舒适分类的信息增益率;
[0042] 子步骤3.3.7,选择信息增益率值GainRatio(xi)最大的因素作为决策树分裂规则,将S按照分裂因素的因素值个数分裂为多个子节点
[0043] 子步骤3.3.8,将子节点数据集作为根节点数据集S,采用子步骤3.3.2~子步骤3.3.7的方法通过迭代进行决策树分裂,直到完整的决策树构建完成为止。
[0044] 进一步,基于CART算法构建决策树,包括以下子步骤:
[0045] 子步骤4.3.1,根节点数据集S等于试探数据集Ds;
[0046] 子步骤4.3.2,采用式6计算数据集S的基尼指数:
[0047]
[0048] 式中:Gini(S)表示数据集S的基尼指数;|Sk|表示数据集S中老年人热舒适等于第k个类别的样本数;|S|表示数据集S的样本数;K是老年人热舒适类别总数;
[0049] 子步骤4.3.3,将数据集S根据因素xi是否等于第r个因素值划分成S1和S2两个部分,S1为S中因素xi等于第r个因素值的数据集,S2=S-S1;
[0050] 子步骤4.3.4,采用式7计算将数据集S根据因素xi是否等于第r个因素值进行划分的基尼指数:
[0051]
[0052] 式中:Ginisplit(S,xi(r))表示将数据集S根据因素xi是否等于第r个因素值进行划分的基尼指数,|S1|表示数据集S1的样本数,|S2|表示数据集S2的样本数,|S|表示数据集S的样本数;Gini(S1)表示数据集S1的基尼指数,Gini(S2)表示数据集S2的基尼指数;
[0053] 子步骤4.3.5,选择划分基尼指数Ginisplit(S,xi(r))最小值的因素及对应的因素值作为决策树的分裂规则,将S分裂为两个子节点;
[0054] 子步骤4.3.6,将子节点数据集作为根节点数据集S,采用子步骤4.3.2~子步骤4.3.5的方法通过迭代进行决策树分裂,直到完整的决策树构建完成为止。
[0055] 进一步,步骤6的具体步骤包括以下子步骤:
[0056] 子步骤6.1,随机抽取老年人热舒适预测特征数据集SO中85%样本作为决策树构建数据集D1,15%样本作为决策树赋权数据集D2;
[0057] 子步骤6.2,生成行采样数据集 采用Bootstrap方法有放回地对决策树构建数据集D1实施行采样,随机抽取数据样本,抽取的样本数与构建数据集D1样本数相同,得到决策树构建子数据集
[0058] 子步骤6.3,生成列采样数据集DL,对数据集 进行列采样,从M-1个因素中随机不放回的抽取m(m<<M-1,m为 的取整值)个因素,得到列采样数据集DL;
[0059] 子步骤6.4,将列采样数据集DL作为根节点数据集S;
[0060] 子步骤6.5,根据式8计算混和分裂指标Φ(S,xi(r));
[0061] Φ(S,xi(r))=β2Ginisplit(S,xi(r))-β1 GainRatio(xi)  (式8)
[0062] 式中,Φ(S,xi(r))为依据因素xi是否等于第r个因素值将S进行分类的混合分裂指标;
[0063] 子步骤6.6,选取混合分裂指标Φ(S,xi(r))最小值的因素和因素值将S分裂为两个子节点;
[0064] 子步骤6.7,将子节点数据集作为根节点数据集S,采用子步骤6.5~子步骤6.6的方法通过迭代进行决策树分裂,直到构建完整的决策树T1为止;
[0065] 子步骤6.8,重复子步骤6.2~子步骤6.7,假设重复P次,形成P棵决策树T1,T2,…,TP,以此组成基于算法适用性混合分裂决策树的老年人热舒适预测随机森林;
[0066] 子步骤6.9,对决策树棵数进行优化,保持m值不变,调整随机森林棵树P,当随机森林的泛化误差减少且趋于稳定时,对应的决策树棵数为最佳决策数棵树Q;
[0067] 子步骤6.10,决策树的赋权,将决策树赋权数据集D2中的样本分别输入到Q棵决策树中,得到每棵决策树的老年人热舒适分类正确率wq,将每棵决策树的分类正确率作为权值赋予每棵决策树。
[0068] 进一步,步骤7的具体步骤包括:将待测老年人热舒适预测样本v(x1,x2,...,xm)输入到每棵决策树,根据式9计算老年人热舒适的最终预测结果:
[0069]
[0070] 其中,k表示老年人热舒适等级的类别;K表示老年人热舒适等级的类别总数,表示第q决策树输出的老年人热舒适预测结果为第k个类别,wq为第q棵决策树的权值。
[0071] 本发明的有益效果:本发明主要在三个方面改进随机森林方法,以提高随机森林应用于老年人热舒适预测的算法适用性以及预测客观性,提供一种应用于多维度信息的老年人热舒适预测方法。首先,本发明针对决策树节点分裂算法应用于老年人热舒适预测训练样本的适用性进行实验,得到C4.5和CART决策树节点分裂算法在老年人热舒适预测数据集的适用性评价;其次,本发明根据节点分裂算法的适用性,构建混合决策树分裂算法,旨在获得最优决策树节点分裂规则,以此构成随机森林基分类器;最后,对随机森林的分类结果的投票进行改进,对生长决策树赋予一定的权值,采用决策树加权投票策略,使得决策树具有与其生长效果相应的投票能力,解决出现相同票数的情况,提高了随机森林的分类正确率。附图说明
[0072] 图1是本发明的流程示意图。

具体实施方式

[0073] 下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
[0074] 参见图1,本实施例提供了一种基于算法适用性混合分裂决策树随机森林的老年人热舒适预测方法,结合一个老年人热舒适预测案例来对本发明进行进一步说明。
[0075] 具体步骤如下:
[0076] 步骤1.确定老年人热舒适预测影响因素,构建原始数据集;
[0077] 从以下四个方面确定老年人热舒适评价因素:老年人个体信息、室内外物理参数、建筑本体特征、热环境可调节性,一共确定了15个因素,采用向量Xi(i=1,2,...,15)表示;x1=“年龄”、x2=“健康状况”、x3=“性别”、x4=“居住楼层”、x5=“居住朝向”、x6=“平均代谢率”、x7=“服装热阻”、x8=“室内干球温度”、x9=“室内辐射温度”、x10=“室内风速”、x11=“室内相对湿度”、x12=“窗户的打开状态”、x13=“窗帘的可调节性”、x14=“室外干球温度”、x15=“室外相对湿度”;通过文献查阅获得到564个训练样本数据集;
[0078] 步骤2.对原始数据集进行预处理,构建特征数据集;
[0079] 将连续变量进行离散化处理,并对所有因素进行有限等级赋值;例如:因素x2(“性别”)的值域为:{男=0,女=1};因素x3(“健康状况”)的值域为:{自理=1,介助=2,介护=3};因素x4(“居住楼层”)的值域为:{一层=1,二层=2,三层=3,四层=4,五层=5,…};老年人热舒适评价结果类别syj采用7级表示,类别值域为:{冷=1,凉=2,微凉=3,适中=4,微暖=5,暖=6,热=7};预处理后得到特征数据集SO,可表示为如下矩阵:
[0080]
[0081] 步骤3.针对本案例老年人热舒适预测特征数据集SO,判断C4.5节点分裂算法用于老年人热舒适预测的适用性,包括以下子步骤:
[0082] 子步骤3.1:随机选取特征数据集SO中的84个样本作为赋权数据集C,480个样本作为训练数据集D;
[0083] 子步骤3.2:并随机选取训练数据集中的240个样本作为决策树的试探数据集Ds;
[0084] 子步骤3.3:基于C4.5节点分裂算法构建决策树,包括以下子步骤:
[0085] 子步骤3.3.1:根节点数据集S等于试探数据集Ds;
[0086] 子步骤3.3.2:根据式1计算S的信息熵:
[0087]
[0088] 式中:Info(S)表示数据集S的信息熵,|Sk|表示数据集S中老年人热舒适等于第k个类别的样本数,|S|表示数据集S的样本数,K是老年人热舒适类别总数;子步骤3.3.3:将S根据因素xi的因素值分类,分类子集数目等于因素xi的因素值的个数,根据式2计算按照因素xi对S进行热舒适分类的信息熵:
[0089]
[0090] 式中:Info_xi(S)表示按照因素xi对S进行热舒适分类的信息熵;R表示数据集S中因素xi所具有的因素值的个数;r表示因素xi的第r个因素值;|Sr|表示数据集S中因素xi的因素值等于第r个因素值的样本数;Info(Sr)表示数据集S中因素xi的因素值等于第r个因素值的数据集的信息熵;
[0091] 子步骤3.3.4:根据式3计算按照因素xi对S进行热舒适分类的信息增益量:
[0092] Gain(xi)=Info(S)-Info_xi(S)  (式3)
[0093] 式中:Gain(xi)表示按照因素xi对S进行热舒适分类的信息增益量;
[0094] 子步骤3.3.5:根据式4计算按照因素xi对S进行热舒适分类的分裂信息比率:
[0095]
[0096] 式中:SplitInfo(xi)表示按照因素xi对S进行热舒适分类的分裂信息比率;
[0097] 子步骤3.3.6:根据式5计算按照因素xi对S进行热舒适分类的信息增益率:
[0098]
[0099] 式中:GainRatio(xi)表示按照因素xi对S进行热舒适分类的信息增益率;
[0100] 子步骤3.3.7:选择信息增益率值GainRatio(xi)最大的因素作为决策树分裂规则,将S按照分裂因素的因素值个数分裂为多个子节点;
[0101] 子步骤3.3.8:将子节点数据集作为根节点数据集S,采用子步骤3.3.2~子步骤3.3.7的方法通过迭代进行决策树分裂。本步骤通过在MATLAB中编写相应程序完成,当节点的样本数小于3时,节点结束分裂,决策树根节点的分裂因素为因素x3(“健康状况”)(GainRatio(xi)=0.3688),最后一层的节点分裂因素为x8=“室内干球温度”(GainRatio(xi)=0.2647),从该层分裂出7个叶子节点,结束分裂;
[0102] 子步骤3.4:将数据集C输入构建完成的决策树进行仿真测试,构建基于C4.5算法的决策树,得到决策树预测正确率P1=76.19%;
[0103] 步骤4.针对老年人热舒适预测特征数据集SO,判断CART节点分裂算法的适用性,包括以下子步骤:
[0104] 子步骤4.1:随机选取特征数据集SO中的84个样本作为赋权数据集C,480个样本作为训练数据集D;
[0105] 子步骤4.2:并随机选取训练数据集中的240个样本作为决策树的试探数据集Ds;
[0106] 子步骤4.3:基于CART算法构建决策树,包括以下子步骤:
[0107] 子步骤4.3.1:根节点数据集S等于试探数据集Ds;
[0108] 子步骤4.3.2:采用式6计算数据集S的基尼指数:
[0109]
[0110] 式中:Gini(S)表示数据集S的基尼指数;|Sk|表示数据集S中老年人热舒适等于第k个类别的样本数;|S|表示数据集S的样本数;K是老年人热舒适类别总数;
[0111] 子步骤4.3.3:将数据集S根据因素xi是否等于第r个因素值划分成S1和S2两个部分,S1为S中因素xi等于第r个因素值的数据集,S2=S-S1;
[0112] 子步骤4.3.4:采用式7计算将数据集S根据因素xi是否等于第r个因素值进行划分的基尼指数:
[0113]
[0114] 式中:Ginisplit(S,xi(r))表示将数据集S根据因素xi是否等于第r个因素值进行划分的基尼指数,|S1|表示数据集S1的样本数,|S2|表示数据集S2的样本数,|S|表示数据集S的样本数;Gini(S1)表示数据集S1的基尼指数,Gini(S2)表示数据集S2的基尼指数;
[0115] 子步骤4.3.5:选择划分基尼指数Ginisplit(S,xi(r))最小值的因素及对应的因素值作为决策树的分裂规则,将S分裂为两个子节点;
[0116] 子步骤4.3.6:将子节点数据集作为根节点数据集S,采用子步骤4.3.2~子步骤4.3.5的方法通过迭代进行决策树分裂,经过41次迭代分裂,完成决策树构建;
[0117] 步骤4.7:将数据集C输入构建的决策树进行仿真测试,得出将CART节点分裂算法构应用于老年人热舒适预测的准确率P2=89.29%2;
[0118] 步骤5.将P1和P2按照其在算术和中占的比例分别赋予C4.5节点分裂算法和CATR节点分裂算法权重β1和β2,即 β2=1-β1=0.54;
[0119] 步骤6.基于算法适用性混合分裂决策树构建老年人热舒适预测随机森林,包括以下子步骤:
[0120] 子步骤6.1随机不放回地选取特征数据集SO中的84个样本作为测试集V,随机不放回地抽取SO中的72个样本作为决策树赋权数据集D2,随机不放回地抽取SO中的408个样本作为决策树构建数据集D1;
[0121] 子步骤6.2:生成行采样数据集
[0122] 采用Bootstrap方法有放回地对决策树构建数据集D1实施行采样,随机抽取数据样本,抽取的样本数与构建数据集D1样本数相同,得到决策树构建子数据集 子步骤6.3:生成列采样数据集DL
[0123] 对数据集 进行列采样,从15个因素中随机不放回的抽取m=3( 的取整值)个因素,得到列采样数据集DL;
[0124] 子步骤6.4:将列采样数据集DL作为根节点数据集S;
[0125] 子步骤6.5:根据式8计算混和分裂指标Φ(S,xi(r));
[0126] Φ(S,xi(r))=β2Ginisplit(S,xi(r))-β1GainRatio(xi)  (式8)
[0127] 式中,Φ(S,xi(r))为依据因素xi是否等于第r个因素值将S进行分类的混合分裂指标;
[0128] 子步骤6-6:选取混合分裂指标Φ(S,xi(r))最小值的因素和因素值将S分裂为两个子节点;
[0129] 子步骤6.7:将子节点数据集作为根节点数据集S,采用子步骤6.5~子步骤6.6的方法通过迭代进行决策树分裂,直到构建完整的决策树T1为止;
[0130] 子步骤6.8:按照决策树初始值P0取50,重复子步骤6.2~子步骤6.7,,形成50棵决策树T1,T2,…,T50,以此组成基于算法适用性混合分裂决策树的老年人热舒适预测随机森林;
[0131] 子步骤6.9:对决策树颗数进行优化;
[0132] 保持分裂属性的个数3不变,分别选取了50、100、150、…、950、1000棵决策树,进行20次随机森林棵树优化实验,获得随机森林的袋外错误率,且发现随机森林的袋外错误率随着决策树棵数的增加不断减少,当决策树的棵数为300棵时袋外错误率减少且趋于稳定,本案选取最佳决策数棵树为300;
[0133] 子步骤6.10:决策树的赋权;
[0134] 将决策树赋权数据集D2中的样本分别输入到300棵决策树中,得到每棵决策树的老年人热舒适分类正确率wq,将每棵决策树的分类正确率作为权值赋予每棵决策树;
[0135] 步骤7.采用训练好的随机森林进行老年人热舒适预测;
[0136] 将测试集V样本V(x1,x2,...,x15)输入到每棵决策树,根据式9计算老年人热舒适的最终预测结果:
[0137]
[0138] 其中,k表示老年人热舒适等级的类别;K表示老年人热舒适等级的类别总数,表示第q决策树输出的老年人热舒适预测结果为第k个类别,wq为第q棵决策树的权值。
[0139] 本案例老年人热舒适预测结果如表一,其预测结果的正确率为86.90%,均方根误差RMSE=0.4499,均方根对数误差RMLSE=0.0105。
[0140] 表1 基于算法适用性混合分裂决策树随机森林的老年人热舒适案例预测结果[0141]
[0142] 综合上述的预测结果可以看出,本文所提出的老年人热舒适预测模型在历史数据集上得到良好的运行结果,且预测准确率较高。随机森林预测老年人热舒适得到的结果科学合理,具有参考意义。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈