首页 / 专利库 / 人工智能 / 贝叶斯网络 / 一种利用机器学习回归模型计算住宅价格影响因素的方法

一种利用机器学习回归模型计算住宅价格影响因素的方法

阅读:274发布:2020-05-08

专利汇可以提供一种利用机器学习回归模型计算住宅价格影响因素的方法专利检索,专利查询,专利分析的服务。并且本 发明 公开了一种利用 机器学习 回归模型计算住宅价格影响因素的方法,包括以下步骤:步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;步骤3:构建基于行政区划的机器学习特征数据集;步骤4:建立机器学习模型,并输入 训练数据 训练该模型;步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。本发明通过利用机器学习对特征进行回归计算,得到住宅价格影响因素的特征权重模型,能够更好地对住宅价格进行预测和分析。,下面是一种利用机器学习回归模型计算住宅价格影响因素的方法专利的具体信息内容。

1.一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,包括以下步骤:
步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;
步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;
步骤3:构建基于行政区划的机器学习特征数据集;
步骤4:建立机器学习模型,并输入训练数据训练该模型;
步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。
2.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤1的具体过程为:
步骤1-1:获取待计算的行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征;
步骤1-2:对获取到的住宅交易信息及其房屋特征进行分类和编码标记;
步骤1-3:建立住宅成交价格与房屋特征数据的关联,形成区域-时间切面的特征数据集。
3.根据权利要求2所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2的具体过程为:
步骤2-1:利用散点图、直方图和箱形图分析数据关联特征;
步骤2-2:从步骤1-1中获取的房屋特征中筛选出若干影响房屋价格的特征变量;
步骤2-3:根据步骤1-3中得到的特征数据集,将步骤2-2中筛选出的特征变量的特征值进行量化。
4.根据权利要求3所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2-2中,影响房屋价格的特征变量包括12项区域性特征组和11项个别性特征组。
5.根据权利要求3所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤2-3中,当筛选出的特征变量为连续变量时,则直接量化;当筛选出的特征变量为分类变量时,则评分量化。
6.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤3中,采用贝叶斯统计法将已有特征分组形成新特征,其表达式为:
其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值。
7.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤4的具体过程为:
步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵
存在均方误差 其中n是使用样本的数量,y和x都是训练数据
集已知的样本数据;
步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法加速训练迭代,其表达式如下:
通过在L(2)添加权重衰减项 得到如下表达式:
同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
8.根据权利要求7所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;
根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的群的数据模型达到最优化。
9.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。
10.根据权利要求1所述的一种利用机器学习回归模型计算住宅价格影响因素的方法,其特征在于,所述步骤1中,通过住宅交易数据库和高德开放平台LBS服务获取数据。

说明书全文

一种利用机器学习回归模型计算住宅价格影响因素的方法

技术领域

[0001] 本发明涉及住宅价格影响因素研究技术领域,具体是一种利用机器学习回归模型计算住宅价格影响因素的方法。

背景技术

[0002] 房地产作为国民经济的重要产业其发展日趋稳健。2018年全国房地产开发投资12.0264万亿元,其中住宅投资8.5192万亿元,占房地产开发投资的比重为70.8%。房地产业占我国GDP比重达到3.8%,影响上下游行业达50多个,其对于拉动经济增长、提高财政及居民财产性收入、扩大就业等方面都发挥着重要作用。价格作为市场经济的关键变量起着调节资源有效配置的职能,住宅价格指数作为房产价格的指示变量,备受政府、投资者、消费者的关注,如何准确衡量房地产价格,对于价格的影响因素相关性分析,这个问题由来已久。
[0003] 住房的耐久性、异质性、固定性是房屋作为特殊商品的重要属性,故而与其他商品相比需要更多的信息搜寻成本,而且也大大增加了住房定价的难度。城市住宅具耐久性特点导致住宅市场涉及到新开发住宅和存量住宅市场,即新建商品住房与二手房存量住房。随着我国房地产业的快速发展,二手房逐渐成为市场交易的主,部分地区二手房的交易量已远超新建商品房,二手房价格的变化已经成为我国社会经济发展的重要参考。
[0004] 国外研究表明Hedonic方法是分析房屋这种异质性商品的理想工具。自1967年此方法首次用于房屋价格以来,经历了半个世纪的发展,至今在发达国家依然没有形成统一的技术基准,很多问题仍有待研究。国内关于Hedonic方法的研究时间更短,仅有10余年历史。由于该方法基于效用分析的逻辑,使得东、西方住房制度的不同、文化偏好的差异都会对建模结果产生较大影响。随着大数据的发展,海量数据让我们有更多的信息源以确定Hedonic影响因子,并大大提高建模结果的稳健性平。
[0005] 目前,在房价预测与价格特征相关性分析问题的研究方法主要有以下方法:1、基于传统逻辑回归方法预测,选择相关系数较高的特征,简单编码后,利用最小二乘法对数据进行拟合;2、基于现有软件的集成模型,使用多个模型得到多个预测结果,在其中选取可能性最大的一种。
[0006] 传统的房价预测多数是专业的估价师基于近段时间来某个地区基础房价、房源供给关系、政策以及自身经验给出房价预测。此类方法一般都严重依赖于估价师的主观判断以及经验,针对同一区域的房价,不同的估价师最终得出的房价预测可能不同。可见传统的房价预测方法均存在极大局限性,其房价预测结果不够准确。

发明内容

[0007] 为克服现有技术的不足,本发明提供了一种利用机器学习回归模型计算住宅价格影响因素的方法,基于房地产住宅交易大数据,通过从房屋特征中筛选若干能够影响房屋价格的特征变量,利用多层神经网络提取数据特征,然后利用机器学习对特征进行回归计算,得到住宅价格影响因素的特征权重模型,从而更好地对住宅价格进行预测和分析。
[0008] 本发明解决上述问题所采用的技术方案是:
[0009] 一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:
[0010] 步骤1:获取数据,并对数据进行分类和标记,建立数据之间的关联,形成特征数据集;
[0011] 步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;
[0012] 步骤3:构建基于行政区划的机器学习特征数据集;
[0013] 步骤4:建立机器学习模型,并输入训练数据训练该模型;
[0014] 步骤5:利用回归模型计算房屋价格影响因素及其影响因子权重。
[0015] 进一步地,作为优选技术方案,所述步骤1的具体过程为:
[0016] 步骤1-1:获取待计算的行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征;
[0017] 步骤1-2:对获取到的二手房交易信息及其房屋特征进行分类和编码标记;
[0018] 步骤1-3:建立住宅成交信息与房屋特征数据的关联,形成区域-时间切面的特征数据集。
[0019] 进一步地,作为优选技术方案,所述步骤2的具体过程为:
[0020] 步骤2-1:利用散点图、直方图和箱形图分析数据关联特征;
[0021] 步骤2-2:从步骤1-1中获取的房屋特征中筛选出若干影响房屋价格的特征变量;
[0022] 步骤2-3:根据步骤1-3中得到的特征数据集,将步骤2-2中筛选出的特征变量的特征值进行量化。
[0023] 进一步地,作为优选技术方案,所述步骤2-2中,影响房屋价格的特征变量包括12项区域性特征组和11项个别性特征组。
[0024] 进一步地,作为优选技术方案,所述步骤2-3中,当筛选出的特征变量为连续变量时,则直接量化;当筛选出的特征变量为分类变量时,则评分量化。
[0025] 进一步地,作为优选技术方案,所述步骤3中,采用贝叶斯统计法将已有特征分组形成新特征,其表达式为:
[0026]
[0027] 其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值。
[0028] 进一步地,作为优选技术方案,所述步骤4的具体过程为:
[0029] 步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
[0030] 步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵[0031]
[0032] 存在均方误差 其中n是使用样本的数量,这里y和x都是训练数据集已知的样本数据;
[0033] 步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法加速训练迭代,其表达式如下:
[0034]
[0035]
[0036] 通过在L(2)添加权重衰减项 得到如下表达式:
[0037]
[0038] 同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
[0039]
[0040] 进一步地,作为优选技术方案,所述步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的群的数据模型达到最优化。
[0041] 进一步地,作为优选技术方案,还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。
[0042] 进一步地,作为优选技术方案,所述步骤1中,通过住宅交易数据库和高德开放平台LBS服务获取数据。
[0043] 本发明相比于现有技术,具有以下有益效果是:
[0044] 本发明以房地产住宅交易大数据为基础,利用修正后的特征价格构建机器学习回归模型,预测对住宅价格产生影响的各项特征项目及其影响权重值。本发明提出了一种基于区域性因素和案例个别性特征组合的新思路,并基于机器学习模型结构进行逐层训练网络结构,相较于传统手工标记提取特征和常见机器学习方法,能有效发现数据内在的非线性特征,更好的解决房屋价格预测问题。附图说明
[0045] 图1为本发明的流程图
[0046] 图2为房屋面积变化与最终成交价格相关度的分布图;
[0047] 图3为房屋样本的楼层与价格的二元相关性分布图。

具体实施方式

[0048] 下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
[0049] 实施例
[0050] 如图1所示,本发明较佳实施例所示的一种利用机器学习回归模型计算住宅价格影响因素的方法,包括以下步骤:
[0051] 步骤1:获取待计算行政区划和时间跨度范围内的各个小区的住宅交易信息及其房屋特征,并对已获取到的数据进行分类和编码标记,建立住宅成交信息与房屋特征数据的关联,形成区域-时间切面的特征数据集,这里的区域-时间切面特征数据集指的是在机器学习领域,一个相对时间段内,指定行政区划的训练数据集。
[0052] 具体地,待计算小区和周边小区共同构成了城市区域地块,将其定义为区位性特征,表1所示为区位特征观测指标体系,其包括3个一级指标、12个二级指标以及每个二级指标对应的特征观察组详细说明,我们可以根据表1进行区域性特征量化;住宅交易大数据体现为单个房屋样本交易数据,将其定义为个别性特征,表2所示为个别特征观测指标体系,其包括2个一级指标、11个二级指标以及每个二级指标对应的特征观察组详细说明,我们可以根据表2进行个别性特征量化;区位性特征与样本个别性特征存在的对应关系,此时需要进一步进行数据清理,将相同城市区域地块的交易样本进行对应,同时标定房屋交易样本所在地块的经纬度坐标。通过GPS定位信息,使用高德地理数据开放平台服务,根据表1进一步的量化区域地块数据特征,形成区域-时间切面的特征数据集。
[0053] 步骤2:根据特征数据集,对影响房屋价格的特征变量进行量化;具体地,输出部分数据,观察数据特征,区别类别性特征与数值型特征;逐一分析房价与特征变量的关系,计算房屋价格因变量的斜度和峭度,根据直方图了解因变量分布情况;多因素分析,通过散点、直方、气泡图等图表了解各特征之间的关系;对类型特征绘制箱型图,进一步确定其特征类型;通过热力图,得到各特征间的相关系数,方便特征工程;使用个数值型特征的平均值,填充住宅交易数据库中的样本缺失值;计算样本销售日期和建筑日期之间的间隔,形成新特征;计算样本房屋面积与楼层数比值,形成新特征;计算室、厅、卫比值,形成新特征;根据经纬度计算房屋与周边地块房价最高/最低房屋的距离,形成新特征;计算停车位数量与小区户数的比值,形成新特征;
[0054] 表1区位性特征对应的观测指标体系
[0055]
[0056] 表2个别性特征对应的观测指标体系
[0057]
[0058] 步骤3:构建基于行政区划的机器学习特征数据集;具体地,利用贝叶斯统计法,依次将区域-时间切面的组内特征数据计算区间分量,其表达式为:
[0059]
[0060] 其中,μ为该特征在数据集中的算术平均值,σ为该特征出现次数,τ为计入组合特征的最小出现次数,x为目前特征组的均值;
[0061] 步骤4:建立机器学习模型,并输入训练数据训练该模型,这里的训练数据指的是已有房屋交易数据经数据量化后得到的训练数据集;具体过程如下:
[0062] 步骤4-1:建立训练数据集D={(x1,y),(x2,y),...,(xm,y),xi∈Rd},其中,xi为第i特征,d为特征数量,y为训练数据集的预测值;
[0063] 步骤4-2:定义三层神经网络,对训练数据(xk,yk),通过激活函数矩阵[0064]
[0065] 存在均方误差 其中n是使用样本的数量,这里y和x都是训练数据集已知的样本数据,该函数的计算需要多个训练样本;
[0066] 步骤4-3:假定随机样本的代价近似等于总体的代价,从而应用梯度下降算法,加速训练迭代,其表达式如下:
[0067]
[0068]
[0069] 通过在L(2)添加权重衰减项 得到如下表达式:
[0070]
[0071] 同时在计算权值梯度时首先要乘衰减系数,于是得到如下表达式:
[0072]
[0073] 经不断地训练,形成某个特定时段的城市地块特征影响权重模型,再利用特征数据剥离后的测试数据集进行准确度预测,逐步将误差精度缩减至0.11,表示该模型可以准确预测89%特征权重。
[0074] 上述步骤4-3中,通过增加权重衰减,能够有效抑制过拟合,从而避免房价的变化对于特征因子的选择和权重过于重现训练数据集的已有数值,提高预测的准确性。
[0075] 在本实施例的步骤4-3中,根据特征变量存在的层级关系,通过分层分批加速迭代过程;根据不同的城市特征剥离部分特征变量,多次训练,通过不断地调参让不同城市的地块群的数据模型达到最优化。
[0076] 不同的城市(行政区划)在一个相同的评估指标体系中,可能相同的因素(例如层高)对于价格的敏感程度不一样,即特定城市的房屋价格,受不同影响因素和其对应的因子会不同,本发明通过不断的训练、调参,能够让不同城市的地块群的数据模型达到最优化,从而能够提高价格预测的准确度。
[0077] 下面,结合实例对本发明的实现过程进行说明。
[0078] 一、形成训练数据集
[0079] 对某评估目标进行估价时,首先需要了解该标的物所在地块的整体数据概况,首先根据评估目标所在位置,确定评估目标所在的城市行政区划和所属地块。将该地块内收录的所有商业小区基础信息从数据库从提取出来,得到该地块内小区基础数据如表3所示:
[0080] 表3行政区小区基础数据
[0081]
[0082]
[0083] 根据地块内的小区分布基础数据集,对照表1所示的区位性特征对应的观测指标体系,形成对应小区的区域性数据特征值。
[0084] 以“学校”特征值计算为例,需要读取该小区的GPS坐标,以该GPS坐标为原点,分别以100米、400米、800米、1600米为半径搜索周边的幼儿园、中小学和其它K12培训机构,此处搜索半径的步长应当根据地块所在行政区的总体教学资源富集程度分别测算。
[0085] 通过综合对比相应教育资源的临近程度,将该小区的“学校”这一特征属性进行等级分类,分别标注为1-5个等级,代表该小区住户受教育的便利程度,形成可量化指标。
[0086] 表4行政区小区对应区域特征数据集
[0087]
[0088] 此时,评估标的物所属的行政区划内小区特征数据集已初步形成。此项小区特征值量化评估,需要每半年通过程序调度自动化和人工评估相结合的方法进行数据刷新并持久化到数据库。
[0089] 接下来,从数据库中读取上述地块内的所有房屋交易样本,通过《个别性特征对应的观测指标体系》根据房屋交易样本生成个别性因素数据特征。
[0090] 以“装修”特征为例,通过字典分类的方法,将房屋样本的装修状况划分为“豪华装修、精装修、简单装修、清水房”四级,分别用1-4数字代替进行阶段性量化指标,形成的房屋标本特征数据集如表5所示。
[0091] 表5房屋样本特征数据集
[0092]
[0093] 根据小区与房屋样本之间的1→N对应关系,通过小区数据集与房屋样本数据集进行等值连接,形成具备时点价格和影响因素特征的训练数据集,房屋价格特征数据集如表6所示。
[0094] 表6房屋价格特征数据集
[0095]
[0096] 二、逐个归一化影响因子并评估特征值在最终价格中的影响权重
[0097] 如图2所示,以房屋面积对价格影响为例,图中实线和虚线分别标注了同一城市的两个地块内所有房屋样本,将房屋面积变化与最终成交价格相关度的分布情况,图示中横坐标为房屋面积,此处将房屋面积按照7平米步长进行分段汇总,纵坐标为该面积区间的房屋价格指数。
[0098] 从示例中可以明显看出在两个不同的城市地块之间,相同面积的房屋样本,其成交价格影响指数存在显著的区域性差异。随着房屋建筑面积的数量阶段性增加,其对于归一化后的房屋价格指数的影响程度不同。
[0099] 在图示中实线标注的地块样本数据集,房屋的价格指数对于面积变化的相关度不高。在单个面积区间内,其价格分布差异(线段长度),随着房屋面积的增长,价格分布的变化幅度相对稳定。虚线标注的行政区数据集中,价格指数对于房屋面积的变化反应相对敏感,随着面积的增长,价格指数的分布差异逐渐变大,表示虚线标注的地块的价格与房屋面积特征呈现较大的相关性。
[0100] 通过模型的多批次训练,依次评估价格与其影响因素的相关性特征值,可以很好的反应出价格指数在不同城市与地块之间的关联性差异。
[0101] 本实施例还包括数据清洗步骤,其具体过程为:在获取的原始数据中,对缺失特征数据项采用中位数或平均值补全;房屋价格采用拉依达准则剔除异常值,各特征变量采用隔离森林算法剔除离群值。中位数、平均数补全用于填充数据缺失项,由于数据训练集很难做到所有的数据都完整,通过该项操作,可根据指标体系进行人为选择。拉依达准则用于删除训练数据中的某一行数据,比如,房屋价格明显偏离于群体值,因为价格值是连续值;其它影响因素的值是编码值,没有连续性,例如,房屋朝向只有1-8,这个值本身不具备连续性特征。
[0102] 通过大量的数据样本建立的训练数据模型,可以有效的反应上述各房屋价格影响因子的权重分布,以房屋样本的楼层-价格二元相关性为例,在图3中,可以明显地反映出样本楼层在价格指数模型的趋中性。在所示的样本集训集所反应的态势分布中,可以通过数据集的均值、方差剔除参与计算的离群值,并逐步回归计算至合理的影响指数因子。
[0103] 利用机器学习方法处理大数据样本,其实质是利用数理分析方法对于房屋价格指数及其影响因子进行科学计算。相当于传统房屋估价行业所采取的经验估价法,可以更好的客观反应价格变化,分析其价格变化的相关性因素。
[0104] 通过上述方法,能够有效地发现数据内在的非线性特征,更精准地预测出住宅价格产生影响的各项特征项目及其影响权重值,从而更好地解决房屋价格预测问题,便于更好地分析房屋价格。
[0105] 如上所述,可较好地实现本发明。
[0106] 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
高效检索全球专利

专利汇是专利免费检索,专利查询,专利分析-国家发明专利查询检索分析平台,是提供专利分析,专利查询,专利检索等数据服务功能的知识产权数据服务商。

我们的产品包含105个国家的1.26亿组数据,免费查、免费专利分析。

申请试用

分析报告

专利汇分析报告产品可以对行业情报数据进行梳理分析,涉及维度包括行业专利基本状况分析、地域分析、技术分析、发明人分析、申请人分析、专利权人分析、失效分析、核心专利分析、法律分析、研发重点分析、企业专利处境分析、技术处境分析、专利寿命分析、企业定位分析、引证分析等超过60个分析角度,系统通过AI智能系统对图表进行解读,只需1分钟,一键生成行业专利分析报告。

申请试用

QQ群二维码
意见反馈