基于集成学习的二手房交易价格预测研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:wolfzz88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2018年,二手房交易规模占全国住宅销售规模的34.1%。二手房交易过程较新建房交易更为复杂,其中八成的消费者在购买二手房时需要中介。然而中介机构为了攫取高额利润,常在房屋价格上弄虚作假。此不良行为不仅对消费者造成经济损失,同时也导致交易市场风气败坏,秩序混乱。因此,研究二手房的实际交易价格具有明显的现实意义。本文采用“链家”平台2019年度上海市浦东区所有已成交二手房源的相关数据。另外,借鉴于特征价格理论,本文依据房源经纬度进行了百度地图POI数据爬取,并将其作为房源的区位因素进行研究。由于直接抓取的数据具有数据缺失、数据噪声、数据冗余、数据集不均衡、离群点等问题,故本文首先通过数据清洗的手段,将其转换为可供统计和建模的干净数据,并以二手房基本属性、行为属性、交易属性及区位属性进行特征划分和说明。其次,重点对交易属性进行统计分析,通过抽样对挂牌价格和成交价格进行对比,指明了两者差价的统计规律,并指出以挂牌价格作为二手房交易参考价的局限性。再次,对另外三个属性的特征分布也进行了简单考察。并详细探究了各个特征与成交价格的相关情况。为了有效地应对二手房数据的样本繁杂和房源特征不均衡特点,本文通过构建关于决策树的两种集成模型:随机森林和Xgboost,并综合运用网格搜索交叉验证的方式进行参数寻优,通过采用多种模型性能评价指标对所建模型的预测性能进行评价。结果表明:两种模型的拟合度均表现良好,其中基于Bagging集成方法的随机森林模型的预测精度要优于基于Boosting集成方法的Xgboost模型。并以特征重要性排序图指明四个属性对提升模型预测性能均有贡献,并给出相应贡献的特征排序。遂基于Xgboost算法的特征重要性进行特征选择,并结合随机森林的预测结果进行模型融合。融合后模型的预测性能明显高于两种初始模型,且融合模型的预测误差明显小于挂牌价格与成交价格的差价,说明融合模型的预测结果比挂牌价格更具备交易参考性。与此同时,相关研究结果能够对二手房产实际交易价格进行实时分析预测,并为其提供更公开、更准确的参考价格。
其他文献
当前,随着我国经济的发展和社会格局的调整,我国社会发生了巨大的变化,已经处于转型的关键时期。随着转型期的出现,原有的社会利益格局逐渐被打破,新的利益格局不断形成,碰撞
十二届全国人大四次会议新闻中心于3月15日10时在梅地亚中心多功能厅举行记者会,住房和城乡建设部部长陈政高、副部长陆克华、副部长倪虹就"棚户区改造和房地产工作"的相关问题
双样图可应用于实验室分析质量考核中,除了判断测定数据的质量外,也可以利用双样图来分析不同实验室或同一实验室不同分析人员测定数据误差大小及主要来源。应用双样图具有速度
酸化是油气勘探生产中常采用的措施,本文列举了处理残酸的几种常用中和剂,分析了中和剂复配使用的特点,最后选出了最经济、最易得的品种。还介绍了中和处理酸化废水的流程。
本文根据世联行董事长陈劲松先生在"2016中国房地产价值创造高峰对话暨智慧源新三板挂牌庆典"上的主题演讲整理完成。在演讲中,陈劲松针对目前房地产行业七件大事之一的,消费者
大力增加租赁房源的这些措施,对于刚工作不久、工资收入较低、没有多少积蓄、迫切要求解决住房困难的年轻人而言,是一个莫大的福音。
根据钻井废水的污染成分及国内外处理区域环境的敏感性采取三种方法对其进行治理,即:废水回灌、集中处理后回灌或回注、现场处理后回注。在冀东油田进行了三种处理方案的试验研
为做到生产建设与环境保护、经济效益与环境效益既同步发展,又协调前进,按照总公司提出的“九五”规划,到2000年做到增产不增污,使污染物控制在1995年水平.经过全面细致地分析,重点
今年上半年,资产泡沫引发各方警惕,特别是中央政治局会议提出"抑制资产泡沫",我们相信,房地产是首当其冲的。中央所说的“抑制资产泡沫”或可以理解为:“抑制资产价格过快上涨”
本文通过对经典劳动供给理论的分析和梳理,发现主流经济学较少关注许多发展中国家的劳动力市场中存在劳动力最低必需支出限制的问题。为此,在研究中国农村劳动力的劳动供给时