论文部分内容阅读
2018年,二手房交易规模占全国住宅销售规模的34.1%。二手房交易过程较新建房交易更为复杂,其中八成的消费者在购买二手房时需要中介。然而中介机构为了攫取高额利润,常在房屋价格上弄虚作假。此不良行为不仅对消费者造成经济损失,同时也导致交易市场风气败坏,秩序混乱。因此,研究二手房的实际交易价格具有明显的现实意义。本文采用“链家”平台2019年度上海市浦东区所有已成交二手房源的相关数据。另外,借鉴于特征价格理论,本文依据房源经纬度进行了百度地图POI数据爬取,并将其作为房源的区位因素进行研究。由于直接抓取的数据具有数据缺失、数据噪声、数据冗余、数据集不均衡、离群点等问题,故本文首先通过数据清洗的手段,将其转换为可供统计和建模的干净数据,并以二手房基本属性、行为属性、交易属性及区位属性进行特征划分和说明。其次,重点对交易属性进行统计分析,通过抽样对挂牌价格和成交价格进行对比,指明了两者差价的统计规律,并指出以挂牌价格作为二手房交易参考价的局限性。再次,对另外三个属性的特征分布也进行了简单考察。并详细探究了各个特征与成交价格的相关情况。为了有效地应对二手房数据的样本繁杂和房源特征不均衡特点,本文通过构建关于决策树的两种集成模型:随机森林和Xgboost,并综合运用网格搜索交叉验证的方式进行参数寻优,通过采用多种模型性能评价指标对所建模型的预测性能进行评价。结果表明:两种模型的拟合度均表现良好,其中基于Bagging集成方法的随机森林模型的预测精度要优于基于Boosting集成方法的Xgboost模型。并以特征重要性排序图指明四个属性对提升模型预测性能均有贡献,并给出相应贡献的特征排序。遂基于Xgboost算法的特征重要性进行特征选择,并结合随机森林的预测结果进行模型融合。融合后模型的预测性能明显高于两种初始模型,且融合模型的预测误差明显小于挂牌价格与成交价格的差价,说明融合模型的预测结果比挂牌价格更具备交易参考性。与此同时,相关研究结果能够对二手房产实际交易价格进行实时分析预测,并为其提供更公开、更准确的参考价格。