基于机器学习的二手车价值评估研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:lsfgis
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中国经济不断发展,民生水平不断提高,进入二十一世纪以来,汽车市场日益繁荣,新车保有量不断提高,国民从消费观念上也渐渐接受二手车,二手车市场稳中有进。截止2019年底,我国二手车交易量高达1492.28万辆,二手车价值评估和预测业务不断发展,对推动二手车市场价格合理化、交易公平化起着重要作用。然而,二手车价值评估和预测业务仍处于初步阶段,无法满足现有庞大的交易市场,缺乏推动市场良性发展的科学性力量。二手车交易数据的复杂性、突发性和多重共线性,利用传统的人工评估方法或者最小二乘法估计模型参数的不稳定性增加,同时影响二手车价格的因素复杂,部分因素的影响难以合理解释。本文作者运用了机器学习算法(随机森林和XGBoost)进行特征变量筛选,简化计算、避免过拟合的同时消除多重共线性的问题,将该方法应用于分析影响二手车交易价格的特征变量中,建立二手车价值预测模型,提高二手车价值评估预测的科学性,推动二手车市场规范化发展。首先,本文作者查阅大量文献,分析传统二手车价值评估方法的发展与不足,之后介绍大数据环境下价值预测的算法理论;其次,从瓜子二手车网站爬取北京、广州、上海、深圳四组二手车交易数据,经过数据预处理、数据指标相关性分析和特征变量的选择,引入机器学习模型(随机森林、XGBoost、LightGBM),数据集的70%作为训练集,30%作为测试集,将交叉验证方法服务于网格搜索算法以搜索模型最佳参数,进一步提高模型精度和稳定性;最后,通过计算相应的MAE、MSE和R^2三项评估指标并画出预测效果图进行模型对比,得到拟合效果良好的价值预测模型。研究结果显示,所选择的数据指标与二手车价格均具有相关性,其中影响最大的特征是车辆的最新售价,另一方面,不同品牌的二手车由于配置不同,对消费者吸引力不同,表现出价格上的较大差异;通过随机森林和XGBoost进行特征变量选择后,机器学习模型的预测误差更加稳定,效果更好;相比于传统的线性回归模型,三种机器学习模型性能更加优越,其中随机森林模型对二手车价值的评估预测效果最好,其次是XGBoost模型和LightGBM。论文最后从样本量、特征数量、模型融合三个角度提出展望。
其他文献
党的十九大报告和2017年12月举行的中央经济工作会议均明确了我国经济已由高速增长阶段转向高质量发展阶段。但高质量发展需要一套评价指标体系和度量方法以及推动高质量发展的具体措施。习近平总书记在2018年4月召开的“长江经济带发展座谈会”上要求:长江经济带应该成为促进我国高质量发展的中坚力量;在2020年举行的重庆两会上也确定高质量发展是当前和今后一段时期的战略目标。重庆是长江上游的经济中心,对引领
学位
我国在快速城市化过程中,环境污染因其扩散性和传播性导致污染治理问题跨行政区域影响明显,而我目前区域经济不平衡问题也加剧了环境污染的区域性特征,为了更好地推进区域经济协同发展,我国大力推进以城市群为基础的区域协调发展新机制,随着城市群成为中国新型城镇化的主要空间组织形态,以城市群为地理空间尺度进行环境合作治理,解决城市间共存的污染外部性问题变得愈发重要。但由于不同城市的经济和环境利益诉求不同,城市在
学位
随着电子商务的发展与大数据时代的到来,传统的营销策略已经不能满足电商的快速发展,电商越来越倾向于从海量消费者数据中挖掘用户偏好、发掘潜在客户,并提出更为客观的数字营销战略。本文基于用户画像、行为和购买等信息构建相关的用户复购预测模型,通过实证分析与比较发现基于Borderline-SMOTE过采样技术的Voting与Stacking融合模型的预测效果与稳定性最优。为降低商家的库存与营销等成本,对用
学位
能见度是生活中常见的用于衡量大气情况的指标。在众多气象指标中雾和霾对能见度的影响较大,而雾的形成与消散往往受到大气近地层的因素影响而展现出一定的规律。当能见度很低时,高速公路管理者通常要对道路进行封路处理以保证行车安全,因此能见度预测是高速公路管理部门十分关注的问题。雾景能见度的演变规律挖掘和变化趋势预测问题关注的主要难点有:对大雾的演变与气象因素的复杂数理关系的构建,基于光学和物理学对雾景图像的
学位
随着技术日异月新的发展,“大数据”时代已经逐渐来临。对于保险公司来说,如果能够利用数据挖掘技术在海量的目标客户中寻找到高价值客户,将会对公司的业务发展产生重大意义。一般来说,在海量的目标客户中,有价值的客户远少于没有价值的客户,此时客户数据集是类不平衡的。那么如何从不平衡的目标客户中寻找出高价值客户对保险公司来说已经成为了重要的问题,解决好这个问题不仅可以转变保险公司传统的营销模式来提高业绩,而且
学位
流行性感冒,简称流感,是一种传染性强、传播速度快的急性传染病,给世界各国和地区造成了极大的健康威胁和损害。因此,科学有效的进行流感防治具有重大现实意义。在流感防治工作中,准确的预测其发病趋势是极其重要的一环。随着预测理论及预测技术的发展与完善,越来越多的统计理论、预测方法及统计模型被应用于传染病的预警。但是,对某一单一因素的分析无法全面把握传染病的流行特征及规律,考虑到历史数据具有的趋势性与新兴网
学位
缓解城乡收入差距与环境污染成为中国转型时期的两大主题,收入不平等一直是世界各国政府关注的主要问题。根据国家统计局和世界银行数据库的数据,2017年我国基尼系数为0.467,已超过0.4的国际警戒线。与此同时,随着人们环保意识的不断提升,环境问题已经成为政府与公众的关注热点,第十九次全国人民代表大会和2018年3月召开的两会对如何促进收入分配公平给予了特别关注,不同于以往会议,当下重点关注的是如何结
学位
在2019年与2020年之交,流行性传染病新型冠状病毒肺炎的爆发给人民生产生活带来了前所未有的挑战,也是对中国政府治理能力特别是数字治理能力的一场大考。值得骄傲的是,中国政府采取迅速行动,团结带领全国人民参与这场防控保卫战,并取得了显著的政策性成果。而这些政策性成果与政府对民众诉求的识别和回应密切相关。目前关于新型冠状病毒肺炎相关舆情文本分析大多使用社交媒体数据和新闻报道数据,缺乏对公共舆论更深层
学位
随着我国金融体系不断健全,居民家庭对金融市场的认知水平不断攀升,但目前我国家庭依然存在着金融资产配置单一、投资组合盈利不足的现状。探究移动支付对城镇家庭金融资产配置的影响有利于在当今互联网金融快速发展的时代背景下,引导我国居民家庭金融投资决策向更加理性化、多元化的方向发展。本文采用2017年中国家庭金融调查(CHFS)数据,结合2017年北京大学数字普惠金融指数数据,通过对比简单线性回归、分位数回
学位
随着我国经济迅猛发展,市场上出现了各种各样的借贷方法,提前消费的观念已经深入人心。然而由于信贷市场尚未健全,客户违约现象屡见不鲜,这严重影响了我国信贷行业的发展。因此本文针对信用卡逾期预测展开研究,希望可以以此来促进信用卡市场的健康发展。在评估个人信用区分持卡人是好客户还是坏客户时,主要是考察信用卡客户未来可能违约还是不违约,因此可以将这类问题当成分类问题进行研究。而研究的自变量就是客户的历史信用
学位