论文部分内容阅读
采用数据挖掘技术对商家进行分类探究,是各大餐饮类商家对自身状况的了解与制定餐厅改善方案的一大重要前提。随着居民生活水平的不断提升,服务业在国民经济中所占比重逐渐增大,餐饮业在服务业中一直扮演着不可或缺的角色。在互联网大数据时代,电商平台发展迅速,餐饮业也不能仅仅满足于线下销售,大众点评作为一种O2o形式的消费点评网站随之崛起。当前,大众点评网的商家数量已超过150万,加盟的餐饮业商家数量日益增长,对点评网上餐饮类商家数据进行挖掘分析将有一定的实际意义。以往采用口碑评分进行商家分类的研究与应用都比较少。本文利用爬虫技术获得大众点评网上485914家餐厅的评价信息。并借助SQL、Python等统计软件,采用常见统计方法对商家基本信息数据进行探索性统计,然后采用Apriori算法、K-means算法及其优化算法对商家进行分类探究。通过分类结果针对不同类商家提出不同的餐厅改善方案与建议,并从消费者角度提出相关就餐选择依据。在一定程度上达到对以往研究的突破与创新。主要研究结论如下:1)探索性统计部分。商家总体分布上,北京、上海、广州与深圳地区的商家数量相对更多,经营面包甜点、火锅、川菜、烧烤、西餐与小吃类的商家数量也要更多;相关分析上,消费金额、评论数量与其他指标两两之间几乎不相关,而各项评分两两之间相关性很高;商圈分布上,约50%的商家属于混合区,其次是商业娱乐区与住宅区;饮食习惯特色上,本地特色菜系在每个城市经营的商家数量都很多,而且面包甜点、小吃快餐、火锅与烧烤等几乎在各大城市都是高销的餐饮类型。2)关联分析部分。采用Apriori关联算法,得出商家的星级评分与环境、服务以及口味评分之间存在关联。对于一些星级评分较低的餐厅,有较大概率表明它的环境评分相对于服务与口味评分稍微要更高些。对于一些星级评分较高的餐厅,有很大的概率表明餐厅的口味评分与服务评分比较高,但环境评分较高的概率要更小一点。3)聚类分析部分。采用K-means算法及其改进算法对商家进行聚类,并将商家划分为优质餐饮类、中上等餐饮类、中等餐饮类与中低等餐饮类商家这四大类,每一类分别占商家总数的7%、14%、38%与41%。其中优质类餐厅的星级在45分至50分,中上等餐厅的星级在40分左右,中等与中低等餐厅的星级分别在35分与30分左右。可以看出优质餐厅与中上等餐厅的星级都很高,但数量占比却特别低共占20%左右,中低等餐厅的星级很低但却占总体数量比例的40%以上。在一定程度上表明当前餐饮市场上大部分餐厅的质量都保持在一般水平,商家还需要从多方面进行改善与提升。