论文部分内容阅读
本世纪第二个十年,我国购物中心进入了全面繁荣的阶段,竞争也日趋白热化。面对需求各异的消费者,购物中心只有进行用户细分才能理解自己的客群,保持自己企业的优势,在激烈的市场竞争中立于不败之地。本文以国内一线城市热点地区的某大型购物中心为例,围绕用户细分的实践分析K-Means聚类遇到问题。在特征工程中,通过独热编码对离散数据进行向量化,解决了多维聚类的需求;另外使用拉普拉斯平滑对冷启动的数据进行处理,缓解了零概率问题的影响。此外结合购物中心客流的特点,我们找到一种可以识别样本中K-Means中的噪音的手段。通过删除噪音后提炼出更小且更有效代表性数据,可用来可以提高聚类效果和速度,并且可通过此样本快速尝试超参数K的最佳值。