论文部分内容阅读
随着民航信息化程度日益加深,各航空公司的订票系统中都积累了大量的旅客订座记录(Passenger Name Record,PNR)数据信息。在常旅客VIP会员制度不能对旅客出行形成有效吸引力的情况下,如何运用非常旅客的PNR数据识别高价值旅客,是航空公司亟需解决的问题。本文主要研究基于Hadoop的民航高价值旅客发现方法及其实际应用,对航空公司利用PNR数据发现高价值旅客,并制定有效的战略决策提供支持。对于海量的PNR数据集,常规的处理方法难以处理。本文提出将多台计算机进行集群,搭建Hadoop分布式并行化处理平台,利用Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)储存数据,并采用Map/Reduce数据处理模型对数据集进行处理。实验结果表明,Hadoop平台对海量的PNR数据集的处理快速有效。针对K-Means聚类算法受孤立数据对象影响较大,容易陷入局部最优解等问题。本文提出优化K-Means聚类算法,在Hadoop平台上并行计算数据集中所有数据对象间的欧式距离,并统计距离和,排除较为孤立的数据对象,优化初始中心点的选择。实验结果表明,优化的K-Means聚类算法能够有效排除较为孤立的数据对象,聚类结果更接近实际数据分布。综上,本文提出一种基于Hadoop的民航高价值旅客发现方法。首先,利用Hadoop平台,对PNR数据集进行快速处理。然后,提出改进的RFD(Recency Frequency Discount)旅客价值模型,并根据层次分析法(Analytic Hierarchy Process,AHP),将专家经验值量化为各指标的权重。最后,利用优化的K-Means聚类算法进行聚类,从而发现高价值旅客并对客户群特点进行分析。实验结果表明,该方法准确有效,能够快速地识别出民航高价值旅客。