基于Hadoop的民航高价值旅客发现方法研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:whywhy_why
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着民航信息化程度日益加深,各航空公司的订票系统中都积累了大量的旅客订座记录(Passenger Name Record,PNR)数据信息。在常旅客VIP会员制度不能对旅客出行形成有效吸引力的情况下,如何运用非常旅客的PNR数据识别高价值旅客,是航空公司亟需解决的问题。本文主要研究基于Hadoop的民航高价值旅客发现方法及其实际应用,对航空公司利用PNR数据发现高价值旅客,并制定有效的战略决策提供支持。对于海量的PNR数据集,常规的处理方法难以处理。本文提出将多台计算机进行集群,搭建Hadoop分布式并行化处理平台,利用Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)储存数据,并采用Map/Reduce数据处理模型对数据集进行处理。实验结果表明,Hadoop平台对海量的PNR数据集的处理快速有效。针对K-Means聚类算法受孤立数据对象影响较大,容易陷入局部最优解等问题。本文提出优化K-Means聚类算法,在Hadoop平台上并行计算数据集中所有数据对象间的欧式距离,并统计距离和,排除较为孤立的数据对象,优化初始中心点的选择。实验结果表明,优化的K-Means聚类算法能够有效排除较为孤立的数据对象,聚类结果更接近实际数据分布。综上,本文提出一种基于Hadoop的民航高价值旅客发现方法。首先,利用Hadoop平台,对PNR数据集进行快速处理。然后,提出改进的RFD(Recency Frequency Discount)旅客价值模型,并根据层次分析法(Analytic Hierarchy Process,AHP),将专家经验值量化为各指标的权重。最后,利用优化的K-Means聚类算法进行聚类,从而发现高价值旅客并对客户群特点进行分析。实验结果表明,该方法准确有效,能够快速地识别出民航高价值旅客。
其他文献
二十世纪八十年代逻辑程序设计语言在描述性语义上取得突破性的进展-稳定模型语义(回答集语义),为逻辑程序的研究打开了大门。回答集语义的提出使人们可以用逻辑程序表示问题
空间数据的复杂性会导致空间数据处理的延迟,这对实时性要求比较高的应用问题如军事作战等问题产生了巨大的挑战。设计支持空间分析的并行算法是解决此类问题的有效方法,然而
Web服务的出现代表了分布式计算的最新要求。随着应用需要的不断提升,Web服务技术已从基础设施构建与概念推广阶段向大规模商业应用阶段快速发展,从而推动了支持B2B(business
机器人足球比赛目前已成为人工智能应用技术研究的重要实验平台,引起了越来越多的学者的关注。足球机器人系统分为四个子系统——机器人子系统、视觉子系统、决策子系统、通讯
对于传统的RFID系统来说,其阅读器通常是固定的或者使用专用的手持设备,只适用于特定场景。随着移动智能设备的快速普及,配置迅速提升,将移动智能终端与RFID网络的优势结合起
随着信息技术的迅速发展,信息化建设过程中积累了大量有用数据信息。但由于建设时期或开发部门的不同,这些数据资源形成了一座座“信息孤岛”,使得数据的查询和访问非常困难,数据
随着网络的普及,电子邮件与人们的工作生活联系日趋紧密,随之而来的垃圾邮件问题日益严重。在分布式垃圾邮件处理领域,基于Nilsimsa摘要的垃圾邮件识别技术和基于信誉机制的垃圾
图像配准是对不同时间、不同角度所获得的同一场景的多幅图像进行最佳匹配的过程,即将图像对齐后,明确图像空间位置变化与强度变化,然后确定图像序列之间位置映射关系或强度
随着互联网的快速发展,人们已经从信息匮乏时代进入了大数据时代,和搜索引擎一样,个性化推荐系统也是一种帮助用户在信息过载的情况下快速发现有用信息的工具,它依据用户的特
进销存管理是企业经营管理中的核心环节,中小企业的进货、销售和库存信息量非常庞大,如果能对这些数据进行统计分析,就可以利用这些分析结果进行相关的决策。在企业建立一套完善