论文部分内容阅读
随着信息产业的高速发展,互联网逐渐成为许多行业的重要载体。当前各行各业的电子商务层出不穷,比价系统是电子商务发展中一个非常重要的应用,可以方便用户对产品价格进行比较,也可以给各大电商提供定价参考。比较系统逐渐成为各大电子商务网站提升自身竞争力和增加用户粘度的利器。在航空领域,电子机票的使用已经非常广泛,网上订票系统极大地方便了人们的出行。但是在机票的销售领域竞争也非常激烈,同一航班的机票价格在不同的销售站点差异也非常大,给用户购买机票带来价格上的困扰,也给机票销售站点的定价带来混乱。本文针对这钟状况,基于开源的Heritrix和Lucene项目,设计并实现一款基于国内机票的比价系统。本系统对互联网机票价格数据爬取、处理和比较后,会对某条航线或者航班的价格进行排序,并给出是否低于均价、性价比是否合适的判断,同时会给出用户购票的跳转链接。论文的主要工作包括如下几个方面:1.系统的需求分析。主要分析了系统实现的目标、功能以及性能要求等,明确了系统的构成和要求。2.详细分析了实现比价系统的关键技术。主要包括:主题爬虫、中文分词、以及开源软件Hertrix和Lucene的使用进行了讨论,并结合机票价格的主题对如何使用这些技术做了分析,解决主题相关性、中文分词技术选择、页面解析和DOM等关键技术难点。3.系统的设计和实现。论文分析了系统的总体设计、各模块组成和数据库的实现,分析和讨论了数据库关键表项。分模块论述了机票信息的爬取,数据相关性计算,通过页面处理实现目标数据的提取和入库,对机票价格数据信息的处理获取最低票价并实现价格走势图,最后提供给用户通过终端查询。4.测试与验证。对本系统的功能和性能分别加以测试和验证,测试结果显示,本文利用Hertrix和Lucene技术实现了对机票价格的比较。本课题探索了Hertrix和Lucene技术在机票价格比较系统上的设计和实现,并在一定范围内得到了应用。