论文部分内容阅读
在网上购物领域,随着电子商务网站的服务商数量和产品数量的迅速增加,广大消费者面临着更多的困惑:在如此众多的商品中,如何才能找到适合自己需要的网站和物品呢?哪儿的商品更便宜?如何获得性价比最高的商品和服务?这些问题都让用户感到茫然。比较购物是一种采取信息获取技术开发的购物代理软件。这种软件通过收集众多的网上商家信息,对各种商品的价格、性能、配送方式以及服务等进行比较,向用户提供不同在线销售商的商品信息。因此是一个省时省力又省钱的购物途径,得到了大多数电子商务用户的好评。本文主要研究网页数据的抓取和解析,网页数据的抓取是由网络蜘蛛Spider完成的,而网页数据的解析是指从抓取到的网页中提取出结构化的信息。在网页数据抓取部分,本文对通用搜索引擎中的Spider抓取网页数据的一般传统框架进行了改进,根据专业搜索引擎的特点,提出了一种优化的网页数据抓取框架,即在Spider抓取URL链接时,增加了“URL提取干预”,从而提高了专业搜索引擎抓取网页数据的效率。在网页数据解析部分,本文实现了一个扩展性良好的WEB信息抽取模块。为了解决网页数据的抓取和数据处理之间的速度矛盾,本文设计了一种生产者-消费者模型,即在数据抓取和数据处理之间建立了网页数据缓存机制,有利于搜索引擎整体性能的提高。另外,针对目前国内的大多数比较购物网站只为用户提供了商品价格的比较,缺乏对不同购物网站上用户体验和用户评价的比较,信息参考尚为欠缺这一问题,本文在对网页数据进行处理时,抽取了商品的好评率。虽然价格是现阶段决定网络购物用户购买的主要因素,但随着网络购物的发展,除价格以外如商品测评和已购用户的评价等对购买的影响将越来越大。最后,本文以京东商城和亚马逊上面的手机数据作为数据抓取的实例,设计并实现了一个基于比较购物的搜索引擎系统原型,既能提供商品价格的比较,又能提供用户对商品及服务评价的比较,以便为用户提供更好的购物体验。