比较购物搜索引擎的研究与应用

被引量 : 1次 | 上传用户:cngaofeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网上购物领域,随着电子商务网站的服务商数量和产品数量的迅速增加,广大消费者面临着更多的困惑:在如此众多的商品中,如何才能找到适合自己需要的网站和物品呢?哪儿的商品更便宜?如何获得性价比最高的商品和服务?这些问题都让用户感到茫然。比较购物是一种采取信息获取技术开发的购物代理软件。这种软件通过收集众多的网上商家信息,对各种商品的价格、性能、配送方式以及服务等进行比较,向用户提供不同在线销售商的商品信息。因此是一个省时省力又省钱的购物途径,得到了大多数电子商务用户的好评。本文主要研究网页数据的抓取和解析,网页数据的抓取是由网络蜘蛛Spider完成的,而网页数据的解析是指从抓取到的网页中提取出结构化的信息。在网页数据抓取部分,本文对通用搜索引擎中的Spider抓取网页数据的一般传统框架进行了改进,根据专业搜索引擎的特点,提出了一种优化的网页数据抓取框架,即在Spider抓取URL链接时,增加了“URL提取干预”,从而提高了专业搜索引擎抓取网页数据的效率。在网页数据解析部分,本文实现了一个扩展性良好的WEB信息抽取模块。为了解决网页数据的抓取和数据处理之间的速度矛盾,本文设计了一种生产者-消费者模型,即在数据抓取和数据处理之间建立了网页数据缓存机制,有利于搜索引擎整体性能的提高。另外,针对目前国内的大多数比较购物网站只为用户提供了商品价格的比较,缺乏对不同购物网站上用户体验和用户评价的比较,信息参考尚为欠缺这一问题,本文在对网页数据进行处理时,抽取了商品的好评率。虽然价格是现阶段决定网络购物用户购买的主要因素,但随着网络购物的发展,除价格以外如商品测评和已购用户的评价等对购买的影响将越来越大。最后,本文以京东商城和亚马逊上面的手机数据作为数据抓取的实例,设计并实现了一个基于比较购物的搜索引擎系统原型,既能提供商品价格的比较,又能提供用户对商品及服务评价的比较,以便为用户提供更好的购物体验。
其他文献
认知语言学中的语法研究有两种主要的理论模型,一种是以Langacker为代表的认知语法,另一种是Goldberg等人的构式语法。认知语法强调用语法以外的因素来解释语法现象。构式语
激光角度欺骗干扰半实物仿真系统运用导弹运动学、动力学模型,转镜和三轴转台等物理模型设备,激光器和导引头实物模型,在接近真实环境下再现了激光角度欺骗干扰的全过程。半实物
<正>《陈丕显回忆录——在"一月风暴"的中心》一书中,较为详细地记述了陈丕显在1967年"一月风暴"前后所经历的事。本文想根据当年我("文革"中改名为红鸥,曾是上海红卫兵炮打
本文以闽南语外来词为研究对象,对其借入渠道、借入方式和借入原则等进行考察,探索闽南语外来词的演变规律及其未来的发展趋势。
新媒体的发展在给我们的生活带来便利的同时,其负面影响也逐渐的显现出来,面对新媒体所产生的新问题,对其的监管成为了各国政府考虑的重点问题,如何对新媒体进行有效力的监管
在国际法上 ,虽然 ,国家及其代表国家的个人 ,在实施了国际犯罪的场合 ,该国家及其代表国家的个人均可成为国际犯罪的主体 ,但是 ,代表国家的个人对其国际犯罪行为直接承担其
本文在野外地质工作的基础上,充分运用同位素年代学、岩石地球化学、岩石学、现代地层学的理论和方法,针对内蒙古自治区翁牛特旗地区侵入岩、火山岩、变质岩开展综合研究。太古
河南信阳地名曾因避皇族名讳而几多改易,文章考释了因避国讳而改易的信阳历史地名"苞孚""殷城""平春""义阳""期思""蒋州"等六条。
畅销书是指一定时间范围内,符合大众读者阅读口味的书。畅销书的书名是一个特殊的符号,它浓缩着作者所要表达的观点,而从另一种意义上说,它独特的语言魅力也是图书畅销的一个