基于主题网络爬虫的汽车行业多元信息web系统设计与实现

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:qinlinjie8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着汽车行业的高速发展,行业竞争愈发激烈,本土汽车企业兼并加剧、国外大型跨国企业纷纷入驻、原材料价格不断上涨、消费者的需求不断变化、整车行业整体利润下滑,迫使着汽车企业需要更加全面的了解与市场相关的信息:汽车行业动态、行业政策法规动态、零部件价格等信息。这些信息大量存在于互联网中,然而传统、主流地信息获取工具:通用搜索引擎目前在面向专业人士在专业领域上检索相关信息时,存在着返回信息不精准、不全、更新不及时等问题;同时,主流汽车行业相关网站又以汽车产品消费者提为主要服务对象。汽车企业用户想通过互联网获取相关行业信息,并不是特别方便。针对通用搜索引擎存在的缺陷,主题网络爬虫技术应运而生,主题爬虫技术能自动的从互联网上采集与主题相关的网页,回避无关网页。因此,建立一个基于主题网络爬虫的汽车行业多元信息web系统解决汽车企业用户获取需求信息的不便,达到了解市场行情的目的,进而帮助汽车企业制定市场战略,提高企业市场竞争力是有必要的。本文的目标是建立一个汽车企业用户的汽车行业多元信息web系统,为企业用户提供汽车行业新闻资讯、行业政策法规、汽车零部件价格等信息,研究的主要内容如下:首先,在汽车行业竞争日益激烈和通用搜索引擎采集信息存在的不足的背景下,引出通过主题网络爬虫技术采集汽车行业相关信息的话题。在此基础之上讨论了汽车行业资讯、汽车产业政策法规、汽车零部件价格信息三者的现实需求。其次,在需求分析的基础上结合主题网络爬虫技术设计了系统总体解决方案。再次,对于主题网络爬虫,研究了其架构和工作原理,在架构的研究基础上,对各个模块的实现技术展开深入研究,包括在对网页的解析,对网页正文的分词技术的研究;对当前主流的主题基准模型展开研究,结合本文实际需求,选定向量空间模型为本文的主题基准模型;对当前主流关键字赋权的计算法TF和TF-IDF展开研究;对主题网络爬虫当前主流的搜索策略展开研究,在此基础上设计了本文基于网页文本和链接结构的综合搜索策略。最后,在对前文所有研究的基础上,开发实现了基于主题网络爬虫的汽车行业多元信息web系统。
其他文献
在语音通信中,通信双方经常会受到周围环境噪声的强烈干扰,当环境噪声太大时,会严重干扰通话质量,甚至使通话无法进行。因此,对带噪信号进行增强处理,从中提取尽可能纯净的原
啤酒行业是我国酿酒工业中最年轻、发展最快的行业。而现在国内一些中小规模啤酒企业的生产状况滞后于啤酒的发展趋势,迫切需要通过自动化技术来提高产品的市场竞争能力。在
数字技术开创了电视的新纪元,电视的含义已经不仅仅是传统的音视频广播,而且是可以提供丰富信息和娱乐业务的双向交互式媒体。在此背景下,数字电视机项盒也从单纯用于实现数字信
词袋模型是一种向量空间模型,在此模型中,文本或图像被视作是无序的词汇集合,其中语法以及词汇之间的顺序关系都是被忽略的。通过选择或设计合适的相似性度量函数,词袋模型可
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,但是在实际应用中,经常会出现文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这些应用往往就是为
网格技术可以实现分布资源的共享,其目的就是管理网格中的资源,并提供给用户。Globus是一种用于构建网格的开放体系结构、开放标准的项目,GlobusToolkit是一个开放源码的网格
软件具有高附加值、易复制的特点,导致软件盗版猖獗、软件厂商损失严重。保障软件产业健康、可持续发展已成为当今世界的迫切课题。软件胎记是近年出现的防盗版技术,它通过提
随着互联网的普及,以及各种压缩技术和大容量存储技术的不断出现,使得视频的传播、制作、存储越来越容易,网络视频的内容迅速增长,在这种情况下也产生了大量的近似重复视频。大量
随着信息技术的迅猛发展,越来越多的领域需要在极短的时间内处理大量的数据。而传统的单机模式往往无能为力,并行计算被认为是解决此类问题的可行途径之一。其中集群有投资少
随着制造业信息化的不断发展,制造企业之间及企业内部的各个异构应用系统产生了大量的异构信息。由于采用不同的技术和不同的标准规范,这些异构信息难以实现共享,形成了所谓的“