论文部分内容阅读
伴随着汽车行业的高速发展,行业竞争愈发激烈,本土汽车企业兼并加剧、国外大型跨国企业纷纷入驻、原材料价格不断上涨、消费者的需求不断变化、整车行业整体利润下滑,迫使着汽车企业需要更加全面的了解与市场相关的信息:汽车行业动态、行业政策法规动态、零部件价格等信息。这些信息大量存在于互联网中,然而传统、主流地信息获取工具:通用搜索引擎目前在面向专业人士在专业领域上检索相关信息时,存在着返回信息不精准、不全、更新不及时等问题;同时,主流汽车行业相关网站又以汽车产品消费者提为主要服务对象。汽车企业用户想通过互联网获取相关行业信息,并不是特别方便。针对通用搜索引擎存在的缺陷,主题网络爬虫技术应运而生,主题爬虫技术能自动的从互联网上采集与主题相关的网页,回避无关网页。因此,建立一个基于主题网络爬虫的汽车行业多元信息web系统解决汽车企业用户获取需求信息的不便,达到了解市场行情的目的,进而帮助汽车企业制定市场战略,提高企业市场竞争力是有必要的。本文的目标是建立一个汽车企业用户的汽车行业多元信息web系统,为企业用户提供汽车行业新闻资讯、行业政策法规、汽车零部件价格等信息,研究的主要内容如下:首先,在汽车行业竞争日益激烈和通用搜索引擎采集信息存在的不足的背景下,引出通过主题网络爬虫技术采集汽车行业相关信息的话题。在此基础之上讨论了汽车行业资讯、汽车产业政策法规、汽车零部件价格信息三者的现实需求。其次,在需求分析的基础上结合主题网络爬虫技术设计了系统总体解决方案。再次,对于主题网络爬虫,研究了其架构和工作原理,在架构的研究基础上,对各个模块的实现技术展开深入研究,包括在对网页的解析,对网页正文的分词技术的研究;对当前主流的主题基准模型展开研究,结合本文实际需求,选定向量空间模型为本文的主题基准模型;对当前主流关键字赋权的计算法TF和TF-IDF展开研究;对主题网络爬虫当前主流的搜索策略展开研究,在此基础上设计了本文基于网页文本和链接结构的综合搜索策略。最后,在对前文所有研究的基础上,开发实现了基于主题网络爬虫的汽车行业多元信息web系统。