论文部分内容阅读
随着网络信息技术的向前发展,尤其是互联网应用的不断增加和网页信息的指数级增长,要在互联网中准确、快速地找到自己所需要的信息,搜索引擎是一种必不可少的工具。但是,百度、Google等全文搜索引擎都不是专门为检索特定领域信息而设计的。当人们需要搜索特定领域的信息的时候,搜索结果中却出现了很多用户不需要的信息,不能满足一些特定用户的需求。针对这个问题,针对特定领域的主题搜索引擎应运而生。 主题搜索引擎的运转则很需要智能网络爬虫在后台高效地运行。现在主流主题爬虫,智能化程度不高,大多都是基于人工给定目标数据源进行抓取,或使用一些简单的半自动方法进行爬取,这些方法智能化程度低,还处于非常初级的阶段,远没有达到真正实际应用的要求。Map/Reduce是Google公司提出的用于大规模数据处理的软件架构,在其基础上写出来的应用程序可以在计算机集群上对海量的信息进行处理,而且Map/Reduce架构可扩展性强、容错性好,其得到了学术界和工业界的广泛认可。 随着我国医疗行业的发展以及医疗信息的大众化,网络中的医疗信息成为了人们关注的热点。如何识别并获取网络中的医疗信息,如何对这些医疗信息进行有效的加工处理成为了大家研究的焦点。本文通过Map/Reduce构建面向医疗主题的智能网络爬虫,这充分发挥了计算机集群强大的计算、处理能力,使得面向医疗主题的智能网络爬虫可以更加快速地抓取医疗主题的网页,这为面向医疗主题的搜索引擎提供了大量医疗主题相关的网页,且为后续的网页排序等研究提供了重要的数据保障。 本文的主要工作如下: (1)提出了一种用于解决主题网页识别问题的基于链接分析的网页识别算法。该算法的主要思想是通过结合链接分析方法和主题URL知识库,基于统计和社会网络分析的思想来对网页进行识别,得出相关的网页识别模型。理论分析和实验结果表明了该算法的可行性和有效性。 (2)提出了基于LDA和语料库的网页信息去噪算法,该算法通过LDA模型检测出文档词语的各个主题类别后,然后利用主题语料库对这些词语进行过滤,去除主题不相关的词语,从而达到网页去噪的目的。通过对实验结果的评价和分析,表明了该算法的可行性和有效性。 (3)分析了基于Map/Reduce的面向医疗主题的智能网络爬虫的体系架构,并对相应的模块做了详细的介绍。 (4)通过Map/Reduce技术构建面向医疗主题的智能网络爬虫,这充分发挥了计算机集群强大的计算、处理能力,并通过实验证明了该网络爬虫的抓取效率优于传统单机式的网络爬虫。