论文部分内容阅读
伴随互联网的快速发展,互联网逐渐成为大众获取各类型信息的主要渠道。同时当今互联网信息分类也在不断进行细化,网络信息的主题化也日益明显。针对目前通用搜索引擎搜所搜索到的结果过多,与主题相关性不强等情况,本文提出设计一个面向教育舆情的的主题网络爬虫,也是主题舆情监测系统的重要组成部分。当前主题网络爬虫的研究已成为热点,但针对教育舆情的主题网络爬虫研究还较少,因此针对教育舆情数据采集的主题网络爬虫研究是具有一定意义的。本文从当前我国互联网教育舆情监测为背景出发,通过分析当前搜索引擎相关知识、主题网络爬虫系统的主要工作模式、搜索算法、主题信息识别等相关技术。设计了一个面向教育舆情主题网络爬虫,通过该主题网络爬虫可以对互联网教育舆情信息进行高效的采集与识别。搜索算法是主题网络爬虫关键技术之一,因此本文主要对主题网络爬虫的搜索算法进行分析与改进,通过对传统主题网络爬虫搜索算法的分析,提出了一种基于云计算平台下的主题价值判断搜索算法,该算法主要包括了基于云平台的搜索任务调度算法、基于云节点下网站搜索算法、基于向量空间模型的主题识别算法和基于布隆过滤器的去重算法等。并利用了云平台的高效性和稳定性等特点,将主题网络爬虫的搜索算法与云平台相结合,解决了传统主题网络爬虫在单机模式下采集数据效率低下的问题。通过对该主题网络爬虫测试和相关实验数据分析表明,改进后的搜索算法与传统的主题网络爬虫搜索算法在采集网页效率上和搜索、发现网页比例上有着明显的提高。基于以上的研究,在今后的工作中,主要的研究方向是如何将该主题网络爬虫全面部署到云计算平台当中,解决主题网络爬虫在云平台中运行的其他关键性技术与算法,从而实现一个真正意义上的基于云平台的教育舆情主题网络爬虫。