论文部分内容阅读
随着Internet的飞速发展,Web己经发展成为包含多种信息资源、站点分布全球的海量信息服务网络。搜索引擎正是一种帮助用户从信息海洋中找到用户所需要信息的工具。一些通用的搜索引擎力争索引Web中所有的网页,为用户提供各种各样的服务。但由于信息多元化的发展,通用的搜索引擎无法满足专业化用户的需求,因而迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得相关主题资源。在这种需求的推动下,垂直搜索引擎便应用而生了。首先,根据通用搜索引擎和垂直搜索引擎的区别并且结合垂直搜索引擎专、精、深的特点,引入了主题判断模块、信息抽取模块及聚类模块,进而提出了一种垂直搜索引擎框架。其次,根据垂直搜索引擎专业网络爬虫的核心,即专业的爬行算法。对基于PageRank的Best-First算法进行了广泛而深入的研究。第一,针对PagRank是一种根据网页之间的超链接来计算网页排名的技术,网页的PageRank值越高,该网页越重要。第二,由于PageRank算法不利于搜集主题信息等问题,提出了一种改进的PageRank算法。第三,从单个网页考虑,利用每个网页的url,title,正文,提出了基于内容相似度的方法。第四,结合改进的PageRank算法和基于内容的相似度提出了BLCT主题爬行算法并进行了相应的实验。最后,深入研究了文本聚类技术,通过搜索结果的聚类可以缩小用户所需浏览的结果数量,从而缩短用户查询所需要的时间。针对k-means聚类算法只能保证收敛到局部最优,导致聚类结果对初始聚类中心敏感的问题,提出了一种基于相似中心的k-cmeans文本聚类算法。通过一定的策略选择初始中心点,并进行了相应的实验。