基于SVM分类算法的主题爬虫研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:hailongsky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的快速发展,互联网上的信息量日益增长且呈现多元化的特点。于是如何能够迅速、准确而高效地为互联网用户定位所需要的信息,成为搜索引擎的主要目标。通用搜索引擎能够在较大的信息范围内获取信息,但是由于其涉及的领域过于宽泛,因此,在某些特定领域,无法给用户提供专业而深入的信息。于是,主题搜索引擎应运而生,它能够在某一特定领域,提供专业、精确而深入的搜索服务。本文以主题搜索引擎中的主题爬虫为研究内容,研究有效地爬取某一主题范围内网页的策略。本文首先对主题爬虫的相关研究进行了综述,从通用爬虫和主题爬虫的主要组成结构、基于文字内容的启发式爬取策略、基于Web链接结构的评价方法,分析了当前爬取策略的优缺点。采用向量空间模型将网页用数学方法表示,研究支持向量机算法的相关原理。提出了基于文字内容和部分链接信息的主题相关度预测算法,对未爬取的网页,预测其与主题的相关度。对于已经爬取网页,首先使用SVM分类器过滤与主题无关的网页,然后使用HITS算法构建主题子图,选取权威度或中心度高的网页作为下次爬取的起始种子。在小型开源搜索引擎TSE的基础上,构建主题爬虫,对爬取策略进行研究。本文将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,实现了基于SVM分类的主题爬虫。实验表明,本文提出的基于SVM分类的主题爬虫,能够较好地爬取与主题相关的网页。
其他文献
Reed-Solomon(RS)码是一种非二进制的循环纠错码,不仅具有纠正随机错误的能力,还具有较强的纠正突发错误的能力,被广泛应用于移动通信、卫星通信、磁记录设备以及数字音频和视频
支持向量机(Support Vector Machine, SVM)是一种基于小样本学习理论的有效分类方法,近年来已成为国内外机器学习的一个研究热点。本文以SVM为基础,对直推式支持向量机(Transdu
人脸识别技术是生物特征识别的一种,它涉及了生理学、心理学、图形学等多个学科知识。和其它生物特征识别类似,人脸识别技术是通过提取人脸这一生物特征对人的身份进行确认。它
随着地理信息系统的广泛应用,它正逐步融入人们的日常生活,得到了越来越多用户的使用。由此空间信息服务系统面临着重大的挑战:大量并发用户的在线请求降低了服务器的性能;海
形式概念分析是一种有效的知识表示与知识发现工具,在数据挖掘、知识发现、信息检索等领域得到了广泛的应用。在形式概念分析的应用过程中,首先要构建概念格,因此建格算法的效率
随着计算机网络的普遍应用,分布式系统已成为计算机应用的基本形式。由于分布式算法是分布式系统中的关键技术之一,并影响着系统的性能,所以它得到了学者和工程师们的高度关
传统群体仿真技术常把群体看成若干个体的组合,但事实上群体是由若干具有相似行为的个体组成的群组所构成的。针对大多数现有群体仿真技术由于没有考虑到上述因素,导致仿真结
分形几何为人们描述客观世界提供了一种比欧式几何更加有效、客观的工具,并在自然科学和社会科学中得到了广泛的应用。本文在研究分形理论后,对传统基于分形维数的边缘检测算法
音乐分类作为音乐信息检索(Music Information Retrieval,MIR)领域的一个重要分支,常用于音乐检索和音乐推荐。现有的音乐分类方法从音乐的流派、感情、乐器、艺术家和标注五
有限元分析(Finite Element Analysis)是最常用的工程分析模拟方法,已经被广泛应用于复杂产品的设计与开发中。有限元网格模型生成是进行有限元分析的关键一环,其质量直接影响分析的精度与速度。为了保证有限元网格质量,在有限元网格生成后需要对其进行拓扑优化,然而现有拓扑优化算法都十分耗时。为此,本文研究基于样本学习的有限元网格拓扑优化方法,将机器学习技术引入有限元网格拓扑优化之中,以提