面向垂直搜索引擎的主题爬虫方法研究

被引量 : 0次 | 上传用户:yangfanyuanhang1020
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的急剧增长,以“广、泛、深”为特点的通用搜索引擎返回的查询结果已经不能够满足不同领域、不同背景的用户查询特定主题信息的需求,因此垂直搜索引擎应运而生。作为垂直搜索引擎的核心组成部分——主题爬虫抓取网页的方法直接影响了垂直搜索引擎的性能。传统的主题爬虫方法多基于特征词集来描述主题,忽视了特征词之间的语义关系,降低了对主题的描述性;网页分块只提取了相关文本块,而没有考虑相关链接块;候选链接优先级预测多数只考虑文字内容评价或链接结构评价中的一种,对于所有候选链接优先级要么设为统一的值,要么分别进行相关性计算,计算量较大;传统的隧道技术会导致主题不相关的网页数急剧增长,影响主题爬虫的准确率。针对以上不足,提出一种基于主题相关概念和综合价值的主题爬虫方法,主要包括:1)通过ODP的分类树获取主题相关概念集合,然后结合主题描述文档建立主题向量来描述主题,考虑了主题概念的相关概念,增强了主题的描述性。2)利用网页分块来过滤噪声,根据不同类型的网页,提取不同的相关块文本来计算主题相关性,很好地解决了由于噪声信息的影响而导致的网页主题相关性计算不准确。3)用文字内容和R-HITS算法相结合的方法预测候选链接优先级。提取网页分块后的相关链接块,将其中的链接作为候选链接,并将其划分为高相关链接、低相关链接、普通链接三个等级,将高相关链接的优先级赋为最大值,直接丢弃低相关链接,对于普通链接则用网页内容文本、块文本、锚文本以及由R-HITS算法计算出的链接结构分数四个要素来预测其优先级。4)在隧道技术的基础上,将所有主题不相关的网页URL插入不相关URLs队列,隧道穿越时如果队列中相同站点的URL个数超过上限值,则不再将此站点中URL加入到队列,这样缓解了主题不相关网页急剧增加的问题。最后,将准确率和信息量总和作为评价指标,论证了本文提出的主题爬虫方法相对于其它方法的优势。实验结果表明,本文提出的主题爬虫方法有更高的准确率和信息量总和。此方法在垂直搜索引擎的主题网页采集方面有很好的应用前景和较高的实用价值。
其他文献
级联型有源滤波器设计技术已经很成熟,而且可用的二阶节电路也很多,但这些电路是依靠丰富的想象和多次的实验得来的。有源网络综合一直是电路与系统这一领域内尚未解决的难题之
目的:研究针刺"曲池"穴激发的循经感传与循经表面肌电的关系。方法:分别针刺"曲池"穴、经脉非穴、非经非穴,引发循经感传,观察肱桡肌肌电活动的变化,记录肌电振幅和肌电变化
当今社会,体育锻炼一直是人们生活必不可少的部分,而学生时代的体育教育是培养人们体育锻炼习惯的重要环节。随着我国高等职业学校在国家政策的号召下不断地深化改革,各校招生规
目的了解山西省、重庆市4个县区农村糖尿病前期人群超重肥胖状况及影响因素,为糖尿病前期人群干预提供科学依据。方法对农村地区"糖尿病及其危险因素调查"发现的糖尿病前期人
维特根斯坦哲学与康德哲学有某种深刻联系。他在前期所进行的“语言批判”更多地受到康德的“理性批判”的影响。“语言批判”和“理性批判”的核心都是“划界问题”。本文深
邻苯二甲酸酯类(PAEs)化合物是痕量有机污染物中的一种典型物质,它是一种由人工合成的有机化合物,主要来源是增塑剂,用来增大塑料的可塑性,广泛地存在于空气、水体、土壤及生物体内
随着我国经济的发展和人民生活水平的提高,建筑能耗在社会总能耗中所占的比例越来越高,而另一方面,作为发展中国家,在我国经济高速发展的过程中,必须要处理好能源与环境之间的关系
<正>合作伙伴翻脸上法庭A公司系北京一家药品批发企业,2008年12月8日,该公司与杭州B公司签订《销售代理协议书》,双方约定:由B公司代理经销A公司的W产品,代理经销地域为浙江
<正>6月17日下午,云南省2013年全国食品安全宣传周启动仪式暨餐饮服务食品安全流动检测车发车仪式在昆明举行。在启动仪式现场,17辆大金龙专用车整装待发,每辆车内均配有光谱
当代社会各个领域都在发生全面而深刻变革的今天,中等职业教育的学生心理健康和心理素质培养已成为不可忽视的重要问题。分析了中等职业教育的学生思想状况及心理特点,探讨了影