基于仿生学的主题爬虫搜索策略及关键技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:shingang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集的网页群中的典型页面。然后,计算每个主题3种种子页面的权值,将权值作为粒子群爬虫的初始速度和方向值,使用本文提出的基于变异思想改进的粒子群算法抓取页面。其中,本文改进的算法将全局极值设置为完美但实际上并不存在的值,从而忽略了全局极值的影响并在算法陷入局部收敛时加入变异思想。最后通过对比实验并进行结果分析,对比于传统的爬虫方法,本文提出的主题爬虫模型可以获得更高的准确率,能够抓取高质量的网页。2.本文搭建了一种基于改进Louvain算法的种子页面选取框架。首先,基于搜索引擎获取一定数量的初始相关种子页面,将这些页面作为节点,使用本文改进Louvain算法对其进行社区划分。然后,计算初始划分社区的归一化互信息确定节点大小,通过删除多余节点构造出超级节点网络。最后,通过计算超级网络节点页面内容与主题的相似度得到超级网络节点页面权值,选取权值大于阈值的节点页面并去掉属于同一个社区的节点页面,得到种子页面集合。经过实验分析,证明本框架生成的种子页面能够有效提升主题爬虫的准确率和主题覆盖率。
其他文献
“建设好、管理好中国上海自由贸易试验区,形成可复制可推广的体制机制,并开展若干新的试点.扩展内陆沿边开放,让广袤大地成为对外开放的热土.”这是3月5日国务院总理李克强
【目的】探讨原儿茶酸(PCA)在阿尔茨海默病(AD)细胞模型中的保护作用及机制。【方法】采用免疫荧光法鉴定β淀粉样蛋白(Aβ_(1-42))纤维聚体,将Aβ_(1-42)作用于PC12细胞,并
<正>2010年7月,国家中医药管理局医政司编写的《中医医院中医护理工作指南(试行)》发布,结合中医护理工作的基本要求,指导各中医医院的中医护理工作,体现了中医护理的特色优
可信计算技术能为终端、网络以及云计算平台等环境提供安全支撑,其本身的安全机制或者协议应该得到严格的形式化证明.该文基于串空间模型对其远程证明协议进行了分析.首先,扩
近些年来,生态环境问题受到了人们的更多关注,相应的林业产业发展也获得了更多重视,加强林业产业发展,通过吸收二氧化碳和释放氧气,对改善生态环境意义重大,在林业产业发展的
随着时代的进步和改革进程的加深,我国社会面貌日新月异,地铁普及程度越来越高。地铁车站对使用功能、结构安全、抗渗透性能等方面的要求非常严格,且其工程规模比较大,包含的
<正>随着我国职业教育改革的不断深入,形式多样的职业教育教学改革取得了较好的效果,特别是订单班、定向班、冠名班等一批校企合作班的建立,为职业教育多元化的发展注入新的
本文提出了一种基于FPGA的通信系统基带验证平台的设计方案。该平台采用两片高性能三百万门级的FPGA器件和高速模数/数模转换器,为通信系统的基带设计提供了一个硬件实现和算法
首先对我国现今中药学的教学情况进行简单的介绍,然后分析其中存在的问题,并且结合目前中药学课程所具有的一系列结构上的特点以及目前社会对于医药类人才的具体培养要求,在
1938年,日本发表第一次近卫声明不久,日本和蒋介石便从各自国内各方面的因素考虑出发,决定重开和谈的大门。当宇垣一成出任日本外相后,遂再次向中国伸出诱降之手,国民政府也