基于层次优化的动态概念背景图的主题爬行策略研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:cattlecattle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们已经习惯了从网络上获取信息。主题搜索引擎越来越受到学术界和企业界的广泛关注。主题搜索引擎主要搜集那些与特定主题相关的网页。主题爬虫是主题搜索引擎的资源采集器,在遍历网络资源的同时会对所采集的网页与特定主题作相关度判断,按照相关度值的大小为一个待爬URL指定一个相应的优先级分值。从而可以保证下载相关网页而舍弃那些偏离主题的网页,使搜集回来的结果更能满足用户的需求。本文提出了一种基于最优化层次的概念背景图的主题爬行策略,该策略首先需要用户向知名搜索引擎提交查询词,然后从返回的网页链接挑中选几个用户最满意的初始网页,作为本研究的初始种子集。其次,下载种子集对应的网页并且提取网页上的特征词构建概念背景图。然后,在Yahoo!目录上选择不同层次的主题进行概念背景图的分层研究。最后,提出了概念背景图的动态更新方法。论文的主要研究内容包括以下几点:1.提出了一种对传统概念背景图进行层次优化的方法。通过将一个完整的概念背景图进行分割成不同的子概念背景图,分别研究每个子概念背景图对网络爬虫的指导性能。2.提出了最优概念背景图的概念。传统概念背景图往往包含了相应的概念格中的全部概念。这样就把概念格中的所有概念全部分到传统概念背景图的相应层次,那些和核心概念有低相关性的概念就影响了指导性能。3.在最优化概念背景图的基础上提出了对概念背景图进行动态更新方法。概念背景图一般都是根据初始选中的种子集页面和页面相应的特征词进行构建的。但是,在指导主题爬行的过程中,往往会发现更多的与主题贴近的网页。为了使概念背景图保持活性,本文需要不断对先前的与主题相似度较低的概念进行替换。在替换过程中,动态概念背景图(DCCG)采用了一种淘汰机制,内层概念逐渐取代外层概念。论文利用经典的召回率、精确度、F-Measure三种度量指标将最优概念背景图与传统的概念背景图进行了比较。同时,也将动态概念背景图与可以更新的概念背景图进行了对比。结果显示,本文的策略有一定的优势和可行性。
其他文献
车载自组织网络以车辆为基本信息单元,可以使车辆实时监测到其附近道路上其他车辆的相关信息,通过车与车、车与路边单元的实时信息交互来保证车辆行驶安全、规避道路拥塞和提
任何的计算机系统都包含一定比例的重复代码。这些相似的代码片段的存在不仅使得整个系统显得臃肿并导致性能的下降,而且对于程序的理解,维护,移植,重构等都造成了很大的影响。重
中国古代壁画是中国艺术史上的一朵奇葩,其丰富多彩的内容,记录着各个时代的宗教信仰、社会风貌、民俗生活等,具有重要的研究价值。随着数字化技术的发展和广泛应用,壁画图像逐步
闪存是一种电可擦除可编程只读存储器。闪存具有访问速度快、能耗低、适用环境广和体积小等优点,因此被广泛地应用于移动设备。近年来,随着价格的不断下降,闪存越来越多地被应用
随着云计算、物联网等技术的兴起,以及以社交网络、基于地理位置服务LBS为代表的新型信息发布方式的涌现,社会信息化程度不断提高,信息系统产生了越来越多的数据,大数据时代来临
数据的查询处理在无线传感器网络领域的研究中占有重要地位,受到众多学者的广泛关注和研究。为此,本文研究了Multi-Radio Multi-Channel无线传感器网络中数据收集和数据聚集的
随着电子商务的快速发展,越来越多的消费者在互联网平台上发表了数以万计的产品评论。方面级别评论情感分析的主要目的即根据这些评论给出一系列简明的表达,说明消费者群体对于
GIS(GeographyInformationSystem,地理信息系统)是随着信息技术而发展起来的交叉学科,用户可以从GIS系统中获取直观、详细、多种多样的地理空间信息并加以利用。基于互联网的WebG
随着高新科技的发展,从个人生活到大型企业,再到军事等各方面领域都开始向智能化时代转变。交通业的高科技智能化时代也悄然到来。本文设计了一种汽车近距离高精度定位通信辅助
近年来,隐形牙齿正畸受到了广泛的关注,成为牙齿正畸领域最有价值的研究方向之一。一方面它能克服传统牙齿正畸的缺点,如舒适度差、不够美观与治疗时间长等;另一方面,其它相关学