论文部分内容阅读
随着互联网时代的到来,诞生了各式各样满足用户需求的社交网站,不同的社交网站有着自身独特的结构,而数据隐藏在结构中,网站网页结构好比一棵树,数据就是树枝上的果实,如何快速、简便的从树上摘取果实,成为人们争先研究的课题。同时,海量数据并不意味着海量重要信息,在社交网络中获取的大部分数据对用户毫无价值,从海量数据到有价值的信息之间,还存在着数据处理、查询、分析等步骤,因此如何快速准确的查询获取相关数据信息同样具有重要意义。 社交网络中蕴含的信息具有着重要价值,但是社交网络数据的采集通常面临适用范围窄、重复性工作量巨大、数据采集人员需要专业知识等问题,同时从获取的海量数据中查询出满足用户需求的信息也存在一定的问题。本文研究了现有的社交网络数据采集与查询方法,针对日益增长的数据采集与数据查询需求,设计了一套社交网络数据采集与查询系统,该系统满足了具体来说本文提出的观点与完成的工作如下: (1)设计实现了社交网络数据采集与查询系统。为满足对社交网站数据的高效、稳定、可靠地采集,从方便、适用的角度对社交网络数据采集及查询系统进行设计和实现。该系统由服务器端、客户端和数据存储三个部分组成,其中客户端提供用户可视化界面,便于用户使用系统;数据存储提供了稳定、安全的数据存储环境,同时提高了数据查询速率,增强用户体验;服务器端是系统的核心,它包含了数据采集与数据查询两个核心方法。本文通过对数据采集与查询方法的研究,再结合社交网络结构多样性的特点以及对采集数据监控管理的需求,分别提出了社交网络自适应数据采集方法与基于权重与语义的扩展查询方法,使系统数据采集与数据查询性能增强。通过测试及实际应用表明,该系统能够采集大部分社交网站,同时能够实时监控、查询采集的数据。 (2)针对社交网络多样性以及用户海量需求的特点,提出了社交网络自适应数据采集方法。自适应数据采集方法包括重构DOM树、生成数据采集代码、同构网页链接扩展3个部分组成,其中重构DOM树是指通过广度优先算法解析网页源码,获取需要的数据同时结合自身给出的标记信息共同构建新的DOM树;生成数据采集代码用于生成自适应数据采集代码,同时为了增加采集网页的自适应,本文提出了基于相对路径结合绝对路径的采集路径生成方法,这种方法增强了网页数据采集的自适应性;同构网页链接扩展是指通过比较网页相似性,获取满足要求的扩展链接,并使用扩展链接生成链接扩展规则,它实现了快速扩展同构网页链接数 量的目的,并通过测试分析表明链接扩展规则具有普遍适用性与有效性。 (3)针对采集数据的查询与监控,提出了基于权重与语义的扩展查询方法。该方法在自动相关反馈的查询扩展方法上进行改进,在原本基于词频扩展的基础上引入了基于词汇分解与组合判断语义相似性的方法,解决了词不匹配的问题,同时基于局部上下文分析方法计算扩展查询词与原始查询词的不同权重,将权重融入原有查询模型。通过测试分析,结果表明新的扩展查询方法提高了查询结果的准确率同时用户也能够监控采集数据,查看采集数据是否满足自身需求。