论文部分内容阅读
随着互联网的迅猛发展,全球信息总量与日俱增,随着移动互联网的兴起,这种发展趋势将更加迅猛。人物信息捜索系统是专门为解决互联网人物捜索难题而产生的搜索系统。现有的人物捜索系统对于名人等公众人物具有很好的效果,而且是针对人物的真实姓名,但是对于非知名的现实生活中的一般人物、只有网络昵称的人物等人物信息搜索却显得无能为力。 本文中主要研究了主题爬虫的相关技术,以及社交网络中的数据获取技术。在上述相关技术研究的基础上,结合人物信息收集的应用场景,本文提出了基于用户ID的智能网络爬虫系统,从用户给出的目标人物ID为触发条件,收集与目标人物信息相关页面数据。本文研究的智能网络爬虫是对传统的主题爬虫的改进,引入了主题特征自动扩展的功能。考虑社交网络对于人物信息收集的巨大价值,通过对社交网站中数据获取方式的研究,利用社交网络数据获取的相关技术增强了本爬虫对于社交网络中数据的获取能力。 本文设计和实现了本文中研究方案的实验系统,并进行了主要模块和系统整体测试,以及实验结果分析。实验结果表明了本文研究的智能网络爬虫系统在人物信息收集方面具有一定的适用价值。