基于用户ID的智能网络爬虫研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:cho159753
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,全球信息总量与日俱增,随着移动互联网的兴起,这种发展趋势将更加迅猛。人物信息捜索系统是专门为解决互联网人物捜索难题而产生的搜索系统。现有的人物捜索系统对于名人等公众人物具有很好的效果,而且是针对人物的真实姓名,但是对于非知名的现实生活中的一般人物、只有网络昵称的人物等人物信息搜索却显得无能为力。  本文中主要研究了主题爬虫的相关技术,以及社交网络中的数据获取技术。在上述相关技术研究的基础上,结合人物信息收集的应用场景,本文提出了基于用户ID的智能网络爬虫系统,从用户给出的目标人物ID为触发条件,收集与目标人物信息相关页面数据。本文研究的智能网络爬虫是对传统的主题爬虫的改进,引入了主题特征自动扩展的功能。考虑社交网络对于人物信息收集的巨大价值,通过对社交网站中数据获取方式的研究,利用社交网络数据获取的相关技术增强了本爬虫对于社交网络中数据的获取能力。  本文设计和实现了本文中研究方案的实验系统,并进行了主要模块和系统整体测试,以及实验结果分析。实验结果表明了本文研究的智能网络爬虫系统在人物信息收集方面具有一定的适用价值。
其他文献
本文围绕三维景观的网上多分辨发布这一当前GIS领域的焦点问题展开。首先,本文分析了不同形式的地形数据的优缺点,针对海量地形数据的网上多分辨发布这一特定需求,提出了基于
随着各种以数据内容为中心的互联网应用的兴起,基于IP地址寻找数据的现有互联网通信方式日益力不从心。为了应对以内容为中心的需求,欧美学术界提出了内容中心网络(Content-cen
目前,具有我国自主知识产权的TD-LTE-A已经完成了标准制定工作,进入了相关移动终端产品的检测和验证阶段。因此研究稳定、高效且符合规范的TD-LTE-A终端综合测试仪对推动相关产
近年来,随着无线网络的不断发展,多媒体应用的需求正日益增加。由于多媒体数据尤其是视频数据量的巨大,为了满足传输带宽需求,视频信号通常需要高度压缩,以消除数据间的冗余
近年来,人脸识别相关产品已被大量应用到生产生活中,相关技术日趋成熟,应用领域也越来越广。人脸姿态估计作为人脸识别的预处理阶段,会对人脸识别系统的性能造成很大影响。人脸姿
多入多出(MIMO)无线通信技术大大增加了无线通信系统的容量,改善了无线通信系统的性能[1][2][3]。与此同时,后三代(B3G)移动通信系统的研究也逐渐进入了初步实现阶段,作为B3G
由于无线接入技术的发展以及用户对更高传输速率的需求,无线通信网越来越呈现出异构的特征。不仅如此,因为未来无线通信系统需要满足人们在任何时间,任何地点和任何人通信的需求
网络教育是当今国际国内教育发展的热点,也是现代教育技术的主流发展方向之一。为了更有效地建设好各级各类教育资源库,促进资源库之间的数据共享,提高教育资源检索的效率与
随着移动互联网和终端技术的不断发展,智能机逐渐取代功能机,终端应用得到了极大丰富。智能终端在为人们日常生活带来便利的同时,也因终端能耗过大造成终端续航能力降低,用户体验