eDonkey网络资源爬取与资源特征分析研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:fsp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
eDonkey网络是当今流行的P2P文件共享系统之一,近年来对eDonkey网络的研究越来越深入,涉及到资源的分布、用户行为、污染的程度评估与传播、网络流量特征和聚集性等。由于用户数和文件数规模之大,eDonkey网络已经成为资源传播的重要途径。为了有效管理和监控P2P网络中的特定资源,迫切需要实现高效的爬取软件,同时还需要对eDonkey网络中文资源的特征有深入的认识。然而,近年来对eDonkey网络的研究几乎都是面向全网资源的,对中文资源的研究少之又少,且研究非常不全面。   本文设计并实现了高效的eDonkey网络资源爬取软件,并提出了多种优化方案:利用“更多结果查询”方案获取全部结果文件信息;结合服务器源节点搜索和节点间来源交换获取文件的源节点列表;通过实验探测出最优服务器搜索频率;使用多进程方式实现不同服务器间搜索任务的并发;使用异步网络通信来实现节点间搜索任务的高并发。较同领域己公开的方案,从性能和查全率方面都有很大的改善。这也将帮助研究人员更为高效地获取eDonkey网络资源信息。   针对eDonkey网络中三种资源类型:服务器文件索引、源节点和共享文件信息,分别设计实验获取中文环境下的抽样数据:较全面地研究了资源的分布特征、聚集性和节点行为。针对eDonkey网络资源,论文的主要发现包括:   1)资源在服务器和节点上分布都很不均匀,存在流行节点共享了大量文件;   2)超过90%的文件流行度低于10,但仍存在流行文件被大量节点共享;   3)资源的地理聚集性和语义聚集性稳定存在;   4)文件名长度呈双峰分布,集中在5或18个关键词,发现过长的文件名绝大多数具有黄色语义;   5)热点资源的流行度演化趋势平缓,资源污染严重干扰资源的流行度演化;   6)视频和音频类最为流行,压缩类文件所占比重大幅度提高。   通过研究eDonkey网络中文资源的特征,分析结果为研究人员更好地理解eDonkey网络资源的特征与节点行为提供了较为详实的实证材料,为P2P网络的管理和监控提供了基础的参考依据。
其他文献
粒子群优化(PSO)算法是继蚁群算法之后提出的一种新型的优化技术,其基本思想来源于对鸟群捕食的行为模拟。该算法的优势在于算法简单,容易实现而且功能强大,具有深刻的智能背
大亚湾反应堆中微子实验是中美两国目前在基础科学研究领域最大的合作项目之一,其主要目标是利用大亚湾和岭澳核反应堆产生的反中微子来测定一个具有重大物理意义的参数--中
城市是一个有生命的系统,它的各种基础设施及功能由生活在其中的人们所定义,并随着城市人群的行为特征变化而演进。对城市人群的移动性特征进行可视化、刻画分析及比较一直是城
用户是网络的主体,用户行为是互联网安全问题的主要来源,而目前大多数网络管理系统对网络用户可知可控粒度不够,应用系统之间缺乏对用户信息和行为的有效共享。因此,很有必要
模型格式标准是计算机图形学的重要课题,在CAD/CAE/CAM领域都有非常重要的作用。模型文件质量直接影响到产品的质量和工作效率。高质量的模型文件应该能够准确地表达设计者的
随着信息技术的飞速发展,特别是Web2.0的兴起和发展,用户生成内容(UGC)越来越丰富。用户生成内容含有大量的情感信息,这使得传统的以关键字为检索手段的信息获取技术日益不能
随着网络带宽的快速增加和E-Science中对大量科学数据传输的需要,很多长距离高速网络相继出现,并在诸多领域发挥着重要的作用,所以对适用于长距离高速网络的网络协议研究具有非
本研究的目的是提出一种有效的求解大规模工程问题的计算方法。就实际的工程问题而言,其涉及的计算量往往很大且需要耗费大量的计算时间,同时对内存容量的需求也很高,从而导
学位
Web应用离不开数据的持久化。持久化是用来保证数据值的生命周期满足应用程序的要求,具体而言,是将应用程序中的数据值保存到非易失性存储介质(如硬盘、闪存等等)中。传统的Web应
虚拟战场是虚拟现实技术在军事领域的重要应用。计算机技术和图形图像技术的发展带动了虚拟战场技术的长足进步。在新时期部队模拟作战和军事训练中,通过虚拟战场全面掌握战