论文部分内容阅读
eDonkey网络是当今流行的P2P文件共享系统之一,近年来对eDonkey网络的研究越来越深入,涉及到资源的分布、用户行为、污染的程度评估与传播、网络流量特征和聚集性等。由于用户数和文件数规模之大,eDonkey网络已经成为资源传播的重要途径。为了有效管理和监控P2P网络中的特定资源,迫切需要实现高效的爬取软件,同时还需要对eDonkey网络中文资源的特征有深入的认识。然而,近年来对eDonkey网络的研究几乎都是面向全网资源的,对中文资源的研究少之又少,且研究非常不全面。
本文设计并实现了高效的eDonkey网络资源爬取软件,并提出了多种优化方案:利用“更多结果查询”方案获取全部结果文件信息;结合服务器源节点搜索和节点间来源交换获取文件的源节点列表;通过实验探测出最优服务器搜索频率;使用多进程方式实现不同服务器间搜索任务的并发;使用异步网络通信来实现节点间搜索任务的高并发。较同领域己公开的方案,从性能和查全率方面都有很大的改善。这也将帮助研究人员更为高效地获取eDonkey网络资源信息。
针对eDonkey网络中三种资源类型:服务器文件索引、源节点和共享文件信息,分别设计实验获取中文环境下的抽样数据:较全面地研究了资源的分布特征、聚集性和节点行为。针对eDonkey网络资源,论文的主要发现包括:
1)资源在服务器和节点上分布都很不均匀,存在流行节点共享了大量文件;
2)超过90%的文件流行度低于10,但仍存在流行文件被大量节点共享;
3)资源的地理聚集性和语义聚集性稳定存在;
4)文件名长度呈双峰分布,集中在5或18个关键词,发现过长的文件名绝大多数具有黄色语义;
5)热点资源的流行度演化趋势平缓,资源污染严重干扰资源的流行度演化;
6)视频和音频类最为流行,压缩类文件所占比重大幅度提高。
通过研究eDonkey网络中文资源的特征,分析结果为研究人员更好地理解eDonkey网络资源的特征与节点行为提供了较为详实的实证材料,为P2P网络的管理和监控提供了基础的参考依据。