P2P系统中的信息检索理论及应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:chenpingaaa351
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P系统中的信息检索理论是当前学术界研究的热点问题,随着互联网络技术的发展,网络资源日趋丰富,基于对等网络技术实现对这些资源的组织和管理不但可以作为对传统搜索引擎的有益补充,而且为实现大规模分布式检索提供了一种有效的解决方案。论文分析了影响P2P系统中实现信息检索技术的若干因素,从网络拓扑结构、网络性能分析、资源排序算法以及系统实现这四个方面进行重点研究。经过三年的研究,在阅读大量文献的基础上,取得了一定的研究成果。针对网络拓扑结构,提出一种基于多主题的网络模型构建算法,该算法依据资源类型进行主题划分,能够迅速搜集到网络中的资源信息,可作为信息检索系统的网络组织结构;针对网络性能分析,使用PeerSim模拟器搭建网络平台,从节点利用率、节点数量、自我恢复能力等方面对多主题网络进行性能分析,可为信息检索系统的性能研究提供方法上的借鉴;针对资源排序算法,提出一种基于节点负载的Top-k排序算法,该算法可以有效解决因节点动态性强而引起的传输质量下降的问题;针对系统实现,设计并实现了一个校园环境下的信息检索系统原型,该系统可作为信息检索理论应用的一部分。本文的主要研究内容包括以下几个部分:首先,提出一种基于多主题的网络模型构建算法。针对对等网络中节点自治性强、全局信息缺失的重要问题,提出一种能有效搜集资源全局信息的算法。该算法依据资源的类型将其划分为多个主题,通过周期性的发现算法将具有相同主题的资源信息聚集在一起,形成多个按主题划分的社区,并根据节点能力形成若干个超级节点,进而形成一种具有层次结构的网络模型。由于社区内聚集了网络中同一主题的资源信息,对于特定的查询,只需由超级节点路由到相应的主题社区,就可获得相对较优的检索结果。其次,使用PeerSim模拟器对主题网络模型进行性能分析。对等网络一般具有节点众多,不易搭建真实网络环境的特点,利用网络模拟器对网络结构进行模拟是研究对等网络的重要方法之一。论文选择PeerSim模拟器搭建网络平台,将多主题网络分别与单主题和无主题网络结构进行对比,实验结果表明,该模型不仅能够搜集到近似全局的节点信息,而且具有较快的收敛速度和较强的鲁棒性。接着,提出一种基于节点负载的Top-k排序算法。由于对等网络中节点动态性较强,没有集中控制机制,节点本身及其所处的网络状态不断发生变化,节点间的数据传输质量得不到保证,为此论文研究基于节点负载的排序算法。对网络中节点的负载及网络状况进行预测,将网络负载情况引入到结果的排序算法中。通过与相关算法进行比较,对算法的有效性进行验证,实验结果表明,引入节点负载的资源排序算法,能够有效地提高传输效率和服务质量。最后,设计并实现了一种校园网环境下基于主题划分的信息检索系统。针对校园网环境下信息检索、资源共享问题,设计了一种基于主题划分的实现方案,该方案考虑到校园网资源按照学科、部门分布的特点,将其按照学科、适用对象等进行主题划分,将用户搜索限制在主题相关的子网内。该方案采用对等结构作为资源组织方式,集资源检索、共享、管理功能于一体,能够有效地对校园网资源进行管理。
其他文献
维数约减已经成为当前机器学习领域的受人关注的研究热点。维数约减是将数据由高维约减到低维的过程而用来揭示数据的本质低维结构。它作为克服“维数灾难”的途径在这些相关
高层体系结构是目前分布式仿真的通用技术标准。论文对高层体系结构相关技术进行了论述,重点研究了高层体系结构的数据传输模型。针对数据传输模型中的关键部件运行支撑框架,论
目前,光纤通信技术迅猛发展。这种技术具有频带宽、损耗低、抗干扰能力强等优点,而且建网的成本在逐步降低,因此,很多企业都已经或正在组建自己的光纤通信网。同步数字系列(SDH)在
网格技术是继Web与Internet技术后的第三大技术。网格把大量的、分布式的各种软件和硬件资源组合起来,为科研人员和工程技术人员提供了统一的计算环境,来解决数据和集中计算
随着互联网技术的日益普及,Web上的信息量呈爆炸性增长。由于互连网上信息资源的极大丰富,信息服务的个性化越来越引起人们的重视。人们对信息获取的目的逐渐从查全转变为查
随着第三代测序技术的普及,生物数据呈指数增长。各种生物数据库如NCBI、EBI、DDBJ等被建立和不断丰富,标志着生物数据也迈入了“大数据”时代。大量的生物数据对人们处理和
互联网已是我们生活中密不可分的重要工具。为了满足用户对网上信息资源的获取,各种搜索引擎应运而生,如Google和百度等。但是随着信息急剧膨胀以及信息多元化的发展,传统搜索引
随着互联网技术和电子政务的飞速发展,各行各业对门户内容管理系统的依赖性越来越强。而传统信息系统的建设存在着多种弊端:角色分工不明、资源组织不合理、安全性低、扩展性不
Delaunay三角网是数字高程模型(DEM)构建的基础。Delaunay三角网具有适用性强、分布灵活的特点,对于非规则离散分布的散乱数据的动态网格化的计算机造型、复杂构图研究、图像
数据库技术经过多年的不断发展已经成为当今IT领域最成功的技术之一,它推动了全球范围内的商业、政务、金融等方面数据管理的发展。当代数据的三个典型特点使得传统关系数据