P2P系统中基于资源特征的信息检索技术

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xxxmmm1236
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文讨论了如何在P2P系统中通过发掘、利用资源特征,来实现基于内容的文本检索。 各类文本文件是P2P文件共享系统中共享文件的重要组成部分。作为知识的直接来源,文本文件是一类重要的共享资源。对于文本文件的有效利用,依赖于高效的信息检索技术。因此P2P系统中的信息检索(P2PInformationRetrieval,P2PIR)有着比较重要的研究价值。同时,作为分布式信息检索(DistributedInformationRetrieval,DIR)中的一个特殊问题,P2P系统中的信息检索面临着许多困难。这些困难既包括原先DIR中所没有很好解决的遗留难题,同时也包括P2P系统的特性所带来的新的难题。上述困难使得P2PIR成为了一个非常有挑战性的研究课题。 本文的研究工作基于两个前提:理性用户和节点内文档按主题分类。根据现有的P2P系统的有关统计数据以及文本处理技术的发展,我们认为上述前提条件有望得到满足。基于这两个前提,为了便于问题的讨论,我们明确了所要的解决问题:如何在节点内文档都是关于相同主题的P2P系统中进行基于内容的文本检索。对于这个问题,我们提出了通过充分发掘和利用节点内资源的特征来提高检索性能的检索策略。这里的资源是指节点内的文档集。资源的特征是指文档集表现出的与文档集主题相关的统计信息。 具体说来,我们的研究内容主要包括: 1.基于资源特征的P2P社区的形成技术。P2P社区是由相似节点构成的节点集合。所谓相似节点是指节点内的文档集拥有相同的主题。我们提出了一种基于节点描述的相似节点发现方法。通过结合主题模型和模糊理论,我们解决了节点描述的生成和基于节点描述的节点相似度判定问题。实验表明,较之于传统的方法,我们提出的节点描述机制能够更加准确的发现相似节点。这个性质在P2P系统中表现得尤为明显。以准确的相似节点发现机制为基础,我们提出了基于纯粹P2P模型的自动、自治的P2P社区形成机制。模拟实验表明我们的社区形成机制是可行而有效的。同时,我们也提出了用于量化评价社区形成机制性能的3个指标:完整性、正确性和高效性。 2.P2P社区内的检索技术。形成的P2P社区为信息检索提供了一个好的环境。从理论上说,在P2P社区内进行检索,可以花费较小的代价而取得较好的检索效果(查全率/查准率)。为了有效地组织和管理社区内的节点,我们采用了一种混合型的P2P网络拓扑结构。根据混合型网络拓扑结构的特点,我们将P2P社区内的信息检索划分为3个过程:节点内的检索、组内搜索和组间搜索。对于节点内的检索,我们通过两种不同的数学手段(矩阵计算技术和统计推断技术)推导出了一种新的词条权重计算方法:MI×RDF。该计算方法有效的解决了同构文档集中的信息检索问题,为取得好的检索结果打下了坚实的基础。对于组内检索和组间检索,为了减少查询开销、提高检索效率,我们选择部分与查询相关度高的节点来执行查询任务。实验结果表明,在较小的查询开销下,通过采用上述方法可以取得较好的检索结果。 3.基于资源特征的查询优化技术。对于没有P2P社区存在的系统,我们提出了一种查询优化机制:SDQE(SemanticDuralQueryExpnsion)。在SDQE中,我们利用LSI(LatentSemanticIndexing)技术实现了查询扩展。我们认为查询扩展的结果反映了不同节点内资源主题的统计特征。通过比较不同文档集的特征,SDQE实现了查询优化,从而部分的解决了VSM模型中的同义词和多义词问题。实验表明,通过采用SDQE机制,P2P系统内的文本检索引擎的性能可以得到较大的提高。 结合自动分类/聚类技术,经过适当的扩展,上述方法都可以适用于节点内包含多个主题的文档的情况。 总的说来,本文的主要贡献(创新点)如下: 1.通过有机的结合主题模型和模糊理论,提出了一种有效的基于节点描述的相似节点发现机制。该发现机制有较好的数学基础。 2.以准确的发现相似节点为基础,我们提出了P2P系统中基于任务的P2P社区形成机制。与其他社区形成机制不同,我们提出的社区形成机制通过利用节点的资源特征,实现了在纯粹的P2P系统中以完全自动和自治的方式形成社区。同时,我们提出了用于社区形成机制评价的3个量化指标:完整性(HCS(T))、正确性(E(Ci))和高效性(()(S))。这3个量化指标的提出使得各种在纯粹的P2P系统中完全自动和自治的社区形成机制相互之间的比较成为了可能。首先提出这3个量化指标,也是我们工作的一个贡献。 3.在社区内的文本检索中,我们采用了一种新的词条权重计算方法:MI×RDF。该方法有较好的数学基础。在社区内的检索中,我们提出从“质”和“量”两个方面来考察节点与查询的相关度,并提出了相应的节点选择机制。 4.对于没有社区存在的P2P系统,我们发现可以通过优化用户查询来提高P2P系统中文本检索引擎的性能。我们采用LSI技术来实现查询扩展。以查询扩展为基础,我们提出了一种基于语义的自动查询优化机制:SDQE。
其他文献
去除重复网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了一种根据词频统计的抽取特征词和特征句,并根据特征句来判别重复
随着GIS广泛地应用于各行各业,产生了大量的异质空间数据和异构的GIS应用系统。如何统一和共享这些空间信息资源和实现GIS应用系统之间的互操作,是一个很关键的问题。建立可
论文以MC环境下订单实时监测与辅助决策软件开发为研究对象,在客户订单的基础上提出了定制产品大批量决策模型架构,设计了一种大批量定制产品订单监控引擎,实现了对定制产品
本文提出了植入式故障注入这个概念,并对植入式故障的引入技术作了系统化的研究.在文中,首先讨论了数字系统中的故障类型和发生机理.接着研究了各种硬件故障注入技术,基于对
随着计算机网络技术的迅速发展,针对主机以及网络的入侵行为日益猖獗。计算机和网络系统的安全问题越来越突出,各种安全手段的研究也就越来越重要,相应的,处于重要地位的入侵检测
三维地震数据场的传统解释方法是用剖面及水平切片显示二维图像,具有很大的局限性,很早以前人们就指出三维数据三维解释的方向。科学计算可视化是实现三维数据三维解释的主要
高速发展的DSP技术为语音信号处理提供强有力的工具,使得实时实现各种各样的复杂算法成为可能。针对不同的应用,国际标准组织制定了一系列的语音压缩编码标准。其中,G.729A是
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个富有挑战性的课题,是新一代计算机的三大突破口之一,正受到世界各国
在工业现场环境下将无线通信技术与Internet结合,为测控系统提供实时、可靠的远程数据传输服务,最为关键的问题是对TCP/IP协议进行实时性改进以及针对工业无线信道特征设计出
近年来,随着电子商务和计算机技术的发展,把智能计算技术和数据挖掘技术应用到电子商务,解决现有电子商务技术在个性化服务及商品信息推荐等方面的种种不足。目前的Web个性化服