论文部分内容阅读
本论文讨论了如何在P2P系统中通过发掘、利用资源特征,来实现基于内容的文本检索。
各类文本文件是P2P文件共享系统中共享文件的重要组成部分。作为知识的直接来源,文本文件是一类重要的共享资源。对于文本文件的有效利用,依赖于高效的信息检索技术。因此P2P系统中的信息检索(P2PInformationRetrieval,P2PIR)有着比较重要的研究价值。同时,作为分布式信息检索(DistributedInformationRetrieval,DIR)中的一个特殊问题,P2P系统中的信息检索面临着许多困难。这些困难既包括原先DIR中所没有很好解决的遗留难题,同时也包括P2P系统的特性所带来的新的难题。上述困难使得P2PIR成为了一个非常有挑战性的研究课题。
本文的研究工作基于两个前提:理性用户和节点内文档按主题分类。根据现有的P2P系统的有关统计数据以及文本处理技术的发展,我们认为上述前提条件有望得到满足。基于这两个前提,为了便于问题的讨论,我们明确了所要的解决问题:如何在节点内文档都是关于相同主题的P2P系统中进行基于内容的文本检索。对于这个问题,我们提出了通过充分发掘和利用节点内资源的特征来提高检索性能的检索策略。这里的资源是指节点内的文档集。资源的特征是指文档集表现出的与文档集主题相关的统计信息。
具体说来,我们的研究内容主要包括:
1.基于资源特征的P2P社区的形成技术。P2P社区是由相似节点构成的节点集合。所谓相似节点是指节点内的文档集拥有相同的主题。我们提出了一种基于节点描述的相似节点发现方法。通过结合主题模型和模糊理论,我们解决了节点描述的生成和基于节点描述的节点相似度判定问题。实验表明,较之于传统的方法,我们提出的节点描述机制能够更加准确的发现相似节点。这个性质在P2P系统中表现得尤为明显。以准确的相似节点发现机制为基础,我们提出了基于纯粹P2P模型的自动、自治的P2P社区形成机制。模拟实验表明我们的社区形成机制是可行而有效的。同时,我们也提出了用于量化评价社区形成机制性能的3个指标:完整性、正确性和高效性。
2.P2P社区内的检索技术。形成的P2P社区为信息检索提供了一个好的环境。从理论上说,在P2P社区内进行检索,可以花费较小的代价而取得较好的检索效果(查全率/查准率)。为了有效地组织和管理社区内的节点,我们采用了一种混合型的P2P网络拓扑结构。根据混合型网络拓扑结构的特点,我们将P2P社区内的信息检索划分为3个过程:节点内的检索、组内搜索和组间搜索。对于节点内的检索,我们通过两种不同的数学手段(矩阵计算技术和统计推断技术)推导出了一种新的词条权重计算方法:MI×RDF。该计算方法有效的解决了同构文档集中的信息检索问题,为取得好的检索结果打下了坚实的基础。对于组内检索和组间检索,为了减少查询开销、提高检索效率,我们选择部分与查询相关度高的节点来执行查询任务。实验结果表明,在较小的查询开销下,通过采用上述方法可以取得较好的检索结果。
3.基于资源特征的查询优化技术。对于没有P2P社区存在的系统,我们提出了一种查询优化机制:SDQE(SemanticDuralQueryExpnsion)。在SDQE中,我们利用LSI(LatentSemanticIndexing)技术实现了查询扩展。我们认为查询扩展的结果反映了不同节点内资源主题的统计特征。通过比较不同文档集的特征,SDQE实现了查询优化,从而部分的解决了VSM模型中的同义词和多义词问题。实验表明,通过采用SDQE机制,P2P系统内的文本检索引擎的性能可以得到较大的提高。
结合自动分类/聚类技术,经过适当的扩展,上述方法都可以适用于节点内包含多个主题的文档的情况。
总的说来,本文的主要贡献(创新点)如下:
1.通过有机的结合主题模型和模糊理论,提出了一种有效的基于节点描述的相似节点发现机制。该发现机制有较好的数学基础。
2.以准确的发现相似节点为基础,我们提出了P2P系统中基于任务的P2P社区形成机制。与其他社区形成机制不同,我们提出的社区形成机制通过利用节点的资源特征,实现了在纯粹的P2P系统中以完全自动和自治的方式形成社区。同时,我们提出了用于社区形成机制评价的3个量化指标:完整性(HCS(T))、正确性(E(Ci))和高效性(()(S))。这3个量化指标的提出使得各种在纯粹的P2P系统中完全自动和自治的社区形成机制相互之间的比较成为了可能。首先提出这3个量化指标,也是我们工作的一个贡献。
3.在社区内的文本检索中,我们采用了一种新的词条权重计算方法:MI×RDF。该方法有较好的数学基础。在社区内的检索中,我们提出从“质”和“量”两个方面来考察节点与查询的相关度,并提出了相应的节点选择机制。
4.对于没有社区存在的P2P系统,我们发现可以通过优化用户查询来提高P2P系统中文本检索引擎的性能。我们采用LSI技术来实现查询扩展。以查询扩展为基础,我们提出了一种基于语义的自动查询优化机制:SDQE。