元搜索引擎检索结果聚类技术的研究与改进

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:gxlzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络应用服务发展的今天,信息获取已成为网民使用Internet的主要目的之一。由于传统搜索引擎存在不足及自身的局限性,限制了人们对资源的获取。现存的大多数元搜索引擎以线性列表的方式为用户返回检索结果,其规模仍相当庞大,这使得用户可能用很多时间才能找到自己需要的结果。因此,对检索结果进行聚类处理成为提高用户查找速度和快速定位所需信息的一个有效解决方案。   本文通过对以往文本聚类算法特别是混合聚类算法研究的基础上,从聚类结构出发,设计和改进了基于分解和合并两个阶段的混合聚类算法一改进的分解-合并聚类算法ISACA(Improved Separate-and-Amalgamate Clustering Algorithm)。分解阶段通过计算相似性矩阵的次大特征向量推导出对相似关系图的一次最优划分。计算最优切割的过程中引入了幂法的概念,使整个计算过程的复杂度大大降低。合并阶段分析T用到的几个目标函数的优缺点,通过这些目标函数找到二叉树中的最优聚类,为试验阶段提供了理论依据。之后通过该算法在元搜索引擎之上的应用实例说明了该算法的实用性。   在仿真实验阶段使用文本、网页和标准数据集对算法进行测试分析,并将实验结果与其他经典聚类算对比发现ISACA算法可以求出数据集的最优聚类。使用聚类算法的标准评价方法对聚类算法进行评价,得出的结果显示改进算法明显优于K-means、min-sum等传统聚类算法。  
其他文献
传感器可以监测并收集环境中的物理信息,可以对收集的数据进行简单处理,并为所收集的数据进行传输,因而由传感器组成的无线传感器网络在许多领域都有广泛应用。被检测区域是
无线传感器网络在环境监测方面有着非常重要的应用。为了将无线传感器网络应用于环境的监测,本文系统地研究了无线传感器网络的硬件平台、软件平台及其网络协议,并设计实现了
随着二十一世纪的到来,我们真正进入了互联网时代,互联网在不断地改变人们的生活,如何更快更好的为用户提供优质的服务成为了关键,手机App在这样的背景下发展迅猛,App承载了
信息伪装是信息安全领域中一门新兴的学科,目前已取得一定的研究成果,并在实验中显示了良好的性能。同时,人们通过手机、PDA、掌上电脑等移动设备通信日益频繁,产品形式的数字化
CCD技术是20世纪70年代末投入使用的新型探测技术。由于线性度和饱和度比照相底片好、灵敏度高、易于数字化处理等优点,CCD一问世就被广泛应用于照相摄影、天文观测、空间探测、卫星测地、军事侦查等各个领域。CCD技术在国外发展很快,现在在国内也是相关行业研究的热点之一。而通用串行总线USB具有速度快、支持热拔插及传输线少等优点,因此将USB应用于CCD中可以很好地解决传统数据采集系统的不足,具有实际
无线传感器网络在军事和民用领域有着广阔的应用前景,是目前一个非常活跃的研究领域。与传统网络不同,无线传感器网络资源非常有限,其首要设计目标是能源的高效使用。如何节
功能CT成像有助于肿瘤的早期诊断,能提供关于肿瘤预后的信息,并能检测肿瘤的治疗效果,是一种简单、有效、易于开展的新的成像手段,对肿瘤诊治有一定帮助。本文主要是针对恶性肿瘤
随着计算机软件技术的发展和在各个领域的广泛应用,软件的规模越来越大,复杂度越来越高,在软件开发和维护过程中,由于软件错误带来的一系列问题越来越明显地威胁着软件的质量,其中
近年来随着高带宽网络的普及,流媒体应用包括视频直播、视频点播等业务得到了迅猛的发展,它们已经成为当代互联网服务的重要组成部分,成千上万的用户能够通过IPTV和视频点播业务
模糊聚类算法是一种重要的数据分析方法,具有能客观地反映现实对象隶属关系不确定性的特点,近年来已成为数据挖掘理论体系中研究的热点,并且在众多领域得到了广泛应用。   但