网络资源搜索结果聚类算法研究与实现

来源 :五邑大学 | 被引量 : 0次 | 上传用户:xpzcz1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化程度的提高,人们越来越多地依靠将搜索引擎作为中介去获取Web上的资源。因此,搜索引擎在Web资源检索时所起的作用越来越重要。通过在搜索引擎模块设计中大量采用新近出现的技术、思想,使之具有越来越高的智能性,极大地提高了召回率和准确率,在一定程度上提高了Web信息检索效率。但目前绝大多数搜索引擎在显示结果时,广泛采用按照和检索词的相关程度对搜索结果项进行网页排序后显示出来。用户还要进行再一次地检索后才能找到自己感兴趣的结果项,返回的结果项越多,用户也就越难发现自己所想要的那一部分信息。随着Web上信息量越来越多,这种传统的搜索结果显示方式所暴露出来的缺陷也越来越明显,严重制约着Web资源检索的效率。 为克服这种显示方式的不足,在假定现有的搜索引擎具有足够强大的检索能力的前提下,可以应用属于检索后文档可视化技术之一的搜索结果聚类技术对原始搜索结果进行聚类,将冗长的搜索结果列表转化成简洁而易理解的若干个组后,再显示出来。用户在很短的时间内就可对搜索结果有一个整体了解,轻松忽略掉那些不感兴趣的组而快速地定位到自己感兴趣的组,避免了用户被搜索结果“淹没” 现象的发生,切实提高Web资源检索效率。 该文通过分析较适合运用在Web搜索结果聚类领域的两个具有代表性的算法——后缀树聚类算法和基于奇异值分解的LINGO算法,举了一个简单实例,分别演示了这两个算法的完整处理过程。最后,在参考Carrot2框架基础上,采用目前较占主流地位并提供Web服务API的Google和Yahoo!两大搜索引擎作为上述两个算法的数据源接口,设计了一个Web搜索结果聚类系统。通过在Web环境下得到的实验数据,对上述两个算法进行对比分析,总结出各自的优缺点,然后指出了将来对Web搜索结果聚类问题的一些研究方向。
其他文献
汉字识别的研究工作,一直被看作是十分困难的模式识别问题,并被视为字符识别的最终目的。汉字的识别最早可以追溯到上世纪60年代。我国对汉字识别研究工作始于70年代,从80年
从计算机出现起,各种问题就伴随而来。各种各样的软件故障以及因此带来的问题给软件行业敲响了警钟。在大量的现实问题面前,人们开始重视软件质量。软件测试作为一种重要的软件
近年来,基于卫星的互联网的发展已经成为宽带卫星通信发展的一个主要方向。卫星与互联网相结合具有更强大的功能,能够提供更广泛的服务。但是在设计和实现基于卫星的互联网时,卫
随着互联网的普及,电子邮件已经成为一种不可或缺的信息交流手段,然而与之相关的各种安全问题,包括广受关注的垃圾邮件,给广大网络用户带来极大的困扰。如何提高邮件系统的安全性
随着数字媒体技术和计算机网络通讯技术的蓬勃发展,数字媒体应用日益广泛。但随之而来的是数字媒体可以在无任何减损品质的状况下被轻易的拷贝并通过网络迅速传播,而且费用低
随着信息技术的发展和数字化产品的普及,从消费电子到工业设备,嵌入式系统被应用到网络、手持通信设备、国防军事等各个领域。嵌入式系统是以应用为中心,以计算机技术为基础,其软
为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。而在汉语的计算机处理中,大部分的语义分析都是以汉语分词作为基础。目前,很多的汉语分
随着市场的发展和成熟,业务过程越来越复杂和细化,而对“过程”管理和控制缺失,只注重“结果”的管理方式是片面的和不稳定的,有可能导致管理失控。为了对企业各管理层面各种过程
铁路罐车是国家法定强制检定的计量器具,传统的容积计量方式由于存在着技术落后、操作受人为因素影响较大、使用经验公式等问题导致罐车容积计量不能保证精度要求。而基于光学
TinyOS作为一种典型的无线传感器网络操作系统被广泛使用,但它现有的调度策略采用非剥夺的先来先服务(first-come-first-served,FCFS)调度策略,不能够保证系统的响应性能,当系统