结合聚类的潜在语义检索算法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:haihanzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
潜在语义分析(LatentSemanticAnalysis,LSA)是一种通过统计分析挖掘出文档和词语之间潜在含义的经典算法,最初用于解决信息检索中的多义词问题。潜在语义分析使用传统的向量空间模型来表示词语和文档之间的关系,应用SVD矩阵分解技术对原始的语义空间进行压缩,将潜在的语义显现出来。然而在实际应用中,潜在语义分析在计算效率和存储代价方面存在不足,不能有效地应用在大规模的数据集上。针对该问题,本文提出了两种结合聚类的潜在语义检索算法(Clus-LSA和LINK-LSA):两种算法都是通过利用文档之间的结构关系对文档进行聚类,成倍降低文档的个数;将簇代替文档进行LSA过程;最后将簇还原成文档完成检索过程。不同之处在于Clus-LSA利用的是文档自身的引用信息,而LINK-LSA则利用了文档的其他共同属性链接。在实验分析中发现,算法不仅降低了时间和空间的代价,同时还利用到了文档之间的结构信息。从某种角度而言,检索的结果既有文本的内容信息,同时还加入了文档的结构信息。  理论上,Clus-LSA和LINK-LSA都能够成倍地降低检索的时间和空间开销。实验中证明了这一观点。在检索精准度方面由于加入了文档结构特性,对比传统LSA算法,Clus-LSA和LINK-LSA的检索结果在精度上有所下降,但仍然在可接受的范围内。
其他文献
随着电子商务的发展,认证邮件协议作为一种能够使协议的参与方都满足公平性的邮件协议,越来越受到人们的关注。认证邮件协议是公平交换协议的一种,它是指一个发送方需要将邮
RSA算法是现在应用最广的公钥密码算法,但是一直以来,受限于嵌入式设备的有限资源问题(如CPU运行速度,内存等),使RSA算法很难在嵌入式设备上高速的运行。近些年来,很多算法被
文档作为一种重要的大数据类型,蕴含着丰富的有价值的数据,其具有非结构化、样式不固定、数据混杂、价值稀疏等特征。针对文档大数据的特点,提出了一种基于MapReduce的文档大数
视频风格化处理是图像非真实感渲染技术的分支,它将艺术化效果嫁接到普通视频中,使得原有的视频带有丰富的艺术情感信息。人们观察视频或图像时往往将注意力集中于其中的显著部
本文以集成供应链中采购管理软件的开发为应用背景,探讨了基于工作流的软件模型、本体描述方法、协同方法等系统设计问题,建立了一个高效的采购管理软件框架,并利用Petri网等
公交车作为居民出行的主要公共交通工具,由于实时客流量信息的不足,导致经常出现严重的空乘和拥堵现象。因此,迫切需要一种科学合理的公交站台客流量采集手段,为公交车的实时规划
随着社会信息化程度的提高,人们对于信息实时性的要求也日益提高。如何从海量的信息中查找到所需的最新信息越来越引起人们的关注。而XML作为网络数据表示和交换的标准,很多
跨语言信息检索(CLIR)是用户采用一种语言的查询检索另一种语言的文档集合的过程。查询翻译是CLIR系统中采用最广泛的方法。查询翻译普遍采用基于词典的方法,而查询中的未登录词
在数据采集和处理中,存在着大量的概率数据,这些数据具有复杂的相关性以及在查询和处理方面具有实时性。而目前的传统关系数据模型都是用来处理确定数据的,这就需要研究支持
聚类分析是数据挖掘中一个重要的研究分支,已在多个领域得到了很好的应用,诸如模式识别,数据分析和图像处理等。随着实际应用中数据的大量产生,数据的属性类型不再是单一类型为主