结合聚类的潜在语义检索算法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：haihanzhi

【摘要】

：

潜在语义分析(LatentSemanticAnalysis，LSA)是一种通过统计分析挖掘出文档和词语之间潜在含义的经典算法，最初用于解决信息检索中的多义词问题。潜在语义分析使用传统的向量空

【作者】

：

向河林

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2011年期

【关键词】

：

潜在语义分析语义检索信息检索向量空间模型奇异值分解图聚类算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

潜在语义分析(LatentSemanticAnalysis，LSA)是一种通过统计分析挖掘出文档和词语之间潜在含义的经典算法，最初用于解决信息检索中的多义词问题。潜在语义分析使用传统的向量空间模型来表示词语和文档之间的关系，应用SVD矩阵分解技术对原始的语义空间进行压缩，将潜在的语义显现出来。然而在实际应用中，潜在语义分析在计算效率和存储代价方面存在不足，不能有效地应用在大规模的数据集上。针对该问题，本文提出了两种结合聚类的潜在语义检索算法(Clus-LSA和LINK-LSA)：两种算法都是通过利用文档之间的结构关系对文档进行聚类，成倍降低文档的个数；将簇代替文档进行LSA过程；最后将簇还原成文档完成检索过程。不同之处在于Clus-LSA利用的是文档自身的引用信息，而LINK-LSA则利用了文档的其他共同属性链接。在实验分析中发现，算法不仅降低了时间和空间的代价，同时还利用到了文档之间的结构信息。从某种角度而言，检索的结果既有文本的内容信息，同时还加入了文档的结构信息。　　理论上，Clus-LSA和LINK-LSA都能够成倍地降低检索的时间和空间开销。实验中证明了这一观点。在检索精准度方面由于加入了文档结构特性，对比传统LSA算法，Clus-LSA和LINK-LSA的检索结果在精度上有所下降，但仍然在可接受的范围内。

其他文献

基于密钥链的认证邮件协议的扩展及形式化验证

随着电子商务的发展,认证邮件协议作为一种能够使协议的参与方都满足公平性的邮件协议,越来越受到人们的关注。认证邮件协议是公平交换协议的一种,它是指一个发送方需要将邮

学位

认证邮件协议密钥链可信第三方透明性形式化验证

8比特AVR微控制器上高效及抗侧信道攻击的RSA算法的实现

RSA算法是现在应用最广的公钥密码算法,但是一直以来,受限于嵌入式设备的有限资源问题(如CPU运行速度,内存等),使RSA算法很难在嵌入式设备上高速的运行。近些年来,很多算法被

学位

轻量级算法实现多精度运算AVR架构侧信道密码分析侧信道攻击抵御策略

基于MapReduce的文档大数据挖掘若干关键技术研究

文档作为一种重要的大数据类型，蕴含着丰富的有价值的数据，其具有非结构化、样式不固定、数据混杂、价值稀疏等特征。针对文档大数据的特点，提出了一种基于MapReduce的文档大数

学位

文档大数据MapReduce方法非结构化表格并行挖掘数据抽取

基于前景对象分割与跟踪的视频多风格化处理

视频风格化处理是图像非真实感渲染技术的分支，它将艺术化效果嫁接到普通视频中，使得原有的视频带有丰富的艺术情感信息。人们观察视频或图像时往往将注意力集中于其中的显著部

学位

视频多风格化处理前景分割目标跟踪纹理传输笔刷模拟

采购管理工作流构架及过程协同方法研究

本文以集成供应链中采购管理软件的开发为应用背景,探讨了基于工作流的软件模型、本体描述方法、协同方法等系统设计问题,建立了一个高效的采购管理软件框架,并利用Petri网等

学位

采购管理工作流过程协同合同网Petri网KQML表示ACME表示

公交站台行人检测系统关键技术研究

公交车作为居民出行的主要公共交通工具，由于实时客流量信息的不足，导致经常出现严重的空乘和拥堵现象。因此，迫切需要一种科学合理的公交站台客流量采集手段，为公交车的实时规划

学位

公交站台行人检测系统滑动窗口距离优化支持向量机头部特征

支持XML数据动态更新的编码和索引技术研究

随着社会信息化程度的提高,人们对于信息实时性的要求也日益提高。如何从海量的信息中查找到所需的最新信息越来越引起人们的关注。而XML作为网络数据表示和交换的标准,很多

学位

XML数据动态更新编码方案索引技术

跨预言信息检索查询翻译技术研究

跨语言信息检索（CLIR）是用户采用一种语言的查询检索另一种语言的文档集合的过程。查询翻译是CLIR系统中采用最广泛的方法。查询翻译普遍采用基于词典的方法，而查询中的未登录词

学位

跨语言信息检索查询翻译技术网络资源双语语料库

实时概率数据模型及其查询处理的研究

在数据采集和处理中,存在着大量的概率数据,这些数据具有复杂的相关性以及在查询和处理方面具有实时性。而目前的传统关系数据模型都是用来处理确定数据的,这就需要研究支持

学位

查询处理数据处理概率数据

基于模糊集合信息熵的混合属性层次聚类算法

聚类分析是数据挖掘中一个重要的研究分支，已在多个领域得到了很好的应用，诸如模式识别，数据分析和图像处理等。随着实际应用中数据的大量产生，数据的属性类型不再是单一类型为主

学位

层次聚类混合属性模糊集合信息熵Gap Statistic算法

结合聚类的潜在语义检索算法研究

其他学术论文