论文部分内容阅读
潜在语义分析(LatentSemanticAnalysis,LSA)是一种通过统计分析挖掘出文档和词语之间潜在含义的经典算法,最初用于解决信息检索中的多义词问题。潜在语义分析使用传统的向量空间模型来表示词语和文档之间的关系,应用SVD矩阵分解技术对原始的语义空间进行压缩,将潜在的语义显现出来。然而在实际应用中,潜在语义分析在计算效率和存储代价方面存在不足,不能有效地应用在大规模的数据集上。针对该问题,本文提出了两种结合聚类的潜在语义检索算法(Clus-LSA和LINK-LSA):两种算法都是通过利用文档之间的结构关系对文档进行聚类,成倍降低文档的个数;将簇代替文档进行LSA过程;最后将簇还原成文档完成检索过程。不同之处在于Clus-LSA利用的是文档自身的引用信息,而LINK-LSA则利用了文档的其他共同属性链接。在实验分析中发现,算法不仅降低了时间和空间的代价,同时还利用到了文档之间的结构信息。从某种角度而言,检索的结果既有文本的内容信息,同时还加入了文档的结构信息。 理论上,Clus-LSA和LINK-LSA都能够成倍地降低检索的时间和空间开销。实验中证明了这一观点。在检索精准度方面由于加入了文档结构特性,对比传统LSA算法,Clus-LSA和LINK-LSA的检索结果在精度上有所下降,但仍然在可接受的范围内。