基于向量空间模型的文本聚类算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:huxiangye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Intemet作为一个开放的、分布式的信息平台,近年来得到了飞速的发展,其信息总量也出现了爆炸性增长.面对这些海量信息,人们很难迅速、有效地从中得到自己真正所需.为此,为了更好的组织和管理这此信息,文本分类和聚类的研究就显得越来越重要了. 本文对基于向量空间模型的文本聚类技术进行了研究和探讨,主要内容有: 向量空间模型,文本聚类算法、聚类结果评价等. 向量空间模型是进行大规模文本处理最简便、高效的模型之一.本文对向量空间模型中的基本原理进行了研究,包括:文本表示,文本预处理、特征项的选取、权重计算、文本相似度的度量及特征选择等.并对向量空间模型的优缺点做了深入的分析. 本文研究和分析了现有的几种常用的聚类算法:K-Means、凝聚层次法和DBSCAN.对于它们的性质和特点进行了详细分析.而且论述了文本聚类的结果评价方法. 然后,针对K-Means算法的缺点,结合局部搜索算法,本文提出了一个基于局部搜索的K-Means算法LSKM,对它的性质进行了深入的分析,从理论上说明了它的有效性及特点. 为了验证我们算法的有效性,在随后的实验中,以几个不同的标准测试集为基础,对LSKM和K-Means算法进行了对比实验,证明了我们的理论分析.对于实验中出现一些问题,本文也从理论和进一步的实验中做出了分析说明.
其他文献
学位
期刊
期刊
报纸
报纸
报纸
期刊
期刊
报纸
期刊