论文部分内容阅读
本文是在对几种比较经典的聚类算法对比分析的基础上,利用自组织映射网络在拓扑保序和抗噪声能力等方面的优势,以自组织映射模型作为文本聚类的主要框架,研究和探索借助自组织映射模型进行文本聚类的特点以及所面临的主要问题和相应的解决方法,并通过实践探索文本聚类在搜索引擎上的应用。本文的目的是研究具有良好自适应能力的聚类方法,以反映输入文本集合的主题结构,并针对实际应用中出现的问题改进现有聚类算法。
本文通过重点分析Kohonen SOM网络的性能及其训练方法,有针对性的对现有聚类算法进行改进,主要研究工作如下:
首先,针对文本聚类具有高维和语义相关的特点,本文实现了基于潜在语义索引的动态SOM聚类算法,该方法通过潜在语义索引中的奇异值分解实现了原文档-词矩阵的降维,经过动态SOM聚类,取得了比以前更优的聚类结果,聚类速度也有所提高。该方法用统计的方法进行文本聚类,通过规则与统计相结合的方法更好地实现了自然语言理解。
其次,本文提出了一种面向大规模文档集的增量梯度下降式动态SOM聚类算法。该算法通过逐渐减少插入神经元的数目,有效解决了其他动态SOM聚类算法(如GHSOM)的神经元欠利用现象,因而聚类效果更优,并且聚类速度明显提高。针对大规模文本聚类可能出现神经元过利用的问题,本文通过对过利用神经元进一步分裂的办法对聚类结果后续调优,取得了良好的聚类效果。
再次,针对文档向量化后的文档-词矩阵都是稀疏矩阵的特点,本文提出一种基于向量稀疏性的SOM聚类算法。该算法首先通过前向和后向两遍扫描所有的文档向量,初始化多个神经元以及其特征词,并固定每个神经元非零维度为常数,然后通过SOM网络进行训练,合并相似的神经元,并在必要时插入新的神经元,直到训练结束。该方法比GHSOM取得了更好的聚类结果,聚类时间明显减少。由于采用压缩方式存储,算法的空间复杂性也明显降低。该方法在输入文本数据集越大的情况下,神经元以及文档所对应的向量越稀疏,算法性能越优越。
最后,为了更好地将动态SOM聚类算法应用于实际,本文还对大规模文本聚类在搜索引擎上的应用作了简单的探讨和研究,期望能以此对聚类搜索及文本聚类的应用有个更深入的认识。文中介绍了聚类搜索引擎的基本理论和一个好的聚类搜索引擎的评价方法,设计并实现了一个简单的聚类搜索系统,通过对索引结果先发现主题词再聚类的方法,有效地解决了聚类搜索中聚类类别描述的问题,并使聚类速度较大幅度提高。
本文通过重点分析Kohonen SOM网络的性能及其训练方法,有针对性的对现有聚类算法进行改进,主要研究工作如下:
首先,针对文本聚类具有高维和语义相关的特点,本文实现了基于潜在语义索引的动态SOM聚类算法,该方法通过潜在语义索引中的奇异值分解实现了原文档-词矩阵的降维,经过动态SOM聚类,取得了比以前更优的聚类结果,聚类速度也有所提高。该方法用统计的方法进行文本聚类,通过规则与统计相结合的方法更好地实现了自然语言理解。
其次,本文提出了一种面向大规模文档集的增量梯度下降式动态SOM聚类算法。该算法通过逐渐减少插入神经元的数目,有效解决了其他动态SOM聚类算法(如GHSOM)的神经元欠利用现象,因而聚类效果更优,并且聚类速度明显提高。针对大规模文本聚类可能出现神经元过利用的问题,本文通过对过利用神经元进一步分裂的办法对聚类结果后续调优,取得了良好的聚类效果。
再次,针对文档向量化后的文档-词矩阵都是稀疏矩阵的特点,本文提出一种基于向量稀疏性的SOM聚类算法。该算法首先通过前向和后向两遍扫描所有的文档向量,初始化多个神经元以及其特征词,并固定每个神经元非零维度为常数,然后通过SOM网络进行训练,合并相似的神经元,并在必要时插入新的神经元,直到训练结束。该方法比GHSOM取得了更好的聚类结果,聚类时间明显减少。由于采用压缩方式存储,算法的空间复杂性也明显降低。该方法在输入文本数据集越大的情况下,神经元以及文档所对应的向量越稀疏,算法性能越优越。
最后,为了更好地将动态SOM聚类算法应用于实际,本文还对大规模文本聚类在搜索引擎上的应用作了简单的探讨和研究,期望能以此对聚类搜索及文本聚类的应用有个更深入的认识。文中介绍了聚类搜索引擎的基本理论和一个好的聚类搜索引擎的评价方法,设计并实现了一个简单的聚类搜索系统,通过对索引结果先发现主题词再聚类的方法,有效地解决了聚类搜索中聚类类别描述的问题,并使聚类速度较大幅度提高。