论文部分内容阅读
文本聚类一直是数据挖掘和信息检索领域的基础性研究议题,它试图将内容相似的文本划分到相同的类簇。文本聚类不仅得到了国内外学者广泛的关注和探索,也在大量实际系统中获得广泛应用。具体的应用场景包括:搜索引擎结果归纳、大规模文档集合浏览、电子商务推荐系统等等。尽管数据挖掘中的绝大部分聚类分析算法都可直接用于文本,如K-means、DBSCAN等,然而,文本数据规模的爆炸式的增长,使得文本固有的高维稀疏性问题显得更加突出。同时,无意义、有歧义的冗余文本规模随之扩大,这些文本难以划分到任何一个有明显语义的类簇。 为此,本文试图同时利用实例选择和特征选择优化文本聚类的效果和效率。具体地,我们以信息K-means算法为切入点,首先提出一种基于随机实例抽样的Info-Kmeans聚类算法,算法将Info-Kmeans中KL距离(Kulback Leibler Divergence)计算变换为香农熵的计算,解决了文本数据高维稀疏性所导致的零值困境问题;接下来,我们引入随机实例抽样进一步降低算法的迭代计算量,并证明抽样所导致的性能误差可以被控制在极小的范围之内。在8个不同规模文本数据集上的实验表明,我们所提出的方法可以大幅提升文本的聚类效率。然而,由于频繁更新实例的类簇容易降低聚类性能,因此,对大规模文本聚类进行随机实例抽样,才亦有助于聚类效果的提升。 特征选择有助于扩展文本数据维度,并抽取出有清晰语义的类簇。为此,本文首先在文本词袋模型上定义出有物理意义的强关联词项集指标,然后证明文本中强关联特征组合可以用类Apriori算法挖掘,其中强关联词项集指标可以起到剪枝作用。在此基础上,我们探讨了文本强关联特征组合在优化聚类时的使用方法:(1)强关联特征组合用于维度约简及特征增强,提升聚类效率;(2)强关联特征组合用于删除冗余文本,实现类簇抽取,获得语义更清晰的类簇。最终,通过实验证明,基于强关联项组合的特征选择,能提升各个规模文本的聚类效果。