论文部分内容阅读
21世纪以来,随着互联网产业的迅猛发展,各种各样的聊天软件和社交平台海量出现。伴随着人们交流方式的快捷化和多样化,随之产生的信息越来越多。如何利用这些海量的信息并从中快速准确获得我们需要的信息是一个问题。为了解决这一问题,多种多样的信息处理技术就随之出现。文本文档主题提取是其中的典型代表。常见的文本文档主题提取主要是是利用相关的模型算法,计算已知类别个数的文档集合的主题。但是实际中我们得到的文档数据集合很可能是一团杂乱无章的文档数据集,其未知文档内容,且未知文本文档主题的个数。因此对于实际中的情况来说传统的文档主题提取方法很难准确得到相应的结果。所以本文在传统的文本文档聚类的基础上,在聚类方法和指标参数这两部分进行相关改进。这样做的目的在于方便快捷的对未知主题个数,并且未知主题内容的杂乱无章的文档数据集进行主题类数判别和主题提取。首先,本文利用数据集本身构造出相应的词典,然后利用得到的词典对原始文档数据进行数值化处理。这样每个样本经过处理后就会变成一个有固定长度的数值向量,然后将这些数值向量整合到一起,这样就将每日的文本文档数据集合转化为一个稀疏矩阵。对于得到的稀疏矩阵,我们使用MDS降维和去除停止词方法这两种方法对文档主题提取产生的稀疏矩阵进行相关的降维处理,在保留原始数据特征的情况下,这样做可以减少运算时间并且避免运算空间的浪费。其次,引进改进的K均值聚类方法对降维后的数据进行处理,改进的方向主要体现在两个方面。首先在初始聚类中心上应用密度参数选取初始聚类中心来替代传统K均值聚类的随机选取,其次在最佳聚类数目上使用VCVI聚类评价指标来判断最优聚类类数,并对VCVI聚类指标在本文的适用性进行验证,看其是否可以在未知主题个数的情况下的到最准确的主题个数。利用上述得到的最优K值进行聚类操作,最后对聚好的每个类的文档进行LDA操作进行主题提取,提取出每一类文档的主题,并对最后结果进行验证。