论文部分内容阅读
新世纪以来,互联网技术和新媒体技术迅速发展,社会进入了充满海量数据信息的时代。信息时代涌现出各种信息载体的互联网新媒体平台类似Twitter、微博和头条,文本信息的承载媒介从纸质报刊逐渐变为网络数字媒体,网络文本日益成为现代社会的一种主要信息媒体传播形式。近年来网络文本(比如新闻,博客等)的数量出现了爆发式的增加,产生了海量半结构性或非结构性文本数据。文本挖掘领域的技术热点问题是如何从这些互联网平台产生的海量文本数据中提取出有价值的信息。本文基于主题模型进行网络文本聚类的研究,改善了传统向量空间模型在挖掘文本语义内部潜在联系上的缺陷,也克服了传统向量空间模型在文本聚类过程中可能存在一些严重的高纬性和稀疏性问题,通过将LDA主题模型计算得到的文本相似度与基于TF-IDF特征提取的VSM模型计算得到的文本相似度进行线性组合,提出了V_LDA文本聚类模型,考虑结合网络文本的特征词和主题信息实现聚类分析。该模型按照一定的特征比例系数来计算文本相似度,然后利用K均值聚类算法进行网络文本的聚类,相对于单一的VSM模型和LDA主题模型,文本聚类效果有明显的提高。同时研究发现一方面LDA模型对主题概念模糊的关键词区分存在一定的缺陷,使得主题间区分效果不明显,而且在文本主题内,各个主题词之间的关联性也较低,无效词较多难以清洗干净;另一方面现有词袋模型忽略了文档中单词与单词之间的序列性信息。针对上述两个缺点本文提出了一种结合词向量模型与LDA主题模型的文本聚类算法,将文本-主题信息映射到word2vec空间。并设置主题关键词之间的语义相似度阈值,结合主题颗粒度和词语的颗粒度进行文本聚类研究,有效利用LDA模型提取的主题信息和词向量Word2vec模型词与词之间的相似度语义信息和上下文语序信息,以实现文本聚类效果的改善。为了检验本文方法的有效性,通过爬取今日头条新闻网页内容,实验验证本文提出的文本聚类方法在六个不同新闻类别文本数据集上的准确率、召回率和F值都有明显的提高。最后基于T-SNE降维的对语料的主题词进行了可视化分析,有效的挖掘了各主题下的关键词,且保证了每个主题下的主题词有较高的语义相似度。