基于改进K-means算法的文本文档主题聚类分析

来源 :兰州大学 | 被引量 : 2次 | 上传用户:jack196409
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪以来,随着互联网产业的迅猛发展,各种各样的聊天软件和社交平台海量出现。伴随着人们交流方式的快捷化和多样化,随之产生的信息越来越多。如何利用这些海量的信息并从中快速准确获得我们需要的信息是一个问题。为了解决这一问题,多种多样的信息处理技术就随之出现。文本文档主题提取是其中的典型代表。常见的文本文档主题提取主要是是利用相关的模型算法,计算已知类别个数的文档集合的主题。但是实际中我们得到的文档数据集合很可能是一团杂乱无章的文档数据集,其未知文档内容,且未知文本文档主题的个数。因此对于实际中的情况来说传统的文档主题提取方法很难准确得到相应的结果。所以本文在传统的文本文档聚类的基础上,在聚类方法和指标参数这两部分进行相关改进。这样做的目的在于方便快捷的对未知主题个数,并且未知主题内容的杂乱无章的文档数据集进行主题类数判别和主题提取。首先,本文利用数据集本身构造出相应的词典,然后利用得到的词典对原始文档数据进行数值化处理。这样每个样本经过处理后就会变成一个有固定长度的数值向量,然后将这些数值向量整合到一起,这样就将每日的文本文档数据集合转化为一个稀疏矩阵。对于得到的稀疏矩阵,我们使用MDS降维和去除停止词方法这两种方法对文档主题提取产生的稀疏矩阵进行相关的降维处理,在保留原始数据特征的情况下,这样做可以减少运算时间并且避免运算空间的浪费。其次,引进改进的K均值聚类方法对降维后的数据进行处理,改进的方向主要体现在两个方面。首先在初始聚类中心上应用密度参数选取初始聚类中心来替代传统K均值聚类的随机选取,其次在最佳聚类数目上使用VCVI聚类评价指标来判断最优聚类类数,并对VCVI聚类指标在本文的适用性进行验证,看其是否可以在未知主题个数的情况下的到最准确的主题个数。利用上述得到的最优K值进行聚类操作,最后对聚好的每个类的文档进行LDA操作进行主题提取,提取出每一类文档的主题,并对最后结果进行验证。
其他文献
2008年7月我参加了在乌鲁木齐举办的“西部物业管理联谊会”,暨首次西部发展论坛,已感受到西部地区物业管理加快发展的势头。在今年召开的中国物业管理协会换届大会选举产生的
苹果树腐烂病(apple Valsa canker)由黑腐皮壳属真菌(Valsa spp.)引起,是一种毁灭性病害。生产中通过化学药剂防治腐烂病有其局限性,生物防治是现阶段研究的焦点。枯草芽孢杆菌(Ba
国家发展改革委:谈话提醒活动查实效、压担子、防风险  日前,国家发展改革委在全委处级以上党员干部范围内,集中开展了一次主题为“履行两个责任、坚守纪律底线”的谈话提醒活动。一是查实效。通过问答方式,了解各直属党组织和党员干部学习宣传、贯彻落实党章党规党纪的情况。二是压担子。重申履行党风廉政建设“两个责任”的重要意义,强调“抓党风廉政建设是本职,不抓是失职,抓不好是渎职”,释放有权必有责、有责必担当、
<正>浓硫酸与蔗糖反应实验是高中化学常见实验,传统做法:在200 mL的烧杯中放入20 g蔗糖,加入几滴水,搅拌均匀,然后再加入15 mL质量分数为98%的浓硫酸,迅速搅拌,观察实验现象
河南山水物业管理有限公司目前为河南省郑州市物业管理协会副会长单位、中国物业管理协会常务理事单位,并有多个项目获得国家、省、市级荣誉。河南山水物业管理有限公司成立
期刊
近年来,成都市的物业管理工作以科学发展、构建和谐物业管理为主题,为促进成都社会经济的发展,优化投资和人居环境,丰富社区文化生活,提高市民的居住水平和生活质量,提升城市形象,构