论文部分内容阅读
互联网推广及普及,多元文化呈现,虚拟社区增多是重要表现之一,人们交流的平台也呈现多样性。学术网络社区作为虚拟社区中的一部分,成为了学者、爱好者、研究人员进行学术探讨和知识获取的平台,这一平台不但提供了获取的方式也提供了更为简便快捷的交流平台。在实际的运用过程中,使用者只针对某个问题进行社区检索,而学术网络社区大部分根据科目类别进行分类。从而会使得学术网络社区其他特性没有被很好挖掘,其特性也没有被细分,这也就对知识获取的时间、成本、正确率有所影响。论文通过对学术网络社区概念阐述以及数据挖掘技术理论为基础,研究聚类分析技术中K-means算法的基本原理。在此基础上,首先对数据进行预处理,通过对展现学术网络社区特性的关键词的获取,对数据进行清洗、词频统计、共词矩阵构建以及余弦相似性的求值。最后通过余弦相似性原理计算热词间的距离,通过距离数值,利用数据工具SPSS对其进行K-means聚类。根据聚类结果可知学术网络社区可分为产学研学术网络社区、专业学术网络社区、问答学术网络社区、综合学术网络社区。通过聚类结果针对每一类总结特性,根据特性提出这一类学术网络社区发展建议。对学术网络社区进行聚类能够提高学术网络社区的使用效率,也有利于学术网络社区明确未来发展目标。