论文部分内容阅读
聚类分析是数据挖掘领域广泛使用的一种技术,可以自动发现隐含在数据集中的分类模式。
本文在充分分析数据挖掘的相关理论与方法的基础上,详细研究了各种有代表性的聚类算法,并对其各自缺点与优势以及所适应的具体领域进行了分析对比,给出了挖掘大型数据库的几种方法,并应用于学分制体系下的学生选课数据。这些数据可以看作分类属性的数据或布尔型数据。通过研究表明,使用距离作为测度的传统聚类算法并不适合处理这类数据。在分析数据集特点的基础上,本文提出了使用ROCK算法进行学生专业自动分类的方法。
ROCK算法用公共近邻点数来衡量两数据间的相似性,这样有利于考虑数据分布的全局特征,具有良好的聚类特性和可扩展性。通过在开发的模型系统上进行实验分析,得到了较好的实验结果,对较好的解决学分制体系下学生专业自动分类问题具有积极意义。