论文部分内容阅读
随着计算机技术的快速发展,我们生活在一个数据快速增长的年代。每天都有来自商业、科学等各个不同领域以及我们日常生活的数千兆兆字节存储于计算机网络、万维网和各种数据存储设备。数据爆炸式的增长、巨大的数据量使得当今的时代成为一个真正的数据时代。信息技术自然进化促发了数据挖掘技术的产生。数据挖掘可从海量数据中挖掘出有趣的模式和知识。数据挖掘可应用与金融数据分析、零售业、电信业、生物学数据分析以及其他科学应用。在互联网上,用户使用的最多的就是社交网络。人们在社交网络上分享信息,海量的数据为数据挖掘提供了前提条件,采用数据挖掘技术,可挖掘出数据之间存在的潜在信息。数据挖掘中的聚类分析可以将相似度较高的用户数据聚成一个类。本文先用Python从社交网络新浪微博上提取热门话题和参与话题的用户信息,然后采用分级聚类算法对提取的热门话题进行聚类。本文还采用另外一种算法:协作型过滤算法对提取的数据进行分析。最后将两种算法的结果进行分析比较。通过得出的结果可对用户推荐属于同一类的话题,或者推荐经过分析得出的用户最感兴趣的话题,从而可以使得新浪微博的话题功能使用率更广。