基于Hadoop的海量图书流通数据的kmeans分析

被引量 : 0次 | 上传用户:ssbbe1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据时代的到来,我们无时无刻都要面对各种类型的数据。然而,这些庞大的数据杂乱无章,让人束手无策,如何及时有效的发现这些数据背后的规律性的、价值性的信息变得尤为重要。聚类分析是数据挖掘领域中的一项重要技术,通过聚类可以发现数据的分布模式和数据属性间存在的关系,它一直是学术界的研究热点问题。除此之外,云计算平台Hadoop的兴起,使得数据挖掘变得快速高效。本文通过对kmeans聚类算法的研究,针对传统算法存在的缺陷提出了两个方面的改进。第一点是对于kmeans初始聚类中心的确定,提出了基于抽样和最大最小距离结合的方法,并对研究过程中出现的孤立点问题,提出了基于网格化和距离的处理方法。改进后的算法提高了执行效率和准确度。第二点的改进是在Hadoop上实现kmeans聚类算法的并行化设计,借助MapReduce并行编程模型,实现Map和Reduce两个过程的设计。最后通过分析改进后算法的加速比和复杂度,对算法性能进行评估,改进后的kmeans聚类算法的聚类效果和执行效率都有了显著的提高。本文把图书流通数据作为研究分析对象,对学生和图书的信息收集整理并规范化为聚类数据,通过对借阅次数和读者类别的不同形式的聚类,发现学生在图书借阅上的不同倾向和很多有价值的信息。通过聚类分析挖掘出来的这些信息对于图书管理和学生们的学习都有很好的指导意义。
其他文献
目的:探究多层螺旋C T在消化道穿孔定位诊断中的价值.方法:选择2017年1月1日—2019年3月1日在我院经外科手术、病理证实的154例消化道穿孔患者作为研究对象.对比手术结果与游
在宋代竞争得近乎残酷的科举考试中,士子乃至整个社会的心态,是个值得关注的问题。科举束缚天下英俊,使之归于一途,使举国沉溺于时文,使士子除科名外,对其他则"集体冷漠";科
以色列农业成功之路——高效实用的农业科技推广体系时泽远吴普特祖伟李苏楠以色列农业的发展引起了全世界的关注。以色列国土面积只有203万hm2,一半以上属半沙漠地区,耕地面积45万hm2,农产
目的探讨脓毒症并发急性肾损伤(AKI)患者的临床特点及其影响预后的因素。方法回顾性分析2006年12月至2011年10月入住温州医科大学附属第一医院急诊重症监护室的脓毒症并发AKI
随着改革开放的大潮,为了促进城市建设的进程和获得更加广泛的资金来源,创造了一种全新的经济体制——城投债,后来随着社会经济的发展,城投债也发展到了一个繁盛时期,逐步成
电影诞生于19世纪并非偶然,它与现代科学新概念的发展息息相关,越来越多的人尝试投入动画业,期待在这个领域发展,动画电影在我国已有了近百年的发展历程,也有许多经典作品。
新年的第一缕阳光,悄悄地开启了时间的闸门。2017年,你好!一条条祝福在网络间穿梭!一幕幕温馨在心中回放!洗掉一年的风尘和疲劳,我们在收获祝福的日子再次审视我们凝望的彼岸
期刊
本文通过比较中西方文化以及企业特征上的差异,推导出西方最佳人力资源实践活动在中国行不通,并指出中国最佳人力资源实践活动要立足于中国的民族文化以及企业特征的基础上构
太极拳是中华民族的文化瑰宝,也是一种集休身、养性于一体的行之有效的健身手段。本文分析了高职院校太极拳教学中存在的问题,并提出了改进措施,以提高太极拳教学质量和水平,