K-均值聚类算法改进及应用

被引量 : 17次 | 上传用户:crazyasp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以计算机和网络为代表的信息技术的发展,越来越多的企业、政府组织、教育机构和科研单位实现了信息的数字化处理。数据库,特别是数据仓库已经被广泛地应用于企业管理、产品销售、科学计算和信息服务等领域。同时,信息量的不断增长也对数据的存储、管理和分析提出了更高的要求。数据挖掘技术可以帮助人们从数据库,特别是数据仓库的相关数据集中提取出所感兴趣的知识、规律或更高层次的信息,并可以帮助人们从不同角度上去分析它们,从而可以更有效地利用数据库或数据仓库中的数据。数据挖掘技术不仅可以用于描述过去数据的发展过程,进一步还能预测未来趋势。其中,聚类分析是数据挖掘技术中的重要方法。K-均值算法是聚类算法的一种常用算法,但该算法存在许多不足之处。本论文的目的在于分析K-均值聚类算法,提出改进的K-均值聚类算法,利用dijkstra(迪杰斯特拉)算法对该算法进行改进,减弱其算法受噪声和孤立点影响的程度,并且减少了迭代运算次数,提高了算法的效率,避免了不必要的资源浪费。论文完成的主要工作如下:首先,介绍了数据挖掘技术的相关概念、应用领域、常用工具、过程模型及各种数据挖掘分类方法等。其次,阐述了数据挖掘技术中的各种聚类算法。论述和分析了K-均值算法的不足,现有的改进方案,并且叙述了本文如何使用迪杰斯特拉算法对K-均值聚类算法进行的改进。最后,通过将改进的K-均值算法应用于数控锅炉系统的实际数据中,验证了改进的K-均值聚类算法比传统算法具有更明显的聚类效果和更高的可解释性。并通过该算法的应用实现了数控锅炉系统的节能、节煤的目的,从而提高了设备的经济价值。随着数据挖掘技术的不断发展,我相信数据挖掘技术必然会不断地走向成熟,更好地与各个实际应用领域融合在一起。
其他文献
<正>江西省纪委27日发出通报,江西省国土资源厅党组成员、副厅长陈祥云因收受"红包"2万元被免职。经查,2014年春节期间,陈祥云收受某私营企业主"红包"2万元。2014年10月,陈祥
为了响应国家节能政策的要求,降低建筑的能耗需求以及避免传统空调系统CFCs对臭氧层的破坏,本文试图提出一种太阳能驱动的转轮除温蒸发冷却空调系统,并以办公室为例,从理论上
采用毛细管气相色谱一质谱联用法结合计算机检索研究葡萄籽油的化学成分和抗辐射作用,用气相色谱面积归一化法测定各组分的相对百分含量,共鉴定出葡萄籽油的8个化合物。并经
目的 探讨粥样硬化性肾动脉狭窄(ARAS)与高血压及相关因素的关系。方法 对179例高血压患者在冠状动脉(冠脉)造影同时行肾动脉造影;测定肾功能、血脂、肾素-血管紧张素;超声心动
在治理环境问题的经济手段中,环境税尤其受到重视。本文首先分析了开征环境税的现实意义,结合我国实际情况并借鉴国外经验和教训,提出了关于我国开征环境税的思考,并从制度设
在极紫外光刻系统中,真空工件台的运行精度、速度、加速度以及动态定位和扫描同步性能是影响整机成像质量、套刻精度和产率的重要因素.结合极紫外光刻机的工作原理和发展现状
从1978年3月,邓小平提出“科学技术是生产力”这一马克思主义的观点,到1995年5月,《中共中央国务院关于加速科学技术进步的决定》第一次明确提出要“坚定不移地实施科教兴国战略
<正>《绿色连线》:是什么样的契机,您创办了海知源生态艺术馆。现在整体情况是什么样的?杨海明:从2002年作为EDSA亚洲景观规划公司的设计师,参与四川卧龙"中华大熊猫园"概念
在网络全球化的今天,中等师范学校为了培养符合社会需求的中小学教师,正进行着一系列的改革。物理学是中师学生的必修课之一,直接与小学科学及初中物理衔接,其重要性不言而喻,但由