基于划分的聚类算法研究

被引量 : 0次 | 上传用户:wxn222007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于计算机数据采集工具及关系数据库技术的发展,目前各个行业都存储了大量的数据。传统的数据分析手段难以应付大量的数据,从而导致越来越严重的数据灾难,数据挖掘技术的发展为解决这一问题提供了有效途径。数据挖掘(Data Mining),也称数据库的知识发现(Knowledge Discovery in database),是指从大量的原始数据中挖掘出隐含的、有用的、尚未发现的知识和信息。与传统的统计、总结方法相比,数据挖掘技术涉及到多个学科,汇集了人工智能、模式识别、数据库、机器学习以及管理信息系统等学科的成果。数据挖掘是一个新兴的边缘学科,其应用领域非常广泛,并具有良好的应用前景。聚类分析是数据挖掘的重要组成部分。所谓聚类,是将一个数据单位的集合(数据源)分割成几个称为簇或类别的子集。聚类分析依据的原则是使同一聚簇中的对象具有尽可能大的相似性,而不同聚簇中的对象具有尽可能大的相异性。聚类分析主要解决的问题是如何在没有先验知识的前提下,实现满足这种要求的聚簇的集合。本文主要工作包括:(1)首先介绍了什么是数据挖掘,包括数据挖掘的产生背景和定义,然后介绍了目前国内外数据挖掘中研究的一部分重要内容的概况,包括关联规则、数据综合和概括、数据分类、数据聚类等,最后介绍了数据挖掘在研究和应用中所面临的挑战,正是这些挑战推动了数据挖掘研究的进一步发展。(2)对现有的各种聚类分析算法的对比性研究。(3)基于划分的聚类方法的改进。基于划分的方法是聚类分析中较为主要的方法之一,但是由于它对于先验知识的依赖较强,尤其是需要预先指定聚类分析的类别数目,给该方法的应用带来了障碍。本文提出了对基于划分的方法的改进方法,它不但避免了需要用户给出难以确定的参数的尴尬局面,而且可以发现任意形状的簇,是一个非常有优势有前景的算法。最后详细介绍了该算法的具体实现,并把它应用到一个实例中。
其他文献
知识经济时代的到来对人才提出了更高的要求,对承担为社会培养所需要人才重任的教育提出了新的挑战。新课程改革的重任已迫在眉睫地摆在每一位从事基础教育的教师面前。因此,
运动过程的升降速控制是CNC(Com puter num ericalcontrol)系统开发中的关键技术难题之一。文中在分别分析了数控系统中梯形、S型和直线加抛物型升降速曲线的基础上,对这几种
在复杂的动态竞争环境中,一个特定的竞争战略的有效性(effectiveness和efficiency)并非由行为体本身最初所采取的策略所决定,而还取决于它对竞争者行为反应预测的准确程度,也取
肇东市,全国闻名的粮食生产先进县,也是中国首批现代农业示范区,农技体系的改革以及良好的沟通方式有效促进了当地的农业发展。通过对其分析,初步了解到农业信息传播和沟通是
<正>子宫内膜异位症(简称内异症)是指有活性的子宫内膜组织(腺体和间质)在子宫腔及子宫肌层以外部位出现、生长、浸润、反复出血,形成结节及包块,引起疼痛和不育等。临床上多
提出了一种基于统计分析的战术通用运输直升机概念设计方法。针对战术通用直升机的特点,确定了其设计要求;通过建立战术通用直升机总体参数数据库;利用统计分析方法,进行重量
采用爆炸焊接工艺对316L不锈钢管及铝管进行了爆炸复合。利用SEM,XRD对复合管结合区形貌及相组成进行了研究;测试了复合管的结合强度及过渡区的显微硬度,并进行了径向压扁及
本文以黑龙江省汤旺河林业局作为研究对象,以该研究地区1968年和2004年两期森林分布图为主要数据基础,结合该地区的自然概况及经营历史,以地理信息系统为技术支持,建立了研究
<正>鼻咽癌是我国常见的恶性肿瘤之一,首选局部放射性治疗,但放射性治疗在杀伤敏感肿瘤细胞的同时,对正常的口腔黏膜细胞也造成不同程度的损伤。口腔黏膜炎可引起口鼻咽部干
本文在总结前人研究成果的基础上,理论分析研究了空化初生机理和水中气核及脉动压力对空化初生的影响; 试验研究了不同流速、不同台阶高度的突扩式后台阶管流的初生空化特性;