基于背景知识的知识发现技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:alexzc1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景知识对于知识发现过程有着重大的影响.该文主要着眼于一类特殊的背景知识:数据对象间的关联限制,研究了其在聚类分析中的应用.分析了现有基于数据对象间关联限制的聚类分析方法的优点及不足,指出分隔的表示方法阻碍着现有基于两类关联限制的Kmeans类算法效果的进一步提高.基于数据对象间的关联限制,定义了数据对象与类间的关联以及类之间的关联,在此基础上提出了结合限制的分隔模型,通过类间的关联,众多分离的子类可以依据背景知识共同表示同一个类,从而可能更加灵活地结合用户倾向,对数据对象集进行分隔.结合此模型提出了结合子集的Kmeans算法CKS,实验证明它较CKM(COP-Kmeans)和CCL可以更好地利用关联限制.仔细分析了另一个有影响的限制聚类算法CCL,指出其在构造距离矩阵时忽视了负关联的作用,在其后的聚类分析时则完全忽略了所给限制,从而影响了准确率,在噪声较强时,算法可能不稳定.给出了混合限制complete-link算法HCCL,HCCL算法在前半段基于数据对象间的距离来指导聚类,在后半段基于类间的关联系数来指导聚类.HCCL在较好地利用了正关联的同时,还能较好地利用负关联,对于一些实际数据集的测试及分析结果显示此算法具有明显的优势.数据对象间关联限制的引入,使得一些原先收敛的算法不再收敛.详细研究了基于关联限制的Kmeans类算法的收敛问题,提出了CKM算法不收敛的第二种情况,通过反例,证明了现有的四个基于关联限制的Kmeans类算法均不收敛,同时还研究并给出了CKM和CKS算法收敛的一个条件.研究了关联限制的其他应用,可以应用来改造PAM算法,得到结合限制的PAM算法CPAM,基于结合限制的分隔模型,给出了结合子集的K中心点算法CKMDS,考察了关联限制在概念聚类中的应用,提出了将限制直接结合入分类效用计算的思想,并具体给出了一个结合方法.面向农业领域基于背景知识的知识发现,考虑了特殊的领域知识的应用.分析了生命周期知识在数据预处理过程中的应用,据此提出了基于时间窗口的数据预处理算法;基于土壤中养分的垂直分布知识,并结合土壤数据中常出现的一类错误模式,给出了一个基于分类的孤立点挖掘方法.
其他文献
ZXCOMC系统是中兴通信股份公司用来管理CDMA系统前台所有网元的统一网管系统,网元通信系统是该系统重要关键的一个组成部分,主要完成与前台网元的通信和为后台应用系统提供通信
预测控制是在实践中发展和完善起来的一类计算机控制算法,关于线性系统预测控制的理论研究和应用都取得了很大成功,而针对非线性系统的预测控制研究很少,致使理论研究落后于
矿井移动通信的重要性与日俱增。随着能源行业的发展,尤其是矿产资源的开发和利用,井下移动通信表现出越来越强大的功能,不仅能够协助预防、处理各类突发事故,更重要的是对旷
随着国民经济的快速发展,城乡电网的结构和布局日趋复杂,作为城乡供电线路的枢纽设备,分段真空开关与整个供电线路的运行状态密切相关,及时准确的掌握分段真空开关的运行状态
无线通信中基带处理器与系统控制器接口是UT斯达康公司无线通信软件研究中心设计的user equipment模拟器中的数据传送通道的一部分。这个接口是个通用的电路,它能够应用于那些
煤的体积是衡量煤矿、电厂等企业经济效益的一项重要指标,传统的大型煤堆的体积静态测量方法,受测量方法的局限,难以到达高精度、高效率、低成本的要求,针对这个问题,文章提
论文以自动控制理论和机电传动控制理论以及计算机应用技术为基础,介绍了国内瓦楞纸板包装和纸板生产线的现况。通过对瓦楞纸板横切机控制系统的综述,联系系统实际的应用背景,提
随着科技的飞速发展,长距离、大运量、多机驱动的皮带机已成为一种发展趋势。趋于大型化的带式输送机面临的主要难题有:可控软启动技术,多机功率平衡以及带式输送机故障诊断技术,解决好这三方面问题对于煤矿企业的安全生产起着至关重要的作用。可控软启动技术和多机功率平衡问题的核心是驱动装置和控制策略的选择,所以文中首先经过对比分析采用了交流电机变频调速系统为驱动装置,驱动带式输送机运动。其次,由于软启动和功率平
长江流域两岸的滩地多属淤沙的分层结构,不耐冲刷,在一些水流顶冲、深泓逼岸的河段,崩岸险情常有发生,给江岸堤防工程、两岸工农业及人民生命财产带来严重的威胁。为了保护堤岸和
学位