【摘 要】
:
本文主要介绍的是数据挖掘中非常有名的预测样例类别的分类问题。分类问题的任务是对已有类别的数据集用分类器挖掘一组规则集来预测新样例数据的类别。一个分类规则集表示为
论文部分内容阅读
本文主要介绍的是数据挖掘中非常有名的预测样例类别的分类问题。分类问题的任务是对已有类别的数据集用分类器挖掘一组规则集来预测新样例数据的类别。一个分类规则集表示为一组规则的析取,其中的每一条规则就是一个析取项。小析取规则就是那些分类过程中仅能覆盖很少训练样例的规则。它们从天然特性上看就具有错误倾向和不可靠性。然而,尽管一个小析取规则的覆盖量很小,但是所有小析取规则合起来就能覆盖大量的样例,这样就会严重降低整组规则的分类准确率。所以研究一种新的有效的小析取规则的发现和处理机制具有很重要的意义。目前针对于小析取规则的国内外研究成果相对较少,由于对小析取规则的定义和评价方法比较单一,没有一个公认好评的标准,所以本文提出了一种新的小析取规则的动态评价方法,综合考虑了样例空间和错误率两个因素,引入了模糊理论,设置了具体的衡量方法。其次,通过对小析取问题的研究发现最大一般性偏见适合处理大析取规则,最大特殊性偏见适合处理小析取规则,而且用组合方式处理小析取问题效果较好,而决策树分类方法采用信息增益率作为属性选择标准,它是属于最大一般性偏见,适合挖掘大部分数据库领域知识,粒子群算法(PSO)使用灵敏度和特效度作为适应度函数,正好适合处理小析取规则问题,所以本文采用了混合决策树/粒子群(DT/PSO)算法来解决小析取问题。最后,本文实现了混合DT/PSO和混合DT/GA两种算法来解决小析取问题,并进行对比分析,试验结果显示本文提出的混合DT/PSO算法处理小析取问题的很有效。
其他文献
安全问题一直是计算机网络发展过程中的一个难题。P2P是一种不依赖中心服务器的分布式网络模型。它的应用使得因特网上的计算机可以实现平等互联,数据传输可以直接在客户机之
随着网络和信息技术的不断发展,分布式实时系统的应用领域变得越来越广泛,如国家安全领域中的航空、航天、卫星轨道控制等,居民生活领域中的股票交易、电信、航班查询等。应
软件测试是一种保证和提高软件质量的重要手段,主要目的是尽可能的发现软件中存在的缺陷。然而软件测试存在着Oracle问题,即在软件测试中测试人员很难得到待测程序的预期输出
众所周知,销售预测是商务预测中的一项重要内容,良好的预测结果可以为企业经营决策提供有力的支持,从而增强企业竞争力;而在现实中,由于政治、经济、竞争对手等市场因素及一些
WCF (Windows Communication Foundation)技术是微软为SOA (Service Oriented Architecture)而设计的一套完整的技术框架。利用它能够开发出分布式应用程序。它不仅在功能上集成了.NET平台下以往其它分布式开发技术,而且在编程模型中充分吸取了以往技术的优点,简化了分布式应用程序的开发。其新特性体现在以下几个方面:统一性、互操作性、安全与可
经典粗糙集理论处理信息系统中的数据是精确的和不缺损的。如今面对日益复杂和动态变化的数据,信息系统中的数据往往是不完备的,经典粗糙集理论方法已经不能满足实际需求。然
网络上的意见动态演化是众多网络动力学过程的一类话题,关注意见如何形成、如何在人群中传播、怎样达成共识、演化收敛时间等问题。意见动态研究依赖于统计物理、数学模型、计
随着WEB技术的迅速发展,人们的学习、工作和生活都已离不开网络。网络的普及对传统的教育教学管理方式产生了重大影响。自动化、信息化、网络化的教务管理需求越来越高。成人
综合孔径雷达(Synthetic Aperture Radar, SAR)技术近几年有了很快的发展,更高的分辨率以及更大的照射范围都使地面处理系统面临着越来越庞大的数据量,与此同时,对于SAR数据
近年来随着电子商务的崛起,Web服务成为电子商务的有效解决方案,Web服务有效地解决了企业之间和企业内部异构系统间的互操作和互通信的问题,现在Web服务已经是成为Web应用模式和