不完整数据分类知识发现算法研究

被引量 : 10次 | 上传用户:frog1266
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类知识发现是数据挖掘的基本任务,也是知识发现中最重要的目标之一。据统计,在机器学习和数据挖掘应用过程中不完整数据的理解需要花费大量的时间和精力,因此不完整数据处理是现实世界中分类知识挖掘必须认真对待的重要问题。本文以提高不完整数据的分类知识发现算法性能为切入点,探索充分利用不完整数据集中隐含信息和提高数据挖掘效率的途径。本文具体的研究工作如下:(1)出于提高算法分类正确率的目的,针对朴素信念分类算法忽略属性变量的投票权重,提出了基于相关系数的加权保守推理规则。此规则尝试用权重量化不完整数据中属性变量与类别之间的相关程度,基于此思路改进了朴素信念分类算法,并在国际公开的数据集上与现有的主要分类算法进行了分类对比实验。实验结果表明在不需要对不完整数据进行填充处理,并由此避免因不合理填充方法引起数据倾斜的情况下,该算法能够充分学习不完整数据中蕴含的隐藏信息,学习性能优于朴素信念分类和朴素贝叶斯分类算法,在某些数据集上与支持向量机不相上下。尤其是在朴素贝叶斯分类准确率表现不佳的样本上,不完整数据条件下的加权朴素信念分类算法得到了较好的分类结果。(2)针对目前半监督分类算法中未考虑缺失属性数据项隐含信息和算法复杂度高的情况,本文提出两阶段半监督加权朴素信念分类模型。此模型将半监督分类过程分为两个阶段的加权朴素信念分类,与直推支持向量机和在国际公开标准数据集上的对比实验表明两阶段半监督加权朴素信念分类模型有效地减少了分类时间,而在其能够明确分类样本上的正确率与直推支持向量机相当。(3)为了增强朴素信念分类算法的鲁棒性,提高其明确分类样本比例低的情况,本文提出基于放松区间优势的不完整数据分类模型。此模型在放松区间优势定义的基础上改进了朴素信念分类,在国际公开标准数据集上的对比实验表明此模型在大多数的数据集上起到了改善朴素信念分类和加权朴素信念分类算法明确分类样本比例的作用,有利于做出确切的分类判断,同时保证了较高的分类正确率,总体分类性能优于朴素信念分类、加权朴素信念分类、朴素贝叶斯算法和最近邻法,但是否优于支持向量机要观察其在不同数据集上的表现。最后,本文将加权朴素信念分类、两阶段加权朴素信念半监督分类算法和放松区间优势朴素信念分类算法分别应用于文体风格识别不完整数据集,取得了较理想的实验结果,验证了算法的有效性。
其他文献
21世纪,我国经济体制改革的市场化程度不断提高,行政事业单位和市场在社会经济运行中的分工逐步明晰,行政事业单位职能的重点转向公共品提供,财政对经济的间接调控作用大大增
税收负担问题一直是理论研究和实践工作的一个热点,税收负担合理与否不仅涉及到国家能集中多少财力,而且涉及到企业的生存发展,直接关系到经济的发展和社会的稳定。目前国内
跨专业研究生培养需要弥补其知识结构的不足,更需要培养其创新能力。以课题为抓手,将课题研究与课堂教学相结合,构建自主弥补知识结构的新机制,是提高跨专业研究生培养质量的
随着低碳经济的兴起与发展,低碳会计随之产生。文章简单介绍了低碳会计的产生背景和低碳会计的相关理论,分析我国低碳会计的发展现状并提出相应的建议。
本文把中国古典园林放在历史与文化的大背景上加以分析,从而揭示了中国古典园林的艺术特征及其深层次的文化内涵,展示了中国园林艺术特有的魅力。
随着全球能源短缺的加剧,在人类对能源需求不断加大的今天,对风能的利用缓解了人类对传统能源的依赖。风电作为一种清洁环保、绿色无污染的新型能源,由于其在促进可持续发展
主动磁力轴承是利用电磁力悬浮转子及载荷的一种支承形式。与普通机械轴承相比,主动磁力轴承具有无机械接触和电磁力可控可调等特点,所以磁力轴承在超洁净和高速等环境下的应
本文综述了有关细胞周期方面的一些研究成果及进展,尤其是植物细胞周期蛋白及依赖于细胞周期蛋白的激酶在其中的作用及调控机制.
协作知识建构作为一种实现教学革新的方式越来越得到广大研究者和教学工作者的重视,作为桥梁工具的协作知识建构模式的研究也受到了关注。本研究将从理论框架、模式构建、效
随着多媒体技术的发展与应用,产生了大量各式各样的图片。如何有效地分析、存储以及检索这些图片成为当前急需解决的问题。基于内容的图像检索是指根据图像内容特征以及特征