论文部分内容阅读
当今社会,大数据已成为最具代表性的时代特征之一,广泛地存在于各行各业及生活中。数据挖掘和机器学习是大数据技术的重要组成部分,通过对大数据信息挖掘和机器学习,构建大数据框架下的人工智能模型,是当今人工智能领域中的重要课题。分类是大数据挖掘的重要研究内容之一。作为数据挖掘的一个研究分支,分类的本质是通过对训练数据的类别学习,构造分类模型,并依据分类规则对未知样本进行类别预判。本文基于邻域粗糙集和模糊粗糙集理论建立了两种分类模型,设计了相应的分类算法。1.基于决策一致性的邻域粗糙分类。首先依照邻域粗糙集理论,对样本邻域进行了重新定义,并基于决策一致性原则,提出了样本的邻域纯度等相关概念。然后对样本邻域半径的选取方法进行讨论分析,使其满足决策一致性条件。针对样本分布情况的不同,提出了相应的样本邻域半径的选取办法。设计确定初级类中心样本及其相应半径取值算法。在算法迭代过程中,考虑到应尽可能缩短分类时间,引入了剪枝算法,去掉冗余样本,得到最终的类中心样本及其相应半径取值,完成训练学习过程。为了对未知样本进行类别预测,构建了基于决策一致性的邻域粗糙分类器,并利用UCI中数据集设计相关实验进行验证和分析。2.基于决策融合的邻域模糊粗糙分类。在经典模糊粗糙集模型中,样本的决策是通过搜索全体样本进行模糊决策的。实际上,一个样本的决策往往与它的同类近邻样本相关,因此在经典模糊粗糙集模型中引入了邻域的概念,提出了样本的模糊粗糙决策模型——邻域模糊粗糙集。同时考虑到邻域阈值的选取会对模糊决策产生不同的影响,便引入了阈值权重的概念。通过对不同邻域阈值下的分类规则进行融合,使得融合决策与真实决策更为接近,构建了以融合决策与真实决策差异度达到最小化为目标的优化问题。将求解分类最优权重的问题,转化为以阈值权重为变量的最优化问题,进而得到融合权值。基于融合决策对未知样本进行类别预测,利用UCI中数据集设计相关实验进行验证和分析。