海量不一致数据的分类算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:carinalove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着实际生活中的数据量不断呈指数增大,不一致数据的出现也变得越发频繁。传统的方法是通过人工修正来对不一致数据进行修复校正。然而,随着不一致数据的数据量增长趋势呈指数增长,通过人工的方式对不一致数据进行修正也变得更加耗时。并且,随着数据量的增大,人工修正数据也存在着不可避免的人为操作错误,从而导致数据中出现错误数据。因此,这种修正方法变的不再可行。如何能够对不一致数据不进行人工的修正,直接在不一致数据上进行特征选择以及分类,是本文的核心研究内容。决策树算法是一种性能较优的分类算法,它对于错误数据、离群数据有较好的容错性,对于建模后的树形结构也有较好的可释性,能够直观的看出数据分类子集,因而本文选择该算法进行改进。互信息算法通过对单个特征与目标特征进行影响因子计算,从而衡量特征间的相关程度,并且通过共同出现概率来进行相关因子计算,因而,文本选择该算法进行改进来进行特征选择。本文首先通过改进决策树算法,使其能够直接对不一致数据进行分类,并得到较好的结果。文章主要研究不一致数据约束条件中的函数依赖,通过分别针对前置特征与后置特征在数据中的差异性,对其进行不同的算法设计,从而使改进后的算法对前置特征与后置特征进行不同的计算。文章通过改进决策树算法的目标函数,改变约束条件中特征的分割计算方法,来对不一致数据进行划分。文章主要通过多方面衡量约束条件中特征对分类结果的影响,从而调整该特征的影响因子,使得决策树的节点分割更精确。随着不一致数据的数据量呈指数形式的增大,数据特征的维数也随着增加。高维度的特征使得分类模型的构建变得耗时,而对于目标特征来说,与其相关程度较小的特征对分类模型的效果影响较小。本文通过对特征选择算法中的互信息算法进行改进,使其能够对不一致数据集进行特征重要性评判,从而能够筛选出对目标特征影响程度最高的特征来进行分类模型建模。文章通过对约束条件中函数依赖特征区分为前置特征与后置特征,从而针对前置特征与后置特征在不一致数据中的特性,进行不同的算法改进。通过对决策树算法与互信息算法进行改进,根据对比实验结果可以得出,改进后的算法相比于对比算法来说,分类效果有明显的提升。
其他文献
从上世纪五十年代软件诞生开始,软件设计一直是软件系统开发的核心内容,好的软件设计有助于软件开发人员提高工作效率,减少不必要的开支以及保证软件的正确性。但采用何种方法来
进化算法是模仿生物自然进化过程的一种随机搜索方法,最初具有三大分支:遗传算法、进化规划和进化策略。九十年代初美国学者Koza在遗传算法的基础上提出了一种全新的结构描述
随着计算机技术和网络技术在虚拟仪器领域的不断深入,网络化已成为虚拟仪器技术发展的一个重要方向。同时复杂的测试任务对测试系统提出了新的需求,基于网络的、可配置的、分布
近年来,随着拍照设备的不断升级,存储图片所需的内存空间飞速增长,然而硬盘、U盘等存储设备的容量却增长缓慢。不断增长的图片数据量与有限的存储容量之间的矛盾给图像压缩带
句法功能即表示一种语言中所有组成成分之间的关系。所谓功能成分,通常是指主语、谓语、宾语、状语等。除了短语结构分析和依存句法分析之外,功能成分分析是对句子分析的另一
磁共振成像具有无电离辐射、多参数成像、功能成像、可任意方向断层成像等优点。在临床上磁共振已经得到广泛的应用,成为最重要的成像方法之一。具有诸多优点的同时,扫描速度
用户在网络上发表针对某一种产品的评价,无论是对于厂家还是潜在的消费者,都具有十分重要的研究价值。同样,用户对网络教育资源的评价,无论是对教育资源的提供者还是学习者,
人工鱼群算法(Artificial Fish Swarm Algorithm, AFSA)是一种基于鱼群行为模拟的群体智能优化方法,近几年在电力系统、控制器设计、图像与数据聚类等工程领域得到了成功的应
网络断层扫描技术是一种新型网络性能测量技术,它克服了传统测量方法的一些缺点,只需通过边缘测量就可推断出网络内部链路的性能参数。网络断层扫描技术的提出可以更好地解决
周转包装物是一种流动性大、不易标识和难于管理的压力容器。中化蓝天集团有限公司拥有包装物数量众多,在流转过程中,经常发生包装物流失和无法识别超年限包装物等问题,传统