连续数据离散化方法研究

来源 :大连理工大学 | 被引量 : 56次 | 上传用户：capfhn

【摘要】

：

随着数据量的爆炸性增长以及信息技术的高速发展,数据挖掘与机器学习已成为当今研究的热点。目前,现实世界中往往呈现连续属性值的数据,而很多数据挖掘与机器学习分类算法仅

【作者】

：

桑雨

【出处】

：

大连理工大学

【发表日期】

：

2012年01期

【关键词】

：

连续数据离散化最小描述长度理论高维数据降维

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据量的爆炸性增长以及信息技术的高速发展,数据挖掘与机器学习已成为当今研究的热点。目前,现实世界中往往呈现连续属性值的数据,而很多数据挖掘与机器学习分类算法仅仅适用离散属性值的数据。因此,必须将连续属性值的数据进行离散化,否则,这些分类学习算法无法正常工作。针对此问题,本文系统分析了现有的连续数据离散化方法,并从离散化标准等方面进行了深入研究,主要包括：(1)提出一种单属性与多属性相结合的自底向上离散化方法,在考虑属性间关系的同时,综合衡量各相邻区间对之间的差异,寻找最好的合并区间。首先,我们通过最小描述长度理论和连续属性中相邻区间对的重要性,提出一种结合单属性与多属性的离散化标准,并在理论上分析了此标准的优势；进一步,基于此标准,提出一种启发式的自底向上离散化算法,寻找最优的离散化结果；最后,在UCI数据集上的实验结果表明,与现有的离散化方法相比,此方法显著提高了C4.5决策树与支持向量机分类器的学习精度。(2)提出一种基于非线性降维技术的高维数据离散化方法,有效解决了高维非线性数据的离散化问题。首先,我们提出一种基于局部邻域优化的线性嵌入算法,将高维数据降维至低维空间中,有效保持了原始数据的几何关系结构。该算法克服了数据的几何关系结构容易被扭曲的缺陷；其次,提出一种基于面积的卡方离散化算法,从概率的角度考虑每对区间被合并的可能性,有效离散低维数据空间中的每个连续属性。实验结果表明,此方法得到了较好的离散化结果以及更简化的知识,提高了分类器的学习精度。另外,此方法应用在计算机视觉和图像分类中,取得了很好的效果。(3)提出一种改进卡方统计的数据离散化方法,提高了基于统计独立性离散化方法的质量。首先,我们分析了卡方函数中自由度选取的不足,给出了自由度选取的修正方案；其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了卡方计算的准确性。实验结果表明,改进的方法产生了较高的类属性相互依赖冗余值,并显著提高了C4.5决策树与Naive贝叶斯分类器的学习精度。

其他文献

抗真菌生物农药—凯地菌素的研究

本文针对植物真菌病害研究开发出了新型农用抗生素-凯地菌素。从菌种的筛选鉴定、原生质体融合、发酵条件的优化、活性组分的分离、理化性质及类型确定、田间防效等几个方面

学位

农用抗生素凯地菌素菌种鉴定原生质体融合发酵条件分离纯化作用机制田间防效

微博行动动因分析

微博,俗称“围脖”,即微型博客,“是基于有线和无线互联网终端发布精短信息供其他网友共享的即时信息网络。”就个体而言,微博是“手头玩物”,它能在轻松之间伴随我们左右；就

学位

微博社会运动行动主体行动议题

UPLC-MS/MS测定野拔子蜂蜜中氯霉素残留

采用同位素内标-液质联用法测定野拔子蜂蜜中氯霉素残留量。样品经乙酸乙酯提取,MCS复合型固相萃取柱净化,采用ZORBAX SB-C 18色谱柱分离,以0.05%的氨水溶液-乙腈为流动相进

期刊

超高效液相色谱串联三重四极杆质谱法氯霉素野拔子蜂蜜UPLC-MS/MSchloramphenicolhoney of Elsholtzia rugulos

小学高年级学生数学自主学习能力培养探析

高年级的小学生在经过中低年级的数学学习之后,对数学教学已经基本适应,有了基础的数学知识,接受和理解新的知识内容较快。因此,在高年级的数学教学中教师应当注重对学生自主

期刊

小学高年级数学自主学习能力

尿促性素单用及联合克罗米芬对排卵障碍所致不孕症的治疗效果观察

目的分析尿促性素单用及联合克罗米芬对排卵障碍所致不孕症的治疗效果。方法研究阶段为2016年8月~2017年12月,共纳入研究对象99例,均为排卵障碍致不孕症患者,采用随机数字表

期刊

尿促性素合克罗米芬排卵障碍不孕症治疗效果

产后出血86例临床分析与护理体会

目的:探讨产后出血的原因及护理干预对产后出血的影响。方法:对86例产后出血患者的临床资料进行回顾分析结果:行子宫全切2例,输血20例,均痊愈出院。结论:产后出血的诊疗过程

期刊

产后出血原因护理

一种语音转换系统的设计与实现

随着计算机的广泛普及和使用,各种格式的语音文件相继出现,由于原则上不同的声音格式需要不同的播放器,尤其是一些比较早期的技术,因此经常需要实现对不同格式的文件进行转换

期刊

语音转换系统VOX格式RA格式频率插值函数频率转换模块音频技术VOX RA Frequency

从熟悉模式调节盘的功能入手

市面上流行的佳能ＥＯＳ系列单镜头反光相机，几乎百分之百地都设置了模式调节盘。这是不同于以往单镜头反光相机的一个显著特征，如佳能ＥＯＳ１０型、ＥＯＳ１００型、ＥＯＳ１０００型、ＥＯＳ５型、ＥＯＳ５０型、ＥＯＳ５００型、ＥＯＳ５００Ｎ型、ＥＯＳ８８８型等...

期刊

单镜头反光相机功能区模式区功能设定快门速度摄影者

新感觉派小说中的舞女形象研究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

新感觉派小说舞女形象特点场域内涵

雄黄纳米微粒对人白血病细胞株HL-60的诱导分化作用

目的：探讨雄黄（As4S4）纳米微粒对于人急性早幼粒白血病细胞HL-60的抑制增殖和诱导分化作用。方法：采用MTT法观察低浓度雄黄对HL-60细胞增殖的影响，Wright-Giemsa染色观察细胞形态，

期刊

雄黄HL-60细胞分化纳米微粒白血病realgar HL-60 cell differentiation nanoparticles leukemia

连续数据离散化方法研究

与本文相关的学术论文