连续数据离散化方法研究

来源 :大连理工大学 | 被引量 : 56次 | 上传用户:capfhn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据量的爆炸性增长以及信息技术的高速发展,数据挖掘与机器学习已成为当今研究的热点。目前,现实世界中往往呈现连续属性值的数据,而很多数据挖掘与机器学习分类算法仅仅适用离散属性值的数据。因此,必须将连续属性值的数据进行离散化,否则,这些分类学习算法无法正常工作。针对此问题,本文系统分析了现有的连续数据离散化方法,并从离散化标准等方面进行了深入研究,主要包括:(1)提出一种单属性与多属性相结合的自底向上离散化方法,在考虑属性间关系的同时,综合衡量各相邻区间对之间的差异,寻找最好的合并区间。首先,我们通过最小描述长度理论和连续属性中相邻区间对的重要性,提出一种结合单属性与多属性的离散化标准,并在理论上分析了此标准的优势;进一步,基于此标准,提出一种启发式的自底向上离散化算法,寻找最优的离散化结果;最后,在UCI数据集上的实验结果表明,与现有的离散化方法相比,此方法显著提高了C4.5决策树与支持向量机分类器的学习精度。(2)提出一种基于非线性降维技术的高维数据离散化方法,有效解决了高维非线性数据的离散化问题。首先,我们提出一种基于局部邻域优化的线性嵌入算法,将高维数据降维至低维空间中,有效保持了原始数据的几何关系结构。该算法克服了数据的几何关系结构容易被扭曲的缺陷;其次,提出一种基于面积的卡方离散化算法,从概率的角度考虑每对区间被合并的可能性,有效离散低维数据空间中的每个连续属性。实验结果表明,此方法得到了较好的离散化结果以及更简化的知识,提高了分类器的学习精度。另外,此方法应用在计算机视觉和图像分类中,取得了很好的效果。(3)提出一种改进卡方统计的数据离散化方法,提高了基于统计独立性离散化方法的质量。首先,我们分析了卡方函数中自由度选取的不足,给出了自由度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了卡方计算的准确性。实验结果表明,改进的方法产生了较高的类属性相互依赖冗余值,并显著提高了C4.5决策树与Naive贝叶斯分类器的学习精度。
其他文献
本文针对植物真菌病害研究开发出了新型农用抗生素-凯地菌素。从菌种的筛选鉴定、原生质体融合、发酵条件的优化、活性组分的分离、理化性质及类型确定、田间防效等几个方面
微博,俗称“围脖”,即微型博客,“是基于有线和无线互联网终端发布精短信息供其他网友共享的即时信息网络。”就个体而言,微博是“手头玩物”,它能在轻松之间伴随我们左右;就
采用同位素内标-液质联用法测定野拔子蜂蜜中氯霉素残留量。样品经乙酸乙酯提取,MCS复合型固相萃取柱净化,采用ZORBAX SB-C 18色谱柱分离,以0.05%的氨水溶液-乙腈为流动相进
高年级的小学生在经过中低年级的数学学习之后,对数学教学已经基本适应,有了基础的数学知识,接受和理解新的知识内容较快。因此,在高年级的数学教学中教师应当注重对学生自主
目的分析尿促性素单用及联合克罗米芬对排卵障碍所致不孕症的治疗效果。方法研究阶段为2016年8月~2017年12月,共纳入研究对象99例,均为排卵障碍致不孕症患者,采用随机数字表
目的:探讨产后出血的原因及护理干预对产后出血的影响。方法:对86例产后出血患者的临床资料进行回顾分析结果:行子宫全切2例,输血20例,均痊愈出院。结论:产后出血的诊疗过程
随着计算机的广泛普及和使用,各种格式的语音文件相继出现,由于原则上不同的声音格式需要不同的播放器,尤其是一些比较早期的技术,因此经常需要实现对不同格式的文件进行转换
市面上流行的佳能EOS系列单镜头反光相机,几乎百分之百地都设置了模式调节盘。这是不同于以往单镜头反光相机的一个显著特征,如佳能EOS10型、EOS100型、EOS1000型、EOS5型、EOS50型、EOS500型、EOS500N型、EOS888型等...
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的:探讨雄黄(As4S4)纳米微粒对于人急性早幼粒白血病细胞HL-60的抑制增殖和诱导分化作用。方法:采用MTT法观察低浓度雄黄对HL-60细胞增殖的影响,Wright-Giemsa染色观察细胞形态,