【摘 要】
:
目前对决策树(Decision Tree,DT)分类问题的相关研究已取得了很多成果,但仍存在一些问题,如决策树在寻找最优切分点时需要遍历特征的所有取值,当数据集规模较大时,递归构建决
【机 构】
:
山西大学 计算机与信息技术学院,太原030006;山西大学 计算机与信息技术学院,太原030006;山西大学 计算智能与中文信息处理教育部重点实验室,太原030006
论文部分内容阅读
目前对决策树(Decision Tree,DT)分类问题的相关研究已取得了很多成果,但仍存在一些问题,如决策树在寻找最优切分点时需要遍历特征的所有取值,当数据集规模较大时,递归构建决策树所需时间将会很长,因此在保证分类精度的前提下加速决策树的构建具有重要意义.本文首先根据数据的不同分布,给出两种特征值区间的分割方法,即等精度特征值区间划分和变精度特征值区间划分,然后计算各选定区间的基尼指数,寻找最优特征及最优切分点,最后递归生成模型决策树.实验表明,算法在构造决策树时可有效减小计算代价,在保证分类精度的同时加速决策树的构造,且在一定程度上能够避免过拟合现象的发生.
其他文献
The Mn1.95-xCo0.21Ni0.84SrxO4 (MCNS) (0 ≤ x ≤ 0.15) based negative temperature coefficient (NTC) materials are prepared by co-precipitation method. The replac
Lead-free Na0.5Bi0.5TiO3 (NBT) ceramics were prepared via a conventional oxide-mixed sintering route and their electrical transport properties were investigated