一种基于信息增益与费用评价函数的特征选择准则

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:etzhenghao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择问题是机器学习和模式识别中的一个重要问题.然而,在实际应用中,由于没有将特征选择与特征提取过程统一考虑,只注重特征本身的分类性能,没有考虑特征提取的费用问题,导致识别系统的效率较低.文中从实际应用角度,提出一种新的特征选择准则,将特征的分类性能与特征的提取费用统一考虑,利用信息增益与特征提取费用综合评价函数作为特征选择准则,并给出了启发式算法ECFS.将该算法应用于实际领域的学习问题并与决策树算法ID3和BP神经网络进行了比较.实验结果表明,ECFS在保证识别精度的同时,大大减少了特征提取的时间消耗,提高了识别速度. Feature selection is an important issue in machine learning and pattern recognition. However, in practical applications, the feature selection and feature extraction process are not considered in a unified way and only the classification performance of the feature itself is taken into account. The feature extraction cost problem is not considered, resulting in a low efficiency of the identification system. In this paper, a new feature selection criterion is put forward from the perspective of practical application. The classification performance of features and the extraction cost of features are considered in a unified way. The comprehensive evaluation function of information gain and feature extraction cost is taken as the feature selection criterion, and the heuristic algorithm ECFS. The algorithm is applied to learning problems in real world and compared with decision tree algorithm ID3 and BP neural network. Experimental results show that ECFS can greatly reduce the time consumption of feature extraction and improve the recognition speed while ensuring the recognition accuracy.
其他文献
主要介绍了本次石灰窑装置设备改造中,窑衬部分、卷扬机行程、窑顶除尘及减速机四项技术升级改造的内容,并对其进行总结。
行政判例的法律解释是法院包括法官在制作行政判例时就需要明确的法律问题所作的说明,以期对后来的案件予以约束指导的活动。为了维护法制的统一性,保证法制改革的有序进行,
远程教育的质量决定着其生存和发展。近五年的远程教育质量观大致有多样论、发展论、服务论等5种观点。质量保障既有内部因素也有外部因素。内部方面有质量意识、入学门槛、
青钱柳是我国独有的珍稀植物,是集绿化、材用、茶饮保健、药用治疗于一体的树种。为推广青钱柳的种植,扩大其植物资源,以满足各方面的需求,本文在介绍青钱柳基本特征的基础上
初冬经短截后栽植青钱柳,可在次年春季延迟萌发与展叶,以留桩长度5cm的处理效果最明显。各处理栽植成活率基本一致,为88%~96%。随着留桩长度的增加,青钱柳植株高生长量递增,分枝数
生物质焦油是阻碍生物质热化学转化技术发展的瓶颈问题。概括了近年来生物质焦油净化方法的研究进展,分析了这些方法的主要特点,其中包括了受到较少关注的部分氧化法和等离子
官督商办是近代中国最早出现的股份制公司治理机制,轮船招商局是实行该机制的典型代表。对其公司治理机制进行研究,分析官督商办模式的积极影响和消极影响,汲取历史的经验教训,并
为解决标准Vereecken函数没有考虑粉粒影响的缺陷,文章提出改进的Vereecken模型。根据海城市38个采样点的试验数据对改进的模型进行了验证并证明了其精确性。通过估算验证,分
2006年夏季,四川、重庆发生了50年一遇的高温大旱。利用中国730站中JII渝地区58个测站2006年1月1日~9月8日的逐日降水、日最高气温和NCEP再分析资料,探讨了这次高温干旱的特征及
目的探讨间歇蓝光与持续蓝光治疗新生儿高胆红素血症的临床效果。方法根据随机数表法将121例新生儿高胆红素血症患儿分为对照组60例和观察组61例。对照组患儿在常规治疗基础