论文部分内容阅读
C4.5算法是通过信息增益率选择相关属性,其约简性能较差,得到的分类结果较复杂,部分数据甚至会因过度拟合形成虚假规则。为了解决这个问题,提出一种新的改进算法RSC4.5,其主要思想是在C4.5的基础上结合粗糙集理论,先对属性进行约简,然后使用C4.5算法中的信息增益率对约简后的数据集进行二次选择后分类。研究结果表明,改进的算法分类准确度提高8.23%,同时分类结果的复杂度明显降低,泛化性能较好,更有利于实际应用。分类结果说明宁夏农村地区日常生活中影响高血压的因素主要是年龄、血脂和日均畜禽肉类食用量,为有效