基于信息增益特征关联树的文本特征选择算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:xielinyun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的信息增益算法在类和特征项分布不均时,分类性能明显下降。针对此不足,提出了一种基于信息增益特征关联树的文本特征选择算法(UDsIG)。首先,对数据集按类进行特征选择,降低类分布不均时对特征选择的影响。其次,利用特征分布均匀度改善特征项在类内分布不均对特征选择的干扰,并采用特征关联树模型对类内特征进行处理,保留强相关特征,删除弱相关和不相关特征,降低特征冗余度。最后,使用类间加权离散度的信息增益公式进一步计算,得到更优特征子集。通过对比实验表明,选取的特征具有更好的分类性能。
其他文献
辽豆23号是辽宁省农业科学院作物研究所采用优良品种与稳定、优异品系进行有性杂交,经系谱法选育而成,具有农艺性状好、产量高、抗病性强、适应性较广等特点,适于辽宁省中部
在认知无线电系统中,认知用户需要实时准确地判断频谱的使用情况。但当认知用户处在严重的衰落和较强的外界干扰时,实时准确感知频谱的难度很大,联合检测是有效解决这一问题的方
赣豆6号是江西省吉安市农科所用82N10做母本、8415—8做父本有性杂交选育成的秋大豆新品种,该品种生育期95~100d,有限结荚习性,抗倒伏能力强,单产2325~2625kg/hm^2,含蛋白质42.40%,含脂
为了提高粒子群算法的优化性能,通过观察和分析雁群结队飞行的智能群体现象,国内学者提出了基于雁群启示的粒子群优化算法(GeesePSO,GPS0)。该算法虽然在一定程度上提高了PSO算法
针对撤销成员的群签名中如何降低群成员的计算量、缩短签名长度等问题,提出了一种新型的撤销成员的无加密短群签名方案,并证明了其安全性。基于XDDH,LRSW和SDLP假设,通过将有
提出了一种智能切换机制,用于实现在异构网络中网络与终端的协同选择及切换功能。随着各种业务和应用的发展,异构网络融合是信息和通信技术的必然趋势。根据多接入、多终端等