基于改进的互信息特征选择的文本分类

来源 :计算机应用 | 被引量 : 21次 | 上传用户:dizenxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用传统的互信息评估函数进行特征选择方法,得到的分类精度并不高。提出了一种考虑词频作用的互信息评估函数,并采用了K-近邻算法进行文本分类测试,通过分析测试结果,使用改进的互信息评估函数进行特征选择,提高了文本分类的精度。
其他文献
形势在不断发展变化,大学生思想教育工作面临着新的机遇和挑战,高校思想教育工作者应当增强信心,紧特抓住当前做好大学生思想教育工作的良好契机,加强大学生思想教育工作,提高工作
提出MBSA算法,采用Java中的TreeMap的映射技术和压缩的BitSet来存储大量的布尔变量值,并且该算法只扫描一次事务数据库,用BitSet的逻辑“与”操作来代替数据库的扫描,有效提高了运行速度。将该算法应用到遥感图像挖掘中,提取遥感图像中红、绿、蓝波段与农作物产量之间的关联,为提高农作物产量提供有益的支持。
本文主要介绍了包装印刷产品在外观上和功能上的几种特殊加工方式,采用例举的方法分别介绍了逆向上光技术、亮光磨砂技术、无线射频标签技术和二维码技术在包装上的应用。
在一项对世界知名企业主管的调查中,当问及“您认为员工应具备的最基本的品质是什么”时,他们几乎无一例外地选择了“忠诚”。忠诚,是忠于、是诚实、是对企业的全心全意、是对工
运用集群式并行机结构的软硬件特点,进行波动方程三维叠前深度偏移,已成为加速其庞大计算的有效工具。而集群式并行机节点之间的负载平衡,则是制约并行计算算法加速比的关键问题。文中提出运用堆排序算法以动态分配各节点计算任务,并以频率域共炮集波动方程三维叠前深度偏移并行算法为例,展示负载平衡的实现过程。测试结果表明,文中提出的负载平衡并行算法具有良好的加速比及并行效率。
使用了一种改进的否定选择匹配算法来检测异常行为。在这种算法中考虑了位置因素对两个序列匹配度的影响,从而能够更加准确识别自体与非自体,有效地减小检测集的规模。首先使用正常的序列调用生成初始检测集,然后通过学习来扩充检测集,使用最终得到的检测集扫描一定长度的调用序列,通过其中异常序列的比例来显示该段序列调用是否出现了异常。最后给出了实验结果。