基于索引项权重的文本特征选择方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:IT_Consultant
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证据权。利用KNN分类器在Reuters一21578标准数据集上进行训练和测试。实验结果表明,该方法能够选出有效特征,提高文本分类的性能。
其他文献
介绍了嵌入式Linux图形用户界面支持系统Nano-X Windows的特点和体系结构。特别针对Motorola PowerPC823硬件平台,详细描述了Nano-XWindows的移植方法和GUI设计,开发出键盘驱
当前大学物理教学面临着一系列现代化问题:一是教育观念的现代化,二是教学内容的现代化,三是教学手段的现代化。文章就大学物理课程教学的现代化问题进行了讨论,并对近年来中南大
ASP的生态系统是复杂和动态的,涉及众多参与者。从商业生态系统的角度出发,全面分析ASP生态系统、主要参与者、价值网络、缝隙市场以及ASP提供商的宏观战略选择。总体来讲,ASP市
文章首先介绍了目前一些较为常用的Web打印技术,比较其优缺点。并根据不同层次企业的需要,对比分析应用各种打印技术的成本及功能需求;在此基础上,利用网页脚本和Excel开发出适合
对于任何一种篮球竞赛来说,赛制结构是不变的。我们通过对各种竞赛体制及模式的研究,从中找出共性要素,并通过查询资料,借鉴国内外已有成果,完成了赛制结构的设计。有了赛制结构就
在总结了现有并行数据库实现模型的基础上,基于“半重写变换”模型实现了一个并行数据库系统的原型。通过对数据划分/重划分、并行选择、并行排序、并行连接等关键操作的实验
湖南要实现经济的跨越式发展,调整产业结构,协调区域经济内部的不均衡布局,就必须对高等职业教育加大改革力度。湖南省应以省统筹,树立正确的高职教育理念和办学指导思想,合理调整
在县乡财政收入中非税收入占有很大的比重,税源不足、政府各部门各环节本位利益的驱动、监督机制不健全是县乡非税收入膨胀的主要成因。县乡非税收入过度膨胀带来很多的负面消
进行虚拟组织项目后评估,从根本上来说是为了提高虚拟组织的决策和管理的科学性。结合虚拟组织项目后评估的作用、特点,构建了虚拟组织项目后评估体系,综合运用层次分析法和模糊
黄瓜的几种贮藏方法1.黄瓜的缸藏。最好选择晚秋品种,采收植株中部的腰瓜,采摘前充分灌水,使黄瓜充分吸水以利于贮藏,采摘时间最好是上午10时以前和下午16时以后。将预先洗干净的缸盛入