基于Naive Bayes的维吾尔文文本分类算法及其性能分析

来源 :计算机应用与软件 | 被引量 : 10次 | 上传用户:mantou119119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以大规模网络维吾尔文文本的自动分类技术研究为背景,设计模块化结构的维吾尔文本分类系统,在深入调研基础上选择Naive Bayes算法为分类引擎,用C#实现分类系统。预处理中,结合维吾尔语的词法特征,通过引入词干提取方法大大降低特征维数。在包含10大类共计3 000多个较大规模文本语料库基础上给出分类实验结果,再通过x2统计方法选择不同数目的特征,也分别给出分类实验结果。结果表明,预处理后的维吾尔文特征空间中只有1%-3%特征是最佳的,因而进一步确定哪些是最佳特征或降低特征空间维数是有可能的。
其他文献
越南汉籍《阮述》与《建福元年如清日程》均是对1883年越南遣使来华过程的记录.通过对两本日记的版本、流传、作者及内容的比较发现,二者在性质、文献价值方面存在差异,而内
杜诗名句“朱门酒肉臭,路有冻死骨”中的“臭”字的读音和意义长期以来一直没有引起足够的重视,大都把它读为chòu,但我认为这个声音不是杜诗的声音,是对作品原意的误读。应
汉韩篇章衔接中连接词语的使用均与各自语言特征密切相关,本文从这些连接词语的位置,汉韩语篇章衔接的连接词语按语义及功能的分类,以及在篇章中连接词语的使用之显性与隐性
如今,“90后”大学生即将成为大学校园里的新生力量,成为大学生的主要组成部分.“90后”这一代人是在我国经济高速发展的时代里成长起来的,他们从小就享受着父母的关爱,没经
我抚摸着眼前这把算盘,万千思绪涌上心头……17岁那年,我高考落榜了。由于家贫兄弟姐妹多,可以说,有围墙的大学就永远和我再见了。高考落榜对于我这个家境贫寒的农家子弟来说
目的:探讨班主任负责制在医院实习护生教学管理中的应用效果.方法:采用班主任负责制对实习护生开展教学管理,并评价其应用效果.结果:护生对教学组织、教学方法、师生关系的评
本文首先对高校图书馆隐性教育进行了概念上的阐释,然后讨论了高校图书馆隐性教育因素及其教育功能的开发,最后从多个不同的层面探讨了“发挥高校图书馆隐性教育功能,全面释
目的:观察微波联合宫糜汤治疗宫颈糜烂的临床疗效。方法:将200例宫颈糜烂患者分为观察组和对照组各100例,2组均采用微波治疗,观察组同时采用宫糜汤加减治疗。结果:治愈率观察
本文论述了图书馆档案信息资源的作用体现,并从整合基础、整合手段、整合保障三方面内容来就网络环境下图书馆档案信息资源的整合进行具体的探讨,意在为图书馆档案信息资源的
目的:了解放射工作人员健康状况,为改进放射防护措施提供依据。方法:按照卫生部《放射工作人员职业健康管理办法》等相关规定对放射工作人员进行职业健康检查并分析结果。结