基于粗糙集理论的文本分类技术研究

来源 :天津师范大学 | 被引量 : 10次 | 上传用户:zskarl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和通讯技术的飞速发展,信息处理成为人们获取有用信息不可缺少的工具。文本分类是中文信息处理的一个重要的研究领域。其目标是在分析文本内容的基础上,给文本分配一个或多个比较合适的类别,从而提高文本检索等应用的处理效率。粗糙集理论是一种处理模糊和不确定知识的强有力的数学工具,能有效分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出决策或分类规则。本论文主要对基于粗糙集理论的文本分类系统进行了系统的研究。具体的研究内容和创新性研究有:详细介绍了文本分类的基本内容和粗糙集及其相关理论和方法;在文本分类和粗糙集理论的基础上,提出了基于粗糙集的文本分类系统模型;研究了粗糙集理论中的属性约简算法,并找出合适的用于启发式属性约简的属性重要性衡量方法;对于粗糙集理论中的启发式属性约简算法进行改进,利用两种约简信息,变传统的一次约简为二次约简。根据此约简算法提出一个基于改进启发式属性约简的粗糙集文本分类系统,实验结果表明:将改进后的属性约简算法运用在文本分类模型中,能够得到较好的分类效果。
其他文献
摄影于我来说,它不像是一种职业,我更喜欢用一个“玩”来描述或者形容。现在算起来,我玩摄影已经有十年多了。当年我也是一腔热血,买了很多关于摄影的设备和器材,那时候觉得
随着信息技术的发展,计算机和互联网已经融入进了我们生活中的各个方面,也正在慢慢地影响着我们的思维,改变着我们解决问题的方式。在此过程中,计算思维也变得日益重要。在教
导入设计是初中地理课堂教学设计中十分重要的环节,可以激发学生学习兴趣和拓展学生思维能力.课堂教学是一个整体,“新课导入”是其中的一个环节,是课堂教学整体的有机组成部
“锡”字左面的撇可放也可收。右下边的横折竖钩需写得“放”一些。中宫收紧,使右上部留一空白相呼应。末了的两撇可参照前面“勿”字的方法。3.右偏旁结构立刀旁结构的字,中
今天日趋激烈的铁饼运动比赛对铁饼运动员的专项竞技水平提出了更高的要求。专项身体素质的科学化、专项化训练显得尤为重要。为此,本文从专项训练学的角度对我国女子铁饼运动
加强和改进国有企业统战工作,是深入贯彻科学发展观的客观要求,是认真落实十八届五中全会精神的重大举措,也是构建和谐社会、建设和谐企业的主要内容,因此在新形势下,国有企
加强基层党组织建设是新形势下党对基层生产过程、经营管理活动进行领导的有效方式。随着社会主义市场经济的迅猛发展,基层党组织建设也要与时俱进,随着形势的变化而变化。笔
《六君子图》绘江南秋色,坡陀上有松、柏、樟、楠、槐、榆六种树木,疏密掩映,姿势挺拔。图的上部有远山地抹。全图气象萧疏,近乎荒凉,用笔简洁疏放。此图后有黄公望题诗云:“
今年以来,店坪矿团委围绕“大众创业,万众创新”工作,努力提升团组织能量,不断增进青年的创新力、执行力,引领青年自主创业。为强化青年职工创业创新能力,矿团委积极营造浓郁
有梦想才能激发青春,青春需要奋斗才能成就梦想。“五·四”青年节当天,邹城市峄山脚下迎来一支特殊的队伍,他们一身轻装,高举共青团团旗,兴高采烈地相聚在一起,共同庆祝青年