基于Rough Set理论的文本分类器研究

来源 :鞍山科技大学 辽宁科技大学 | 被引量 : 0次 | 上传用户:jiangyang0121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文选择了信息检索领域的关键问题文本分类作为研究对象。将文本分类操作的分类算法和怎样将Rough Set理论应用于分类操作作为研究重点。 由于Rough Set理论是一种较新的软计算方法,可以有效地分析和处理不完备信息。在许多科学与工程领域得到成功的应用,但是在信息检索领域的应用研究相对较少。所以本文将怎样把Rough Set理论应用于文本分类模型这个典型问题作为研究的重点。研究分析了Rough Set理论应用于文本操作的现状、论述了Rough Set理论应用的优势以及局限性和文本操作所面临的困难。本文的一个基本观点是“不完备和不一致的文本信息系统的“规则”是不可靠的”。所以应用Rough Set理论的重点不从“属性约简”、“规则提取”的角度的进行。 本文提出一种新的训练模型,即将训练预分类标准和关键字出现视为不可分关系,形成确定的知识,同时又将其视为不确定的知识。并以此作为粗糙操作的基础。给出了基于Rough Set理论的文本训练类别和特征关键字在给定文本集合中的关联关系的研究结果。即从集合的角度总结出由特征引起的集合与由训练类别引起的集合之间存在的几种典型关系,以及在粗糙集模型下的相应结论。解决了关键字描述能力和分类能力的表达问题,内容还涉及退化、约简等内容。最后,提出一种基于Rough Set理论的单分类器模型算法。它从Rough Set理论的知识近似表示、表示精度及集合计算操作的角度进行应用。该方法提出“将文本训练过程视为经典粗糙集,将测试过程视为模糊集”的思想,通过特征与类别之间在Rough Set模型下的关联关系设计出单分类器的算法,并将粗糙精度的概念引入具体计算过程。算法解决了结果精确隶属的问题,可以被用于多重分类问题。然后针对应用过程中产生的退化问题设计出双向近似的单文本分类器的算法。该算法同时实现了属性的自然约简。通过实验证明以上算法是算法简单、有效。 另外,本文还将容差Rough Set理论应用于文本分类,提出一种基于容差Rough Set理论的多文本分类器模型算法。它从Rough Set理论的关系定义及上近似和下近似含义扩展的角度进行应用。该模型将上近似理解为概念在语义上的扩展,而将下近似理解为概念的核。并且将该思想应用于文本简单分类法。
其他文献
随着校园信息化建设的迅速发展,校园网络为学校的教学、科研和管理等工作提供了较好的资源共享、信息交流和协同工作。但是,校园网络信息系统也面临着一系列的问题,如存在信
近年来,网络教学平台不断涌现,但许多网络教学平台的个性化教学并不能令人满意,教学质量不高。这样,网上适应性教学就成为现代远程教学发展的必然趋势,而其中学生模型作为适
因特网流量十二个月翻一番的爆炸式发展使网络技术的研究成为当前的热点,特别是路由器的设计技术更成为关注的焦点。通过分析网络处理器的架构和微引擎的编程方式,在基于Inte
入侵检测系统作为一种积极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时防护:在网络系统受到危害之前,拦截和响应入侵。现在的入侵检测系统面临着巨大挑战:日趋
在现代信息安全系统中,由于数字签名司以提供数据完整性和可鉴别性,满足电子商务、电子政务的需求,因此,它在当今信息化社会中是一种非常重要的技术。在代理签名体制中,原始签名者
随着Internet的不断发展,IP网络中的业务类型不断增多,各种对网络服务质量要求较高的新型网络应用不断涌现,例如流媒体视频、网络电视、网络视频会议等。这些新型的网络业务有着
伴随着计算机技术的不断发展,基于数字图像处理以及图像模式识别技术的应用也随之延伸到各个方面。文档的电子化管理已成为文档管理的大趋势,因而研究纸质文档资料的电子化处
定位候选策略是目前发现疾病基因的主要方法,其关键问题之一是如何对采用连锁分析等方法定位的疾病区间中数以百计的候选基因进行致病风险评估。有效解决这一问题对于缩短疾
近年来,随着在Internet上流媒体、视频等业务的相继开展,IP组播技术和应用开始快速发展。因组播技术能以高效、可扩展的方式发送单点到多点、多点到多点的数据,能有效节省带宽和
随着网络技术的飞速发展与普及,信息处理已经成为人们获取有用信息不可缺少的工具,而文本自动分类则是信息处理的重要研究方向。 当前的文本分类方法主要有基于概率的统计分